Смекни!
smekni.com

Анализ эмпирического распределения (стр. 2 из 5)

Правильно построенный график делает статистическую информацию более выразительной, запоминающейся и удобно воспринимаемой[3].

Традиционно для изображения вариационных рядов распределения в отечественной практике используются графики: гистограмма, полигон, кумулята.

На рис. 1.2 представлен полигон распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г. в абсолютных частотах при количестве интервалов n=8. Он показывает, что наибольшую частоту имеет интервал 140,8-171,17, т.е. это модальный интервал.

Рис. 1.2. Полигон распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г. в абсолютных частотах (n=8)

На рис. 1.3 приведена кумулята распределения в абсолютных частотах, а на рис. 1.4. – в относительных частотах.

Из рисунка 1.2 видно, что середина распределения приходится на интервал 140,8-171,17, следовательно, этот интервал является медианным.


Рис. 1.3. Кумулята распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г., n=8 (абсолютные частоты)

Одной из часто используемых видов графиков является гистограмма (или столбиковая диаграмма), т.е. график распределения, на котором частоты каждого интервала представлены в виде столбиков (рис. 1.5).

Рис. 1.4. Кумулята распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г., n=8 (относительные частоты)


Рис. 1.5. Гистограмма распределения количества легковых автомобилей на 1000 чел. населения по регионам России за 2005 г. (n=8)

2. ХАРАКТЕРИСТИКА ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

РАСПРЕДЕЛЕНИЯ

Статистический анализ вариационных рядов распределения предполагает расчет характеристик центра распределения, его структуры, оценку степени вариации и дифференциации изучаемого признака, изучение формы распределения.

В качестве показателей центральной тенденции распределения используются: среднее арифметическое значение, мода и медиана.

Средней арифметической величиной называется такое значение признака в расчете на единицу совокупности, при вычислении которого общий объем признака в совокупности сохраняется неизменным.

Иными словами, средняя арифметическая величина — среднее слагаемое. При ее вычислении общий объем признака мысленно распределяется поровну между всеми единицами совокупности[4].

Средняя арифметическая определяется по формулам:

1) Средней арифметической простой (для несгруппированных данных):

,(2.1)

где:

– значение признака у i-й единицы совокупности; n – объем совокупности (ValidN).

2) Средней арифметической взвешенной (для интервального вариационного ряда):

, (2.2)

где:fi – абсолютные частоты; xi – середина интервала.

Определим среднюю арифметическую для рассматриваемых данных:

1. По формуле простой средней на основе массива несгруппированых данных:

2. По формуле средней арифметической взвешенной на основе группировочной таблицы с 8 интервалами (табл. 2.1):


Таблица 2.1 Расчет средней арифметической взвешенной для распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г.

Интервал Абсолютная частота (fi) Середина интервала (xi)
19,31429-49,68571 2 34,5 69
49,68571-80,05714 3 64,871425 194,6143
80,05714-110,4286 6 95,24287 571,4572
110,4286-140,8 15 125,6143 1884,215
140,8-171,1714 32 155,9857 4991,542
171,1714-201,5429 13 186,35715 2422,643
201,5429-231,9143 4 216,7286 866,9144
231,9143-262,2857 5 247,1 1235,5
Итого: 80 12235,89

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применить геометрическую среднюю величину. Ее формула такова:

(2.3)

Значение средней геометрической было рассчитано с помощью ППП «Statistica» и составило 145,9133.

При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана – величина варьирующего признака, делящая совокупность на две равные части – со значениями признака меньше медианы и со значениями признака больше медианы.

В интервальном вариационном ряду для нахождения медианы применяется формула:


, (2.4)

где: Ме – медиана; Хе – нижняя граница интервала, в котором находится медиана; n – число наблюдений; fMe-1 – накопленная частота в интервале, предшествующем медианному; fMe – частота в медианном интервале; i – величина интервала.

Рассчитаем значение медианы вариационного ряда, использовав для этого таблицу распределения с 8-ю интервалами (табл. 2.1). Медианным интервалом является интервал 140,8-171,1714, следовательно нижняя граница медианного интервала – 140,8; величина интервала – 30,37 (164,42–171,17); кумулятивная частота предшествующего интервала – 26, частота медианного интервала – 32. Медиана вариационного ряда равна:

Значение медианы, рассчитанное с помощью программы Statistica (по исходному несгруппированному ряду данных), составляет 153,45.

Важное значение имеет такая величина признака, которая встречается в изучаемом ряду, в совокупности чаще всего. Такую величину принято называть модой и обозначать Мо. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой.

В интервальном вариационном ряду, тем более при непрерывной вариации признака, строго говоря, каждое значение признака встречается только один раз. Модальным интервалом является интервал с наибольшей частотой. Значение моды в интервальном ряду распределения определяется по следующей формуле:


, (2.5)

где:Х0 – нижняя частота модального интервала; fMo – частота в модальном интервале; fMo-1 – частота в предыдущем интервале; fMo+1 – частота в следующем интервале за модальным; i – величина интервала.

Модальным интервалом является интервал 140,8-171,17; нижняя граница интервала – 140,8; частота модального интервала – 32, частота предыдущего интервала – 15; частота следующего интервала – 13; величина интервала – 30,37.

Определим модальное значение:

В ППП Statistica значение моды определяется непосредственно по исходным несгруппированным данным. Для рассматриваемого случая модальное значение равно 161,7, а его частота составляет 2.

3. ОЦЕНКА ВАРИАЦИИ ИЗУЧАЕМОГО ПРИЗНАКА

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени[5].

Она возникает в результате того, что индивидуальные значения признака складываются под влиянием различных факторов, которые в разном случае могут сочетаться по-разному.

К показателям вариации относятся: размах вариации, дисперсия и среднее квадратическое отклонение, коэффициент вариации.

Простейшим показателем вариации является размах, или амплитуда вариации, – абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений. Таким образом, размах вариации вычисляется по формуле:

, (3.1)

Минимальное значение признака (Xmin) для исследуемой совокупности составило 34,5, а максимальное (Xmax) – 247,1. Следовательно, размах вариации для вариационного ряда составляет:

Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины и вычисляется по следующим формулам:

Простая дисперсия для несгруппированных данных:

(3.2)

Взвешенная дисперсия для вариационного ряда:

(3.3)

Простая дисперсия по несгруппированным данным была рассчитана с помощью программы Statistica и составила 1730,257.

Взвешенная дисперсия по сгруппированным данным рассчитана в табл. 3.1


Таблица 3.1 Расчет дисперсии для распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г.