Правильно построенный график делает статистическую информацию более выразительной, запоминающейся и удобно воспринимаемой[3].
Традиционно для изображения вариационных рядов распределения в отечественной практике используются графики: гистограмма, полигон, кумулята.
На рис. 1.2 представлен полигон распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г. в абсолютных частотах при количестве интервалов n=8. Он показывает, что наибольшую частоту имеет интервал 140,8-171,17, т.е. это модальный интервал.
Рис. 1.2. Полигон распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г. в абсолютных частотах (n=8)
На рис. 1.3 приведена кумулята распределения в абсолютных частотах, а на рис. 1.4. – в относительных частотах.
Из рисунка 1.2 видно, что середина распределения приходится на интервал 140,8-171,17, следовательно, этот интервал является медианным.
Рис. 1.3. Кумулята распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г., n=8 (абсолютные частоты)
Одной из часто используемых видов графиков является гистограмма (или столбиковая диаграмма), т.е. график распределения, на котором частоты каждого интервала представлены в виде столбиков (рис. 1.5).
Рис. 1.4. Кумулята распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г., n=8 (относительные частоты)
Рис. 1.5. Гистограмма распределения количества легковых автомобилей на 1000 чел. населения по регионам России за 2005 г. (n=8)
2. ХАРАКТЕРИСТИКА ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
РАСПРЕДЕЛЕНИЯ
Статистический анализ вариационных рядов распределения предполагает расчет характеристик центра распределения, его структуры, оценку степени вариации и дифференциации изучаемого признака, изучение формы распределения.
В качестве показателей центральной тенденции распределения используются: среднее арифметическое значение, мода и медиана.
Средней арифметической величиной называется такое значение признака в расчете на единицу совокупности, при вычислении которого общий объем признака в совокупности сохраняется неизменным.
Иными словами, средняя арифметическая величина — среднее слагаемое. При ее вычислении общий объем признака мысленно распределяется поровну между всеми единицами совокупности[4].
Средняя арифметическая определяется по формулам:
1) Средней арифметической простой (для несгруппированных данных):
,(2.1)где:
– значение признака у i-й единицы совокупности; n – объем совокупности (ValidN).2) Средней арифметической взвешенной (для интервального вариационного ряда):
, (2.2)где:fi – абсолютные частоты; xi – середина интервала.
Определим среднюю арифметическую для рассматриваемых данных:
1. По формуле простой средней на основе массива несгруппированых данных:
2. По формуле средней арифметической взвешенной на основе группировочной таблицы с 8 интервалами (табл. 2.1):
Таблица 2.1 Расчет средней арифметической взвешенной для распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г.
Интервал | Абсолютная частота (fi) | Середина интервала (xi) | |
19,31429-49,68571 | 2 | 34,5 | 69 |
49,68571-80,05714 | 3 | 64,871425 | 194,6143 |
80,05714-110,4286 | 6 | 95,24287 | 571,4572 |
110,4286-140,8 | 15 | 125,6143 | 1884,215 |
140,8-171,1714 | 32 | 155,9857 | 4991,542 |
171,1714-201,5429 | 13 | 186,35715 | 2422,643 |
201,5429-231,9143 | 4 | 216,7286 | 866,9144 |
231,9143-262,2857 | 5 | 247,1 | 1235,5 |
Итого: | 80 | – | 12235,89 |
Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применить геометрическую среднюю величину. Ее формула такова:
(2.3)Значение средней геометрической было рассчитано с помощью ППП «Statistica» и составило 145,9133.
При изучении вариации применяются такие характеристики вариационного ряда, которые описывают количественно его структуру, строение. Такова, например, медиана – величина варьирующего признака, делящая совокупность на две равные части – со значениями признака меньше медианы и со значениями признака больше медианы.
В интервальном вариационном ряду для нахождения медианы применяется формула:
где: Ме – медиана; Хе – нижняя граница интервала, в котором находится медиана; n – число наблюдений; fMe-1 – накопленная частота в интервале, предшествующем медианному; fMe – частота в медианном интервале; i – величина интервала.
Рассчитаем значение медианы вариационного ряда, использовав для этого таблицу распределения с 8-ю интервалами (табл. 2.1). Медианным интервалом является интервал 140,8-171,1714, следовательно нижняя граница медианного интервала – 140,8; величина интервала – 30,37 (164,42–171,17); кумулятивная частота предшествующего интервала – 26, частота медианного интервала – 32. Медиана вариационного ряда равна:
Значение медианы, рассчитанное с помощью программы Statistica (по исходному несгруппированному ряду данных), составляет 153,45.
Важное значение имеет такая величина признака, которая встречается в изучаемом ряду, в совокупности чаще всего. Такую величину принято называть модой и обозначать Мо. В дискретном ряду мода определяется без вычисления как значение признака с наибольшей частотой.
В интервальном вариационном ряду, тем более при непрерывной вариации признака, строго говоря, каждое значение признака встречается только один раз. Модальным интервалом является интервал с наибольшей частотой. Значение моды в интервальном ряду распределения определяется по следующей формуле:
где:Х0 – нижняя частота модального интервала; fMo – частота в модальном интервале; fMo-1 – частота в предыдущем интервале; fMo+1 – частота в следующем интервале за модальным; i – величина интервала.
Модальным интервалом является интервал 140,8-171,17; нижняя граница интервала – 140,8; частота модального интервала – 32, частота предыдущего интервала – 15; частота следующего интервала – 13; величина интервала – 30,37.
Определим модальное значение:
В ППП Statistica значение моды определяется непосредственно по исходным несгруппированным данным. Для рассматриваемого случая модальное значение равно 161,7, а его частота составляет 2.
3. ОЦЕНКА ВАРИАЦИИ ИЗУЧАЕМОГО ПРИЗНАКА
Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени[5].
Она возникает в результате того, что индивидуальные значения признака складываются под влиянием различных факторов, которые в разном случае могут сочетаться по-разному.
К показателям вариации относятся: размах вариации, дисперсия и среднее квадратическое отклонение, коэффициент вариации.
Простейшим показателем вариации является размах, или амплитуда вариации, – абсолютная разность между максимальным и минимальным значениями признака из имеющихся в изучаемой совокупности значений. Таким образом, размах вариации вычисляется по формуле:
, (3.1)Минимальное значение признака (Xmin) для исследуемой совокупности составило 34,5, а максимальное (Xmax) – 247,1. Следовательно, размах вариации для вариационного ряда составляет:
Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины и вычисляется по следующим формулам:
Простая дисперсия для несгруппированных данных:
(3.2)Взвешенная дисперсия для вариационного ряда:
(3.3)Простая дисперсия по несгруппированным данным была рассчитана с помощью программы Statistica и составила 1730,257.
Взвешенная дисперсия по сгруппированным данным рассчитана в табл. 3.1
Таблица 3.1 Расчет дисперсии для распределения регионов России по количеству легковых автомобилей на 1000 чел. населения за 2005 г.