Статистические распределения и их основные характеристики
План
1. Вариация признаков в совокупности и значение её изучения
2. Основные характеристики и графическое изображение вариационного ряда
3. Показатели центра распределения
4. Показатели колеблемости признака
Составной частью сводной обработки данных статистического наблюдения является построение рядов распределения. Цель его - выявление основных свойств и закономерностей стат. совокупности.
Различают два типа рядов распределения:
атрибутивный;
вариационный.
Ряды распределения, построенные по качественным признакам, называют атрибутивными. (Например, распределение население по полу, характеру труда, национальности и т.д.)
Ряды распределения, построенные по количественному признаку называются вариационными. Числовые значения признака - вариантами.
Например, себестоимость 1 кВт/ч электроэнергии по различным тепловым станциям:
Станции | 1 | 2 | 3 | 4 | 5 |
с/с 1кВт/ч руб | 0,58 | 0,66 | 0,59 | 0,67 | 0,66 |
Здесь представлены четыре варианты признака в пределах от 0,58 до 0,67 руб. Колебания себестоимости 1 кВт/ч электроэнергии на различных ТЭЦ обусловлены различными факторами, часто действующими в противоположных направлениях (например, снижение уд. расхода топлива ведёт к снижению себестоимости 1 кВт/ч, а повышение цен на топливо - к увеличению себестоимости). В результате совместного действия многих факторов складывается величина собственности 1 кВт/ч на отдельных ТЭЦ.
Изучение характера и степени вариации признаков и отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Данные о стоимости 1 кВт. ч электроэнергии по 5 ТЭЦ образуют так называемый первичный ряд. При наличии достаточно большого количества вариантов значений признака первичный ряд становится труднообозримым и непосредственное рассмотрение его не дает представления о распределении единиц по величине признака в совокупности. Первым шагом в упорядочении первичного ряда является его ранжирование, т.е. расположение всех вариантов ряда в возрастающем (или убывающем) порядке x1£x2£…£xi£…£ xn.
В нашем примере ранжированный ряд имеет вид:
1 | 3 | 2 | 5 | 4 |
0,58 | 0,59 | 0,66 | 0,66 | 0,67 |
Рассматривая первичный ряд можно видеть, что варианты признака у отдельных единиц совокупности повторяются.
Число повторений отдельных вариантов называют частотой (обозначим ƒ)
Сумма частот, равная объему изучаемой совокупности - n.
По характеру вариации различают дискретные и непрерывные признаки.
Дискретные признаки отличаются друг от друга на некоторую конечную величину, т.е. даны в виде конкретных чисел. (Например, число детей в семье).
Непрерывные признаки могут отличаться друг от друга на сколь угодно малую величину и в определенных границах принимать любые значения. Например, зарплата рабочих, % выполнения.
Способы построения вариационного ряда для этих видов признаков различны. Для построения дискретного ряда с небольшим числом вариантов достаточно перечислить все встречающиеся варианты значений признака (xi), а затем подсчитать частоту повторений каждого варианта ƒi. (Например, распределение студентов по успеваемости и т.п.)
Ряд распределения принято оформлять в виде таблицы, например, распределение рабочих участка по квалификации.
Таблица 1.
Тарифный разряд рабочего (xi) | Число рабочих, имеющих этот разряд (ƒi) | Частости(vi) | Накопление частоты (Si) |
1 | 2 | 3 | 4 |
2 | 1 | 0,05 | 1 |
3 | 5 | 0,25 | 6 |
4 | 8 | 0,40 | 14 |
5 | 4 | 0, 20 | 18 |
6 | 2 | 0,10 | 20 |
Итого | 20 | 1,00 |
Таким образом, ряд первичных данных, характеризующих квалификацию двадцати рабочих, заменен коротким рядом, состоящим из 5 групп. Вместо абсолютного числа рабочих, имеющих определенный разряд, можно установить долю рабочих этого разряда.
Частоты, представленные в относительном выражении, называют частостями (выражаются в долях единиц или %, обозначаются vi).
В случаях, когда число вариантов дискретного признака велика, а также при анализе вариации непрерывного признака строятся интервальные ряды распределения.
Интервал указывает пределы значений варьирующего признака и обозначаются нижней и верхней границами интервала. Такие распределения наиболее распространены в практике статистической работы.
При построении интервальных рядов необходимо прежде всего установить число групп (интервалов). Для этого нужно определить величину интервала (h). Для построения вариационного ряда с равными интервалами следует:
определить размах вариации (R) - разность между максимальным и минимальным значением признака:
R = xmax- xmin;
Размах вариации делится на число групп k, т.е.
. Число групп приблизительно определяется по формуле Стерджессаk» 1+3,322 lgn,
где n- число изучаемых единиц совокупности. Это выражение, почти всегда дробное число, округляем до целого.
Величина интервала должна определяться в соответствии с точностью данных наблюдения: если исходные данные представлены целыми числами, то и величина интервала округляется до ближайшего целого числа.
Далее можно определить границы всех интервалов ряда распределения. Нижнюю границу I-го интервала можно принять равной минимальному значению признака.
При построении интервальных рядов для непрерывных признаков имеет место совпадение верхних границ предшествующих интервалов и нижних границ следующих за ними интервалом. В какой интервал относить единицы совокупности.
Рассмотрим пример построения ряда распределения по данным о среднегодовой стоимости основных фондов 20 предприятий главка одного министерства (млн. рублей): 3,7; 4,3; 6,7; 5,6; 5,1; 8,1; 4,6; 5,7; 6,4; 5,9; 5,2; 6,2; 6,3; 7,2; 7,9; 5,8; 4,9; 7,6; 7,0; 6,9.
Определяем количество групп вариационного ряда:
k» 1+3,322 lg20 = 1+3,322*1,301»5,32=5 (групп).
Величина интервала
млн. руб.В результате группировки получим ряд распределения предприятий по среднегодовой стоимости основных фондов.
Таблица 2.
Среднегодовая стоимость ОФ, млн. руб. | Число предприятий | Накопление частоты |
3,7 - 4,6 | 2 | 2 |
4,6 + 5,5 | 4 | 6 |
5,5 + 6,4 | 6 | 12 |
6,4 + 7,3 | 5 | 17 |
7,3 + 8,2 | 3 | 20 |
Значения признака у отдельных единиц совпала с границами интервала (3,7; 4,6 и 6,4). Так как xmin= 3,7 и совпадает с нижней границей I‑го интервала и включается в этот интервал, то и другие значения следует включать в интервал, нижняя граница которого совпадает с указанным значением (4,6 - включается во II‑й интервал, а 6,4 - в IV-ый).
Если приведенный вариационный ряд с неравными интервалами, то для правильного представления о характере распределения необходимо рассчитать абсолютную и относительную плотности распределения.
Абсолютная плотность:
;Относительная плотность:
Эти показатели необходимы для преобразования интервалов изменения оценки данных, собранных по различным совокупностям и по разному обработанных.
Например, по двум предприятиям известно распределение рабочих по проценту выполнения норм выработки.
Таблица 3.
Завод 1 | Завод 2 | ||
Группы рабочих | Кол-во рабочих,% к итогу | Группы рабочих | Кол-во рабочих,% к итогу |
До 90 | 2 | До 100 | 8 |
90-100 | 3 | 100-120 | 40 |
100-110 | 50 | 120-150 | 20 |
110-120 | 30 | 150-180 | 15 |
120-140 | 8 | 180 и выше | 17 |
140-150 | 5 | ||
150-160 | 2 | ||
ИТОГО | 100 | 100 |
Воспользуемся укрупнением интервалов для перегруппировки данных.
Таблица 4.
Группы рабочих по проценту выполнения норм выработки | Количество рабочих,% к итогу | |
Завод 1 | Завод 2 | |
До 100 | 5 | 8 |
100-120 | 80 | 40 |
120-150 | 13 | 20 |
150 и выше | 2 | 32 |
ИТОГО | 100 | 100 |
Можно воспользоваться и другой группировкой по проценту выполнения норм выработки, например, выделить такие интервалы:
Группы рабочих | 1 | 2 | 3 | 4 | 5 |
% выполнение нормы выработки | До 100 | 100-110 | 110-120 | 120-140 | 140-160 |
Для такой группировки возникает необходимость расширения ряда распределения рабочих Завода 2.
Если известна относительная плотность распределения, то частости соответствующего интервала можно определить: произведение плотности на величину интервала.
vi=m0i´h.
По данным таблицы 3 определяем плотности распределения группы рабочих по проценту выполнение норм выработки для интервалов:
ІІ - го: 100-120 m02=2,0 (40/20)
ІІІ - го: 120-150 m03=2/3 (20/30)
IV- го: 150-180 m04=1/2 (15/30)
Тогда количество рабочих (% к итогу) Завода 2, выполняющих норму на 140‑160% определяются так:
2/3´10+1/2´10=12.
Результаты перегруппировки представлены в таблице 5.