Проследить зависимость между факторами можно также на основе комбинационной группировки. Комбинационная группировка осуществляется одновременно по двум и более признакам, взятым в сочетании.
Макет комбинационной таблицы выглядит следующим образом:
Наименование таблицы
Группировка по признаку-фактору | Группировка по признаку-результату | Всего | |||
n11 | n12 | … | n1M | Σ nij | |
n21 | N22 | … | n2M | Σ n2j | |
… | … | … | … | … | |
nK1 | nk2 | … | NKM | Σ nMj | |
Всего | Σ ni1 | Σ ni2 | … | Σ niK | Σ nij |
Здесь nij - частота совместного появления значения i признака-фактора (i = 1,2,… , М) и значения j признака результата (j= 1,2, …, K).
Если наибольшие частоты каждой строки и каждого столбца располагаются вдоль диагонали таблицы, идущей от левого верхнего угла таблицы к правому нижнему, то можно сделать вывод, что связь между признаками является прямой и близкой к линейной.
Если наибольшие частоты располагаются вдоль диагонали от правого верхнего угла к нижнему левому, то связь — обратная и близкая к линейной.
Если частоты во всех клетках таблицы примерно одинаковы, то связи между признаками нет.
Задание №2
1. На основе равноинтервальной структурной группировки (для любого признака) построить вариационный частотный и кумулятивный ряды распределения, оформить в таблице, изобразить графически.
2. Проанализировать вариационный ряд распределения, вычислив:
· среднее арифметическое значение признака;
· медиану и моду, квартили и децили распределения;
· среднее квадратичное отклонение;
· коэффициент вариации.
3. Проверить теорему о разложении дисперсии, используя данные
аналитической группировки.
4. Сделать выводы.
Анализ статистических совокупностей включает в себя: построение рядов распределения; графическое представление распределения; определение характеристик центра распределения, показателей вариации.
Рядами распределения называют числовые ряды, характеризующие структуру совокупности по некоторому признаку. Ряд распределения может быть получен в результате структурной группировки. Ряд распределения, образованный по количественному признаку (он называется вариационным радом), может быть дискретным, если значения признака выражены целыми числами и каждая варианта представлена в вариационном ряде отдельной группой, или интервальным (непрерывным), если значения признака выражены вещественными числами или число вариант признака достаточно велико.
Ряд распределения состоит из следующих элементов:
xi - варианта- отдельное, возможное значение признака i=1,2,...,К, где К - число значений признака;
Ni - частоты - численность отдельных групп соответствующих значений признаков;
N - объём совокупности - общее число элементов совокупности;
qi - частость - доля отдельных групп во всей совокупности;
Di - величина интервала.
Если вариационный ряд представлен неравными интервалами, то рассчитывается абсолютная и относительная плотности распределения.
Абсолютная плотность h - это отношение частоты к величине интервала, а относительная плотность
- это отношение частости к величине интервала:hi=Ni /Di,
= qi /Di.Полученный вариационный ряд оформляется в виде таблицы, где в первой графе указываются варианты (интервалы) значений признака, а в следующих графах - частота, частость или, если необходимо, абсолютная или относительная плотность распределения.
Ряд распределения по частоте (частости) в целом характеризует структуру совокупности по данному признаку. Однако для описания распределения совокупность могут использоваться и кумулятивные ряды, т.е. ряды накопленных частот (или частостей), которые иногда имеют даже некоторые преимущества.
Накопленная частота (частость) данного значения признака - это число (доля) элементов совокупности, индивидуальные значения признака которых не превышают данного.
Обозначим: F(x) - накопленная частота для данного значения х; G(x) - накопленная частость для данного значения х.
Эти характеристики обладают следующими свойствами:
Рассмотрим интервалы
: .Первым этапом изучения вариационного ряда является его графическое изображение. Способы построения графиков для разных видов рядов распределения различны.
Изображением дискретного ряда распределения является полигон. В системе координат по оси абсцисс откладываются варианты
, по оси ординат - частоты (частости), затем отмечают точки с координатами ( ), которые последовательно соединяются отрезками прямой.Интервальный ряд распределения изображается графически в виде гистограммы. При ее построении на оси абсцисс откладывают интервалы ряда. Над осью абсцисс строятся прямоугольники, основанием которых является интервал, а высота - соответствующая этому интервалу плотность распределения (или частота, частость - если ряд равноинтервальный).
Изображением ряда накопленных частот служит кумулята. Накопленные частоты наносятся в системе координат в виде ординат для границ интервалов; соединяя нанесенные точки отрезками прямых, получаем кумуляту.
Вторым этапом изучения вариационного ряда является определение характеристик центра распределения. Характеристика центра распределения представляет собой такую величину, которая в некотором отношении характерна для данного распределения и является его центральной величиной.
К характеристикам центра распределения относятся: средняя арифметическая, медиана, мода.
Для сгруппированных данных, представленных в вариационном ряду, средняя арифметическая (
) определяется как: ,т.е. в качестве веса при усреднении берётся частота Ni , соответствующая групповым значениям xi. Если ряд дискретный, то каждое значение признака представлено. Если же ряд интервальный, то его нужно превратить в условно дискретный: в качестве группового значения xi для каждого интервала вычисляется его середина.
Медиана (Ме[x]) - это такое значение признака, которое делит объём совокупности пополам в том смысле, что число элементов совокупности с индивидуальными значениями признака, меньшими медианы, равна числу элементов совокупности с индивидуальными значениями больше медианы.
Численное значение медианы можно определить по ряду накопленных частот. Накопленная частота для Ме[х] равна половине объёма совокупности (F(Me[x]) = N/2); имея ряд накопленных частот, можно вычислить, при каком значении признака накопленная частота равна половине объёма совокупности. Для интервального ряда в этом случае определяется только интервал, в котором будет находиться Ме[x], само значение приближённо можно определить как:
,где
- начало интервала, содержащего медиану;- величина интервала, содержащего медиану; - накопленная частота на начало интервала, содержащего медиану;
N - объём совокупности;
- частота того интервала, в котором расположена медиана.
Квартили (Q1, Q2, Q3) - значения признака, делящие упорядоченную по значению признака совокупность на 4 равные части. 1-ая квартиль (Q1) определяет такое значение признака, что ¼ единиц совокупности имеют значения признака меньше, чем Q1, а ¾ - значения больше чем Q1. 2-ая квартиль (Q2) равна медиане. 3-я квартиль (Q3) определяет такое значение признака, что ¾ единиц совокупности имеют значения признака меньше, чем Q3, а ¼ - больше чем Q3. Значения квартилей для сгруппированных данных определяются по накопленным частотам. При этом для 1-ой квартили накопленная частота сравнивается с величиной N·1/4; для 3-ей квартили - с величиной N·3/4. Значение квартили для интервального ряда распределения может быть уточнено по формуле: