- выборочное среднее F12 = СРЗНАЧ (A1:J10);
- выборочная дисперсия F13 = ДИСП (A1:J10);
- выборочное среднее квадратическое отклонение
F14 = СТАНДОТКЛОН (A1:J10) или F14 = КОРЕНЬ (F13);
- Наименьшее значение: F15 = МИН(A1:J10);
- Наибольшее значение: F16 = МАКС(A1:J10);
- Размах выборки: F17 = F16-F15;
- Асимметрия: F18 = СКОС(A1:J10);
- Эксцесс: F19 = ЭКСЦЕСС(A1:J10).
1.6.3 Формирование статистического ряда и графическое представление данных
Для наглядного представления статистических данных воспользуемся группировкой. Числовая ось при этом разбивается на интервалы, и для каждого интервала подсчитывается число элементов выборки, которые в него попали. Группировка данных производится в следующей последовательности:
наименьшее значение округляется в меньшую сторону, а наибольшее – в большую сторону до «хороших» чисел хmin и хmax;
выбирается количество групп k, удовлетворяющее неравенству; иногда оно определяется по формуле k=[5lgn]. Если объем выборки n=100, то k=10;
находится шаг по формуле:
,где R = хmax - хmin – длина промежутка, в котором содержатся статистические данные;
определяются границы частичных интервалов:
а0 = хmin, а1 = а0 + h, a2 = a1 + h, … , ak = ak-1 + h = хmax;
в каждом интервале вычисляются средние значения
;для каждого интервала [ai-1,ai], i = 1,2, …,k находятся:
– частоты ni, т.е. число выборочных значений, попавших в интервал;
– относительные частоты
;– накопленные частоты wi = n1 + n2 + … + ni;
– накопленные относительные частоты
.Для выборочной совокупности (таблица 2) результаты группировки представим в таблице 4. Сначала укажем объем выборки, максимальное и минимальное значение, размах выборки, количество групп и шаг:
А22 = 100, В22 = 120, С22 = 70, D22 = B22 – C22, E22 = 10, F22 = D22/E22.
В ячейках А24:H24 укажем заголовки будущей таблицы. В этой таблице колонки В и С можно заполнить соответствующими формулами, представленными выше, для определения границ интервалов. Колонку D заполним по формуле: D30 = (B25+C25)/2, с последующим копированием в ячейки D26:D34.
Таблица 4 – Группировка статистических данных
A | B | C | D | E | F | G | H | |
n | Xmax | Xmin | R | k | h | |||
22 | 100 | 120 | 70 | 50 | 10 | 5 | ||
23 | ||||||||
24 | Группа | Левая граница | Правая граница | Середина | Частота | Относ. частота | Накоп. частота | Накоп. относ. частота |
25 | 1 | 70 | 75 | 72,5 | 0 | 0 | 0 | 0 |
26 | 2 | 75 | 80 | 77,5 | 1 | 0,01 | 1 | 0,01 |
27 | 3 | 80 | 85 | 82,5 | 4 | 0,04 | 5 | 0,05 |
28 | 4 | 85 | 90 | 87,5 | 16 | 0,16 | 21 | 0,21 |
29 | 5 | 90 | 95 | 92,5 | 18 | 0,18 | 39 | 0,39 |
30 | 6 | 95 | 100 | 97,5 | 24 | 0,24 | 63 | 0,63 |
31 | 7 | 100 | 105 | 102,5 | 16 | 0,16 | 79 | 0,79 |
32 | 8 | 105 | 110 | 107,5 | 11 | 0,11 | 90 | 0,9 |
33 | 9 | 110 | 115 | 112,5 | 7 | 0,07 | 97 | 0,97 |
34 | 10 | 115 | 120 | 117,5 | 3 | 0,03 | 100 | 1 |
Для заполнения колонки Е выделим ячейки Е25:Е34 и воспользуемся функцией ЧАСТОТА, указав массив статистических данных и массив правых границ интервалов: { = ЧАСТОТА (А1:J10; C25:C34)}
Одновременным нажатием клавиш заполним остальные выделенные ячейки.
Колонку F заполним с помощью формулы:
F25 = E25/$A$22, с последующим копированием в ячейки F26:F34
Колонку G заполним с помощью формулы:
G25 = E25, G26 = G25 + E26, с последующим копированием в ячейки G32:G39
Колонку H заполним с помощью формулы:
H25 = G25/$A$22, с последующим копированием в ячейки H26:H34
Данные, собранные в таблице 4 наглядно представим с помощью:
полигон частот – графическая зависимость частот (относительных частот) от середины интервалов (рисунок 1).
Рисунок 1 – Полигон частот
кумуляты частот – графическая зависимость накопленных частот (накопленных относительных частот) от середины интервалов (рисунок 2).
Рисунок 2 – Кумулята частот
1.6.4 Подбор подходящего закона распределения вероятностей
Далее рассмотрим некоторые известные распределения, такие как экспоненциальное, нормальное и гамма-распределение, с целью проверки подчиняется ли наше распределение вероятностей заданному.
Проверка на соответствие данных испытаний распределению производится перебором трех распределений, указанных выше, включая заданное, а именно гамма-распределение.
Чтобы иметь полную информацию о распределении случайной величины, надо знать параметры этого распределения. Таким образом, математическое ожидание случайной величины t равно выборочной средней, а среднее квадратическое отклонение случайной величины t – выборочному среднему квадратическому отклонению. Указанные характеристики находятся в ячейках F12 и F14 соответственно. Поместим эти значения в ячейки А2 и В2 соответственно (таблица 5).
Определим параметры экспоненциального (λ), нормального (m – математическое отклонение и σ – среднее квадратическое отклонение) и гамма-распределения (α и β) в соответствии с формулами:
, ,B5 = 1/A2;
B8 = A2;
B9 = B2;
B12 = (A2/B2)^2;
B13 = B2^2/A2.
Таблица 5 – Значения плотностей распределения
A | B | C | D | E | |
1 | Матем. ожидание | Ср. кв. отклон. | |||
2 | 98,68 | 8,767340682 | |||
3 | |||||
4 | Параметры экспоненциального распределения | ||||
5 | λ | 0,0101 | |||
6 | |||||
7 | Параметры нормального распределения | ||||
8 | m | 98,6800 | |||
9 | σ | 8,767340682 | |||
10 | |||||
11 | Параметры гамма-распределения | ||||
12 | α | 126,6842 | |||
13 | β | 0,7789 | |||
14 | |||||
15 | Середина | Плотность относит. частот | Плотность экспоненц. распред. | Плотность нормал. распред. | Плотность гамма- распред. |
16 | 72,5000 | 0 | 0,0049 | 0,0005 | 0,0003 |
17 | 77,5000 | 0,002 | 0,0046 | 0,0025 | 0,0019 |
18 | 82,5000 | 0,008 | 0,0044 | 0,0083 | 0,0080 |
19 | 87,5000 | 0,032 | 0,0042 | 0,0202 | 0,0213 |
20 | 92,5000 | 0,036 | 0,0040 | 0,0355 | 0,0374 |
21 | 97,5000 | 0,048 | 0,0038 | 0,0451 | 0,0456 |
22 | 102,5000 | 0,032 | 0,0036 | 0,0414 | 0,0399 |
23 | 107,5000 | 0,022 | 0,0034 | 0,0274 | 0,0259 |
24 | 112,5000 | 0,014 | 0,0032 | 0,0131 | 0,0128 |
25 | 117,5000 | 0,006 | 0,0031 | 0,0045 | 0,0049 |
В ячейках В16:В25 вычислим плотности относительных частот как частное от деления относительных частот (ячейки F25:F34) на шаг (ячейка $F$22) из таблицы 4.
Плотности экспоненциального, нормального и гамма-распределений рассчитываются в соответствии с формулами:
С16 = ЭКСПРАСП (А16;$B$5;ЛОЖЬ);
D16 = НОРМРАСП (А16;$B$8;$B$9;ЛОЖЬ);
E16 = ГАММАРАСП (А16;$B$12;$B$13;ЛОЖЬ).
Затем копируем их в блок ячеек С17:Е25.
После чего строим гистограмму частот, совмещенную с плотностью каждого из указанных ранее распределений. Графическое изображение гистограммы кривых различных распределений приведены на рисунках 3- 5.
Рисунок 3 – Сглаживание гистограммы плотностью экспоненциального распределения
Рисунок 4 – Сглаживание гистограммы плотностью нормального распределения
Рисунок 5 – Сглаживание гистограммы плотностью гамма-распределения
Используя критерий χ2, установим, верна ли принятая гипотеза о том, что статистические данные подчиняются нормальному распределению.
Для применения критерия χ2 необходимо, чтобы частоты ni, соответствующие каждому интервалу, были не меньше 5. Для этого при необходимости объединим рядом стоящие интервалы, а их частоты суммируем. Далее вычислим следующую сумму: