Полученные результаты удобно представить в виде таблицы.
Вторая строка таблицы представляет собой вариационный ряд для частот, третья — для относительных частот, четвертая — для кумулятивных относительных частот. Если число вариант k не очень велико, то для того, чтобы получить более наглядное представление о распределение случайной величины Х строят полигоны или кумуляты. Для этого на оси абсцисс откладывают значения вариант
, а на оси ординат соответствующие значения частот или относительных частот или кумулятивных относительных частот Fi. Ясно, что полигон относительных частот дает представление о распределение вероятностей, а график кумулятивных относительных частот можно назвать эмпирической функцией распределения.Эмпирическая функция распределения определена на всей числовой оси. Ясно, что
для всех и для всех . На интервале функция будет иметь вид ступенчатой монотонно возрастающей от 0 до 1 функции такой, что .Рассмотрим пример. Пусть в результате обследования получены следующие значения вариант:
8 | 8 | 9 | 8 | 10 | 9 | 7 | 7 | 6 | 10 | 5 | 11 | 10 | 8 | 7 | 8 |
5 | 8 | 7 | 7 | 11 | 10 | 11 | 9 | 7 | 8 | 5 | 10 | 8 | 7 | 9 | 6 |
10 | 7 | 8 | 6 | 6 | 10 | 9 | 9 | 9 | 8 | 7 | 6 | 7 | 8 | 9 | 8 |
8 | 5 | 8 | 9 | 7 | 11 | 9 | 9 | 9 | 8 | 6 | 9 | 11 | 10 | 7 | 6 |
Все значения (
) вариант целочисленные, , . Таблица для этих данных принимает следующий вид (таблица ):Как уже отмечалось выше, для непрерывной случайной величины всю область ее возможных значений нужно разделить на интервалы, которые называют классами. Обычно ширины всех классов выбирают одинаковыми. Ширину интервалов ΔX определяют формулой
,где Xmax и Xmin— наибольшее и наименьшее значение признака в выборке, а k— количество классов. Оптимальное число классов зависит от объема выборки. При этом используют таблицу
Объем выборки — n | 25 ¸ 40 | 40 ¸ 60 | 60 ¸ 100 | 100 ¸ 200 | 200 ¸ 1000 |
Число классов — k | 5 ¸ 6 | 6 ¸ 8 | 7 ¸ 10 | 8 ¸ 12 | 10 ¸ 15 |
Количество вариант в классе есть частота попадания в данный класс. Все классы кроме последнего представляют собой полуоткрытые справа интервалы (например
), а последний закрытый . Можно составить таблицу интервальных вариационных рядов; ее общий вид таков:Здесь ai – границы классовых интервалов.
Если на оси абсцисс отложить классовые интервалы и над ними построить прямоугольники с высотами, равными соответствующим плотностям fiотносительной частоты, то площадь каждого прямоугольника будет равна относительной частоте
. Полученная таким образом ступенчатая фигура называется гистограммой. Площадь под гистограммой равна единице, так как она равна сумме площадей всех прямоугольников . Понятно, что линия, которая идет по оси абсцисс, затем огибает гистограмму и затем снова идет по оси абсцисс является графиком эмпирической функции плотности вероятности.Интервальный вариационный ряд можно построить и для дискретной случайной величины, если объем выборки достаточно большой. Нужно, чтобы в каждом классе было не менее трех вариант. В этом случае мы как бы совершаем переход от дискретной случайной величины к непрерывной.
Рассмотрим пример. Измерена частота пульса Xi (число сокращений сердца за минуту) у 1060 студентов (
— объем выборки), , . Выборка очень большая, поэтому выберем число классов . Тогда , то есть в интервале содержится четыре значения Х (здесь у нас дискретная случайная величина). Допустим, на основании имеющихся вариант мы построили таблицу интервальных вариационных рядов.№ класса | Классовый интервал | Частота mi | Отн. частота pi | Плотность отн. частоты fi | Комулятивная отн. частота Fi |
1 | [43;47[ | 1 | 0.0008 | 0.0002 | 0¸0.0008 |
2 | [47;51[ | 3 | 0.0028 | 0.0007 | 0.0008¸0.0036 |
3 | [51;55[ | 6 | 0.0056 | 0.0014 | 0.0036¸0.0092 |
4 | [55;59[ | 22 | 0.0208 | 0.0052 | 0.0092¸0.0300 |
5 | [59;63[ | 52 | 0.0492 | 0.0123 | 0.0300¸0.0792 |
6 | [63;67[ | 79 | 0.0744 | 0.0186 | 0.0792¸0.1536 |
7 | [67;71[ | 118 | 0.1112 | 0.0278 | 0.1536¸0.2648 |
8 | [71;75[ | 165 | 0.1556 | 0.0389 | 0.2648¸0.4204 |
9 | [75;79[ | 186 | 0.1756 | 0.0439 | 0.4204¸0.5960 |
10 | [79;83[ | 165 | 0.1556 | 0.0389 | 0.5960¸0.7516 |
11 | [83;87[ | 103 | 0.0972 | 0.0243 | 0.7516¸0.8488 |
12 | [87;91[ | 82 | 0.0772 | 0.0193 | 0.8488¸0.9260 |
13 | [91;95[ | 45 | 0.0424 | 0.0106 | 0.9260¸0.9684 |
14 | [95;97[ | 19 | 0.0180 | 0.0045 | 0.9684¸0.9864 |
15 | [99;103[ | 11 | 0.0104 | 0.0026 | 0.9864¸0.9970 |
16 | [103;107[ | 3 | 0.0021 | 0.0007 | 0.9970¸0.9999 |
Сумма | 1060 | 1 | 0.25 | 1 |
На основании этих результатов строим гистограмму и эмпирическую функцию распределения. Так как мы перешли от дискретной случайной величины к непрерывной, то мы считаем плотность вероятности постоянной внутри каждого интервала, а функция распределения на каждом интервале будет возрастать линейно от начального до конечного ее значения на интервале.
На рис. представлена гистограмма, которая почти симметрична относительно вертикали
. Три центральных класса с наибольшими частотами (модальная группа) оказались точно симметричными (см. таблицу). Поэтому хорошей оценкой моды, медианы и математического ожидания будет значение . Огибающая гистограммы и сама гистограмма с ростом объема выборки будут приближаться к кривой нормального распределения (кривой Гаусса) с параметрами и , то есть к кривой .Убеждаемся, что центральная предельная теорема выполняется.
На рис. представлена эмпирическая функция распределения — кумулята pi. Эта функция приближенно выражается через функцию Лапласа (или интеграл вероятностей)
: ,по формуле
.При
функция распределения F имеет точку перегиба ( ) и , то есть точка является медианой.4. Точечные оценки параметров распределения признака
Построение графиков эмпирических функций плотности вероятности гистограммы и функции распределения (кумяляты) дают общее представление о распределении случайной величины. Для уточнения деталей распределения по данным выборки статистики разработаны специальные методы. Очень помогают исследования, если удается определить тип закона распределения признака в генеральной совокупности (нормальный, биноминальный и др.). Очевидно, что благодаря центральной предельной теореме распределение генеральной совокупности часто является нормальным. И, следовательно, для уточнения модели остается точнее определить численные значения математического ожидания и дисперсии. Поэтому были точно рассчитаны распределения различных статистик для выборок из генеральной нормальной совокупности (c2, Стьюдента, Фишера). Теория статистики, построена на расположении о нормальности исходного распределения, была первой. Ее можно назвать Гауссовской статистикой.