В 1908 году английский математик Вильям Госсет дал решение задачи малых выборок (псевдоним Стьюдент). Стьюдент показал, что в условиях малых выборок надо рассматривать не распределение самих средних, а их нормированных отклонений от средних генеральных.
Надо рассматривать:
- это чётное распределение.Оно зависит только от объёма выборки n и не зависит ни от математического ожидания, ни от дисперсии случайной величины Х. При n→∞ t – распределение Стьюдента переходит в нормальное распределение.
Поскольку в большинстве случаев σ генеральной совокупности неизвестно, то работает с такой величиной:
- состоятельная и несмещённая оценка.
Существуют t таблицы распределения Стьюдента.
Величина доверительной вероятности, её выбор находятся за пределами прикладной статистики. Они задаются самим исследователем. Величина доверительной вероятности определяется тяжестью тех последствий, которые могут произойти в случае, если произойдёт нежелательное событие.
Величина tn,p показывает предельную случайную ошибку расхождения средневыборочного и математического ожидания.
Распределение дисперсии в выборках нормальной совокупности.
Распределение χ2 Пирсона.
Выборочная дисперсия так же является случайной величиной меняющейся от выборки к выборки.
1) М(Х) – известно;
2) М(Х) – не известно.
1) Имеется случайная величина Х, которая подчиняется нормальному закону с параметрами (m, σ2),
где: хi(i = 1, 2, …, n) – независимые наблюдения над случайной величиной.
Для дисперсии мы выбираем вот такую оценку:
- несмещённая, состоятельная и эффективная оценка дисперсию генеральной совокупности.Величина Ui является случайной величиной с параметрами (0;1).
Случайная величина представляющая собой сумму квадратов n независимых случайных величин, каждая из которых подчиняется нормальному закону распределения с параметрами (0;1) и независимых случайных величин с распределением χ2 с к = n – степенями свободы.
Сама функция плотности вероятности f(χ2) имеет вид:
Эта функция зависит только от объёма выборки и не зависит ни от математического ожидания, ни от дисперсии, ни от х.
Имеются таблицы распределения χ2 позволяющие вычислить вероятность события
,где: к – число степеней свободы;
α – доверительная вероятность, которая задаётся самим исследователем.
2) Математическое ожидание неизвестно.
Когда случайная величина Х с параметрами (m, σ2) – неизвестны.
Для оценки дисперсии генеральной совокупности используется величина:
Случайная величина
имеет распределение χ2 с к = n – 1 степенями свободы.Уменьшение степени свободы использована для получения среднего выборочного.
Доверительный интервал.
Рассмотренные ранее оценки получили название точечных оценок. На практике широко используются интервальные оценки, для получения которых используется метод доверительных интервалов.
В методе доверительных интервалов указывает не одно(точечное) значение интересующего нас параметра, а целый интервал. Он строится на основе неравенства Чебышева:
Задаётся некоторое число 0 < α < 1 близкое к нулю, которое называется уровень значимости.
Параметр ε находится из неравенства:
, тогда:Интервал
называется доверительным интервалом с уровнем значимости α.Доверяясь расчёту мы утверждаем, что неизвестная вероятность принадлежит указанному интервалу, а вероятность возможной ошибки имеющей место тогда, когда этот интервал не накрывает истинное значение α не превосходит уровня значимости α.
n = 1000, m/n = 0,6
При α = 0,1 (0,550; 0,650)
При α = 0,01 (0,442; 0,758)
Истинное значение вероятности Р мы незнаем, но можем утверждать, что первый интервал накрывает это значение с вероятностью не менее чем 0,9 , а второй – 0,99.
Пример. Имеется некоторое предположение, гипотеза, о том, что неизвестная вероятность Р равна заданному число Р0:
Н0: р = р0; (Р0 = 0,5).
Эту гипотезу можно принять, а можно и отклонить посчитав её противоречащей известным статистическим данным.
Для принятия решения(проверки гипотезы) мы проделаем следующую процедуру:
Если Р0Î(Р*, Р*) с α, то гипотезу принимаем(возможно здесь и ошибка, мы можем принять ложную гипотезу – такая ошибка первого рода).
Если Р0Ï (Р*, Р*) с α, то гипотеза отвергается(здесь тоже можем совершить ошибку отклонить верную гипотезу – такая ошибка второго рода, вероятность такой ошибки заранее задаётся нами при построении доверительного интервала).
При наших предположениях, когда уровень значимости равен 0,1 в общем мы имеем Р0Ï (0,550; 0,650). Эта гипотеза отвергается, при этом мы ошибаемся не более чем в 1 случае из 10.
Построение доверительного интервала для математического ожидания.
Случайная величина Х распределённая с параметрами (m, σ2).
Математическое ожидание неизвестно и требуется построить для него доверительный интервал.
1. Известно σ2.
2. Неизвестно σ2.
1. σ2 известно.
Проводится выборка из генеральной совокупности и в качестве несмещённой, состоятельной и эффективной оценки математического ожидания выбирается
. Оно тоже подчиняется нормальному закону с параметрами: , где: n – объём выборки.Нормированная величина:
подчиняется нормальному закону распределения с параметрами (0; 1), тогда вероятность:
Вероятность задаётся уровнем α, величина Р – доверительная вероятность. По таблице находим величину Zp.
При известном Zp получим:
Интервал для математического ожидания (m*; m*) получим:
– доверительный интервал для математического ожидания с уровнем значимости α.
2. σ2 неизвестно.
Точно так же проводится выборка объёмом n, формируется случайная величина t
Случайная величина t имеет распределение Стьюдента.
Зная объём выборки n, задаваясь уровнем значимости α или задаваясь доверительной вероятностью р=1-α.
По распределению Стьюдента находим tn,p – максимальное отклонение m и
.где: Р – доверительная вероятность.
Отсюда легко строится доверительный интервал.
Несмотря на кажущиеся совпадения двух формул они существенно отличаются друг от друга.
Во втором случае величина доверительного интервала зависит не только от доверительной вероятности, но и от объёма выборки.
Это различие наиболее существенно проявляется при малых выборках.
Построение доверительного интервала для дисперсии.
Случайная величина Х распределена по нормальному закону с параметрами (m, σ2).
Требуется построить доверительный интервал для дисперсии по выборочным дисперсия.
илиПостроение доверительного интервала для дисперсии основывается на том, что случайные величины:
– имеют распределение χ2 ск = n, к = n – 1 – степенями свободы.
При заданной доверительной вероятности 1 – α мы записываем: