Так вот, решающее правило, согласно которому мы будем действовать, принято называть статистическим критерием. К сожалению, не существует единого, универсального критерия значимости – их приходится разрабатывать в теории и использовать на практике применительно к особенностям конкретных задач.
Вместе с тем, любому критерию значимости присуще одно и то же свойство – во всех случаях мы не получим категоричного указания на “истинную” гипотезу, прямого ответа на вопрос – какую из гипотез нам принять.
Еще более непривычным для человека с навыками искать и находить ответы в расчетных задачах, будет сама форма ответа на вопрос о сравнении гипотез Њ0 и Њ1 – например, в таком виде "если отбросить нулевую гипотезу, то вероятность ошибки такого действия не превосходит 3 % ".
Дальше уже наше дело, принять или отвергнуть ту или иную гипотезу – теория большего дать не в состоянии. Надо понять различие между выделенным утверждением и вроде бы аналогичным – "вероятность верности гипотезы Њ1 составляет 97%" . Все между тем очень просто – вычислить возможно только вероятность ошибочности Њ0 и не более того!
Пусть мы интересуемся симметрией обычной монетки и собираемся проводить эксперименты – подбрасывать её и фиксировать результаты. Выдвинем гипотезу – монета симметрична. Если мы собираемся произвести N подбрасываний и по их итогам проверить гипотезу, должны просчитать вероятности выпадения 0, 1, 2 и т.д. до N “гербов”. Конечно, можно выполнить расчеты и после окончания опыта – всё равно это будут априорные вероятности по своей сути.
Проиллюстрируем это на рассмотренной ранее ситуации 8 экспериментов с монеткой. Предположим, что частости появления возможных исходов уже вычислены – в таких случаях говорят о наличии выборочного распределения вероятностей. Для нашего эксперимента такое распределение имеет вид:
Таблица 4–1
Число наблюдений гербов k | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Вероятность P(X =k) в 1 / 256 | 1 | 8 | 28 | 56 | 70 | 56 | 28 | 8 | 1 |
Вероятность P(X £k) в 1 / 256 | 1 | 9 | 37 | 93 | 163 | 219 | 247 | 255 | 256 |
Если мы в результате эксперимента получили сумму гербов S = 1, то вероятность наблюдать такую сумму (и менее вероятное значение S=0) составляет для симметричной монетки P(S<2) = (1+8) / 256 @ 0.036. Можно, однако, рассуждать и иначе. Ведь мы наблюдали в том же опыте 7 появлений “решки”. Вероятность наблюдать такое и менее вероятное число 8 составляет точно столько же – P(S>6) = (1+8) / 256 @ 0.036. Осталось построить решающее правило – критерий для принятия окончательного решения в отношении выдвинутых гипотез (основной Њ0 и альтернативной Њ1).
Заметим, что при выдвинутой нами основной гипотезе Њ0:(p=q) альтернативную гипотезу можно выдвигать по разному:
Њ1: (p#q)– монета несимметрична, ненаправленная гипотеза, требующая использования двухсторонних вероятностей;
Њ1: (p<q)– монета несимметрична и при этом “герб” легче, направленная гипотеза, достаточно односторонних вероятностей.
Применим оба приема построения критерия в условиях нашего примера.
· Нулевая гипотеза Њ0: (p=q). Альтернативная гипотеза Њ1: (p#q).
Уровень значимости a=0.05. Итог наблюдений при N=8: S= 1 .
Вероятность такого итога при условии, что нулевая гипотеза верна составляет
P(S<2)+P(S>6) @ 0.072, т.е. больше порогового значения
Решение: нулевую гипотезу не отвергаем, монетку считаем симметричной.
· Нулевая гипотеза Њ0: (p=q). Альтернативная гипотеза Њ1: (p<q).
Уровень значимости a=0.05. Итог наблюдений при N=8: S= 1 .
Вероятность такого итога при условии, что нулевая гипотеза верна составляет P(S<2) @ 0.036, т.е. меньше уровня значимости.
Решение: нулевую гипотезу отвергаем, монетку считаем направленно несимметричной.
Возможно у вас возникло сомнение в части первого способа оценки статистических гипотез – ведь герб наблюдался всего один раз из восьми и, тем не менее, гипотеза о симметрии монетки не отбрасывается.
На самом деле всё правильно и обосновано – смысл нулевых гипотез Њ0 в первом и втором случае, несмотря на формальную тождественность, не одинакова. Суть дела заключена в формулировке альтернативных гипотез Њ1.
В первом случае Њ1 охватывает два события (p>q) или (p<q), а значит это более жесткое предположение. Во втором случае Њ1 связана только с одним событием (p<q), а значит она мягче, требует меньшего количества информации для признания ее истинной.
Не забудем, что отвергая Њ0, мы принимаем альтернативную Њ1 и наоборот. Пусть у нас уже есть правило, в соответствии с которым мы либо принимаем основную гипотезу Њ0, либо отвергаем её.
Как уже говорилось, контрольной цифрой является уровень значимости – вероятность a наблюдать то, что мы имеем после эксперимента, в случае если гипотеза Њ0 верна.
Пусть, к примеру, мы знаем вероятность данного наблюдения при истинности основной гипотезы и она равна 0.04. Мы вправе принять эту гипотезу – вероятность ошибиться меньше, чем a=0.05.
Конечно, приняв нулевую гипотезу, мы рискуем ошибиться. Степень риска можно найти очень просто – вероятность отбросить верную нулевую гипотезу (совершить ошибку первого рода или a–ошибку) составляет 5 %.
Но ведь можно совершить и другую ошибку – принять нулевую гипотезу, когда она на самом деле неверна (ошибка второго рода или b–ошибка). Величина эта зависит, прежде всего, от решающего правила – критерия принятия гипотез. Поэтому величину (1 –b) принято называть мощностью критерия.
С определением вероятности ошибки второго рода дело обстоит не так просто – ее приходится вычислять. В первом приближении можно считать, что нам одинаково “вредны” ошибки как первого, так и второго рода. Более актуальным является вопрос – а как их избежать или хотя бы снизить вероятность их появления? К сожалению, в задачи курса не входит рассмотрение таких вопросов.
Достаточно знать, что в прикладной статистике существуют методы повышения эффективности критериев проверки статистических гипотез.
Кроме того, нельзя упускать из виду и "простой рецепт" снижения вероятностей ошибок как первого, так и второго рода – надо иметь побольше наблюдений.
Так, например, имеются достаточно надежные методы определения так называемых “критических” значений СВ. Эти значения для задач рассмотренных выше типов (с биномиальным распределением вероятностей) позволяют сразу же оценить возможность отбрасывания нулевой гипотезы – по данным о числе испытаний и числе наблюдений данного события.
Если число испытаний монетки на симметрию составляет N=12 и выдвинуты гипотезы Њ0: (p=q); Њ1: (p#q), то критическими значениями наблюдений при граничной вероятности a=0.05 являются S=2 и S=10. Это означает, что при наблюдаемом числе гербов £ 2 или ³ 10 нулевая гипотеза может быть отвергнута.
Обратим также внимание на явную зависимость наших решений от числа наблюдений – нам не удалось отвергнуть гипотезу о симметрии монетки при всего одном гербе (из восьми бросаний), но вполне обосновано удается сделать это при 0, 1 и даже 2 – при увеличении числа наблюдении или, на языке статистики, увеличении объема выборки.