В таких случаях использование методов выдвижения и проверки гипотез даст нам информацию о параметрах распределения, что может оказаться вполне достаточно для решения конкретной экономической задачи.
Нередки случаи, когда у нас есть некоторые основания считать интересующую нас СВ распределенной по нормальному закону. Существуют специальные методы проверки такой гипотезы по данным наблюдений, но мы ограничимся напоминанием природы этого распределения – наличия влияния на значение данной величины достаточно большого количества случайных факторов.
Напомним себе также, что у нормального распределения всего два параметра – математическое ожидание m и среднеквадратичное отклонение s.
Пусть мы произвели 40 наблюдений над такой случайной величиной X и эти наблюдения представили в виде:
Таблица 5-2
Xi | 85 | 105 | 125 | 145 | 165 | 185 | 205 | 225 | Всего |
ni | 4 | 3 | 3 | 2 | 4 | 7 | 12 | 5 | 40 |
f i | 0.100 | 0.075 | 0.075 | 0.050 | 0.100 | 0.175 | 0.300 | 0.125 | 1 |
Если мы усредним значения наблюдений, то формула расчета выборочного среднего
Mx =
S Xi · ni =S Xi · fi {5–1} будет отличаться от выражения для математического ожидания m только использованием частот вместо вероятностей.В нашем примере выборочное среднее значение составит Mx = 171.5 , но из этого пока еще нельзя сделать заключение о равенстве m = 171.5.
· Во-первых, Mx – это непрерывная СВ, следовательно, вероятность ее точного равенства чему-нибудь вообще равна нулю.
· Во-вторых, нас настораживает отсутствие ряда значений X.
· В-третьих, частоты наблюдений стремятся к вероятностям при бесконечно большом числе наблюдений, а у нас их только 40. Не мало ли?
Если мы усредним теперь значения квадратов отклонений наблюдений от выборочного среднего, то формула расчета выборочной дисперсии
Dx = (Sx)2 =
S (Xi – Mx)2· ni =S (Xi)2· fi – (Mx)2 {5–2} также не будет отличаться от формулы, определяющей дисперсию s2 .В нашем примере выборочное значение среднеквадратичного отклонения составит Sx= 45.5 , но это совсем не означает, что s =45.5.
И всё же – как оценить оба параметра распределения или хотя бы один из них по данным наблюдений, т.е. по уже найденным Mx и Sx?
Прикладная статистика дает следующие рекомендации:
· значение дисперсии s2 считается неизвестным и решается первый вопрос – достаточно ли число наблюдений N для того, чтобы использовать вместо величины s ее выборочное значение Sx;
· если это так, то решается второй вопрос – как построить нулевую гипотезу о величине математического ожидания m и как ее проверить.
Предположим вначале, что значение s каким–то способом найдено. Тогда формулируется простая нулевая гипотеза Њ0:m=Mx и осуществляется её проверка с помощью следующего критерия. Вычисляется вспомогательная функция (Z–критерий)
, {5-3} значение и знак которой зависят от выбранного нами предполагаемого m.Доказано, что значение Z является СВ с математическим ожиданием 0 , дисперсией 1 и имеет нормальное распределение.
Теперь важно правильно построить альтернативную гипотезу Њ1. Здесь чаще всего применяется два подхода.
Выбор одного из них зависит от того – большое или малое (по модулю) значение Z у нас получилось. Иными словами – как далеко от расчетного Mx мы выбрали гипотетическое m..
· При малых отличиях между Mx и m разумно строить гипотезы в виде
Њ0: m= Mx;
Њ1: неизвестное нам значение m лежит в пределах
Mx –
·Z 2k £m£ Mx + ·Z 2k {5–4}Критическое (соответствующее уровню значимости в 5%) значение критерия составляет при этом = 1.96 (двухсторонний критерий). Если оказывается, что выборочное значение критерия ½Z½ < 1.96, то гипотезаЊ0: m=Mx принимается, данные наблюдений не противоречат ей.
Если же это не так, то мы “в утешение” получаем информацию другого вида – где, на каком интервале находится искомое значение m.
· При больших отличиях (в большую или меньшую сторону) между m и Mx гипотезы строятся иначе Њ0:m= Mx; Њ1: неизвестное нам значение m лежит вне пределов, указанных в {5–4}.
Теперь критическое (соответствующее уровню значимости в 5%) значение критерия составляет Z 1k = 1.645 (односторонний критерий). Если оказывается, что выборочное значение критерия½Z½³ 1.645, то гипотеза Њ0: m =Mx отвергается, данные наблюдений противоречат ей.
Если же это не так, то мы получаем информацию другого вида – где, на каком крае интервале находится искомое значение m. Разумеется, для других (не 5%) значений уровня значимости Z1k и Z 2k являются другими.
Чуть сложнее путь проверки гипотез о математическом ожидании m в случаях, когда s нам неизвестна и приходится довольствоваться выборочным значением среднеквадратичного отклонения по данным наблюдений.
В этом случае вместо “z –критерия” используется т.н. “t–критерий” или критерий Стьюдента
, {5–5} в котором используется значение “несмещенной” оценки для дисперсии s2(Sx)2=
S (Xi – Mx)2· ni . {5–6}Далее используется доказанное в теории положение – случайная величина t имеет специальное распределение Стьюдента с m=N–1 степенями свободы.
Существуют таблицы для этого распределения по которым можно найти вероятность ошибки первого рода или, что более удобно, – граничное значение этой величины при заданных заранее a и m. Таким образом, если вычисленное нами значение ½t½³ t(a,m), то Њ0 отвергается, если же это не так – Њ0 принимается. Конечно, при большом количестве наблюдений (N>100…120) различие между z– и t–критериями несущественно. Значения критерия Стьюдента для a=0.05 при разных количествах наблюдений составляют:
Таблица 5–3
m | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 20 | 30 | 40 | 120 |
t | 12.7 | 4.30 | 3.18 | 2.78 | 2.57 | 2.45 | 2.36 | 2.31 | 2.26 | 2.23 | 2.09 | 2.04 | 2.02 | 1.98 |
В ряде случаев работы с некоторой дискретной СВ нам удается построить вероятностную схему событий, приводящих к изменению значений данной величины. Иными словами – закон распределения нам известен, но неизвестны его параметры. И наша задача – научиться оценивать эти параметры по данным наблюдений.
Начнем с наиболее простого случая. Пусть у нас есть основания считать, что случайная величина X может принимать целочисленные значения на интервале [0…k…n] с вероятностями
P(X=k)=
pk (1– p)n-k,т.е. распределена по биномиальному закону. Так вот, – единственный параметр p этого распределения нас как раз и интересует.
Примером подобной задачи является чисто практический вопрос о контроле качества товара.
Пусть мы решили оценить качество одной игральной кости из партии, закупленной для казино. Проведя n=200 бросаний мы обнаружили появлений цифры 6 в X = 25 случаях.
Выдвинем нулевую гипотезу Њ0: кость симметрична, то есть p= 1/6.
Вроде бы по наблюдениям частота выпадения цифры 6, составившая 25/200 не совпадает с гипотетическим значением вероятности 1/6. Но это чисто умозрительное, дилетантское заключение.
Теория прикладной статистики рекомендует вычислить значение непрерывной СВ
, {5–7} т.е. использовать z–критерий (см. {5–3}).В нашем примере наблюдаемое значение Z составит около –1.58. Следовательно, при пороговой вероятности в 5% условие ½Z½< 1.96 выполняется и у нас нет оснований отбрасывать нулевую гипотезу о симметрии игральной кости.
Отметим, что z–критерий позволяет решать еще одну важную задачу – о достаточном числе испытаний.
Пусть нам требуется проверить качество товара – некоторых изделий, каждое из которых может быть годным или негодным (бракованным). Пусть допустимый процент брака составляет p=5%. Ясно, что чем больше испытаний мы проведем, тем надежнее будет наш статистический вывод – браковать партию товара (например, – 10000 штук) или считать её пригодной.