T = ( S - m(m+n+1)/2) (mn(m+n+1)/ 12 ) - 1/2 (4)
при росте объемов выборок приближается к стандартному нормальному распределению (с математическим ожиданием 0 и дисперсией 1).
Из асимптотической нормальности статистики Т следует, что правило принятия решения для критерия Вилкоксона выглядит так:
- если |T|<
то гипотеза (2) однородности (тождества) функций распределений принимается на уровне значимости- если же |T|>
то гипотеза (2) однородности (тождества) функций распределений отклоняется на уровне значимости .В эконометрике наиболее часто применяется уровень значимости
Тогда значение модуля статистики Т Вилкоксона надо сравнивать с граничным значениемПример 1. Пусть даны две выборки. Первая содержит m= 12 элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит n=14 элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью только что сформулированного правила принятия решений на основе критерия Вилкоксона.
Первым шагом является построение общего вариационного ряда для элементов двух выборок (табл.1).
Табл.1. Общий вариационный ряд для элементов двух выборок
Ранги | 1 | 2 | 3,5 | 3,5 | 5 | 6 | 7 | 8,5 | 8,5 | 10 | 11 | 12 | 14 |
Элементы выборок | 0 | 1 | 2 | 2 | 3 | 5 | 6 | 7 | 7 | 11 | 13 | 14 | 15 |
Номера выборок | 1 | 2 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 1 |
Ранги | 14 | 14 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
Элементы выборок | 15 | 15 | 17 | 21 | 22 | 25 | 29 | 30 | 33 | 44 | 47 | 66 | 97 |
Номера выборок | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1 |
Хотя с точки зрения теории математической статистики вероятность совпадения двух элементов выборок равна 0, в реальных выборках экономических данных совпадения встречаются. Так, в рассматриваемых выборках, как видно из табл.1, два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2=3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2=8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3=14.
Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки
S = R1 + R2 + ... + Rm = 1+3,5+5+6+8,5+11+12+14+16+18+25+26=146.
Подсчитаем также сумму рангов элементов второй выборки
S1 = 2+3,5+7+8,5+10+14+14+17+19+20+21+22+23+24= 205.
Величина S1 может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки S и второй выборки S1 вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до m+n. Следовательно,
S+ S1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.
В соответствии с ранее проведенными расчетами S+S1 = 146+205=351. Необходимое условие правильности расчетов выполнено. Ясно, что справедливость этого условия не гарантирует правильности расчетов.
Перейдем к расчету статистики Т. Согласно формуле (3)
М(S) = 12(12+14+1)/ 2 = 162, D(S) = 12.14(12+14+1)/ 12= 378 .
Следовательно,
T = ( S - 162) (378 ) - 1/2 = (146-162) / 19,44 = - 0.82.
Поскольку |T|<1,96, то гипотеза однородности принимается на уровне значимости0,05.
Что будет, если поменять выборки местами, вторую назвать первой? Тогда вместо S надо рассматривать S1 . Имеем
М(S1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S1 ) = 378 ,
T1 = ( S1 - 189) (378 ) - 1/2 = (205-162) / 19,44 = 0.82.
Таким образом, значения статистики критерия отличаются только знаком (можно показать, что это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое решение не зависит от того, какую выборку считаем первой, а какую второй. Для уменьшения объема таблиц принято считать первой выборку меньшего объема.
Продолжим обсуждение критерия Вилкоксона. Правила принятия решений и таблица критических значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?
Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами
М(T) = ( 12mn ) 1/2 (1/2 - a) (m+n+1) - 1/2 ,
D(T) = 12 [(n - 1) b2 + (m - 1) g2 + a(1 -a) ] (m+n+1) - 1 . (5)
Из формул (5) видно большое значение гипотезы
H01: a = P(X < Y) = 1/2 . (6)
Если эта гипотеза неверна, то, поскольку m < n, справедлива оценка
|M(T)| > (12m n (2n+1) - 1) 1/2 |1/2 - a| ,
а потому |E(T)| безгранично растет при росте объемов выборок. В то же время, поскольку
то
D(T) < 12 [(n - 1) + (m - 1) + 1/4] (m+n+1) - 1 <12. (7)
Следовательно, вероятность отклонения гипотезы H01 , когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе
АH01: a = P(X < Y)
1/2 . (8) .Если же гипотеза (6) верна, то статистика T асимптотически нормальна с математическим ожиданием 0 и дисперсией, определяемой формулой
D(T) = 12 [(n - 1) b2 + (m - 1) g2 + 1/4 ] (m+n+1) -1 . (9)
Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений b2 и g2 может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.
Приведем пример двух функций распределения F(x) и G(x) таких, что гипотеза (6) выполнена, а гипотеза (2) - нет. Поскольку
a = P(X < Y) =
, 1 - a = P(Y < X) = (10)и a = 1/2 в случае справедливости гипотезы (2), то для выполнения условия (6) необходимо и достаточно, чтобы
(11) ,
а потому естественно в качестве F(x) рассмотреть функцию равномерного распределения на интервале (-1 ; 1). Тогда формула (11) переходит в условие
(11) .
Это условие выполняется, если функция (G(x) - (x + 1)/2 ) является нечетной.
Пример 2. Пусть функции распределения F(x) и G(x) сосредоточены на интервале (-1 ; 1), на котором
F(x) = (x + 1)/2 , G(x) = ( x + 1 + 1/
sin x ) / 2 .Тогда
x=F-1(t)=2 -1, L(t)=G(F-1(t))=(2t+1/
sin (2t-1))/2=t+1/2 sin (2t-1) .Условие (11) выполнено, поскольку функция (G(x) - (x + 1)/2) является нечетной. Следовательно, a = 1/2 . Начнем с вычисления
g2 =
- 1/4 =Поскольку
то
С помощью замены переменных t = (x +1) / 2 получаем, что
В правой части последнего равенства стоят табличные интегралы (см., например, справочник [14, с.71]. Проведя соответствующие вычисления, получаем, что в правой части стоит 1/8 ( - 4/
2) = - 1/(2 2). Следовательно,g2 = 1/12 - 1/(2
2) = 0,032672733...Перейдем к вычислению b2. Поскольку
то
С помощью замены переменных t = (x+1)/2 переходим к табличным интегралам (см., например, справочник [14, с.65]):
Проведя необходимые вычисления, получим, что
Следовательно, для рассматриваемых функций распределения нормированная и центрированная статистика Вилкоксона (см. формулу (4)) асимптотически нормальна с математическим ожиданием 0 и дисперсией (см. формулу (9))