òF(x) dx = 1/2 .
Вычисления дают
d = d ( l ) = 3 (1 - l ) / 2 .
Учитывая, что d лежит между l и 1, не совпадая ни с тем, ни с другим, получаем ограничения на l, а именно, 1/3 < l < 3/5 . Итак, построено искомое семейство пар функций распределения.
Пример 3. Пусть, как и в примере 2, распределения сосредоточены на интервале (0 ; 1), и на нем F(x) = x , а G(x) - функция распределения, сосредоточенного в двух точках - b и 1, т.е. G(x) = 0 при x, не превосходящем b ; G(x) = h на (b ; 1] ; G(x) = 1 при x > 1. С такой функцией G(x) легко проводить расчеты. Однако она не удовлетворяет принятым выше условиям непрерывности и строгого возрастания. Вместе с тем легко видеть, что она является предельной (сходимость в каждой точке отрезка [0 ; 1] ) для последовательности функций распределения, удовлетворяющих этим условиям, а распределение статистики Вилкоксона для пары функций распределения примера 3 является предельным для последовательности соответствующих распределений статистики Вилкоксона, полученных в рассматриваемых условиях непрерывности и строгого возрастания.
Условие P(X < Y) = 1/2 выполнено, если h = (1 - b)-1 / 2 (при b из отрезка [0 ; 1/2] ). Поскольку h > 1/2 при положительном b, то очевидно, что медиана G(x) равна b, в то время как медиана F(x) равна 1/2 . Значит, при b = 1/2 медианы совпадают, при всех иных положительных b - различны. При b = 0 медианой G(x) является любая точка из отрезка [0 ; 1].
Легко подсчитать, что в условиях примера 3 b2 = b(1- b)-1 / 4 , g2 = (1- 2b) / 4 . Следовательно, распределение нормированной и центрированной статистики Вилкоксона будет асимптотически нормальным с математическим ожиданием 0 и дисперсией
D(T) = 3 [(n-1) b(1- b)-1 + (m-1) (1-2b) + 1] (m+n+1) - 1 .
Проанализируем величину D(T) в зависимости от параметра b и объемов выборок m и n. При достаточно больших m и n
D(T) = 3 w b (1 - b)-1 + 3 (1 - w) (1 - 2 b) ,
с точностью до величин порядка (m+n)-1 , где w= n/(m+n). Значит, D(T) - линейная функция от w, а потому достигает экстремальных значений на границах интервала изменения w, т.е. при w = 0 и w = 1. В первом случае, при b(1-b)-1 <1-2b, минимум равен 3b(1-b)-1 (при w = 1), а максимум равен 3(1 - 2b) (при w = 0). Во втором случае, при b(1-b)-1 >1-2b, максимум равен 3b(1-b)-1 (при w = 1), а минимум равен 3(1 - 2b) (при w = 0). Если же b(1-b)-1 =1-2b, а это равенство справедливо при b=b0 = 1 - 2-1/2 = 0,293, то D(T) = 3 (21/2 - 1) = 1,2426... при всех w из отрезка [0 ; 1].
Первый из описанных выше случаев имеет быть при b < b0 , при этом минимум D(T) возрастает от 0 (при b=0, w=1 - предельный случай) до 3(21/2 - 1) (при b=b0 , w - любом), а максимум уменьшается от 3 (при b=0, w=0 - предельный случай) до 3 (21/2 - 1) (при b=b0 , w - любом). Второй случай относится к b из интервала (b0 ; 1/2]. При этом минимум убывает от приведенного выше значения для b=b0 до 0 (при b=1/2 , w=0 - предельный случай) , а максимум возрастает от того же значения при b=b0 до 3 (при b=1/2 , w=0).
Таким образом, D(T) может принимать все значения из интервала (0 ; 3) в зависимости от значений b и w. Если D(T) < 1, то при применении критерия Вилкоксона к выборкам с рассматриваемыми функциями распределения гипотеза однородности (2) будет приниматься чаще (при соответствующих значениях b и w - с вероятностью, сколь угодно близкой к 1), чем если бы она самом деле была верна. Если 1<D(T)<3, то гипотеза (2) также принимается достаточно часто. Так, если уровень значимости критерия Вилкоксона равен 0,05, то (асимптотическая) критическая область этого критерия имеет вид {T: U T U $ 1,96}. Если - самый плохой случай - D(T)=3, то гипотеза (2) принимается с вероятностью 0,7422.
* * *
При проверке гипотезы однородности мы рассмотрели различные виды нулевых и альтернативных гипотез - гипотезу (2) и ее отрицание в качестве альтернативы, гипотезу (6) и ее отрицание, гипотезы о равенстве или различии медиан. В теоретических работах по математической статистике любят гипотезу сдвига, в которой альтернативой гипотезе (2) является гипотеза
H1: F(x) = G(x + r) при всех x и некотором r, отличным от 0 . (12)
Если верна альтернативная гипотеза H1, то вероятность P(X < Y) отлична от 1/2, и критерий Вилкоксона является состоятельным.
В некоторых прикладных постановках гипотеза (12) представляется естественной. Например, если одним и тем же прибором проводятся две серии измерений двух значений некоторой величины (физической, химической и т.п.). При этом функция распределения G(x) описывает погрешности измерения одного значения, а G(x+r) - другого (вопреки распространенному заблуждению, хорошо известно, что распределение погрешностей измерений, как правило, не является нормальным - см. об этом консультацию [5]). Однако в большинстве прикладных постановок нет никаких оснований считать, что отсутствие однородности всегда выражается столь однозначным образом, как следует из формулы (12). Поэтому мы, рассматривая в статье [6] проблему выбора статистического критерия для проверки однородности, пришли к выводу о необходимости использования критериев, состоятельных против любого отклонения от гипотезы однородности (2), прежде всего критериев Смирнова и типа омега-квадрат (Лемана-Розенблатта).
Почему же математики так любят гипотезу сдвига (12)? Да потому, что она дает возможность доказывать глубокие математические результаты, например, об асимптотической оптимальности критериев, как это продемонстрировано в монографии Я.Ю.Никитина [7]. К сожалению, с точки зрения прикладной статистики это напоминает поиск ключей под фонарем, где светло, а не там, где они потеряны. Впрочем, новые методы обычно сначала разрабатываются в лаборатории и только потом переносятся на производство.
Отметтим еще одно обстоятельство. Часто говорят (в соответствии с классическим подходом математической статистики), что нельзя проверять нулевые гипотезы без рассмотрения альтернативных. Однако при практическом анализе данных зачастую полностью ясна формулировка той гипотезы, которую желательно проверить (например, гипотезы полной однородности - см. формулу (2)), в то время как формулировка альтернативной гипотезы не очевидна (то ли это гипотеза о неверности равенства (2) хотя бы для одного значения x, то ли это альтернатива (8), то ли - альтернатива сдвига (12), и т.д.). В таких случаях целесообразно "обернуть" задачу - исходя из статистического критерия найти альтернативы, относительно которых он состоятелен. Именно это и проделано в настоящей статье для критерия Вилкоксона.
Литература
1. Гаек Я., Шидак З. Теория ранговых критериев. - М.: Наука, 1971. - 376 с.
2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: ВЦ АН СССР, 1968. - 474 с.
3. Холлендер М., Вулф Д.А. Непараметрические методы статистики. - М.: Финансы и статистика, 1983. - 518 с.
4. Смолянский М.Л. Таблицы неопределенных интегралов. - М.: ГИФМЛ, 1961. - 108 с.
5. Орлов А.И. / Заводская лаборатория. 1991. Т.57. № 7. С.64-66.
6. Орлов А.И. / Вестник Академии медицинских наук СССР. 1987. №2. С.88-94.
7. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. - М.: Наука, 1995. - 240 с.