Критерии согласия (стр. 3 из 7)

Важно отметить, что статистика D_nраспределена иначе, чем D_n(1.1), а статистика

– иначе, чем

(1.5). Причина в том, что из-за подбора

_n по выборке функций F(x) и F(x,

_n) (в случае, если гипотеза о типе распределения верна) оказываются ближе к друг другу, чем F(x) и F(x,

^º). Поэтому при справедливости гипотезы статистика D_n,как правило, будет принимать существенно меньше значения, чем D_n. Аналогично соотносятся

Поскольку статистики (3.1), (3.2) при справедливости гипотезы имеют иные распределения, чем статистики D_nи

, для их применения необходимы таблицы распределений или хотя бы таблицы критических значений. К сожалению, модифицированные статистики (3.1), (3.2) не обладают столь привлекательным свойством «свободы от распределения выборки», как их прототипы, поэтому для каждого параметрического семейства распределений нужны свои таблицы. Более того, распределения (3.1), (3.2) могут зависеть и от истинного значения неизвестного параметра (параметров).[4] К счастью, для так называемых «масштабно-сдвиговых» семейств, к которым относятся нормальные, показательное и многие другие практически важные распределения, этого последнего осложнения не возникает.

Таблицы распределений статистик (3.1), (3.2) к настоящему моменту составлены для многих семейств. Большинство из них рассчитаны методом случайных испытаний (методом Монте-Карло). Автор большинства этих расчетов М. Стефенс заметил, что зависимость результатов от объема выборки резко уменьшается, если вместо D_n,

использовать их несколько преобразованные варианты. Стефенс утверждает, что для этих форм зависимость от n практически перестает сказываться, начиная с n = 5. ниже приводятся некоторые таблицы Стефенса.

Табл. 3.1 Модифицированные критерии для проверки нормальности, оба параметра неизвестны

Статистика	Модифицированная форма	Верхние процентные точки0.15 0.10 0.05 0.025 0.01
D_n		0.775 0.819 0.895 0.955 1.035
		0.091 0.104 0.126 0.148 0.178

Табл. 3.2 Модифицированные критерии для проверки экспоненциальности, параметр неизвестен

Статистика	Модифицированная форма	Верхние процентные точки0.15 0.10 0.05 0.025 0.01
D_n		0.926 0.990 1.094 1.190 1.308
		0.149 0.177 0.224 0.273 0.337

Предельное (при n → ∞) распределение n

известно, но вычисляется довольно сложно. Предельное распределение для

найти не удалось, есть лишь приближенные формулы для критических значений, основанные на асимптотических разложениях. Сравнение расчетов по этим формулам с упомянутыми ранее таблицами показало их хорошее согласие. Как уже говорилось, для каждого параметрического семейства критические значения надо рассчитывать особо. Например, для нормального закона, оба параметра которого оцениваются по выборке, для больших z > 0 (т.е. для z → ∞).

(3.3)

Если же математическое ожидание известно и равно, скажем, а, то по выборке приходится оценивать только дисперсию. В этом случае для больших z > 0

(3.4)

Эти приближенные формулы дают хорошие результаты для малых вероятностей и больших объемов выборок, то есть для вероятностей, начиная примерно с 0.20 (и меньше) и для объемов n, начиная примерно с 100 (и больше).

1.4 Критерии согласия χ²Фишера для сложной гипотезы

Для проверки сложных гипотез может быть использована и соответствующая модификация критерия хи-квадрат Пирсона. Главные заслуги здесь принадлежат Р. Фишеру. Приведу одну из его теорем (сохраняя обозначения из теоремы К. Пирсона).

Теорема Фишера. Пусть n – число независимых повторений опыта, который может заканчиваться одним из r (r – произвольное натуральное число) элементарных исходов, скажем, А₁, …, А_r. Пусть вероятности этих элементарных исходов известны с точностью до некоторого неопределенного, скажем, k-мерного параметра

= (

₁, …,

_k). Тогда эти вероятности являются функциями от

: Р(А_і) = р_і(

). Будем предполагать, что функции р₁(

), …, р_r(

) заданы, дифференцируемы,

для всякого

, а параметр

изменяется в ограниченной области пространства. Тогда при n → ∞ статистика:

(4.1)

асимптотически распределена по закону χ² с r – k – l степенями свободы.

Существует много вариантов этой теоремы. Например, такое же, как выше, предельное распределение имеет статистика

(4.2)

где

_n – оценка наибольшего правдоподобия для параметра

_,найденная по частотам т₁, …, т_r. Поэтому значение (4.2) в дальнейшем можно использовать вместо (4.1). Далее, знаменатели пр_і в (4.1) и (4.2) можно заменить на т_і, і = 1, …, r , и это не отразится на асимптотическом распределении χ². Есть и другие возможности.

Статистика χ² из (4.1) (и ее варианты) называется статистикой хи-квадрат Фишера для сложной гипотезы.

Статистику (4.1) (и ее варианты) можно использовать для проверки описанной выше сложной гипотезы о параметрическом виде вероятностей в схеме Бернулли

где р₁(·), …, р_r(·) – заданы, а параметр

изменяется в заданной ограниченной области. Это можно делать так же, как мы делали с помощью статистики χ² в случае простой гипотезы.

А именно, по наблюденным частотам т₁, …, т_r надо вычислить значение χ² (4.1) либо (4.2) и затем сравнить его с критическими значениями распределения χ² с числом степеней свободы (r – k – l), либо вычислить Р(χ²> χ²). Однако для использования аппроксимации хи-квадрат для распределения χ² необходимо, чтобы число наблюдений было достаточно велико, и тем самым ожидаемые частоты пр_і(

) не были малыми.

Как следует из формулировки теоремы, объект ее применения – испытания с конечным числом исходов. Чтобы использовать ее в условиях другого эксперимента – например, для проверки гипотезы о типе непрерывного или дискретного распределения с бесконечным (или конечным, но большим) числом исходов – этот эксперимент надо предварительно превратить в схему Бернулли. Раньше уже говорилось, как это делается обычно – путем разбиения выборочного пространства на непересекающиеся области. Параметрический (зависящий от параметра

) закон распределения вероятностей во всем пространстве, соответствие которого нашей выборке мы хотим проверить, превращается при этом в параметрическое распределение вероятностей между выбранными r областями.

Понятно, что результат последующего применения критерия хи-квадрат (принять гипотезу, отвергнуть гипотезу) сильно зависит от описанного перехода. К этому следует добавить условие применимости распределения χ², которое требует, чтобы ожидаемые частоты были достаточно большими. (условие на ожидаемые частоты часто приходиться заменять требованием, чтобы не были малы наблюдаемые частоты т₁, …, т_r.) становится ясно, что подготовка к применению критерия хи-квадрат в несвойственных ему составляет деликатную и не всегда простую проблему. Возникает даже опасность невольной подгонки выбираемого разбиения к желательному результату. Поэтому, строго говоря, разбиение пространства на области должно идти вне зависимости от результатов случайного эксперимента, т.е. вне влияния подлежащей обработке выборки.