Статистический анализ числовых величин (непараметрическая статистика) (стр. 4 из 12)

U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [8]);

S – выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).

M + U(p) S / n^1/2 .

С(р) = [n/2 – U(p)n^1/2/2] ,

где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид

Х (С(р)),

где Х(i) – член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид

Х (n + 1 - С(р)).

d² = (m ₄- ((n – 1) /n )⁴S⁴ ) / n ,

где m ₄- выборочный четвертый центральный момент, т.е.

m ₄= { (X₁– M) ⁴ + (X₂– M)⁴ +… + (X _n – M) ⁴} / n .

Íèæíÿÿ äîâåðèòåëüíàÿ ãðàíèöà äëÿ äèñïåðñèè ñëó÷àéíîé âåëè÷èíû èìååò âèä

S² - U(p)d ,

где S² – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d², введенной выше.

S² + U(p)d ,

где все составляющие имеют тот же смысл, что и выше.

При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в [10, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d² как (2 S⁴ ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.

Точечное и интервальное оценивание среднего квадратического отклонения. Дисперсия рассматриваемой случайной величины - выборочного среднего квадратического отклонения S – оценивается как дробь

d² / (4 S²) .

S - U(p)d / (2S) ,

где S² – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d², введенной выше.

S + U(p)d / (2S) ,

где все составляющие имеют тот же смысл, что и выше.

Правила расчетов настоящего подпункта получены из правил предыдущего подпункта с помощью метода линеаризации (см., например, [11, п.2.4]). В рассматриваемом случае доверительный интервал также является непараметрическим и асимптотическим, а классический подход связан с использованием распределения хи-квадрат.

Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации широко используется при анализе конкретных экономических данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков. Дисперсия выборочного коэффициента вариации

V_n = S / M

D² = (V_n⁴ - V_n² / 4 + m ₄/ (4 S ²M ²) - m ₃/M ³ ) / n ,

где М – выборочное среднее арифметическое,

S ² – выборочная дисперсия,

m ₃ - выборочный третий центральный момент, т.е.

m ₃= { (X₁– M) ³ + (X₂– M)³ +… + (X _n – M) ³} / n ,

m ₄ - выборочный четвертый центральный момент (см. выше),

V_n – выборочный коэффициент вариации,

n - объем выборки.

V_n- U(p) D,

где V_n – выборочный коэффициент вариации,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и ранее),

D – положительный квадратный корень из величины D², введенной выше.

V_n+ U(p) D,

где все составляющие имеют тот же смысл, что и выше.

Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно оказывается необходимым использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [11, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.

О проверке однородности двух независимых выборок

Противоположным понятием является «различие». Можно переформулировать задачу: требуется проверить, есть ли различие между выборками. Если различия нет, то для дальнейшего изучения часто выборки объединяют.

Например, в маркетинге важно выделить сегменты потребительского рынка. Если установлена однородность двух выборок, то возможно объединение сегментов, из которых они взяты, в один. В дальнейшем это позволит осуществлять по отношению к ним одинаковую маркетинговую политику (проводить одни и те же рекламные мероприятия и т.п.). Если же установлено различие, то поведение потребителей в двух сегментах различно, объединять эти сегменты нельзя, и могут понадобиться различные маркетинговые стратегии, своя для каждого из этих сегментов.

Традиционный метод проверки однородности (критерий Стьюдента). Для дальнейшего критического разбора опишем традиционный статистический метод проверки однородности. Вычисляют средние арифметические в каждой выборке

затем выборочные дисперсии

и статистику Стьюдента t, на основе которой принимают решение,

. (1)

По заданному уровню значимости a и числу степеней свободы (m+n ^_2) из таблиц распределения Стьюдента находят критическое значение t_кр. Если |t|>t_кр, то гипотезу однородности (отсутствия различия) отклоняют, если же |t|<t_кр, то принимают. (При односторонних альтернативных гипотезах вместо условия |t|>t_кр проверяют, что t>t_кр; эту постановку рассматривать не будем, так как в ней нет принципиальных отличий от обсуждаемой здесь.)

Рассмотрим условия применимости традиционного метода проверки однородности, основанного на использовании статистики t Стьюдента, а также укажем более современные методы.

Вероятностная модель порождения данных. Для обоснованного применения эконометрических методов необходимо прежде всего построить и обосновать вероятностную модель порождения данных. При проверке однородности двух выборок общепринята модель, в которой x₁, x₂,...,x_mрассматриваются как результаты m независимых наблюдений некоторой случайной величины Х с функцией распределения F(x), неизвестной статистику, а y₁, y₂,...,y_n - как результаты п независимых наблюдений, вообще говоря, другой случайной величины Y с функцией распределения G(x), также неизвестной статистику. Предполагается также, что наблюдения в одной выборке не зависят от наблюдений в другой, поэтому выборки и называют независимыми.

Возможность применения модели в конкретной реальной ситуации требует обоснования. Независимость и одинаковая распределенность результатов наблюдений, входящих в выборку, могут быть установлены или исходя из методики проведения конкретных наблюдений, или путем проверки статистических гипотез независимости и одинаковой распределенности с помощью соответствующих критериев [8].

Если проведено (т+п) измерений объемов продаж в (т+п) торговых точках, то описанную выше модель, как правило, можно применять. Если же, например, x_i и y_i - объемы продаж одного и того же товара до и после определенного рекламного воздействия, то рассматриваемую модель применять нельзя. (В этом случае используют модель т.н. связанных выборок, в которой обычно строят новую выборку z_i= x_i- y_i и используют статистические методы анализа одной выборки, а не двух. Проверка однородности для связанных выборок рассматривается ниже.)

При дальнейшем изложении принимаем описанную выше вероятностную модель двух выборок.

Уточнения понятия однородности. Понятие «однородность», т. е. «отсутствие различия», может быть формализовано в терминах вероятностной модели различными способами.

Наивысшая степень однородности достигается, если обе выборки взяты из одной и той же генеральной совокупности, т. е. справедлива нулевая гипотеза

H₀: F(x)=G(x) при всех х.

Отсутствие однородности означает, что верна альтернативная гипотеза, согласно которой

H₁: F(x₀)¹G(x₀)

хотя бы при одном значении аргумента x₀. Если гипотеза H₀принята, то выборки можно объединить в одну, если нет - то нельзя.