D = 1/(n-1) ( (xi - Xср)2)1/2, s = D, (1)
k = ( (xi - Xср)k) / n , Ass( X)= 3 / s3, Eks(X)= 4/s4 - 3. (2)
Отметим, что 1=0, 2= 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)=0 (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).
Показатели, описывающие закон распределения. Эта группа показателей включает диаграммы рассеяния, графики гистограммы и эмпирической функции распределения, таблицы частот.
Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения xy , yx, определяемые следующим образом:
xy = 1/ n (( (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)
r = xy /(sxsy) = ( nxy xy - n Xср Yср)/(n sxsy ), (4)
yx = sмежгр / sy = (( nx (yx - Y)2/( ny (y - Y)2)1/2, (5)
xy = sмежгр / sx = (( ny (xy - Xср)2/( nx (x - Xср)2)1/2. (6)
Здесь nx ny - частоты значений соответственно признака x в X и y в Y, xy , yx - условные средние. В большинстве статистических пакетов одновременно с коэффициентом корреляции определяется его уровень значимости . Основное различие между коэффициентом корреляции r и корреляционными отношениями состоит в том, что первый измеряет тесноту линейной связи между переменными, в то время как корреляционнное отношение служит мерой уровня любой, в том числе и линейной, зависимости. Недостатком же корреляционного отношения является то, что оно не позволяет определить аппроксимирующую кривую связи между X и Y, так как при определении корреляционного отношения конкретный вид зависимости во внимание не принимается. При анализе ординальных переменных вместо коэффициента линейной корреляции К.Пирсона r используются коэффициенты ранговой корреляции Спирмена и Кенделла . Для этого набор значений переменных Х и Y предварительно ранжируется, и в качестве значений переменных берутся соответствующие ранги. Таким образом, набор значений ранжированной переменной есть некоторая перестановка натуральных чисел от 1 до n. Коэффициент для рядов числовых значений xi и yi (i = 1,.., n) вычисляется по формуле = 1- 6S/(n3 - n), где S = (xi - yi )2. Для определения коэффициента вводится статистика Кенделла К, определяемая как число инверсий в ряду xi, упорядоченном значениями yi. Тогда = 1- 4K/(n(n -1)). Как и r, эти числа удовлетворяют неравенствам -1< , < 1, и крайние значения принимаются в случае полной предсказуемости одной ранговой последовательности по другой. Для выявления связи номинальных признаков используются таблицы сопряженности.
Параметрами многомерного распределения системы переменных {Хi}, определяемой матрицей данных T или ее подматрицей Tk, являются вектор средних и матрицы ковариаций М и корреляций R, элементами которых соответственно будут корреляционные моменты i,j и коэффициенты парной корреляции ri,j. Диагональные элементы i,i ковариационной матрицы М - это выборочные дисперсии Di. Обе матрицы симметричны , матрица R по сути есть нормирование М и обе они служат базой для последующего регрессионного и факторного анализа.
Регрессионный анализ. Задачей регрессионного анализа является построение модели функциональной связи между группой независимых переменных (это могут быть номинальные параметры - регрессоры либо случайные переменные, называемые предикторами или предсказательными переменными) и одномерной переменной Y, называемой откликом. Рассмотрим уравнение связи Y = f(X1, X2,...Xk , ) + (7), где f - n-мерная вектор-функция от k переменных Xi и - параметра связи; -n-мерный случайный параметр, отражающий отклонение от функциональной зависимости (вектор остатков или ошибок). В классической модели предполагается, что координаты независимы и одинаково распределены по нормальному закону N(0, 2). Рассматрим ситуацию, когда f линейно зависит от , т.е. задачу линейного регрессионного анализа (с методами нелинейного анализа можно ознакомиться в [4]). Тогда уравнение (7) можно представить в виде Y = 1 + 2X1 + 3X2 +...+ k+1Xk + , (8) или в матричной форме Y = A + . Здесь А={ai,j} - матрица размера n (k+1) , называемая регрессионной матрицей, в которой ai,1=1, ai,j =хi,j-1 - компоненты вектора Xj-1 при j>1. Одним из основных методов получения оценки является метод наименьших квадратов, заключающийся в минимизации остаточной суммы квадратов (RSS) = i2 по отношению к . Применяя его, мы получим значения ( 2 ,... k+1)= M-1CyX, 1=Yср - 2X1 - 3X2 -...- k+1Xk , где М - матрица ковариаций для Xi, CyX = ( Y,Xi , i=1,..k) - вектор оценок ковариаций между Y и Xi. Оценкой для остатка будет е =Y- A , a RSS= |e|. Доверительный интервал для i на уровне значимости определяется как i + (D( i)t1- /2( ))1/2, где t1- /2( ) - квантиль для t-распределения с = n-k степенями свободы. Определим квадрат коэффициента множественной корреляции между Y и Xi как R2 = CyXT M-1CyX = ( CyX ) / Y2. Его статистический смысл можно объяснить, рассмотрев дисперсию условного распределения Y при заданных Xi: ( yXi)2 = Y2 (1- R2). Таким образом, величина R2 есть доля дисперсии Y, объясненная переменными Xi. Параметры R2, RSS, доверительные интервалы для и оценки для дисперсий ошибок и коэффициентов регрессии ([5, 7.1.3]) определяют качество приближения Y уравнением регрессии и являются важными параметрами анализа.
Наряду с изложенным выше параметрическим подходом существуют непараметрические методы построения уравнений регрессии. Их преимуществом является отсутствие предположений относительно нормальности распределения предикторов и ошибок, а недостатком - меньшая мощность критериев. Одни из таких методов используют идею кластерного группирования переменных относительно заданной метрики в пространстве предикторов [5, 7.1.9], другие основаны на ранжировании переменных и используют ранговые коэффициенты корреляции Спирмена и Кендалла [9, 8.5]. Выбор того или иного метода зависит от типа анализируемых переменных и в каждой ситуации решается отдельно.
Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки i независимы и одинаково распределены по закону N(0, 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj + i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам), i,j независимы с распределением N(0, 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии 2. Первая имеет вид: * 2 = ( (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к 2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора: 2 =( nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F = 2 / *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от . Таким образом, при наблюдаемом значении F большем, чем соответствующая - процентная точка распределения F ( (1- ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | < t1- / nj с доверительной вероятностью 1-2 , где t1- - квантиль уровня (1- ) распределения Стьюдента с n-k степенями свободы.
Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).
Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi = ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I = D(Fj) / D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями j (метод главных компонент). При этом j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I = j / k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросом ФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями: