Статистические методы анализа результатов психолого-педагогических исследований (стр. 2 из 3)

D = 1/(n-1) (  (xi - Xср)2)1/2, s =  D, (1)

 k = (  (xi - Xср)k) / n , Ass( X)=  3 / s3, Eks(X)=  4/s4 - 3. (2)

Отметим, что  1=0,  2= 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)=0 (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).

Показатели, описывающие закон распределения. Эта группа показателей включает диаграммы рассеяния, графики гистограммы и эмпирической функции распределения, таблицы частот.

Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент  xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения  xy ,  yx, определяемые следующим образом:

 xy = 1/ n ((  (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)

r =  xy /(sxsy) = (  nxy xy - n Xср Yср)/(n sxsy ), (4)

 yx = sмежгр / sy = ((  nx (yx - Y)2/(  ny (y - Y)2)1/2, (5)

 xy = sмежгр / sx = ((  ny (xy - Xср)2/(  nx (x - Xср)2)1/2. (6)

Здесь nx ny - частоты значений соответственно признака x в X и y в Y, xy , yx - условные средние. В большинстве статистических пакетов одновременно с коэффициентом корреляции определяется его уровень значимости  . Основное различие между коэффициентом корреляции r и корреляционными отношениями состоит в том, что первый измеряет тесноту линейной связи между переменными, в то время как корреляционнное отношение служит мерой уровня любой, в том числе и линейной, зависимости. Недостатком же корреляционного отношения является то, что оно не позволяет определить аппроксимирующую кривую связи между X и Y, так как при определении корреляционного отношения конкретный вид зависимости во внимание не принимается. При анализе ординальных переменных вместо коэффициента линейной корреляции К.Пирсона r используются коэффициенты ранговой корреляции Спирмена  и Кенделла  . Для этого набор значений переменных Х и Y предварительно ранжируется, и в качестве значений переменных берутся соответствующие ранги. Таким образом, набор значений ранжированной переменной есть некоторая перестановка натуральных чисел от 1 до n. Коэффициент  для рядов числовых значений xi и yi (i = 1,.., n) вычисляется по формуле  = 1- 6S/(n3 - n), где S =  (xi - yi )2. Для определения коэффициента  вводится статистика Кенделла К, определяемая как число инверсий в ряду xi, упорядоченном значениями yi. Тогда  = 1- 4K/(n(n -1)). Как и r, эти числа удовлетворяют неравенствам -1<  ,  < 1, и крайние значения принимаются в случае полной предсказуемости одной ранговой последовательности по другой. Для выявления связи номинальных признаков используются таблицы сопряженности.

Параметрами многомерного распределения системы переменных {Хi}, определяемой матрицей данных T или ее подматрицей Tk, являются вектор средних и матрицы ковариаций М и корреляций R, элементами которых соответственно будут корреляционные моменты  i,j и коэффициенты парной корреляции ri,j. Диагональные элементы  i,i ковариационной матрицы М - это выборочные дисперсии Di. Обе матрицы симметричны , матрица R по сути есть нормирование М и обе они служат базой для последующего регрессионного и факторного анализа.

Регрессионный анализ. Задачей регрессионного анализа является построение модели функциональной связи между группой независимых переменных (это могут быть номинальные параметры - регрессоры либо случайные переменные, называемые предикторами или предсказательными переменными) и одномерной переменной Y, называемой откликом. Рассмотрим уравнение связи Y = f(X1, X2,...Xk ,  ) +  (7), где f - n-мерная вектор-функция от k переменных Xi и  - параметра связи;  -n-мерный случайный параметр, отражающий отклонение от функциональной зависимости (вектор остатков или ошибок). В классической модели предполагается, что координаты  независимы и одинаково распределены по нормальному закону N(0, 2). Рассматрим ситуацию, когда f линейно зависит от  , т.е. задачу линейного регрессионного анализа (с методами нелинейного анализа можно ознакомиться в [4]). Тогда уравнение (7) можно представить в виде Y =  1 +  2X1 +  3X2 +...+  k+1Xk +  , (8) или в матричной форме Y = A +  . Здесь А={ai,j} - матрица размера n (k+1) , называемая регрессионной матрицей, в которой ai,1=1, ai,j =хi,j-1 - компоненты вектора Xj-1 при j>1. Одним из основных методов получения оценки  является метод наименьших квадратов, заключающийся в минимизации остаточной суммы квадратов (RSS) =   i2 по отношению к  . Применяя его, мы получим значения ( 2 ,...  k+1)= M-1CyX,  1=Yср -  2X1 -  3X2 -...-  k+1Xk , где М - матрица ковариаций для Xi, CyX = (  Y,Xi , i=1,..k) - вектор оценок ковариаций между Y и Xi. Оценкой для остатка будет е =Y- A , a RSS= |e|. Доверительный интервал для  i на уровне значимости  определяется как  i + (D( i)t1- /2( ))1/2, где t1- /2( ) - квантиль для t-распределения с  = n-k степенями свободы. Определим квадрат коэффициента множественной корреляции между Y и Xi как R2 = CyXT M-1CyX = ( CyX ) /  Y2. Его статистический смысл можно объяснить, рассмотрев дисперсию условного распределения Y при заданных Xi: ( yXi)2 = Y2 (1- R2). Таким образом, величина R2 есть доля дисперсии Y, объясненная переменными Xi. Параметры R2, RSS, доверительные интервалы для  и оценки для дисперсий ошибок  и коэффициентов регрессии ([5, 7.1.3]) определяют качество приближения Y уравнением регрессии и являются важными параметрами анализа.

Наряду с изложенным выше параметрическим подходом существуют непараметрические методы построения уравнений регрессии. Их преимуществом является отсутствие предположений относительно нормальности распределения предикторов и ошибок, а недостатком - меньшая мощность критериев. Одни из таких методов используют идею кластерного группирования переменных относительно заданной метрики в пространстве предикторов [5, 7.1.9], другие основаны на ранжировании переменных и используют ранговые коэффициенты корреляции Спирмена и Кендалла [9, 8.5]. Выбор того или иного метода зависит от типа анализируемых переменных и в каждой ситуации решается отдельно.

Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры  i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки  i независимы и одинаково распределены по закону N(0, 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра  , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj +  i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам),  i,j независимы с распределением N(0, 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии  2. Первая имеет вид:  * 2 = (  (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к  2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора:   2 =( nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F =   2 /  *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от  . Таким образом, при наблюдаемом значении F большем, чем соответствующая  - процентная точка распределения F ( (1-  ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | <  t1- / nj с доверительной вероятностью 1-2 , где t1- - квантиль уровня (1- ) распределения Стьюдента с n-k степенями свободы.

Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков  i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).

Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi =  ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I =  D(Fj) /  D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями  j (метод главных компонент). При этом  j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I =   j / k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросом ФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями: