Смекни!
smekni.com

Статистические методы анализа результатов психолого-педагогических исследований (стр. 3 из 3)

Имеет смысл учитывать только те факторы, для которых собственные числа больше 1, т.е. вклад фактора в суммарную дисперсию больше вклада любой переменной.

Критерий "каменистой осыпи" рекомендует ограничиться фактором, после которого убывание собственных чисел замедляется наиболее сильно.

На заданном числе факторов критерий информативности I превышает 0.75 ( т.е. факторы обьясняют 75% разброса переменных).

Матрица интеркорреляции для Ei не имеет значимых на заданном уровне  (обычно  = 0.05) недиагональных коэффициентов.

Построенная факторная структура в пространстве V определена не однозначно. Вращая систему координат в V, можно получать различные разложения переменных Хi через Fj. Существуют различные критерии для определения наилучшей позиции системы координат - критерии согласования с результатами, полученными другими методами, с общей гипотезой относительно природы латентных факторов и т.п. Есть и чисто математический критерий, базирующийся на принципе "простой структуры" Терстона. В его основе лежит идея, что из нескольких равносильных гипотез следует выбирать наиболее простую, что в данном случае означает, что каждая переменная должна иметь максимально простое факторное содержание, то есть в ней доминирует нагрузка одного какого-либо фактора, и наоборот - данный фактор проявляется только в некотором минимальном числе переменных. Другими словами, вращением базиса необходимо получить одновременно наибольшее число максимальных по модулю и минимальных (близких к нулю) факторных нагрузок. Эта процедура реализуется тем или иным итерационным методом (варимакс, квартимакс, эквимакс) в статистических электронных пакетах, содержащих модули ФА (Statistica и др.).

Кластерный анализ (КА). В целом алгоритмы КА можно разделить на два основных направления - это разбиение данных на некоторые группы (кластеры) и иерархическая классификация данных. В качестве объектов анализа могут выступать как случаи (субъекты исследования), так и случайные переменные. Общая идея первого направления КА заключается в том, что случаи (или переменные) рассматриваются как точки векторного пространства с определенной на нем метрикой (функцией расстояний) d(X,Y) и затем разбиваются на группы близких относительно этой метрики обьектов, называемых кластерами. В качестве метрики используются евклидово расстояние ( (xi - yi)2)1/2, расстояние Чебышева max{|xi - yi |} и др. Обьекты анализа определяются исходной матрицей Т либо матрицей расстояний. Пусть задана матрица Т. Выделим классифицирующее множество признаков - переменные Х1,..,Хk. Тогда каждый случай представим как точка в k-мерном пространстве V. Естественно предполагать, что геометрическая близость точек в V соответствует близости соответствующих объектов по своим характеристикам. Это определяет геометрический подход, не требующий никаких вероятностных предположений. Другой подход основан на предположении, что матрица Т определяет выборку из смеси унимодальных распределений, и задача выделения групп сводится либо к оценке параметров этих распределений (параметрические методы), либо к поиску модальных значений (точек локального максимума) непараметрической оценки Парзена для функции плотности вероятности. Параметрические методы, например, алгоритм Дея (см. [5, 9.1.4]), близки методам дискриминантного анализа.Обычно при этом предполагается, что распределение выборки есть взвешенная сумма многомерных нормальных распределений. Во втором случае рассматривается функция Парзена P(X,h) = c(h, p)  exp(-1/h2 (X - Xj)T (X -Xj)), дающая непараметрическую оценку плотности распределения случайных величин Х1,.., Хk. Здесь c(h, p) - нормирующая константа, p - параметр сглаживания. Если данные образуют сгущение в n-мерном пространстве, то P(X,h) будет иметь локальный максимум (модальное значение ) в точке, близкой к центру сгущения. Таким образом, определяя модальные точки функции P(X,h), мы определяем количество классов, на которые можно разбить данные, и центры этих классов, вокруг которых затем группируем данные.

Иерархические методы классификации основаны на включении групп данных Di, рассматриваемых как единичные объекты, в некоторую иерархическую структуру, отражающую близость этих групп. В качестве Di могут выступать отдельный случай или переменная. Определяя расстояние между группами d(Di , Dj) (например, как расстояние между центрами групп d(Ci, Cj )) и рассматривая Di как вершины некоторого графа G с ребрами между Di и Dj длины di,j = d(Di, Dj ), мы получим интерпретацию задачи на языке теории графов. Иерархическая структура на множестве объектов {Di} определяется путем нахождения минимального покрывающего дерева, т.е. графа без циклов, такого, что суммарная длина его ребер минимальна. Эта процедура реализуется по правилу "ближайшего соседа" - выделяется ребро минимальной длины di,j, соответствующая пара объектов Di, Dj объединяется в один объект (т.е. добавляется новая вершина графа, соединенная с вершинами Di, Dj,), в получившемся графе снова выделяется ребро минимальной длины и т.д. В результате мы получаем иерархическое дерево, в котором вершины низшего уровня есть исходные объекты, а остальные вершины определяют уровни иерархической структуры. В других алгоритмах используются методы разрезания дерева по самому длинному ребру (вроцлавская классификация) либо по ребру с максимальным весом w=dn1n2, где d - длина ребра, а n1, n2 - количество вершин поддеревьев, получающихся после разреза дерева, содержащего данное ребро (см. [11]).

Критерии согласия.. Критерии согласия предназначены для обнаружения расхождений между гипотетической моделью и данными, которые эта модель призвана описать. Они используются для проверки применимости предположения о законе распределения случайной величины либо для проверки гипотезы об однородности выборки. Обычно, полагая выборочные среднее и отклонение оценкой параметров гипотетического распределения, используют критерии Колмогорова-Смирнова, омега-квадрат для переменных с большой вариативностью значений, и критерии хи-квадрат К.Пирсона или Р.Фишера для дискретных переменных с небольшим числом значений. Для проверки однородности распределений в подвыборках, извлеченных из генеральной совокупности с нормальным распределением, используют t-критерий Стьюдента для средних и критерий Бартлетта для дисперсий. При проверке однородности выборок относительно ординальных переменных используют ранговые критерии однородности - критерий Вилкоксона и критерий нормальных меток Фишера-Йэтса (см. [2]).

В заключение отметим, что существует большое число различных статистических компъютерных пакетов, позволяющих проводить стандартные виды анализа - Statistica, SPSS, Stadia, Statgraphics и др. Личный опыт автора позволяет рекомендовать в практических исследованиях пакеты Statistica версии 4.5 и выше и SPSS версии 7.0.

Список литературы

Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607с.

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных.- М.: Финансы и статистика, 1983. - 471с.

Боровиков В.П., Боровиков И.П. Statistika. Статистический анализ и обработка данных в среде Windows. - М.: Информ.-издат. Дом "Филинъ", 1997. - 608 с.

Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1982. - 302 с.

Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. - М.: Финансы и статистика, 1986. - 232 с.

Кокс Д., Хинкли Д. Теоретическая статистика. - М.: Мир, 1978. - 560 с.

Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1998. - 528 с.

Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.

Жамбю М. Иерархический кластерный анализ и соответствия. - М.: Финансы и статистика, 1988.