Статистические методы анализа результатов психолого-педагогических исследований (стр. 1 из 3)

Д. Ю. Кузнецов

Специфика статистической обработки результатов психолого - педагогических исследований заключается в том, что анализируемая база данных характеризуется большим количеством показателей различных типов, их высокой вариативностью под влиянием неконтролируемых случайных факторов, сложностью корреляционных связей между переменными выборки , необходимостью учета объективных и субъективных факторов, влияющих на результаты диагностики, особенно при решении вопроса о репрезентативности выборки и оценке гипотез, касающихся генеральной совокупности. Данные исследований по их типу можно разбить на 3 группы. Первая - это номинальные переменные (пол, анкетные данные и т. д.). Арифметические операции над такими величинами лишены смысла, так что результаты описательной статистики (среднее, дисперсия) к таким величинам неприменимы. Классический способ их анализа - разбиение на классы сопряженности относительно тех или иных номинальных признаков и проверка значимых различий по классам. Вторая группа данных имеет количественную шкалу измерения, но эта шкала является порядковой (ординальной). При анализе ординальных переменных используется как разбиение на подвыборки, так и ранговые технологии. С некоторыми ограничениями применимы и параметрические методы. Третья группа - количественные переменные, отражающие степень выраженности замеряемого показателя, - это тесты Амтхауэра, Кеттелла, успеваемость и другие оценочные тесты. При работе с переменными этой группы применимы все стандартные виды анализа, и при достаточном объеме выборки их распределение обычно близко к нормальному. Таким образом, разнообразие типов переменных требует применения широкого спектра используемых математических методов.

Одной из главных целей исследования является анализ изменений, происходяших в процессе обучения, оценка значимости и направленности этих изменений и выявление основных факторов, влияющих на процесс. При этом возможны два подхода. Можно рассматривать длительность обучения как случайный параметр и вычислять его корреляцию (линейную или ранговую) с интересующими нас индивидуальными характеристиками испытуемого. Однако проводимые исследования показывают, что в процессе профессионализации изменяются зачастую не сами показатели, а структура взаимосвязей и взаимозависимостей между ними (что, например, при корреляционном анализе проявляется через изменение корреляционных матриц, а при факторном анализе - через изменение факторных нагрузок явных и латентных факторов). Поэтому более предпочтительным методом является разбиение данных на группы (подвыборки), их самостоятельный, а затем сравнительный анализ и проверка значимости различий в группах.

Процедуру анализа можно разбить на следующие этапы:

Подготовка базы данных к анализу. Этот этап включает в себя конвертацию данных в электронный формат, их проверка на наличие выбросов, выбор метода работы с пропущенными значениями.

Описательная статистика (вычисление средних, дисперсий, ассиметрии и эксцесса, центральных моментов, при необходимости моды, медианы, квартилей распределения и разброса, матриц ковариации и корреляции и т.д.). Результаты описательной статистики определяют характеристики параметров анализируемой выборки либо подвыборок, задаваемых тем или иным разбиением.

Разведочный анализ. Задачей данного этапа является содержательное исследование различных групп показателей выборки, их взаимосвязей, выявление основных явных и скрытых (латентных) факторов, влияющих на данные, отслеживание изменений показателей, их взаимосвязей и значимости факторов при разбиении базы данных по курсам, факультетам, учебным заведениям и т. д. Инструментом исследования являются различные методы и технологии корреляционного, факторного и кластерного анализа. Целью анализа является формулировка гипотез, касающихся как данной выборки, так и генеральной совокупности.

Детальный анализ полученных результатов и статистическая проверка выдвинутых гипотез. На этом этапе проверяются гипотезы относительно видов функции распределения случайных переменных, значимости различий средних и дисперсий в подвыборках, т.е. их однородности, значимости различий корреляционных матриц и факторных нагрузок в факторном представлении в подвыборках, интерпретация латентных факторов и т.д. Строятся доверительные интервалы для средних, дисперсий и коэффициентов корреляции, применяются подходящие критерии согласия. Используются методы дисперсионного, факторного и регрессионного анализа. При обобщении результатов исследования решается вопрос о репрезентативности выборки.

Необходимо отметить, что эта последовательность действий, строго говоря, не является хронологической, за исключением первого этапа. По мере получения результатов описательной статистики и выявления тех или иных закономерностей возникает необходимость проверить возникающие гипотезы и сразу перейти к их детальному анализу, так что весь спектр исследований будет проводиться одновременно или в режиме итерационного взаимодействия: результаты реализации более поздних этапов исследования могут содержать выводы о необходимости возвращения к предыдущим этапам. Но в любом случае при проверке гипотез рекомендуется провести их анализ различными математическими средствами, адекватно соответствующими модели, и принимать гипотезу на том или ином уровне значимости следует только тогда, когда она подтверждается несколькими различными методами.

Опишем теперь подробнее предлагаемую процедуру исследования и используемые математические методы.

Подготовка данных к анализу.

Прежде чем приступать к анализу, необходомо выполнить следующие действия: 1) проверить данные на наличие существенных ошибок; 2) выбрать метод работы с пропущенными значениями; 3) при необходимости сгладить выбросы. Рассмотрим каждый из этих моментов.

1) Ошибки ввода можно условно разбить на две категории. Первая - это незначительные (на уровне 20%) ошибки при наборе или шкалировании. Будучи случайным фактором, такие ошибки в силу равной вероятности отклонений в ту или другую сторону не смещают оценки для выборочных средних и не искажают принципиально распределение соответствующих переменных. Ошибки второго рода - это существенные ошибки (>50%), влияющие на распределение (выбросы). Задачей электронной проверки базы данных является полное устранение существенных ошибок. Для этого по каждой из переменных рекомендуется просмотреть диаграмму рассеяния на так называемой "нормальной вероятностной бумаге", отметить выбросы и, проанализировав их, исправить ошибочные значения, либо, если выброс имеет объективную природу, решить вопрос о сглаживании (см. ниже). При этом одновременно решается вопрос о близости выборочного распределения к нормальному. (При детальном анализе и проверке гипотез нормальность распределения необходимо подтверждать критериями согласия).

2) Существует три основных варианта работы с пропущенными значениями. Первый - игнорировать при конкретных вычислениях соответствующие случаи. Однако при этом не используется часть полезной информации и снижается валидность выборки, так что этот способ можно использовать при значительном объеме выборки (>100 человек) и небольшом (0-10%) числе пропусков. Второй способ заключается в замене пропущенных значений переменных их средними значениями. Такая процедура не изменяет валидность и выборочное среднее и незначительно уменьшает дисперсию. К её недостаткам можно отнести смещение оценок элементов ковариационной и корреляционной матриц, что, отражается на результатах корреляционного и факторного анализа. Тем не менее этот способ является самым распространенным при средних объёмах выборки и не слишком большом числе пропусков. Третий вариант работы с пропущенными значениями заключается в их экстраполяции по имеющимся данным. Это осуществляется средствами корреляционно - регрессионного или кластерного анализа. В первом случае по имеющимся данным определяется уравнение множественной регрессии заданных переменных на рассматриваемую, и пропущенные данные заполняются как значения этого уравнения. Второй подход основан на использовании расстояния между парами объектов (случаев) в некоторой метрике, определяемого по значениям переменных, измеренных у этих объектов. Предполагается, что если два случая близки в пространстве измеренных переменных (попадают в один кластер), то из этого следует и их близость по неизвестным переменным. Эти методы технически достаточно сложны и их целесообразно использовать только при небольшом объеме выборки, значительном числе пропусков и высокой значимости проводимого исследования.

3) Иногда выброс - не следствие ошибки, а обьективный результат исследования. Но в любом случае он существенно искажает распределение переменной, поэтому если выброс имеет случайный характер и не отражает некоторую закономерность, рекомендуется сгладить его путем замены соответствующего значения на среднее или экстраполированное одним из перечисленных выше способов.

Описательная статистика.

Результаты проведенного исследования интерпретируются как матрица данных T размера n р, строки которой соответствуют участникам исследования (случаи), а столбцы - значениям переменных или параметров. Пусть X - количественная переменная с набором значений xi, i=1,2,...n. Тогда основными параметрами её распределения являются:

Показатели положения. К ним относятся выборочное среднее Xср=( xi)/n, минимальный и максимальный элементы, верхний и нижний квартили (они определяют границы зоны, в которую попадает 50% выборки), выборочная медиана (квантиль, соответствующая значению p=0.5).

Показатели разброса и ассимметрии. Это в первую очередь исправленное выборочное отклонение s, дисперсия D, коэффициент вариации Квар, размах (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), центральные отклонения  i, ассимметрия Ass(X), эксцесс Eks(X), вычисляемые по формулам