Тест 1
Да Нет
a | B |
c | D |
Да Тест 2
Нет
Здесь в клеточке а суммируются ответы «Да», данные испытуемым при первом и втором тестировании, в клеточке b - число случаев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент:
(3.2.13)Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:
(3.2.14)Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывается тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет».
Кроме того, сама четырехклеточная матрица позволяет проследить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может оказаться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приобретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина
превышает 0,71. При этом φ< 0,5.Для т<?го чтобы повысить одномоментную (синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными[12]. В отсутствие компьютера согласованность для пунктов также очень просто определяется с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».
Высокая Низкая
A | B |
C | D |
Да
Нет
При нормальном распределении частот суммарных баллов «высокая» и «низкая» группы отсекаются справа и слева 27%-ными маргинальными квантилями (рис. 8).
Для оценки согласованности с суммарным баллом применяется полная[13] или упрощенная формула фи-коэффициента:
(3.2.15)[14]где
- количество ответов «верно» («да») на i-й пункт теста;N* - сумма всех элементов матрицы;
N* = n • 0,54 где n - объём выборки;
Pi = а + b - При включении в эстремальную группу 1/3 выборки
N* = 0,66 • n.
Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.
При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0,01 пороговое значение вычисляется так:
(3.2.16)При постоянном использовании компьютера при подсчете суммарных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с суммарным баллом. Тогда тестовый балл подсчитывается по формуле
(3.2.17)где хi — суммарный балл i-го испытуемого;
- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обратного.
Более чувствительный коэффициент, который также применяется для дихотомических пунктов, - это точечный бисериальный коэффициент корреляции, учитывающий амплитуду отклонения индивидуальных суммарных баллов от среднего балла:
3.2.18)где
x* - сумма финальных баллов тех индивидов, которые дали утвердительный ответ на i-й пункт теста (решили i-ю задачу);Sx - стандартное отклонение для суммарных баллов всех индивидов из выборки;
- стандартное отклонение по i-му пункту; - средний балл по всем пунктам.А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая согласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетельствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).
В компьютерных данных факторного анализа аналогом корреляции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фактору и вытянувшихся вдоль его оси (рис. 9).
Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности:
1. Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.
2. Произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом.
Проблемы валидизации психологических тестов являются центральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.
Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятельством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психометрике значимость проблемы валидности резко возрастает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».