Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.
Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значение при наличии невысокого коэффициента надежности критерия корректируют по формуле
(3.3.1)где
- эмпирическая корреляция с критерием;ас — надежность критерия;
rtx - корреляция с «истинным» критерием («истинная» валидность теста).
Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет использовать более эффективный алгоритм, основанный на анализе частных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии (Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт получает весовой коэффициент[17], количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автоматизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне
= 0,60, то множественная корреляция суммарного тестового показателя с критерием равняется 0,38, если же га = 0,30, множественная корреляция повышается до 0,52. Наконец, при rtj= 0,10эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какого-то одного социально ценного показателя (успеваемость, производительность труда и т. п.).
Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла (см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен включить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы[18]. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием.
После отбора валидных пунктов должна быть произведена перекрестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и каким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с критерием эти пункты на другой выборке, которая не использовалась при их отборе.
Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной.
Метод критериального тестирования очень трудоемок. .Практически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное применение в задачах построения методик с широкой областью применения.
Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемого свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства.
Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандартизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возможности.
Валидность — характеристика любых измерений, в том числе и физических. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности.
Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы:
1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление (с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.
2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.
3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.
Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса подтверждающих и отвергающих ответов: если баланс резко нарушается, то протокол признается бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перефразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.