Методы увеличения надежности нами уже обсуждались. Во-первых, нужно стремиться к использованию множественных индикаторов. Когда же это невозможно, т. е. существуют теоретические или практические трудности в измерении одной переменной разными способами, то следует использовать самые устоявшиеся и общепринятые показатели (например, если можно лишь один раз спросить респондента о его возрасте, то лучше всего использовать в точности такую же формулировку вопроса и те же категории ответа, какие используются в общенациональных переписях, масштабных панельных исследованиях и т.п.).
К другим методам увеличения надежности можно отнести «отсев» иррелевантных вопросов, анализ словесной формулировки вопроса, обучение и контроль интервьюеров, совершенствование методов кодирования данных и процедур ввода.
Валидность измерения, в самом общем смысле, характеризует соответствие измерения его цели. Эмпирический показатель валиден (обоснован, правилен) в той мере, в какой он действительно отражает значение той теоретической переменной, которую предполагалось измерить. Очевидно, что нет смысла говорить о валидности какого-то индикатора самого по себе. Валидность инструмента измерения состоит в однозначностш и правильности получаемых результатов относительно измеряемого свойства объектов, т. е. относительно предмета измерения. Можно сказать, что валидность определяет «чистоту» измерения теоретического конструкта. Когда измерение является непосредственным, т.е. мы можем прямо подсчитать количество эталонных единиц измеряемого свойства, и на результаты измерения влияют только случайные ошибки, надежность и валидность неразличимы, валидность инструмента измерения равна его надежности. Если мы измеряем интересующее нас свойство лишь косвенно, используя какой-то индикатор, возникает различие между надежностью и валидностью. Индикатор может обладать высокой надежностью (воспроизводимостью), но при этом измерять интересующий нас социологический конструкт недостаточно «чисто». Уже на интуитивном уровне очевидно, что вполне надежный инструмент может измерять нечто другое, помимо интересующего исследователя качества (например, не столько политическую активность, сколько конформизм). Косвенное измерение обычно содержит и случайный, и неслучайный ошибочный компонент. Именно неслучайный компонент, включающий в себя систематическую (скоррелированную) ошибку и, реже, имеющую одну и ту же величину для каждого случая постоянную ошибку измерения, определяет валидность показателя. Характерными примерами систематической ошибки измерения в социологическом опросе или эксперименте являются уже упоминавшиеся эффекты «памяти», социальной желательности, установки за позитивный или негативный ответы. Они влияют не только на правильность, валидность индикатора интересующей исследователя переменной, но и на правильность и обоснованность результатов анализа данных: скоррелированная ошибка измерения может воздействовать на любые статистические показатели, в том числе на показатели взаимосвязи между переменными и на оценки значимости различий между подгруппами. Иными словами, конечным итогом «пользования невалидных индикаторов могут оказаться неверные содержательные выводы.
Проблема валидности измерения — сложнейшая проблема социологической методологии. Валидное измерение — это прежде всего результат валидной модели измерения, т. е. результат обоснованной и ясной концептуализации теоретических представлений. Здесь мы опишем лишь основные виды валидности и традиционные методы валидации, т. е. установления валидности измерений.
Валидностъ по содержанию показывает, в какой мере избранные исследователем индикаторы отражают различные аспекты теоретического понятия. Иными словами, речь идет о представительности данной совокупности измерений да отношению к концептуальной структуре переменной-признака, о полноте операционализации теоретических понятий. Например, экзамен по статистике может рассматриваться как валидный инструмент измерения статистических знаний студентов, так как экзаменационные вопросы отражают содержание лекций и учебников. Однако если все вопросы относятся лишь к одному разделу прочитанного курса — скажем, к нормальному распределению, — то результаты экзамена будут отражать, например, умение студентов переводить «сырые» баллы в стандартные оценки, но ничего не скажут о знании корреляции и регрессии.
Основная процедура оценки валидности по содержанию — это суждение эксперта. В некоторых случаях связь между теоретическими понятиями и измеряющими их индикаторами столь ясна, что никакие специальные обоснования попросту не требуются: понятно, что термометр измеряет температуру. Здесь можно говорить об очевидной (иногда—лицевой, от англ. face validity) валидности показателя. Очевидная валидность тем выше, чем тождественнее понимание цели вопроса, теста или иного показателя профессионалом-социологом и неискушенным респондентом. Вопрос о частоте покупки шампуня, по всей вероятности, не содержит в себе никаких подвохов и позволяет судить именно о том типе потребительского поведения, который описан в вопросе. Однако в более сложных случаях содержательная валидность отнюдь не сводится к очевидной. Набор простых вопросов о излюбленном способе проведения досуга, предпочитаемой марке автомобиля, частоте чтения престижного журнала и т. п. может быть нацелен на измерение «стиля жизни» респондента (в данном случае измерение позволяет отнести человека к одной из номинальных категорий стиля жизни — «выживающий», «достиженческий», «экзистенциальный», «социальный» и т. п.). Судить о полноте этого набора и относительной значимости вопросов для измерения понятия «стиль жизни» могут только специалисты. Основой такого экспертного суждения является теоретическое определение, концептуализация исследовательской переменной. Обычно экспертное суждение о валидности по содержанию выносится более или менее стихийно, после публикации результатов исследования. Иногда все же удается использовать более организованные процедуры — метод параллельных панелей или метод нескольких судей. В первом случае две или три последовательные панели специалистов проводят всю процедуру валидации по содержанию, т. е. сравнивают существующие дефиниции, составляют список возможных индикаторов и оценивают их репрезентативность по отношению к исследуемой концептуальной области. Если сравнение индикаторов, независимо отобранных в двух и более панелях, обнаруживает множество совпадений, можно говорить о высокой содержательной валидности.
Метод нескольких судей (экспертов) полезен в тех случаях, когда переменная-признак, которую предполагается измерить, имеет многомерную структуру. Если, например, социолог разрабатывает воображаемую шкалу социально-экономического благополучия регионов, то полезно обратиться к специалистам в таких областях, как демография, социальная политика, занятость, налоговая система и т. п. Опрос экспертов позволит выявить существенные факторы, входящие в шкалу, оценить их сравнительную значимость и найти релевантные эмпирические индикаторы.
Критериальная валидность (или валидность по критерию) показывает, насколько хорошо результаты по данному тесту или индикатору согласуются с результатами измерения другого показателя, называемого критерием. Чаще всего критерий — это та переменная, которая и представляет практический интерес для исследователя, но не может быть измерена в данный момент. Например, критериальная валидность вступительных экзаменов определяется той академической успеваемостью, которую в дальнейшем продемонстрируют студенты (т. е. академическая успеваемость является в данном случае критерием). Можно также предположить, что тест моральной оценки девиантного поведения для подростков обладает критериальной валидностью по отношению к реальному отклоняющемуся поведению. Индикатор, обладающий доказанной критериальной валидностью, может рассматриваться как переменная-предиктор, позволяющая предсказывать индивидуальные значения переменной-критерия. Конечно, нужда в предикторе, замещающем собственно критерий, возникает лишь в тех случаях, когда оценки по критерию получить трудно, т. е. речь идет о давно прошедших или еще не наступивших событиях, либо переменную-критерий трудно измерить из-за практических или этических соображений. Валидность предиктора обычно тем выше, чем ближе он к критерию. Скажем, идеальным методом отбора курсантов авиационного училища мог бы стать пробный краткосрочный курс обучения с проверкой практических навыков управления самолетом в финале: прошедшие проверку претенденты имели бы все шансы стать настоящими профессионалами. Однако такой метод слишком дорогостоящ и на практике используют тесты интеллекта, испытания визуально-моторной координации и другие показатели, установив предварительно их критериальную валидность. В другом случае проективный личностный тест (типа ТАТ — теста тематической апперцепции, подразумевающего составление рассказов по фотографиям с неопределенным сюжетом) позволит выявить признаки психоза либо травмирующего сексуального опыта в прошлом пациента. Полное психиатрическое обследование могло бы занять очень много времени, да и данные о плохом обращении в детстве получить довольно трудно.
К основным типам критериальной валидности относят прогностическую, конкурентную и постдиктивную («предсказывающую-назад») валидности.
Прогностическая критериальная валидность описывает точность, с которой значения данной переменной — обычно характеризующей отдельного индивида или группу — могут быть предсказаны на основании текущих значений какой-то другой переменной (предиктора). Очевидно, что наилучшим показателем такой прогностической точности будет корреляция между значениями переменной-предиктора и значениями переменной-критерия для одной и той же выборки. Тогда — в пределах ошибки выборки — коэффициент корреляции будет равен коэффициенту прогностической валидности.