Содержание
1. Проблема качества социологического измерения
2. Надежность и валидность измерения
Библиографический список
1. Проблема качества социологического измерения
Переменная-признак, включенная в модель измерения, может задаваться совокупностью эмпирических индикаторов (в предельном случае — одним индикатором), наблюдаемые значения которых содержат, помимо истинного, ошибочный компонент. Задача оценки качества измерения — это, говоря обобщенно, задача разделения истинного значения и ошибки. Еще одна проблема, стоящая перед исследователем, связана с необходимостью использовать несколько показателей (вопросов анкеты, данных наблюдения и т. п.) для построения суммарного индекса или шкалы, позволяющих получать более точные, т. е. менее подверженные смещению, оценки интересующей исследователя переменной. Индексы и шкалы позволяют перейти от многообразия конкретных, наблюдаемых переменных-индикаторов, отражающих лишь отдельные аспекты теоретического понятия, к более абстрактным переменным теоретической модели. Так, например, конкретный вопрос об участии в голосовании дозволяет сделать определенные выводы о политической активности людей, однако ограничившись только этим вопросом, вы ничего не узнаете о других аспектах и формах политической активности. Кроме того, использование нескольких показателей позволяет уменьшить влияние посторонних факторов на ваши оценки величины или разброса значений переменной и сделать получаемые результаты более устойчивыми и воспроизводимыми. Иными словами, использование индексов и шкал ведет к повышению надежности и валидности измерения. С рассмотрения этих понятий мы и начнем данную главу.
2. Надежность и валидность измерения
Качество отдельных индикаторов, суммарных показателей (индексов) и шкал определяется их надежностью и валидностью.
Надежность измерения связана с его устойчивостью и воспроизводимостью. Показатель может считаться надежным в той мере, в которой полученные оценки могут быть воспроизведены на данной совокупности объектов измерения. Основной вид надежности — это надежность-повторяемость (или диахронная, ретестовая надежность). Оценка ретестовой надежности отражает результаты повторного применения одного и того же показателя (вопроса, теста) для одной и той же выборки случаев (респондентов) в разные моменты времени. Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всяком последующем случае, то этот вопрос надежен. Если тест умственных способностей дает те же результаты при повторной проверке на одной и той же группе старшеклассников, то это надежный тест.
Важно отметить, что надежность инструмента измерения не отражает его точность или правильность. Скажем, если на вопрос о доходе респонденты дважды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мы имеем дело с абсолютно надежным, но неточным показателем. Если, в другом случае, термометр с безукоризненной надежностью показывает электрическое сопротивление кожи, у нас нет оснований говорить о правильности, адекватности измерения. Оценка надежности-повторяемости — это корреляция между результатами повторных измерений. В случае единичного вопроса-индикатора достаточно просто сопоставить ответы одной и той же группы людей, полученные в первом опросе, с ответами, данными двумя неделями или месяцем позднее, и вычислить коэффициент корреляции. На практике хорошей можно считать корреляцию 0,8 и выше.
К недостаткам оценок надежности-повторяемости следует отнести, во-первых, сложность проведения повторных замеров на больших выборках, типичных для социологии. Во-вторых, истинное значение переменной также может изменяться с течением времени, например, политические симпатии могут измениться за неделю в результате каких-то скандальных разоблачений, а зарплата — существенно возрасти за месяц из-за введения обязательного индексирования в условиях инфляции. В последнем случае перед исследователем встанет трудноразрешимая задача отделить колебания, вызванные изменением истинного значения переменной, от колебаний, связанных с надежностью показателя. Поэтому так важен еще один вид надежности — надежность-согласованность. Оценить надежность-согласованность можно лишь в том случае, если для измерения одной и той же переменной используют множество индикаторов. Зато для такой оценки достаточно однократного измерения. В психологическом тестировании, например, используют батареи тестов, нацеленных на измерение одной способности или одного личностного качества. Социологи — если они располагают достаточными средствами и техническими возможностями — используют индексы и шкалы, состоящие из множества отдельных вопросов-индикаторов.
Самый простой способ оценки надежности-согласованности — это «расщепление пополам». Если, например, у нас есть 12 вопросов, предположительно измеряющих политическую активность, где каждому вопросу присвоен 1 балл, а максимальной политической активности соответствует суммарный индекс 12 баллов, то применяется следующая процедура:
1. Вопросы в случайном порядке разбиваются на два равных списка (по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.
2. Далее подсчитывается коэффициент корреляции между результатами одних и тех же испытуемых по разным «половинам» теста: чем выше его значение, тем согласованнее оценки истинного значения политической активности, получаемые с помощью данного набора индикаторов. Не исключено, однако, что полученная таким способом оценка надежности окажется весьма чувствительной к способу «расщепления пополам»: коэффициент корреляции будет заметно меняться в зависимости от способа составления двух списков.
Еще одна элементарная процедура, позволяющая оценить надежность отдельного вопроса (высказывания, пункта шкалы), — это проверка его корреляции с суммарным баллом, т. е. с суммарным значением индекса. Если для данной группы опрошенных коэффициент корреляции между отдельным вопросом о частоте зарубежных поездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можно предположить, что названный вопрос не отражает истинного значения переменной «уровень ксенофобии» и может быть исключен из опросника. Ведь строго определенная надежность — это та доля измеренного разброса оценок, которая относится к истинному разбросу значений измеряемой переменной (мы пользуемся здесь менее строгим и скорее содержательным определением, поскольку пока не обсуждали необходимые статистические понятия). Очевидно, что коррелирование с суммарным баллом — это процедура, применимая для имеющих довольно простую структуру суммарных индексов и шкал.
В любом случае важно располагать явной моделью измерения теоретической переменной, так как лишь она позволит предсказать, каковы ожидаемые отношения между отдельными индикаторами и насколько применимы описанные простые методы оценки надежности. Чтобы убедиться в этом, достаточно сравнить модель с множеством эффект-индикаторов латентной переменной с моделью, включающей только причинные индикаторы. Очевидно, что эффект-индикаторы должны быть высоко согласованны и с латентной, переменной-свойством, которую они призваны измерять, и друг с другом. Однако это не так уж очевидно для причинных индикаторов: скажем, и образование, и доход — важные компоненты понятия «социально-экономический статус». Однако даже если образование растет, доход имеет право вести себя как угодно, т. е. он вовсе не должен показывать непременно высокую корреляцию с образованием. Иными словами, если от надежных эффект-индикаторов следует ожидать высокой скоррелированности друг с другом (при использовании методов «расщепления пополам» или корреляции с суммарным баллом), то для причинных индикаторов столь простой подход к оценке надежности неприменим. Разработать подходящий метод оценки надежности здесь можно, лишь анализируя взаимосвязи разных индикаторов и разных теоретических переменных в модели измерения. Прогнозируя ожидаемую направленность и величину этих связей, исследователь может оценить степень соответствия своих предсказаний наблюдаемым данным и сделать вывод о качестве индикатора. Самыми универсальными методами оценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ. В идеале для оценки надежности используют несколько индикаторов (два-три) и по крайней мере две волны панели.
Очень важно помнить, что понятие надежности связано со случайными ошибками измерения, т. е. с ошибками, которые никаким систематическим образом не связаны друг с другом или какими-то систематически действующими внешними переменными (скажем, полом или возрастом респондентов). Типичные источники ненадежности — это случайные несистематические факторы, связанные с колебаниями внимания респондентов, неоднозначностью формулировки вопроса, ведущей к различию в его восприятии в разных случаях; несистематическими различиями в проведении интервью; различиями в кодировании открытых вопросов, или с ошибками при вводе данных. Например, если предложить даже очень опытным специалистам классифицировать сотню населенных пунктов по заранее разработанной схеме кодирования типов поселений, то, вероятнее всего, можно будет найти по крайней мере несколько расхождений в получившихся классификациях. Некоторые расхождения будут связаны с наличием «предельных» случаев, не поддающихся однозначной классификации по предложенным правилам, некоторые — с механическими ошибками записи или невнимательностью. Предварительная оценка надежности вопросов социологической анкеты требует прежде всего «отбраковки» неясно сформулированных вопросов, на которые люди часто отвечают случайным образом. Столь же низка надежность вопросов, на которые респонденты попросту не способны ответить, так как не имеют никакого мнения по затронутой проблеме или ничего не знают о ней. Далеко не все опрошенные, столкнувшись с иррелевантным вопросом, честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ из вежливости или нежелания демонстрировать свою неосведомленность.