В психодиагностике роль «элементарных сенсорных данных» выполняют первичные тестовые показатели X1 Х2,..., Xk, а роль «образа» (выходного сигнала системы) - соответствующая диагностическая категория. Таким образом, по существу, распознавание образов[19] и есть диагностика в широком смысле.
Поясним специфику подхода на простейшем схематическом примере. Пусть Ру -вероятность такого типового критерия оценки студентов, как успеваемость, Х1 - уровень интереса к специальности, выявленный у абитуриента, Х2 - уровень его знаний о специальности.
На рис. 16 точки X1 = 0 и Х2 = 0 - медианные значения соответствующих тестовых показателей. В данном упрощенном примере в статусе «образа» выступает каждый из четырех квадрантов диагностического пространства. Для предсказания Ру мы не можем построить линейной комбинации Х1 и Х2, какие бы коэффициенты ß1, и ß2 мы ни взяли. Для предсказания Рy мы должны зафиксировать попадание индивида в заданную область пространства параметров. «Образ», или диагностическая категория, и есть на геометрическом языке определенная область в пространстве параметров.
Рис. 16. Зависимость вероятности критериального события р и диагностических параметров X1 и Х2
С точки зрения распознавания образов, предварительная задача диагностики (предваряющая практические задачи) – определить границы диагностических категорий - областей в пространстве параметров, которым эмпирически корректно могут быть приписаны некоторые пороговые (качественно специфичные) значения прогнозируемого критериального показателя. Это задача построения «разделяющего правила» (или «решающего правила»). Точность такого разделения и предопределяет прогностическую валидность методики на данной совокупности испытуемых в данной диагностической ситуации.
Репрезентативность выборки при этом определяется степенью изменения точности разделения при увеличении совокупности обследованных. Влияние того или иного параметра на точность разделения определяет «вес», с которым входит данный параметр в задачу диагностики.
Построение формальной процедуры разделения может производиться по-разному. В простейшем случае - это сравнение тестового показателя с некоторым порогом. В более сложных случаях применяются методы дискриминантного анализа, позволяющие описывать «разделяющие правила» (границы диагностических областей в пространстве параметров) в виде сложных функций сразу от нескольких параметров.
Применение определенного метода для решения задачи построения системы диагностических категорий определяется несколькими факторами: во-первых, это соответствие допущений, положенных в основу алгоритма, содержательным представлениям о психологической типологии индивидов в рамках рассматриваемой системы психодиагностических параметров; во-вторых, это степень полноты имеющейся информации для эффективной «остановки» алгоритма, обеспечивающей оптимальное решение задачи за приемлемое время.
Под полнотой информации здесь, имеется в виду наличие достаточно многочисленных групп индивидов, четко и однозначно классифицированных по заданной системе критериев. В этом случае построение решающего правила сводится к применению какого-либо алгоритма автоматической классификации, приспособленного к работе с заданными классами. Если же критериальные классы представлены неполно - всего несколькими представителями, для которых при этом не всегда известны все значения необходимых параметров, - то возникает ситуация, требующая применения так называемых эвристических алгоритмов (более подробно о применяемых алгоритмах классификации см. кн.: Типология и классификация в социологических исследованиях. М., 1982).
Остановимся на одном из методов распознавания, получившем применение в психодиагностике, — на семействе алгоритмов вычисления оценок (АВО), предложенном Ю. И. Журавлевым и его учениками (1978).
Основную задачу распознавания образов можно сформулировать как задачу отнесения объекта 5 к одному или нескольким классам К1 К2,..., Кi на основе информации о классах I (K1), (К2),..., I (Кi), информации об объекте I(S) и предположения о близости объекта к классу. Другими словами, задачу распознавания можно сформулировать как задачу определения того, обладает ли объект определенными свойствами.
В основе АВО лежит принцип частичной прецедентности: близость объекта к классу тем больше, чем больше частей в его описании «похожи» на соответствующие части в описаниях' объектов, чья принадлежность классу известна. Например, в одном из вариантов АВО (Зеличенко А. И., 1982) функция близости объекта S к классу К определяется так:
(3.5.3)где
- i-й объект, принадлежность которого к классу К уже известна;ai (S) - i-й элемент (параметр) в описании объекта;
P1 - его вес;
εj - i-й порог.
После того как вычислены Г(S1 K1,), ... , Г(S1 K1,) на основании некоторого решающего правила (зависящего от вектора параметров
, принимается решение о принадлежности объекта к одному или нескольким классам К1, ..., К1 В задачах психодиагностики S- это испытуемый.Таким образом, каждый вариант АВО определяется набором значений параметров. В нашем случае- это векторы
, . Если информация об объекте S представлена в виде I(S) = (а1,..., а2), то элемент вектора опорных множеств ωj(S) = аi, a εj -j-й порог.В качестве примера решающего правила можно привести следующее (линейное пороговое решающее правило):
объект S принадлежит к классу Kt если
(3.5.4)объект S не принадлежит к классу Kt если
(3.5.5)в остальных случаях -отказ от распознавания принадлежности объекта S к классу Kt.
В работе алгоритмов распознавания вообще и АВО в частности можно выделить два этапа: обучение и собственно распознавание. На этапе обучения, как уже говорилось, происходит настройка алгоритма, т. е. выбор таких его параметров, которые обеспечивают оптимальное в нег котором смысле распознавание объектов обучающей выборки (объектов, принадлежность которых к классам К1, ... ,Ki, известна). На этапе собственно распознавания происходит отнесение к классам K1,..., Кi, тех объектов, принадлежность которых к классам априорно неизвестна.
Точность распознавания на этапе обучения измеряется полнотой и адекватностью распознавания эталонных объектов. Наряду с понятием «точность» (абсолютная отделимость) иногда удобно использовать понятие относительной отделимости объектов обучающей выборки, принадлежащих к различным классам. В случае, когда распознавание ведется для двух классов (например, в профориентации - для дифференциального прогноза успешности оптанта в одной из двух профессиональных областей), относительную отделимость можно определить как
(3.5.6)где X - точность при обучении (выраженная в процентах), a
-минимальная возможная точность обучения (совпадает с долей объектов в наибольшем классе от общего объема обучающей выборки). На этапе собственно распознавания точность характеризует главным образом репрезентативность обучающей выборки (выборки валидизации). Чем выше репрезентативность, тем больше совпадают показателе точности на этапах обучения и собственно распознавания.Использование АВО кроме решения задачи распознавания позволяет получить следующую информацию:
1. Информационные веса отдельных элементов (параметров) описания объектов. Эти веса измеряются через изменение точности распознавания при исключении соответствующих параметров из описания эталонных объектов:
(3.5.7)где X - точность распознавания при Рj = 1; X(
) - точность распознавания при Р. = 0, а а - нормирующий множитель. Информационные веса интерпретируются как мера прогностической важности параметров.2. Оптимальные значения порогов
, т. е. значения , обеспечивающие наивысшую точность распознавания. Эти значения порогов в нашем случае можно .интерпретировать как чувствительность методики; εj - своего рода дифференциальный порог на шкале тестового показателя aj определяющий переход индивида из одной диагностической категории в другую. Пусть на этапе разработки теста (тестовой батареи) была обследована группа из К человек, про которых известно, что k1 из них относится к одному классу, а К2 - к другому, К = К1 + К2. Выбрав случайным образом из этой группы М (М<<К) многомерных описаний, проводим на них процедуру обучения алгоритма. Точность обучения характеризует валидность теста. После этого применяем процедуру собственно распознавания (по выработанному решающему правилу) для остальных К-М описаний. В результате этой процедуры мы определяем принадлежность респондентов (испытуемых) к этим классам. Сравнивая полученные результаты с эталонными данными о принадлежности испытуемых к классам, мы определяем точность самого распознавания. Если эта точность близка к точности обучения, то наша пилотажная выборка объемом М может быть признана репрезентативной для обучения. Теперь можно переходить к задаче определения информационных весов.