Рис. 3.14. Иллюзия Тэтчер." можно сначала сравнить оба изображения при данной ориентации, а затем в нормальном и снова в перевернутом положении
Изучение признаков, обеспечивающих узнавание лиц, привело и в этой области к разделению целостных (конфигурационных, связанных со взаимным положением) и локальных признаков, определяемых спецификой деталей. В отличие от восприятия обычных предметов и объектов в нашем окружении (и в отличие от процессов чтения в культурах с алфавитной письменностью — см. 7.2.1), узнавание лица в большей степени определяется именно целостными характеристиками, так что даже если в действительности речь идет об изменении некоторого локального признака, испытуемые воспринимают его глобально. Например, изменение диаметра зрачка обычно не воспринимается как таковое, а интерпретируется глобально, скажем, как увеличение привлекательности. Целостное узнавание возможно только при нормальной пространственной ориентации, как это демонстрирует иллюзия Тэтчер (по имени главы британского правительства, сократившей в свое время финансирование научных исследований). Хотя мы легко можем установить, что изображения на рис. 3.14 не совпадают между собой в деталях, мы даже отдаленно не можем себе представить, в какой степени на самом деле различаются между собой выражения этих лиц.
Зависимость восприятия «внутренней геометрии» лица от его ориентации в пространстве ведет к тому, что при необычной ориентации мы, в известном смысле, становимся функционально слепыми к целостным фигуративным признакам. Эта зависимость имеет общий характер, но в случае лиц она выражена особенно сильно. Особый статус восприятия лиц доказывается существованием прозопагнозии — нейропсихологичес-кого синдрома, который связан с селективным выпадением узнавания преимущественно именно этого класса объектов. Интересно, что воз- 215
можны варианты этого синдрома, когда пациенты не могут зрительно узнавать даже своих близких родственников и знакомых, но, тем не менее, вполне успешно определяют «по выражению лица» эмоциональное состояние. Как показывают данные клинических наблюдений и мозгового картирования, эти формы восприятия, по-видимому, преимущественно связаны с нижневисочными отделами правого полушария.
В нижневисочных отделах коры тоже локализуются процессы, существенные для узнавания, а также, что интересно, даже для простой детекции (Grill-Spector, 2004) других категорий сложных зрительных стимулов (см 3 3 3 и 3 4 2) Продолжительные споры относительно того, до какой степени могут быть специализированы процессы восприятия формы объектов и как это связано с межполушарными различиями, привели в последнее время к возникновению представления о своеобразной полуспециализации полушарий. Правополушарные механизмы вентрального потока переработки зритетьной информации обеспечивают целостное восприятие лиц, а также участвуют в обработке формы и узнавании повседневных предметов Однако они не вовлечены сколько-нибудь существенно в процессы восприятия формы букв (в культурах алфавитной письменности) Левополушарные механизмы, напротив, работают скорее с отдельными признаками объектов Они обеспечивают процессы побуквенного чтения и частично участвуют в узнавании повседневных предметов, но не в узнавании лиц Это предварительное объяснение подтверждается, в частности, анализом основных синдромов дислексии — нарушения чтения при локальных поражениях мозга (см 7 2 2)
3.3.2 Влияние нейронаук и информатики
Многие из числа известных современных теорий распознавания опираются, как мы только что видели, на данные и модели, заимствованные из становящейся все более обширной области нейронаук — нейрофизиологии, нейропсихологии и нейроинформатики. Начало переориентации психологических описаний восприятия на физиологическую терминологию и нейросетевые объяснительные модели было положено открытием нейронов-детекторов признаков стимуляции. Особую известность получила основанная на данных микроэлектродного отведения активности отдельных нейронов модель Нобелевских лауреатов 1981 года Д. Хьюбела и Т. Визела. Согласно этой модели, на разных уровнях зрительной системы последовательно выделяются пятна, линии, углы, а затем и более сложные комбинации элементов контура («вплоть до детектора моей бабушки», как иронически заметила однажды американская исследовательница восприятия Науми Уайсстейн)
Эти данные, полученные при изучении зрительной системы кура-
ризированных кошек, были использованы в дальнейшем для моделиро-
216 вания различных аспектов зрительного восприятия. Если нейроны вы-
деляют соединения контуров, то почему разные соединения, например типов «Y», «X», «L» или «Т», выделяются с различной частотой? Математическое моделирование описаний трехмерных сцен показало, что такие соединения могут выполнять разные функции, связанные с отнесением участков, ограниченных контурами, к одним и тем же или к разным предметам Так, особенно часто выделяемое соединение типа «Y» с высокой степенью вероятности представляет собой вершину (впадину) единого объекта с тремя гранями. Напротив, соединение «Т» скорее свидетельствует о перекрытии одного предмета другим, причем верхняя «перекладина» принадлежит перекрывающему предмету, а центральная «ось» разделяет две поверхности перекрываемого предмета. Как в таком случае быть с участками объектов, не имеющими контуров, но, тем не менее, явно демонстрирующими «телесность», подобно изображенному на рис. 3.15А торсу? Возможно, что в этом случае используется некоторое сочетание детекции пространственных частот и ориентации Участки гладких поверхностей moi ут моделироваться путем выделения овальных теней и бликов различной величины и ориентации в пространстве (рис. 3.15Б).
На развитие формальных моделей распознавания в последние годы оказывают особенно сильное влияние идеи, возникшие в рамках работ
Рис. 3.15. Гладкие изменения телесных поверхностей (А) можно аппроксимировать (Б) с помощью множества овальных участков, разной ориентации (по Koendennk & van Doom, 2003)
217
218
по машинному зрению, компьютерной графике и нейроинформатике. Пожалуй, наиболее известной в психологии и за ее пределами до сих пор остается возникшая свыше двух десятилетий назад в этом контексте вычислительная модель зрительного восприятия Дэвида Марра (Магг, 1982). Эта модель постулирует три этапа переработки зрительной информации. На первом этапе вычисляется грубое, но полное описание изменений яркости в локальных участках изображения (в вариантах модели используется также информация о движении и бинокулярной диспарат-ности). Описание строится в терминах алфавита типов изменения яркости: КРАЙ, ТЕНИ-КРАЙ, ЛИНИЯ, ПЯТНО и т.д., дополненных параметрами ПОЛОЖЕНИЕ, ОРИЕНТАЦИЯ, КОНТРАСТ, РАЗМЕР и РАЗМЫТОСТЬ. Марр назвал такое описание первичным наброском, поскольку оно выделяет контур и подчеркивает слабые изменения яркости, подобно тому как это мог бы сделать художник, делая набросок картины. По отношению к первичному наброску последовательно применяются операции группировки и различения, результатом чего является выделение фигуры (объектов) из фона.
Описание формы выделенных из фона объектов осуществляется лишь на более поздних этапах восприятия. Эти этапы были пояснены в работах Марра значительно менее подробно, чем первичная сенсорная обработка. Первоначально строится так называемая «двух-с-половиной-мер-ная» (2'/2D) репрезентация предметов. Речь идет о том, что предметы отчасти приобретают телесность, третье измерение, но при этом восприятие остается ограниченным определенным углом зрения, под которым мы их наблюдаем. Собственно трехмерная (3D) репрезентация предметов, не зависящая от специфической точки зрения, строится в последнюю очередь и связана с эффективной «упаковкой» информации в памяти. Характер такой упаковки позволяет понять предложенная Марром и Ни-шихарой гипотеза обобщенных цилиндров. Согласно этой гипотезе, универсальными элементами «ментального конструктора» служат обобщенные цилиндры — цилиндрические элементы разных пропорций, размеров и ориентации. Спецификация формы предметов примерно соответствует микрогенетическому принципу перехода рт глобальных к локальным системам отсчета. Примером служит репрезентация формы человеческого тела, показанная на рис. 3.16. Незначительная модификация параметров составляющих тело цилиндров позволяет описать общие очертания других похожих биологических существ и их движений (см. 3.1.2).
К этой же группе моделей примыкает теория американского психолога Ирвина Бидермана (Biederman, 1987), предположившего, что зрительная система располагает целым алфавитом таких базовых элементов, которые он называет геонами. Наряду с цилиндрами, этот алфавит включает еще несколько других простых форм, таких как конусы и параллелепипеды. Различные предметы могут составляться из разных элементов. Психофизиологическая реальность подобных элементов не вполне очевидна. Эксперименты с использованием так называемого прайминга (см. 5.1.3), при которых гипотетические элементы предмета предъявлялись в некотором иррелевантном контексте непосредственно перед опытами на его прямое опознание, не выявили в общем случае ожидавшегося ускорения опознания. Поэтому вопрос о возможности некоторой