Типичная коннекционистская сеть показана на рис. 2.10. Наличие нескольких слоев элементов: входного и выходного слоя плюс не менее одного промежуточного (или «скрытого», от англ. hidden) слоя — отличительная черта современных коннекционистских моделей. Попытки демонстрации вычислительных возможностей сетей формальных нейронов предпринимались американскими нейрофизиологами Мак-Кал-локом и Питтсом еще в 1940-е годы. В последующие два десятилетия простые (один входной и один выходной слой) сети под названием «персептроны» использовались для машинного распознавания изображений, однако без особого успеха, так как оказалось, что они неспособны к строгой дизъюнкции («либо А» — «либо В») — логической операции, необходимой для различения состояний мира. Лишь в начале
14 Распространенный сегодня в психологии и за ее пределами термин «коннекцио-1980-х годов было показано, что добавление по крайней мере одного «скрытого» слоя нейроноподобных элементов снимает эту проблему, позволяя осуществлять на базе параллельных архитектур весь спектр логических операций. В 1986 году Румелхарт и Макклелланд опубликовали двухтомную «библию» коннекционизма (McClelland & Rumelhart, 1986; Rumelhart & McClelland, 1986), содержащую, наряду с описанием формального аппарата моделирования, многочисленные примеры психологических и нейрофизиологических применений этого подхода.
Главное преимущество коннекционистских моделей по сравнению с традиционными когнитивными моделями — это возможность ассоциативного (контентно-адресованного) и распределенного хранения информации, а также, что особенно важно, адаптивного обучения. Первая особенность означает, что любой фрагмент первоначальной ситуации или любое сопутствующее обстоятельство способны ассоциативно поддержать припоминание. «Распределенным» хранение является потому, что его субстратом является в каждом конкретном случае не какой-то отдельный элемент, а сеть в целом, то есть состояния всех ее узлов и весовые коэффициенты их связей. Наконец, коннекционизм позволяет естественно описывать некоторые элементарные формы обучения. Процессы обучения в искусственных нейронных сетях имеют известную специфику, которая должна стать понятной из нижеследующих примеров. Простейшая, сугубо ассоциативная процедура обучения в нейронных сетях
активация на выходе
выходной слой |
тренируемые связи |
скрытый слой
входной слой
ООО
активация на входе
136
Рис. 2.10. Однонаправленная (feedforward) коннекционистская сеть, включающая скрытый слой элементов
восходит к классическим идеям проторения путей павловской физиологии и клеточных ансамблей Дональда Хэбба (см. 1.4.2).
В «Организации поведения» Хэбб (Hebb, 1949) предположил, что повторная стимуляция тех же рецепторов постепенно ведет к функциональному объединению нейронов ассоциативных областей мозга, так что этот клеточный ансамбль может сохранять активацию после окончания стимуляции и вновь возбуждаться при возникновении похожего узора стимуляции. В нейроинформатике используется следующее правило Хэбба: между всеми одновременно (синхронно) активированными нейронами (то есть элементами сети) снижаются пороги синаптических связей (повышаются весовые коэффициенты активационных связей). В результате многократных повторений распространение активации при возникновении на входе той же ситуации происходит быстрее, группа элементов, «ансамбль», активируется как целое, и, что важно, эта активация происходит даже при изменениях ситуации, например, выпадении каких-то компонентов изображения, а равно «отмирании» части «нейронов» самой сети. Тем самым удается моделировать особенности целостного восприятия, описанного гештальтпсихологией (см. 1.3.1). Подобная терпимость (gracefuldegradation) к искажениям на входе и к нарушениям механизма обработки информации разительно контрастирует с хрупкостью обычных символьных программ, где лишний пропуск или неправильно поставленная запятая способны остановить работу программы и даже самого компьютера. Кроме того, пластичность синаптических связей, лежащая в основе формирования ансамблей, позволяет дать физиологическое объяснение процессам обобщения (категоризации) отдельных стимульных ситуаций.
Недостатком описанного механизма самоорганизации нейронных связей является его чрезвычайно медленный, требующий сотен и тысяч повторений характер. В 1981 году немецко-американский нейрофизиолог К. фон дер Мальсбург предположил, что для объяснения одноразового обучения должны существовать быстрые синапсы, меняющие свои характеристики в ответ на однократное возникновение некоторой, обычно новой или значимой ситуации. Мальсбург назвал их «хэббов-скими синапсами». Такие синапсы действительно были обнаружены в последнее время и по предложению Нобелевского лауреата по биологии Фрэнсиса Крика иногда называются теперь «мальсбургскими». Мы подробнее остановимся на обсуждении этих нейрофизиологических механизмов в последующих главах, посвященных сознанию и памяти (см. 4.4.3 и 5.3.2).
Примером более эффективного компьютерного алгоритма обучения в самой нейроинформатике служит предложенный канадским информатикой Джеффри Хинтоном и его коллегами метод обратного распространения ошибки (backpropagationoferror). В этом случае сети предъявляется некоторая конфигурация, а затем ответ на выходе сравнивается с идеальным, желаемым ответом. Результат подобного сравнения того, что должно быть (Sollwert), с тем, что есть (Istwert), вычисляется и пропускается затем в обратном направлении: от выхода сети к ее входному слою, причем на каждом промежуточном этапе осуществляются некоторые
коррекции весовых коэффициентов связей элементов с целью последующей минимизации рассогласования. Телеологизм этих процессов и необходимость эксплицитного надсмотра за обучающейся сетью порождают, с одной стороны, множество смутных психологических аналогий, а с другой стороны, известный скептицизм в оценке «обратного распространения» как подходящего средства моделирования когнитивных процессов. Дело в том, что «контролируемая минимизация рассогласования» оставляет сильное впечатление произвольного подбора желаемого результата15.
Ряд коннекционистских моделей использует обратные связи для повторного пропускания продуктов обработки через нейронную сеть. Это свойство, называемое рекуррентностью, позволяет обрабатывать конфигурации на входе в контексте предыдущих событий («прошлого опыта»). Два варианта рекуррентных сетей, использовавшихся для моделирования синтаксического анализа речи, показаны на рис. 2.11. Существует практически открытое множество других вариантов коммутации элементов, а также возможность соединения коннекционистских моделей с традиционными символьными архитектурами в рамках гибридных моделей, включающих как символические, так и коннекцио-нистские компоненты. Так, в литературе интенсивно обсуждается возможность существования разных нейролингвистических механизмов для работы с регулярными и нерегулярными глаголами (Pinker, 2000). В случае регулярных глаголов, склоняемых по определенным фиксированным правилам, в памяти могла бы сохраняться лишь корневая морфема, по отношению к которой осуществляются традиционные символьные трансформации (скажем, добавление «-ed» при переходе к прошедшему времени в английском языке). Работа с нерегулярными глаголами, напротив, требует заучивания индивидуальных паттернов (как в случае грамматических форм английского глагола «tobe»: am, are, is, was, were). При моделировании такого, скорее механического, заучивания могли бы помочь нейронные сети (см. 7.1.3).
Коннекционизм не мог не вызвать острых научных дискуссий. Они возникли прежде всего с представителями символьного и модулярного подходов (Fodor& Pylyshin, 1988), для которых подобное применение идеи параллельности ведет слишком далеко, вплоть до отказа от основных принципов переработки символьной информации, выделенных к началу 1980-х годов. В самом деле, в распределенных архитектурах не выполняются основные логические требования к символьной записи информации, а следовательно, к коннекционистским репрезентациям не применимы средства исчисления предикатов (см. 2.3.3). Поэтому,
15 Вне психологии — нейроинформатика, компьютерное зрение и роботика — широко используются алгоритмы обучения нейронных сетей, не требующие внешнего надсмотра. Речь идет прежде всего о разновидности разработанных финским информатикой 138 Т. Кохоненом самоорганизующихся карт (self-organizingmaps).- контекстные нейроны ''