Теория адаптивного резонанса базируется на следующих основных принципах:
1. Адаптация входного паттерна к паттернам, хранящимся в сети, осуществляется при помощи резонанса.
2. Резонанс происходит при идентификации входного образа, когда он максимально совпадает с образом, хранящимся в сети. В процессе функционирования сеть резонирует до тех пор, пока не выделит паттерн наименее отличающийся от входного, или не зарезервирует новый класс.
3. В процессе адаптации входного паттерна к образам, имеющимся в сети, происходит его контрастное усиление. Оно характеризуется тем, что только отличительные особенности входного паттерна отображаются на синаптические веса. Это напоминает процесс биологической эволюции, когда отдельные признаки усиливаются, а другие ослабляются.
4. Хранение информации осуществляется в кратковременной (short-term-memory) и долговременной (long-termmemory) памяти. Кратковременная память хранит входной паттерн, который должен быть декодирован, а долговременная соответствует образам, которые хранятся в нейронной сети.
Отсюда следует, что теория адаптивного резонанса имеет биологические предпосылки. Так, долговременная и кратковременная память соответствует типам памяти, которые имеются у человека. Явление резонанса играет большую роль, как при самоорганизации индивида, так и биологической системы.
Постановка задачи при распознавании образов методом адаптивного резонанса состоит в следующем. Необходимо найти такие синаптические векторы W1,W2,...,Wm, которые разбивают входное пространство паттернов на различные кластеры. Каждый кластер имеет размер, который характеризуется угловым расстоянием a (рис. 5.15) и соответствующей ему величиной r = cosa, называемой параметром бдительности.
Если r имеет маленькое значение, то входные векторы будут отображаться на большие кластеры, в противном случае на маленькие (рис. 5.15). В соответствии с параметром бдительности нейронная сеть должна каждый раз решать, принадлежит ли входной вектор уже имеющемуся кластеру, или резервировать для него новый кластер с соответствующим весовым вектором. Это обеспечивает, с одной стороны, пластичность сети, так как каждый раз сеть может реагировать на незнакомый образ и, с другой стороны, стабильность, так как уже идентифицированные кластеры не размываются посредством новых входных векторов.
Существуют различные модели нейронных сетей, основанных на теории адаптивного резонанса. В общем случае архитектура таких сетей представлена на рис. 5.16. Она состоит из двух слоев, которые соединены между собой прямыми и обратными синаптическими связями. Весовой вектор W характеризует прямые синаптические связи, а вектор V - обратные синаптические связи (рис. 5.16).
Информация, хранящаяся в этих связях, характеризует долговременную память (LTM), активизация нейронов каждого из слоев - кратковременную память (STM). При помощи конкурентного слоя входной паттерн отображается в соответствующий кластер.
Сравнивающий слой анализирует степень совпадения входного и выделенного сетью образа. При достаточной степени совпадения наступает резонанс, что соответствует идентификации образа.
Для описания функционирования и обучения таких сетей С. Гроссберг использовал дифференциальные уравнения. Используя функцию Ляпунова, С.Гроссберг доказал сходимость нейронных сетей, в основе которых лежит теория адаптивного резонанса.
4.2.4 Гибридные нейронные сети
Гибридные нейронные сети представляют собой объединение различного рода нейронных сетей и концепций их обучения. Они предназначены для решения различного рода задач, таких как распознавание образов, прогнозирование, аппроксимация функций и т. д.
Нейронные сети встречного распространения
Нейронные сети встречного распространения (Counterpropagationnetworks) были предложены в 1987 г. Р. Хечт-Нильсоном (Hecht-Nielsen). Они являются дальнейшим расширением нейронных сетей Кохонена и предназначены для аппроксимации функций. В отличие от сети Кохонена, которая разбивает входное n- мерное пространство на разные области, сеть встречного распространения ставит в соответствие каждой области числовое значение аппроксимируемой функции. Она характеризуется сочетанием двух подходов к обучению: с учителем и без учителя. Существуют различные варианты нейронных сетей встречного распространения, которые используют разные методы аппроксимации функций.
Нейронные сети с радиально-базисной функцией
Нейронные сети с радиально-базисной функцией (RadialBasisFunctionNetwork) являются дальнейшим развитием сетей встречного распространения. Они были предложены в 1989 г. и предназначены для решения задач распознавания образов, прогнозирования, сжатия данных и аппроксимации функций. Нейроны входного слоя выполняют распределительные функции. Промежуточный слой состоит из нейронов Кохонена. Каждый элемент скрытого слоя использует в качестве активационной функции радиальную базисную функцию типа гауссовой, а в качестве выходного слоя используются нейронные элементы с линейной функцией активации.
4.3 ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ
4.3.1 Структура сети
Способность к обучению является фундаментальным свойством мозга. В контексте ИНС процесс обучения может рассматриваться как настройка архитектуры сети и весов связей для эффективного выполнения специальной задачи. Обычно нейронная сеть должна настроить веса связей по имеющейся обучающей выборке. Функционирование сети улучшается по мере итеративной настройки весовых коэффициентов. Свойство сети обучаться на примерах делает их более привлекательными по сравнению с системами, которые следуют определенной системе правил функционирования, сформулированной экспертами.
Теория обучения рассматривает три фундаментальных свойства, связанных с обучением по примерам: емкость, сложность образцов и вычислительная сложность. Под емкостью понимается сколько образцов может запомнить сеть, и какие функции и границы принятия решений могут быть на ней сформированы. Сложность образцов определяет число обучающих примеров, необходимых для достижения способности сети к обобщению. Слишком малое число примеров может вызвать переобученность сети, когда она хорошо функционирует на примерах обучающей выборки, но плохо - на тестовых примерах, подчиненных тому же статистическому распределению.
Для конструирования процесса обучения, прежде всего, необходимо иметь модель внешней среды, в которой функционирует нейронная сеть - знать доступную для сети информацию. Эта модель определяет парадигму обучения. Во-вторых, необходимо понять, как (по какому алгоритму) модифицировать весовые параметры сети - какие правила обучения управляют процессом настройки. Алгоритм обучения означает процедуру, в которой используются правила обучения для настройки весов. Эффективность обучения многослойных нейронных сетей зависит от числа слоев, числа элементов в скрытых слоях нейронной сети и начальной инициализации весовых коэффициентов. Разная инициализация весовых коэффициентов нейронной сети может приводить к различным решениям задачи. Важную роль здесь играет размер случайно инициализируемых синаптических связей. Так, для сигмоидной функции активации нейронных элементов, если весовые коэффициенты будут иметь большие значения (положительные или отрицательные), то выходная активность нейронных элементов будет близка к единице или нулю. Это приведет к тому, что процесс обучения остановится в ближайшем, локальном минимуме от стартовой точки. Рекомендуется случайно выбирать значения весовых коэффициентов, которые имеют следующий порядок:
где
— число нейронных элементов в слое .Другой способ - случайным образом инициализировать весовые коэффициенты в диапазоне [-0,05; 0,05] или [-0,1; 0,1]. При этом пороговые значения нейронных элементов устанавливаются в начальный момент времени в единичные значения.
Большую роль для эффективности обучения играет архитектура нейронной сети. Размерность входного и выходного слоев нейронной сети определяется из условия решаемой задачи или обучающей выборки. Как было доказано в [16], при помощи трехслойной нейронной сети можно аппроксимировать любую функцию со сколь угодно заданной точностью. При этом точность аппроксимации зависит от числа нейронов в скрытом слое. Чем больше число нейронных элементов в скрытом слое, тем больше точность. Однако при слишком большой размерности скрытого слоя может наступить явление, называемое перетренировкой сети, так как слишком большое число нейронов в скрытом слое ухудшает обобщающие способности нейронных сетей. Поэтому число нейронных элементов в скрытом слое должно быть меньше числа тренировочных образцов. С другой стороны, при слишком малой размерности скрытого слоя можно попасть в нежелательный локальный минимум или процесс обучения будет слишком длительным. Поэтому здесь необходим разумный компромисс.
Для обеспечения требуемой точности и обобщающей способности можно использовать нейронную сеть с двумя скрытыми слоями, размерность которых меньше, чем при использовании трехслойной сети. Однако нейронные сети, которые имеют несколько скрытых слоев, обучаются значительно медленнее.
Исходя из проведенных в данном разделе рассуждений, можно сделать следующие выводы:
- нейронная сеть с одним скрытым слоем позволяет осуществить любое отображение входных сигналов в выходные;
- число нейронных элементов в промежуточном слое должно быть меньше числа тренировочных образцов;