Смекни!
smekni.com

Нейрокомпьютерные системы (стр. 15 из 32)

wmn,k(n+1) = wmn,k(n) + h[aD wmn,k(n) + (1 - a)dn,kOUTm,i] + (1 - h)xc ,

где h- коэффициент, управляющий относительными величи­нами Коши и обратного распространения в компонентах весового шага. Если h приравнивается нулю, система становится полностью машиной Коши. Если h приравнивает­ся единице, система становится машиной обратного рас­пространения. Изменение лишь одного весового коэффициента между вычислениями весовой функции неэффективно. Оказалось, что лучше сразу изменять все веса целого слоя, хотя для некоторых задач может оказаться выгоднее иная страте­гия.

Преодоление сетевого паралича комбинированным методом обучения. Как и в машине Коши, если изменение веса ухудшает целевую функцию, - с помощью распределения Больцмана решается, сохранить ли новое значение веса или восстановить предыдущее значение. Таким образом, имеется конечная вероятность того, что ухудшающее мно­жество приращений весов будет сохранено. Так как рас­пределение Коши имеет бесконечную дисперсию (диапазон изменения тангенса простирается от

до
на облас­ти определения), то весьма вероятно возникновение боль­ших приращений весов, часто приводящих к сетевому пара­личу. Очевидное решение, состоящее в ограничении диапа­зона изменения весовых шагов, ставит вопрос о математи­ческой корректности полученного таким образом алгорит­ма. В работе [6] доказана сходимость системы к глобаль­ному минимуму лишь для исходного алгоритма. Подобного доказательства при искусственном ограничении размера шага не существует. В действительности экспериментально выявлены случаи, когда для реализации некоторой функции требуются большие веса, и два больших веса, вычитаясь, дают малую разность. Другое решение состоит в рандомизации весов тех нейронов, которые оказались в состоянии насыщения. Недостатком его является то, что оно может серьезно нарушить обучающий процесс, иногда затягивая его до бесконечности. Для решения проблемы паралича был найден метод, не нарушающий достигнутого обучения. Насыщенные нейроны выявляются с помощью измерения их сигналов ОПТ. Когда величина OUT приближается к своему предельному значе­нию, положительному или отрицательному, на веса, пита­ющие этот нейрон, действует сжимающая функция. Она подобна используемой для получения нейронного сигнала OUT, за исключением того, что диапазоном ее изменения является интервал (+ 5,- 5) или другое подходящее мно­жество. Тогда модифицированные весовые значения равны

Wmn = -5+10/[1 + ехр(-Wmn /5)].

Эта функция сильно уменьшает величину очень боль­ших весов, воздействие на малые веса значительно более слабое. Далее она поддерживает симметрию, сохраняя небольшие различия между большими весами. Эксперимен­тально было показано, что эта функция выводит нейроны из состояния насыщения без нарушения достигнутого в сети обучения. Не было затрачено серьезных усилий для оптимизации используемой функции, другие значения конс­тант могут оказаться лучшими.

Экспериментальные результаты. Комбинированный алгоритм, использующий обратное распространение и обучение Коши, применялся для обучения нескольких больших сетей. На­пример, этим методом была успешно обучена система, распознающая рукописные китайские иероглифы [6]. Все же время обучения может оказаться большим (приблизительно 36 ч машинного времени уходило на обучение). В другом эксперименте эта сеть обучалась на задаче ИСКЛЮЧАЮЩЕЕ ИЛИ, которая была использована в качестве теста для сравнения с другими алгоритмами. Для сходимо­сти сети в среднем требовалось около 76 предъявлений обучающего множества. В качестве сравнения можно ука­зать, что при использовании обратного распространения в среднем требовалось около 245 предъявлений для решения этой же задачи [5] и 4986 итераций при использовании обратного распространения второго порядка. Ни одно из обучений не привело к локальному мини­муму, о которых сообщалось в [5]. Более того, ни одно из 160 обучений не обнаружило неожиданных патологий, сеть всегда правильно обучалась. Эксперименты же с чистой машиной Коши привели к значительно большим временам обучения. Например, при р=0,002 для обучения сети в среднем требовалось около 2284 предъявлений обучающего множества.

Обсуждение

Комбинированная сеть, использующая обратное рас­пространение и обучение Коши, обучается значительно быстрее, чем каждый из алгоритмов в отдельности, и относительно нечувствительна к величинам коэффициентов. Сходимость к глобальному минимуму гарантируется алгори­тмом Коши, в сотнях экспериментов по обучению сеть ни разу не попадала в ловушки локальных минимумов. Пробле­ма сетевого паралича была решена с помощью алгоритма селективного сжатия весов, который обеспечил сходимость во всех предъявленных тестовых задачах без существенно­го увеличения обучающего времени. Несмотря на такие обнадеживающие результаты, метод еще не исследован до конца, особенно на больших зада­чах. Значительно большая работа потребуется для опреде­ления его достоинств и недостатков.

Глава 6 Сети Хопфилда

Сети, рассмотренные в предыдущих главах, не имели обратных связей, т.е. связей, идущих от выходов сетей и их входам. Отсутствие обратной связи гарантирует безу­словную устойчивость сетей. Они не могут войти в режим, когда выход беспрерывно блуждает от состояния к состоя­нию и не пригоден к использованию. Но это весьма жела­тельное свойство достигается не бесплатно, сети без обратных связей обладают более ограниченными возможнос­тями по сравнению с сетями с обратными связями. Так как сети с обратными связями имеют пути, пере­дающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т.е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей про­цесс никогда не заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладают интересными свойствами и изучались в качестве примера хаотических систем. Однако такой большой предмет, как хаос, нахо­дится за пределами этой книги. Вместо этого мы сконцен­трируем внимание на устойчивых сетях, т.е. на тех, которые в конце концов дают постоянный выход. Проблема устойчивости ставила в тупик первых ис­следователей. Никто не был в состоянии предсказать, какие из сетей будут устойчивыми, а какие будут нахо­диться в постоянном изменении. Более того, проблема представлялась столь трудной, что многие исследователи были настроены пессимистически относительно возможности ее решения. К счастью, в работе [2] была получена тео­рема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Это замечательное достижение открыло дорогу дальнейшим исследованиям и сегодня многие ученые зани­маются исследованием сложного поведения и возможностей этих систем. Дж. Хопфилд сделал важный вклад как в теорию, так и в применение систем с обратными связями. Поэтому некоторые из конфигураций известны как сети Хопфилда. Из обзора литературы видно, что исследованием этих и сходных систем занимались многие. Например, в работе [4] изучались общие свойства сетей, аналогичных многим, рассмотренным здесь. Работы, цитируемые в списке лите­ратуры в конце главы, не направлены на то, чтобы дать исчерпывающую библиографию по системам с обратными связями. Скорее они являются лишь доступными источника­ми, которые могут служить для объяснения, расширения и обобщения содержимого этой книги.

КОНФИГУРАЦИИ СЕТЕЙ С ОБРАТНЫМИ СВЯЗЯМИ

На рис. 6.1 показана сеть с обратными связями, состоящая из двух слоев. Способ представления несколько отличается от использованного в работе Хопфилда и дру­гих, но эквивалентен им с функциональной точки зрения, а также хорошо связан с сетями, рассмотренными в преды­дущих главах. Нулевой слой, как и на предыдущих рисун­ках, не выполняет вычислительной функции, а лишь рас­пределяет выходы сети обратно на входы. Каждый нейрон первого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, который затем с помощью нелинейной функции F преобразуется в сигнал OUT. Эти операции сходны с нейронами других сетей (см. гл.2).

Бинарные системы

В первой работе Хопфилда [6] функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сумма выходов с других нейронов больше порога Т., в противном случае она равна нулю. Он вычис­ляется следующим образом:

(6.1)

Состояние сети - это просто множество текущих значений сигналов OUT от всех нейронов. В первоначаль­ной сети Хопфилда состояние каждого нейрона менялось в дискретные случайные моменты времени, в последующей работе состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (промежуточных уровней нет), то теку­щее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого нейрона. Функционирование сети легко визуализируется геоме­трически. На рис. 6.2 а показан случай двух нейронов в выходном слое, причем каждой вершине квадрата соответс­твует одно из четырех состояний системы (00, 01, 10, II). На рис. 6.2 б показана трехнейронная система, представленная кубом (в трехмерном пространстве), имею­щим восемь вершин, каждая из которых помечена трехбито­вым бинарным числом. В общем случае система с п нейро­нами имеет 2n различных состояний и представляется fi-мерным гиперкубом.