который можно рассматривать как формулу синтеза. В этом контексте единичные векторы qjбудут представлять собой пространства данных. И в самом деле, выражение (1.29) является не чем иным, как преобразованием координат, в соответствии с которым точки х пространства данных преобразуются в соответствующие точки а пространства признаков.
1.5.3 Матричная формулировка алгоритмасамообучения
Для удобства выкладок введем следующие обозначения:
(1.30)и
(1.31)Входной вектор x(n) и вектор синаптических весов w(n) обычно являются реализациями случайных векторов. Используя это векторное представление, выражение (1.26) можно переписать в форме скалярного произведения:
(1.32)Аналогично, выражение (1.30) можно переписать в следующем виде:
(1.33)Подставляя (1.32) в (1.33), получим:
(1.34)Алгоритм обучения (1.34) представляет собой нелинейное стохастическое разностное уравнение (nonlinearstochasticс differenceequation), которое делает анализ сходимости этого алгоритма сложным с математической точки зрения. Для того чтобы обеспечить базис для анализа сходимости, немного отвлечемся от поставленной задачи и обратимся к общим методам анализа сходимости стохастических алгоритмов аппроксимации.
1.5.4 Анализ главных компонентов на основе фильтра Хебба
Описанный в предыдущем разделе фильтр Хебба извлекает первый главный компонент из входного сигнала. Линейная модель с одним нейроном может быть расширена до сети прямого распространения с одним слоем линейных нейронов с целью анализа главных компонентов для входного сигнала произвольной размерности.
Для большей конкретизации рассмотрим сеть прямого распространения, показанную на рис. 8.6. В ней сделаны следующие допущения относительно структуры:
1.Все нейроны выходного слоя сети являются линейными.
2.Сеть имеет т входов и Iвыходов. Более того, количество выходов меньше количества входов (т.е. I <т).
Обучению подлежит только множество синаптических. весов {wji}, соединяющих узлы iвходного слоя с вычислительными узлами jвыходного слоя, где i = l,2,...,m; j= 1,2,..., l.
Выходной сигнал уi, (п) нейрона jв момент времени п, являющийся откликом на множество входных воздействий {xi(п) i = 1,2,..., m}, определяется по следующей формуле (рис. 8.7, а):
(1.35)Синаптический вес wji(n) настраивается в соответствии с обобщенной формой правила обучения Хебба:
(1.36)где wji(n) — коррекция, применяемая к синаптическому весу wji(n) в момент времени n; η — параметр скорости обучения. Обобщенный алгоритм обучения Хеббa(generalizedHebbianalgorithm — GHA) (1.36) для слоя из lнейронов включает в себе алгоритм (8.39) для одного нейрона в качестве частного случая, т.е. для l = 1.
Для того чтобы заглянуть вглубь обобщенного алгоритма обучения Хебба, перепишем уравнение (8.80) в следующем виде:
(1.37)где х
(п) — модифицированная версия i-го элемента входного вектора х(n), являющаяся функцией индекса j, т.е. (1.38)Для конкретного нейрона jалгоритм, описанный выражением (1.37), имеет ту же математическую форму, что и (8.39), за исключением того факта, что в (1.38) входной сигнал xi(n) заменен его модифицированным значением х
(n). Теперь можно сделать следующий шаг и переписать выражение (1.37) в форме, соответствующей постулату обучения Хебба: (1.39)где
(1.40)Таким образом, принимая во внимание
(1.41)и
(1.42)где z-1 — оператор единичной задержки, можно построить граф передачи сигнала показанный на рис. 1.4, б, для обобщенного алгоритма Хебба. Из этого графа видно,
Рисунок 1.4 - Представление обобщенного алгоритма Хебба в виде графа передачи сигнала: граф уравнения (1.35) (а); граф выражений (1.36), (1.37) (б)
что сам алгоритм (согласно его формулировке в (1.41)) базируется на локальной форме реализации. Учтем также, что выход уi(n), отвечающий за обратную связь на графе передачи сигнала (см. рис. 1.4, б), определяется по формуле (1.35). Представление Для эвристического понимания того, как обобщенный алгоритм Хебба работает на самом деле, в первую очередь запишем версию алгоритма (1.37) в матричном представлении:
(1.43)где
(1.44)Вектор х'(п) представляет собой модифицированную форму входного вектора. Основываясь на представлении (1.43), можно сделать следующие наблюдения. Для первого нейрона сети прямого распространения:
Для этого случая обобщенный алгоритм Хебба сводится к виду (1.33), записанному для одиночного нейрона. Из материала, представленного в разделе 1.5.4, известно, что этот нейрон извлекает первый основной компонент входного вектора х(п).
1. Для второго нейрона сети можно записать:
Учитывая, что первый нейрон уже извлек первый главный компонент, второй нейрон видит входной вектор x'(n), из которого уже удален первый собственный вектор матрицы корреляции R. Таким образом, второй нейрон извлекает первый главный компонент х'(n), что эквивалентно второму главному компоненту исходного входного вектора х(n).
2. Для третьего нейрона можно записать:
Предположим, что первые два нейрона уже сошлись к первому и второму главным компонентам. Значит, третий нейрон видит входной вектор x'(n), из которого удалены первый и второй собственные векторы. Таким образом, он извлекает первый главный компонент вектора х'(n), что эквивалентно третьему главному компоненту исходного входного вектора х(n).
3. Продолжая эту процедуру для оставшихся нейронов сети прямого распространения, получим, что каждый из выходов сети, обученный с помощью обобщенного алгоритма Хебба (1.37), представляет собой отклик на конкретный собственный вектор матрицы корреляции входного вектора, причем отдельные выходы упорядочены по убыванию ее собственных значений.
Этот метод вычисления собственных векторов аналогичен методу, получившему название процесса исчерпания. Он использует процедуру, аналогичную ортогонализации Грама-Шмидта.
Представленное здесь описание "от нейрона к следующему нейрону" было приведено для упрощения изложения. На практике все нейроны в обобщенном алгоритм Хебба совместно работают на обеспечение сходимости.
1.5.5 Исследование сходимостипри решении главной компоненты сигнала
Пусть W(n) ={wji(n)} — матрица весов размерности т х lсети прямого распространения:
(1.45)Пусть параметр скорости обучения обобщенного алгоритма Хебба (1.45) имеет форму, зависящую от времени η(n), такую, что в пределе
(1.46)Тогда этот алгоритм можно переписать в матричном виде:
где оператор LT[-] устанавливает все элементы, расположенные выше диагонали матрицы аргументов, в нуль. Таким образом, полученная матрица становится нижней треугольной (lowertriangular). При этих условиях и допущениях, изложенных в разделе 8.4, сходимость алгоритма GHAдоказывается с помощью процедуры, аналогичной представленной в предыдущем разделе для фильтра по извлечению максимального собственного значения. В связи с этим можно сформулировать следующую теорему.
Если элементы матрицы синоптических весов W(n) на шаге п = 0 принимают случайные значения, то с вероятностью 1 обобщенный алгоритм Хебба (8.91) будет сходиться к фиксированной точке, aWT(n) достигнет матрицы, столбцы которой являются первыми l собственными векторами матрицы корреляции Rразмерности т х т входных векторов размерности mxl, упорядоченных по убыванию собственных значений.
Практическое значение этой теоремы состоит в том, что она гарантирует нахождение обобщенным алгоритмом Хебба первых lсобственных векторов матрицы корреляции R, в предположении, что соответствующие собственные значения отличны друг от друга. При этом важен и тот факт, что в данном случае не требуется вычислять саму матрицу корреляции R: ее первые lсобственных векторов вычисляются непосредственно на основании входных данных. Полученная экономия вычислительных ресурсов может быть особенно большой, если размерность входного пространства т достаточно велика, а требуемое количество собственных векторов, связанных с lнаибольшими собственными значениями матрицы корреляции R, является лишь небольшой частью размерности т.