Данная теорема о сходимости сформулирована в терминах зависящего от времени параметра скорости обучения x(n). На практике этот параметр обычно принимает значение некоторой малой константы Т. В этом случае сходимость гарантируется в смысле среднеквадратической ошибки синаптических весов порядка т|.
В исследовались свойства сходимости алгоритма GHA (1.47). Проведенный в работе анализ показал, что увеличение параметра т) ведет к более быстрой сходимости и увеличению асимптотической среднеквадратической ошибки (что интуитивно предполагалось). Среди прочего в этой работе точно показана обратная зависимость между точностью вычислений и скоростью обучения.
1.5.6 Оптимальность обобщенного алгоритма Хебба
Предположим, что в пределе можно записать:
(1.48)и
(1.49)Тогда предельные значения q1,q2,...,qi; векторов синаптических весов нейронов сети прямого распространения (см. рис. 8.5) представляют собой нормированные собственные векторы (normalizedeigenvector), ассоциированные с lдоминирующими собственными значениями матрицы корреляции R, упорядоченными по убыванию собственных значений. Таким образом, для точки равновесия можно записать следующее:
(1.50)где l1 > l2 > ... > li .
Для выхода нейрона jполучим предельное значение:
(1.51)Пусть Yj(n) — случайная переменная с реализацией yj(n). Взаимная корреляция (cross-correlation) между случайными переменными Yj(n) и Yk(n) в равновесном состоянии записывается в виде
(1.52)Рисунок 1.5 - Представление в виде графа передачи сигнала процесса восстановления вектора
Следовательно, можно утверждать, что в точке равновесия обобщенный алгоритм Хебба (1.47) выступает в роли средства собственных значений (eigen-analyzer) входных данных.
Пусть х^(n) — частное значение входного вектора х(n), для которого предельные условия (1.48) удовлетворяются при j = l — 1. Тогда из матричной формы (8.80) можно получить, что в пределе
Это значит, что для заданных двух множеств величин — предельных значений q1,q2,…,ql векторов синаптических весов нейронов сети прямого распространения и соответствующих выходных сигналов y1 ,у2,…,yl — можно построить линейную оценку по методу наименьших квадратов (linearleast-squaresestimate) значения х^(n) входного вектора х(n), В результате формулу (1.52) можно рассматривать как одну из форм восстановления данных (datareconstruction) (рис. 1.4). Обратите внимание, что в свете дискуссии, этот метод восстановления данных имеет вектор ошибки аппроксимации, ортогональный оценке х^(n).
1.5.7 Алгоритм GHA в сжатом виде
Вычисления, выполняемые обобщённым алгоритмом Хебба (GHA), являются простыми, и их можно описать следующей последовательностью действий.
1. В момент времени n= 1 инициализируем синаптические веса ωjiсети случайными малыми значениями. Назначаем параметру скорости обучения Ш] некоторое малое положительное значение.
2. Для
вычислим:.где xi(n) — i-й компонент входного вектора х(п) размерности т х 1; l- требуемое число главных компонентов.
3.Увеличиваем значение nна единицу, переходим к шагу 2 и продолжаем до пор, пока синаптические веса wjiне достигнут своих установившихся (steady-state) значений. Для больших п синаптические веса wji нейрона jсходятся к i-му компоненту собственного вектора, связанного с j-м собственным значением матрицы корреляции входного вектора х(n).
2. Оценка параметров регрессионных уравнений при аппроксимации дисперсионных распределений методом АГК
2.1 Организация наблюдений и регрессионные методы оценки параметров
2.1.1 Оценивание по конечному числу наблюдений
До сих пор предполагалось, что все математические ожидания могут быть вычислены, т. е. известна совместная плотность распределения р (х1,, . . ., хт, у). Так бывает довольно редко. Обычно необходимо оценивать параметры, используя конечное число наблюдений, а именно выборочные значения. Таким образом, оценка должна быть функцией этих выборочных значений, которые фактически представляют собой наблюдаемые значения реализаций случайных величин. Это означает, что оценка тоже случайная величина и может быть охарактеризована плотностью вероятности. Качество оценки зависит от этой функции и, в частности, от среднего значения и дисперсии.
Излагаемые методы имеют длинную историю. Уже в 1795 г. Гаусс использовал их при исследовании движения планет. В наши дни они применяются, например, при определении параметров орбит спутников. Следует отметить что, помимо обычных регрессионных моделей
где ni — случайная величина, в литературе рассматриваются также авторегрессионная модель
и обобщенная регрессионная модель
Обозначения. Теперь посмотрим, как получаются оценки. Пусть наблюдается выходной сигнал объекта у, который состоит из отклика на входное воздействие и, шума объекта и ошибок измерений. В момент j-го измерения выходной сигнал имеет вид
(2.1)Вектором b обозначена зависимость выборочных значений от компонент вектора параметров объекта b0, b1: . . ., bт. Определим
(2.2)Шум зададим его математическим ожиданием и ковариационной матрицей:
(2.3) (2.4)Задача состоит в том, чтобы определить оценку β вектора параметров Ь. Для этого используется теоретически предсказываемый выходной сигнал w, т. е. выход модели, который зависит от вектора коэффициентов β = (β0, βi,...,β m). Эта функциональная зависимость может быть выбрана различными способами. Простейшей является линейная функциональная связь между w и J (линейная по параметрам модель)
где ui(j)— известные линейно независимые функции. Запишем w в виде
(2.5)где
(2.6)Снова заметим, что такой выбор линейной связи между w и Р не означает того, что связь между входом и выходом модели должна быть линейной, Предполагается, что матрица U полностью известна, т. е. может быть измерена без ошибок. Кроме того, предполагается, что число наблюдений к превышает число т + 1 неизвестных параметров.
Класс линейных несмещенных оценок определяется следующими свойствами:
(2.7)где Q — (т + 1) xk-матрица, и
(2.8)Предполагается, что равенство (2.5) может дать полное описание объекта, т.е.
(2.9)Допустим сначала, что U и n статистически независимы. Теперь вектор ошибки е можно определить как
(2.10)В качестве функции ошибок или функции потерь можно выбрать положительно определенную форму
(2.11)где R- матрица весовых коэффициентов rij. Без потери общности можно предположить, что эта матрица симметрична. Функция ошибок может быть записана в виде
(2.12)Так как [Uβ]' —β'U', aR — симметричная матрица, то
(2.13)Дифференцирование этого выражения по р дает (см. приложение В)
Последнее выражение можно записать в виде -2U'R[y-Uβ]= — 2U'Re.
При некотором р выражение (2.14) обращается в нуль. Отсюда находим р, обеспечивающее экстремум функции ошибок Е:
(2.15)Эту систему называют системой нормальных уравнений. Если U'RU — невырожденная матрица, то
(2.16)Нетрудно показать, что при β = β^ функций ошибок Е принимает минимальное значение. Это значение Е (β^) называется остаточной ошибкой (основанной на k наблюдениях).
Здесь уместно сделать несколько замечаний:
1) Конечно, уравнение (2.16) можно решить методами