вариационного исчисления:
или
при произвольном ∆β (принцип ортогональности).
2) Прямое доказательство того, что Е достигает минимума, может быть основано на стандартном приеме анализа членов второго порядка по р. Из формулы (2.12) имеем
Очевидно, что при p, удовлетворяющем уравнению (2.16), Е достигает минимума.
3) В качестве мнемонического правила может оказаться удобным использовать то, что
умножается на U'R:
Так как второе слагаемое неизвестно, не измеряется и предполагается, что U и n статистически независимы, то это слагаемое отбрасывается. В результате получается оценка Р истинного значения b [см. формулу (2.15)]. Естественно, такой способ вывода уравнения (2.16) не показывает, в каком смысле оценка оптимальна.
Эта оценка обладает свойством линейности, поскольку
(2.17)Из формул (6.31) и (6.24) следует, что
Поскольку входной сигнал и шум статистически независимы,
(2.18)А так как уже предполагалось, что ε[n] = 0, то оценка является и несмещенной:
Отсюда следует, чтот. е. математическое ожидание выхода модели равно выходу объекта без аддитивного шума.
Желательно определить еще одну характеристику оценки β [формула (2.16)] — ее дисперсию. Интересно также оценить корреляцию между компонентами вектора 3. Все эти характеристики можно определить с помощью ковариационной матрицы
(2.19)По-прежнему предполагается, что справедливо соотношение (6.24) и U и n статистически независимы. Тогда, используя формулу (6.32), находим
(2.20)
Следовательно,
Будет показано, что в нескольких практически интересных случаях это выражение можно существенно упростить. Главная диагональ матрицы состоит из оценок дисперсий оцениваемых параметров.
2.1.2 Оценки по методу наименьших квадратов
При использовании метода наименьших квадратов минимизируется выражение
(2.21)Таким образом, в уравнении (2.11) и вытекающих из него уравнениях
,и из формул (2.15), (2.16) и (2.20) получаем
(2.22)или
(2.23)и
(2.24)Если U — квадратная матрица, т. е. если размер выборки равен числу оцениваемых параметров, и если матрица U имеет обратную, то
и
(2.26)С инженерной точки зрения этот случай не представляет особого интереса, поскольку случайные возмущения не учитываются. Для уменьшения влияния шумов размер выборки должен быть гораздо больше числа параметров. Если в уравнении (2.22) выразить все величины через Ui(j), то нетрудно получить
(2.27)Ортогональность или ортонормальность пробных сигналов может привести к существенным упрощениям. В случае ортонормальности
— единичная матрицаи
, илиМожно дать простую геометрическую интерпретацию оценок метода наименьших квадратов для случая двумерного вектора параметров β(рис. 2.1). Необходимо минимизировать длину вектора
.Рисунок 2.1 - Геометрическая интерпретация оценок метода наименьших квадратов для случая двумерного вектора параметров β
Если вектор е ортогонален к u1 и u2
илиСледовательно,
или
,т. е. имеем уравнение (2.22).
2.2 Нейронные сети и статические характеристики
Поскольку в настоящее время нейронные сети с успехом используются для анализа данных, уместно сопоставить их со старыми хорошо разработанными статистическими методами. В литературе по статистике иногда можно встретить утверждение, что наиболее часто применяемые нейросетевые подходы являются ни чем иным, как неэффективными регрессионными и дискриминантными моделями. Мы уже отмечали прежде, что многослойные нейронные сети действительно могут решать задачи типа регрессии и классификации. Однако, во-первых, обработка данных нейронными сетями носит значительно более многообразный характер - вспомним, например, активную классификацию сетями Хопфилда или карты признаков Кохонена, не имеющие статистических аналогов. Во-вторых, многие исследования, касающиеся применения нейросетей в финансах и бизнесе, выявили их преимущества перед ранее разработанными статистическими методами. Рассмотрим подробнее результаты сравнения методов нейросетей и математической статистики.
2.3 Различие нейронных сетей и статистики
В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.
Предположим, что мы провели наблюдения и экспериментально измерили N пар точек, представляющих функциональную зависимость
Если попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели
(где ε обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров a,b минимизирующих сумму квадратичных невязок.Если параметры aи bнайдены, то можно оценить значение y для любого значения x, то есть осуществить интерполяцию и экстраполяцию данных.
Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи a и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к обобщению будет при этом использоваться для предсказания выходной величины по значению входа.
Рисунок. 2.2 - Линейная регрессия и реализующий ее однослойный персептрон
При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическому описанию нейронных архитектур.
Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения. Иными словами, в отличие от нейросетевого подхода, оценка параметров модели для статистических методов не зависит от метода минимизации. В то же время статистики будут рассматривать изменения вида невязки, скажем как фундаментальное изменение модели
В отличие от нейросетевого подхода, в котором основное время забирает обучение сетей, при статистическом подходе это время тратится на тщательный анализ задачи. При этом опыт статистиков используется для выбора модели на основе анализа данных и информации, специфичной для данной области. Использование нейронных сетей - этих универсальных аппроксиматоров - обычно проводится без использования априорных знаний, хотя в ряде случаев оно весьма полезно. Например, для рассматриваемой линейной модели использование именно среднеквадратичной ошибки ведет к получению оптимальной оценки ее параметров, когда величина шума имеет нормальное распределение с одинаковой дисперсией для всех обучающих пар. В то же время если известно, что эти дисперсии различны, то использование взвешенной функции ошибки может дать значительно лучшие значения параметров.