Он дает на выходе 1 если
|
Рис. 6. Кошка, характеризуемая ее линейными размерами.
Таким образом, такая нейронная сеть пригодна для решения задачи многомерной классификации или распознавания образов. Допустим у нас есть некий объект, имеющий набор свойств
Рис. 7. Простая задача распознавания – линейно разделимые множества.
|
|
Рис. 8. Задача распознавания с линейно неразделимыми множествами.
Если мы теперь выходы нашего первого слоя нейронов используем в качестве входов для нейронов второго слоя, то нетрудно убедиться, что каждая комбинация нулей и единиц на выходе второго слоя может соответствовать некоему объединению, пересечению и инверсии областей, на которые пространство входов разбивалось первым слоем нейронов. Двухслойная сеть, таким образом, может выделять в пространстве входов произвольные выпуклые односвязные области.
В случае еще более сложной задачи, когда требуется различать многосвязные области произвольной формы, всегда достаточно трехслойной сети.
Мы видим, что нейронные сети с пороговыми функциями активации способны решить произвольную задачу многомерной классификации.
2. Аппроксимация функций.
Вторая задача, которую мы рассмотрим это задача аппроксимации функций. Рассмотрим теперь сеть, нейроны которой в качестве функции активации имеют не ступеньку, а некоторую непрерывную функцию, например, сигмоид. В этом случае выход сети будет некоторой непрерывной функцией ее входов. Конкретный вид этой функции определяется весовыми коэффициентами каждого из нейронов.
Возникает вопрос, какие функции могут быть аппроксимированы с помощью нейронной сети? Ответ дается обобщенной теоремой Стоуна. Не вдаваясь в математические тонкости ее можно интерпретировать как утверждение об универсальных аппроксимационных возможностях произвольной нелинейности: с помощью линейных операций и каскадного соединения можно из произвольного нелинейного элемента получить устройство, вычисляющее любую непрерывную функцию с любой наперед заданной точностью.
То есть нейросеть с произвольной функцией активации может аппроксимировать произвольную непрерывную функцию. При этом, как оказывается всегда достаточно трехслойной сети. Нужна большая точность – просто добавь нейронов.
Как частный случай задачи аппроксимации можно рассмотреть задачу предсказания временных рядов. На вход сети мы подаем некоторое количество предыдущих значений, затем, а на выходе ожидаем получить значение в следующий момент времени.
Мы рассмотрели некоторые возможности только многослойных сетей прямого распространения. Ясно, что они могут практически все, что угодно. Возникает вопрос, как подобрать такие весовые коэффициенты, чтобы сеть решала задачу распознавания или аппроксимировала некоторую функцию? Замечательное свойство нейронных сетей состоит в том, что их этому можно научить.
Алгоритмы обучения бывают 3-х видов:
Обучение с учителем. При этом сети предъявляется набор обучающих примеров. Каждый обучающий пример представляют собой пару: вектор входных значений и желаемый выход сети. Скажем, для обучения предсказанию временных рядов это может быть набор нескольких последовательных значений ряда и известное значение в следующий момент времени. В ходе обучения весовые коэффициенты подбираются таким образом, чтобы по этим входам давать выходы максимально близкие к правильным.
Обучение с поощрением. При этом сети не указывается точное значение желаемого выхода, однако, ей выставляется оценка хорошо она поработала или плохо.
Обучение без учителя. Сети предъявляются некоторые входные векторы и в ходе их обработки в ней происходят некоторые процессы самоорганизации, приводящие к тому, что сеть становиться способной решать какую-то задачу.
Рассмотрим один из самых популярных алгоритмов обучения, так называемы, алгоритм обратного распространения. Это один из вариантов обучения с учителем. Пусть у нас имеется многослойная сеть прямого распространения со случайными весовыми коэффициентами. Есть некоторое обучающее множество, состоящее из пар вход сети – желаемый выход
Обучение состоит в том, чтобы подобрать весовые коэффициенты таким образом, чтобы минимизировать некоторую целевую функцию. В качестве целевой функции рассмотрим сумму квадратов ошибок сети на примерах из обучающего множества.
где
Поскольку весовые коэффициенты в зависимость
где
Таким образом, требуется определить частные производные целевой функции E по всем весовым коэффициентам сети. Согласно правилам дифференцирования сложной функции
где
Третий сомножитель
Частные производные целевой функции по весам нейронов выходного слоя теперь можно легко вычислить. Производя дифференцирование (6) по
Введем обозначение
Тогда для нейронов выходного слоя
Для весовых коэффициентов нейронов внутренних слоев мы не можем сразу записать, чему равен 1-й сомножитель из (9), однако его можно представить следующим образом: