экстраполяция, т.е. чем меньше
нее будет оценка.
Глава 5
Оптимальное управление дискретными динами-
ческими системами
Существует два типа детерминированных управляемых процес-
сов (детерминированных систем)
(1)
времени, которая входит в разностное уравнение
динамической системы)
Стохастическая управляемая система
(2)
а может быть и небелым, например, описываться сколь-
зящим средним (
Критерий оптимального управления
Пусть модель (1) или (2) генерирует случайный процесс :
временем, т.е. процесс должен развиваться таким образом,
чтобы минимизировать некоторую функцию риска, тогда уп-
равление называется оптимальным.
Математически это выглядит так :
где f(×) - выпуклая функция
При движении ракеты по некоторой траектории из точки А в
точку В траектория должна быть такой, чтобы минимизиро-
вать энергетические затраты на управление.
Пример 2 :
Существует некоторая эталонная траектория.
цесса к эталону за минимальное
время. Это называется оптимизация
x(t) вления.
Метод динамического программирования
Имеется детерминированная система :
(1)
Принцип Бэлмана - состоит в том, что оптимальное управ-
ление ищется с конца в начало (из будущего в прошлое).
Задача решается в обратном направлении.
(2)
Аналитическое решение задачи по Бэлману
Предположим, что мы отправились из
брали. Принцип динамического программирования основывает-
ся на том, что любой кусок траектории оптимального управ-
ления является оптимальным.
(3)
Траектория от (k+1) до ‘n’ называется хвостом.
N - последняя точка в управлении
(4)
Допустим, что начиная от шага (k+1) до ‘n’ в формуле (4)
оптимальное управление уже выбрано.
(5)
k=N,N-1,...,1
Формула (6) называется уравнением Бэлмана (уравне-
ние динамического программирования)
Выводы: (из уравнения (6))
Уравнение (6) позволяет в реккурентной форме вы-
вычислить управление, шаг за шагом, от точки N
до 1 (из будущего в прошлое) получить минимиза-
цию (6) на каждом шаге. Получить
ния управления фактически получаются методом пе-
ребора. Оптимальная траектория
вестна до самого последнего шага.
Если задача имеет большую размерность, то
сложность при вычислении очень большая. Если
вводить динамические системы (т.е. модели), то
можно значительно упростить метод нахождения оп-
тимального управления. Т.е. получить управление
в замкнутом виде (в виде некоторой формулы).
Синтез оптимального управления для марковских динамичес-
ких систем.
(1) ;
Управление должно менять
причем управляется динамическая система не по всем коор-
динатам.
Динамическая система, сама как таковая, не наблюдается, а
наблюдается j(
менная) с шумом. В этом случае говорят, что динамическая система ненаблюдаема напрямую. Для того, чтобы сделать ее
наблюдаемой необходимо использовать теорию нелинейной
фильтрации (см. предыдущие лекции).
В этом случае получаем оценку нелинейной динамической
системы в условиях линеаризации по Тейлору :
(2)
Синтез оптимального управления используя (2) проведем применив квадратичный критерий качества, причем управле-
ние динамической системой будем вести к некоторому этало-
ну, т.е. задано :
Критерий оптимизации
(3)
где || - норма,
Риск складывается из двух слагаемых :
1-е слагаемое : Это есть квадрат отклонения траектории от
эталона. Оно должно быть минимизировано с
учетом формулы (2).
2-е слагаемое : Это есть сумма с квадратом самого управ-
ления (некоторая сила) должны быть мини-
мизированны (так должно быть всегда)
Минимизация (3) - это достаточно сложная задача вариаци-
онного исчисления (просто взять здесь производную по ‘u’
не удается).
Для минимизации (3) используем уравнение Бэлмана :
В формуле (4) минимизируя шаг за шагом получим :
(5)