4 Рівняння Беллмана в задачі з фіксованим часом і вільним правим кінцем
Розглянемо систему з законом руху (6) і критерієм оптимальності (2). Початковий стан системи заданий:
,(8)час руху
відомий, а кінцевий стан – невідомий. Побудована таким чином задача – це задача з фіксованим часом і вільним правим кінцем.Позначимо через
, оптимальну траєкторію, яка відповідає оптимальному керуванню . Зафіксуємо деякий момент часу і відповідну йому точку на оптимальній траєкторії. Відповідно до принципу оптимальності, відрізок траєкторії від точки до точки є оптимальною траєкторією і надає найменшого значення функціоналусеред всіх припустимих процесів
на відрізку часу з початковим станом , тобто .Припустимо, що для будь-якої точки
фазового простору і будь-якого моменту часу існує оптимальна траєкторія з початковою умовою , яка надає найменшого значення функціоналу . Позначимо це мінімальне значення через .Функція
, що задана у всіх точках , простору , , називається функцією Беллмана.Припустимо, що
, , – оптимальний процес і оптимальна траєкторія задовольняє початковій умові . Тодівизначає цільовий функціонал (2) початкової задачі.
Розглянемо приріст
і відповідний йому момент часу . Очевидно, що останнє співвідношення можна переписати так: .(9)Відповідно до принципу оптимальності, відрізок оптимальної траєкторії від точки
до точки також є оптимальною траєкторією, тобто ,тому співвідношення (9) можна переписати у вигляді
.(10)Очевидно, що другий доданок в (10) залежить від стану системи
(оскільки оптимальне значення функціонала залежить від початкового стану системи і для кожного початкового стану оптимальне значення функціонала різне). У цей стан , у свою чергу, система попадає під дією керування , яке діє на інтервалі часу . Отже, значення залежатиме від вибору керування на відрізку .Дійсно, розглянемо різні припустимі керування
на відрізку . Їм відповідатиме набір траєкторій , що виходять із точки , яка лежить на оптимальній траєкторії . На кожній траєкторії із цього набору фазова точка в момент часу попаде в деякий стан .Виберемо керування
на відрізку так, щоб траєкторія на цьому відрізку була оптимальною. Це оптимальне керування в загальному випадку різне для кожної траєкторії пучка. Очевидно, що вибираючи одне – оптимальне – серед всіх можливих керувань , для кожної із траєкторій , ми фіксуємо подальший стан кожної із них і при цьому одержуємо мінімальне значення функціонала ,яке дорівнює
.Очевидно, що це значення залежить від стану
. А оскільки, як було встановлено раніше, стан залежав від вибору керування на відрізку , то й значення також залежатиме від того, яким було обрано керування , .Розглянемо значення функціонала
на траєкторіях з набору, побудованого вище при . Оскільки відрізок кожної траєкторії від точки до точки є оптимальним відповідно до принципу максимуму, то значення функціонала дорівнює .(11)Ясно, що останнє співвідношення різне для кожної з траєкторій
і відповідного цій траєкторії керування на відрізку . Виберемо серед всіх значень мінімальне. Оскільки обидва доданки в (11) залежать тільки від вибору керування на інтервалі , то і мінімальне значення (11) залежатиме тільки від вибору керування на цьому інтервалі, тобто