Метод динамічного програмування (стр. 2 из 4)

4 Рівняння Беллмана в задачі з фіксованим часом і вільним правим кінцем

Розглянемо систему з законом руху (6) і критерієм оптимальності (2). Початковий стан системи заданий:

,(8)

час руху

відомий, а кінцевий стан

– невідомий. Побудована таким чином задача – це задача з фіксованим часом і вільним правим кінцем.

Позначимо через

оптимальну траєкторію, яка відповідає оптимальному керуванню

. Зафіксуємо деякий момент часу

і відповідну йому точку

на оптимальній траєкторії. Відповідно до принципу оптимальності, відрізок траєкторії

від точки

до точки

є оптимальною траєкторією і надає найменшого значення функціоналу

серед всіх припустимих процесів

на відрізку часу

з початковим станом

, тобто

Припустимо, що для будь-якої точки

фазового простору

і будь-якого моменту часу

існує оптимальна траєкторія з початковою умовою

, яка надає найменшого значення функціоналу

. Позначимо це мінімальне значення через

Функція

, що задана у всіх точках

, простору

, називається функцією Беллмана.

Припустимо, що

, – оптимальний процес і оптимальна траєкторія

задовольняє початковій умові

. Тоді

визначає цільовий функціонал (2) початкової задачі.

Розглянемо приріст

і відповідний йому момент часу

. Очевидно, що останнє співвідношення можна переписати так:

.(9)

Відповідно до принципу оптимальності, відрізок оптимальної траєкторії від точки

до точки

також є оптимальною траєкторією, тобто

тому співвідношення (9) можна переписати у вигляді

.(10)

Очевидно, що другий доданок в (10) залежить від стану системи

(оскільки оптимальне значення функціонала

залежить від початкового стану системи

і для кожного початкового стану

оптимальне значення функціонала

різне). У цей стан

, у свою чергу, система попадає під дією керування

, яке діє на інтервалі часу

. Отже, значення

залежатиме від вибору керування на відрізку

Дійсно, розглянемо різні припустимі керування

на відрізку

. Їм відповідатиме набір траєкторій

, що виходять із точки

, яка лежить на оптимальній траєкторії

. На кожній траєкторії із цього набору фазова точка в момент часу

попаде в деякий стан

Виберемо керування

на відрізку

так, щоб траєкторія

на цьому відрізку була оптимальною. Це оптимальне керування в загальному випадку різне для кожної траєкторії пучка. Очевидно, що вибираючи одне – оптимальне – серед всіх можливих керувань

для кожної із траєкторій

, ми фіксуємо подальший стан кожної із них і при цьому одержуємо мінімальне значення функціонала

яке дорівнює

Очевидно, що це значення залежить від стану

. А оскільки, як було встановлено раніше, стан

залежав від вибору керування

на відрізку

, то й значення

також залежатиме від того, яким було обрано керування

Розглянемо значення функціонала

на траєкторіях з набору, побудованого вище при

. Оскільки відрізок кожної траєкторії

від точки

до точки

є оптимальним відповідно до принципу максимуму, то значення функціонала дорівнює

.(11)

Ясно, що останнє співвідношення різне для кожної з траєкторій

і відповідного цій траєкторії керування

на відрізку

. Виберемо серед всіх значень

мінімальне. Оскільки обидва доданки в (11) залежать тільки від вибору керування

на інтервалі

, то і мінімальне значення (11) залежатиме тільки від вибору керування на цьому інтервалі, тобто