Получившего название основного функционального уравнения ДП, или уравнения Беллмана.
Из уравнения (5) может быть получена функция
Соотношения (5) для определения последовательности функций
Решая уравнения (2.2) для определения условного максимума показателя эффективности за n-k+1 шагов, начиная с k-го шага, определяем соответствующее оптимальное управление
Основное значение уравнения (2.2, в котором реализована идея динамического программирования, заключается в том, что решение исходной задачи определения максимума функции (1.2) n переменных
Общая задача оптимизации, чтобы ее можно было описать моделью ДП должна удовлетворять следующим условиям :
1.Задача может интерпретироваться как n-шаговый процесс управления, а показатель эффективности процесса может быть представлен в аддитивной форме, т.е. как сумма показателей эффективности на каждом шаге.
2.Структура задачи инвариантна относительно числа шагов п, т. е. должна быть определена для любого nи не зависеть от этого числа.
3.На каждом шаге состояние системы определяется конечным числом s параметров состояния и управляется конечным числом rпеременных управления, причем sи rне зависят от числа шагов п.
4.Выбор управления на k-м шаге не влияет на предшествующие шаги, а состояние в начале этого шага есть функция только предшествующего состояния и выбранного на нем управления (отсутствие последействия).
Построение модели ДП сводится к следующим основным моментам:
1) выбирают способ деления процесса на шаги;
2) вводят параметры состояния
3) записывают уравнение состояния
4) вводят показатели эффективности на k-м шаге
5) вводят в рассмотрение условные максимумы
6) из ограничений задачи определяют для каждого шага множества Dkдопустимых управлений на этом шаге;
7) записывают основные для вычислительной схемы ДП функциональные уравнения Беллмана
Несмотря на единообразие в общем построении модели ДП, приведенном выше, вычислительная схема строится в зависимости от размерности задачи, характера модели (дискретной или непрерывной), вида функций (3.1), (3.2) и других характеристик модели. При всем разнообразии вычислительных схем ДП можно отметить в них некоторые общие черты.
1. Решение уравнений (3.3) проводят последовательно, начиная с (3.4). Этот этап получил название условной оптимизации.
2. В результате последовательного решения п частных задач на условный максимум определяют две последовательности функций:
3. Указанные последовательности функций в дискретных задачах получают в табличной форме, а в непрерывных моделях их можно получить аналитически.
4. После выполнения первого этапа (условной оптимизации) приступают ко второму этапу — безусловной оптимизации.
а) Если начальное состояние
а затем — искомое безусловное оптимальное управление по цепочке
В этой цепочке переход, указанный сплошной линией, проводят по последовательности
б) Если задано множество
откуда находят
Иногда на этапе условной оптимизации вычислительный процесс удобно строить в направлении, обратном описанному выше, т. е. от 1-го шага к л-му. Этот способ получил название прямого хода вычислений в отличие от вышеизложенного, который называется обратным ходом. Уравнения состояний для прямого хода удобно записывать в виде
Они могут быть получены решением уравнений (1.1) относительно
В результате решения этих уравнений получим последовательности
Этап безусловной оптимизации не отличается принципиально от аналогичного этапа в обратном ходе вычислений:
если указано множество