Получившего название основного функционального уравнения ДП, или уравнения Беллмана.
Из уравнения (5) может быть получена функция
, если известна функция ; аналогично можно получить , если найдена , и т.д., пока не будет определена величина , представляющая по определению максимальное значение показателя эффективности процесса в целом:Соотношения (5) для определения последовательности функций
через (k=n, n-1,…,1) получили название основных рекуррентных уравнений Беллмана.Решая уравнения (2.2) для определения условного максимума показателя эффективности за n-k+1 шагов, начиная с k-го шага, определяем соответствующее оптимальное управление
, при котором этот максимум достигается. Это управление также зависит от . Будем обозначать такое управление через и называть условным оптимальным управлением на k-м шаге.Основное значение уравнения (2.2, в котором реализована идея динамического программирования, заключается в том, что решение исходной задачи определения максимума функции (1.2) n переменных
сводится к решению последовательности n задач, задаваемых соотношениями (2.2), каждое из которых является задачей максимизации функции одной переменной . Эти задачи оказываются взаимосвязанными, так как в соотношении (2.2) при определении учитывается найденная при решении предыдущей задачи функция .Общая задача оптимизации, чтобы ее можно было описать моделью ДП должна удовлетворять следующим условиям :
1.Задача может интерпретироваться как n-шаговый процесс управления, а показатель эффективности процесса может быть представлен в аддитивной форме, т.е. как сумма показателей эффективности на каждом шаге.
2.Структура задачи инвариантна относительно числа шагов п, т. е. должна быть определена для любого nи не зависеть от этого числа.
3.На каждом шаге состояние системы определяется конечным числом s параметров состояния и управляется конечным числом rпеременных управления, причем sи rне зависят от числа шагов п.
4.Выбор управления на k-м шаге не влияет на предшествующие шаги, а состояние в начале этого шага есть функция только предшествующего состояния и выбранного на нем управления (отсутствие последействия).
Построение модели ДП сводится к следующим основным моментам:
1) выбирают способ деления процесса на шаги;
2) вводят параметры состояния
и переменные управления на каждом шаге процесса;3) записывают уравнение состояния
(3.1)4) вводят показатели эффективности на k-м шаге
и суммарный показатель – целевую функцию (3.2)5) вводят в рассмотрение условные максимумы
показателя эффективности от k-гoшага (включительно) до конца процесса и условные оптимальныеуправления на k-м шаге6) из ограничений задачи определяют для каждого шага множества Dkдопустимых управлений на этом шаге;
7) записывают основные для вычислительной схемы ДП функциональные уравнения Беллмана
(3.3) (3.4)Несмотря на единообразие в общем построении модели ДП, приведенном выше, вычислительная схема строится в зависимости от размерности задачи, характера модели (дискретной или непрерывной), вида функций (3.1), (3.2) и других характеристик модели. При всем разнообразии вычислительных схем ДП можно отметить в них некоторые общие черты.
1. Решение уравнений (3.3) проводят последовательно, начиная с (3.4). Этот этап получил название условной оптимизации.
2. В результате последовательного решения п частных задач на условный максимум определяют две последовательности функций:
—условные максимумы и соответствующие им —условные оптимальные управления.3. Указанные последовательности функций в дискретных задачах получают в табличной форме, а в непрерывных моделях их можно получить аналитически.
4. После выполнения первого этапа (условной оптимизации) приступают ко второму этапу — безусловной оптимизации.
а) Если начальное состояние
задано ,а затем — искомое безусловное оптимальное управление по цепочке
(3.6)В этой цепочке переход, указанный сплошной линией, проводят по последовательности
, а пунктирной — с помощью уравнений состояний.б) Если задано множество
начальных состояний,откуда находят
, а затем, как и в п. а), по цепочке (3.6) —безусловное оптимальное управление.Иногда на этапе условной оптимизации вычислительный процесс удобно строить в направлении, обратном описанному выше, т. е. от 1-го шага к л-му. Этот способ получил название прямого хода вычислений в отличие от вышеизложенного, который называется обратным ходом. Уравнения состояний для прямого хода удобно записывать в виде
(3.8)Они могут быть получены решением уравнений (1.1) относительно
. Введем в рассмотрение условные максимумы показателя эффективности за kшагов, от 1-го до k-го включительно — величины . Повторив рассуждения п. 2.2.2., придем к следующей форме уравнений Беллмана:В результате решения этих уравнений получим последовательности
(3.11)Этап безусловной оптимизации не отличается принципиально от аналогичного этапа в обратном ходе вычислений:
, если задано, или (3.12)если указано множество
возможных конечных состояний. Далее, определяем безусловное оптимальное управление по цепочке (3.13)