Область управления U, в общем случае, может быть не только параллелепипедом, но может иметь более или менее геометрически сложный характер, так как благодаря конструкции объекта между управляющими параметрами могут существовать некоторые связи, выражаемые некоторыми уравнениями или неравенствами. Указанные области управления должны входить в математическое описание объекта.
Для технических задач важен случай замкнутого множества U, т.е. случай, когда точка
может находиться не только внутри множества, но и на его границе. Т.е. для «рулей» допустимы и их крайние положения.Для полного осмысления данного вопроса необходимо сделать еще одно, очень важное, предположение о характере управлений. Возможны несколько случаев представления управляющих воздействий. А именно, в одном случае, когда это позволяет точность представления, можно предполагать, что «рули», положения которых характеризуются управляющими параметрами u1, u2, ..., ur, безынерционны, так что есть возможность, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u1, u2, ..., urв пределах области управления.
В другом случае, когда точность расчетов не допускает таких приближений нужно предполагать, что управляющие воздействия не могут меняться скачкообразно на сколь угодно большую величину, т.е. существует ограничение не только на значение управляющего параметра, но и на скорость изменения этого параметра. В этом случае достаточно написать
, где — скорость изменения управляющего параметра, и принять за управляющий параметр величину . Т. о. существует ограничение видачто несколько осложняет поиск оптимального управления.
Всякий реальный процесс обладает некоторой «инерционностью», но во всяком реальном управляемом объекте всегда можно найти такие управляющие параметры, которые, в пределах заданной точности, можно считать безынерционными.
В соответствии с этим будут рассматриваться не только непрерывные, но и кусочно-непрерывные управления u(t). Класс кусочно-непрерывных управлений хорош тем, что, во-первых, позволяет получить точное математическое решение оптимальной задачи для широкого класса примеров, а во-вторых, наиболее интересен и удобен для технической реализации.
Необходимо уточнить, что функция
со значениями в области управления U называется кусочно-непрерывной, если она состоит из конечного числа непрерывных кусков (рисунок 1.2), т.е. непрерывна для всех рассматриваемых t, за исключением лишь конечного числа моментов времени, где функция u(t) может терпеть разрывы первого рода; последнее означает, что в каждой точке разрыва t предполагается существование конечных пределов слева и справа:Значение кусочно-непрерывного управления u(t) в точке разрыва не играет сколько-нибудь существенной роли. Однако для определенности будет удобно предполагать, что управление u(t) в точках разрыва непрерывно справа, т. е. что в каждой точке разрыва t значение управления u(t) равно пределу справа:
Кроме того, предполагается, что каждое рассматриваемое управление u(t) непрерывно в концах отрезка
на котором оно задано, т. е. что все его точки разрыва, если они есть, расположены на интервале .
Допустимым управлением называют всякую кусочно-непрерывную функцию
со значениями в области управления U, непрерывную справа в точках разрыва и непрерывную в концах отрезка на котором она задана.Оптимальные управления оказываются, в большинстве случаев, разрывными (т.е. содержащие скачки и переключения). Если разрывная функция, график которой изображен на рисунке 1.3 сплошной линией, представляет собой оптимальное управление, то, «сгладив» эту функцию (пунктир на рисунке 1.3), будет получена близкая к ней непрерывная функция. Но какая бы «близкая» к оптимальному управлению непрерывная функция ни была, всегда можно выбрать «сглаживающий» кусок еще более крутым и получить непрерывную функцию, еще более близкую к оптимальному управлению. Таким образом, в классе непрерывных функций просто не будет наилучшего, оптимального управления, а предельным случаем является кусочно-непрерывная функция, которая и является оптимальным управлением.
Теория оптимальных процессов базируется на методе динамического программирования, разработанного Р. Беллманом, а также на принципе максимума Понтрягина. Для линейных систем принцип максимума был доказан Р.В. Гамкрелидзе. Кроме того, ему принадлежит теорема о конечности числа переключений. Доказательство принципа максимума для нелинейных систем принадлежит В.Г. Болтянскому.
Далее кратко рассмотрим общие принципы метода динамического программирования и принципа максимума.
Для получения уравнения Беллмана и формулировки теоремы, являющейся сущностью метода динамического программирования автором данной теории были выдвинуты следующие гипотезы.
Гипотеза 1.1. Какова бы ни была отличная от x1 точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x в точку x1.
Время, в течение которого осуществляется оптимальный переход из точки x в точку x1, обозначим через Т(х). И пусть
w(x) = — T(x).
Гипотеза 1.2. Функция w(x) непрерывна и всюду, кроме точки x1, имеет непрерывные частные производные
На основе этих гипотез была сформулирована и доказана теорема 1.1.
Теорема 1.1. Если для управляемого объекта, описываемого уравнением
, и предписанного конечного состояния x1 выполнены гипотезы 1 и 2, то имеют место соотношения (1.3) и (1.4) (оптимальность понимается в смысле быстродействия). для всех точек x ¹ x1 и u, (1.3)для любого оптимального процесса (u(t), x(t)). (1.4)
Эта теорема и составляет сущность метода динамического программирования.
Метод динамического программирования (1.3), (1.4) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции w(x) так как эта функция входит в соотношения (1.3), (1.4). Во-вторых, уравнение Беллмана представляет собой уравнение в частных производных относительно функции w. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1.1 и 1.2. Ведь оптимальные управления и функция w заранее неизвестны, так что гипотезы 1.1 и 1.2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно.
Далее кратко излагается сущность принципа максимума, который является значительно более удобным средством для отыскания оптимальных процессов, чем метод динамического программирования.
Гипотеза 1.3. Функция w(x) имеет при x ¹ x1 вторые непрерывные производные
, а функции — первые непрерывные производные .