Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u(t), для которого фазовая траектория x(t), соответствующая этому управлению в силу уравнения (1.5), проходит через точку x1 и переход из x0вx1осуществляется за кратчайшее время. Такое управление u(t) будем называть оптимальным управлением (в смысле быстродействия); точно так же соответствующую траекторию x(t) буде называть оптимальной траекторией.
4. Допустимые управления. Обычно управляющие параметры u1,…,ur не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u, развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α≤u≤β, где α и β – некоторые постоянные, характеризующие двигатель. В частности, при α=─1, β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x1 как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.
Для объектов, содержащих r управляющих параметров u1,…,ur, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:
α1≤u1≤ β1, α2≤u2≤β2,…, αr≤ur≤βr.
Иначе говоря, каждая из величин u1, u2,…,ur в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных
управляющих параметров и задаётся неравенствами
αi≤ui≤βi, i=1,…,r. (1.6)
Заметим, что при r=2 точки u=(u1, u2), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменных u1,u2,u3 прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.
В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u1,…, ur некоторое множество U и управляющие параметры u1, u2,…, ur должны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u1,u2,…,ur) принадлежала множеству U. Иначе говоря, разрешается рассматривать лишь такие управления u(t), что u(t)
U для любого t. Множество U в дальнейшем будем называть областью управления. Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u1, u2,…,ur могут существовать связи, выражаемые, например, уравнениями вида φ(u1, u2,…, ur)=0 или неравенствами ψ(u1, u2,…, ur)≤0. Так, если параметры u1,u2 характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию(u1)2 +(u2)2 ─1≤0 (1.7)
и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления U.
Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами u1,u2,…,ur, безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u1,u2,…,ur. В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u(t). Кроме того, будем предполагать, что каждое рассматриваемое управление u(t) непрерывно на концах отрезка t0≤t≤t1, на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t0<t<t1. Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u(t), t0≤t≤t1, со значениями в области управления U, непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t0; t1], на котором она задана.
Задача об оптимальных быстродействиях уточняется теперь следующим образом:
Среди всех допустимых управлений u=u(t), под воздействием которых управляемый объект (1.3) переходит из заданного начального фазового состояния x0 в предписанное конечное состояние x1, найти такое, для которого этот переход осуществляется за кратчайшее время
§ 2. Об основных направлениях в теории оптимальных процессов
5. Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x1. При этом конечную фазовую точку x1 будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мы будем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 1. Какова бы ни была отличная от x1 точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x0в точку x1 (рис. 6).
Время, в течение которого осуществляется оптимальный переход из точки x0 в точку x1, обозначим через T(x). В дальнейших рассуждениях будет удобно вместо T(x) ввести функцию ω(x), отличающуюся от неё знаком
ω(x)= ─T(x). (1.8)
Так как каждая точка x фазового пространства имеет координаты x1,…,xn, то ω(x)= ─T(x) является функцией от n переменных, т. е. ω(x)= ω(x1,…,xn). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x1,…,xn) и о дифференцируемости этой функции по каждой из переменных x1,…,xn.
А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 2. Функция ω(x) непрерывна и всюду, кроме точки x1, имеет непрерывные частные производные
Пусть теперь x0 ─ произвольная отличная от x1 точка фазового пространства, а u0 ─ произвольная точка области U. Предположим, что объект находится в момент t0 в фазовом состоянии x0 и движется в течение некоторого времени под воздействием постоянного управления u= u0. Фазовую траекторию объекта при этом движении обозначим через y(t)=(y1(t),…, yn(t)). Таким образом, фазовая траектория y(t) при t>t0 удовлетворяет уравнениям
(1.9)(см. (1.2), (1.3)) и начальному условию
y(t0)=x0. (1.10)
Если мы будем двигаться из точки x0 до точки y(t) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t0. Двигаясь затем из точки y(t) оптимально, мы затратим на движение от точки y(t) до точки x1 время T(y(t)). В результате мы совершим переход из точки x0 в точку x1, затратив на этот переход время (t ─t0)+T(y(t)). Но так как оптимальное время движения от точки x0 до точки x1 равно T(x0), т. е. равно T(y(t0)), то T(y(t0))≤(t ─t0)+T(y(t)). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─t0, получаем отсюда
и поэтому, переходя к пределу при t→t0, находим