Синтез оптимальных уравнений (стр. 5 из 9)

для оптимального процесса (u(t), x(t)), t₀≤t<t₁, (1.25)

где ψ(t)=(ψ₁(t),…,ψ_n(t)) определяются равенствами (1.20);

для любой точки u
U и всех t₀≤t<t₁. (1.26)

Вместо неравенства (1.26) мы можем в силу (1.25) написать следующее соотношение:

t₀≤t<t₁. (1.27)

Наконец, соотношения (1.23) можно, очевидно, переписать так:

(1.28)

Итак, если (u(t), x(t)), t₀≤t<t₁, ─ оптимальный процесс, то существует такая функция ψ(t)=(ψ₁(t),…, ψ_n(t)), что выполняются соотношения (1.25), (1.27), (1.28), где функция H определяется соотношением (1.24).

Так как в соотношениях (1.24), (1.25), (1.27), (1.28) нигде не участвует явно функция ω(x), то равенства (1.20), выражающие функции ψ₁(t),…, ψ_n(t) через ω, никаких добавочных сведений не дают, и о них можно забыть, ограничившись утверждением, что какие-то функции ψ₁(t),…, ψ_n(t), удовлетворяющие перечисленным соотношениям (1.25), (1.27), (1.28), существуют. Соотношения (1.28) представляют собой систему уравнений, которым эти функции удовлетворяют. Заметим, что функции ψ₁(t),…, ψ_n(t) составляют нетривиальное решение этой системы (т. е. ни в какой момент времени tвсе эти функции одновременно в нуль не обращаются); действительно, если бы при некотором tбыло ψ₁(t)= ψ₂(t)=…=ψ_n(t)=0, то в силу (1.24) мы получили бы H(ψ(t), x(t), u(t))=0, что противоречит равенству (1.25). Таким образом, мы получаем следующую теорему, которая носит название принципа максимума.

Т е о р е м а 1.2. Предположим, что для рассматриваемого управляемого объекта, описываемого уравнением (в векторной форме)

(A)

и предписанного конечного состояния x₁выполнены гипотезы 1, 2 и 3. Пусть (u(t), x(t)), t₀≤t≤t₁, ─ некоторый процесс, переводящий объект из начального состояния x₀в состояние x₁. Введём в рассмотрение функцию H, зависящую от переменных x¹(t),…, xⁿ(t), u¹,…,u^r и некоторых вспомогательных переменных ψ₁(t),…, ψ_n(t) (см. (1.24)):

(B)

С помощью этой функции H запишем следующую систему дифференциальных уравнений для вспомогательных переменных:

(C)

где (u(t), x(t)) ─ рассматриваемый процесс (см. (1.28)). Тогда, если процесс (u(t), x(t)), t₀≤t<t₁, является оптимальным, то существует такое нетривиальное решение ψ(t)=(ψ₁(t),…, ψ_n(t)), t₀≤t<t₁, системы (C), что для любого момента t, t₀≤t<t₁, выполнено условие максимума

(D)

(см. (1.27)) и условие (1.25) H(ψ(t),x(t),u(t))=1.

Однако в приведённой здесь форме принцип максимума страдает одним недостатком: он выведен в предположение дифференцируемости (и даже двукратной) функции ω(x), а эта функция в действительности не является (в обычно встречающихся случаях) всюду дифференцируемой.

Из-за предположения о выполнении сформулированных гипотез (о функции ω(x)) принцип максимума в том виде, в каком он сформулирован выше, не является удобным условием оптимальности. По форме он выведен как необходимое условие оптимальности: если процесс оптимален, то выполнено соотношение (1.16^*) и соответственно (D), т. е. выполнение этого условия необходимо для оптимальности. Однако это условие выведено лишь в предположении выполнения гипотез 1, 2, 3, а их выполнение отнюдь не необходимо для оптимальности. Вот почему сформулированные выше теоремы не могут считаться необходимыми условиями оптимальности.

Замечательным, однако, является тот факт, что если в теореме 1.2 решение ψ(t) и условие максимума (D) рассматривать на всём отрезке t₀≤t≤t₁(а не только при t₀≤t<t₁), а заключительное условие

H(ψ(t₁), x(t₁), u(t₁))≥0, (E)

то в этой форме принцип максимума будет справедлив без каких бы то ни было предположений о функции ω, т. е. принцип максимума станет весьма удобным и широко применимым необходимым условием оптимальности.

§ 3. Пример. Задача синтеза

7. Пример применения принципа максимума. В этом пункте мы разберём один пример вычисления оптимальных процессов. Именно, рассмотрим управляемый объект, упомянутый в п. 3 (см. уравнения (1.1)), при условии, что сила трения и упругая сила отсутствуют (т. е. b=0, k=0), масса mравна единице (m=1), а управляющий параметр подчинён ограничениям |u|≤1. Иначе говоря, мы рассматриваем материальную точку G массы m=1 (см. рис. 10), свободно и без трения движущуюся по горизонтальной прямой и снабжённую двигателем, развивающим силу u, где |u|≤1. Согласно (1.1) уравнения движения этого объекта имеют вид:

(1.29)

─1≤u≤1. (1.30)

Для этого объекта рассмотрим задачу о быстрейшем попадании в начало координат (0, 0) из заданного начального состояния x₀=(x₀¹, x₀²). Иначе говоря, будем рассматривать задачу об оптимальном быстродействии в случае, когда конечным положением служит точка x₁=(0, 0). Механически это означает, что материальную точку, имеющую заданное положение x₀¹ и заданную начальную скорость x₀², мы хотим за кратчайшее время привести в начало отсчёта с нулевой скоростью (т. е. добиться того, чтобы точка пришла в начало отсчёта и остановилась там).

Функция H в рассматриваемом случае имеет вид

H=ψ₁x²+ψ₂u (1.31)

(см. (1.29) и (B)). Далее, для вспомогательных переменных ψ₁, ψ₂ мы получаем систему уравнений

. Из этой системы уравнений находим: ψ₁=d₁; ψ₂= ─d₁t+d₂, где d1, d₂ ─ постоянные интегрирования. Далее, в силу соотношения максимума (D) мы находим, учитывая (1.31) и (1.30):

u(t)= +1, если ψ₂(t)>0; u(t)= ─1, если ψ₂(t)<0.

Иначе говоря, u(t)=signψ₂(t)=sign (─ d₁t+ d₂). Отсюда следует, что каждое оптимальное управление u(t), t₀≤t≤t₁, является кусочно-постоянной функцией, принимающей значения

и имеющей не более двух интервалов постоянства (ибо линейная функция ─d₁t + d₂ не более одного раза меняет знак на отрезке t₀≤t≤t₁).

Для отрезка времени, на котором u

1, мы имеем (в силу системы (1.29))

, откуда находим

x¹=1/2(x²)²+c. (1.32)

Таким образом, кусок фазовой траектории, для которого u

1, представляет собой дугу параболы (1.32). Семейство парабол (1.32) показано на рис. 13 (они получаются друг из друга сдвигом в направлении осиx¹). По этим параболам фазовые точки движутся снизу вверх (ибо

= u
1, т. е.

Аналогично для отрезка времени, на котором u

─1, мы имеем, откуда находим

x¹= ─1/2(x²)²+ c’. (1.33)

Семейство парабол (1.33) (также получающихся друг из друга сдвигом в направлении оси x¹) показано на рис. 14. По параболам (1.33) фазовые точки движутся сверху вниз (ибо

)

Как было указано выше, каждое оптимальное управление u(t) является кусочно-постоянной функцией, принимающей значения

и имеющей не более двух интервалов постоянства. Если управление u(t) сначала, в течение некоторого времени, равно +1, а затем равно ─1, то фазовая траектория состоит из двух кусков парабол (рис. 15), примыкающих друг к другу, причём второй из этих кусков лежит на той из парабол (1.33), которая проходит через начало координат (ибо искомая траектория должна вести в начало координат). Если же, наоборот, сначала u= ─1, а затем u= +1, то мы получаем фазовую траекторию, изображённую на рис. 16. На рис. 15, 16 надписаны на дугах парабол соответствующие значения управляющего параметра u.

На рис. 17 изображено всё семейство полученных таким образом фазовых траекторий (здесь AO ─ дуга параболы x¹=1/2(x²)², расположенная в нижней полуплоскости; BO ─ дуга параболы x¹= ─1/2(x²)², расположенная в верхней полуплоскости).