Смекни!
smekni.com

Синтез оптимальных уравнений (стр. 4 из 9)

при
≤1. (1.11)

Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной

Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид
Точки x0, u0 здесь были произвольными. Таким образом, для любой (отличной от x1) точки x фазового пространства и любой точки u области управления U выполнено соотношение

(1.12)

Пусть теперь (u(t), x(t)) ─ оптимальный процесс, переводящий объект из фазового состояния x0 в состояние x1, и t0tt1 ─ отрезок времени, в течение которого это оптимальное движение происходит, так что x(t0)=x0, x(t1)=x1 и t1=t0 + T(x0). Движение по рассматриваемой оптимальной траектории от точки x0 до точки x(t) осуществляется в течение времени tt0, а движение от точки x(t) до точкиx1 ─ в течение времени T(x0) ─ (tt0). Быстрее, чем за время T(x0) ─ (tt0), из точки x(t) попасть в точку x1 невозможно. Итак, T(x0) ─ (tt0) есть время оптимального движения из точки x(t) в точку x1, т. е. T(x(t))=T(x0) ─ (tt0). Заменив здесь T через ω, т. е. ω(x(t))=ω(x0) + tt0) и взяв производную по t, получаем

t0tt1. (1.13)

Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.13).

Если мы теперь введём в рассмотрение функцию

B(x, u(t))=

, (1.14)

То соотношения (1.12) и (1.13) могут быть записаны следующим образом:

B(x, u)≤1 для всех точек xx1 и u; (1.15)

B(x, u)≡1 для любого оптимального процесса (u(t), x(t)). (1.16)

Итак, справедлива следующая

Т е о р е м а 1.1. Если для управляемого объекта, описываемого уравнением (1.5) и предписанного конечного состояния x1 выполнены гипотезы 1 и 2, то имеют место соотношения (1.15) и (1.16) (оптимальность понимается в смысле быстродействия).

Эта теорема и составляет сущность метода динамическогопрограммирования для рассматриваемой задачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение (1.16)

Для t=t0, получим B(x0, u(t0))=1, т. е. для любой точки x0(отличной от x1) найдётся в U такая точка u(а именно u=u(t0)), что B(x0, u)=1. В сопоставлении с неравенством (1.15) получаем соотношение

для любой точки xx1. (1.16*)

Метод динамического программирования (1.15), (1.16) (или, что то же самое, (1.16*), (1.16)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции ω(x), так как эта функция входит в соотношения (1.15) ─ (1.16*). Во-вторых, уравнение Беллмана (1.16*) (или соотношения (1.15), (1.16)) представляет собой уравнение в частных производных относительно функции ω, осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1 и 2. Ведь оптимальные управления и функция ω нам заранее не известны, так что гипотезы 1 и 2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция ω(x) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция ω(x) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.

6. Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию ω(x) уже дважды непрерывно дифференцируемой (всюду, кроме точки x1). Итак, будем предполагать, что выполнена следующая

Г и п о т е з а 3. функция ω(x) имеет при x≠x1 вторые непрерывные производные

i, j=1,2,…,n, а функции fi(x, u) ─ первые непрерывные производные
где
i, j=1,2,…,n.

Пусть (u(t), x(t)), t0tt1, ─ оптимальный процесс, переводящий объект (1.2) (или (1.3)) из фазового состояния x0 в состояние x1. Фиксируем некоторый момент времени t, t0tt1, и рассмотрим функцию B(x, u(t))=

переменного x. В силу гипотезы 3 вытекает, что функция B(x, u(t)) всюду, кроме точки x1, имеет непрерывные производные по переменным x1,x2,…,xn:

(1.17)

В частности, так как x(t)≠x1 (поскольку t<t1), то функция B(x, u(t)) имеет вблизи точки x=x(t) непрерывные производные по переменным x1,x2,…,xn. Далее, мы имеем в силу (1.15), (1.16) B(x, u(t))≤1 для любого x≠x1; B(x, u(t))=1 при x=x(t).

Эти два соотношения означают, что функция B(x,u(t)) достигает в точке x=x(t) максимума, и потому её частные производные по x1,…,xn обращаются в нуль в этой точке:

(1.18)

Кроме того, дифференцируя функцию

по t, находим

Поэтому соотношение (1.18) может быть переписано в следующем виде:

(1.19)

Заметим теперь, что в формулы (1.15), (1.16), (1.17) и (1.19) сама функция ω не входит, а входят только её частные производные

. Поэтому мы введём для удобства следующие обозначения:

(1.20)

Тогда функция B (см. (1.14)) записывается таким образом:

B(x(t), u(t))=

и соотношение (1.16) принимает вид

, для оптимального процесса (x(t), u(t)), t0t<t1. (1.21)

Кроме того, согласно (1.15)

для любой точки u
U
и всех t0t<t1. (1.22)

Наконец, соотношения (1.19) записываются следующим образом:

(1.23)

Итак, если (u(t), x(t)), t0t<t1, ─ оптимальный процесс, то существуют такие функции ψ1(t), ψ2(t),…, ψn(t) (они определяются равенствами (1.20)), что имеют место соотношения (1.21), (1.22), (1.23).

Рассмотрение левых частей соотношений (1.21), (1.22) подсказывает нам, что целесообразно ввести в рассмотрение следующую функцию:

(1.24)

зависящую от 2n+r аргументов ψ1, ψ2,…, ψn, x1,…, xn, u1,…, ur. С помощью этой функции соотношения (1.21), (1.22) записываются в следующем виде: