Смекни!
smekni.com

Оптимальное управление линейными динамическими объектами (стр. 10 из 49)

1

u Lp = ⎜⎜⎜⎜⎜⎝∫tT0 u t( ) pdt⎞⎠⎟⎟⎟⎟⎟⎟p .

При p = ∞ под символом Lr[t T0, ] понимается пространство ограниченных измеримых функций, u :[t T0, ]→ P Rr с нормой

u L∞ = ess t∈sup[t T0, ] U t( ) = inf supv()t[t T0, ] v t( ) ,

где v(⋅) пробегает множество всех измеримых функций, совпадающих с функцией u()⋅ почти всюду на отрезке [t T0, ].

Класс допустимых программных стратегий должен удовлетворять следующему свойству: любую допустимую программную стратегию U()⋅ можно сколь угодно точно приблизить (в смысле сходимости в среднем

T
us ( )t U t dt( ) → 0, s → ∞ ) реализацией вектора управляющих параметров

t0

us (t), s =1,2, , t ∈[t T0, ].

В частности, пусть класс допустимых программных стратегий принадлежит пространству L t Trp [ 0, ], p ∈[1,∞]. Тогда указанное свойство следует из того, что множество непрерывных функций всюду плотно в L t T1r [ 0, ] [16 ].

В дальнейшем, если не оговорено противное, множество допустимых программных стратегий будем считать принадлежащим пространству суммируемых по Лебегу функций.

Определение 9. Движением динамического объекта на интервале времени [t T0, ], выходящим из начального положения {t x0, 0}и порожденным допустимой программной стратегией U (⋅), называется функция x:[t T0, ]→ Rn , определенная равенством

t t

x( )t = X t t x[ , 0] 0 +∫ X t[ ,τ] ( )B τ U( )τ τd +∫ X t[ ,τ] ( )C τ τd , t ∈[t T0, ]. (1)

t0 t0

В общем случае интегралы в формуле (1) следует понимать в смысле Лебега. Движение объекта, определенное формулой (1), обозначим символом

x(⋅) = x(⋅,t x U0, 0, (⋅)).

Пусть {us ( )⋅ } - последовательность реализаций вектора управляющих воздействий, аппроксимирующая программное управление U ( )⋅ , и xs ( )⋅ движение объекта, отвечающее реализации us (⋅), s =1,2, . Тогда справедлива оценка

tT

x( )t xs ( )t X t[ ,τ]B( )τ τU ( )−us ( )τ τ⎤d M
U ( )τ −us ( )τ τd ,

t0t0

t ∈[t T0, ], M = const .

Из нее следует, что последовательность функций ϕs (⋅), определенных формулой

ϕs ( )t =

x t( )− xs (t)
, t∈[t T0, ], s =1,2,

равномерно сходится к нулю на отрезке времени [t T0, ].

Таким образом, любое движение динамического объекта можно рассматривать как равномерный предел движений объекта, порожденных соответствующими допустимыми реализациями вектора управляющих воздействий. При этом оно принадлежит классу абсолютно непрерывных на промежутке [t T0, ] функций и удовлетворяет на нем дифференциальному уравнению x = A t x( ) +B t U t( ) ( )+C t( )

почти всюду.

1.8. Постановка и существование решения задачи теории оптимального управления. Пусть заданы дифференциальные уравнения (1.2) движения динамического объекта, критерий качества (6.1), множество начальных и конечных моментов времени θ0 R1, θ1 R1, infθ0 ≤ sup, θ1 , область изменения вектора управляющих параметров P Rr , ограничения на левый конец S0 ( )t0 Rn, t0 ∈θ0 и правый конец S T1( ), T ∈θ1 фазовой траектории динамического объекта, и допустимая программная стратегия U (⋅).

Определение 10. Набор (t T x U0, , 0, ( )⋅ ,x( )⋅ ) назовем допустимым, если t0 ∈θ0 , T ∈θ1, t0 <T, x( )⋅ = x(⋅,t x U0, 0, ( )⋅ ), x0 S0(t0), x(T)∈S1(T) .

На множестве допустимых наборов посредством формулы (6.1) определим функционал I :(t T x U0, , 0, ( )⋅ , x( )⋅ ) → I t T x U[ 0, , 0, ( )⋅ , x( )⋅ ] и поставим следующую задачу.

Задача 1. Определить допустимый набор

такой, что для

любого другого допустимого набора (t T x U0, , 0, ( )⋅ ,x( )⋅ ) выполнялось бы неравенство

I t

T x U x I t T x U x .

Допустимый набор

назовем решением задачи оптимального

управления, U 0 ( )⋅ – оптимальной программной стратегией, x0()⋅ – оптимальной траекторией. В задаче 1 требуется минимизировать функционал I . Случай максимизации функционала сводится к эквивалентной задаче минимизации функ-

ционала − I .

Сформулированная задача 1 оптимального управления динамическим объектом не всегда имеет решение. Покажем это на примере.

Пример 10. Рассмотрим управляемый динамический объект

1 ⎧⎫

x = u, xR , u∈ −[ 1,1 ,] θ0 ={ }0 , θ1 = (0,+∞) , S0 ={ }0 , S1 ( )T = ⎨x= 0, T ∈θ1,

I[T,u(⋅)]= x(T). 1 Очевидно, что I T U, ( )⋅ ⎤= T > 0. Для каждого Tˆ > 0 положим

⎧0, ⎪ u ˆ ( )t = ⎨

T

⎪⎩1

t ∈⎡t T0, ˆ⎤ , ⎣ ⎦ t >Tˆ.

⎩⎭

Траектория движения, отвечающая программному управле-

нию uTˆ (⋅), изображена на рис. 7.

Момент времени T окончания процесса в данном случае удов-

летворяет неравенству T >Tˆ , и

Рис. 7 1 1 поэтому < . Выбирая вели-

T Tˆ

чину Tˆ достаточно большой, значение функционала I T uˆ, Tˆ ( )⋅ ⎤ =

T1ˆ можно сделать сколь угодно малым. Однако программной стратегии U ( )⋅ , для которой I T U, ( )⋅ ⎤= 0, не существует в классе L t Trp [ 0, ], p ∈[1,∞]. Отсюда заключаем, что рассматриваемая задача оптимального управления решения не имеет. Для задачи теории оптимального управления

x = A t x( ) + B t u( ) +C t( ),

t

t T t t t T T T t T ,

xRn, uP Rr , x0 S0 (t0 ) , t0 ∈θ0, x T( )∈S T1 ( ) , T ∈θ1 ,

I[t0,T, x0,u(⋅), x(⋅)]= Φ(t0,T, x0, x(T))

выведем достаточные условия существования ее решения в классе интегрируемых по Лебегу программных стратегий.

Теорема 5 (существование решения задачи теории оптимального управления).

Пусть выполнены следующие предположения:

1) множество P R r компактно и выпукло;

2) множество Ξ = {e = (t0 ,T, x0 ,xT)

x0 S0 (t0 ), xT S1(T), t0 ∈θ0 , T ∈θ1}⊂ R2(n+1) компактно;