1
⎛
u Lp = ⎜⎜⎜⎜⎜⎝∫tT0 u t( ) pdt⎞⎠⎟⎟⎟⎟⎟⎟p .При p = ∞ под символом Lr∞[t T0, ] понимается пространство ограниченных измеримых функций, u :[t T0, ]→ P ⊂ Rr с нормой
u L∞ = ess t∈sup[t T0, ] U t( ) = inf supv()⋅ t∈[t T0, ] v t( ) ,где v(⋅) пробегает множество всех измеримых функций, совпадающих с функцией u()⋅ почти всюду на отрезке [t T0, ].
Класс допустимых программных стратегий должен удовлетворять следующему свойству: любую допустимую программную стратегию U()⋅ можно сколь угодно точно приблизить (в смысле сходимости в среднем
T ∫ us ( )t −U t dt( ) → 0, s → ∞ ) реализацией вектора управляющих параметровt0
us (t), s =1,2, , t ∈[t T0, ].
В частности, пусть класс допустимых программных стратегий принадлежит пространству L t Trp [ 0, ], p ∈[1,∞]. Тогда указанное свойство следует из того, что множество непрерывных функций всюду плотно в L t T1r [ 0, ] [16 ].
В дальнейшем, если не оговорено противное, множество допустимых программных стратегий будем считать принадлежащим пространству суммируемых по Лебегу функций.
Определение 9. Движением динамического объекта на интервале времени [t T0, ], выходящим из начального положения {t x0, 0}и порожденным допустимой программной стратегией U (⋅), называется функция x:[t T0, ]→ Rn , определенная равенством
t t
x( )t = X t t x[ , 0] 0 +∫ X t[ ,τ] ( )B τ U( )τ τd +∫ X t[ ,τ] ( )C τ τd , t ∈[t T0, ]. (1)
t0 t0
В общем случае интегралы в формуле (1) следует понимать в смысле Лебега. Движение объекта, определенное формулой (1), обозначим символом
x(⋅) = x(⋅,t x U0, 0, (⋅)).
Пусть {us ( )⋅ } - последовательность реализаций вектора управляющих воздействий, аппроксимирующая программное управление U ( )⋅ , и xs ( )⋅ движение объекта, отвечающее реализации us (⋅), s =1,2, . Тогда справедлива оценка
tT x( )t − xs ( )t ∫ X t[ ,τ]B( )τ τ⎣⎡U ( )−us ( )τ τ⎤⎦d ≤ M ∫ U ( )τ −us ( )τ τd ,t0t0
t ∈[t T0, ], M = const .
Из нее следует, что последовательность функций ϕs (⋅), определенных формулой
ϕs ( )t =
x t( )− xs (t) , t∈[t T0, ], s =1,2,равномерно сходится к нулю на отрезке времени [t T0, ].
Таким образом, любое движение динамического объекта можно рассматривать как равномерный предел движений объекта, порожденных соответствующими допустимыми реализациями вектора управляющих воздействий. При этом оно принадлежит классу абсолютно непрерывных на промежутке [t T0, ] функций и удовлетворяет на нем дифференциальному уравнению x = A t x( ) +B t U t( ) ( )+C t( )
почти всюду.
1.8. Постановка и существование решения задачи теории оптимального управления. Пусть заданы дифференциальные уравнения (1.2) движения динамического объекта, критерий качества (6.1), множество начальных и конечных моментов времени θ0 ⊂ R1, θ1 ⊂ R1, infθ0 ≤ sup, θ1 , область изменения вектора управляющих параметров P ⊂ Rr , ограничения на левый конец S0 ( )t0 ⊂ Rn, t0 ∈θ0 и правый конец S T1( ), T ∈θ1 фазовой траектории динамического объекта, и допустимая программная стратегия U (⋅).
Определение 10. Набор (t T x U0, , 0, ( )⋅ ,x( )⋅ ) назовем допустимым, если t0 ∈θ0 , T ∈θ1, t0 <T, x( )⋅ = x(⋅,t x U0, 0, ( )⋅ ), x0 ∈S0(t0), x(T)∈S1(T) .
На множестве допустимых наборов посредством формулы (6.1) определим функционал I :(t T x U0, , 0, ( )⋅ , x( )⋅ ) → I t T x U[ 0, , 0, ( )⋅ , x( )⋅ ] и поставим следующую задачу.
Задача 1. Определить допустимый набор
такой, что длялюбого другого допустимого набора (t T x U0, , 0, ( )⋅ ,x( )⋅ ) выполнялось бы неравенство
I ⎡⎣t
T x U x ⎤⎦ I t T x U x .Допустимый набор
назовем решением задачи оптимальногоуправления, U 0 ( )⋅ – оптимальной программной стратегией, x0()⋅ – оптимальной траекторией. В задаче 1 требуется минимизировать функционал I . Случай максимизации функционала сводится к эквивалентной задаче минимизации функ-
ционала − I .
Сформулированная задача 1 оптимального управления динамическим объектом не всегда имеет решение. Покажем это на примере.
Пример 10. Рассмотрим управляемый динамический объект
1 ⎧⎫x = u, x∈R , u∈ −[ 1,1 ,] θ0 ={ }0 , θ1 = (0,+∞) , S0 ={ }0 , S1 ( )T = ⎨x= 0, T ∈θ1⎬,
I[T,u(⋅)]= x(T). 1 Очевидно, что I T U⎡⎣ , ( )⋅ ⎤⎦ = T > 0. Для каждого Tˆ > 0 положим | |
⎧0, ⎪ u ˆ ( )t = ⎨ T ⎪⎩1 | t ∈⎡t T0, ˆ⎤ , ⎣ ⎦ t >Tˆ. |
нию uTˆ (⋅), изображена на рис. 7.
Момент времени T окончания процесса в данном случае удов-
летворяет неравенству T >Tˆ , и
Рис. 7 1 1 поэтому < . Выбирая вели-T Tˆ
чину Tˆ достаточно большой, значение функционала I T u⎡⎣ ˆ, Tˆ ( )⋅ ⎦⎤ =
T1ˆ можно сделать сколь угодно малым. Однако программной стратегии U ( )⋅ , для которой I T U⎡⎣ , ( )⋅ ⎤⎦ = 0, не существует в классе L t Trp [ 0, ], p ∈[1,∞]. Отсюда заключаем, что рассматриваемая задача оптимального управления решения не имеет. Для задачи теории оптимального управленияx = A t x( ) + B t u( ) +C t( ),
t
t T t t t T T T t T ,x∈Rn, u∈P ⊂ Rr , x0 ∈S0 (t0 ) , t0 ∈θ0, x T( )∈S T1 ( ) , T ∈θ1 ,
I[t0,T, x0,u(⋅), x(⋅)]= Φ(t0,T, x0, x(T))
выведем достаточные условия существования ее решения в классе интегрируемых по Лебегу программных стратегий.
Теорема 5 (существование решения задачи теории оптимального управления).
Пусть выполнены следующие предположения:
1) множество P ⊂ R r компактно и выпукло;
2) множество Ξ = {e = (t0 ,T, x0 ,xT)
x0 ∈ S0 (t0 ), xT ∈ S1(T), t0 ∈θ0 , T ∈θ1}⊂ R2(n+1) компактно;