Смекни!
smekni.com

Постановка задачі оптимального стохастичного керування (стр. 2 из 3)

Керування

,
, називається марковською позиційною стратегією (стратегією, кожний елемент якої залежить тільки від поточного стану системи).

Керування

,
, називається напівмарковською позиційною стратегією (стратегією, кожний елемент якої залежить тільки від поточного і початкового станів системи).

Марковські та напівмарковські позиційні стратегії використовуються найчастіше.

Зрозуміло, що в загальному випадку кінцевий стан системи

, згідно з формулою (2)
,
, залежить від початкового стану
, керувань
і збурень
. Щоб переконатися в цьому, досить виразити в (2)
через
, потім
через
і т.д. Якщо ці перетворення можливо провести, то одержимо співвідношення
. Це означає, що різним реалізаціям випадкового збурення
для одного початкового стану
відповідатимуть різні оптимальні стратегії керування
.

4 Формальна постановка задачі оптимального стохастичного керування

Розглянемо систему (2) із цільовим функціоналом (3). Надалі, якщо інше не обговорено спеціально, будемо вважати, що оптимальні керування на кожному кроці позиційні:

,
і
,
.

За таких умов задача оптимального стохастичного керування полягає в пошуку оптимальної послідовності функцій керування

, (тобто стратегії керування), що мінімізує сумарні витрати за увесь час функціонування системи.

Формальна постановка задачі оптимального стохастичного керування зі скінченним горизонтом у дискретному випадку має вигляд:

, (4)

. (5)

Розв’язання задачі оптимального стохастичного керування з нескінченним горизонтом полягає в пошуку послідовності керувань

, які мінімізують сумарні витрати.

Формальна постановка задачі оптимального стохастичного керування з нескінченним горизонтом у дискретному випадку має вигляд:

, (6)

. (7)

Далі під час розв’язання задач оптимального керування вважатимемо, що границя у (6) існує для всіх

і
.

Будемо розглядати задачі (4) – (5) і (6) – (7) у стаціонарному випадку, тобто припускатимемо, що простори станів і керувань

і
, обмеження керування
, функція
і витрати
не змінюються при переході від кожного кроку до наступного. Якщо ж це не так, то задача є нестаціонарною. Нестаціонарна задача може бути зведена до стаціонарної за допомогою спеціальних методів, тому далі мова йтиме тільки про стаціонарні задачі.

Зупинимося детальніше на позначеннях, зроблених вище.

Визначення. Функція

називається функцією витрат за
кроків при стратегії
в задачі зі скінченним горизонтом
. Аналогом цієї величини для задачі з нескінченним горизонтом є функція
– функція витрат при стратегії
.

Для фіксованого стану

позначимо через
і
оптимальні витрати в цих задачах, тобто

,

.

Якщо останні співвідношення вірні для всіх

, то функція
називається оптимальною функцією витрат за
кроків, а
– оптимальною функцією витрат.

Стратегія

називається оптимальною при горизонті
в стані
, якщо

,

і оптимальною в стані

, якщо

.

Стратегія

називається оптимальною при горизонті
, якщо
. Це означає, що стратегія
доставляє оптимальне значення цільовому функціоналу при всіх
.

Аналогічно, стратегія

називається оптимальною, якщо

. (8)

Стратегія

називається рівномірно оптимальною при горизонті
, якщо стратегія
оптимальна при горизонті
для всіх
. Отже, якщо стратегія рівномірно оптимальна при горизонті
, то вона також оптимальна при горизонті
. Зворотне твердження в загальному випадку невірно.

Стратегія

називається стаціонарною стратегією, якщо
.

Якщо у цьому випадку значення цільового функціонала

в задачі оптимального стохастичного керування з нескінченним горизонтом отримано з використанням стаціонарної стратегії
, то результат позначають
. Отже, стаціонарна стратегія
у задачі з нескінченним горизонтом оптимальна, якщо
. Тут
– оптимальне значення цільового функціонала задачі.