Morzhin o., november 03, 2011

Моржин Олег Васильевич

Методы нелокального
улучшения управлений
в классах нелинейных систем

Специальность
05.13.01 – Системный анализ, управление и обработка информации
(в отраслях информатики, вычислительной техники и автоматизации)
Доклад по диссертации
на соискание ученой степени кандидата физико-математических наук

Научный руководитель: Булдаев А.С., д.ф.-м.н., проф.
(ФГБОУ ВПО Бурятский государственный университет )
Научный консультант: Тятюшкин А.И., д.т.н., проф., зав. лаб.
(Институт динамики систем и теории управления СО РАН)

Моржин О.В. (спец. 05.13.01) Методы нелокального улучшения ... ИПУ РАН, 03.11.2011 1 / 25

2 Классы задач оптимального управления

Непрерывная задача оптимального управления

t1
I(σ) = F (x(t1 )) + f 0 (t, x(t), u(t)) dt → inf , (1)
t0 D

x(t) = f (t, x(t), u(t)) , x(t0 ) = x0 ,
˙ (2)
m
u(t) ∈ U ⊆ E , t ∈ T = [t0 , t1 ], σ = (x(·), u(·)) ∈ D. (3)

Дискретная задача оптимального управления

t1 −1
I(σ) = F (x(t1 )) + f 0 (t, x(t), u(t)) → inf , (4)
t=t0 D

x(t + 1) = f (t, x(t), u(t)) , x(t0 ) = x0 , (5)
m
u(t) ∈ U ⊆ E , t ∈ {t0 , t0 + 1, ..., t1 − 1}, σ = (x(·), u(·)) ∈ D. (6)


3 Классы задач оптимального управления
Непрерывная задача с управляющими параметрами

t1
I(σ) = F (x(t1 ), w) + f 0 (t, x(t), w) dt → inf , (7)
t0 D

x(t) = f (t, x(t), w) , x(t0 ) = a, t ∈ T = [t0 , t1 ],
˙ (8)
z n
w ∈ W ⊆ E , a ∈ A ⊆ E , σ = (x(·), w, a) ∈ D. (9)

Непрерывная задача с управляющими функциями и параметрами

t1
I(σ) = F (x(t1 ), w) + f 0 (t, x(t), u(t), w) dt → inf , (10)
t0 D

x(t) = f (t, x(t), u(t), w) , x(t0 ) = a,
˙ (11)
u(t) ∈ U ⊆ E m , t ∈ T = [t0 , t1 ],
(12)
w ∈ W ⊆ E z , a ∈ A ⊆ E n , σ = (x(·), u(·), w, a) ∈ D.

4 Цель диссертационного исследования

Задача улучшения заданного процесса σ I = xI (·), uI (·) ∈ D
Требуется вычислить процесс σ II = xII (·), uII (·) ∈ D такой, что
приращение
∆I(σ II ) = I(σ II ) − I(σ I ) ≤ 0.

• Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. М.:
Наука, 1973.
• Krotov V.F. Global methods in optimal control theory. New York: Marcel Dekker,
1996.

Цель исследования
– разработка проекционных методов нелокального улучшения управ-
ляющих функций и параметров в определенных классах нелинейных
дифференциальных и дискретных систем в развитие и обобщение
проекционного подхода.

5 Основные задачи диссертационного исследования

Основные задачи исследования
1. Разработка проекционных методов нелокального улучшения
управляющих функций и параметров в непрерывных и дискретных
задачах оптимального управления со свободным правым концом.

2. Построение итерационных алгоритмов для реализации функцио-
нальных условий улучшения в пространстве управлений. Получение
условий сходимости последовательных приближений.

3. Разработка вычислительной технологии для решения рассмат-
риваемых классов задач оптимального управления. Сравнительный
анализ предложенных методов улучшения.


6 Класс задач оптимизации управляющих функций в
дифференциальных системах

Непрерывная задача оптимального управления

t1
I(σ) = F (x(t1 )) + f 0 (t, x(t), u(t)) dt → inf ,
t0 D

x(t) = f (t, x(t), u(t)) , x(t0 ) = x0 ,
˙
u(t) ∈ U ⊆ E m , t ∈ T = [t0 , t1 ], σ = (x(·), u(·)) ∈ D.

Задача улучшения заданного процесса σ I = (xI (·), uI (·)) ∈ D
Требуется вычислить процесс σ II ∈ D такой, что приращение

∆I(σ II ) = I(σ II ) − I(σ I ) ≤ 0.


7 Метод нелокального улучшения

Точная формула для приращения целевого функционала и
дифференциально-алгебраическая сопряженная система

∆I(σ) = I(σ) − I(σ I ) =
t1
(13)
=− Hu (t, p(t), x(t), uI (t)) + d(t), ∆u(t) dt, σ, σ I ∈ D;
t0

p(t) = −Hx (t, p(t), xI (t), uI (t)) − r(t), p(t1 ) = −Fx (xI (t1 )) − q, (14)
˙
H(t, p(t), x(t), uI (t)) − H(t, p(t), xI (t), uI (t)) =
(15)
= Hx (t, p(t), xI (t), uI (t)), ∆x(t) + r(t), ∆x(t) ,
F (x(t1 )) − F (xI (t1 )) = Fx (xI (t1 )), ∆x(t1 ) + q, ∆x(t1 ) , (16)
H(t, p(t), x(t), u(t)) − H(t, p(t), x(t), uI (t)) =
(17)
= Hu (t, p(t), x(t), uI (t)) + d(t), ∆u(t) ,

где ∆u(t) = u(t) − uI (t), ∆x(t) = x(t) − xI (t), t ∈ T .

Обобщенный лагранжиан (В.Ф. Кротов) для задачи (1) – (3)

t1
L(σ) = G(x(t1 )) − R(t, x(t), u(t))dt,
t0
G(x) = F (x) + ϕ(t1 , x) − ϕ(t0 , x0 ),
R(t, x, u) = ϕx (t, x), f (t, x, u) − f 0 (t, x, u) + ϕt (t, x).
∆L(σ) = L(σ) − L(σ I )≡ ∆I(σ), σ, σ I ∈ D.

Линейная по x функция ϕ(t, x) в задаче улучшения
ϕ(t, x) = p(t), x , t ∈ T.

Моржин О.В. Нелокальное улучшение нелинейных управляемых процессов
на основе достаточных условий оптимальности // Автоматика и телемеха-
ника. 2010. № 8. С. 24–37.



Условие улучшения процесса σ I = (xI (·), uI (·)) ∈ D в форме
дифференциально-алгебраической краевой задачи

x(t) = f (t, x(t), uα (t, p(t), x(t))), x(t0 ) = x0 ,
˙ (18)
I I I
p(t) = −Hx (t, p(t), x (t), u (t)) − r(t), p(t1 ) = −Fx (x (t1 )) − q, (19)
˙
H(t, p(t), x(t), uI (t)) − H(t, p(t), xI (t), uI (t)) =
(20)
= Hx (t, p(t), xI (t), uI (t)), ∆x(t) + r(t), ∆x(t) ,
F (x(t1 )) − F (xI (t1 )) = Fx (xI (t1 )), ∆x(t1 ) + q, ∆x(t1 ) , (21)
H(t, p(t), x(t), uα (t, p(t), x(t))) − H(t, p(t), x(t), uI (t)) =
(22)
= Hu (t, p(t), x(t), uI (t)) + d(t), uα (t, p(t), x(t)) − uI (t) ,

где обобщенное проекционное отображение

uα (t, p, x) = PU uI (t) + α(Hu (t, p, x, uI (t)) + d(t)) ,
(23)
α > 0, t ∈ T.

Выходное управление и мажорирующая оценка

uα (t) = uα (t, p(t), x(t)), α > 0, t ∈ T. (24)

На процессе σα = (xα (·), uα (·)) ∈ D справедлива мажорирующая
оценка, при помощи которой обосновывается свойство улучшения:

1 t1 2
∆I(σα ) ≤ − uα (t) − uI (t) dt ≤ 0, α > 0. (25)
α t0

Условие улучшения σ I ∈ D в форме уравнения в пространстве (u)
Вводятся оператор Aα : u → uα , u ∈ V , и уравнение

u = Aα (u), u ∈ V. (26)

Уравнение (26) задано неявно, может иметь неединственное решение.

11 Условие оптимальности в терминах краевой задачи
улучшения (18) – (22)
Множество управлений на выходе процедуры улучшения
V α (uI ) = u ∈ V : u(t) = uα (t, p(t), x(t)), t ∈ T .

Усиленное условие оптимальности (с опорой на мажорирующую
оценку (25))
Если управление uI ∈ V оптимальное, то V α (uI ) = uI для всех
α > 0.
Комментарий. Если управление uI ∈ V оптимальное, верно следующее:
1) улучшаемое управление uI удовлетворяет дифференциальному прин-
ципу максимума, при этом uI ∈ V α (uI ) ∀α > 0;
2) выходное управление uα = uI ∀α > 0 с учетом мажорирующей оценки
1 t1 2
∆I(σα ) ≤ − uα (t) − uI (t) dt ≤ 0, α > 0.
α t0


12 Модификации метода нелокального улучшения
τ -модификация
Вводятся параметризованная зависимость

uα,τ (t) = PU (u(t) + τ (uα (t) − u(t))), τ = 0, t ∈ T, (27)

оператор Aα,τ : u → uα,τ , u ∈ V , и неявно заданное уравнение

u = Aα,τ (u), u ∈ V. (28)

На выходном процессе σα,τ справедлива мажорирующая оценка

1 t1
∆I(σα,τ ) ≤ − uα,τ (t) − uI (t) 2 dt ≤ 0, α > 0. (29)
α t0

Моржин О.В. Методы нелокального улучшения управлений дифференциальными и
дискретными системами // Управление, информация и оптимизация: Сб. тр. II Все-
российской традиционной молодежной летней школы. М.: ИПУ РАН, 2010. С. 81–87.


13 Модификации метода нелокального улучшения

Фазовая модификация
Рассматривается целевой критерий с фазовым отклонением:
t1
I γ (σ I , σ) = I(σ) + γ1 Λ∆x(t1 ) 2 + γ2 Ξ∆x(t) 2 dt → inf ,
t0 D (30)
γ1 ≥ 0, γ2 ≥ 0; λi,i , ξi,i ∈ {0, 1}, i = 1, n.

Для исходного целевого функционала I справедлива точная
формула приращения в терминах (30):
t1
∆I(σ) = −γ1 Λ∆x(t1 ) 2 − γ2 Ξ∆x(t) 2 dt−
t0
t1 (31)
− Hu (t, pγ (t), x(t), uI (t)) + dγ (t), ∆u(t) dt,
t0
γ1 ≥ 0, γ2 ≥ 0.


14 Пример 1: улучшение управления, удовлетворяющего
принципу максимума Л.С. Понтрягина

π
I(σ) = u2 (t) − x2 (t) dt → inf ,
0 D
x(t) = u(t), x(0) = 0, u(t) ∈
˙ E1, t ∈ [0, π], uI (t) ≡ 0.

x(t) = uα (t, x(t), p(t)), x(0) = 0, p(t) = −r(t),
˙ ˙
p(π) = 0, r(t)x(t) = (x(t))2 ,
uα (t, p(t), x(t)) p(t) − uα (t, p(t), x(t)) = p(t) + d(t) uα (t, p(t), x(t)),

где uα (t, p, x) = uI (t) + α p − 2uI (t) + d(t) = α(p + d(t)), α > 0.

C t 3C 2 π
uII (t) = cos , t ∈ [0, π], I(σ II ) = − <I(σ I ) = 0, C = 0.
4 2 32

15 Алгоритмы последовательных приближений

Итерационный процесс для уравнения u = Aα (u), u ∈ V

u(k+1) = Aα u(k) , u(k) ∈ V, k ≥ 0, (32)
u(k+1) (t) = PU uI (t)+
+α(Hu (t, p(k) (t), x(k) (t), uI (t)) + d(k) (t)) , (33)
α > 0, t ∈ T, k ≥ 0,

Итерационный процесс для уравнения u = Aα,τ (u), u ∈ V

u(k+1) = Aα,τ u(k) , u(k) ∈ V, k ≥ 0, (34)
(k)
u(k+1) (t) = PU u(k) (t) + τ (uα (t) − u(k) (t)) ,
(k) (35)
uα (t) = uα (t, p(k) (t), x(k) (t)),
τ = 0, t ∈ T, k ≥ 0.


Условия сходимости процесса (32) (u(k+1) = Aα u(k) )
Пусть U ⊂ E m – выпуклое компактное множество.
Теорема 1. Пусть в задаче (1) – (3) выполняется условие Липшица

Hu (t, p, x, u) − Hu (t, p, x, u) E m ≤ C ( p − p E n + x − x En )
∀ x, x ∈ X, p, p ∈ P, C > 0,

где X, P – выпуклые компактные множества, в совокупности ограничива-
ющие семейства фазовых и сопряженных траекторий: x(t) ∈ X, p(t) ∈ P ,
t ∈ T . Тогда при достаточно малом α > 0 итерационный процесс

u(k+1) = Aα u(k) , u(k) ∈ V, k ≥ 0,

сходится в Lm (T )-норме к решению uII ∈ V операторного уравнения
1

u = Aα (u), u ∈ V.



Условия сходимости процесса (34) (u(k+1) = Aα,τ u(k) )
Теорема 2. В условиях теоремы 1 при достаточно малом α > 0 с
0 < τ < 2 итерационный процесс

u(k+1) = Aα,τ u(k) , u(k) ∈ V, k ≥ 0,

сходится в Lm (T )-норме к решению uII ∈ V операторного уравнения
1

u = Aα,τ (u), u ∈ V.


18 Вычислительные эксперименты

Разработка программного обеспечения предложенных в диссертации
проекционных методов нелокального улучшения (в среде програм-
мирования Microsoft Visual Studio 2008/2010).
Сравнительный анализ эффективности новых методов улучшения на
серии модельных задач оптимального управления:
• оптимальная стабилизация маятниковых систем;
• стабилизация шагового электродвигателя при минимальных
энергозатратах;
• оптимальная стабилизация спутника c тремя реактивными
двигателями;
• оптимизация управления потоком хладагента в химическом
реакторе;
• максимизация массы выходного продукта химической реакции;
• перевод нелинейной системы на заданное целевое множество из
авиационной проблематики;
• вспомогательные задачи в алгоритмах аппроксимации множеств
достижимости нелинейных управляемых систем.


Пример 2. Оптимальная стабилизация электродвигателя

I(σ) = x3 (0.05) → inf , T = [0, 0.05],
D
x1 = x2 , x1 (0) = π/3,
˙
x2 = −ax2 − b u1 sin(2x1 ) + u2 sin 2x1 + 2π/3 +
˙
+u3 sin 2x1 − 2π/3 , x2 (0) = 0,
x3 = x2 + c(u1 + u2 + u3 ), x3 (0) = 0,
˙ 1
ui (t) ∈ [0, 16], t ∈ T, i = 1, 3, a = 50, b = 1000, c = 0.001.

Начальное приближение uI (t) ≡ 0 на первой итерации внешнего
цикла. Применена τ -модификация с α = 120, τ = 0.6.

Моржин О.В. Вычислительные аспекты нелокального улучшения управлений в диф-
ференциальных системах // Программные системы: теория и приложения. 2011. № 2.
http://psta.psiras.ru/read/psta2011_2_37-51.pdf.


Метод Значение I Задачи Коши
МУГ 0.00817 617
МУК-1 0.00988 410
МУК-2 0.00792 287
МПВ 0.00779 309
τ -ПМНУ 0.00779 263

• МУГ – метод условного градиента;
• МУК-1 – метод условного квазиградиента 1-го порядка;
• МУК-2 – метод условного квазиградиента 2-го порядка;
• МПВ – метод проекционных возмущений, т.е. градиентный метод с
фиксированным параметром проектирования;
• τ -ПМНУ – τ -модификация проекционного метода нелокального
улучшения с фиксированными параметрами α, τ .


Моржин О.В., Тятюшкин А.И. Алгоритм метода сечений и программные
средства для построения множеств достижимости // Известия РАН. Теория
и системы управления. 2008. № 1. С. 5–11.

Пример 3. Аппроксимация границы множества разрешимости
W(0, 2, M) нелинейной управляемой системы
Управляемая система (маятник):

x1 = x2 , x2 = −0.075x2 − 10.15 sin x1 + u,
˙ ˙
(36)
u(t) ∈ [−10, 10], t ∈ [0, 2].

Целевое множество: M = (0, 0). Типовая задача оптимального
управления в алгоритме аппроксимации:

I(σ) = x1 (2) + ρ (x2 (2) − x2 )2 → inf, x2 = 0, ρ := 10, (37)
x1 = −x2 , x2 = 0.075x2 + 10.15 sin x1 − u,
˙ ˙
(38)
x1 (0) = 0, x2 (0) = 0, u(t) ∈ [−10, 10], t ∈ [0, 2].


Тятюшкин А.И., Моржин О.В. Численное исследование множеств
достижимости нелинейных управляемых дифференциальных систем //
Автоматика и телемеханика. 2011. № 6. С. 160–170.

24 Основные положения, выносимые на защиту

1. Разработаны проекционные методы нелокального улучшения
управляющих функций и параметров в определенных классах нели-
нейных непрерывных и дискретных задач оптимального управления со
свободным правым концом траектории.

2. Получено новое необходимое условие оптимальности управля-
ющих функций, усиливающее дифференциальный принцип максимума
в одном классе задач оптимального управления.

3. Построены итерационные алгоритмы для решения условий
улучшения управлений. Получены условия сходимости. Проведен
сравнительный анализ предложенных методов в вычислительных
экспериментах.


25 Апробация результатов исследования

Результаты диссертации докладывались на различных научных
мероприятиях в 2006 – 2011 гг., включая молодежные школы
Управление, информация и оптимизация ИПУ РАН в 2009 – 2011 гг.

По новым методам нелокального улучшения и их применению
опубликованы статьи в журналах Автоматика и телемеханика ,
Известия РАН. Теория и системы управления , в т.ч.:
• Моржин О.В. Нелокальное улучшение нелинейных управляемых
процессов на основе достаточных условий оптимальности // Автома-
тика и телемеханика. 2010. № 8. С. 24–37.
• Тятюшкин А.И., Моржин О.В. Численное исследование множеств
достижимости нелинейных управляемых дифференциальных систем
// Автоматика и телемеханика. 2011. № 6. С. 160–170.

Спасибо за внимание!

Morzhin o., november 03, 2011

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (19)

Similar to Morzhin o., november 03, 2011

Similar to Morzhin o., november 03, 2011 (20)

Morzhin o., november 03, 2011