連続最適化勉強会

第4回連続最適化勉強会
@shima_x

Agenda
• 準ニュートン法
• 記憶制限準ニュートン法
• 信頼領域法
• おまけ：制約なし vs 制約付き

7章準ニュートン法(Quasi-Newton's method)

準ニュートン法の特徴
• 最急降下法の「⼤域的収束性=探索⽅向が降下⽅向」とニュートン法の「局所的に
⾼速な収束性」の⻑所を併せ持つ解法
• ニュートン法の探索⽅向が降下⽅向ではないのは、ヘッセ⾏列(Hessian)が正定値
⾏列であるとは限らないため
• 修正ニュートン法では単位⾏列の定数倍を加算して正定値化
• 準ニュートン法ではヘッセ⾏列を正定値⾏列𝐁 𝒌で近似
• この𝑩$は点xkの周りの距離構造を定める⾏列（可変計量という）
• 𝑩$の更新には勾配の変化量、近似解の変化量を使⽤
• ただし、𝑩$を保存する必要があるので、共役勾配法などと⽐べるとメモリ使⽤量
などで不利

⻑所・短所
• ⻑所
• ヘッセ⾏列を計算する必要がない
• Bkは正定値⾏列なのでｄkは常に⽬的関数の降下⽅向になる
• 短所
• ニュートン法と同じく初期値依存性
（B0を適切に選べば超１次収束する。）
-> ヘッセ⾏列の近似が上⼿くいっているかに関係(?)

Notation
𝑓 𝑥$ : ⽬的関数
𝐵$: ヘッセ⾏列の近似⾏列
𝐻$: 𝐵$の逆⾏列
𝑑$: 探索⽅向
𝑠$ = 𝑥$-. − 𝑥$ ∶ 近似解の変化量
𝑦$ = 𝛻𝑓(𝑥$-.) − 𝛻𝑓(𝑥$) + 𝑂( 𝑥$ − 𝑥$-.
8
) ∶勾配の変化量

やってること
• ⽬的関数f(xk +d)の最⼩化
𝑓 𝑥$ + 𝑑 ≡ 𝑓 𝑥$ + 𝛻𝑓 𝑥$
> 𝑑 +
.
8
𝑑>
𝛻8 𝑓 𝑥$ 𝑑
の 𝛻8 𝑓(𝑥$)を正定値⾏列𝐵$で近似した
𝑓 𝑥$ + 𝑑 ≡ 𝑓 𝑥$ + 𝛻𝑓 𝑥$
> 𝑑 +
.
8
𝑑>
𝛻8 𝐵$ 𝑑 (7.1)
を最⼩化

セカント条件(Secant conditions)
• どのようにBkの正定値性を保証しているか？
- セカント条件でヘッセ⾏列を近似した⾏列Bkを計算
（この条件だけでは，Bk を 1 つに特定することはできない）
𝐵$-. 𝑠$ = 𝑦$
- 正定値⾏列であるためには𝑠$ ≠ 0のとき𝑠$
>
𝑦$ > 0が必要
- この条件は、αの探索条件にウルフ条件を⽤いることで保証される
- Bkの逆⾏列Hkを考えた場合も正定値⾏列であるので同様に計算が可能なため割愛
𝒔 𝒌 = 𝑩 𝒌-𝟏
G𝟏
𝒚 𝒌で
sk(=αdk)を求めたいので
直接Hkを近似すれば⼿間省けるのでは？
というアイデア

セカント条件
• セカント条件とは
- 意味的には近似解の変化量とヘッセ⾏列の近似⾏列の内積で勾配の変化量を近似出来るという
条件（Bk+1がsk⽅向で𝛻8 𝑓 𝑥$-. を近似しているという制約）
• 導出
- 勾配𝛻𝑓 𝑥$ を𝑥$-.まわりでテーラー展開(後ほど𝛿 = 𝑥$-. − 𝑥$とおいて計算)
𝛻𝑓 𝑥$-. + 𝛿 = 𝛻𝑓 𝑥$-. + 𝛻8 𝑓 𝑥$-. 𝛿 + 𝑂( 𝛿
8
)
𝛻8 𝑓 𝑥$-. 𝛿 = 𝛻𝑓 𝑥$-. − 𝛻𝑓 𝑥$-. + 𝑥$ − 𝑥$-. + 𝑂( 𝑥$-. − 𝑥$
8
)
𝛻8 𝑓 𝑥$-. 𝑥$-. − 𝑥$ = 𝛻𝑓 𝑥$-. − 𝛻𝑓 𝑥$ + 𝑂( 𝑥$-. − 𝑥$
8
)
𝛻8 𝑓 𝑥$-. 𝑠$ = 𝑦$ + 𝑂( 𝑠$
8
)
これをBkで近似

代表的な⼿法
• セカント条件と正定値性を満たす公式としてBFGS公式とDFP公式の2つが代表的
- ただし、DFPは厳密な直線探索が必要なため⽤いられることは少ない
- 厳密な直線探索とはf(xk+1)=f(xk+αkdk)を最⼩にするαkを求めること
• BFGSでのBの更新
𝐵$-. = 𝐵$ −
JKLKLK
M
JK
LK
MJKLK
+
NKNK
M
LK
MNK
• Bk -> Bk+1更新時の正定値性の継承
P110 定理7.2の証明を参照

BFGS公式のアルゴリズム
Step0: 初期点x0, 初期⾏列B0（通常単位⾏列）, k=0とおく
Step1: 連⽴1次⽅程式𝐵$ 𝑑$ = −𝛻𝑓(𝑥$)を解いて探索⽅向dkを求める
Step2: ウルフ条件(Wolf conditions)を⽤いた直線探索でステップ幅αを求める
Step3: 𝑥$-. = 𝑥$ + 𝛼𝑑$
Step4: 停⽌条件が満たされれば終了
Step5: 𝑠$ = 𝑥$-. − 𝑥$ , 𝑦$ = 𝛻𝑓(𝑥$-.) − 𝛻𝑓(𝑥$)を計算
Step6: 𝐵$-. = 𝐵$ −
JKLKLK
M
JK
LK
MJKLK
+
NKNK
M
LK
MNK
Step7: k:=k+1とおいてStep1へもどる

BFGS公式を⽤いた準ニュートン法の性質
• 強凸2次関数が対象の場合
- B0=Iと選び適切な直線探索を⾏う
- そうすれば（次元数nの場合）⾼々n回の反復で最適解に到達する
- つまり共役勾配法と同じ点列を⽣成する

BFGS公式以外のBの更新式
• セカント条件を満たして、正定値性を継承する更新式は数多く提唱されている
• Bkに最も近い⾏列をBk+1とするものもある
-> 正定値⾏列の近接的更新
• その際の近さを測る基準にKLダイバージェンス(KL divergence)を⽤いたものが
ある
-> 本書で説明されているもの
• 説明は割愛

7.4節記憶制限付き準ニュートン法
(Quasi-Newton method with memory restriction)

モチベーション
• ⾏列更新の際の計算量を削減したい
• 計算機の記憶容量を削減したい
-> ⾏列Bkを近似すればいいんじゃない？
-> Bkを⾏列ではなく数本のベクトルで表現（L-BFGS法）
t期前の情報だけ保存

導出
• B-1であるHを⽤いたBFGS法のk回⽬の反復(P110 式(7.3)のH式を使⽤)
𝐻$ = 𝐻$G. −
TKUVNKUVLKUV
M
-LKUVNKUV
M
TKUV
LKUV
M NKUV
+ 1 +
NKUV
M
TKUVNKUV
LKUV
M NKUV

LKUVLKUV
M
LKUV
M NKUV
= 𝐼 −
NKUVLKUV
M
LKUV
M NKUV
>
𝐻$G. 𝐼 −
NKUVLKUV
M
LKUV
M NKUV
+
LKUVLKUV
M
LKUV
M NKUV
ここで、𝑉Y = 𝐼 −
NZLZ
M
LZ
MNZ
とおくと
𝐻$ = 𝑉$G.
>
𝐻$G. 𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
𝐻$G. = 𝑉$G8
>
𝐻$G8 𝑉$G8 +
LKU[LKU[
M
LKU[
M NKU[
代⼊

導出
• 先程のHk-1をHkの式に代⼊する操作をH0まで繰り返す
𝐻$ = 𝑉 𝑉. ⋯ 𝑉$G8 𝑉$G.
> 𝐻 𝑉 𝑉. ⋯ 𝑉$G8 𝑉$G.
+ 𝑉. 𝑉8 ⋯ 𝑉$G8 𝑉$G.
> L^L^
M
L^
MN^
𝑉. 𝑉8 ⋯ 𝑉$G8 𝑉$G.
⋮
+ 𝑉$G8 𝑉$G.
> LKU`LKU`
M
LKU`
M NKU`
𝑉$G8 𝑉$G.
+𝑉$G.
> LKU[LKU[
M
LKU[
M NKU[
𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
H0は正定値対称な初期⾏列
このままでは通常の準ニュートン法と変わらない

導出
• 過去t回分のみを保存して更新して計算をサボる(Nocedal 1980)
𝐻$ = 𝑉$Ga 𝑉$GaG. ⋯ 𝑉$G8 𝑉$G.
> 𝐻$

𝑉$Ga 𝑉$GaG. ⋯ 𝑉$G8 𝑉$G.
+ 𝑉$GaG. 𝑉$GaG8 ⋯ 𝑉$G8 𝑉$G.
> L^L^
M
L^
MN^
𝑉$GaG. 𝑉$GaG8 ⋯ 𝑉$G8 𝑉$G.
⋮
+ 𝑉$G8 𝑉$G.
> LKU`LKU`
M
LKU`
M NKU`
𝑉$G8 𝑉$G.
+𝑉$G.
> LKU[LKU[
M
LKU[
M NKU[
𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
t期前までを使⽤
形状の推定にはt期前までの情報で⼗分(？)
適当な初期⾏列で置き換える

導出
ここで、
𝑉Y = 𝐼 −
NZLZ
M
LZ
MNZ
𝐻$

=
LKUV
M
NKUV
NKUV
M NKUV
𝐼
だったので、sとyのみを保存しておけばHを計算できる
それがt期分必要なので、2t個のベクトルを保存しておくだけでよい
最適化対象の変数の次元nが数千であっても
通常tは10程度で設定するため、
⼤幅な時空間計算量の削減が可能

アルゴリズム(探索⽅向dkの計算)
⼊⼒: si, yi(i=k-1,..., k-m)
Step0: 初期⾏列𝐻$

（対⾓⾏列）を定める。 𝑞 ← 𝛻𝑓 𝑥$ とする。
Step1: i=k-1,..., k-mとして以下を反復:
(a) 𝜏Y ← 𝑐Y 𝑠Y
>
𝑞
(b) 𝑞 ← 𝑞 − 𝜏Y 𝑦Y(= 𝑉Y 𝑞)
ただし、𝑐Y =
.
LZ
MNZ
Step2: d ← 𝐻$

𝑞
Step3: i=k-m,..., k-1として以下を反復:
d ← 𝑑 − 𝑐Y 𝑦Y
>
𝑑 𝑠Y + 𝜏fsf = 𝑉Y
h
d + 𝜏fsf

アルゴリズム(L-BFGS全体)
Step0: 初期点x0, 初期⾏列H0（通常単位⾏列）, k=0とおく
Step1: 前に⽰したアルゴリズムを使⽤して探索⽅向dkを求める
Step2: ウルフ条件(Wolf conditions)を⽤いた直線探索でステップ幅αkを求める
Step3: 𝑥$-. = 𝑥$ + 𝛼$ 𝑑$
Step4: 停⽌条件が満たされれば終了
Step5: 𝑠$ = 𝑥$-. − 𝑥$ , 𝑦$ = 𝛻𝑓(𝑥$-.) − 𝛻𝑓(𝑥$)を計算して保存

7.5節ヘッセ⾏列の疎性の利⽤

概要
• 時間/空間計算量の削減にヘッセ⾏列の疎性を利⽤
• しかし、ヘッセ⾏列の逆⾏列が疎であるとは限らない
• 疎性を利⽤して準ニュートン法のBFGS公式のH式の更新則を使うには⼯夫が必要
• まだ疎性の保存で疲弊してるの？これ、グラフ理論使えば出来ますよ？
詳細説明は割愛

概要
• ニュートン法は局所的に収束が速いが降下⽅向を⽣成するとは限らない
• したがってそのままでは直線探索が利⽤出来ない
• 最⼩化対象の近似2次関数が信頼出来る範囲内で直線探索すればいいのでは？
-> 信頼領域法は今までみてきた⼿法とは順序が逆のことをやっている
（直線探索法は降下⽅向を決めてからステップ幅を決定しているので）
• 直線探索を⾏わないのでBkが正定値⾏列であるという制約は不要
• 解こうとしている部分問題は制約付き最適化になる

概要(部分問題)
min 𝑞$ 𝑠 = 𝑓 𝑥$ + 𝛻𝑓 𝑥$
>
𝑠 +
.
8
𝑠>
𝐵$ 𝑠
⽬的関数(2次近似式の最⼩化)
制約
||𝑠|| ≤ ∆$
f(x)の等⾼線
qk(s)=の等⾼線
信頼領域
xk
(8.3)

⻑所・短所
• ⻑所
• Bkの正定値性を担保する必要がないため適⽤範囲が広い
• 短所
• 制約付き最適化問題を解くためアルゴリズムが複雑で計算量が多い
- 計算がつらいので、ここを近似する⽅法がいくつか提案されている
- その⼀つが後ほど説明するドッグレッグ法

アルゴリズム
Step0: 初期点x0, 初期⾏列B0（通常単位⾏列）, 初期信頼半径⊿0をあたえる
0<η1≦η2<1, 0<γ1≦γ2<1<γ3を満たす定数η1,η2,γ1,γ2,γ3をあたえる
k=0とおく
Step1: 停⽌条件が満たされていればxkを解とみなして停⽌
Step2: 部分問題式(8.3)を解いてskを求める
Step3: (a)
∆lK
∆mK
≥ 𝜂.のとき
step3.1: 𝑥$-. = 𝑥$ + 𝑠$（新しい点に更新）
step3.2:
∆lK
∆mK
≥ 𝜂8なら ∆$-.∈ ∆$, 𝛾s∆$ (信頼領域拡⼤)
∆lK
∆mK
< 𝜂8なら ∆$-.∈ 𝛾8∆$, ∆$ (信頼領域は現状維持)
(b)
∆lK
∆mK
< 𝜂.のとき、 𝑥$-. = 𝑥$, ∆$-. ∈ 𝛾.∆$, 𝛾8∆$ (信頼領域縮⼩)としてstep4へ
Step4: ⾏列Bk+1を⽣成
Step2を解くのがつらい…
∆𝑓$ = 𝑓 𝑥$ − 𝑓 𝑥$ + 𝑠$
∆𝑞$ = 𝑞$ 0 − 𝑞$ 𝑠$ = −𝛻𝑓 𝑥$
>
𝑠$ −
1
2
𝑠$
>
𝐵$ 𝑠$

ドッグレッグ法
• 計算がつらい部分問題(8.3)を近似的に解く⼿法
• 最急降下法とニュートン法の間の⼿法
• 信頼領域⊿kが⼩さい場合は最急降下法、⼤きい場合はニュートン法の
探索⽅向に近くなる
• 探索範囲（信頼領域）は前述のアルゴリズムstep3で調整
• 最適解は以下で求める
𝑝∗
= − 𝐵$ + 𝜆𝐼 G.
𝛻𝑓 𝑥$ = −
1
𝜆
𝐵$
𝜆
+ 𝐼
G.
𝛻𝑓 𝑥$
⊿k∝ 1/λと考えると、λが⼤きい場合最急降下⽅向
λが⼩さい場合ニュートン⽅向に近くなる

ドッグレッグ法（直感的な理解）
xCp:𝑞$ 𝑠 の最⼩点
𝑥$
𝑑LaxxyLxLa zxL{x|a = −𝛻𝑓 𝑥$
𝑑}x~a•| = −𝐵$
G.
𝛻𝑓 𝑥$
𝑥}x~a•|
𝑥€y
∆$
𝑥a•Y‚ƒ
⊿kがxNewtonを含む: xNewtonを採⽤
⊿kがxNewtonを含まない:xtrialを採⽤

おまけ：制約なし vs 制約付き

制約なし vs 制約付き
最適性条件（最適解が満たす条件）
制約なし最適化問題制約つき最適化問題
最⼤化/最⼩化の対象⽬的関数f(x) ラグランジュ関数L(x,λ,μ)
1次必要条件(停留点) ∇f(x*)=0 KKT条件
2次必要条件
（局所最適解であれば満たす）
∇f(x*)=0
∇2f(x*) :半正定値
KKT条件
yT∇2
xL(x*, λ*,μ*)y≧0
∀y∈V(x*)
2次⼗分条件
（局所最適解の保証）
（f(x*+αd)>f(x*)を保証）
∇f(x*)=0
∇2f(x*) :正定値
KKT条件
yT∇2
xL(x*, λ*,μ*)y>0
∀y(≠0)∈V(x*)

連続最適化勉強会

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from shima o

More from shima o (20)

連続最適化勉強会