[DL輪読会]機械学習におけるカオス現象について

機械学習におけるカオス現象について
冨山翔司

2
今日発表する論文
• PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos
– ICML2018
• 著者:Paavo Parmas, Carl Edward Rasmussen, Jan Peters, Kenji Doya
– OIST
• 選定理由
– 著者から直接発表を聞き、面白いと思ったから
• プラス、A RECURRENT NEURAL NETWORK WITHOUT CHAOS[2]を少し説明します。
– ICLR 2017
• （普段興味ある分野と少し違うので、違和感あったらご指摘を）

3
カオス現象
• 非線型変換を含む動的システムが、初期値のわずかな摂動に対し、一定時間後に
大きな挙動の差を生み出す
– カオス振り子
• https://www.youtube.com/watch?v=2bGAKPxQkDk

4
機械学習で非線型変換を繰り返し用いるシーン
• 結構ある
– RNN
– Model-based RL
– World models系
• 勾配爆発に関しては議論されているが、カオスな振る舞いによる弊害はあまり議論さ
れていない気がする
– わずかな摂動で未来の状態が大きく変わるようなモデルをちゃんと最適化できるのか？

5
A RECURRENT NEURAL NETWORK WITHOUT CHAOS
• LSTMやGRUがカオス現象によって長期の依存を捉えられないことを実験的に示し、
より単純なモデルでLSTM並みの精度を出せることを示した
– 軽くまとめたものなので、カオス現象が機械学習に悪影響を与える一例としてみてもらえると。

6
LSTMのカオスな振る舞い
• LSTMのℎ0と𝑐0をサンプリングし、そこに摂動（[-10^-7, 10^-7]）を加えて100,000個の初期
状態を作り、入力を与えずに同一の再帰パラメータで200タイムステップ進めた時の、最終
状態のマップ（左）と、摂動を与えない時の状態と摂動を与えた時の状態との差（右）
– aでは、わずかな摂動が200タイムステップ後に大きな状態の差になることがわかる
– bでは、途中から摂動を与えない時の状態と与えた時の状態で大きく差が生まれることがわかる

7
LSTMのカオスな振る舞い訓練させたLSTMの場合
• Penn Treebankで訓練させたLSTMの振る舞い
• 左図は、入力を一切与えない時の、ある隠れ状態に摂動を与えた時と与えない時の振る
舞い
– 途中から両者の状態に差が生まれ、またどちらも収束しない
• 右図は、大きく異なる二つの隠れ状態初期値から、同一の入力を与えた時の軌道
– 途中から両者の状態はほぼ同一になる
• つまり、動的システムはほぼ入力情報に支配されており、隠れ状態は長期依存を捕捉できていない

8
Chaos-Free Network
• GRUのℎ 𝑡を求めないバージョン
• これを使うと、入力が何もない時に隠れ状態は0に向かっていき、カオス現象を抑え
ることができる

9
Chaos-Free Network
• Penn Treebankでt=1000で入力を辞めた時のCFNの状態の振る舞い
– ゼロに向かって減衰する
– 二層目の方が減衰が遅い＝層を重ねることで長期記憶を獲得できる？
• LSTMなどのゲートを使うよりもこのほうがいいのかもしれない？

10
実験結果
• LSTMと同等かやや劣る
– より長期依存が必要なタスクだったら勝てたかも（筆者談）

11
PIPPS: Flexible Model-Based Policy Search Robust to the Curse of Chaos
• Model-based RLにおいて、モデルを繰り返し適用することによってカオス現象が起こ
ることを実験的に示した。
• この時、リパラをつかって勾配を求めると勾配の分散が爆発し、まともな最適化がで
きないことを示した。
• カオスにロバストな形で、確率的なモデルに対して粒子ベースで方策を学習できるフ
レームワークを提案

12
PILCO
• Probabilistic Inference for Learning Control
– モデルベース強化学習手法の一つ
– 初期状態をガウス分布として表現し、モデルにガウス過程を用い、次状態の分布をモーメン
トマッチングによって解析的にガウス分布に近似する
• 利点
– モデルが不確実性を考慮できる
• 欠点
– モーメントマッチングは使える状況が限られる
• e.g. モデルにNNを用いることができない

13
Particle samplingによるPILCO
• 状態を分布として表すと、使えるダイナミクスのモデルが限られる（＝次状態を解析
的に求められる必要がある）ので、分布から粒子をサンプリングして、そいつらの遷
移を追っていっていけばよいのでは？
– 確率的な部分はreparameterization trickを用いれば良さそう
• しかしこれはうまくいかないことが過去の研究から実験的に知られている！
• なぜ？？？？？？

14
カオスな振る舞いによる、勾配の分散の爆発
• 図(a)：Cart-poleで、1,000の粒子（初期
状態）を発生させ、ダイナミクスモデル
から軌道を生成し、その時の報酬値を
記録。方策のパラメータをある方向に
変えていった時の報酬値をプロット。
• 図(d)：図(a)のとき、リパラして求めた各
粒子の勾配の95%信頼区間と、真の勾
配
• あるパラメータ領域で勾配の分散が爆
発する
– こういった領域では、粒子サンプリングで
はまずまともな勾配が手に入らない

15
カオスによって引き起こされる初期状態と得られる報酬の不安定性
• 初期状態ごとに、最終的に得られる報酬をプロット
– それぞれの状態ごとに４つの粒子（それぞれ異なるリパラ時のノイズ）を発生させ、その報酬の平均
値に従って色付け
• 勾配の分散が爆発している時（右図）、近傍の初期状態で報酬が鋭敏に変化している
• 一方、勾配の分散が爆発していない時（左図）は、近傍の初期状態で同じような報酬を得
られている。

16
Likelihood ratioとreparametarization
• Likelihood Ratio(LR)のほうが、リパラよりも勾配の分散が小さい！
– 勾配計算時、リパラは報酬の微分を用いるが、Likelihood ratioは報酬の値を用いるからだと
推測される
• とはいえ、カオスがなければリパラの方が勾配の分散は小さいはずじゃない？（e.g.
VAE）
– うまくLRとリパラを組み合わせられないか？
RP:
𝜕𝑉
𝜕𝜃
=
𝜕𝑉
𝜕𝑥
𝑑𝑥
𝑑𝜃
LR:
𝜕𝑉
𝜕𝜃
= 𝑉
𝑑log 𝑝(𝑥)
𝑑𝜃

17
A classical result
• 二つの独立の推定器がある時、両者の推定器の分散の逆数で足し合わせる時、最
適な推定ができる。
𝜇 = 𝜇 𝐿𝑅 𝑘 𝐿𝑅 + 𝜇 𝑅𝑃 𝑘 𝑅𝑃
𝑘 𝐿𝑅 =
𝜎𝐿𝑅
−2
𝜎𝐿𝑅
−2
+ 𝜎 𝑅𝑃
−2 , 𝑘 𝑅𝑃 = 1 − 𝑘 𝐿𝑅

18
Total Propagation Algorithm
• バックワード時、それぞれの粒子について、
各タイムステップにおけるLRとRPの勾配とそ
の分散を求め、両者を足し合わせていく
– 短いパス（＝カオスな振る舞いが起こらない）に
おけるRPの勾配をうまく用いることができる！

19
LRとRPとTotal propagation
• 先と同様の実験。TPが最も勾配の分散が小さい

20
LRとRPとTotal propagation
• TPが一番分散が小さい
• (b)では、リパラの分散は発散しているため、図から消えている
– 発散しているにも関わらず、短いパスの勾配推定結果（＝発散していない勾配）を組み込め
るTotal Propagationは、ベースラインに比べて改善を見せている

21
実験：実際に学習させてみる
• PILCOを、粒子ベース版PILCOと比較
– 方策はRBFネットワーク
– モデルはGP
• サンプリング時、𝑦 = 𝑓 𝑥 + 𝜖 where 𝜖~𝑁(0, 𝜎𝑓
2
𝑥 + 𝜎 𝑛
2
)によっておこなう。 𝜎𝑓
2
𝑥 は学習された分散
で、 𝜎 𝑛
2
はその他の要因によるノイズ（e.g. 観測ノイズ）
• Cart-poleとUnicycleで、シミュレーションを用いて実験
– コストとして、Angle costとTip costを二パターンを検証
• Tip costはどっちまわりで上がっても平気で、Angle costは片方の回り方だけ
• 示したいことは、粒子サンプリングによるPILCOが、カオス現象による勾配爆発を抑
えることでちゃんと機能する、ということ

22
定量評価：Cart-pole
• PILCOは外乱ノイズが乗るとうまくいかない
– モーメントマッチング時の近似誤差が蓄積されていくから
– 粒子ベースの手法は問題ない
• RPはうまくいかない
• 粒子ベースの場合ノイズは程よくあった方が良い
– うまくばらけた方が良い勾配を見つけられるということ？
• Tip Costのときは、PILCOとGR(Gaussian Resampling)が良い
– 本来bi-modalの問題を、uni-modalに無理やりするので問題が簡単になる？

23
定量評価：Cart-pole, unicycle balancing
• PILCOとTPはどちらも同じくらいの試行
回数で収束
• Unicycle balancingでPILCOと大体同じく
らい

24
感想
• カオス現象は学習に悪影響を与えることがあるんだなぁ
• PIPPSはモデルベースRLのみを考えているが、他のケースにも色々応用できそう
• RNNの先は暗そう・・・

[DL輪読会]機械学習におけるカオス現象について

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

[DL輪読会]機械学習におけるカオス現象について