[DL輪読会]Meta Reinforcement Learning

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Meta Reinforcement Learning
Reiji Hatsugai, DeepX

2
本日の発表について
• 強化学習とメタラーニングという２つのhot topicの交差点についてまとめる
• メタラーニングの定義に強化学習を当てはめて考え、各々の論文
で行っているメタタスクを俯瞰的にみる
• どのような手法を用いてメタタスクにアプローチをしているのかまとめる

3
Meta Reinforcement Learningとは何か
• 「与えられた複数のタスクやドメインを使って、学習対象となるタスクやドメインに対す
る学習器のバイアスを決定するためのメタ知識を獲得する」
– 通常のメタラーニングの意味
– 2018/12/14の阿久澤さんの発表資料を参考にしています
• メタ強化学習では、タスクやドメインにMDPを、学習器にエージェントを当てはめる
• つまり、
• 「与えられた複数のMDPを使って、学習対象となるMDPに対するエージェントのバイ
アスを決定するためのメタ知識を獲得する」

4
Markov Decision Process
• MDPは<S, A, T, R>の4つ組で表される
– S：状態の有限集合
– A：行動の有限集合
– T：遷移関数
– R：報酬関数
• MDPを変更する ⇔ この4要素のどれかに手を加える

5
具体的なメタ強化学習用タスク
• Dir vel HC Ant
• Disable HC Ant
• HC difficult
• ハーロウ
• Navigation
• 多椀bandit

6
Direction and velocity control in Half Cheetah and Ant
Direction: 報酬関数が、
進む向きによって変わる
Velocity: 報酬関数が、
進む速度によって変わる
MAML, SNAILにて実験

7
Disabled joint or leg in Half Cheetah and Ant
Model Based MAMLで実験
関節や、脚が不自由になる
テスト時には訓練時に不自由にならなかった関節が
不自由になるものも試している

8
Half Cheetah with difficult environment
傾斜のついた坂や、水の上に浮かんでいるような
ダイナミクスになる床をタスクにしている
坂の傾斜や、床の動き方を変化させる

9
ハーロウの実験
ランダムな２つの物体の
どちらか片方を選択すると正の報酬で、
もう片方だと負の報酬
2つの物体は6回連続で出現する
Prefrontal Cortex as a meta
reinforcement learning systemにて実験

10
Navigation Task
一人称画像入力を元に、迷路のゴールを見つける
タスクが変わる毎に、迷路の形状が変化する
RL2, SNAILで実験

11
多椀Bandit
• スロットマシンの確率分布をタスクとみなす
RL2, SNAILにて実験

12
各タスク毎のMDP対応早表
S A T R
Dir vel HC Ant ✗ ✗ ✗ ❍
Disable HC Ant ✗ ❍ ✗ ✗
HC difficult ✗ ✗ ❍ ✗
ハーロウ ❍ ✗ ✗ ❍
Navigation ❍ ✗ ❍ ✗
多椀bandit ❍ ✗ ✗ ✗
❍がタスク生成時の変更箇所で、✗がタスクで共通しているもの

13
How to solve these problems?

14
A) Model Based RL
B) MAML
C) Model Architecture

15
A) Model Based RL
B) MAML

16
Model Based RLによるメタRL
• Modelの学習は教師あり学習とみなすことができる
– f(s_t, a_t) = s_{t+1}
• Learning to Adapt Dynamic, Real-World Environments through Meta-Reinforcement
Learning
– モデルの学習にMAMLとRNNベースのoptimizerを用いる
• Meta Reinforcement Learning with Latent Variable Gaussian Processes
– モデルに、潜在状態をもつガウシアンプロセスを採用
– 潜在状態をタスクごとに推定する
• そもそも論として、報酬関数が手に入る状況では、単純なモデルベース強化学習だ
けでRに関するタスクの変動に対応可能

17
A) Model Based RL
B) MAML

18
Model Agnostic Meta Learning
• 勾配法で学習しているモデル全般に使えるメタラーニング手法
– タスク毎にアップデートされたパラメータを元にメタロス関数を計算し、アップデート前
のパラメータを最適化する
• 勾配法で学習する強化学習アルゴリズムに適用可能

19
A) Model Based RL
B) MAML

20
Model Architectureによるメタ強化学習
• 記憶装置をもたせたモデル構造を使用し、状態だけでなく自身が行った行動と報酬
を入力にする
– 強化学習が時系列タスクであることを利用している
– s_t, a_t, s_{t+1}を入力に持っているので、（暗に）MDPの変化を見ることができる
– エピソード間で記憶装置を引き継ぐことも可能（異なるMDP間では引き継がない）

21
RL2: Fast RL via Slow RL
• アーキテクチャにRNN（GRU）を採用
• MDP毎に隠れ状態をリセットする

22
A Simple Neural Attentive Meta-Learner
• アーキテクチャにWaveNetとAttentionを組み込んだものを採用
オレンジ：Temporal Convolution
緑：Causal Attention

23
Prefrontal Cortex as a Meta-Reinforcement Learning System
• アーキテクチャにLSTMを採用
• アーキテクチャの論文というよりは、前頭前皮質におけるドーパミンの働きを、報酬関
数を入力にしたLSTMで模していると主張
• 結果的にメタ強化学習になり、心理学の分野で行われているような実験（ハーロウの
実験）の結果を再現する（？）

24
A, B, Cのうち、どの手法を使ったらいいのか？

25
Direction and velocity control in Half Cheetah and Ant
Direction: 報酬関数が、
進む向きによって変わる
Velocity: 報酬関数が、
進む速度によって変わる
MAML, SNAILにて実験

26
B（MAML）とC（Model Architecture）の比較
• 方向や速度による報酬関数の変化タスク（with HC, Ant）での比較
• ずるい比較ではあるがModel Architectureの圧勝
– 見たことがあるタスクが来るなら、Model Architectureを用いるほうがよい？
– MAMLは学習のステップがある分不利

27
Disabled joint or leg in Half Cheetah and Ant
関節や、脚が不自由になる
テスト時には訓練時に不自由にならなかった関節が
不自由になるものも試している

28
Trainで見たこと無いタスクがTestで出てくる場合１
• Disabled joint or leg（with HC, Ant）
– 不自由になるjointやlegが、meta trainingの時と違う場合もテストしている
• Model Based MAMLとMAML-RLで実施
• Sample効率ではModel Based MAMLが圧倒
– 最終スコアはMAML-RLが強い
• これ系のタスクでModel Architecture系はどこまで頑張れるのか（未実験）
– ある意味、強化学習の汎化問題ともいえる気がする（？）

29
まとめ
• メタ強化学習とは何か、既存のメタラーニングの定義に沿って表現
• メタ強化学習で使われる評価タスクについて、MDPの対応関係をまとめた
• 具体的なメタ強化学習手法について紹介
• メタ強化学習手法間の関係性について結果比較

30
感想
• メタ強化学習を俯瞰的にまとめてみました
• まとめることで、まだ取り組まれていない課題や新たな可能性が広がることを期待
– 各手法間の適用可能環境
– メタ学習器の構成方法
• 実務応用的観点から言うと、
– どこをメタにして環境を作成するか
– メタにした部分は学習可能なのか
– それに適したアルゴリズムは？
• など、環境定義の部分から様々な配慮が必要であると感じた

[DL輪読会]Meta Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Meta Reinforcement Learning

Similar to [DL輪読会]Meta Reinforcement Learning (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (15)

[DL輪読会]Meta Reinforcement Learning