[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

1
DEEPLEARNINGJP
[DLPapers]
http://deeplearning.jp/
“Learning Robust Rewards with Adversarial
Inverse Reinforcement Learning (ICLR2018)”
吉田岳人, 國吉新山研
DL輪読会2018/02/02発表

書誌情報
•https://openreview.net/forum?id=rkHywl-A-
•著者：Justin Fu, Katie Luo, Sergey Levine
–UC Berkeley
–Chelsea Finn氏による、Guided Cost Learning[Finn+,
2016]とA connection between GANs , IRL and EBM[Finn+,
2016]を引き継ぐ形
•ICLR 2018 accepted
–Score: 7,6,6
2

•RL
•IRL
3
•Maximum Entropy IRL
• IRLの基本アルゴリズム
• (1)式は以下の仮定から求まる
• 𝑎𝑟𝑔𝑚𝑎𝑥
𝜋(𝑎|𝑠)
𝐸
𝜏~𝜋
[𝑅 𝜏 − log 𝜋 𝜏 ]
• 第一項のみでは対応する方策が複数存
• エントロピー最大化の制約項を入れて
対応する方策を一意に定める
逆強化学習(IRL)とは
エキスパートが従っている報酬関数を推定
報酬関数
𝑟(𝑠, 𝑎, 𝑠′)
最適方策
𝜋∗
(𝑎|𝑠)
軌道{𝑠𝑡, 𝑎 𝑡
; 𝑡 = 0, … , 𝑇}
環境 𝑃(𝑠′
|𝑠, 𝑎)
Task解決
報酬関数
𝑟(𝑠, 𝑎, 𝑠′)
エキスパート軌道
[{𝑠𝑡, 𝑎 𝑡 ; 𝑡 = 0, … , 𝑇} 𝑖
; 𝑖 = 1, . . , 𝑛]
𝜋∗
𝜏 =
exp 𝑅 𝜏
𝑍
が成立し、…(1)
𝑎𝑟𝑔𝑚𝑎𝑥
𝑟 𝑠,𝑎
𝐸
𝜏∈𝐸𝑥𝑝𝑒𝑟𝑡
[
exp 𝑅 𝜏
𝑍
]
で最適な報酬関数を推定
𝜏 = {𝑠𝑡, 𝑎 𝑡 ; 𝑡 = 0, … , 𝑇}
𝜋∗
𝜏 :最適方策により𝜏が生成される確率
𝑅(𝜏):軌道𝜏により得られる累積報酬
学習実行
学習
𝜋1
∗
𝜋2
∗
𝜋3
∗
エントロピー
中
大
小

•Direct
–Generative Adversarial Imitation Learning
(GAIL) [Ho & Erman, NIPS2016]
–GANのGeneratorをエージェントの方策と
する
–Discriminatorは状態sで行動aを取るエー
ジェントがエキスパートかどうかを見分
ける
–学習が収束すると𝜋 𝑎𝑔𝑒𝑛𝑡 = 𝜋 𝑒𝑥𝑝𝑒𝑟𝑡となる
「GAILの問題点」
–報酬関数は陰に求めつつ方策を直接πを
最適化していく
→報酬関数がDiscriminatorに埋もれる
＊Dは報酬関数を表しているように思える
が、学習が収束すると、Generator 𝜋 𝑎𝑔𝑒𝑛𝑡
が出す軌道のどのs,aに対してもD(s,a)=0.5
となり報酬関数として不適
4
•Indirect
–陽に報酬関数を求めた後、もしくは求め
ながら、最適方策を求める
–本論文は陽に報酬を求めながら最適方策
を求める
–具体的には以下のようにDiscriminatorを工
夫したGANを使うと報酬関数を取り出せる
GAN-GCL[Finn+, 2016]
Imitation Learning(IL)とは
報酬を陽に扱うか陰に扱うか
𝑟(𝑠, 𝑎, 𝑠′)IRL RL
最適方策
𝜋∗
(𝑎|𝑠)

本論文の概要
•問題意識
–同じ軌道を生成する方策が複数ある問題→Max Ent IRLで解決
–同じ最適方策が生じる報酬関数も複数ある
⇓
• 状態遷移モデルが変化する転移学習を考える際、複数ある報酬のうち一部し
かうまく機能しない
•アプローチ
–同じ最適方策を生じる報酬関数のクラスの性質を分析
–転移学習に耐えうる報酬を学習するアルゴリズムの考案
5

•最適方策が一致する報酬のク
ラスは以下のもののみであるこ
とが知られている[Ng+, 1999]
∵ 𝑡=0
∞
𝛾 𝑡
𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + 𝛾Φ 𝑠𝑡+1 − Φ 𝑠𝑡 =
𝑡=0
∞
𝛾 𝑡
𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + 𝛾∞
Φ 𝑠∞ − Φ 𝑠0 =
𝑡=0
∞
𝛾 𝑡
𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 − Φ 𝑠0
–このような報酬の変形があると、
状態遷移モデルが変わったときにr^
によって得られる最適方策が解きた
いタスクの最適方策でなくなる。
•s’やaに依存すると状態遷移モ
デル変化に対してロバストでな
くなる
6
•状態sにのみ依存するように
Discriminatorの構造を決める
–すると最適値では
–となり
報酬関数の曖昧性
状態sにのみ依存する報酬のみが環境変化にロバスト

•離散状態行動空間
–state0で行動を何か行えば報酬１
–初期状態はstate1
8
•連続状態行動空間
実験・結果
学習済みの方策が生成する軌道から報酬学習、テスト時
は変化した環境モデル下で再学習した方策の性能を見る
c)では
Adavantage
Functionが
復元される
外界が変わる身体が変わる

結果（２）
9
Pointmass-mazeで得られた報酬
環境変化にロバストになっている。

実験・結果（３）
•AIRLが普通のImitationタスクにも使えるのか検証
–GAILに匹敵。Indirect Imitationでも高自由度の連続行動
空間に使えることを示した。
–ただし、必要なInteractionの数が書いてないので、効
率性はわからない。
10

まとめ
•転移タスクまとめ
–小さい環境では、方策を再学習しないで成功
–大きい環境では、訓練環境でエージェントが試行錯誤
して状態sにのみ依存する報酬と方策を最適化⇒テスト
環境で方策を再学習するとそれなりの性能を出せた
•Imitationタスクまとめ
–GAILに性能は匹敵、効率は不明
11

[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

[DL輪読会]Learning Robust Rewards with Adversarial Inverse Reinforcement Learning