Maximum Entropy IRL（最大エントロピー逆強化学習）とその発展系について

近年の逆強化学習の動向
~MaxEnt IRLとその発展系を中心に~
中田勇介(M1)
千葉大学大学院融合理工学府
荒井研究室
2017/9/05 RLアーキテクチャ勉強会

発表の内容
はじめに
2
逆強化学習ににおける三つの課題を扱う．
1. エキスパートが訪れていない状態の報酬を推定
• 報酬の関数近似
2. 解の曖昧さへの対処（凸最適化問題として定式化）
• 最大エントロピーの原理による定式化(Maximum Entropy IRL)
• 相対エントロピー最小化による定式化(Relative Entropy IRL)
3. 試行錯誤の削減
• 重要サンプリングで報酬の更新式に含まれる分配関数を推定

発表の構成
はじめに
3
1. IRLによる報酬関数の推定
• 線形関数の推定
• 非線形関数の推定
2. 最大エントロピーの原理による解の曖昧さへの対処
• Maximum Entropy IRL(線形関数)
• Maximum Entropy Deep IRL(非線形関数)
3. 重要サンプリングによる分配関数Z(θ)の推定
• Relative Entropy IRL(線形関数，相対エントロピー最小化)
• Guided Cost Learning(非線形関数，Maximum Entropy)

マルコフ決定過程
4
マルコフ決定過程
状態集合
行動集合
遷移確率
割引率
報酬関数

逆強化学習(IRL)
5
目的
 エキスパートの意思決定系列を所与として
エキスパートの方策が最適方策となる報酬rを推定
Input
Output
 Expert’s reward
報酬以外の環境の情報
エキスパートの意思決定系列（軌跡）
エキスパートの報酬関数
ある報酬の元で最適なエージェント

報酬関数の推定
6
1. 全状態でのエキスパートの情報が得られないことも．
2. 一部の状態の情報を元に全状態の報酬を推定したい．
3. 報酬を関数近似し全状態での報酬を推定．

報酬関数の推定
7
 𝑘個の特徴量を持つ特徴ベクトル 𝜙 = 𝜙1, … , 𝜙 𝑘
⊤
𝜙: 𝑆 → ℝ 𝑘 状態空間を𝑘次元実数空間に写像
特徴量は速度や座標など状態を表す情報
特徴ベクトルが近い状態は報酬も近いと仮定
報酬r を特徴ベクトルとパラメータの関数で表す．

Function Limit
Linear Nonlinear ×
BNP-FIRL
Only Piecewise
constant functions
GPIRL
Computational
complexity
Neural Net
報酬関数の例
8

推定した報酬が満たすべき条件(線形）
9
ある軌跡で得られる報酬
ある方策で得られる報酬の期待値
 特徴期待ベクトルが等しい方策は報酬の期待値も等しい

推定した報酬が満たすべき条件(線形）
10
最適方策がエキスパートの方策となる報酬を推定
 推定した報酬の元での最適方策は次の条件を満たす．
• との報酬の期待値が一致
• との特徴期待ベクトルが一致
上式を満たす軌跡の分布になる報酬を見つければ良い．
しかし，上式満たす軌跡の分布は複数存在する．（報酬も複数）
どのような軌跡の分布が良いだろうか？

最大エントロピーの原理の考え方
11
条件を満たす確率分布が複数存在するが一つを選びたい．
確率分布が満たす条件を知っている．
確率分布については，それが満たす条件しか知らない．
条件以外の情報をできるだけ含まない確率分布を選ぶ！
エントロピーが最大

Maximum Entropy IRL
12
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
エントロピー最大化
意味数式

Maximum Entropy IRL
13
ラグランジュの未定乗数法で解くと次式が得られる．
軌跡が得られる確率は報酬の大きさに指数比例
この式に基づきに対して尤度最大化

Maximum Entropy IRL
14
対数尤度を勾配法で最大化
エキスパートと比較して
特徴期待値：小 → 重み：大きく更新
特徴期待値：大 → 重み：小さく更新
勾配の意味

Maximum Entropy IRL
15
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算

Deep Maximum Entropy IRL
16
対数尤度を勾配法で最大化
エキスパートと比較して
状態を訪れる頻度：小 → 重み：報酬を大きく更新
状態を訪れる頻度：大 → 重み：報酬を小さく更新
勾配の意味
エキスパートが状態を訪れる頻度 θの元で状態を訪れる頻度

17
: から計算

18
: から計算
めちゃくちゃ大変！！！！！！

Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
19
DPやRLが必要なのは下の二つを計算したいから．
θに対する最適方策を使わずに上式を求めたい
最適方策が必要なければ試行錯誤が格段に減る！！
少し異なる問題設定を考える．

エキスパートの軌跡の分布
との相対エントロピーを最小化
20
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
意味数式
※簡単のためMaxEntに合わせて条件1を改変

21
ラグランジュの未定乗数法で解くと次式が得られる．
軌跡が得られる確率：に指数比例，に比例
この式に基づきに対して尤度最大化

22
Relative Entropy IRL
Maximum Entropy IRL

23
Zさえ近似できれば計算できる．
※Q(ζ)が求まるかはここでは考えない
重要サンプリングを用いれば上式も求まる．

24
重要サンプリングを使う

※ここでのはエキスパートの軌跡を元にした結合確率
25
ある軌跡が得られる確率 = 初期状態分布×方策×状態遷移確率×方策．．．
H : 軌跡のステップ数

26
同じ環境で試行錯誤している→状態遷移確率が同じなので打ち消しあう
Zが求まる！！！
・軌跡をサンプリングする方策はランダム方策でも良い.
・報酬を更新する毎に最適方策を求める必要もない．
・状態遷移確率が分からなくても良い（モデルフリー）

27

Guided Cost Learning
28
Maximum Entropy IRLの問題設定でZを近似
Relative Entropy IRLでは状態遷移確率が消えた
Maximum Entropy IRLでは状態遷移確率が消えない
状態遷移確率を近似してP(ζ)を求める

29
近似した状態遷移確率の元で最適な軌跡を生成
 Guided Policy Searchを用いる
軌跡の分布が次式を満たすため近似精度が良い
サンプル数が少なくて済む．

30
少ないサンプル数で高い成功率

その他のIRL
31
IOC with Linearly-Solvable MDPs [Dvijotham 10]
 モデルフリー，線形可解MDP
Deep IRL by Logistic Regression [Uchibe 16]
 モデルフリー，線形可解MDP，非線形報酬関数
Generative Adversarial Imitation Learning [Ho 16]
 モデルフリー，模倣学習，MaxEnt IRLと同じ方策
 End-to-End Differentiable Adversarial Imitation Learning
[Baram 17]
 状態遷移確率を学習し分散を減らすGAIL

Maximum Entropy IRL（最大エントロピー逆強化学習）とその発展系について

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Maximum Entropy IRL（最大エントロピー逆強化学習）とその発展系について

Editor's Notes