SlideShare a Scribd company logo
近年の逆強化学習の動向
~MaxEnt IRLとその発展系を中心に~
中田勇介(M1)
千葉大学大学院 融合理工学府
荒井研究室
2017/9/05 RLアーキテクチャ勉強会
発表の内容
はじめに
2
逆強化学習ににおける三つの課題を扱う.
1. エキスパートが訪れていない状態の報酬を推定
• 報酬の関数近似
2. 解の曖昧さへの対処(凸最適化問題として定式化)
• 最大エントロピーの原理による定式化(Maximum Entropy IRL)
• 相対エントロピー最小化による定式化(Relative Entropy IRL)
3. 試行錯誤の削減
• 重要サンプリングで報酬の更新式に含まれる分配関数を推定
発表の構成
はじめに
3
1. IRLによる報酬関数の推定
• 線形関数の推定
• 非線形関数の推定
2. 最大エントロピーの原理による解の曖昧さへの対処
• Maximum Entropy IRL(線形関数)
• Maximum Entropy Deep IRL(非線形関数)
3. 重要サンプリングによる分配関数Z(θ)の推定
• Relative Entropy IRL(線形関数,相対エントロピー最小化)
• Guided Cost Learning(非線形関数,Maximum Entropy)
マルコフ決定過程
1. IRLによる報酬関数の推定
4
マルコフ決定過程
状態集合
行動集合
遷移確率
割引率
報酬関数
逆強化学習(IRL)
1. IRLによる報酬関数の推定
5
目的
 エキスパートの意思決定系列を所与として
エキスパートの方策が最適方策となる報酬rを推定
Input
Output
 Expert’s reward
報酬以外の環境の情報
エキスパートの意思決定系列(軌跡)
エキスパートの報酬関数
ある報酬の元で最適なエージェント
報酬関数の推定
1. IRLによる報酬関数の推定
6
1. 全状態でのエキスパートの情報が得られないことも.
2. 一部の状態の情報を元に全状態の報酬を推定したい.
3. 報酬を関数近似し全状態での報酬を推定.
報酬関数の推定
1. IRLによる報酬関数の推定
7
 𝑘個の特徴量を持つ特徴ベクトル 𝜙 = 𝜙1, … , 𝜙 𝑘
⊤
𝜙: 𝑆 → ℝ 𝑘 状態空間を𝑘次元実数空間に写像
特徴量は速度や座標など状態を表す情報
特徴ベクトルが近い状態は報酬も近いと仮定
報酬r を特徴ベクトルとパラメータの関数で表す.
Function Limit
Linear Nonlinear ×
BNP-FIRL
Only Piecewise
constant functions
GPIRL
Computational
complexity
Neural Net
報酬関数の例
1. IRLによる報酬関数の推定
8
推定した報酬が満たすべき条件(線形)
1. IRLによる報酬関数の推定
9
ある軌跡で得られる報酬
ある方策で得られる報酬の期待値
 特徴期待ベクトル が等しい方策は報酬の期待値も等しい
推定した報酬が満たすべき条件(線形)
1. IRLによる報酬関数の推定
10
最適方策が エキスパートの方策 となる報酬を推定
 推定した報酬の元での最適方策は次の条件を満たす.
• と の報酬の期待値が一致
• と の特徴期待ベクトルが一致
上式を満たす軌跡の分布になる報酬を見つければ良い.
しかし,上式満たす軌跡の分布は複数存在する.(報酬も複数)
どのような軌跡の分布が良いだろうか?
最大エントロピーの原理の考え方
2. 最大エントロピーの原理による解の曖昧さへの対処
11
条件を満たす確率分布が複数存在するが一つを選びたい.
確率分布が満たす条件を知っている.
確率分布については,それが満たす条件しか知らない.
条件以外の情報をできるだけ含まない確率分布を選ぶ!
エントロピーが最大
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
12
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
エントロピー最大化
意味 数式
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
13
ラグランジュの未定乗数法で解くと次式が得られる.
軌跡が得られる確率は報酬の大きさに指数比例
この式に基づき に対して尤度最大化
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
14
対数尤度を勾配法で最大化
エキスパートと比較して
特徴期待値:小 → 重み:大きく更新
特徴期待値:大 → 重み:小さく更新
勾配の意味
Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
15
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
16
対数尤度を勾配法で最大化
エキスパートと比較して
状態を訪れる頻度:小 → 重み:報酬を大きく更新
状態を訪れる頻度:大 → 重み:報酬を小さく更新
勾配の意味
エキスパートが状態を訪れる頻度 θの元で状態を訪れる頻度
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
17
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
Deep Maximum Entropy IRL
2. 最大エントロピーの原理による解の曖昧さへの対処
18
勾配の計算方法
: から計算
: を更新するごとにDP or RLを行い計算
めちゃくちゃ大変!!!!!!
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
19
DPやRLが必要なのは下の二つを計算したいから.
θに対する最適方策を使わずに上式を求めたい
最適方策が必要なければ試行錯誤が格段に減る!!
少し異なる問題設定を考える.
エキスパートの軌跡の分布
との相対エントロピーを最小化
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
20
条件1:特徴期待値が一致
条件2, 3 :Pは確率
条件4 : 軌跡は離散
意味 数式
※簡単のためMaxEntに合わせて条件1を改変
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
21
ラグランジュの未定乗数法で解くと次式が得られる.
軌跡が得られる確率: に指数比例, に比例
この式に基づき に対して尤度最大化
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
22
Relative Entropy IRL
Maximum Entropy IRL
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
23
Zさえ近似できれば計算できる.
※Q(ζ)が求まるかはここでは考えない
重要サンプリングを用いれば上式も求まる.
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
24
重要サンプリングを使う
※ここでの はエキスパートの軌跡を元にした結合確率
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
25
ある軌跡が得られる確率 = 初期状態分布×方策×状態遷移確率×方策...
H : 軌跡のステップ数
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
26
同じ環境で試行錯誤している→状態遷移確率が同じなので打ち消しあう
Zが求まる!!!
・軌跡をサンプリングする方策はランダム方策でも良い.
・報酬を更新する毎に最適方策を求める必要もない.
・状態遷移確率が分からなくても良い(モデルフリー)
Relative Entropy IRL
3. 重要サンプリングによる分配関数の推定
27
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
28
Maximum Entropy IRLの問題設定でZを近似
Relative Entropy IRLでは状態遷移確率が消えた
Maximum Entropy IRLでは状態遷移確率が消えない
状態遷移確率を近似してP(ζ)を求める
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
29
近似した状態遷移確率の元で最適な軌跡を生成
 Guided Policy Searchを用いる
軌跡の分布が次式を満たすため近似精度が良い
サンプル数が少なくて済む.
Guided Cost Learning
3. 重要サンプリングによる分配関数の推定
30
少ないサンプル数で高い成功率
その他のIRL
31
IOC with Linearly-Solvable MDPs [Dvijotham 10]
 モデルフリー,線形可解MDP
Deep IRL by Logistic Regression [Uchibe 16]
 モデルフリー,線形可解MDP,非線形報酬関数
Generative Adversarial Imitation Learning [Ho 16]
 モデルフリー,模倣学習,MaxEnt IRLと同じ方策
 End-to-End Differentiable Adversarial Imitation Learning
[Baram 17]
 状態遷移確率を学習し分散を減らすGAIL
1. 2. 3. 4. 5.
32

More Related Content

What's hot

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらい
Hideo Terada
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 

What's hot (20)

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらい
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 

Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について

Editor's Notes

  1. 質問