強化学習と逆強化学習を組み合わせた模倣学習

強化学習と逆強化学習を組み合わせた
模倣学習
内部英治
国際電気通信基礎技術研究所
脳情報研究所ブレインロボットインタフェース研究室

自己紹介: 内部英治
• 株式会社国際電気通信基礎技術研究所(ATR)
脳情報研究所ブレインロボット
インタフェース研究室主幹研究員
• 経歴
– 1999年大阪大学大学院工学研究科電子制御機械工学専攻博士（工学）
https://researchmap.jp/uchibe/ 参照
– 2015年より現職
• 研究テーマ
– 強化学習とロボティクスへの応用
– 計算論的神経科学

強化学習とは
• 試行錯誤を通して方策（行動ルール）
を学ぶ人工知能技術
• 囲碁のチャンピオンに勝利したアルファ碁は
強化学習とディープラーニングの組み合わせ
ロボットなどの制御へ応用
• ヒトや動物の意思決定のモデルとしても
注目
脳科学の観点からの説明
[Nature Blog. The Go Files: AI
computer wraps up 4-1 victory …]
(Doya, 2007)
目的関数
（報酬）
強化学習
方策
（行動ルール）

強化学習における報酬・行動価値・方策
• 報酬𝑟 𝑠, 𝑎 : 状態𝑠で行動𝑎を選択・実行した時の評価値
• 行動価値𝑄 𝑠, 𝑎 : 状態𝑠で行動𝑎を実行した後で将来得られる総報酬
– 𝛾:将来得られる報酬を割り引く率
• 方策𝜋 𝑎 𝑠 : 状態𝑠で行動𝑎を
選択する確率
環境
状態𝑠
行動𝑎
報酬𝑟(𝑠, 𝑎)内部状態
学習率𝛼
逆温度𝛽
割引率𝛾
行動
𝑎2𝑎1
行動価値𝑄
𝑄 𝑠, 𝑎 ≜ 𝔼 𝜋 ቤ෍
𝑘=0
∞
𝛾 𝑘
𝑟(𝑠𝑡+𝑘+1, 𝑎 𝑡+𝑘+1) 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎

報酬設計の困難さ
• 状態𝑠における行動𝑎の即時評価で
ある報酬を準備する必要がある
• 囲碁の場合
– 勝敗に応じて正または負の報酬
– 対戦中に与えられる報酬は0
• AlphaGo Zero (Silver et al., 2017)は3日間で
490万回，40日間で2900万回の自己対戦
によって方策を獲得
• 膨大な学習データを必要とするため
シミュレータの利用が不可欠
スパースでない報酬を使ったら
どうなるか

柔軟物の操作の学習における報酬
• エントロピ正則された強化学習(Deep Dynamic Policy Programming)
• シミュレータの使用なしで学習
Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2017). Deep dynamic policy programming for robot control
with raw images. In Proc. of IROS.

シャツの折り畳みの場合
実用的な報酬を準備するのは
難しい
Tsurumine, Y., Cui, Y., Uchibe, E., and Matsubara, T. (2019). Deep reinforcement learning with smooth policy
update: Application to robotic cloth manipulation. Robotics and Autonomous Systems, 112: 72-83.

視覚情報を使った移動ロボットの行動
• タスク: 電池パックを捕獲
• 2種類の報酬関数: rorig and raug
• バランスによって電池パックを見続けることが
最適行動
𝑟origのみで学習
𝑟orig + 𝑤𝑟auxで学習
𝑟orig = ቐ
+1
−0.05
0 目標角度
現在角度
𝑟aux = exp −
𝜃 − 𝜃 𝑑
2
2𝜎2
電池を捕獲したとき
移動したとき
それ以外
Uchibe, E. & Doya, K. (2008). Finding intrinsic rewards by embodied evolution and constrained reinforcement
learning. Neural Networks, 21(10): 1447-55.

逆強化学習とは
• 単純な報酬を使うと膨大な学習データと計算時間が必要
• 詳細な報酬を事前に設計するのは
困難
意図とは異なる行動を学習
• 熟練者の行動データをもとに
報酬を推定する技術が逆強化学習
– 不良設定問題 [OpenAI Blog. Faulty Reward …] [Sorta Insightful (Blog)]
目的関数
（報酬）
強化学習
逆強化学習
制御則または熟練者からの
行動データ

逆強化学習の応用 (1/2)
卓球の動作解析 (Mueling et al., 2014) 線虫の温度走性行動の解析 (Yamaguchi et al., 2018)
模倣学習によるロボット制御 (Finn et al., 2016) 海鳥の飛行経路の予測 (Hirakawa et al., 2018)

逆強化学習の応用 (2/2)
ナビゲーション (Wulfmeier, et al. 2017) 広告スケジューリング業務の自動化 (Suzuki et al., 2019)
危険予知運転モデリング (Shimosaka et al., 2014) 逆強化学習の脳内表現 (Collette et al., 2017)

模倣学習との関係
• エキスパートから与えられた状態行動対
𝒟 𝐸 = 𝑠𝑖, 𝑎𝑖 から方策を直接推定
• 例: 最大事後確率(MAP)推定による定式化
– 𝜋(𝑎 ∣ 𝑠, 𝜽): パラメータ𝜽を持つ確率的方策
– 𝑝(𝑠 ∣ 𝜽): 𝜋によって決定される状態分布
• ln 𝑝 𝑠 𝜽 の勾配推定は一般に困難で無視することが多い
行動クローニング(Behavior Cloning, BC)
arg max
𝜽
ln 𝑝(𝜽 ∣ 𝒟 𝐸
) =arg max
𝜽
ൣln 𝑝(𝜽)
቉+ ෍
𝑠,𝑎 ∈𝒟 𝐸
ln 𝜋(𝑎 ∣ 𝑠, 𝜽) + ෍
𝑠∈𝒟 𝐸
ln 𝑝(𝑠 ∣ 𝜽)
Morimura, T., Uchibe, E., Yoshimoto, J., Peters, J., & Doya, K. (2010). Derivatives of logarithmic stationary
distributions for policy gradient reinforcement learning. Neural Computation 22(2): 342–76.
Schroecker, Y. & Isbell, C. (2017). State Aware Imitation Learning. NIPS 30.
(hrl-olddesign.informatik.uni-freiburg.de)

行動クローニングの問題点
• エキスパートと学習者の状態行動分布は異なる（共変量シフト）
• 行動し続けることで誤差が蓄積し，エキスパートの分布から逸脱
– 元の分布に戻る手段がない
Ross, S. & Bagnell, J.A. (2010). Efficient Reductions for Imitation Learning. In Proc. of AISTATS, 9:661–668.
Osa, T., Pajarinen, J., Neumann, G., Bagnell, J.A., Abbeel, P.A., & Peters, J. (2018). An Algorithmic Perspective on
Imitation Learning. Foundations and Trends in Robotics 7, no. 1–2, 1–179.

敵対的生成ネットワーク(Generative Adversarial
Network; GAN)
• 生成器(Generator)と識別器(Discriminator)の競合によって
データを生成するモデル
https://deephunt.in/the-gan-zoo-79597dc8c347
識別器𝐷(𝑥)生成器𝐺(𝑧)
識別器𝐷(𝑥)
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014).
Generative Adversarial Nets. NeurIPS 27, 2672–2680.

Generative Adversarial Imitation Learning (GAIL)
• 模倣学習を敵対的生成ネットワーク(GAN)として定式化
• 近年の模倣学習でベースラインとなる論文
• 生成器が（確率的）方策と
環境（シミュレータ）の
組み合わせ
• 識別器𝐷(𝑠, 𝑎)から推定報酬を
計算
Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.

GAILの目的関数
• 𝐷(𝑠, 𝑎)は𝑠が実データか生成されたデータかを判定する
• 目的関数
–
• 𝔼 𝑠,𝑎 ∼𝜋 𝐸 ⋅ は未知のエキスパート方策𝜋 𝐸(𝑎 ∣ 𝑠)のもとで得られる
定常状態行動分布のもとでの期待値
– 𝔼 𝑠,𝑎 ∼𝜋[⋅]も同様
min
𝜋
max
𝐷
𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 ln 𝐷 𝑠, 𝑎 − 𝜆ℋ(𝜋)
𝐷 𝑠, 𝑎 = ൝
1 (𝑠, 𝑎)が学習者が生成データの場合
0 (𝑠, 𝑎)がエキスパートデータの場合
𝜋 𝐸
𝑠, 𝑎 = 𝜋 𝐸
(𝑎 ∣ 𝑠) ෍
𝑡=0
∞
𝛾 𝑡
𝑃 𝑠𝑡 = 𝑠 𝜋 𝐸

識別器と生成器の目的関数
• 識別器の学習はGANと同様に二値分類問題
• 生成器の目的関数
– 識別器から計算される報酬を使って通常の強化学習を実行して
方策𝜋を求める
– 任意のアルゴリズムが使用できるが，オリジナルではTrust Region Policy
Optimization (Schulman, et al., 2015)を使用
max
𝐷
𝐽 𝐷 𝐷 , 𝐽 𝐷(𝐷) = 𝔼(𝑠,𝑎)∼𝜋 𝐸 ln 1 − 𝐷 𝑠, 𝑎 + 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎
min
𝜋
𝐽 𝜋
𝜋 , 𝐽 𝜋
𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎
max
𝜋
𝔼 𝑠,𝑎 ∼𝜋 𝐿 𝑟 𝑠, 𝑎 𝑟 𝑠, 𝑎 = − ln 𝐷 𝑠, 𝑎

エキスパートデータ数に対する性能比較
Ho, J. & Ermon, S. (2016). Generative adversarial imitation learning. NeurIPS 29.

GAILの様々な拡張
• 行動が観測できない場合への対応
– IRLGAN (Henderson et al., 2018), AGAIL (Sun & Ma, 2019),
GAIfO (Torabi, et al., 2019)
• マルチタスクへの応用
– OptionGAN (Henderson et al., 2018), InfoGAIL (Li, et al., 2017)
• サンプル効率の改善
– DAC (Kostrikov, et al., 2019), (Sasaki et al., 2019), SAM (Blondé & Kalousis, 2019)
• モデルベース
– MGAIL (Baram et al., 2017)
• 識別器の構造化
– AIRL (Fu, et al., 2018)

GAILの問題点
• 少量のエキスパートデータから模倣行動を実現
– 単純な模倣(Behavior Cloning)よりも高性能
• 識別器が推定した報酬をもとに通常の方策オン型強化学習に
よって方策を学習するため，環境との相互作用回数に関して
サンプル効率は良くない
– つまり実際に学習方策を用いてデータを大量に生成する必要がある
• 識別器𝐷(𝑠, 𝑎)は構造化されていない
• 推定された報酬は偏りがある

強化学習に基づく模倣学習
• 順強化学習＋逆強化学習 → 敵対的模倣学習 (GAIL)
順強化学習のサンプル効率が悪い
エキスパート
方策: 𝜋 𝐸
初期学習
方策: 𝜋0
𝐿
方策𝜋 𝑘
𝐿
の実行
逆強化学習（識別器）
𝑟𝑘, 𝑉𝑘
エキスパートの行動データ: 𝒟 𝐸
𝒟 𝑘
𝐿
順強化学習（生成器）
学習者の
行動データ: 𝒟 𝐿
推定報酬𝑟𝑘と価値関数𝑉𝑘
を使って方策を更新
行動データ𝒟 𝐸, 𝒟 𝐿から
エキスパートの報酬𝑟と
価値関数𝑉を推定
𝜋 𝑘+1
𝐿
順強化学習と逆強化学習が密にカップリングした
敵対的模倣学習を提案
状態価値関数は順逆両方で更新される
生成器と識別器でネットワークの一部を共有する

定式化
• 次のKullback-Leibler (KL)ダイバージェンス最小化を考える
– 𝜋 𝐸
: (未知の)エキスパートの分布，
サンプルだけが与えられる
– 𝜋 𝐿: 学習者の分布
– Τ𝜋 𝐿 𝜋 𝐸は計算できない
• Note: 𝐷KL 𝜋 𝐸 ∥ 𝜋 𝐿 の最小化は
行動クローニング(BC)に対応
𝐽 𝜋 𝐿 = 𝐷KL(𝜋 𝐿 ∥ 𝜋 𝐸) = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln
𝜋 𝐿 𝑠, 𝑎, 𝑠′
𝜋 𝐸 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′
𝜋 𝐸
𝑠, 𝑎, 𝑠′
𝜋∗
𝐿
= arg min 𝐷KL 𝜋 𝐸
∥ 𝜋 𝐿
𝜋∗
𝐿 = arg min 𝐷KL 𝜋 𝐿 ∥ 𝜋 𝐸

提案手法のアイデア
• 対数密度比をサンプルから推定し，近似した目的関数を最小化
– 識別器𝐷 𝑠, 𝑎, 𝑠′
をエントロピ正則化強化学習の理論をもとに構造化
– ロジスティック回帰による密度比推定逆強化学習
– KLダイバージェンス最小化順強化学習
𝐽 𝜋 𝐿 = න 𝜋 𝐿 𝑠, 𝑎, 𝑠′ ln
𝜋 𝐸 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′
≈ න 𝜋 𝐿
𝑠, 𝑎, 𝑠′
ln
𝐷 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑠, 𝑎, 𝑠′
d𝑠d𝑎d𝑠′ density ratio trick
[Sugiyama et al., 2012]
内部 (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会 (優秀賞)
Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse reinforcement learning.
Proc. of RLDM.

マルコフ性を利用した密度比の分解
•
• 二つの識別器𝐷 𝑘 𝑠 , 𝐷 𝑘(𝑠, 𝑎, 𝑠′)をロジスティック回帰によって推定
𝐷 𝑘 𝑠
1 − 𝐷 𝑘 𝑠
𝜋 𝐸 𝑠, 𝑎, 𝑠
=
𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎
𝑝 𝑇 𝑠′ ∣ 𝑠, 𝑎
×
𝜋 𝐿 𝑎 𝑠
𝜋 𝐸 𝑎 𝑠
×
𝜋 𝐿 𝑠
𝜋 𝐸 𝑠
𝐷 𝑘 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′
状態遷移確率の比ベルマン最適方程式

識別器と密度比の関係
• Bayes則
• 対数密度比
– 右辺第2項は 𝒟 𝐿 , 𝒟 𝐸 から計算
(Sugiyama, et al., 2012)
𝐷 𝑠 ≜ Pr(learner ∣ 𝑠) =
Pr 𝑥 learner Pr learner
Pr 𝑠
𝜋 𝐿 𝑠 = Pr(𝑠 ∣ learner)
𝜋 𝐿 𝑠
𝜋 𝐸
𝑠
𝐷 𝑠ln
𝐷(𝑠)
1 − 𝐷(𝑠)
= ln
𝜋 𝐿(𝑠)
𝜋 𝐸(𝑠)
+ ln
Pr learner
Pr expert

エントロピ正則化された強化学習
• 報酬が次の形式で表現されていると仮定
– ℋ(𝜋): 方策𝜋のエントロピ．確率的な探査行動への評価
– KL(𝜋 ∥ 𝜋 𝑘
𝐿
): 方策𝜋 𝑘
𝐿
とのKLダイバージェンス．急激な方策更新に対する罰
– 𝑟𝑘(𝑥): 推定対象となる報酬関数
– 𝜅, 𝜂: メタパラメータ．ノイズ耐性や漸近的性能に影響 (Kozuno et al., 2019)
– 𝜂 → ∞: Soft Q-learning, Soft Actor-Critic (Haarnoja et al., 2018)
– 𝜅 → ∞: Dynamic Policy Programming (Azar et al., 2012)
𝑟 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜅−1ℋ 𝜋 − 𝜂−1 𝐷KL 𝜋 ∥ 𝜋 𝑘
𝐿
Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of softmax and
gap-increasing operators in reinforcement learning. In Proc. of AISTATS.

エントロピ正則された時の
ソフトベルマン方程式
• 最適方策の下での最適状態価値に
関する関係式
• エントロピ正則化されたときの
ベルマン最適方程式
• ラグランジュの未定乗数法により，𝜋に関して最大化が解ける
𝑉∗(𝑠)
𝑉∗(𝑠′)
𝑝 𝑇(𝑠′|𝑠, 𝑎)
𝑠
𝑠′
max
𝑉∗(𝑠) = max
𝜋
෍
𝑎
𝜋(𝑎 ∣ 𝑠) ൥𝑟 𝑠 − 𝜅−1 ln 𝜋 𝑎 𝑠 − 𝜂−1 ln
𝜋(𝑎 ∣ 𝑠)
𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠)
቉+𝛾 ෍
𝑠′
𝑝 𝑇 𝑠′ 𝑠, 𝑎 𝑉∗ 𝑠′

エントロピ正則されたソフトベルマン方程式
• 対数方策比が報酬，状態価値，一ステップ前の方策で表現される
–
• 最適方策を𝜋 = 𝜋 𝐸
としてKLダイバージェンスの計算に利用
1
𝛽
ln
𝜋 𝑎 𝑠
𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠)
= 𝑟𝑘 𝑠 − 𝜅−1
ln 𝜋 𝑘
𝐿
𝑎 𝑠
+𝛾𝔼 𝑠′∼𝑝 𝑇 ⋅∣𝑠,𝑎 𝑉𝑘 𝑠′ − 𝑉𝑘(𝑠)
𝛽 ≜
𝜅𝜂
𝜅 + 𝜂
Uchibe, E. & Doya. K. (2014). Inverse reinforcement learning using Dynamic Policy Programming. In Proc. of
ICDL-EpiRobo, 222–228.
Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural Processing
Letters 47(3): 891–905.

密度比推定問題としての逆強化学習
• ソフトベルマン方程式から導出された識別器の関係
ln
𝐷 𝑘 𝑠, 𝑎, 𝑠′
1 − 𝐷 𝑘 𝑠, 𝑎, 𝑠′
= ln
𝐷 𝑘(𝑠)
1 − 𝐷 𝑘 𝑠
−𝛽 𝑟𝑘 𝑠 − 𝜅 ln 𝜋 𝑘
𝐺
𝑎 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝐷 𝑘(𝑠, 𝑎, 𝑠′) =
exp 𝛽𝜅−1
ln 𝜋 𝑘
𝐺
𝑎 𝑠
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐺
𝑎 𝑠
𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝑔 𝑘 𝑠 ≜ ln Τ𝐷 𝑘(𝑠) 1 − 𝐷 𝑘 𝑠

ベルマン方程式により構造化された識別器
•
– 𝛽を調整して識別器の性能を制御
– Information Bottleneckとは異なる
識別器の制御(Peng et al., 2019)
• 従来研究との関係
– AIRL (Fu et al., 2018): 𝑔 𝑘 𝑠 = 0
and 𝛽 = 1, 𝜅 = 1
– LogReg-IRL (Uchibe, 2018): 𝜅 = 0
𝐷 𝑘(𝑠, 𝑎, 𝑠′
) =
exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′ + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠
𝑓𝑘 𝑠, 𝑎, 𝑠′ ≜ 𝑟𝑘 𝑠 − 𝛽−1 𝑔 𝑘 𝑠 + 𝛾𝑉𝑘 𝑠′ − 𝑉𝑘 𝑠
𝜋 𝐿
𝜋 𝐸

KLダイバージェンス最小化としての順強化学習
• 密度比推定の結果を使ってKLダイバージェンスを最小化し，
ベースライン方策を更新
– エントロピ正則化強化学習の目的関数
• 方策オフ型であるSoft Actor-Criticと類似したアルゴリズムによって
状態価値𝑉，行動価値𝑄，方策を学習
– 状態価値は逆強化学習の結果によって初期化
𝜋 𝑘+1
𝐿
= arg min
𝜋 𝐿
𝔼 𝜋 𝐿 ln
1 − 𝐷 𝑠, 𝑎, 𝑠′
= arg max
𝜋 𝐿
𝔼 𝜋 𝐿 ෍
𝑡
𝛾 𝑡 ෤𝑟 𝑠𝑡, 𝑎 𝑡

GANとの関係
• GAILにおける生成器の目的関数
– 学習初期は𝐺の性能が悪く簡単に識別できるため
ln(1 − 𝐷 𝑠, 𝑎 が飽和
• よく使われる代替案 (Goodfellow et al., 2014)
• 両者の和
ሚ𝐽 𝐺
= 𝔼 𝑠,𝑎 ∼𝜋 𝐿 − ln 1 − 𝐷 𝑠, 𝑎, 𝑠′
min
𝜋
𝐽 𝜋 𝜋 , 𝐽 𝜋 𝜋 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln 𝐷 𝑠, 𝑎, 𝑠′
ҧ𝐽 𝐺 = 𝐽 𝐺 + ሚ𝐽 𝐺 = 𝔼 𝑠,𝑎 ∼𝜋 𝐿 ln
1 − 𝐷 𝑠, 𝑎, 𝑠′

修正Soft Actor-Criticによる方策学習
• ソフト最適状態行動価値関数
• ソフト最適状態価値関数
• 最適方策
𝜋∗ 𝑎 𝑠 =
exp 𝛽𝑄∗
𝑠, 𝑎
exp 𝛽𝑉∗ 𝑠
𝑄∗ 𝑠, 𝑎 = 𝑟𝑘 𝑠 + 𝜂−1 ln 𝜋 𝑘
𝐿
(𝑎 ∣ 𝑠) + 𝛾𝔼 𝑝 𝑇
𝑉 𝑠′
𝑉∗
𝑠 =
1
𝛽
ln ෍
𝑎
exp 𝛽𝑄∗
𝑠, 𝑎 = softmax
𝑎
𝑄∗
(𝑠, 𝑎)

実験: MuJoCo制御課題
• タスク: できるだけ早く前進する
• オリジナルの報酬 𝑟𝑡 = 𝑣 𝑡 − 𝑐 𝒂 𝑡 2
– 𝑣 𝑡: 前進速度．𝑐: ロボット固有のパラメータ
• エキスパート方策の準備
– 方策オン型であるTrust Region Policy Optimization (Schulman et al., 2015)を
使って学習
– エキスパート方策からエキスパートデータ𝒟 𝜋を生成
• 提案手法(ERIL)を以下の手法と比較
– BC: 行動クローニング, GAIL
– (Sasaki et al., 2019), DAC: Discriminator-Actor-Critic (Kostrikov et al., 2019),
SAM: Sample-efficient Adversarial Mimic (Blondé, et al., 2019)

エキスパートデータ数の効果
• 提案手法(ERIL)と
従来法は同程度
• BCはデータ数が
少ない場合は
性能は低い
Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning.

環境との相互作用回数の効果
• 順強化学習時の
相互作用の回数
が少ない場合，
提案手法(ERIL)は
従来法よりも性
能が高い

実験: ビデオゲーム(Atari)課題
• エキスパートデータ𝒟 𝜋
– 3人の被験者から収集 𝑠𝑡, 𝑎 𝑡
human, 𝑟𝑡, 𝑠𝑡+1
𝑡=1
𝑇
– 𝒟 𝜋 = 𝑠𝑡, 𝑠𝑡+1 𝑡=0
𝑇
: 行動を取り除く
– 状態𝑠はゲーム画面
• 推定された報酬を使って，最初から学習
したときの学習曲線を比較
– BC，オリジナル報酬からの学習, LogReg-IRL (Uchibe, 2018)
– PI_IOC (Kalakrishnan et al., 2013): 経路積分型逆強化学習
SeaquestSpace Invaders

報酬による学習効率の違い
• 推定報酬は学習初期段階において効率を改善
• ゲームによってはオリジナル報酬と同程度
SeaquestSpace Invaders

実験: 人の倒立振り子課題
• タスク: 振り子を振り上げ，3秒間倒立状態を
維持する
• 実験条件:
– 振り子の長さ: long (73 cm), short (29 cm)
– 各振り子ごとに15試行
– 1試行あたり最大40 [s]
– 被験者数: 7 (右利き: 5, 左利き: 2)
– 行動(𝐹𝑥, 𝐹𝑦)は観測されない
– GAIfO: GAN-based imitation
– C-BC: 条件つき行動クローニング
– LogReg-IRL (Uchibe, 2018):
𝐹𝑥
𝐹𝑦
𝜃
(𝑥, 𝑦)
• State: (𝑥, ሶ𝑥, 𝑦, ሶ𝑦, 𝜃, ሶ𝜃)
• Action: (𝐹𝑥, 𝐹𝑦)

条件つきへの拡張
• 識別器に条件ラベル𝑐を導入
• マルチタスク強化学習で使われる表現
• 𝑉(𝑠, 𝑐): universal value function (Schaul et al., 2015)
𝐷 𝑘(𝑠, 𝑎, 𝑠′
∣ 𝑐) =
exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠, 𝑐
exp 𝛽𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 + exp 𝛽𝜅−1 ln 𝜋 𝑘
𝐿
𝑎 𝑠, 𝑐
𝑓𝑘 𝑠, 𝑎, 𝑠′, 𝑐 ≜ 𝑟𝑘 𝑠, 𝑐 − 𝛽−1 𝑔 𝑘 𝑠, 𝑐 + 𝛾𝑉𝑘 𝑠′, 𝑐 − 𝑉𝑘 𝑠, 𝑐

被験者行動の復元
• 従来法よりも被験者行動を復元
• C-ERIL vs ERIL: 条件つきにすることで改善
observed trajectories
generated trajectories

まとめ
• エントロピ正則された強化学習に基づく敵対的模倣学習を提案
– 逆強化学習 = 密度比推定による報酬と状態価値の推定
= ロジスティック回帰によるエキスパートと学習者のデータの分類
– 順強化学習 = 近似reverse KLダイバージェンスの最小化
= 方策オフ型のSoft Actor-Criticによる方策と価値関数の更新
• 様々なベンチマーク課題により従来法よりもサンプル効率が良い
ことを示した
– 順・逆強化学習でネットワークを一部共有している
– 順強化学習が方策オフ型で，過去に収集したデータを利用できる

今後の課題
• メタパラメータの調査
– 順強化学習における効果 (Kozuno et al., 2019)
– 逆強化学習でも同様？
• その他の敵対的模倣学習との比較
– Forward KL version of AIRL (Ghasemipour et al., 2019)
– Soft Q Imitation Learning (Reddy et al., 2019)

謝辞
• 本研究の成果は，国立研究開発法人新エネルギー・産業技術総合
開発機構 (NEDO) の委託業務，JST 未来社会創造事業 JPMJMI18B8の
結果得られたものです．また，本研究の一部は JSPS 科研費
JP17H06042,JP19H05001の助成を受けたものです．

References
• Blondé, L., & Kalousis, A. (2019). Sample-Efficient Imitation Learning via Generative Adversarial Nets.
Proc. of the 22nd International Conference on Artificial Intelligence and Statistics, 3138–48.
• Finn, C., Christiano, P., Abbeel, P., and Levine, S. (2016). A Connection Between Generative
Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models. NIPS 2016
Workshop on Adversarial Training.
• Fu, J., Luo, K., and Levine, S. (2018). Learning robust rewards with adversarial inverse reinforcement
learning. In Proc. of ICLR.
• Fujimoto, S., van Hoof, H., & Meger, D. (2018). Addressing Function Approximation Error in Actor-
Critic Methods. Proc. of the 35th International Conference on Machine Learning.
• Henderson, P., Chang, W.-D., Bacon, P.-L., Meger, D., Pineau, J., & Precup, D. (2018). OptionGAN:
Learning Joint Reward-Policy Options using Generative Adversarial Inverse Reinforcement Learning.
In Proc. of AAAI.
• Hirakawa, T., Yamashita, T., Tamaki, T., Fujiyoshi, H., Umezu, Y., Takeuchi, I., Matsumoto, S., and
Yoda, K. (2018). Can AI predict animal movements? Filling gaps in animal trajectories using inverse
reinforcement learning. Ecosphere.

References
• Ho, J. and Ermon, S. (2016). Generative adversarial imitation learning. NIPS29.
• Kalakrishnan, M., Pastor, P., Righetti, L., & Schaal, S. (2013). Learning objective functions for
manipulation. In Proc. of ICRA, 1331–1336.
• Kostrikov, I., Agrawal, K.K., Dwibedi, D., Levine, S., & Tompson, J. (2019). Discriminator-Actor-Critic:
Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning. Proc. of the 7th
ICLR.
• Kozuno, T., Uchibe, E., and Doya, K. (2019). Theoretical analysis of efficiency and robustness of
softmax and gap-increasing operators in reinforcement learning. In Proc. of AISTATS.
• Li, Y., Song, J., & Ermon, S. (2017). InfoGAIL: Interpretable Imitation Learning from Visual
Demonstrations. NIPS30.
• Peng, X.B., Kanazawa, A., Toyer, S., Abbeel, P., & Levine, S. (2019). Variational Discriminator
Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow.
In Proc. of the 7th International Conference on Learning Representations. ICLR, 2019.
• Sasaki, F., Yohira, T., & Kawaguchi, A. (2019). Sample Efficient Imitation Learning for Continuous
Control. Proc. of the 7th International Conference on Learning Representations.

References
• Schaul, T., Horgan, D., Gregor, K., & Silver, D. (2015). Universal Value Function Approximators. In Proc.
of ICML, 1312–1320.
• Shimosaka, M., Kaneko, T., & Nishi, K. (2014). Modeling risk anticipation and defensive driving on
residential roads with inverse reinforcement learning. Proc. of the 17th International IEEE Conference
on Intelligent Transportation Systems, 1694–1700.
• Sugiyama, M., Suzuki, T., & Kanamori, T. (2012). Density ratio estimation in machine learning.
Cambridge University Press.
• Sun, M., & Ma, X. (2019). Adversarial Imitation Learning from Incomplete Demonstrations. In Proc. of
IJCAI, 2019.
• Suzuki, Y., Wee, W.M., & Nishioka, I. (2019). TV Advertisement Scheduling by Learning Expert
Intentions. In Proc. of the 25th ACM SIGKDD International Conference on Knowledge Discovery &
Data Mining, pp. 3071–81.
• Torabi, F., Warnell, G., & Stone, P. (2019). Generative Adversarial Imitation from Observation. ICML
2019 Workshop on Imitation, Intent, and Interaction.
• Uchibe, E. & Doya, K. (2014). Inverse reinforcement learning using dynamic policy programming. In
Proc. of ICDL and Epirob.

References
• Uchibe, E. (2018). Model-Free Deep Inverse Reinforcement Learning by Logistic Regression. Neural
Processing Letters, 47(3): 891-905.
• 内部. (2019). エントロピ正則された強化学習を用いた模倣学習. 第33回人工知能学会全国大会
予稿集.
• Uchibe, E. (2019). Imitation learning based on entropy-regularized forward and inverse
reinforcement learning. Proc. of RLDM.
• Uchibe, E., & Doya, K. (in preparation). Imitation learning based on entropy-regularized forward and
inverse reinforcement learning.
• Wulfmeier, M., Rao, D., Wang, D.Z., Ondruska, P., & Posner, I. (2017). Large-scale cost function
learning for path planning using deep inverse reinforcement learning. International Journal of
Robotics Research, vol. 36, no. 10: 1073–1087.
• Yamaguchi, S., Honda, N., Ikeda, M., Tsukada, Y., Nakano, S., Mori, I., and Ishii, S. (2018).
Identification of animal behavioral strategies by inverse reinforcement learning. PLoS Computational
Biology.

強化学習と逆強化学習を組み合わせた模倣学習

More Related Content

What's hot

Similar to 強化学習と逆強化学習を組み合わせた模倣学習

強化学習と逆強化学習を組み合わせた模倣学習