NIPS+読み会・関西#7
逆強化学習の行動解析への応用
Eiji Uchibe
Dept. of Brain Robot Interface, ATR Computational Neuroscience Labs.
逆強化学習
• 最適方策(エキスパート)から生成された状態・行動系列から
報酬を推定する方法
• 不良設定問題なので、報酬は唯一には求められない
• 順強化学習と組み合わせて、ロボット制御のための
模倣学習法として研究されることが多い
• 次世代脳プロジェクト冬のシンポジウムで、行動解析
のための逆強化学習について講演する予定なので
そのネタつくりの一環として今日は2本の論文を紹介
報酬・コスト
(目的関数)
(順) 強化学習
逆強化学習
最適方策
(エキスパート)
逆強化学習の行動解析への応用例
[Mueling et al., 2014]
[Shimosaka et al., 2014; 2015] [Collette et al., 2017]
[Yamaguchi et al., 2018]
Modeling sensory-motor decisions in
natural behavior
R. Zhang , S. Zhang, M. H. Tong, Y. Cui, C. A. Rothkopf, D. H. Ballard,
M. M. Hayhoe
PLoS Computational Biology, 2018
論文の概要
• 3次元仮想環境下での人の
ナビゲーションの解析
• モジュール逆強化学習の提案
– 各モジュールの報酬関数を
簡単なクラスに制限できる
– 割引率も同時に推定
モジュラー行動価値関数
• 本来の状態行動価値関数を
𝑁個のモジュール価値で表現
• 𝑀 𝑛
: 𝑛番目のモジュールで
関連する物体の個数
𝑄 𝑠, 𝑎 = ෍
𝑛=1
𝑁
𝑄 𝑛 𝑠 𝑛 , 𝑎
= ෍
𝑛=1
𝑁
෍
𝑚=1
𝑀 𝑛
𝑄 𝑛 𝑠 𝑛,𝑚 , 𝑎
モジュール化による価値関数の簡単化
• 各モジュールはfollow a path across the room, avoiding obstacles,
heading towards target objectsなど単純化されていると仮定
• さらに状態遷移が決定論的だと仮定
• モジュール𝑛の行動価値が次のように表現できる
– 𝑟 𝑛 , 𝛾 𝑛 が逆強化学習で推定するパラメータ
– 𝑑(𝑠(𝑛.𝑚), 𝑎)が状態𝑠 𝑛,𝑚 で行動𝑎をとった
あと、オブジェクト𝑚までの「距離」
𝑄 𝑛
𝑠 𝑛,𝑚
, 𝑎 = 𝑟 𝑛
× 𝛾 𝑛 𝑑 𝑠 𝑛,𝑚 ,𝑎
[Doya, 2008]
割引率とは
• 報酬が有界なら、割引積算報酬も有界なので
扱いやすい
• Prediction of immediate and future rewards
differentially recruits cortico-basal ganglia loops
The robot does not move
towards the battery
The robot tries to catch
the battery
large 𝜸
small 𝜸𝑟 ≤ 𝑅max
෍
𝑡
𝛾 𝑡
𝑟𝑡 ≤
𝑅max
1 − 𝛾
[Tanaka et al., 2004]
逆強化学習の目的関数
• Softmax行動選択を仮定
– 𝜂: 逆温度メタパラメータ
• 行動データ𝒟 = 𝑠𝑡, 𝑎 𝑡 𝑡=1
𝑇
が与えられたとき
対数尤度関数は
𝜋(𝑎 ∣ 𝑠) =
exp 𝜂𝑄 𝑠, 𝑎
σ 𝑎′ exp 𝜂𝑄 𝑠, 𝑎′
𝜂 = 3
𝜂 = 0.05
log ℒ = ෍
𝑡=1
𝑇
൮෍
𝑛=1
𝑁
෍
𝑚=1
𝑀 𝑛
𝜂𝑟 𝑛 𝛾 𝑛 𝑑 𝑠 𝑡
𝑛,𝑚
,𝑎 𝑡
− log ෍
𝑎
ෑ
𝑛=1
𝑁
ෑ
𝑚=1
𝑀 𝑛
exp 𝜂𝑟 𝑛
𝛾 𝑛 𝑑 𝑠 𝑡
𝑛,𝑚
,𝑎
実際に最適化計算をするときの注意
• 𝑟 1
, … , 𝑟 𝑁
についてのスパースネス正則項(L1)を導入
• 𝛾 1 , … , 𝛾 𝑁 は基本的にスパースではないので何もしない
• 𝜂は報酬との積の形でしか対数尤度に出てこないので推定不可
• 𝑟 1:𝑁 と𝛾 1:𝑁 を同時に推定すると対数尤度は凸ではないので、
最適化が困難
– 𝛾 1:𝑁
はグリッドサーチ
– 𝑟 1:𝑁 は勾配法で最適化。𝛾 1:𝑁 が与えられたとき対数尤度は凸
[Dvijotham and Todorov, 2010]
被験者の行動と逆強化学習の推定結果の比較
• 黒線: 被験者の行動、緑線: 推定された方策から生成、3人の被験
者
Task1: Follow the path only
Task2: Follow the path and avoid obstacles
Task3: Follow the path and collect the targets
Task4: Follow, avoid, and collect together
タスク間の差異
• 全ての被験者のデータをまとめて解析
被験者間の差異
推定された方策と人の行動の定量的な比較
• 提案手法MIRLは人の行動と近い
個人的な意見
• モジュール化によって報酬や価値関数を簡単にするのは面白い
– モジュール数𝑁を可変にするのは可能
– 𝑑(𝑠, 𝑎)が計算できるということは現状態から報酬の源までの距離が
計算できることを意味するので、本質的にモデルベース手法?
– 𝑑(𝑠, 𝑎)を特徴量とみなせばモデルフリーと解釈できる?
• 各モジュールの報酬の総和𝑟 = σ 𝑛 𝑟 𝑛 を使って学習した最適行動
価値関数𝑄∗
はモジュールの行動価値の和ではない
エントロピ正則された強化学習のように𝑄∗
とσ 𝑛 𝑄 𝑛
のギャップ
(のbound)を評価する手法を使う必要がある?
Can AI predict animal movements? Filling
gaps in animal trajectories using inverse
reinforcement learning
T. Hirakawa, T. Yamashita, T. Tamaki, H. Fujiyoshi, Y. Umezu,
I. Takeuchi, S. Matsumoto, and K. Yoda
Ecosphere, 2018
論文の概要と選択理由
• 海鳥(オオミズナギドリ)の飛行経路予測
– GPSの情報が得られない場合に、うまく
経路を予測できるか?
計測データ
• 106 trajectories (53 males and 53 females)
報酬を表現する特徴量オス メス
最大エントロピ逆強化学習の適用
• モデルベース逆強化学習MaxEnt IRL [Ziebart et al., 2010]を適用
• 環境を量子化し、離散状態・離散行動MDP環境を作成
– 元の連続状態は位置(𝑥𝑡, 𝑦𝑡)と経過時間𝑧𝑡
逆強化学習MaxEnt IRLの概念図
MaxEnt IRL [Ziebart et al., 2008]
• 前述のModular IRLとは異なり、軌跡𝜏 = {𝑠1, 𝑎1, … , 𝑠 𝑇, 𝑎 𝑇}に対して
確率モデルを導入
– 𝜽は即時報酬のパラメータ
• 勾配計算には𝑍 𝜃 の微分
が必要だが、𝑍(𝜃)の評価
には順方向の強化学習計算が必要
• 何度も順方向の問題を解く必要がある
𝑃 𝜏 𝜽 =
1
𝑍 𝜽
exp ෍
𝑡=1
𝑇
𝑟(𝑠𝑡, 𝑎 𝑡; 𝜽) , 𝑍(𝜽) = ෍
𝜏
exp ෍
𝑡=1
𝑇
𝑟 𝑠𝑡, 𝑎 𝑡; 𝜽
𝜏 総報酬
𝜏
Pr(𝜏𝑖)
𝜏
オスの行動データからの予測の比較
• 実際の計測データを
– 黒線: 観測されたデータ
– 青線: 正解データ
• 黒線のデータが与えられた
とき青線を予測できるか?
• 赤線: 逆強化学習で推定した
報酬を用いた予測
• オレンジ: 従来の線形予測
推定された報酬関数
個人的な意見
• 機械学習の観点からは単純なMaxEnt IRLの適用
• 生態学の分野で逆強化学習が応用された例としては興味深い
• 実装が公開されているので、自分で確認したい
https://github.com/thirakawa/MaxEnt_IRL_trajectory_interpolation
• 単純な線形補間ではなく、単純なダイナミカルシステムとして
処理した結果の比較も見たい
• 結果として得られた報酬は専門家から見て興味深いのかどうか
References
• Doya K. (2008). Modulators of decision making. Nature neuroscience, 11(4):410–416.
• Hirakawa, T., Yamashita, T., Tamaki, T., Fujiyoshi, H., Umezu, Y., Takeuchi, I., Matsumoto, S., and
Yoda, K. (2018). Can AI predict animal movements? Filling gaps in animal trajectories using inverse
reinforcement learning. Ecosphere.
• Tanaka, S.C., Doya, K., Okada, G., Ueda, K., Okamoto, Y., and Yamawaki, S. (2004). Prediction of
immediate and future rewards differentially recruits cortico-basal ganglia loops. Nature
Neuroscience, 7(8): 887-893.
• Zhang , R., Zhang, S., Tong, M. H., Cui, Y., Rothkopf, C. A., Ballard, D. H., and Hayhoe, M. M. (2018).
Modeling sensory-motor decisions in natural behavior. PLoS Computational Biology.
• Ziebart, B., et al. (2008). Maximum entropy inverse reinforcement learning. In Proc. of AAAI.

NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用