Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
AI	System	Dept.
System	Management	Unit
Kazuki	Fujikawa
Intrinsic Motivation and Automatic
Curricula via Asymmetric Self-Play
ICLR2018読み会 - 個別論⽂報告
May 26, 2018
Jun Ernesto Okumura
DeNA Co., Ltd.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
講演者の紹介
奥村 エルネスト 純 @pacocat
■ 略歴
⁃ 宇宙物理学の研究(Ph.D)
• ⾼エネルギー天体現象、観測的宇宙論
⁃ データアナリスト
• ゲーム領域:⾏動ログ分析、ゲームデザイン
• オートモーティブ領域:移動体分析
⁃ AI研究開発エンジニア
• 強化学習・深層学習を使ったゲームAI研究開発推進
⁃ 『ゲーム体験を⽀えるための強化学習』@DeNA TechCon 2018
https://www.slideshare.net/juneokumura/dena-techcon2018
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
強化学習とは?
ある環境下で、⽬的とする利益を最⼤化するための、
戦略(⾏動系列)を獲得する機械学習の⼀種
環境
例:ゲームの対戦シミュレータ
現在の状況を観測
勝率が⾼くなりそうな⾏動を選択
⾏動の結果と報酬を観測
…
• 未知の環境(新しい環境)に対しても学習が可能
• 試⾏錯誤を繰り返しながら、⾃律的に学習ができる
強化学習の問題系
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
複雑なゲームを解かせる時に困っていること
■ 既存の強化学習⼿法で解決できていない課題への対応
⁃ 探索すべき状態・⾏動空間が膨⼤
⁃ 不完全情報
• “Libratus”, “DeepStack”, 等のポーカーAIを参照中※1
⁃ 環境に対する汎化性
• キャラ追加やトレンドによりゲーム内環境が次々と変化する
• 相⼿の戦い⽅が変わると環境も変わる
⁃ 階層的な意思決定構造
• ゲームの局⾯において複数のサブ戦略がある
■ 現在関⼼を持っている領域
⁃ 階層型強化学習
⁃ 内的動機付け
⁃ 逆強化学習(GAIL※2、LogReg※3、etc…)
※1: 『ポーカーAIの最新動向』(奥村純)
https://www.slideshare.net/juneokumura/ai-20171031
※2: “Generative Adversarial Imitation Learning” (Ho&Ermon 16)
※3: “Deep Inverse Reinforcement Learning by Logistic Regression” (Uchibe 16)
『逆転オセロニア』のゲーム画⾯
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
複雑なゲームを解かせる時に困っていること
■ 既存の強化学習⼿法で解決できていない課題への対応
⁃ 探索すべき状態・⾏動空間が膨⼤★
⁃ 不完全情報
• “Libratus”, “DeepStack”, 等のポーカーAIを参照中※1
⁃ 環境に対する汎化性(★)
• キャラ追加やトレンドによりゲーム内環境が次々と変化する
• 相⼿の戦い⽅が変わると環境も変わる
⁃ 階層的な意思決定構造(★)
• ゲームの局⾯において複数のサブ戦略がある
■ 現在関⼼を持っている領域
⁃ 階層型強化学習
⁃ 内的動機付け
⁃ 逆強化学習(GAIL※2、LogReg※3、etc…)
※1: 『ポーカーAIの最新動向』(奥村純)
https://www.slideshare.net/juneokumura/ai-20171031
※2: “Generative Adversarial Imitation Learning” (Ho&Ermon 16)
※3: “Deep Inverse Reinforcement Learning by Logistic Regression” (Uchibe 16)
『逆転オセロニア』のゲーム画⾯
★:本紹介論⽂で関連する項⽬
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
探索の効率化について
■ 探索の困難
⁃ 学習に有効なサンプルを活⽤したいが、サンプルを得るためには
膨⼤な状態⾏動空間を訪問する必要がある(探索と活⽤のトレードオフ)
⁃ そもそもスパースな報酬にたどり着きにくい
■ 関連する話題(⼀部)
⁃ Intrinsic Motivation※1
• これまでに訪問したことのない状態になるべく訪問する
⁃ Hierarchy※2
• 中間ゴールを設定することで探索空間を縮減
⁃ カリキュラム学習※3
• 徐々にタスク難易度を上げることで⾼度な⾏動系列を獲得
⁃ And More…
※1: e.g. M. G. Bellemare, et al., Unifying count-based exploration and intrinsic motivation. In NIPS, pp. 1471–1479, 2016.
D. Pathak, et al., Curiosity-driven exploration by self-supervised prediction. In ICML, 2017.,
H. Tang et al., #exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, 2017.
※2: 『 NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α 』(甲野祐)
https://www.slideshare.net/yukono1/nips2017pfn-hierarchical-reinforcement-learning
※3: e.g. Y. Bengio et al., Curriculum learning. In ICML, pp. 41–48, 2009.
M. P. Kumar et al., Self-paced learning for latent variable models. In NIPS. 2010.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
本論⽂に関連する最近の話題
■ Universal Value Function Approximators (UVFA)※1
⁃ (学習対象の)状態価値関数※2に(固定された)ゴール状態を⼊れて拡張
⁃ 状態とゴールを分離することで、下位⽅策が獲得されやすくなる
■ Hindsight Experience Replay (HER)※3
⁃ UVFA のようにゴールを決めて学習を⾏う
⁃ 実際にゴールに到達しなかった場合は「その終端状態がゴールだった」と
思い込ませて学習に取り⼊れる(暗黙的なカリキュラム学習)
• イメージ:100点を⽬指していたが90点で終わった
⇒とはいえ頑張ったので、この経験も成功体験と誤認させて学習に利⽤
⁃ スパースな報酬のタスクにおいて有効なことが⽰された
※1: T. Schaul., et al., Universal value function approximators. In ICML, pp. 1312–1320, 2016.
※2: ある⽅策 π のもと、状態 s で⾏動 a を選択した時に得られる期待報酬。ここでθは近似関数のパラメータを表す。
※3: M. Andrychowicz., et al., Hindsight Experience Replay. In NIPS, 2017.
⼀般的な状態⾏動価値関数
拡張された状態⾏動価値関数
(最初からゴール状態を定義して学習を⾏う)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
紹介する論⽂※1(TL;DR)
■ 役割の違う2つのエージェントを使った事前学習によって、
意味のある⾏動系列を獲得させて学習を効率化した話
⁃ エージェントは「タスクを定義する役」と「タスクを解く役」を⽤意
⁃ 徐々に複雑なタスクを解かせるカリキュラムを⾃律的に獲得
• Adversarialにタスクのゴールが設定される
• UVFAやHERをさらに拡張してる、という⾒⽅もできる
⁃ 環境の振る舞いを内包する学習⼿法
⁃ 5種類のテスト課題で学習の効率化を検証した
※1: S. Sukhbaatar, et al. Intrinsic motivation and automatic curricula via asymmetric self-play. In ICLR. 2017.
https://openreview.net/forum?id=SkT5Yg-RZ
http://search.iclr2018.smerity.com/
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:事前学習
■ エージェントの相互プレイによる事前学習
⁃ AliceとBobを⽤意する
• AliceはBobにタスクを提⽰、Bobは与えられたタスクを解く
• BobはAliceの初期状態から終端状態を再現しようとするタスク(Repeat)
と、終端状態から初期状態に戻ろうとするタスク(Reverse)がある
⁃ 敵対的に学習が進むことでより複雑なタスクが解けるようになる(次⾴)
MazeBase: 扉の反対側にあるゴールに到達するタスク。
ドアを開けるスイッチや、部屋の電気スイッチなどのオブジェクトがある。
Alice:ある初期状態からスタートして、適当に進んだ後に⽌まる(STOP状態)
Bob:「AliceのSTOP状態から初期状態に移動するタスクを解く」(Reverseタスク)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:敵対的なカリキュラムの⽣成
■ Bobにとっての問題設定(≒Discriminator)
⁃ なるべく経過時間 が最短となるようにタスクをクリアしたい
⁃ Aliceの⾏動時間 と合わせ⼀定時間 経過するとエピソード終了
■ Aliceにとっての問題設定(≒Generator)
⁃ が⼤きいほど報酬が⼤きい ⇒ Bobが苦労するタスクほど嬉しい
⁃ が⼩さいほど報酬が⼤きい ⇒ タスクはシンプルなほど嬉しい
Aliceが設定したゴール状態
Aliceは “Bobが苦労するなるべく単純なタスク” を設定しようとする
⇒ タスク難易度が徐々に上昇し、カリキュラムが⾃動獲得される
Aliceの始状態
報酬:
⽅策:
報酬:
⽅策:
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
提案⼿法の概要:ターゲットタスクの強化学習
■ 事前学習したBobの⽅策をもとに、ターゲット⽅策を学習
⁃ ターゲットタスクではゴール状態を明⽰的に与えない
⁃ 学習アルゴリズムは⽅策勾配法※1を⽤いる
• REINFORCE
• TRPO (Trust Region Policy Optimization)※2
※1: サンプルした報酬から、報酬をより期待できる勾配⽅向に⽅策 π を改良していくアルゴリズム
※2: J. Schulman., et al. Trust region policy optimization. In ICML. 2015.
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:MazeBase
■ FAIRが提供している強化学習環境※1の⼀種(Light Key)
⁃ エージェントはKeyを訪問しドアを開け、壁の反対側のゴールに辿り着く
⁃ 電気が確率p(light off)で消えており、その場合電気の場所しか⾒えない
• 著者らは確率pを操作することでBobのタスク設定(Reverse/Repeat)の
難易度を議論しているがここでは詳細は割愛
■ 左図:対象タスクを直接学習するよりも事前学習した⽅が成績がいい
■ 右図:Aliceは徐々に複雑な( の⼤きな)タスクを出題している
※1: MazeBase: A Sandbox for Learning from Games (https://arxiv.org/abs/1511.07401)
https://github.com/facebook/MazeBase
事前学習したBobは早くタスクが解けている
Aliceをランダム⽅策にすると上⼿い出題が出来ない
事前学習しないと⾮効率
Aliceは徐々に複雑なタスクを出題
⇒敵対的なカリキュラム⽣成がワークしている
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果: Swimmer Gather
■ RLLabで提供されている運動制御タスク※1
⁃ ⾚⽟を避けながら緑⽟を獲得するタスク
⁃ エージェントは関節の動きを学習しながら泳ぎ⽅を覚えないといけない
■ 右図:事前学習によって学習が効率化されている(⾚・⻘)
⁃ 過去の探索効率化⼿法よりも成績がいい
Swimmer Gather (Accessed on 2018-05-25)
https://www.youtube.com/watch?v=w78kFy4x8ck
※1: https://github.com/rll/rllab
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果: Swimmer Gather
■ Aliceの出題するSTOPと完全に状態が⼀致することは稀なので、
近くに到達すれば課題クリアという条件 を⼊れている
■ AliceのSTOP状態分布を⾒ると、フェーズ毎に出題傾向が変化している
⁃ 最初は真ん中付近で簡単なタスクを出題
⁃ 徐々に遠くに移動するようなタスクを出題
⁃ (最終的に中⼼部に集中しているのはあまり腹落ちせず)
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:StarCraft II
■ DeepMindとBlizzardによって提供されているStarCraft IIの学習環境※1
⁃ 様々な種類のユニットを⽣成することでMarine(兵隊)を作る
⁃ 効率よくMarineを⽣成するには様々な建造物を建てる必要がある
⁃ 建設にはミネラルを効率よく採掘する必要がある
※1: StarCraft II: A New Challenge for Reinforcement Learning (https://arxiv.org/abs/1708.04782)
https://ejje.weblio.jp/content/marine
司令センター
SCV
(ワーカーユニット)
ミネラル採掘
50m/13s
建設
150m/50s
Barracks
(Marine⽣成施設) 50m/15s
Marine
(歩兵ユニット)
訓練
-1m/1s
Supply Depot
(サプライ上限
を増やす建物)
建設 100m/25s
必要なミネラル
必要な時間
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
実験結果:StarCraft II
■ Aliceと同じ状態を訪問することは稀なので、Bobは
各ユニットの⽣成数・ミネラル量が条件を満たせば課題クリア
■ 事前学習で学習が促進され、⽣成されるMarine数は増加している
⁃ Count-based(緑)は、なるべく未訪問の状態に訪問しようという
動機づけによって探索を促進する学習⼿法
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
まとめ・感想
■ まとめ
⁃ ゴール内包した⽅策を事前学習することで様々なゴールに共通する⽅策を
ゴールを与えられなくても暗黙的に有する状態からスタートできた
⁃ ゴールを敵対的に学習することで⾃律的なカリキュラムを実現した
■ 感想
⁃ 環境の学習を内包した事前学習を敵対的に⾏うアイデアが⾯⽩い
■ その他感じた点
⁃ エージェントが到達困難な⻑⼤なゴールに対しては、Alice⾃⾝も
課題を出せない可能性がある
⁃ AliceとBobの敵対的な学習によって、ターゲットタスクを解くのに最適な
事前知識が得られるかは⾮⾃明
• mode collapseのようにAliceが多様なタスクを出さなくなる可能性
• Swimmer GatherにおけるAliceのSTOP分布が少し気になる
⁃ Bobの学習⽅法(Reverse/Repeat)がタスク依存になってるところなど、
⾃律的なカリキュラム獲得とはいえhand engineeringの余地が残る
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix:Pseudo-Code
■ AliceとBobによる事前学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix:Pseudo-Code
■ ターゲットタスクの学習
Copyright	(C)	DeNA	Co.,Ltd.	All	Rights	Reserved.
Appendix
■ 学習パラメータ
⁃ Self-play modeの選択はタスク依存

ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play