強化学習における好奇心

強化学習における好奇心
東京大学大学院工学系研究科技術経営戦略学専攻
今井翔太
Twitter：えるエル@ImAI_Eruel
Email:imais@weblab.t.u-tokyo.ac.jp

本資料について
このスライドは以前，別の場所（speaker deck）で公開していた同名の資料を修正して
改めて公開したものです
当時とは自身の知識，置かれた状況ともにアップデートがあったため，一部記述が異な
る部分や，追加されたスライドがあります
2

スライドの図など
本資料における図は基本的に論文中のものを引用しています
論文中以外の場所から引用した場合にはリンクを貼る等しています
3

自己紹介
今井翔太（Shota Imai）
所属：東京大学大学院工学系研究科
技術経営戦略学専攻松尾研究室
研究分野：強化学習、マルチエージェント，ゲームAI
4
https://xtrend.nikkei.com/atcl/
contents/technology/00007/
メディア（日経クロストレンド）
の記事執筆
強化学習の聖典
『Reinforcement Learning』
の翻訳（分担）
最近の活動
Twitter：えるエル@lmAI_Eruel
高専AIサマースクール，
東京大学松尾研究室
強化学習サマースクール講師
https://twitter.com/ImAI_Eruel
その他，ゲームAIに関する本の執筆など

目次
強化学習・深層強化学習の基礎
報酬がスパースな環境と好奇心による探索
論文紹介
- 環境から得る情報量を用いた内発的報酬
- 疑似的な状態カウントと内発的報酬を組み合わせた探索
- 状態のハッシュ化を用いたカウントによる内発的報酬
- 観測の識別器を用いて推定した密度を内発的報酬とする探索
- まったく報酬が与えられない環境における探索
- 自分に関係あるものだけに注目した好奇心による探索
- ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬
- 過去に保存した良い状態に戻ってスタート地点とする探索手法
- その他好奇心による探索手法
参考文献
おまけ/強化学習の勉強資料紹介
5

目次
論文紹介
参考文献
6

強化学習用語 1
簡単に出てくる用語のみ解説します
エージェント
- 行動の主体
環境
- エージェントが行動を実行して試行錯誤を行い
- 報酬を受け取る場所
行動(Action)
- 環境内のエージェントの行動
状態(State)
- エージェントが環境から受け取る観測
報酬(Reward)
- 環境内での行動に対し環境から与えられる評価値．
- 複数行動の結果得る報酬和の最大化が強化学習の目的
7

強化学習用語 2
軌道(Trajectory)
- 環境における状態，行動，報酬の列
方策(Policy)
- 状態の入力に対して行動を返す．強化学習における学習対象
• 決定論的方策：𝜋(𝑠) = 𝑎
• 確率的方策：𝜋(𝑎|𝑠) = 𝑃[𝑎|𝑠]
価値関数(Value function)
- ある状態や行動に対する，将来的な報酬和を考慮した評価値
遷移確率
- ある状態𝑠𝑡で行動𝑠𝑡を行った場合にある状態𝑠𝑡+1に遷移する確率P[𝑠𝑡+1|𝑠𝑡, 𝑎 𝑡]
8

主な深層強化学習アルゴリズム
資料中に登場するいくつかの基本的な深層強化学習アルゴリズム
について簡単に解説
DQN系統のアルゴリズム
- DQN
- DDQN
- Dueling Network
分散深層強化学習
- A3C
- Golira
方策更新の安定化手法
- TRPO
- PPO
9

DQN系統のアルゴリズム
本資料で，比較アルゴリズムとして出てくるのは以下
DQN(Deep-Q-Network)
- 最初の深層強化学習アルゴリズム
- Q値を出力する深層ニューラルネットを学習
- 過去の経験を貯めるExperience Replayや損失関数の教師信号を出力するTarget Networkを
導入
DDQN(Double DQN)
- DQNの損失関数で，ターゲットで使う行動価値評価を行うネットワークと，評価する行動価値
の行動を選択するネットワークを分離
Dueling Network
- 行動価値関数には，行動による影響を受けない部分が含まれるため分離
- 行動による影響が大きいアドバンテージ関数と行動が関係ない状態価値関数に分ける
10

分散型深層強化学習
A3C(Asynchronous Advantage Actor-Critic)
- 複数エージェントで探索を行い，非同期に勾配情報をparameter serverに送り，本命の方策を
- 更新
- 方策と価値関数評価のNN出力を分けたActor-Criticアルゴリズム
- 価値関数は複数ステップ先を考慮した更新を行う
- CPUで効率的な学習可
Gorila（General Reinforcement Learning Architecture）
- Experience Replayに経験を集めるActor，ネットワークのパラメータ情報を保持するParameter
Server，勾配を計算するLearnerで構成
- 複数のゲームでDQNより遥かに高速に高パフォーマンス
11

方策更新の安定化手法
方策更新の際，場合によって突然大幅に偏った方向に更新されることを防ぐため，方策更
新の範囲に制約を設けたアルゴリズム
TRPO(Trust Region Policy Optimization)
- 方策の大幅な更新を防ぐため，ニューラルネットのパラメータ更新に制約を加える
- 更新前と更新後のパラメータのKLダイバージェンスの値が𝛿以下（信頼区間 Trust Region）に
なるよう制約
PPO(Proximal Policy Optimization)
- TRPOは実装が複雑であり，アルゴリズムのアーキテクチャによっては適応不可なので，
制約条件を改善
- 更新前と更新後のパラメータの比を方策更新量に応じてクリッピングすることで，方策の更新
を抑える
12

ベンチマーク紹介
強化学習の論文でよく用いられるベンチマークを紹介
ここでは特に，好奇心による強化学習アルゴリズムのベンチマークとして
用いられているものを紹介
13

Atari2600
Atari社による57個のゲーム
ゲームの種類は，ブロック崩しから探検ゲームまで様々
好奇心による探索手法のベンチマークとしては特にMontezuma’s Revengeという
ゲームが使用される（後述）
14

マリオ
みなさんお馴染み，我らがスーパーマリオ
手軽な横スクロールのゲームということで，主に初代がベンチマークとして使われる
15

物体制御タスク
(Continuous Control)
強化学習の論文ではお馴染み，４足歩行の物体や人間型の物体などを強化学習で制御
するタスク
物体の各部位（手足関節など）を適切に動かして制御
各部位の行動空間（出力）は連続
16

VizDoom
少々難しめの迷路探索ゲーム
マップ全体を観測できる一般的な２次元迷路課題とは違い，エージェントの視点が
１人称視点
17

Montezuma’s Revenge
Atari2600のゲーム
最初の深層強化学習手法であるDQNでは0点しかとれず，強化学習における最難タスク
主人公がクソ弱い
非常に広大な空間（しかも障害物，敵まみれ）で探索を行うため，報酬獲得が極めて
困難
18
この分野の主要ベンチマークであるた
め，少し詳しく紹介

広大な探索空間
マップ内の一部屋マップ全体２３部屋
参考：https://medium.com/@awjuliani/on-solving-montezumas-revenge-
2146d83f0bc3
19

弱すぎる主人公 1
マリオモンテズマ
落
下
落
下
グシャ！高所からの落下で
も大丈夫
低所から
の落下で
も死亡
20

弱すぎる主人公 2
マリオのジャンプモンテズマのジャンプ
 余裕で敵を飛び越えられ
る
 空中のブロックも楽々飛
び移れる
 敵を飛び越えることすら難しい低空ジャ
ンプ
 タイミングを見計らってジャンプしない
と激突して即死
 ジャンプで高台に飛び移ることは不可能
21

待ち受ける大量の障害物と敵
空中で踊るドクロ達絶妙にかわしにくい蛇２体
当たれば即死の点滅バリア突然消える床
22

どれくらい難しい？
最初の深層強化学習アルゴリズムDQN(Deep-Q-Networkの)Atari2600におけるスコアが
以下
DQNを用いた探索ではスコ
ア０点（！！）で一切攻略
できず
23

目次
論文紹介
参考文献
24

強化学習における問題
報酬がスパースな環境
一般的な強化学習アルゴリズムでは，最初に環境内の各状態の価値関数を本来の評価値
以外で初期化
報酬発見前のエージェントは，適当でない価値関数を元に行動するため，ランダムな探
索をしているに等しい
一度報酬を見つけてしまえば，学習アルゴリズムにより，各状態の評価に正確な報酬の
値が加えられ，正しい評価値を用いた方策更新が可能になる
→最初の報酬発見が重要
それまではランダム探索に頼るしかない
25

実際に強化学習を試して実感
Grid Worldという，複数マスからなる環境を移動して報酬（ゴール）を目指す簡単な
タスクを強化学習で解いてみる
以下のサイトで，強化学習の様子を視覚的に体験できる
https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html
右下(黄色)が報酬1が与えられるマ
ス
最初に報酬を見つける前は，明確な方向が定まら
ず，ランダム探索を続け，偶然な報酬発見まで続
ける
１度報酬を発見すると，各状態の正しい評価値が
更新されていき，探索が方向性を持つ
26

報酬がスパースな環境
（イメージ）
※実際はこれより
報酬獲得が難しい
ランダム探索で最初の報酬を獲得するのは難しく，
いつまでたっても正しい方策更新ができない
エージェン
ト
報酬
27

報酬がスパースな空間における探索
報酬がスパースな環境で，探索基準なしで報酬に到達することは難しい
→外的な報酬に頼らずに，探索の基準を作ることはできないだろうか
人間ならどうする？
- （例）：ゲームの広大なダンジョン探索で進む方向が複数あるとして，
デタラメに進む方向を決めるか？
NO！：既に進んで目的に達しなかったルートは除外し，行ったことがないルートを試すこ
とを繰り返して目的地を目指すはず
→未知の部分への優先的探索を行っている
強化学習のエージェントによる探索でも似たようなことをすればいいのでは？
28

ゲームダンジョンの探索例
１回
１回
０回
 複数進行方向の候補がある
 今まで１度行ったことがある
方向（青色矢印）は目的地に
たどり着かなかったので除外
 今まで行ったことがない方向
（赤色矢印）の方向を目指
す！
ドラゴンクエスト2 ロンダルキアの洞窟
29

好奇心による探索
強化学習のエージェントに未知の部分に対する興味を与えることで，未知の部分への
探索を優先的に行うと，報酬にたどり着きやすくなる
未知の部分に対する興味＝好奇心
好奇心
珍しい物事，未知の事柄に対する興味
（広辞苑第六版より）
30

好奇心による探索のために
エージェントが未知（新規）の状態，つまり訪れたことがない，または少ない状態に
対し優先的に探索を行う必要がある
強化学習における「方策」は，探索中に，多くの報酬を与えられた場所，遷移先の
状態の価値が高い場所に移動する行動を優先的に選択する
ランダム探索の段階では，遷移先の価値は未定であるため，報酬の部分をどうにか
すれば，未知の部分への探索が進みそう
→内発的報酬の導入
31

内発的報酬
外的な報酬に依存せず，何らかの基準でエージェント自身が報酬を生成する報酬
外的な報酬に依存せず報酬を設計できるため，報酬が少ない環境においても学習可能な
手法として注目
内発的報酬を利用することで，訪問回数が少ない状態遷移の価値が高く評価され，
優先的に探索を行うようになる
32

内発的報酬による探索の例
MBIB-EB カウントによる内発的報酬
ある状態𝑠で選択した行動aの回数をカウントし，𝑛(𝑠, 𝑎)とする
𝑛(𝑠, 𝑎)の逆数を内発的報酬として与えると，𝑛(𝑠, 𝑎)が少ない (新規性が高い)状態遷移の
価値評価が高まる
内発的報酬
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)＝4𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)＝2
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)＝4
𝑛(𝑠, 𝑎 𝑢𝑝)＝1
いままであまり選択しなかった行動を選択
すると，内発的報酬は，
𝛽
𝑛(𝑠, 𝑎 𝑢𝑝)
=
𝛽
1
𝛽
𝑛(𝑠, 𝑎𝑙𝑒𝑓𝑡)
=
𝛽
2
と大きくなり，行動価値， 𝑄 𝑠, 𝑎 𝑢𝑝 や
𝑄 𝑠, 𝑎𝑙𝑒𝑓𝑡 は高く評価される
一方，今まで何度も選択した行動を選択す
ると，内発的報酬は，
𝛽
𝑛(𝑠, 𝑎 𝑑𝑜𝑤𝑛)
=
𝛽
𝑛(𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡)
=
𝛽
2
と小さくなり，行動価値， 𝑄 𝑠, 𝑎 𝑑𝑜𝑤𝑛 や
𝑄 𝑠, 𝑎 𝑟𝑖𝑔ℎ𝑡 は低く評価される
33

カウントによる内発的報酬の問題点
現実的には，実際の強化学習タスクでカウントベースの内発的報酬を用いた手法を適用
するのは困難
Ｗｈｙ？
→状態候補が莫大すぎるため
状態候補が多すぎる環境で１つ１つの状態をカウントしても，ほとんどの状態のカウン
トが0に近くなり，カウントの意味をなさない
次章以降は，様々なタスクに適用可能な,
好奇心/内発的報酬による探索の最新研究を紹介していきます
34

目次
論文紹介
参考文献
35

環境から得る情報量を用いた内発的報酬
VIME: Variational Information Maximizing Exploration[Houthooft+]
論文概要
環境に対する情報量の改善＝好奇心とし，情報量が改善されるような状態遷移に対して
多くの内発的報酬を付与
情報量の改善は，状態遷移前後の環境のダイナミクスの分布間のKLダイバージェンス
※非常に数式が多い論文．概念的な部分を中心に話します
36

情報量の改善による内発的報酬の生成方式 37
環境に対する情報量Ｉの改善を内発的報酬とみなす
情報量Iはとある状態𝑠𝑡における遷移確率の分布と， 𝑠𝑡から𝑠𝑡+1に遷移した
後の分布のKLダイバージェンス（確率分布間の距離）で表す
記号
𝜉𝑡 = {𝑠1, 𝑎1, . . . , 𝑠𝑡}:時刻𝑡までの状態と行動による遷移の列
𝑠𝑡：時刻tにおける状態
𝑎 𝑡：時刻tでとった行動
𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡; 𝜃 ：𝑠𝑡で行動𝑎 𝑡を選択したとき状態𝑠𝑡+1に遷移する確率．θでパラメトライズ
情報量改善の式
内発的報酬そのも
の

遷移確率の分布とKLダイバージェンス
𝑝(𝜃|ξ 𝑡, at, st+1)
𝑝(𝜃|ξ 𝑡)
行動𝑎 𝑡行動前の遷移確率は
赤色の分布
行動𝑎 𝑡によって状態𝑠𝑡+1
に遷移後は青色の分布に
分布がどれだけ変形したか，状態𝑠𝑡+1に遷移してどれだけの情報を得たかを，
確率分布間のKLダイバージェンスで測り，変化分を報酬としている
38

実験
rllabの物体制御タスクで提案手法を評価
VIMEの方策学習アルゴリズムとしては，TRPOを使用
比較対象はTRPOそのままと，TRPOに先行研究で提案された予測誤差による内発的
報酬を導入したもの(TRPO+L2)
39

実験結果
TRPOと，TRPO+BNNの予測誤差による内的報酬を用いたもの，TRPO
にVIMEを適用したものを比較
 普通のTRPOではまったく学習できていない（見えにくいが，グラフ底辺の青
ライン）
 MountainCarではL2もうまくいっているが，他２つではまったく学習できな
いない
 VIMEを適用すると，全タスクで学習が安定かつ早く高いパフォーマンスに
到達
40

疑似的な状態カウントと内発的報酬を組み合わせた探索
Unifying Count-Based Exploration and Intrinsic Motivation[Bellemare+]
論文概要
既存のカウントベースによる内発的報酬の手法を状態候補が極めて多いタスクに応用
するのは難しい
対策として状態の密度推定を用いた疑似的な状態カウントを導入することで，内発的報
酬を生成
41

状態の密度推定を用いた疑似カウント
状態の密度を推定することで，状態の疑似カウントが可能となる
以下，必要な記号の定義と疑似カウントの導出
記号
42
：n回目の状態遷移後とある状態xである確率（密度）
←疑似カウントの総数，xの疑
似カウント共に1を加えるだ
け
：n回目の状態遷移後にxを観測したという前提で，n+1
回目の状態遷移後再びとある状態xを観測する確率
ここで， 𝑛を全ての状態の疑似カウントの合計， 𝑁 (x)を
ある状態𝑥の疑似カウントとするすると，先ほどの𝜌と
𝜌’は，
と計算可能．
この二つの値を用いて式変形すると，
となり，どうやら，𝑥の密度𝜌(𝑥)と全状態の疑似カウントさえ求
めれば， 𝑥の疑似カウントを計算できるとわかる

密度の計算法
例えば２×２マスのブロックで，各セルが確率的に選ばれた色（赤，青，黄，緑）で
塗られるとする
何個かブロックを生成すると，以下のようになった
 ここで，9回目にまたブロックを生成するとして，黄緑緑緑のブロックが出る
確率は？
→7回目に同じ組み合わせが出ている．８回中１回この組み合わせが出ているので
出現確率は直観的に1/8
 じゃあ，緑黄赤赤の生成確率は？
同じ組み合わせはなさそうなので，確率0？
→左上のセルに緑が2/8，右上のセルに黄が3/8，左下のセルに赤が1/8，右下の
セルに赤が3/8の頻度で発生しているので，2/8×3/8×1/8×3/8＝18/4096＝
0.004が生成確率（密度）𝜌と言えそう
生成回数左上右上左下右下
1 赤青黄緑
2 赤青黄青
3 黄黄緑赤
4 緑黄緑青
5 赤青青赤
6 緑青赤黄
7 黄緑緑緑
8 青黄黄赤
43

画像からの密度計算
強化学習で解こうとしているタスクはゲームであることが多く，
観測は大抵の場合ゲーム画像そのもの
→先ほどの密度の議論をピクセルで構成された画像に拡大して
みよう
例えば，5×5ピクセルで構成された右のような画像を考える
この画像発生前にもいくつかの画像を入手（状態到達）していた
として，各位置のピクセルで出現した色の回数から先ほどのよう
に密度を求める？
→画像の場合は，各ピクセルの発生色の確率に関係があるため，
ピクセル間の関係を考慮する必要あり
44

CTS(Context tree switch)を使用して密度推定
画像の発生確率（到達確率，密度）を求めるため，著者が以前提案したCTSという手法
を使用
あるピクセルの値の発生確率を考える．
このとき，過去の観測で得た画像から求めた，そのピクセルの周辺ピクセル値が発生した
ときの注目ピクセル値が発生した確率をかけ合わせる
先ほどの画像の例だと，赤枠の黄色のセルの発生確率を求めるとき
赤枠が黄の確率＝p(赤枠が黄|左上が青)
×p(赤枠が黄|左中央が青)
×p(赤枠が黄|右上が青)
×p(赤枠が黄|左が黄)
45
※実は論文中にこの辺の詳しい計算過程が
書かれていないので，正確かどうかは微妙・・・

実際の密度推定
ここまでの議論から，ゲームから得たピクセル画像に対してCTSによる処理を行えば，
疑似カウントに必要な𝜌が求められそう
ゲームの画像そのままは大きすぎるので各ピクセルの表現を3ビットにし，42×42に
ダウンスケール
後は，この画像から，密度ρ，ρ’を求めれば，各状態の疑似カウントが計算可能
46

実験
Atariのゲームのうち，特に難しいゲーム５つを選んで，疑似カウントによる手法とDQN
を比較
疑似カウントによる内的報酬を使う場合の方策学習アルゴリズムはDouble-DQNを
使用
内発的報酬は以下のものを使用（β=0.05）
47

CTS-Based Pseudo-counts:
実験結果
 大抵のタスクで高パフォーマンス
 特に，Montezuma’s Revengeで圧倒的なスコア
→この手法が発表された当時からつい最近までSOTAだった
48

状態のハッシュ化を用いたカウントによる内発的報酬
#Exploration: A Study of Count-Based Exploration for Deep Reinforcement
Learning[Haoran+]
論文概要
高次元な探索空間でも，疑似カウントではない普通の状態カウントを用いた内発
的報酬を得るため，状態をハッシュ化
状態をハッシュ化する前の良い特徴抽出法についても検討
49

ハッシュを用いた状態のカウント
既存の状態カウントを用いた手法では、状態候補数が多いタスクに対応不可
そのため，本資料で既に解説した疑似カウントを用いた手法が有効
しかし，観測した状態をハッシュ化してカウントすることで，実質的に状態の候補数を
削減することができ、普通のカウント可
50

LSH(Locality Sensitive Hashing)
日本語では「局所性鋭敏型ハッシュ」
「simHash」とも呼ばれ，論文内ではこちらの名前で言及
似たようなデータは同じバケットに入り，元のデータの種類に対して，バケットの数は
非常に少なくなる
つまり，データ＝状態とみなし，本来ならカウントベースで捌ききれない量の状態数を
圧縮してカウントしている
51

simHashの計算
1. 𝐷次元のランダムなベクトルをガウス分布から生成
2. 観測した状態𝑠と上記で生成したベクトルの内積をとる
3. 内積して得られた値をある基準で0か1に分類
4. ３で得た値にガウス分布からサンプリングした𝑘 × 𝐷の行列𝐴をかけたものをハッ
シュ値𝛷(𝑠)とする
𝑘：ハッシュの粒度
52

ハッシュ後の状態カウントを用いた内的報酬生成
大量のデータが入ったバケットに分類される状態は報酬を低くし，スカスカなバケット
に分類される状態に対しては多くの報酬を与える
𝛷(𝑠)をとある状態𝑠に対するハッシュ値とし，ハッシュ後の値のカウントを𝑛(𝛷 (𝑠))と
すると，ある状態に対する内的報酬は以下のように定義可
53
※βはハイパーパラメータ

ハッシュ前の学習
生のピクセル画像をそのままハッシュにかけるよりも，何らかの手段でピクセルから
特徴抽出して得た表現をハッシュにかけた方が良さそう
→オートエンコーダ（AE）を用いて，ピクセル画像から特徴抽出したものを使用
54

実験
連続制御タスクと，Atariのいくつかのゲームの実験でsimHashを用いた手法を他の手法
と比較
ハッシュ前の学習手法についても比較
方策学習アルゴリズムとしてはTRPOを使用
連続制御タスク
MountainCar
55

実験結果/連続制御タスク
それなりに良い結果を出しているが、
先行研究のVIMEとの差は微妙なところ
56

実験結果/ハッシュ前の学習手法の比較
TRPOをそのまま用いる
AEを用いる
BASSを用いる
ピクセルそのまま
の場合を比較
 ＡＥで学習して特徴抽出するのが一番よさそう
 BASSを用いた場合は，Montezuma’s Revenge
で圧倒的な性能
※BASS:Atari2600用にデザインされた前処理
57

実験結果/Atari2600
 simHashを用いた場合は大抵のゲームで結構なスコアを出せる
 ただ，ゲーム個別なら他にも良いアルゴリズムがある
→例えば，内的報酬の手法としては，重要ベンチマークであるMontezuma’s Revengeで先
行研究の疑似カウントに負けている
 DQNベースとの差分として，TRPOではexperience replayを使用できないのがマイナス
58

観測の識別器を用いて推定した密度を内発的報酬とする探索
EX2: Exploration with Exemplar Models for Deep Reinforcement Learning [Fu+]
論文概要
新しい状態は現在までに観測していない明らかに違う状態であるため，あるモデルで他
の状態と簡単に識別可能
簡単に判別できる状態＝新しい状態とし，観測した状態を他の状態と識別するモデルの
出力を用いて内発的報酬を生成
59

Exemplar Model
あるデータセットX={𝑥1, … 𝑥 𝑛}に対し，新たに与えられたデータ𝑥𝑖(exemplar)と，過去に
観測したデータを識別できるよう学習された識別器𝐷(𝑥)を用意(exemplar modelと呼ぶ)
探索の中で，新たなデータ𝑥(観測)が与えられるとき，その観測が容易に今まで観測した
状態と容易に区別できれば，その観測は新しいと考える
Exemplar modelの出力により観測状態𝑥の密度を推定し，内発的報酬として利用
60

最適な識別器と密度
状態が離散の場合
最適な識別器は以下の目的関数を最大化することで導出
上式から，以下が最適な識別器となる
式変形から識別器の出力を用い，以下の式で密度を表す
x=x*の場
合
このPを-logp(s)など置いて，以下のような形で内的報酬とし
て利用
← 𝑥が簡単に他の状態区別できる（到達数が少な
い）場合，Dの出力が1に近くなる(密度小)
61

最適な識別器と密度
状態が連続の場合
状態が連続の場合，𝛿 𝑥∗ (𝑥∗)→∞となり，𝐷 → 1に収束してしまう
このとき，(𝛿 𝑥∗ ∗ 𝑞)(𝑥∗)とすればすべての𝑥に対し，以下の比例関係は保たれる(＊は畳み
込み)
δにノイズqを加えて平滑化したとき，Dは以下のようになる
62

使用する識別器
 識別器Dとしてはニューラルネットを用いる
 EX2のアーキテクチャとして以下の二つの枠組みを提案
63
識別器を複数用意し，複数
のx*をバッチ処理する場合
中間層は共有し，出力層で識別
器を分ける
潜在変数を用い，単一の識別器
で，全てのx*の識別を行う場合

実験評価
提案手法の有効性を評価するため，以下のベンチマークで評価
- 単純な2次元迷路タスク:2D Maze
- 物体制御タスク：SwimmerGather, SparseHalfCheetah
- 観測が第三者視点のAtariゲーム:Freeway, Frostbite, Venture
- 観測が一人称視点の探索:VizDoom
比較手法
- 提案手法の２モデル:k-exemplar
- 一般的な方策学習手法：TRPO
- カーネル密度推定による報酬：KDE
- ハッシュによる状態カウント:Hashing
- 情報量の改善による内的報酬：VIME
64

実験結果
 Atariでは，全体的に高パフォーマンス
 VizDoom(DoomMyWayHome)では，他手法
を大きく超える結果
65

EX2による密度推定
2D Mazeで正しい密度推定ができているか確認
EX2による密度推定実験における実際の密度
EX2により，実際の密度に近い密度推定ができている
66

まったく報酬が与えられない環境における探索
(ICLR2019 Accepted)
Large-Scale Study of Curiosity-Driven Learning [Burda, Edwards, Pathak+]
論文概要
様々なゲームの強化学習で「外的な報酬がまったくない場合にどれくらいパフォーマン
スを発揮できるかを検討した論文
VAEなどを用いた画像からの特徴抽出や学習の様々な工夫を用い，内発的報酬のみで複数
ゲームで高パフォーマンスを確認
67

予測誤差による内的報酬生成
観測𝑥𝑡と，その時選択する行動𝑎 𝑡から，次の観測𝑥𝑡+1がどうなるか予測するモデル
𝑓(𝑥𝑡, 𝑎 𝑡)を考える（順モデル）
モデルの出力と実際に𝑥𝑡で𝑎 𝑡を選択した場合の次の観測𝑥𝑡+1を用いて二乗誤差を計算し，
NNを学習
既に観測した遷移は予測精度が高くなり（二乗誤差が小さくなる），観測が少ない遷移
は予測精度が低くなる（二乗誤差が大きい）
68

観測からの表現獲得
環境から得られる生の観測𝑥でなく，Φ (𝑥)によって，タスク攻略のためにより良い表現
を得られるか議論
この表現は，以下の３つの要素を満たすことが望ましい
- stable:特徴抽出器は学習と共に変化するため，得られる表現も変化．この変化は最小限にす
る
- compact：低次元で，生の観測𝑥の不必要な部分は無視できる
- sufficient：得た表現は重要な情報を全て含む
69

様々な表現獲得法
Pixel:
観測画像をそのまま表現として使用する
Random Features(RF):
ランダムに初期化したニューラルネットなどに観測を入力して得た出力
Variational Auto Encoders(VAE):
VAEによって低次元の潜在変数zを得る
Inverse Dynamics Features(IDF):
とある状態𝑠𝑡と遷移先の状態𝑠𝑡+1から間の行動𝑎 𝑡を出力するモデルを用い，特徴抽出器Φを学習
70

内的報酬のみによる学習のための様々な工夫
内的報酬のみから学習するため，以下の工夫を加える
方策学習アルゴリズム：安定した方策改善アルゴリズムであるPPOを使用
報酬の正規化：報酬を安定化させるため，標準偏差で報酬を割って正規化
アドバンテージの正規化：PPOでバッチ処理を行う場合のアドバンテージ関数を正規化
観測の正規化：環境を10000ステップランダム探索して得た観測の平均と標偏偏差で，学
習中の観測を正規化
複数アクターによる探索：学習中には128個のアクターを同じ環境で並列に動かし，学習
用のデータを収集
獲得表現の正規化：ニューラルネットによる特徴抽出の際に，バッチ正規化を使用
エピソード終端の変更：ゲーム内のエージェントの死を一つの状態遷移とみなし，エピ
ソード継続
→エージェントはゲームのやり直しに戻されるのを避けるため，死ににくくなる
71

実験
今まで議論した表現の獲得や工夫を利用し，様々なゲームでパフォーマンスを発揮
できるか評価
72

様々な表現を用いた強化学習
Atariのいくつかのゲームとスーパーマリオで内的報酬のみが
与えられる強化学習を行い，複数の表現獲得法を比較
ゲームによって適不適があるが，全体的にVAEとランダムに
初期化したCNNで得た表現を使ったものが高パフォーマンス
73

複数の環境で並列処理する場合
マリオで複数の同じ環境を用いて並列に探索を行ってバッチサイズを増やした場合，並列
環境数でパフォーマンスが変化するかどうか実験
並列環境数を増やすと，パフォーマンスも向上している
74

内的報酬のみで学習したエージェントの汎化性能
マリオの1-1で学習したエージェントを2-1や3-1に転移させてパフォーマン
スが発揮できるか確認
 1-1→2-1では転移した場合の
パフォーマンスの方が，最初から
2-1で学習した場合よりかなり大
きい
 一方，1-1→3-1では，転移した場
合にそれほど大きいパフォーマン
スが発揮できていない
75

２プレイヤーでどちらも内発的報酬で学習した場合
途中までは順調に打ち合ってゲー
ム継続時間がのびる
論文曰く，途中からエミュレータ
がおかしくなったらしい
76

NoisyTV problem
Unity（ゲームエンジン）で作った強化学習環境に，次々と違う映像が映し出されるテレ
ビを設置し，内発的報酬による探索をさせてみた
→エージェントの動きが止まってしまう
理由
- 常に観測がランダム変化することで，予測器の学習が意味をなさず，TVを観測する状態に高い
報酬が生成されるため
環境内の無意味な情報を無視できる
特徴抽出が必要
77
エージェント視点
壁のTVに映し出される画像が高速で切り替わり続ける
↑常に変化
↑どれだけ学習
しても予測でき
ない

Noisy TVを置いた環境で実験
テレビをオフにした状態とオンにした場合のパフォーマンスを比較
テレビをオンにすると途中から
まったく学習できていない
78

自分に関係あるものだけに注目した好奇心による探索
Curiosity-driven Exploration by Self-supervised Prediction [Pathak+]
論文概要
エージェントの行動に関係があるもののみに注目するため特徴抽出を行い，予測誤差に
より内発的報酬を生成
特徴抽出のため順モデルと逆モデルを組み合わせた予測を行って報酬を生成する
ICM(Intrinsic Curiosity Module)を提案
79

エージェントによる意味のある観測
エージェントの観測には以下のものが含まれる
(1)エージェントに影響を与え，エージェント
によってコントロールできるもの
→マリオ本体
(2)エージェントに影響を与えるが，エージェ
ントが直接的にコントロールできないもの
→クリボーなどの敵
(3)エージェントに影響を与えず，エージェン
トがコントロールすることもできないもの
→画面上部のコインなど
80
(3)は無視して，(1)と(2)のみに
注目して学習したい！
(1)
(3)
(2
)

ICMのアーキテクチャ
逆モデル順モデ
ル
内的報酬生成
 状態𝑠𝑡と次の状態
𝑠𝑡+1の特徴を獲得
 ２つの特徴から間
の行動を予測
→良い特徴抽出が
できるφを学習
Φ(𝑠𝑡)と𝑎 𝑡を入力し，
次の状態の予測値
𝛷(𝑠𝑡+1)を出力
81

逆モデル
ある状態𝑠𝑡と次の状態𝑠𝑡+1を特徴量抽出器𝛷に通し，特徴量𝛷(𝑠𝑡),𝛷(𝑠𝑡+1)を取得
上記の特徴量を入力とし，状態間で行われた行動の予測値 𝑎を出力
教師信号となる実際の行動𝑎を用い，これらのモデルを学習
→Φは，行動予測に重要な部分（状態の中でエージェントに関係ある部分）に注目した
特徴を抽出するように
82

順モデル
Φと行動𝑎 𝑡を用いて，
次の状態を予測
Φは逆モデルで学習した
特徴抽出器を使用
ここで出力される 𝛷が，ある
状態に対する「予測」を表す
83

内的報酬の生成
順モデルで生成出力した 𝛷と，実際の状態から特徴抽出したΦの二乗誤差により，予測
誤差を計算
順モデルは予測誤差を最小化するように学習
学習していない状態＝未観測の状態に対しては予測誤差が大きくなる
→この予測誤差を報酬として利用すると，新しい状態への探索が促進される
84
損失関数

実験/VizDoom
VizDoomを用い，テスト環境での報酬獲得の難易度を調整しつつ
迷路探索課題を行う
 Train Mapで一切の外部報
酬なしに事前学習を行う
 Test Mapでは，報酬の獲得
難易度を調整するため，
エージェントの発生地点
（青点）を変える
 ゴールに到達した場合に外
部報酬+1それ以外は0
以下の設定で，エージェントのスタート地点を変更する
(a)報酬が多い場合(dense)：青点のどこか
(b)報酬がスパースな場合(sparse)：Room13 ゴールまで270ステップ
(c)報酬が極めてスパースな場合(very sparse):Room17 ゴールまで350
ステップ
85

実験結果/VizDoom
 普通のA3Cでは，報酬がスパースになるだけで
パフォーマンスが大幅に低下
 提案手法（オレンジ）は，いずれの設定でも高いパフォーマンスを
維持
86

実験/ノイズ入りの環境
本手法の強みである「自分に関係のあるもの」の特徴抽出をできているか
どうか評価
VizDoomのゲーム画面のうち，40%がエージェントにコントロール
できないノイズで構成される
→提案手法は，特徴抽出のによりノイズに対してロバストであるはず
ノイズが入ったゲーム画面
87

結果/ノイズ入りの環境
特徴抽出をせず，単なるピクセル画像から学習した場合
より，提案手法で特徴抽出をした方が高パフォーマンス
88

実験/マリオ攻略
スーパーマリオブラザーズ（初代）を，提案手法でどこまで攻略できるか実験
ここでは，提案手法でエージェントが汎用的なスキルを獲得できるかどうかも検討
一つのステージで学習したエージェントが他のステージでも通用するか試した
89

マリオ攻略/実験結果
Level-1→Level-2
Level-2のみで学習すると，
fine-tuningほどの性能はでない
Level-1で学習した
モデルをそのまま使
用
まったく攻略できな
い
 Level1で学習したモデルをそのまま使うと，まったく性能がでない
→Level1とLevel2のステージは外観の違いが大きいため
 後述のLevel-3の議論にもあるが，ステージ構造自体は問題ではない
fine-tuningで
劇的に改善
90

Level1→Level2 91
論文中では，ステージ構造の問題ではなく，ステージ背景に問題が
あるのではないかとしている（fine-tuningで容易に改善)
Level-1：外部の明るいステージ Level-2:地中で真っ暗
Level-1 Level-2

マリオ攻略/実験結果
Level-1→Level-3
Level-1のモデルをそ
のまま使ってもそこ
そこ攻略できている
Level-3のみの学習だと，まったく
性能が出ない
 Level-3の方がLevel-2より難しいはずなのに，なぜfine-tuningなしで高パフォーマンス？
→Level-1とLevel-3はステージの外観が似ているため！！
 ステージ構造は似ていないが，転移ができる
fine-tuningで
は性能が悪化
92

Level1→Level3
なぜうまくいく？
ステージ背景が似ている(構造は似てない)
どちらも外部の明るいステージ
Level-1 Level-3
93

ランダム初期化したネットワークの蒸留と
予測誤差による内発的報酬
EXPLORATION BY RANDOM NETWORK DISTILLATION [Burda,Edwards+]
論文概要
状態を入力する二つのネットワークとして，ランダムに初期化したネットワークと，
このネットワークの出力を真似るよう蒸留するネットワークを用意
両方のネットワークの出力の誤差を内発的報酬とし，新しい状態に対して探索を促進
RL手法として初めてMontezuma’s Revengeで人間を超えるスコア
94

本手法で利用したいニューラルネットの特性
1. 単純に学習が不足している
2. 出力が確率的である（先ほど紹介したNoisy TV問題）
3. モデルがよくない
4. ネットワーク内の最適化プロセスがよくない
１を利用すると，今まで散々悩んできた未知の状態の
評価がうまくいくのでは？
また，ニューラルネットは似た入力に対しては似た出力をするため，状態が高次元でも状
態の近さを考慮した評価が可能
→この論文のアイディア
95

Random Network Distillationによる内発的報酬生成
 二つのネットワーク，ターゲットネットワーク，予測ネットワークを用意
 両ネットワークに，評価したい状態を入力
 予測ネットはターゲットの出力を真似るよう学習を行い，両出力の二乗誤差が内的報酬
となる
 →新しく観測した状態に大しては内発的報酬が大きくなる
96
ゲーム
画像𝑠𝑡
ゲーム
画像𝑠𝑡
ターゲットネットワーク
→出力を真似される側
ランダムに初期化する
予測ネットワーク
→出力をマネする側
ターゲットの出力を真似できる
よう学習（蒸留）を行う
同じ構造のモデル
蒸留
ターゲット
ネットの出力
予測ネットの
出力
外部報酬etと足し合わせ，最終的な報酬とする
予測誤差による内的報酬

その他工夫点
外部報酬はエピソードの終端で得るepisodicな報酬に，探索報酬はエピソードの非終端で
も得られるnon-episodicな報酬とする
外部報酬と内的報酬の組み合わせ
外部報酬による価値関数𝑉𝑒と，内的報酬による価値関数𝑉𝑖はそれぞれ別の割引報酬率で評価
し足し合わせる
𝑉 = 𝑉𝑒 + 𝑉𝑖
97

実験
Atari2600のゲームで比較手法とPPO，RNDを改良したもの(Dynamics)を比較
※Dynamics:RNDの予測誤差として用いる二つのネットワークの観測時間を一つずらした（stとst+1）もの
論文中では色々状況を変えて実験を行っているが，ここではAtariベンチマークで最強モ
デルのRNDを用い，他の手法との比較を行った実験のみを考慮
98

実験結果
 Montezuma’s Revengeでは，SOTAだった疑似カウントを用いた手法(先ほど解説し
た論文Unifying Count-Based Exploration and Intrinsic Motivation)を超えてSOTA
 RND以外でも結構強いが，他半分では疑似カウントの方が強い
99

RLがMontezuma’s Revengeで
初めて人間の平均スコアを超える
↑DQNの悲惨なスコアか
ら，3年でここまで発展
100

しかし・・・
RND発表からわずか数週間後，Uberの研究
者からとんでもない発表が
Montezuma’s Revengeにおける現最強アルゴリズム
Go-Exploreの登場！！
101

過去に保存した良い状態に戻ってスタート地点とする
探索手法
Go-Explore: a New Approach for Hard-Exploration Problems [Ecoffet+]
論文概要
報酬がスパースな環境で，従来の好奇心による探索とはまったく違う探索手法を提案
学習を２段階に分け，第１段階で状態の記憶とスタート地点の変更による探索，第２段
階でデモ軌道ロバストな方策を獲得
Montezuma’s RevengeでRNDを超えSOTA
今まで紹介してきた好奇心/内発的報酬による探索手法とは異なる枠組みの手法
104

従来の好奇心による探索手法の問題点
 緑色の部分が内的報酬を獲得できる場所（新規状態）
 渦の中心ほど，深い探索が必要
 一度は内的報酬に従って，深い状態まで探索を行っても，何らかの理由
で別エリアの探索に切り替わった場合を考える
 そうすると，既に探索済みの場所（白い部分）は内的報酬が得られない
ため，深い状態に到達するための探索が難しくなる
105

Go-Explore/大まかな手法の概要
２つのフェーズに分けてエージェントの学習を行う
フェーズ１：目標状態到達まで探索
- 探索をしながら，特定の状態”Cell”をArchiveに追加
- 探索のスタート時にArchiveからランダムにCellを選択し,
その状態まで移動
- その状態からスタートしてランダム探索(繰り返し)
フェーズ２：方策のロバスト化
- フェーズ１で得られた軌道のうち目標に到達した軌道を
通るような方策を模倣学習で獲得
106

フェーズ１状態の保存と始点変更による探索
目標状態に到達できる軌道を得るため，タスクの目標状態到達まで，
以下の手順を繰り返す
1. あるCellからエージェントをスタートさせる．このCellはArchiveから選択
(Go back to it)
2. 移動用の方策でCellまで移動する
3. Cellからランダム探索し，特定の状態，または軌道に遭遇したとき，Archiveに状態と
軌道を保存（Explore from it）
4. 探索を終了し，1に戻る
107

Cellの選択
一般的な強化学習手法と異なり，特定のスタートからではなく，Archiveから選択した
Cellから探索開始
Cellの選択は基本的にランダム
予備実験では，ヒューリスティックで選択確率を操作してパフォーマンスの向上が見られ
たとの報告あり
108

Cellの表現
生のゲーム画像は高次元で扱いにくいため，Archiveに保存する際に画像を変換
似たCellは同じとみなし，明らかに違うCellは別ものとするため，画像のダウンスケール
とピクセルの表現の縮小を行う
109
厳密には違う状
態だが，抽象化
し，同じCellとみ
なす
http://www.cs.uwyo.edu/~jeffclune/share/2018_12_07_NeurIPS_DeepRLWorkshop_Go
_Explore.pdf

選択したCellからの探索
ランダム探索なので，ニューラルネットは用いない
つまり，フェーズ1では方策の学習は一切行わない
ただ，方策の設計次第では，パフォーマンスを向上させ得ることが示唆されている
110

Archiveの更新
以下の二つの基準で，Archiveを更新する
1. 未知のCellに遭遇した場合
2. Archiveに保存されている軌道より短い軌道で同等以上の報酬，同じ軌道でも高い報酬の
獲得が可能な場合
以下の要素とともに，CellをArchiveに保存
(1)Cellへ到達するまでの軌道
(2)Cell到達時の環境の状態
(3)保存軌道で得た総報酬
(4)軌道の長さ
111

フェーズ２/模倣学習による方策のロバスト化
フェーズ１で見つけた理想的な軌道（デモンストレーション）に近い動きができる方策
を獲得する
テスト環境における状態遷移が確率的であってもデモと同じような動きができる方策を
獲得可能
フェーズ１で見つけた軌道は余分な行動を含むこともあるため，このフェーズで除去
112

フェーズ２の詳細
模倣学習のアルゴリズムとしてはBackwards Imitation Learningを使用
オリジナルの軌道と異なっていても，獲得スコアが上であればそちらを採用
→オリジナルの軌道は目標状態に到達さえすれば途中経過は気にしないため，余分な行動
も含んでいる（例えばストックが０にならない程度の死，無意味なバック）
フェーズ１とは異なり，このフェーズではニューラルネットを使用して方策を学習
113

Backwards Imitation Learning
 デモンストレーションの軌道の中で，終
端から始点に向かって数ステップずつ学
習する
1. 終端からスタート
2. kステップ分，始点方向へ戻る
3. 戻った先から，スタート地点となった終
端まで行動する
このときの動きで得た軌道のスコア≧オリ
ジナル軌道のスコアとなるまで3を実行
4. 終端をずらして1に戻る
これらの手順を，元のデモンストレーショ
ンの始点にたどり着くまで実行
114

実験 Montezuma’s Revenge
ドメイン知識ありの場合と，ドメイン知識なしの場合に分けて，Go-Exploreを
Montezuma’s Revengeで評価
ドメイン知識としては，現在の部屋番号，カギの情報などを使用
デフォルトではAtariはゲーム挙動が決定論的であるがテスト時には確率的にしたい
→以下の仕様を追加
no-ops:スタート地点におけるランダム時間停止
sticky-action:確率的に同じ行動を繰り返す
※本資料ではMontezumaの実験のみ解説
115

実験/ドメイン知識なし
ヒューマンエキスパートの平均スコアが34900に対しGo-Exploreは43763!!
116

実験/ドメイン知識あり
ドメイン
知識なし
レベル3以降はどのレベルの難易度もレベル３と一緒であるためレベル３を
必ずクリアできるドメイン知識ありの場合は，法外なスコアを獲得可
117

余談/Treasure room curse
Montezuma’s Revengeの最後の部屋では，スコアUPのアイテムを複数入手可能
本来，アイテムをいくつか取得すると，自動的に主人公が落下して、次のレベルに進む
が，ある操作により，永遠にアイテム取得可
Go-Exploreは学習中にこのバグを発見
118

その他好奇心による探索手法
ここまで紹介してきた手法とはちょっと違った形で好奇心/内的報酬を利用している強化学
習手法を追加で軽めに紹介します
119

人間の生体反応から学び，危険に対する応答を内発的報酬とす
る手法(ICLR2019 Accepted)
Visceral Machines: Risk-Aversion in Reinforcement Learning with Intrinsic
Physiological Rewards [McDuff+]
論文概要
人間は，危険が近づいたとき，自律神経の働きによる生体反応を元に内発的なフィード
バックを得て行動選択を行っている
運転時の観測画像と，運転者の生体反応パルスを用いて学習したCNNの出力により
内発的報酬を生成
運転タスクで本手法を適用することで，サンプル効率を改善し，エピソード終了
（衝突）までの時間も上昇
120

人間の生体反応を元にした内発的報生成
外的な報酬𝑟と，人間の生体反応を教師データとして学習したCNNの出力
から得た内発的報酬 𝑟を重みづけし，最終的な報酬とする
CNNの学習には，実際に人間の運転手を運転させて得た運転者視点画像
と，生体パルスを使用
(一種の模倣学習といえる)
121

実験
実験環境として，自動運転シミュレータAirSimを使用
ベースアルゴリズムとしてはDQNを使用
重みλが1の場合は外的報酬のみによるただのDQN，0の場合は内発的報酬のみに頼った
学習となる
運転の各要素の制御タスクに
おけるパフォーマンス
以下に長くエピソードを続け
られるか（衝突したら終了）
122

観測した状態と過去に観測した状態からの離れ具合で内発的報酬
を生成(ICLR2019 Accepted)
EPISODIC CURIOSITY THROUGH REACHABILITY [Savinov, Raichuk, Marinier+]
論文概要
観測の記憶機構を導入し，現在の観測と過去の観測を比較することで，内的報酬を生成
埋め込みにより観測の表現を獲得し，現在の状態と過去の状態の観測がステップ数的に
離れていれば大きな内発的報酬を生成
123

提案手法の構成
Reachability network(R-net)
状態を埋め込むEmbedding networkと埋め込み表現から状態間ステップ数を計り，閾値と比較して0か1を出力す
るComparator networkで構成
Memory buffer
過去に大きな内発的報酬を得た状態表現を保存する
Reachability buffer
R-netにより，現在の観測とMemory buffer内の全状態を比較した結果を保存
Reward bonus estimation module
Rechability bufferの要素全てを入力とし，内発的報酬を決定
124

実験と結果
VizDoomで，報酬が密な状態，スパースな状態，とてもスパースな状態に分け，提案手法
とPPO，PPO+ICMを比較
最終到達パフォーマンス的にはICMと同じだが，収束スピードが極めて速い
125

壊れやすい物体操作のための優しい操作を内発的報酬により
獲得
Learning Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement
Learning [Huang, Zambelli]
論文概要
ロボットによる壊れやすい物体操作には，強すぎる操作をした場合の罰則を与える必要
があるが，これだけでは局所解に陥る
これを回避するため，ペナルティに加えて，環境に対する予測誤差の内発的報酬と，
ペナルティに対する予測誤差の内的報酬を導入
https://sites.google.com/view/gentlemanipulation
126

複数の内発的報酬の導入
Impact Penelty:
時刻𝑡でエージェントが与えた衝撃に対する罰則報酬
Deynamics-based surprise
複数ネットワークに行動と状態を入力し，各ネットワークの出力の分散が大きければ
大きな報酬を生成
Penalty-based surprise
Dynamicsの場合と同じく，複数ネットワークに状態と行動を入力した場合の出力の分散を
元に報酬生成
最終的な報酬はタスク報酬と
これらの組み合わせ
学習手法としてはD4PGを使用
127

実験と結果
タスクの外部報酬，強い操作に対するペナルティ，2つの予測誤差による内発的報酬の
組み合わせを変えてみたパフォーマンスの違い
上が物体圧縮操作，下は壊れやすいブロック操作
128
ペナルティの予測誤差による内発的報酬が一番
効いており，両タスクで高いパフォーマンス

目次
報酬なスパースな環境と好奇心による探索
論文紹介
参考文献
129

参考文献，サイト，資料 1
強化学習・深層強化学習の基礎
Richard S Sutton and Andrew G Barto. Reinforcement learning: An introduction, volume 1. Bradford, 1998.
David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian
Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go
with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
Hado Van Hasselt, Arthur Guez, and David Silver. Deep reinforcement learning with double q-learning. In
AAAI, volume 2, page 5. Phoenix, AZ, 2016.
Ziyu Wang, Nando de Freitas, and Marc Lanctot. Dueling network architectures for deep reinforcement
learning. In ICML, 2016.
Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, pages
1928–1937, 2016.
Arun Nair, Praveen Srinivasan, Sam Blackwell, Cagdas Alcicek, Rory Fearon, Alessandro De Maria, Vedavyas
Panneershelvam, Mustafa Suleyman, Charles Beattie, Stig Petersen, et al. Massively parallel methods for
deep reinforcement learning. arXiv preprint arXiv:1507.04296, 2015.
J. Schulman, S. Levine, P. Moritz, M. I. Jordan, and P. Abbeel, “Trust region policy optimization”, in ICML,
2015.
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization
algorithms. CoRR, abs/1707.06347, 2017.
Y. Duan, X. Chen, R. Houthooft, J. Schulman, and P. Abbeel, “Benchmarking deep reinforcement learning for
continous control”, in ICML, 2016.
Bellemare, Marc G, Naddaf, Yavar, Veness, Joel, and Bowling, Michael. The arcade learning environment
130

報酬なスパースな環境と好奇心による探索
 Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym,
2016.
 Unity ML-agents. https://github.com/Unity-Technologies/ml-agents.
 S. P. Singh, A. G. Barto, and N. Chentanez. Intrinsically motivated reinforcement learning. In NIPS, 2005.
 Strehl, A. L. and Littman, M. L. (2008). An analysis of model-based interval estimation for Markov decision processes. Journal of
Computer and System Sciences, 74(8):1309 – 1331.
論文紹介
環境から得る情報量を用いた内発的報酬
 R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. Vime: Variational information maximizing exploration. In
NIPS, 2016.
 Stadie, B. C., Levine, S., and Abbeel, P. (2015). Incentivizing exploration in reinforcement learning with deep predictive models. arXiv
preprint arXiv:1507.00814.
疑似的な状態カウントと内発的報酬を組み合わせた探索
 Marc Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, and Remi Munos. Unifying count-based exploration
and intrinsic motivation. In NIPS, pages 1471–1479, 2016.
 Bellemare, M., Veness, J., and Talvitie, E. (2014). Skip context tree switching. In Proceedings of the 31st International Conference on
Machine Learning, pages 1458–1466.
状態のハッシュ化を用いたカウントによる内発的報酬
 Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, OpenAI Xi Chen, Yan Duan, John Schulman, Filip DeTurck, and Pieter
Abbeel. # exploration: A study of count-based exploration for deep reinforcement learning. In NIPS, pages 2750–2759, 2017.
 Charikar, Moses S. Similarity estimation techniques from rounding algorithms. In Proceedings of the 34th Annual ACM Symposium on
Theory of Computing (STOC), pp. 380–388, 2002.
131

観測の識別器を用いて推定した密度を内発的報酬とする探索
J. Fu, J. D. Co-Reyes, and S. Levine. EX2: Exploration with exemplar models for deep
reinforcement learning. NIPS, 2017.
まったく報酬が与えられない環境における探索
Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, and Alexei A. Efros. Large-scale
study of curiosity-driven learning. In arXiv:1808.04355, 2018.
自分に関係あるものだけに注目した好奇心による探索
Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. Curiosity-driven exploration by self-
supervised prediction. In ICML, 2017.
ランダム初期化したネットワークの蒸留と予測誤差による内発的報酬
Yuri Burda, Harrison Edwards, Amos Storkey, and Oleg Klimov. Exploration by random network distillation.
arXiv preprint arXiv:1810.12894, 2018.
過去に保存した良い状態に戻ってスタート地点とする探索手法
Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O Stanley, and Jeff Clune. 2019. Go-Explore: a New
Approach for Hard-Exploration Problems. arXiv preprint arXiv:1901.10995 (2019)
Tim Salimans and Richard Chen. Learning montezuma’s revenge from a single demonstration. arXiv preprint
arXiv:1812.03381, 2018.
Reinforcement Learning @ NeurIPS2018 https://www.slideshare.net/yukono1/reinforcement-learning-
neurips2018
2018-12-07-NeurIPS-DeepRLWorkshop-Go-Explore
http://www.cs.uwyo.edu/~jeffclune/share/2018_12_07_NeurIPS_DeepRLWorkshop_Go_Explore.pdf
132

その他好奇心による探索手法
 Nikolay Savinov, Anton Raichuk, Raphael Marinier, Damien Vincent, Marc Pollefeys, Timothy Lillicrap, and Sylvain Gelly. Episodic curiosity
through reachability. arXiv preprint arXiv:1810.0227, 2018.
 Daniel McDuff and Ashish Kapoor. Visceral Machines: Reinforcement Learning with Intrinsic Rewards that Mimic the Human Nervous System.
arXiv preprint arXiv:1805.09975, 2018.
 Sandy H. Huang and Martina Zambelli and Jackie Kay and Murilo F. Martins and Yuval Tassa and Patrick M. Pilarski and Raia Hadsell. Learning
Gentle Object Manipulation with Curiosity-Driven Deep Reinforcement Learning. arXiv preprint arXiv:1903.08542, 2019
133

目次
報酬なスパースな環境と好奇心による探索
論文紹介
参考文献
134

おまけ
強化学習の学習リソース
参考書
Web上で入手できる学習リソース
135

piqcy本の実装はTensorFlowベースなのに対し，こち
らはPytorchベースで解説．網羅度は高くなく，古典
的強化学習の話題がほんの少しと，PyTorchによる深
層強化学習アルゴリズムの実装がほとんどを占める．
PyTorchを中心に使っているのであれば，piqcy本と
セットで使うのもあり．後半にはAWSのGPUインス
タンス環境構築法や，学習手順が載っている．
今から強化学習を始めるならまずはこの一冊．知識
の網羅度も極めて高く，古典的強化学習から深層強
化学習までPythonコード付きで解説．後半はトップ
カンファレンスに出てくるような論文の内容を交え，
発展的な話題．著者のTwitterアカウント名から
「piqcy本」，表紙から「緑本」などと呼ばれたり．
入門者向けの参考書
入門者にオススメの書籍
機械学習スタートアップシリーズ
Pythonで学ぶ強化学習入門から実践まで
久保隆宏 (著)
つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~
株式会社電通国際情報サービス小川雄太郎
136

ここで紹介する本では一番薄く，いかにも「速習」
だが，見た目とタイトルに反してガチガチ理論重視
の本．学習の初期で手を出す本ではなく，ある程度
強化学習に慣れてから，理論的な部分を追求したい
人向け．深層強化学習は，後半に訳者により追加執
筆されたものがあり，これはかなりわかりやすい．
強化学習の基礎的な話題から始まるが，方策勾配の部分
や，発展的理論などは数学的要素が強く難易度は高め．
強化学習の和書としてはたぶん唯一強化学習の工学応用
についても多く書かれており，ロボット，医療応用など
様々．深層強化学習は後半の方にAlphaGoやDQN系統の
アルゴリズムが少し．各章は独立しているため，学びた
い所を拾い読みがよい．初期の版は誤植がかなり多いの
で注意
難しめの参考書
これからの強化学習
牧野貴樹 , 澁谷長史他
速習強化学習 ―基礎理論とアルゴリズム―
Csaba Szepesvari, 小山田創哲他
137

洋書だが，英語は平易でわかりやすい．実装はPytorchを使用．かなり実装重視の本であり，数式による
解説よりは，実装上の解説がほとんど．実装は著者のオリジナルライブラリ「ptan」を使用することに
なる．ptanでエージェントの探索部分をほとんどラップしてしまっているため，個人的にはあまりよく
ない仕様．ただ，本に書いてある通りの操作で非常に簡単にDQNからDDPG，進化戦略のアルゴリズム
までPyTorchで実装可能．とにかく多くのアルゴリズムを動かしてみたい人向け．
洋書
Deep Reinforcement Learning Hands-On: Apply modern RL methods, with deep Q-
networks, value iteration, policy gradients, TRPO, AlphaGo Zero and more
Maxim Lapan
138

おまけ/Web上のリソース1
分野別
強化学習本のバイブル，通称”Sutton本”の第２版ドラフト
- ２版は現在我々が翻訳中
http://incompleteideas.net/book/bookdraft2018jan1.pdf
先ほど紹介した『速習強化学習』の原著Web版
https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
深層強化学習全体の解説
深層強化学習アルゴリズムの紹介からベンチマーク，転移学習などの発展的な話題まで
扱った教科書『An Introduction to Deep Reinforcement Learning 』のドラフト
https://arxiv.org/pdf/1811.12560.pdf
DeepMindによる講義動画
DeepMindの一流研究者による，強化学習・深層強化学習のみではなく，深層学習の基礎
から言語処理，生成モデルなどの話題も含めた総合的な講義動画．DeepMindの研究者ら
による深層学習研究のアドバイスも随所にあり．
https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs
139

おまけ/Web上のリソース２
分野別
バンディット問題の教科書のドラフト
https://tor-lattimore.com/downloads/book/book.pdf
自然言語処理のための強化学習に関する授業
https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/syllabus.html
強化学習の簡単なタスクを視覚的に体験できるサイト
https://cs.stanford.edu/people/karpathy/reinforcejs/
非剛体ロボに関するまとめ
https://t.co/9nVwalzpE9
深層強化学習によるゲームプレイまとめ
https://arxiv.org/abs/1708.07902
AIで利用される神経科学の知見をまとめたDeepMindによるレビュー論文
https://deepmind.com/research/publications/neuroscience-inspired-artificial-intelligence/
140

強化学習における好奇心

More Related Content

What's hot

Similar to 強化学習における好奇心

強化学習における好奇心