RLアーキテクチャ勉強会　MERLIN

論文紹介（＋関連研究の紹介）：
Unsupervised Predictive Memory in a
Goal-Directed Agent (MERLIN)
G. Wayne, et al. arxiv. 2018
東大総合文化研究科広域科学専攻
梶原侑馬
1
2018 08/21
RLアーキテクチャ勉強会

発表内容について
• 論文タイトル：「Unsupervised Predictive Memory in a Goal-Directed Agent」
（arXiv:1803.10760），2018/03/28.
• 著者：Greg Wayne, et al.（Deepmind） 
Greg Wayne：Neural Turing Machine(NTM)，Differentiable Neural
Computers(DNC)の共著者．神経科学でPh. Dを取っている？ 
（http://columbia.academia.edu/GregWayne）
• 内容： 
- 経験を長期間保持するための機構（外部メモリを使用） 
- 複雑な観測情報の適切な潜在表現への変換＋方策をEnd to Endに学習する． 
- 3D空間探索で，LSTMベースのモデルを圧倒．
• 論文内で，認知神経科学に関する知見を多く持ち出しています．モデルを理解す
る際にも，それらを押さえていくことが必要になります．この発表でも，できる
だけ多くの神経科学の研究を参照していこうと思います．（強化学習に関しては
まだまだ素人なので，誤りがあればご指摘いただけると幸いです🙇）
2

発表に入る前に
• 最近，DeepmindのホームページのPublicationsから，今日紹介する論文が削除さ
れている．．．
• ArXivには，そのまま残っている．
• もしかすると，論文内容に誤りが．．．？
3

目次
• 神経科学における強化学習
• MERLINについて
• 関連研究
• 実験
• まとめ
4

1. 神経科学における強化学習
5

強化学習の起源
• 一つの起源（概念的）：動物行動科学の「オペラント条件づけ」
• オペラント条件づけ（Thorndike[1898], Skinner[1938]）： 
動物に能動的に行動を行わせ，その行動に対応する刺激（合っていれば報酬を，
間違っていれば罰）を与えることで，その動物の行動の頻度分布を変化させる実
験手法
6
オペラント条件づけ強化学習
図は以下より拝借
http://kazoo04.hatenablog.com/entry/agi-ac-14

強化学習の起源
• もう一つの起源（数学的な）：最適制御．
- Markov Decision Process（MDP）（1950s）：状態遷移がマルコフ性（次の
行動が今の状態によって決まる）を満たす動的システムの確率モデル
- Bellman方程式（Bellman, 1957）：MDPにおいて，最適な行動則（policy）
の元成り立つ，状態価値に関する再帰的な方程式
• 不確実な環境における，サンプリングを主体とした確率的なシステム制御の手法
として，強化学習が成り立ってきた．
- TD(Temporal Difference)学習（Sutton, 1984）：報酬の期待値のズレを誤差信
号として，1ステップごとに状態価値関数V(x)を更新していく学習方法．
- Q学習（Watkins，1989）：各状態において、可能な行動の中で最も行動評価
関数Q(x)の値が高い行動をとるように学習を行う方法．
• この時点では，あくまでブラックボックス化したシステム内における，行動則の
学習方法である．（脳内の具体的なメカニズムは何も言及していない）
7

Oldsの実験（1954）
• ラットの辺縁系に電極を指しておいてラットがレバーを押すことで電流が流れる
ようにしてやると、ラットはレバーを次々に押して自分自身を刺激するようにな
ることを発見した。
• 脳内（特に辺縁系）に報酬処理回路があることを示唆した初めての研究．（やっ
ていることはオペラント条件づけ）
8
http://discovermagazine.com/2015/may/17-resetting-the-addictive-brain

Schultzの実験（1997）
• サルに「ライトが点灯したときにレバーを押すと、リンゴジュースがもらえる」
という学習課題を与え、学習中の黒質緻密部（大脳基底核の一部）におけるドー
パミンニューロンの挙動を観察する．
• ライトが点灯しただけでドーパミン濃度が増大，実際にジュースをもらった時は
変化なし．ランプを点灯した時にジュースをあげなければ，逆にドーパミン濃度
が低下する．→TD誤差？？
• 大脳基底核は，ドーパミンを報酬として，その予測報酬誤差（TD誤差）を元に
出力を決定していることを示唆した．
9
https://ameblo.jp/atelier-nadja/entry-12230204436.html

Doyaの神経修飾物質仮説（2002）
• TD学習における各パラメータが，脳における神経修飾物質の濃度と対応してい
るのではと提案した．
- TD誤差：ドーパミン系
- 割引率γ：セロトニン系（濃度が低いと目先の出来事に囚われるようになる）
- 逆温度β：ノルアドレナリン系（痛みに関わる）．探索のランダムさを決定す
る．
- 学習率α：アセチルコリン系（濃度が低いとアルツハイマーになりやすい．）
10

基底核-新皮質ループ
• 主に4つのループがあると考えられていて，それらは並列的にループしているみ
たい．
- 運動系ループ（motor loop）：筋肉の制御
- 前頭前野系ループ（prefrontal loop）：行動計画
- 眼球運動系ループ（oculomotor loop）：サッケード眼球運動の制御
- 辺縁系ループ（limbic loop）：行動の動機付け，情動
11
http://www.actioforma.net/kokikawa/Evolutional_aspects/Evolutional_aspects.html
この中では一番Intristic（本能的）

まとめると
• 大脳基底核は，強化学習（TD学習）を行っている？
• 最後に説明した幾つかの閉ループ回路をうまくEnd-to-Endにモデル化すれば，複
雑な環境に適応できるエージェントが作れるのではないか→MERLINの思想につ
ながっていく．
• MERLINではいくつかのループが出てくる．（明示的に書いてはいないが）大脳
基底核/海馬⇄新皮質のループを意識していることは感じられる． 
逆に辺縁系のループに関しては今回は参照していない．（Curiosityなど）
12

既存モデル
• A3Cで学習させたLSTM（以下，”RL-LSTM”とする）．
• A3Cの利点（皆さんの方がお詳しいと思いますが．．．） 
- Actor Learnerの数だけ，学習時間が短縮できる．（パラメータ共有） 
- Experience Replayを使わない（On Policyに学習できる．） 
- RNNを使用できる．（今回では重要）
14
RL-LSTM

15
？？？？？？？？？？？？

提案モデル (MERLIN)
• Memory, Reinforcement Learning and Inference (MERLIN)の名の通り，主に3つ
の部分から成る．
- 現在の観測情報を潜在空間に埋め込み，外部メモリを活用して，前ステップ
の自分の行動と次の報酬を予測する推論部分（Memory Based Predictor）
- エンコードされた観測情報を保存する，外部メモリ機構（Memory）
- エンコードされた現在の観測情報と過去の情報から，行動を選択するPolicy
LSTM
16
Environment
Memory Based
Predictor
Memory
Policy LSTM
MERLIN
!(#), &(#) !(#$%)

メモリ機構（NTMのものとほぼ同じ）
• m × nの行列Mに，値を格納する．（イメージとしては，m個のアドレスがあり，
それぞれに長さnのベクトル値を格納できる．）
• 書き込み：書き込むベクトルm（長さはn/2）に関して，以下の計算でメモリ行
列Mが更新される．
- の算出は，後述．
• 読み込み：キーkと現在のメモリ行列Mに関して，以下の計算よりベクトルmが
読み込まれる．（いわゆる Soft Attention）
17
! = #$
%
! " =
$%& '()
∑ $%& '()
+́
- !" = $
% & ",(
%(& ",(
!" = !"$% + '"
()
*, 0 - + '"
)."
0, * -
!"
#$"
= &!"'(
#$"
+ 1 − & !"'(
,#
!"
#$

Memory Based Predictor
• 基本的にはConditional Variational AutoEncoder．
18
!" !" !"#
Policy LSTM
Memory
Encodingしたzを行動決定に用いる．
Encodingしたzを外部メモリに格納
!", … , !%&", '", … , '%&"
Priorモデル !"
! "#|"% … "#'%; )%, … , )#
! "#|"% … "#'%; )%, … , )#'%
! "#|%#
!" !"
!"
!"#$
：画像：速度
：テキスト：前回報酬
!" = $", &", '", (")*, +")*
!"#$：前回行動

• 次に貰える報酬も予測する．（Critic）
19
!" !" !"#
Policy LSTM
Memory
Encodingしたzを行動決定に用いる．
Encodingしたzを外部メモリに格納
!", … , !%&", '", … , '%&"
Priorモデル !"
!"
#，! "#, %#|'#! "#|"% … "#'%; )%, … , )#
! "#|"% … "#'%; )%, … , )#'%
!" !"
!"
!"#$
：画像：速度
!" = $", &", '", (")*, +")*
!"#$：前回行動

• Objective ：周辺尤度の最大化
20
!"
! "#|%&, … , %#)&, "&, … , "#)&, *# !"
! "#|%&, … , %#)&, *&, … , *# !"#
!", … , !%&", '", … , '%&" ! "#|%&, … , %#)&, "&, … , "#)&
Priorモデル
!"
log $ %&, … , %); +,, … , +)
≥ " #$ %&:()*|,&:()*
#$ %(|%&:()*,,&:(
log 1 23, 43|53 − 78 9 53|5::3;<; 2::3 ||1 53|5::3;<; >::3;<
?
3@:
，!"
#
Reconstruction Error Priorのアップデート
各ステップの平均をとる
!" !"
!"
!"#$
：画像：速度
!" = $", &", '", (")*, +")*
!"#$：前回行動
ここの導出怪しい．．．

21
ここまではOK．
これって自明．．？

MBPの全体図
22
!"
!"
!"
!"#$
!"#$
CNN
MLP !"
MLP
ℎ"#$ !"#$
!"
! "# 0: & + ()*+
, "# & + 1: + log Σ)*+
!"
CNN
MLP
!"
#
!"
#
!"#
!"#$%
!"#$%
!"
#
Policy LSTM !"
LSTM
LSTM
Linear
Memory
["#
$
, … , "$
'(
]
!"
ℎ"
MLP!"
#$%
, Σ"
#$%
!"#$
%&'
Σ"#$
%&'
! "#
$%&
, Σ#
$%&
Prior
Posterior
Reparametariaztion Trick
MBP LSTM
後述

• 先ほどのMBP LSTMとモデルはほとんど同じ
• メモリから読み出す際は，1つのキーしか使用しない．
• アクションがサンプリングされ，MBPの更新に用いられる．
Policy LSTMについて
23
!"
LSTM
Linear
LSTM
Memory
ℎ"
#
!"#
MLP softmax !" #"|%:", (")*

• 各ステップの一番最後（アクションを決定し，MBPのPriorの更新が終わった
後．）
• 書き込む重み（クロネッカーデルタ）
• タイムステップがメモリ行列のアドレス数を上回った場合，下に定義するusage
vectorを活用する．
• usage vectorで値が最も小さい（最も読み込む頻度が少ない）行に書き込む．
Memoryを更新するタイミング
24
!"
#$
% = '("
!"#$ % = !" % + ("#$ %
読み込みの重み

1.入力をエンコードする．
2.Posteriorを更新する．
3.Posteriorから潜在ベクトルzをサンプリングする．
4.アクションをPolicy LSTMからサンプリングする．
5.MBP LSTMとMemoryからhとmを出力する．
6.Priorを更新する．
7.zをデコードし，入力を再構成し，次の報酬Rを予測する．
8.Memoryを更新する．
9.アクションをEnvironmentに適用する．
1ステップのまとめ
25

• 2つの損失を定義する．（Actor-Criticでいう，Policy BasedとValue Based）
- MBP Loss：MBPのVLB（変分下限）とValue Based
- Policy Loss：Policy LSTMにおけるPolicy Gradient（Policy Based）
パラメータ更新について
26
MBP Loss
Policy Loss

• 2つの項に分かれる．
• 正規分布のKL距離
• 入力の再構成誤差と，期待報酬誤差項に分ける．
MBP Loss
27
log $ %&, … , %); +,, … , +)
≥ " #$ %&:()*|,&:()*
#$ %(|%&:()*,,&:(
log 1 23, 43|53 − 78 9 53|5::3;<; 2::3 ||1 53|5::3;<; >::3;<
?
3@:
各ステップの平均をとる
!" # $%|$':%)*; ,:% ||- $%|$':%)*; .':%)*
= !" 0 1%
234
, Σ%
234
||0 1%
278
, Σ%
278
!" #$|&':$)*,&,:$
log 01, 21|31
≡ −{789:ℒ89: + α>?@ℒ>?@ + 7BCDℒBCD + 7E?FBEGℒE?FBEG + 7D?HDℒD?HD}
− 7E?DJEKℒE?DJEK
Bayesian Surpriseとも解釈可能？

• 長さvのTruncation Windowを設定する． 
T：総ステップ数，k：現在のステップ
期待報酬（Return）誤差
28
log $% &%|(%)*, ,:%
!" !"
MLP
!"
#
MLP
!"
#
!"
#
Gradient Stop
!" = $
%" + '%"() + '*%"(* + ⋯ + ',-"()./
0 1,(), log 6,() 89 : < <,
%" + '%"() + '*%"(* + ⋯ + '=-" 89 < ≤ :.
!" #$, log )$ !"
#$, &$
Advantage関数状態価値関数
行動価値関数とみなせる
ℒ"#$%"& = (
)
*$ − ,-
.$, log 3$
)
+ *$ − 56789:;<=>?6 ,-
.$, log 3$ + @-
.$, ;$
)

• MBPで使用した状態価値関数を，そのまま使用する．
• Bootstrapパラメータ：γ，λ
• TD誤差
• Generalised Advantage Estimationでパラメータθを更新する．
• 論文に書いている仮想コード： 
エントロピー項をつけて，局所解に 
落ちづらいようにしている．
Policy Loss
29
!" ≡ $" + &'( )"*+, log 0"*+ − '( )", log 0"
!" ← !" + % % &' ()*(+() ∇- log 1- 2(|ℎ(, 6(
789 :
();(
789 :
(;7:

• Memory Based Predictor（MBP）：前ステップの行動により得られた環境からの
入力を，潜在空間に落とし込むCondtional VAE．前ステップにおけるMemoryから
の値もモデルに入力することで，今までの観測値と行動を条件付けることができ
る．潜在空間に落とし込んだ表現は，Policyを決定する際にとても有効となるとい
うのが，この論文の主張しているところである． 
また，期待報酬も合わせて予測し，その際の関数が状態価値関数としてみなすこ
とができる．（Criticとして働く．）
• Policy LSTM：MBPでエンコードされたベクトルと，Memoryの値を入力に取り，
方策の確率分布を出力するLSTM．（Actorとして働く．）
• Memory：NTMやDNCのものより簡素化されている．（DNCでは書き込みの重み
までNNがコントロールするが，このモデルでは機械的に決定される．）複数の
Attention Mapと考えるのが，一番理解しやすい．Soft Attentionを使う最大の理由
は，微分可能であるということ．
• 完全にEnd-to-Endなモデルとなっている．
全体をまとめると．．．
30

• Predictive Coding：脳内では，上位システムは，下位システムにおける神経活動
の予測値を伝達し（Feedback），下位システムは予測値と実測値の誤差を上位シ
ステムに伝達している（Feedforward）のでは？，という仮説．
• 視覚野では，Raoらの計算モデルの研究がとても有名：エラー信号を介してフィー
ドバックを受け取るシーン生成モデルが存在することの示唆[Rao et al, Nat Neuro
1999]
• 最近の研究では，視覚野内の瞬間的な予測誤差だけでなく，視覚野と記憶にまつ
わる海馬の刺激パターンの間に相関があることも調べられている[Hindy et al, Nat
Neuro 2016]． 
(MERLINで外部メモリが組み込まれているのは，この研究に影響を受けている．)
MBPを導入する背景1：Predictive Coding
32

• Predictive Codingを組み込んだ深層学習モデルとしては，PredNetが有名．[Lotter
et al, ICLR 2017]
• Deepmindが最近出した，Contrastive Predictive Coding[Oord, NIPS 2018]は，神
経科学的なPredictive Codingとはあまり関係ない気がする．
• MERLINにおいては，前ステップのPriorと観測値を用いてPosteriorの導出→LSTM
を通してPriorを更新というループを作っているところが，Raoのモデルと似てい
て，Predictive Codingの考えに相当する？
MBPを導入する背景1：Predictive Coding
33

• GluckとMyersの計算モデル[1993]：Autoencoder[Hinton, 1989]を用いて，海馬が
入力刺激の圧縮表現を教師なしで学習していることを主張した（おそらく）初め
ての研究．（モデルは制限付きボルツマンマシンとほぼ同じ）
• Deepmindは最近立て続けに，Spatial Encodingに関する計算神経科学的な研究を
発表している．（基本的には，次ステップの刺激を予測する圧縮表現（Successor
Representation）が有効だとする主張）
- The hippocampus as a predictive map [Stachenfeld, Nat Neuro 2017]
- The successor representation in human reinforcement learning [Momennejad,
Nat Human 2017]
• 今年話題になったGrid-Like Navigation[Banino, Nature 2018]でのモデルも，表現
を獲得するLSTMとPolicy LSTMに分けている．その意味では，MERLINとすごく
似ている．
• MERLINでは，自分の過去行動に条件づけられた潜在空間表現の重要性を示唆して
いる．
MBPを導入する背景2：海馬の空間表現
34

• MBPの行っていること→Environmentのモデル化
• World Models[Ha, 2018]：環境のモデル化と方策の学習を，完全に切り離してい
る．この研究におけるControllerは，MERLINのPolicy LSTMに相当する．
World Modelについて
35
Ha et al. 2018 Schmidhuber. 2015

• The Kanerva Machine[Wu, ICLR 2018]：一言で言うと外部メモリに条件づけられ
たConditional VAEだが，外部メモリへの”読み込み”と”書き込み”も含めて，全て確
率推論で表せる．
• MERLINは，書き込みに関しては学習の余地がない機械的な操作．
外部メモリを持った深層生成モデル
36
Generative
model
Reading
Inference
Writing
Inference

• MERLIN
• RL-LSTM
• RL-MEM（A3Cで学習するDNC）
比較するモデル
38

• 3次元迷路のタスク
• ゴールは常に空間内の同じ位置にあり，一度ゴールにたどり着くと，空間内にラ
ンダムにワープする．ゴールに着くとrewardが1もらえる．
39
実験1 Navigation Tasks

• 3次元迷路のタスク
• ゴールは常に空間内の同じ位置にあり，一度ゴールにたどり着くと，空間内にラ
ンダムにワープする．ゴールに着くとrewardが1もらえる．
実験1 Navigation Tasks
40

• 眼球運動の滑らかさ＋記憶力を見るタスク．
実験2 Arbitrary Visuomotor Mapping
41

• 眼球運動の滑らかさ＋記憶力を見るタスク．
実験2 Arbitrary Visuomotor Mapping
42

• 価値関数の学習の速さを見るタスク
実験3 Rapid Reward Valuation
43

• MERLIN：近年の深層学習分野で提案された主要な技術（VAE，Memory
Augmented Neural Network，A3Cなど）をできるだけ組み合わせ，Predictive
Codingと海馬理論に基づいたEnd to Endなモデル．World Modelの学習と，方策
の学習を同時に行っている．
• ここで扱われているタスクは全てGoal-Directed，つまりゴールにたどり着いてま
とまった報酬がもらえるようなタスクである．論文でも触れられている通り，生
物が生存するために必要な本能をモデル化しようとしたというのが元々の動機．
（生存に大事な経験をし，長時間立った後にその経験を正確に想起し行動決定に
生かすことができるかどうか．外部メモリはその意味で上手く機能しているとい
うことができる．）
まとめ
48

• Chainer実装のリポジトリ（おそらく開発途中？） 
https://github.com/yosider/merlin
• 僕のPytorch実装（上のレポジトリをフォークさせていただきました．WIP） 
https://github.com/Kajiyu/MERLIN
おまけ
49

1. https://www.chiikunote.com/entry/conditioning
2. R. S. Sutton. “Learning to Predict by the Methods of Temporal Differences,” 1988
3. C.J.C.H. Watkins. “Learning from delayed rewards,” 1989
4. http://discovermagazine.com/2015/may/17-resetting-the-addictive-brain
5. Schultz W, Dayan P, Montague PR. “A neural substrate of prediction and reward,” 1997
6. Doya, K. “Metalearning and neuromodulation,” 2002
7. http://www.actioforma.net/kokikawa/Evolutional_aspects/Evolutional_aspects.html
8. Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu. “Asynchronous Methods for Deep Reinforcement Learning,” 2016
9. John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel. “High-Dimensional Continuous Control Using Generalized Advantage Estimation,” 2015
10. Alex Graves, Greg Wayne, Ivo Danihelka. “Neural Turing Machine,” 2014
11. Alex Graves et al. “Hybrid computing using a neural network with dynamic external memory,” 2016
12. Rajesh P. N. Rao, Dana H. Ballard. “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects,” 1999
13. Nicholas C Hindy, Felicia Y Ng & Nicholas B Turk-Browne. “Linking pattern completion in the hippocampus to predictive coding in visual cortex,” 2016
14. William Lotter, Gabriel Kreiman, David Cox. “Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning,” 2016
15. Aaron van den Oord, Yazhe Li, Oriol Vinyals. “Representation Learning with Contrastive Predictive Coding,” 2018
16. Karl J. Friston and Stefan Kiebel. “Predictive coding under the free-energy principle,” 2009
17. Karl J. Friston , Jean Daunizeau, Stefan J. Kiebel. “Reinforcement Learning or Active Inference?,” 2009
18. Karl J. Friston. “The free-energy principle: a unified brain theory?,” 2010
19. Andy Clark. “Whatever next? Predictive brains,situated agents, and the future ofcognitive science,” 2013
20. Martin Biehl, Christian Guckelsberger, Christoph Salge, Simón C. Smith, Daniel Polani. “Expanding the Active Inference Landscape: More Intrinsic Motivations in the Perception-Action Loop,” 2018
21. Mark A. Gluck Catherine E. Myers. “Hippocampal mediation of stimulus representation: A computational theory,” 1993
22. G. E. Hinton and R. R. Salakhutdinov. “Reducing the Dimensionality of Data with Neural Networks,” 2006
23. Kimberly L Stachenfeld, Matthew M Botvinick & Samuel J Gershman. “The hippocampus as a predictive map,” 2017
24. I. Momennejad, E. M. Russek, J. H. Cheong, M. M. Botvinick, N. D. Daw & S. J. Gershman. “The successor representation in human reinforcement learning,” 2017
25. Andrea Banino et al. “Vector-based navigation using grid-like representations in artificial agents,” 2018
26. David Ha, Jürgen Schmidhuber. “World Models,” 2018
27. Juergen Schmidhuber. “On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models,” 2015
28. Yan Wu, Greg Wayne, Alex Graves, Timothy Lillicrap. “The Kanerva Machine: A Generative Distributed Memory,” 2018
29. Wojciech Zaremba, Ilya Sutskever. “Reinforcement Learning Neural Turing Machines - Revised,” 2015
参考文献
50

RLアーキテクチャ勉強会　MERLIN

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to RLアーキテクチャ勉強会　MERLIN

Similar to RLアーキテクチャ勉強会　MERLIN (20)