SlideShare a Scribd company logo
1 of 50
Download to read offline
論文紹介(+関連研究の紹介):
Unsupervised Predictive Memory in a
Goal-Directed Agent (MERLIN)
G. Wayne, et al. arxiv. 2018
東大総合文化研究科 広域科学専攻
梶原侑馬
1
2018 08/21
RLアーキテクチャ勉強会
発表内容について
• 論文タイトル:「Unsupervised Predictive Memory in a Goal-Directed Agent」
(arXiv:1803.10760),2018/03/28.
• 著者:Greg Wayne, et al.(Deepmind)

Greg Wayne:Neural Turing Machine(NTM),Differentiable Neural
Computers(DNC)の共著者.神経科学でPh. Dを取っている?

(http://columbia.academia.edu/GregWayne)
• 内容:

- 経験を長期間保持するための機構(外部メモリを使用)

- 複雑な観測情報の適切な潜在表現への変換+方策をEnd to Endに学習する.

- 3D空間探索で,LSTMベースのモデルを圧倒.
• 論文内で,認知神経科学に関する知見を多く持ち出しています.モデルを理解す
る際にも,それらを押さえていくことが必要になります.この発表でも,できる
だけ多くの神経科学の研究を参照していこうと思います.(強化学習に関しては
まだまだ素人なので,誤りがあればご指摘いただけると幸いです🙇)
2
発表に入る前に
• 最近,DeepmindのホームページのPublicationsから,今日紹介する論文が削除さ
れている...
• ArXivには,そのまま残っている.
• もしかすると,論文内容に誤りが...?
3
目次
• 神経科学における強化学習
• MERLINについて
• 関連研究
• 実験
• まとめ
4
1. 神経科学における強化学習
5
強化学習の起源
• 一つの起源(概念的):動物行動科学の「オペラント条件づけ」
• オペラント条件づけ(Thorndike[1898], Skinner[1938]):

動物に能動的に行動を行わせ,その行動に対応する刺激(合っていれば報酬を,
間違っていれば罰)を与えることで,その動物の行動の頻度分布を変化させる実
験手法
6
オペラント条件づけ強化学習
図は以下より拝借
http://kazoo04.hatenablog.com/entry/agi-ac-14
強化学習の起源
• もう一つの起源(数学的な):最適制御.
- Markov Decision Process(MDP)(1950s):状態遷移がマルコフ性(次の
行動が今の状態によって決まる)を満たす動的システムの確率モデル
- Bellman方程式(Bellman, 1957):MDPにおいて,最適な行動則(policy)
の元成り立つ,状態価値に関する再帰的な方程式
• 不確実な環境における,サンプリングを主体とした確率的なシステム制御の手法
として,強化学習が成り立ってきた.
- TD(Temporal Difference)学習(Sutton, 1984):報酬の期待値のズレを誤差信
号として,1ステップごとに状態価値関数V(x)を更新していく学習方法.
- Q学習(Watkins,1989):各状態において、可能な行動の中で最も行動評価
関数Q(x)の値が高い行動をとるように学習を行う方法.
• この時点では,あくまでブラックボックス化したシステム内における,行動則の
学習方法である.(脳内の具体的なメカニズムは何も言及していない)
7
Oldsの実験(1954)
• ラットの辺縁系に電極を指しておいてラットがレバーを押すことで電流が流れる
ようにしてやると、ラットはレバーを次々に押して自分自身を刺激するようにな
ることを発見した。
• 脳内(特に辺縁系)に報酬処理回路があることを示唆した初めての研究.(やっ
ていることはオペラント条件づけ)
8
図は以下より拝借
http://discovermagazine.com/2015/may/17-resetting-the-addictive-brain
Schultzの実験(1997)
• サルに「ライトが点灯したときにレバーを押すと、リンゴジュースがもらえる」
という学習課題を与え、学習中の黒質緻密部(大脳基底核の一部)におけるドー
パミンニューロンの挙動を観察する.
• ライトが点灯しただけでドーパミン濃度が増大,実際にジュースをもらった時は
変化なし.ランプを点灯した時にジュースをあげなければ,逆にドーパミン濃度
が低下する.→TD誤差??
• 大脳基底核は,ドーパミンを報酬として,その予測報酬誤差(TD誤差)を元に
出力を決定していることを示唆した.
9
図は以下より拝借
https://ameblo.jp/atelier-nadja/entry-12230204436.html
Doyaの神経修飾物質仮説(2002)
• TD学習における各パラメータが,脳における神経修飾物質の濃度と対応してい
るのではと提案した.
- TD誤差:ドーパミン系
- 割引率γ:セロトニン系(濃度が低いと目先の出来事に囚われるようになる)
- 逆温度β:ノルアドレナリン系(痛みに関わる).探索のランダムさを決定す
る.
- 学習率α:アセチルコリン系(濃度が低いとアルツハイマーになりやすい.)
10
基底核-新皮質ループ
• 主に4つのループがあると考えられていて,それらは並列的にループしているみ
たい.
- 運動系ループ(motor loop):筋肉の制御
- 前頭前野系ループ(prefrontal loop):行動計画
- 眼球運動系ループ(oculomotor loop):サッケード眼球運動の制御
- 辺縁系ループ(limbic loop):行動の動機付け,情動
11
図は以下より拝借
http://www.actioforma.net/kokikawa/Evolutional_aspects/Evolutional_aspects.html
この中では一番Intristic(本能的)
まとめると
• 大脳基底核は,強化学習(TD学習)を行っている?
• 最後に説明した幾つかの閉ループ回路をうまくEnd-to-Endにモデル化すれば,複
雑な環境に適応できるエージェントが作れるのではないか→MERLINの思想につ
ながっていく.
• MERLINではいくつかのループが出てくる.(明示的に書いてはいないが)大脳
基底核/海馬⇄新皮質のループを意識していることは感じられる.

逆に辺縁系のループに関しては今回は参照していない.(Curiosityなど)
12
2. MERLINについて
13
既存モデル
• A3Cで学習させたLSTM(以下,”RL-LSTM”とする).
• A3Cの利点(皆さんの方がお詳しいと思いますが...)

- Actor Learnerの数だけ,学習時間が短縮できる.(パラメータ共有)

- Experience Replayを使わない(On Policyに学習できる.)

- RNNを使用できる.(今回では重要)
14
RL-LSTM
15
????????????
提案モデル (MERLIN)
• Memory, Reinforcement Learning and Inference (MERLIN)の名の通り,主に3つ
の部分から成る.
- 現在の観測情報を潜在空間に埋め込み,外部メモリを活用して,前ステップ
の自分の行動と次の報酬を予測する推論部分(Memory Based Predictor)
- エンコードされた観測情報を保存する,外部メモリ機構(Memory)
- エンコードされた現在の観測情報と過去の情報から,行動を選択するPolicy
LSTM
16
Environment
Memory Based
Predictor
Memory
Policy LSTM
MERLIN
!(#), &(#) !(#$%)
メモリ機構(NTMのものとほぼ同じ)
• m × nの行列Mに,値を格納する.(イメージとしては,m個のアドレスがあり,
それぞれに長さnのベクトル値を格納できる.)
• 書き込み:書き込むベクトルm(長さはn/2)に関して,以下の計算でメモリ行
列Mが更新される.
-  の算出は,後述.
• 読み込み:キーkと現在のメモリ行列Mに関して,以下の計算よりベクトルmが
読み込まれる.(いわゆる Soft Attention)
17
! = #$
%
! " =
$%& '()
∑ $%& '()
+́
- !" = $
% & ",(
%(& ",(
!" = !"$% + '"
()
*, 0 - + '"
)."
0, * -
!"
#$"
= &!"'(
#$"
+ 1 − & !"'(
,#
!"
#$
Memory Based Predictor
• 基本的にはConditional Variational AutoEncoder.
18
!" !" !"#
Policy LSTM
Memory
Encodingしたzを行動決定に用いる.
Encodingしたzを外部メモリに格納
!", … , !%&", '", … , '%&"
Priorモデル !"
! "#|"% … "#'%; )%, … , )#
! "#|"% … "#'%; )%, … , )#'%
! "#|%#
!" !"
!"
!"#$
:画像 :速度
:テキスト :前回報酬
!" = $", &", '", (")*, +")*
!"#$:前回行動
Memory Based Predictor
• 基本的にはConditional Variational AutoEncoder.
• 次に貰える報酬も予測する.(Critic)
19
!" !" !"#
Policy LSTM
Memory
Encodingしたzを行動決定に用いる.
Encodingしたzを外部メモリに格納
!", … , !%&", '", … , '%&"
Priorモデル !"
!"
#,! "#, %#|'#! "#|"% … "#'%; )%, … , )#
! "#|"% … "#'%; )%, … , )#'%
!" !"
!"
!"#$
:画像 :速度
:テキスト :前回報酬
!" = $", &", '", (")*, +")*
!"#$:前回行動
Memory Based Predictor
• 基本的にはConditional Variational AutoEncoder.
• Objective :周辺尤度の最大化
20
!"
! "#|%&, … , %#)&, "&, … , "#)&, *# !"
! "#|%&, … , %#)&, *&, … , *# !"#
!", … , !%&", '", … , '%&" ! "#|%&, … , %#)&, "&, … , "#)&
Priorモデル
!"
log $ %&, … , %); +,, … , +)
≥ " #$ %&:()*|,&:()*
#$ %(|%&:()*,,&:(
log 1 23, 43|53 − 78 9 53|5::3;<; 2::3 ||1 53|5::3;<; >::3;<
?
3@:
,!"
#
Reconstruction Error Priorのアップデート
各ステップの平均をとる
!" !"
!"
!"#$
:画像 :速度
:テキスト :前回報酬
!" = $", &", '", (")*, +")*
!"#$:前回行動
ここの導出怪しい...
21
ここまではOK.
これって自明..?
MBPの全体図
22
!"
!"
!"
!"#$
!"#$
CNN
MLP !"
MLP
ℎ"#$ !"#$
!"
! "# 0: & + ()*+
, "# & + 1: + log Σ)*+
!"
CNN
MLP
!"
#
!"
#
!"#
!"#$%
!"#$%
!"
#
Policy LSTM !"
LSTM
LSTM
Linear
Memory
["#
$
, … , "$
'(
]
!"
ℎ"
MLP!"
#$%
, Σ"
#$%
!"#$
%&'
			Σ"#$
%&'
! "#
$%&
, Σ#
$%&
Prior
Posterior
Reparametariaztion Trick
MBP LSTM
後述
• 先ほどのMBP LSTMとモデルはほとんど同じ
• メモリから読み出す際は,1つのキーしか使用しない.
• アクションがサンプリングされ,MBPの更新に用いられる.
Policy LSTMについて
23
!"
LSTM
Linear
LSTM
Memory
ℎ"
#
!"#
MLP softmax !" #"|%:", (")*
• 各ステップの一番最後(アクションを決定し,MBPのPriorの更新が終わった
後.)
• 書き込む重み     (クロネッカーデルタ)
• タイムステップがメモリ行列のアドレス数を上回った場合,下に定義するusage
vectorを活用する.
• usage vectorで値が最も小さい(最も読み込む頻度が少ない)行に書き込む.
Memoryを更新するタイミング
24
!"
#$
% = '("
!"#$ % = !" % + ("#$ %
読み込みの重み
1.入力をエンコードする.
2.Posteriorを更新する.
3.Posteriorから潜在ベクトルzをサンプリングする.
4.アクションをPolicy LSTMからサンプリングする.
5.MBP LSTMとMemoryからhとmを出力する.
6.Priorを更新する.
7.zをデコードし,入力を再構成し,次の報酬Rを予測する.
8.Memoryを更新する.
9.アクションをEnvironmentに適用する.
1ステップのまとめ
25
• 2つの損失を定義する.(Actor-Criticでいう,Policy BasedとValue Based)
- MBP Loss:MBPのVLB(変分下限)とValue Based
- Policy Loss:Policy LSTMにおけるPolicy Gradient(Policy Based)
パラメータ更新について
26
MBP Loss
Policy Loss
• 2つの項に分かれる.
• 正規分布のKL距離
• 入力の再構成誤差と,期待報酬誤差項に分ける.
MBP Loss
27
log $ %&, … , %); +,, … , +)
≥ " #$ %&:()*|,&:()*
#$ %(|%&:()*,,&:(
log 1 23, 43|53 − 78 9 53|5::3;<; 2::3 ||1 53|5::3;<; >::3;<
?
3@:
各ステップの平均をとる
!" # $%|$':%)*; ,:% ||- $%|$':%)*; .':%)*
= !" 0 1%
234
, Σ%
234
||0 1%
278
, Σ%
278
!" #$|&':$)*,&,:$
log 01, 21|31
≡ −{789:ℒ89: + α>?@ℒ>?@ +	7BCDℒBCD + 7E?FBEGℒE?FBEG + 7D?HDℒD?HD}
− 7E?DJEKℒE?DJEK
Bayesian Surpriseとも解釈可能?
• 長さvのTruncation Windowを設定する.

T:総ステップ数,k:現在のステップ
期待報酬(Return)誤差
28
log $% &%|(%)*, ,:%
!" !"
 MLP
!"
#
 MLP
!"
#
!"
#
Gradient Stop
!" = $
%" + '%"() + '*%"(* + ⋯ + ',-"()./
0 1,(), log 6,() 	89	: < <,
%" + '%"() + '*%"(* + ⋯ + '=-"	89	< ≤ :.
!" #$, log )$ !"
#$, &$	
Advantage関数状態価値関数
行動価値関数とみなせる
ℒ"#$%"& = (
)
*$ − ,-
.$, log 3$
)
+ *$ − 56789:;<=>?6 ,-
.$, log 3$ + @-
.$, ;$
)
• MBPで使用した状態価値関数を,そのまま使用する.
• Bootstrapパラメータ:γ,λ
• TD誤差
• Generalised Advantage Estimationでパラメータθを更新する.
• 論文に書いている仮想コード:

エントロピー項をつけて,局所解に

落ちづらいようにしている.
Policy Loss
29
!" ≡ $" + &'( )"*+, log 0"*+ − '( )", log 0"	
!" ← !" + % % &' ()*(+() ∇- log 1- 2(|ℎ(, 6(
789 :
();(
789 :
(;7:
• Memory Based Predictor(MBP):前ステップの行動により得られた環境からの
入力を,潜在空間に落とし込むCondtional VAE.前ステップにおけるMemoryから
の値もモデルに入力することで,今までの観測値と行動を条件付けることができ
る.潜在空間に落とし込んだ表現は,Policyを決定する際にとても有効となるとい
うのが,この論文の主張しているところである.

また,期待報酬も合わせて予測し,その際の関数が状態価値関数としてみなすこ
とができる.(Criticとして働く.)
• Policy LSTM:MBPでエンコードされたベクトルと,Memoryの値を入力に取り,
方策の確率分布を出力するLSTM.(Actorとして働く.)
• Memory:NTMやDNCのものより簡素化されている.(DNCでは書き込みの重み
までNNがコントロールするが,このモデルでは機械的に決定される.)複数の
Attention Mapと考えるのが,一番理解しやすい.Soft Attentionを使う最大の理由
は,微分可能であるということ.
• 完全にEnd-to-Endなモデルとなっている.
全体をまとめると...
30
3. 関連研究
31
• Predictive Coding:脳内では,上位システムは,下位システムにおける神経活動
の予測値を伝達し(Feedback),下位システムは予測値と実測値の誤差を上位シ
ステムに伝達している(Feedforward)のでは?,という仮説.
• 視覚野では,Raoらの計算モデルの研究がとても有名:エラー信号を介してフィー
ドバックを受け取るシーン生成モデルが存在することの示唆[Rao et al, Nat Neuro
1999]
• 最近の研究では,視覚野内の瞬間的な予測誤差だけでなく,視覚野と記憶にまつ
わる海馬の刺激パターンの間に相関があることも調べられている[Hindy et al, Nat
Neuro 2016].

(MERLINで外部メモリが組み込まれているのは,この研究に影響を受けている.)
MBPを導入する背景1:Predictive Coding
32
• Predictive Codingを組み込んだ深層学習モデルとしては,PredNetが有名.[Lotter
et al, ICLR 2017]
• Deepmindが最近出した,Contrastive Predictive Coding[Oord, NIPS 2018]は,神
経科学的なPredictive Codingとはあまり関係ない気がする.
• MERLINにおいては,前ステップのPriorと観測値を用いてPosteriorの導出→LSTM
を通してPriorを更新というループを作っているところが,Raoのモデルと似てい
て,Predictive Codingの考えに相当する?
MBPを導入する背景1:Predictive Coding
33
• GluckとMyersの計算モデル[1993]:Autoencoder[Hinton, 1989]を用いて,海馬が
入力刺激の圧縮表現を教師なしで学習していることを主張した(おそらく)初め
ての研究.(モデルは制限付きボルツマンマシンとほぼ同じ)
• Deepmindは最近立て続けに,Spatial Encodingに関する計算神経科学的な研究を
発表している.(基本的には,次ステップの刺激を予測する圧縮表現(Successor
Representation)が有効だとする主張)
- The hippocampus as a predictive map [Stachenfeld, Nat Neuro 2017]
- The successor representation in human reinforcement learning [Momennejad,
Nat Human 2017]
• 今年話題になったGrid-Like Navigation[Banino, Nature 2018]でのモデルも,表現
を獲得するLSTMとPolicy LSTMに分けている.その意味では,MERLINとすごく
似ている.
• MERLINでは,自分の過去行動に条件づけられた潜在空間表現の重要性を示唆して
いる.
MBPを導入する背景2:海馬の空間表現
34
• MBPの行っていること→Environmentのモデル化
• World Models[Ha, 2018]:環境のモデル化と方策の学習を,完全に切り離してい
る.この研究におけるControllerは,MERLINのPolicy LSTMに相当する.
World Modelについて
35
Ha et al. 2018 Schmidhuber. 2015
• The Kanerva Machine[Wu, ICLR 2018]:一言で言うと外部メモリに条件づけられ
たConditional VAEだが,外部メモリへの”読み込み”と”書き込み”も含めて,全て確
率推論で表せる.
• MERLINは,書き込みに関しては学習の余地がない機械的な操作.
外部メモリを持った深層生成モデル
36
Generative
model
Reading
Inference
Writing
Inference
4. 実験
37
• MERLIN
• RL-LSTM
• RL-MEM(A3Cで学習するDNC)
比較するモデル
38
• 3次元迷路のタスク
• ゴールは常に空間内の同じ位置にあり,一度ゴールにたどり着くと,空間内にラ
ンダムにワープする.ゴールに着くとrewardが1もらえる.
39
実験1 Navigation Tasks
• 3次元迷路のタスク
• ゴールは常に空間内の同じ位置にあり,一度ゴールにたどり着くと,空間内にラ
ンダムにワープする.ゴールに着くとrewardが1もらえる.
実験1 Navigation Tasks
40
• 眼球運動の滑らかさ+記憶力を見るタスク.
実験2 Arbitrary Visuomotor Mapping
41
• 眼球運動の滑らかさ+記憶力を見るタスク.
実験2 Arbitrary Visuomotor Mapping
42
• 価値関数の学習の速さを見るタスク
実験3 Rapid Reward Valuation
43
44
45
46
5.まとめ
47
• MERLIN:近年の深層学習分野で提案された主要な技術(VAE,Memory
Augmented Neural Network,A3Cなど)をできるだけ組み合わせ,Predictive
Codingと海馬理論に基づいたEnd to Endなモデル.World Modelの学習と,方策
の学習を同時に行っている.
• ここで扱われているタスクは全てGoal-Directed,つまりゴールにたどり着いてま
とまった報酬がもらえるようなタスクである.論文でも触れられている通り,生
物が生存するために必要な本能をモデル化しようとしたというのが元々の動機.
(生存に大事な経験をし,長時間立った後にその経験を正確に想起し行動決定に
生かすことができるかどうか.外部メモリはその意味で上手く機能しているとい
うことができる.)
まとめ
48
• Chainer実装のリポジトリ(おそらく開発途中?)

https://github.com/yosider/merlin
• 僕のPytorch実装(上のレポジトリをフォークさせていただきました.WIP)

https://github.com/Kajiyu/MERLIN
おまけ
49
1. https://www.chiikunote.com/entry/conditioning
2. R. S. Sutton. “Learning to Predict by the Methods of Temporal Differences,” 1988
3. C.J.C.H. Watkins. “Learning from delayed rewards,” 1989
4. http://discovermagazine.com/2015/may/17-resetting-the-addictive-brain
5. Schultz W, Dayan P, Montague PR. “A neural substrate of prediction and reward,” 1997
6. Doya, K. “Metalearning and neuromodulation,” 2002
7. http://www.actioforma.net/kokikawa/Evolutional_aspects/Evolutional_aspects.html
8. Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu. “Asynchronous Methods for Deep Reinforcement Learning,” 2016
9. John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, Pieter Abbeel. “High-Dimensional Continuous Control Using Generalized Advantage Estimation,” 2015
10. Alex Graves, Greg Wayne, Ivo Danihelka. “Neural Turing Machine,” 2014
11. Alex Graves et al. “Hybrid computing using a neural network with dynamic external memory,” 2016
12. Rajesh P. N. Rao, Dana H. Ballard. “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects,” 1999
13. Nicholas C Hindy, Felicia Y Ng & Nicholas B Turk-Browne. “Linking pattern completion in the hippocampus to predictive coding in visual cortex,” 2016
14. William Lotter, Gabriel Kreiman, David Cox. “Deep Predictive Coding Networks for Video Prediction and Unsupervised Learning,” 2016
15. Aaron van den Oord, Yazhe Li, Oriol Vinyals. “Representation Learning with Contrastive Predictive Coding,” 2018
16. Karl J. Friston and Stefan Kiebel. “Predictive coding under the free-energy principle,” 2009
17. Karl J. Friston , Jean Daunizeau, Stefan J. Kiebel. “Reinforcement Learning or Active Inference?,” 2009
18. Karl J. Friston. “The free-energy principle: a unified brain theory?,” 2010
19. Andy Clark. “Whatever next? Predictive brains,situated agents, and the future ofcognitive science,” 2013
20. Martin Biehl, Christian Guckelsberger, Christoph Salge, Simón C. Smith, Daniel Polani. “Expanding the Active Inference Landscape: More Intrinsic Motivations in the Perception-Action Loop,” 2018
21. Mark A. Gluck Catherine E. Myers. “Hippocampal mediation of stimulus representation: A computational theory,” 1993
22. G. E. Hinton and R. R. Salakhutdinov. “Reducing the Dimensionality of Data with Neural Networks,” 2006
23. Kimberly L Stachenfeld, Matthew M Botvinick & Samuel J Gershman. “The hippocampus as a predictive map,” 2017
24. I. Momennejad, E. M. Russek, J. H. Cheong, M. M. Botvinick, N. D. Daw & S. J. Gershman. “The successor representation in human reinforcement learning,” 2017
25. Andrea Banino et al. “Vector-based navigation using grid-like representations in artificial agents,” 2018
26. David Ha, Jürgen Schmidhuber. “World Models,” 2018
27. Juergen Schmidhuber. “On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models,” 2015
28. Yan Wu, Greg Wayne, Alex Graves, Timothy Lillicrap. “The Kanerva Machine: A Generative Distributed Memory,” 2018
29. Wojciech Zaremba, Ilya Sutskever. “Reinforcement Learning Neural Turing Machines - Revised,” 2015
参考文献
50

More Related Content

What's hot

[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World ModelsDeep Learning JP
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific FeaturesDeep Learning JP
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 

What's hot (20)

[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 

Similar to RLアーキテクチャ勉強会 MERLIN

文献紹介:Efficient Attention: Attention With Linear Complexities
文献紹介:Efficient Attention: Attention With Linear Complexities文献紹介:Efficient Attention: Attention With Linear Complexities
文献紹介:Efficient Attention: Attention With Linear ComplexitiesToru Tamaki
 
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
文献紹介:Attention-Based Spatial Guidance for Image-to-Image TranslationToru Tamaki
 
㉗HTML5+jQueryでお絵かき
㉗HTML5+jQueryでお絵かき㉗HTML5+jQueryでお絵かき
㉗HTML5+jQueryでお絵かきNishida Kansuke
 
ngx_small_light at 第2回闇鍋プログラミング勉強会
ngx_small_light at 第2回闇鍋プログラミング勉強会ngx_small_light at 第2回闇鍋プログラミング勉強会
ngx_small_light at 第2回闇鍋プログラミング勉強会Tatsuhiko Kubo
 
CodeIgniterによるPhwittr
CodeIgniterによるPhwittrCodeIgniterによるPhwittr
CodeIgniterによるPhwittrkenjis
 
確率的グラフィカルモデルと離散構造
確率的グラフィカルモデルと離散構造確率的グラフィカルモデルと離散構造
確率的グラフィカルモデルと離散構造Masakazu Ishihata
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
⑱jQueryをおぼえよう!その4
⑱jQueryをおぼえよう!その4⑱jQueryをおぼえよう!その4
⑱jQueryをおぼえよう!その4Nishida Kansuke
 
⑯jQueryをおぼえよう!その2
⑯jQueryをおぼえよう!その2⑯jQueryをおぼえよう!その2
⑯jQueryをおぼえよう!その2Nishida Kansuke
 
#FTMA15 第三回課題 仏・人間コース サーベイ
#FTMA15 第三回課題 仏・人間コース サーベイ#FTMA15 第三回課題 仏・人間コース サーベイ
#FTMA15 第三回課題 仏・人間コース サーベイYoichi Ochiai
 
jQuery Performance Tips – jQueryにおける高速化 -
jQuery Performance Tips – jQueryにおける高速化 -jQuery Performance Tips – jQueryにおける高速化 -
jQuery Performance Tips – jQueryにおける高速化 -Hayato Mizuno
 
dvipdfmxと3つのバッド・ノウハウ
dvipdfmxと3つのバッド・ノウハウdvipdfmxと3つのバッド・ノウハウ
dvipdfmxと3つのバッド・ノウハウTakayuki Yato
 
20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会Takahiro Iwase
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)mametter
 
入門 超絶技巧プログラミング !
入門 超絶技巧プログラミング !入門 超絶技巧プログラミング !
入門 超絶技巧プログラミング !Nobutada Matsubara
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1Shunsuke Nakamura
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video ClassificationToru Tamaki
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1Shunsuke Nakamura
 
Sencha TouchでHTML5アプリを作ってみる
Sencha TouchでHTML5アプリを作ってみるSencha TouchでHTML5アプリを作ってみる
Sencha TouchでHTML5アプリを作ってみるTomonori Ohba
 

Similar to RLアーキテクチャ勉強会 MERLIN (20)

文献紹介:Efficient Attention: Attention With Linear Complexities
文献紹介:Efficient Attention: Attention With Linear Complexities文献紹介:Efficient Attention: Attention With Linear Complexities
文献紹介:Efficient Attention: Attention With Linear Complexities
 
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
文献紹介:Attention-Based Spatial Guidance for Image-to-Image Translation
 
㉗HTML5+jQueryでお絵かき
㉗HTML5+jQueryでお絵かき㉗HTML5+jQueryでお絵かき
㉗HTML5+jQueryでお絵かき
 
ngx_small_light at 第2回闇鍋プログラミング勉強会
ngx_small_light at 第2回闇鍋プログラミング勉強会ngx_small_light at 第2回闇鍋プログラミング勉強会
ngx_small_light at 第2回闇鍋プログラミング勉強会
 
CodeIgniterによるPhwittr
CodeIgniterによるPhwittrCodeIgniterによるPhwittr
CodeIgniterによるPhwittr
 
確率的グラフィカルモデルと離散構造
確率的グラフィカルモデルと離散構造確率的グラフィカルモデルと離散構造
確率的グラフィカルモデルと離散構造
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
⑱jQueryをおぼえよう!その4
⑱jQueryをおぼえよう!その4⑱jQueryをおぼえよう!その4
⑱jQueryをおぼえよう!その4
 
⑯jQueryをおぼえよう!その2
⑯jQueryをおぼえよう!その2⑯jQueryをおぼえよう!その2
⑯jQueryをおぼえよう!その2
 
Arctic.js
Arctic.jsArctic.js
Arctic.js
 
#FTMA15 第三回課題 仏・人間コース サーベイ
#FTMA15 第三回課題 仏・人間コース サーベイ#FTMA15 第三回課題 仏・人間コース サーベイ
#FTMA15 第三回課題 仏・人間コース サーベイ
 
jQuery Performance Tips – jQueryにおける高速化 -
jQuery Performance Tips – jQueryにおける高速化 -jQuery Performance Tips – jQueryにおける高速化 -
jQuery Performance Tips – jQueryにおける高速化 -
 
dvipdfmxと3つのバッド・ノウハウ
dvipdfmxと3つのバッド・ノウハウdvipdfmxと3つのバッド・ノウハウ
dvipdfmxと3つのバッド・ノウハウ
 
20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会20110517 okuyama ソーシャルメディアが育てた技術勉強会
20110517 okuyama ソーシャルメディアが育てた技術勉強会
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
 
入門 超絶技巧プログラミング !
入門 超絶技巧プログラミング !入門 超絶技巧プログラミング !
入門 超絶技巧プログラミング !
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 
文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification文献紹介:Token Shift Transformer for Video Classification
文献紹介:Token Shift Transformer for Video Classification
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
Sencha TouchでHTML5アプリを作ってみる
Sencha TouchでHTML5アプリを作ってみるSencha TouchでHTML5アプリを作ってみる
Sencha TouchでHTML5アプリを作ってみる
 

RLアーキテクチャ勉強会 MERLIN