SlideShare a Scribd company logo
1 of 38
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Rainbow: Combining Improvements in Deep
Reinforcement Learning” (AAAI 2018 under review)
Toru Fujino, Chen Lab, GSFS
書誌情報①
• AAAI 2018 査読され中
• Matteo Hessel et al.
– Deepmind
• 概要
– DQNにおけるテクニック的なものを全部詰め込んだモデルを提案
• Double DQN, Prioritized experience replay, Dueling architecture, Noisy net,
Distributional perspective, Multi-step learning
– 当時(10⽉下旬まで)のState of the Artを出した
– 各テクニックのDQNにおける影響度を実験的に検証した
• 選定理由
– DQNを勉強する必要があった
2
強化学習とは
• エージェントが環境と相互に作⽤しながらより良
い⾏動の仕⽅を学ぶ
• 累積の報酬を最⼤化する⽅策(⾏動の指針)を学習する
𝐺" = 𝑅"%& + 𝛾𝑅"%) + 𝛾)
𝑅"%* + 𝛾*
𝑅"%+ + ⋯
31)	Richard	S.	Sutton	and	Andrew	G.	Barto.	2017.	Reinforcement	Learning:	An	Introduction.	Second	edition.	The	MIT	Press
Q学習とは
• ⾏動価値関数
𝑄.
𝑆", 𝐴" = 𝔼 𝑅"%& + 𝛾𝑄.
𝑆"%&, 𝐴"%&	 |𝑆", 𝐴"
• 最適⾏動価値関数
𝑄∗
𝑠, 𝑎 = max
.
𝑄.
(𝑠, 𝑎)
• 以下の更新則で最適⽅策のQ関数に近づけてい
𝛿>
= 𝑅"%& + 𝛾 ⋅ arg max
BCDE
𝑄(𝑆"%&, 𝑎"%&) − 𝑄 𝑆"%&, 𝑎"%&
𝑄 𝑆", 𝐴" ← 𝑄 𝑆", 𝐴" + 𝜂 ⋅ 𝛿>
4
DQNとは
• Q学習をDNNで近似し教師ありのように学習する
• tableと違い⾏動間でパラメータを⼤部分で共有
• Target Network:教師信号を固定
• Experience Replay:過去の経験からサンプル
51)	V.	Mnih et	al.	Human-level	control	through	deep	reinforcement	learning.	2015.	Nature
	𝑄(𝑠, 𝑎 &
)
𝑄(𝑠, 𝑎 )
)
𝑄(𝑠, 𝑎 |𝒜|
)
・
・
・
𝑠
DQNの拡張
• DQN(Nature 2015)後, いろいろな拡張案が出
– Double DQN(AAAI 2016)
– Dueling Network(ICML 2016)
– Prioritized Experience Replay(ICLR 2016)
– Noisy Network(ICLR 2018 under review)
– Multi-step Reinforcement Learning(?)
– Distributional Reinforcement Learning(ICML2017)
• 次からのスライドで順番に説明
6
Double DQN(AAAI 2016)
• 通常のQ学習では, 推定のQ値が真の値に対して⼆乗誤差
が正となるとき, maxQ値が真の値よりも⼤きくなってし
まう(overestimate)
71)	v.	Hasselt	et	al.	Deep	Reinforcement	Learning	with	Double	Q-Learning.	2016.	AAAI
Double DQN(AAAI 2016)
• ⾏動を選択するQ関数とQ値を出⼒するQ関数をわ
けることでこれを軽減できる
• DQNにおいても同様のアイデアを⽤いる
𝑦" = 𝑅"%& + 𝛾𝑄 𝑆"%&, arg max
B
𝑄(𝑆"%& , 𝑎; 𝜽"); 𝜽′"
81)	v.	Hasselt	et	al.	Deep	Reinforcement	Learning	with	Double	Q-Learning.	2016.	AAAI
Prioritized Experience Replay
• 通常のExperience Replay
– 過去の経験からランダムにサンプル
• Prioritized Experience Replay
– 学習の余地の⼤きいデータを重点的にサンプル
– 学習の余地:TD誤差
91)	T.	Schaul et	al.	Prioritized	Experience	Replay.	2016.	ICLR
Prioritized Experience Replay
• TD誤差
𝛿>
= 𝑅"%& + 𝛾 ⋅ arg max
BCDE
𝑄 𝑆", 𝑎"%& − 𝑄(𝑆", 𝐴")
• 抽出確率
𝑃 𝑖 =
𝛿 >
+ 𝜖
Q
∑ 𝛿 > + 𝜖
Q
>T
101)	T.	Schaul et	al.	Prioritized	Experience	Replay.	2016.	ICLR
Dueling Network
• Q値をV値とA値に分けて推定する
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴(𝑠, 𝑎)
– V(s):状態sに対する価値
– A(s,a):状態sでの⾏動aの相対的な価値
111)	Z.	Wang	et	al.	Dueling	Network	Architectures	for	Deep	Reinforcement	Learning.	2016.	ICML
通常のDQN
Dueling DQN
V
A
Q
Q
Dueling Network
• Q値の絶対値に⽐べてQ値間の差が⼩さい時
– 通常のDQN:更新時のノイズで激しい順位変動
– Dueling:V(Q値の平均的な⼤きさ)を別にしているの
で, そのような影響に対してもロバスト(らしい)
• 最終層の計算
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴 𝑠, 𝑎 − &
𝒜
∑𝐴(𝑠, 𝑎)
121)	Z.	Wang	et	al.	Dueling	Network	Architectures	for	Deep	Reinforcement	Learning.	2016.	ICML
Multi-step Learning
• nステップ先のQ値を推定する
𝑅"
V
≔ X 𝛾"
Y
𝑅"%Y%&
VZ&
Y[
𝛿 = 𝑅"
V
+ 𝛾"
V
max
BT
𝑄(𝑆"%V , 𝑎′) − 𝑄(𝑆", 𝐴")
• 例)n=3のとき
𝛿 = 𝑅"%& + 𝛾𝑅"%) + 𝛾)
𝑅"%* + 𝛾*
max
BT
𝑄(𝑆"%* , 𝑎′) − 𝑄(𝑆", 𝐴")
• 適切なnは学習を⾼速化する(らしい)
131)	Richard	S.	Sutton	and	Andrew	G.	Barto.	2017.	Reinforcement	Learning:	An	Introduction.	Second	edition.	The	MIT	Press
Distributional Perspective on RL
• 通常のDQNでは収益の期待値を推定
• Distributionalでは収益の分布を推定
– 収益をN個の値を取りうる離散分布と考える
{𝑧, 𝑧&, … , 𝑧`Z&}
– ⾏動aごとにN個の値を出⼒
– Softmaxで正規化
• 交差エントロピーを最⼩化
• (まだちゃんと理解できていない)
141)	M.	G.	Bellemare et	al.	A	Distributional	Perspective	on	Reinforcement	Learning.	2017.	ICML
Noisy Network
• 通常のDQN
– ε-greedyなどで探索
– 確率1-εで⼀番良い⾏動, 確率εでランダムで⾏動
– 活⽤-探索のトレードオフ
• Noisy Network
– ランダム性をパラメータとして学習させる
151)	M.	Fortunato	et	al.	Noisy	Networks	for	Exploration.	2017(8).	ICLR	under	review
Noisy Network
• 全結合層の重みの取り⽅を変更
– 通常のDQN
𝑦 = 𝑊𝑥 + 𝑏
– Noisy Network DQN
𝑦 = 𝑊 + 𝜎f
⊙ 𝜖 𝑥 + 𝑏 + 𝜎h
⊙ 𝜖
– σは新たな学習パラメータ. εはノイズでN(0,1)
– σの⼤きさでランダム性を決める
161)	M.	Fortunato	et	al.	Noisy	Networks	for	Exploration.	2017(8).	ICLR	under	review
今回のRainbow
• 以上のDouble, Dueling, Noisy, Distributional,
Multi-stepを1つのモデルに組み込む
• Atariの57ゲームで⽐較
17
実験結果①:他⼿法との⽐較
• 既存⼿法よりも良い. 学習も早い.
実験結果②:1つ抜きでの⽐較
• Rainbowから要素を⼀つずつ抜いて影響度を検証
• 影響度:Prioriti ≧ Multi ≧ Distributional > Noisy
>> 他
実験結果②:1つ抜きでの⽐較
• ゲーム別の⽐較
• PrioritizedとMulti-stepは多くのゲームで影響⼤.
no priori
no multi
no noisy
no distri
no duel
no double
実験結果②:1つ抜きでの⽐較
• ゲーム別の⽐較
• Noisyはゲームによって影響が別れる
no priori
no multi
no noisy
no distri
no duel
no double
実験結果②:1つ抜きでの⽐較
• ゲーム別の⽐較
• Duelは基本的に影響⼩. ゲームによっては影響⼤
no priori
no multi
no noisy
no distri
no duel
no double
実験結果②:1つ抜きでの⽐較
• ゲーム別の⽐較
• Doubleも影響⼩さい.
no priori
no multi
no noisy
no distri
no duel
no double
実験結果③:⼀定レベルまでの到達スピード
まとめ
• DQNの様々な拡張を1つのモデルに統合してSotA
• それぞれの拡張の影響度を実験的に検証
• 要素としてはPrioritized Experience ReplayとMulti-
step Learningが特に重要であるよう
感想
• 実験が⼤変そう
書誌情報②
• “Distributed Prioritized Experience Replay”
• 2017年10⽉28⽇にICLRに投稿. 査読中
• 概要
– 複数の⼦エージェントがExperienceを共有メモリにため
て親エージェントが学習を⾏う分散型のフレームワーク
を提案
– AtariでState of the Art
• DQNの部分だけ話す
全体図
・・・
Learner
Actors
共有メモリ
経験を溜める
定期的にパラメータ
を更新
サンプリング
優先度更新
学習
Actor
• 経験をPriorityとともに共有メモリに蓄積. 学習しない
• 定期的にLearnerからパラメータをコピー
Learner
• 共有メモリに蓄積された経験を利⽤して学習
• そのつどPriorityを更新
ネットワーク
• DQNで使われる通常のCNNプラス
– Double DQN
– Multi-step Learning
– Dueling Network
– Prioritized Experience Replay
• Rainbowではない
– Noisy Net, Distributionalがない
経験の多様性
• Actor間でε-greedyのεの値を変える
– エージェント 𝑖 ∈ {0, … , 𝑁 − 1} に対して
𝜖> = 𝜖&%
>
`
Q
, 		𝜖 = 0.4, 𝛼 = 8
– 例)N=360なら
0.40000, 0.39194, 0.38404, … , 0.00026
– 各エージェントのεは学習を通して固定
分散処理
• 360個のCPUコアと1枚のGPU
– それぞれのCPUコアにActor(360⼈)
– 1つのGPUにLearner⼀⼈
• 400フレームごとにLearnerのパラメータをActorにコピー
• 共有メモリのサイズは200万
実験結果①:他⼿法との⽐較
• 横軸は学習時間
• 既存⼿法よりも良い
– 既存⼿法は1GPU
実験結果①:他⼿法との⽐較
• ゲーム別
• 学習も早い
実験結果②:Actorの数を変えたとき
• 基本的にActorの数を増やせば精度は良くなる
• 「⼤量・多様な探索 + 優先経験再⽣がよいのではないか」
実験結果③:Memoryの容量を変えたとき
• 容量を増やしてもそんなに性能は上がらない
まとめ
• 分散処理が可能な環境における強化学習のフレー
ムワークを提案
• 多数のエージェントよる⼤量・多様な経験
• 優先経験再⽣に基づき効率的に学習
• State of the Art

More Related Content

What's hot

[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...Deep Learning JP
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−Deep Learning JP
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"Hiroshi Tsukahara
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling networkWEBFARMER. ltd.
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Yosuke Shinya
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based ControlDeep Learning JP
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
 
[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions [DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions Deep Learning JP
 
Deeplearning with node
Deeplearning with nodeDeeplearning with node
Deeplearning with nodeKai Sasaki
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Keiichi Namikoshi
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 

What's hot (20)

[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
[DL輪読会]Mastering the Dungeon: Grounded Language Learning by Mechanical Turker...
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
Paper intoduction "Playing Atari with deep reinforcement learning"
Paper intoduction   "Playing Atari with deep reinforcement learning"Paper intoduction   "Playing Atari with deep reinforcement learning"
Paper intoduction "Playing Atari with deep reinforcement learning"
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
 
"Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
 
[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions [DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions
 
A3C解説
A3C解説A3C解説
A3C解説
 
Deeplearning with node
Deeplearning with nodeDeeplearning with node
Deeplearning with node
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 

Similar to Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)

Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介masataka nishimori
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...Deep Learning JP
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?Deep Learning JP
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learningKazuki Adachi
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3CTomoya Oda
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksEiichi Matsumoto
 
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningDiscriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningTomoyasuOkada
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicAkira Tanimoto
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 

Similar to Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review) (20)

Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy LearningDiscriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 

More from Toru Fujino

実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性Toru Fujino
 
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Toru Fujino
 
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Toru Fujino
 
Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Toru Fujino
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Toru Fujino
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Toru Fujino
 

More from Toru Fujino (6)

実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性実世界のゲームにおける推移性と非推移性
実世界のゲームにおける推移性と非推移性
 
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
Generating Wikipedia by Summarizing Long Sequences (ICLR 2018)
 
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
Language as a Latent Variable: Discrete Generative Models for Sentence Compre...
 
Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)Controllable Text Generation (ICML 2017 under review)
Controllable Text Generation (ICML 2017 under review)
 
Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)Dual Learning for Machine Translation (NIPS 2016)
Dual Learning for Machine Translation (NIPS 2016)
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)