SlideShare a Scribd company logo
ディープラーニングの最新動向
強化学習とのコラボ編⑤
Prioritized Experience Replay	
2016/9/15
株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ	
[1]T. Schaul, J. Quan, I. Antonoglou, D. Silver. “Prioritized
Experience Replay” arXiv:1511.05952v4, 2016.
DQNやDDQNのexperience replay内にあるtransitionに優先
度をつけることで、学習を高速にし、かつstate-of-the-artな結
果(2016年初頭時点)を得た!
通常のDQNやDDQN部分は・・・	
通常のDQN部分の全体像は塚原裕史氏「論文紹介 Playing Atari with Deep
Reinforcement Learning」[2]
http://www.slideshare.net/htsukahara/paper-intoduction-playing-atari-with-deep-
reinforcement-learning
や藤田康博氏「Playing Atari with Deep Reinforcement Learning」[3]
http://www.slideshare.net/mooopan/ss-30336609
もしくは私の「ディープラーニングの最新動向 強化学習とのコラボ編① DQN」
[4]
http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning
あるいは私の「ディープラーニングの最新動向 強化学習とのコラボ編② 
DDQN」[5]
http://www.slideshare.net/ssuser07aa33/introduction-to-double-deep-qlearning
などを参照してください
解説のポイント	
① 普通のexperience replayで何が問題か
② prioritized experience replayとは
③ 実装する際のテクニック
④ 結果どうなった?
① 普通のexperience replayで何が問題か
② prioritized experience replayとは
③ 実装する際のテクニック
④ 結果どうなった?
解説のポイント
DQNやDDQNのexperience replay	
例えばDQN(nature, 2015)では・・・・
ここに貯めた
traisitionsを
[6]Figure 1
DQNやDDQNのexperience replay	
例えばDQN(nature, 2015)では・・・・
randomに抜き取って
minibachを形成
[6]Figure 1
DQNやDDQNのexperience replay	
[6]Figure 1
例えばDQN(nature, 2015)では・・・・
randomに抜き取って
minibachを形成
重要でないtraisitionが
何度も使われる
DQNやDDQNのexperience replay	
[6]Figure 1
例えばDQN(nature, 2015)では・・・・
重要なtransitionを何度も使えば学習が早く
進むし、精度も上がるのでは!?
解説のポイント	
① 普通のexperience replayで何が問題か
② prioritized experience replayとは
③ 実装する際のテクニック
④ 結果どうなった?
prioritized experience replayとは	
[6]Figure 1
replay memory内のtransitionに優先順位をつける
重要でない重要
・・・
s1,a1,r1
a'1
s2,a2,r2
a'2
sN,aN,rN
a'N
2番1番 N番
prioritized experience replayとは	
[6]Figure 1
優先順位の高いtransitionを高確率で取り出す
重要でない重要
・・・
s1,a1,r1
a'1
s2,a2,r2
a'2
sN,aN,rN
a'N
2番1番 N番
今回は
これを使う
どう優先順位をつけるか	
δt = Rt +γ max
a
Q St,a( )−Q St−1, At−1( )TD誤差 が大きい
ものをより多く使えば、学習が早く進むだろう。
そこでこの δ を優先順位を表す数値 p に置き換える
方法1) δ に比例的な数値
              
方法2) ランキング化した数値
どう優先順位をつけるか	
pi = δi +ε
pi =
1
rank i( )
p を確率にする
どう優先順位をつけるか	
P i( )=
pi
α
pk
α
k
∑
→ この P(i) 確率で各 i 番目のtransitionを選択すれば
いい
解説のポイント	
① 普通のexperience replayで何が問題か
② prioritized experience replayとは
③ 実装する際のテクニック
④ 結果どうなった?
① P(i) が高確率な順に並べる
実装する際のテクニック	
P(i)
i
② minibachが k 個のとき、それぞれのトータル確率
が同じになるように、k 個のsegmentに分ける
実装する際のテクニック	
seg1
P(i)
iseg2 seg3 seg4 ・・・ segk
③ それぞれのsegmentから1個ずつランダムに選択す
る
実装する際のテクニック	
seg1
P(i)
iseg2 seg3 seg4 ・・・ segk
これとこれとこれとこれとこれ!
これでだいたい確率に従って k 個選択できてる!
(piecewiseなlinear)
実装する際のテクニック	
seg1
P(i)
iseg2 seg3 seg4 ・・・ segk
これとこれとこれとこれとこれ!
解説のポイント	
① 普通のexperience replayで何が問題か
② prioritized experience replayとは
③ 実装する際のテクニック
④ 結果どうなった?
Atari2600での結果	
普通のDQN
比例的な p
ランキング化
した p
学習も早い最終的な得点が高い
[1]Figure 8
Atari2600での結果	
DQNでもDDQNでも得点が上昇
[1]table 1
結  論	
prioritized experience replayを導入することで、
DQNでもDDQNでも学習速度が向上し、得点も
上昇した。
Reference	
[6]A. Nair, et al “Massively Parallel Methods for Deep Reinforcement Learning”
arXiv:1507.04296v2, 2015
終わり

More Related Content

What's hot

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
nishio
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
Plot Hong
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 

What's hot (20)

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 

Viewers also liked

Tango開発事例
Tango開発事例Tango開発事例
Tango開発事例
Kazuma Sonoda
 
The introduction to FRMQN model
The introduction to FRMQN modelThe introduction to FRMQN model
The introduction to FRMQN model
WEBFARMER. ltd.
 
数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?
nishio
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
WEBFARMER. ltd.
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
WEBFARMER. ltd.
 
BLUE*アルゴリズム
BLUE*アルゴリズムBLUE*アルゴリズム
BLUE*アルゴリズムnishio
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
WEBFARMER. ltd.
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
WEBFARMER. ltd.
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
WEBFARMER. ltd.
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
WEBFARMER. ltd.
 

Viewers also liked (10)

Tango開発事例
Tango開発事例Tango開発事例
Tango開発事例
 
The introduction to FRMQN model
The introduction to FRMQN modelThe introduction to FRMQN model
The introduction to FRMQN model
 
数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
BLUE*アルゴリズム
BLUE*アルゴリズムBLUE*アルゴリズム
BLUE*アルゴリズム
 
introduction to Dueling network
introduction to Dueling networkintroduction to Dueling network
introduction to Dueling network
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
 

More from WEBFARMER. ltd.

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
WEBFARMER. ltd.
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
WEBFARMER. ltd.
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
WEBFARMER. ltd.
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
WEBFARMER. ltd.
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
WEBFARMER. ltd.
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
WEBFARMER. ltd.
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
WEBFARMER. ltd.
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
WEBFARMER. ltd.
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
WEBFARMER. ltd.
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
WEBFARMER. ltd.
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
WEBFARMER. ltd.
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
WEBFARMER. ltd.
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
WEBFARMER. ltd.
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
WEBFARMER. ltd.
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
WEBFARMER. ltd.
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
WEBFARMER. ltd.
 
introduction to double deep Q-learning
introduction to double deep Q-learningintroduction to double deep Q-learning
introduction to double deep Q-learning
WEBFARMER. ltd.
 
岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説
WEBFARMER. ltd.
 
introduction to Deep Q Learning
introduction to Deep Q Learningintroduction to Deep Q Learning
introduction to Deep Q Learning
WEBFARMER. ltd.
 

More from WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 
introduction to double deep Q-learning
introduction to double deep Q-learningintroduction to double deep Q-learning
introduction to double deep Q-learning
 
岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説岡谷貴之「深層学習」の解説
岡谷貴之「深層学習」の解説
 
introduction to Deep Q Learning
introduction to Deep Q Learningintroduction to Deep Q Learning
introduction to Deep Q Learning
 

Introduction to Prioritized Experience Replay