第1回 深層強化学習 最新論文と
その周辺を話し合う会
発表資料	
2017/3/13
株式会社ウェブファーマー
大政 孝充
●  名前:大政孝充(おおまさ たかみつ)	
●  株式会社ウェブファーマー 代表	
 http://web-farmer.net	
	
●  ディープラーニングのコンサルタント	
●  深層強化学習システムの開発	
自己紹介
自己紹介
動画 
https://youtu.be/713SFAJUKGQ
自己紹介	
 
論文解説
Connecting Generative Adversarial
Networks and Actor-Critic Methods	
Devid Pfau, Oriol Vinyals(Google DeepMind)
arXiv:1610.01945v3 18 Jan 2017
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
概要	
l  Deep LearningのGANsモデルと強化学習のActor-Critic法は似
てる
l  ともに2つのモデルを有し、これらを同時に学習させるため、最
適化が困難である
l  しかし現状では両者は別々のコミュニティで研究されており、
意思疎通がない
l  よってそれぞれが有する最適化のテクニックを、相手側に適応
すればよいのではないか
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
GANsの復習 ①	
生成器
(generator)
実際のdata
識別器
(discriminator)
本物?
偽物?
ノイズ
z ≈ pz z( )
D G z( )( )
G z( )
GANsの復習② 本物のdataの場合の出力	
生成器
(generator)
本物のdata
識別器
(discriminator)
ノイズ
min
G
max
D
V D,G( )= Εx≈pdata x( ) logD x( )⎡⎣ ⎤⎦+ Εz≈pz z( ) log 1− D G x( )( )( )⎡
⎣
⎤
⎦
・・・
0.3
0.8
!
0.4
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
x
D x( )
GANsの復習③ 偽物のdataの場合の出力	
生成器
(generator)
識別器
(discriminator)
ノイズ
・・・
2
0
!
1
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
min
G
max
D
V D,G( )= Εx≈pdata x( ) logD x( )⎡⎣ ⎤⎦+ Εz≈pz z( ) log 1− D G x( )( )( )⎡
⎣
⎤
⎦
G x( ) D G x( )( )
z
0.1
0.2
!
0.1
⎛
⎝
⎜
⎜
⎜
⎜
⎞
⎠
⎟
⎟
⎟
⎟
本物のdata
・・・
x
GANsの復習④ 識別器を学習する	
生成器
(generator)
実際のdata
識別器
(discriminator)
ノイズ
∇θd
1
m
logD xi
( )⎡
⎣
⎤
⎦+ log 1− D G zi
( )( )( )⎡
⎣⎢
⎤
⎦⎥
⎡
⎣⎢
⎤
⎦⎥
i=1
m
∑
⊕
GANsの復習⑤ 生成器を学習する	
生成器
(generator)
実際のdata
識別器
(discriminator)
ノイズ
∇θg
1
m
log 1− D G zi
( )( )( )⎡
⎣⎢
⎤
⎦⎥
i=1
m
∑
−
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
Actor-critic法の復習 ①	
Value
Function	
Policy
Critic
Environment
state
reward
Actor
TD
error action
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
両者の類似点 ①
両者の類似点 ②	
min
G
max
D
Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦+ Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
= min
G
max
D
Εw,y ylogD w( )+ 1− y( )log 1− D w( )( )⎡
⎣
⎤
⎦
F D,G( )= −Εw≈pdata x( ) logD w( )⎡⎣ ⎤⎦− Εz≈Ν 0,1( ) log 1− D G z( )( )( )⎡
⎣
⎤
⎦
f D,G( )= −Εz≈Ν 0,1( ) logD G z( )( )⎡
⎣
⎤
⎦
X*
= argmin
x∈ℵ
F X,Y*
X( )( )
Y*
X( )= argmin
Y∈ϒ
f X,Y( )
F Q,π( )= Εst ,at ≈π D Εst +1,rt ,at +1≈π rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
f Q,π( )= −Εs0 ≈p0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
s,a( )= Εst +k≈Ρ,rt+k ≈R,at+k ≈π γk
rt+k
k=1
∞
∑ st = s,at = a
⎡
⎣
⎢
⎤
⎦
⎥
π*
= argmax
π
Εs0 ≈Ρ0,a0 ≈π Qπ
s0,a0( )⎡⎣ ⎤⎦
Qπ
= argmin
Q
Εst ,at ≈π D Εst+1,rt ,at+1
rt +γQ st+1,at+1( )⎡⎣ ⎤⎦||Q st,at( )( )⎡
⎣
⎤
⎦
GANs Actor-critic法
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
安定化させる技術の適応状況
安定化させる技術の適応状況
安定化させる技術の適応状況	
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung,
Alec Radford, and Xi Chen. Improved techniques for training gans.
arXiv preprint arXiv:1606.03498, 2016.
Label smoothing・・・discriminatorの予測が非常に確からしい時に、
勾配消失を防ぐため 0/1 ラベルを ε/1 – ε とする。
これを強化学習に適応する場合、報酬 0/1 をε/1 – ε としたらよい
のではないか。
chainerRLにLabel smoothingを適用	
chainerrl/chainerrl/experiments/train_agent_async.py内
def training_loop()関数内
修正前 修正後
目 次	
1. 論文の概要
2. GANsの復習
3. Actor-Critic法の復習
4. GANsとActor-Critic法で何が似てるの?
5. 安定化させる技術の適応状況
6. まとめ
まとめ	
l  Deep LearningのGANsモデルと強化学習のActor-Critic法は
似てる
l  しかし学習を安定化させ、また改良する技術は研究し尽くされ
ていない
l  一方が採用しているものの他方が採用していない技術があれ
ば、それを試してみればいいのではないか
おわり

DRL_stydy_1_doc_ohmasa