ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
11. V ar[p ] =j
=
=
V ar [ w x
i=1
∑
n
ij i]
V ar
i=1
∑
n
[w xij i]
i=1
∑
n
⎩
⎨
⎧
+
+
(E[w ]) V ar[x ]ij
2
i
(E[x ]) V ar[w ]i
2
ij
V ar[w ]V ar[x ]ij i
⎭
⎬
⎫
(4.43)
(4.44)
(4.45)
29. Adagraは次の式
ただし、
ϵは1.0 × 10 ∼ 1.0 × 10 程度の微小な項
0除算の回避用途
θ =i
(t)
θ − gi
(t−1)
√G + ϵii
(t)
η
i
(t)
(4.56)
gi
G ii
(t)
: =
=
∇ E(θ )θ i
g ⋅ g
τ =0
∑
t
i
(τ )
i
(τ )
(4.55)
(4.57)
−6 −8
30. Gは対角行列なので、(4.56)は要素積に置き換えられる
通常の勾配降下法ではθ = θ − ηg
G は、 t までの勾配の2乗和
直感的にはこれまでのステップで小さかった勾配の
成分が次のステップでは大きくなるように更新され
る
θ =i
(t)
θ − ⊙ gi
(t−1)
√G + ϵii
(t)
η
i
(t)
(4.56)
i
(t)
i
(t−1)
i
(t)
ii
32. 「勾配の2乗」(= g ⊙ g )の移動平均E[g ]は
(以降ではg はg と表記)
t t t
2
E[g ]2
t = ρE[g ] + (1 − ρ)g2
t−1 t
2
(4.59)
(t)
t
33. Adagradの式
このG_tをE[g ]で置は換える
さらに はRMS[g] に置き換えられて
θ =t+1 θ − ⊙ gt
√G + ϵt
η
t (4.60)
t
2
θ =t+1 θ − gt
√E[g ] + ϵ2
t
η
t (4.61)
√E[g ]2
t t
θ =t+1 θ − gt
RMS[g]t
η
t (4.62)
36. 元の論文読むと
このΔxが Δθのこと
∆x t for the current
time step is not known, so we assume the
curvature is locally
smooth and approximate ∆x t by compute the
exponentially
decaying RMS over a window of size w of
previous ∆x
“
“
37. RMSprop
RMSprop は Adadelta と同様に、Adagrad の学習率の
急激な減少を解決する手法
E[g 2]t = 0.9E[g 2] + 0.1g 2t−1 t (4.67)
θt+1 = θ − gt
√E[g 2] + ϵt
η
t (4.68)
38. Adam(adap ve moment es ma on)
つぎの2つをパラメータの更新式に使う方式
勾配の2乗の移動平均v := E[g ] の減衰平均
勾配の単純な移動平均m := E[g] の減衰平均
β , β ∈ [0, 1)はハイパーパラメタ
移動平均の減衰率を調整
t
2
t
t t
m =t
v =t
β m + (1 − β )g1 t−1 1 t
β v + (1 − β )g2 t−1 2 t
2
(4.69)
(4.70)
1 2
39. v ,m は真のモーメントから偏りがあるので、この偏りを0
にした推定値 , を求めたい。
について、v = 0で初期化した場合、v は
(1 − β ) β ⋅ g のような項もあるんじゃ
ないかと思うが、(1 − β ) ≪ 1として無視されてい
ると思われる
t t
vt^ mt^
v =t β v + (1 − β )g2 t−1 2 t
2
(4.70)
0 t
v =t (1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
(4.71)
2
n
∑i=n
t
2
t−i
i
2
2
n
40. ここから2次モーメントの移動平均E[v ]と真の2次モー
メントE[g ]の関係を求めると
v =t (1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
(4.71)
t
t
2
E[v ] =t
=
=
E [(1 − β ) β ⋅ g2
i=1
∑
t
2
t−i
i
2
]
E[g ] ⋅ (1 − β ) β + ζt
2
2
i=1
∑
t
2
t−i
E[g ] ⋅ (1 − β ) + ζt
2
2
t
(4.72)
(4.73)
(4.74)