ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
11. STEP1 : モデル
• モデルは非線形+ノイズを仮定
• 状態差分をガウス過程で学習
よって次の状態は,
2019/4/27 11
※状態差分にすると基本的には時間による
積分値がのらないので(マルコフ過程)
1 ,t t tf x x u ~ 0,N
GP
1 1 1 1| , | ,t t t t t tp N x x u x μ Σ
1
1
t t f
t f
x E t
Var t
fE t :期待値(ガウス過程の)
:分散(ガウス過程の) fVar t
,
TT T
t t t
x x u
t ty
ここは1変量
※入力する は決まっている(分散0)tx
Eq. (1)
Eq. (5)
Eq. (4)
13. 補足:ガウス過程について
• カーネル関数(緑字を学習(EMアルゴリズム))
• ガウス過程による予測分布[1]
2019/4/27 13
2 211
, exp
2
T
p q p q p pqf qk x x x x x x
12
*f f tE t m
x k K I y
12
** * *fVar t k
k K I k
GP
,
TT T
t t tx x u
t ty
[1] ガウス過程と機械学習
なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)
,iij jk xK x
* , tk Xk x
** ,t tk k x x
赤字はトレーニングデータ
1,... nX x x
青字は入力データ
Eq. (3)
14. STEP2 : 評価関数
2019/4/27 14
0
t
T
x t
t
J E c
x 0 0 0~ ,Nx μ Σ
方策を とすると,
評価関数を求めるためには, 1 2 3| , | , | ...p x x x が必要
,
TT T
t t t
x x u
STEP2-1 : その時刻tでの を求める tp x
<方針>
STEP2-2 : とガウス過程による を使って tp x
1tp x を求める
tp
Eq. (2)
15. STEP 2-1 : を算出
2019/4/27 15
,t t u x という状態の関数であれば,
は,ガウス分布に近似 ,t t tp px x u
| ,t t t tp Nx x μ Σ
tp x
の場合,分かりやすくガウス分布になります ,t t t u x Ax b
なお,
1 1 1 1| ,t t t tp N x x μ Σ
| ,t t u up N uu μ Σ
u t μ Aμ b
T
u t A AΣ Σ
なので,そのまま代入して,
, ,
T
t t t
t t T
t t t
p N
μ A
x u
Aμ b A A A
Σ Σ
Σ Σ
17. STEP 2-2 : を算出
2019/4/27 17
1tp x
|t t t t tp p f p dfd x x x x
ガウス過程から算出
さっき求めた
まず を求める tp
これは計算できない...(ガウス過程の入力が確率分布になる)
これもガウス分布 で近似しましょう2ページ後へ | ,t tp N μ Σ
tp が分かれば は求まる 1 1 1 1| ,t t t tp N x x μ Σ
1f t t t tE x μ μ μ
1
cov , cov ,
f t t t
t t t t t
Var
x
x x
Σ
Σ Σ
それぞれただの公式です(期待値/分散の和)
Eq. (8)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
18. ごちゃごちゃしてきたので一回整理します
• 分かったもの
– 時刻tでの GPの入力に使う
• 分かってないもの
– GPを使った に関するもの
2019/4/27 18
,t t tp px x u
| ,t tp N μ Σ
, ,cov , ,cov ,t t t t μ x xΣ
|t t t t tp p f p dfd x x x x
を求めていきます
ガウス分布で近似
19. STEP 2-2 : を算出 - 前置き -
• ガウス分布で近似
それっぽい平均 と分散 を算出したい
2019/4/27 19
1tp x
|t t t t tp p f p dfd x x x x
μ Σ
<前置き>
ここから ターゲットの各次元を表す という添え字が出てきますが
ターゲットの各次元は異なるGPになっています.そのため分離できます
a
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
20. STEP 2-2 : を算出 - 編 -
2019/4/27 20
1tp x
| | ,t a t a a
a
f a t t f t f t t t t tE E f E m m N d
x xμ x x x x x μ xΣ
ここはガウス分布
<平均 >μ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る”
Moment Matchingの場合
Linearの場合
“入力( )の平均をGPに入れてその期待値を取る”
a
a
f a t f tE f m μ μ μ
tx
tx
さっき求めたGP過程の
出力そのまま
,
TT T
t t t
x x u
Eq. (17)
Eq. (33)
, μ Σ
tp x
後は力ずくで計算可能!
21. STEP 2-2 : を算出 - 編 -
2019/4/27 21
1tp x
<分散 >
Moment Matchingの場合
Σ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx
“全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです
, μ Σ
D D
R
Σ
ターゲットの数
22 2
,|t t
a
aa f a t f aE Var E
x xx μ
2
,, | ,t t
a b
ab f a b t f a bE Cov E
x xx μ μ
2 2
| |Var X E Var X Y E E X Y E X
https://www.youtube.com/watch?v=mHonq7Gjjqg
https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645
全分散の公式
Eq. (21-22)
後は力ずくで計算可能!
22. STEP 2-2 : を算出 - 編 -
2019/4/27 22
1tp x
<分散 >
Linearの場合
Σ
“平均の変化分,分散も変化したと仮定して,その変化分倍する”
, μ Σ
D D
R
Σ
ターゲットの数 T
t
t
V V
μ
V
μ
Σ Σ Σ
変化分
モデルのノイズ
Eq. (34-35)
23. STEP 2-2 : を算出 - 編 -
2019/4/27 23
1tp x cov , ,cov ,t t t t x x
,cov , t
T T
t t f t t tE
xx x μ μ
Moment Matchingの場合
cov ,t tx :ガウス過程への入力 と出力 の共分散
GP
,
TT T
t t tx x u
t ty
分散の定義式そのまま
, |t t
a a a
f t t t f t t t f t t tE E E m p d x xx x x x x x x
さっき求めたガウス過程
さっき求めた
tx t
既知
~ ,t tN μ Σ
後は力ずくで計算可能!
Eq. (28-29)
24. STEP 2までのまとめ
• 分かったもの
• 知りたいもの
2019/4/27 24
,t t tp px x u
| ,t tp N μ Σ
1 1 1 1| ,t t t tp N x x μ Σ
0
t
T
x t
t
J E c
x 0 0 0~ ,Nx μ Σ
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
26. Recap - Policy Gradient -
2019/4/27 26
~
logJ E c
θ
~
0
t
T
x t
t
J E c E c
x 0 0, ,... ,T Tx u x u
方策勾配定理(sergey授業第五回)
~
0 0
log |
T T
t t t
t t
J E c
θ u x x
0 1
0
| | ,
T
t t t t t
t
p p
x u x x x u
サンプルを取る!!
, , ,
1 0 0
1
log |
N T T
i t i t i t
i t t
J c
N
θ u x x
非常に厄介
パラメータ
に関係なし
27. STEP 3 : 方策勾配を算出
2019/4/27 27
1
t
T
t
t
E cdJ
d d
x xθ
θ θ
この式をパラメータ で微分するには?θ
Policy gradientとは異なり
全力で微分しにいく
(モデルがあるため解析的にすべて求まるので,
サンプル取らなくていい)
非常に厄介
例:方策を決定するパラメータ
* * x Ax b
とりあえず,時刻 についての微分を算出
t tE c
d
x x
θ
t
28. STEP 3 : 方策勾配を算出
2019/4/27 28
t tt t t
t
t
t
t t
E d d
d d
E c c E c
d
x x xμ
θ
x x
μθ θ
x
Σ
Σ
| ,t t t tp Nx x μ Σ なので...
tt tt
t
t dE cE c dp
dd dp
x x xx x
xθ θ
時刻 でのコスト関数は
その時の確率分布に依存
t
評価関数次第で算出可能(後で)
,t td d
d d
μ
θ θ
Σ
これは一時刻前 に依存する??1t
tdp
d
x
θ
Eq. (12)
Eq. (12)
29. STEP 3 : 方策勾配を算出
2019/4/27 29
1
1
tt t t
t
p dd p
p d
p p
d
x
θ
x x x
x θ θ
依存しているのは明らか
1 1 1 1| ,t t t tp N x x μ Σ
さらに...
なので
,t td d
d d
μ
θ θ
Σ
Eq. (13)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
30. STEP3 : 方策勾配を算出
2019/4/27 30
1 1
1 1
t t t t
t
tt
t
dd
d
d
d d
μ μ μ
μ θ θθ
μ
θ
μ Σ
Σ
1 1
1 1
t t t t t
t
t
t
d
d
d d
dd
μ
μ θ θ θθ
Σ Σ Σ
Σ
Σ Σ
1
1
tt t t
t
p dd p
p d
p p
d
x
θ
x x x
x θ θ
,t td d
d d
μ
θ θ
Σ
力ずくで計算可能!
(論文のAppendix参照)
一時刻前に算出したもの
不明
も同様です
Eq. (15)
31. STEP 3 : 方策勾配を算出
2019/4/27 31
t
μ
θ
1
1
t u u
t u
t
u
p
p
u μμ μ μ
u θ θθ θ μ
μ Σ
Σ
1tt μμ μ
1つ前の分布はその際の入力で微分しても0になる
(未来の入力は過去に影響しない)
Eq. (16)
32. STEP 3 : 方策勾配を算出
• 具体的な評価関数(Saturating cost)
2019/4/27 32
,t tt t
t t
E c E c
x xx x
μ Σ
E c c p d x x x x x
11
1 exp
2
T
target targetT p d
x x x x x x
0~1の範囲内に収まるので...値が大きくなりすぎない!
後は力ずくで計算可能!
Eq. (45)
36. 全微分
• 他変数の微小区間
• 合成関数の全微分
2019/4/27 36
dz z dx z dy
dt x dt y dt
,z f x t y t
,f x y
とすると
dz z dx z dy z
dt x dt y dt t
, ,z f x t y t t とすると
f f
df dx dy
x y
https://eman-physics.net/analytic/total_dif.html