ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
16. 導出
• B-1であるHを⽤いたBFGS法のk回⽬の反復(P110 式(7.3)のH式を使⽤)
𝐻$ = 𝐻$G. −
TKUVNKUVLKUV
M
-LKUVNKUV
M
TKUV
LKUV
M NKUV
+ 1 +
NKUV
M
TKUVNKUV
LKUV
M NKUV
LKUVLKUV
M
LKUV
M NKUV
= 𝐼 −
NKUVLKUV
M
LKUV
M NKUV
>
𝐻$G. 𝐼 −
NKUVLKUV
M
LKUV
M NKUV
+
LKUVLKUV
M
LKUV
M NKUV
ここで、𝑉Y = 𝐼 −
NZLZ
M
LZ
MNZ
とおくと
𝐻$ = 𝑉$G.
>
𝐻$G. 𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
𝐻$G. = 𝑉$G8
>
𝐻$G8 𝑉$G8 +
LKU[LKU[
M
LKU[
M NKU[
代⼊
17. 導出
• 先程のHk-1をHkの式に代⼊する操作をH0まで繰り返す
𝐻$ = 𝑉 𝑉. ⋯ 𝑉$G8 𝑉$G.
> 𝐻 𝑉 𝑉. ⋯ 𝑉$G8 𝑉$G.
+ 𝑉. 𝑉8 ⋯ 𝑉$G8 𝑉$G.
> L^L^
M
L^
MN^
𝑉. 𝑉8 ⋯ 𝑉$G8 𝑉$G.
⋮
+ 𝑉$G8 𝑉$G.
> LKU`LKU`
M
LKU`
M NKU`
𝑉$G8 𝑉$G.
+𝑉$G.
> LKU[LKU[
M
LKU[
M NKU[
𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
H0は正定値対称な初期⾏列
このままでは通常の準ニュートン法と変わらない
18. 導出
• 過去t回分のみを保存して更新して計算をサボる(Nocedal 1980)
𝐻$ = 𝑉$Ga 𝑉$GaG. ⋯ 𝑉$G8 𝑉$G.
> 𝐻$
𝑉$Ga 𝑉$GaG. ⋯ 𝑉$G8 𝑉$G.
+ 𝑉$GaG. 𝑉$GaG8 ⋯ 𝑉$G8 𝑉$G.
> L^L^
M
L^
MN^
𝑉$GaG. 𝑉$GaG8 ⋯ 𝑉$G8 𝑉$G.
⋮
+ 𝑉$G8 𝑉$G.
> LKU`LKU`
M
LKU`
M NKU`
𝑉$G8 𝑉$G.
+𝑉$G.
> LKU[LKU[
M
LKU[
M NKU[
𝑉$G. +
LKUVLKUV
M
LKUV
M NKUV
t期前までを使⽤
形状の推定にはt期前までの情報で⼗分(?)
適当な初期⾏列で置き換える
19. 導出
ここで、
𝑉Y = 𝐼 −
NZLZ
M
LZ
MNZ
𝐻$
=
LKUV
M
NKUV
NKUV
M NKUV
𝐼
だったので、sとyのみを保存しておけばHを計算できる
それがt期分必要なので、2t個のベクトルを保存しておくだけでよい
最適化対象の変数の次元nが数千であっても
通常tは10程度で設定するため、
⼤幅な時空間計算量の削減が可能