ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
JP Chaosmap 2015-2016
Japanese Digital Advertising Landscape, in 2015-2016.
※本資料は作者の所属企業や、所属企業の取引関係を示すものではありません
※皆様の幅広いビジネスシーンに使って頂くべく公開しておりますので加筆、再利用などは自由にして頂いて構いませんが、あくまで本家はLUMAscapeであることをご理解頂き、ご活用くださいますようお願い申し上げます
Slides of the paper http://arxiv.org/abs/1505.04637
source code is available at https://github.com/albahnsen/CostSensitiveClassification/blob/master/costcla/models/cost_tree.py#L15
Abstract:
Several real-world classification problems are example-dependent cost-sensitive in nature, where the costs due to misclassification vary between examples and not only within classes. However, standard classification methods do not take these costs into account, and assume a constant cost of misclassification errors. In previous works, some methods that take into account the financial costs into the training of different algorithms have been proposed, with the example-dependent cost-sensitive decision tree algorithm being the one that gives the highest savings. In this paper we propose a new framework of ensembles of example-dependent cost-sensitive decision-trees. The framework consists in creating different example-dependent cost-sensitive decision trees on random subsamples of the training set, and then combining them using three different combination approaches. Moreover, we propose two new cost-sensitive combination approaches; cost-sensitive weighted voting and cost-sensitive stacking, the latter being based on the cost-sensitive logistic regression method. Finally, using five different databases, from four real-world applications: credit card fraud detection, churn modeling, credit scoring and direct marketing, we evaluate the proposed method against state-of-the-art example-dependent cost-sensitive techniques, namely, cost-proportionate sampling, Bayes minimum risk and cost-sensitive decision trees. The results show that the proposed algorithms have better results for all databases, in the sense of higher savings.
Shunji Kakinaka - Asymmetric volatility dynamics in cryptocurrency markets京都大学大学院情報学研究科数理工学専攻
Presentation slides given at the AMP departmental seminar, May 31, 2021.
Shunji Kakinaka is a PhD student with the Physical Statistics Research Group, Department of Applied Mathematics and Physics (AMP), Graduate School of Informatics, Kyoto University.
Abstract:
Asymmetric correlation between price and volatility is a prominent feature of financial market time series. In this short presentation, the stylized facts of the relationship between price and volatility in cryptocurrency markets are introduced. In addition, the presence of asymmetric volatility effect between uptrend (bull) and downtrend (bear) regimes are investigated using the nonlinear cross-correlation coefficient measures.
京都大学大学院情報学研究科 数理工学専攻
離散数理分野(研究室)の案内
離散数学や組合せ最適化の理論と応用を研究している研究室です.
キーワード:離散数学,組合せ最適化,グラフ理論,オペレーションズリサーチ
http://www-or.amp.i.kyoto-u.ac.jp
Department of Applied Mathematics and Physics,
Graduate School of Informatics, Kyoto University,
Japan
6. 考える問題
• は微分可能な関数
• は凸関数.(多変数関数に拡張可能)
•
例:
1
min ( )
s.
) (
t
( )
.
n
i i
i
F x f x
Ax b
x
) |( |i i ix x
0 if
( )
otherwise
i i i
i i
l x u
x
: n
f R R
{ }:i RR
,m n m
RA Rb
7. 応用例: データ解析
データ
機械学習: 損失関数 ,基底ベクトル ,カーネル行列
*
* は の共役関数
圧縮センシング(L1-L2最適化):
, ),( , ,1i i
i T
2
1
(P) min ( ( ) )
2
T
i
i
i
x
C
x
*
1
1
( )
2
(D) min
T
i i
i
K
C
2
1
(P) min ( ( ) )
2
T
i
i
i
x x
C
1
*
1
(D) min
s. t. 0
1
( )
2
T
i i
T
i
i
i
K
C
K
( ) ,( )i
i
i i
*
i
2
1
1
|
2
min |
n
i
i
Qx q x
8. ちなみに機械学習における
損失関数とその共役関数は
共役関数:
- SVM:
- SVR:
ロジスティック回帰, 正則化なども同様に議論できる.
*
( ) max , ( ) n
u v Rvu v
1L ( ) max{ 10, }i
i v v
* if 0
( )
otherwis
1
e
i i
i
u
u
u
1L ( ) max{0 | |, }i
i v v
* || | if 1
( )
otherwis
|
e
i
i
u uu
u
1L
9. 2. CD法
(Block) Coordinate Descent 法
ステップ0: 適当な初期点を選ぶ
ステップ1: 更新する変数の集合(更新変数集合)
を選ぶ.
ステップ2:
1,2, ,kJ n
1
argm ( )in
k kJ J
k
k
Ax b
x F x
x x
は
の補集合
kJ
kJ
1
1
argmi ( , )n kk k k
Jk
k
k
k
k kJJ J J
x
k k
J J
k
J J JF x Ax x A b
x x
x x
14. の勾配 の計算
まず, を計算.
だったCD法では, 前の結果 を用いて
を計算.
次の反復で のとき,
必要な情報は と だけ. を保持する必要がない.
k k
g Qx q
(( ) )k k
f x Q Qx q
( )O mn
( )O mn
11 kk
g Qx q
1 1
( )
k k
k k k
j j j
g Qx
Qx q xx Q
q
( )O m
( )k
k
i
i
f x
x
Q g
( )O m
iQ jQ Q
21
( )
2
qf x Qx ‖ ‖ ( )k
f x
{ }kJ j
1 { }kJ i
15. もうちょっと一般化すると
目的関数を とし,
とする.
先ほどと同様, で更新できる.
1
(( ) )
m
j j
j
f x x ba
1 1
,
m m
a b
Q q
a b
k k
g Qx q
( )O m
1
( )
( )
'( )
k
k
j i j
i
m
j
a
f x
g
x
19. 更新変数集合 の選び方
Cyclic ルール(Gauss-Seidel ルール)
• 順番に選ぶ
• 何回かに必ず選ぶという一般化もある
貪欲ルール (Gauss-Southwell ルール)
• 最も効果が高そうな変数を選ぶ
ランダムルール
• ランダムに選ぶ
• 証明が簡単
kJ
例えば
( )
argmin
k
i
i
f x
j
x
20. 部分問題の解き方
- 厳密に解く -
• CD法,Block CD法
• Successive Over Relaxation (SOR)法: ステップ幅を導入
0
argmi
0
n ( )
kJ
kk
d
x
A
d dF
d
1k k k
x x d
1
argm n (i )
kk
k
k
JJ
Ax b
x F x
x x
21. 部分問題の解き方
― inexact に解く -
• Inexact CD法
• Coordinate Gradient Descent (CGD) 法
• Coordinate Proximal Gradient (CPG) 法
1
argmin ( ) ( )
0
,
2 0k
k k k k
k
J
F x f x
Ad
d d H
d
d d
1k k k
kx dx t
( )k k
i ix
1
argmin ( ) (
02
0
, ( ))
k
k k k k
i i i k
J
F x f x d
Ad
d d x H d
d
d
1k k k
kx dx t
F の1次近似
28. Nesterovの証明
(簡単のため )
まず, を示す.
は凸関数であるから,
よって,
ただし
1 2
) ( ) ( )( k k k
f x f x f x
‖ ‖
f
* * *
( ) ( ), ( ) ( )k k k k k
xf x x x f x x f x f x
*
( ) ( )
( )
k
k f x f x
f x
R
‖ ‖
* 0
max (( ) )R xf fxx x ‖ ‖
0i
29. つづき
とすると
両辺を で割り, に注意すると
これらの式を足すと
つまり,
* 2
21*
2
*
( ) (( )
( ( ) ( ))
) ( ( ))
k
k k k
f f x fx
f
x
x f x
f x f x
R
*
) ( )( k
k xx ff 2
1 2k k k
R
1k k
1
1k
k
2
1
1 1
k k R
1 0
2
1 1
k
k
R
*
2
1
1) ( )( k
k
R
f f x
k
x
2
R
k
なるのはと
30. について
はリプシッツ連続とする.
このとき
最急降下法: とすると
CGD法(CD法も同様にできる):
貪欲ルール:
ランダムルール:
1 2
) ( ) ( )( k k k
f x f x f x
‖ ‖
1 1 1 2
) ( ),( )
2
(k k k k k k kL
f x f x f x x x x
‖x ‖
f ( ) ( )f x f y L x y
1 1
( )k k k
x f x
L
x
1 2
( ( )) ( )
2
k k kL
f xx f x f
‖ ‖
2
21 ( )
)
2
( ( )
2
( )
k
k k k
i
L f x L
f x
x n
f x f x
2
21 (
( ( ( ))
)
)
2 2
k
i
k k k
i
L f
p
x L
E f xx f
x n
f x
31. CGD法の反復回数の見積もり
は凸関数とする.
ランダム,貪欲ルール [Nesterov, 2012 (初出2010)]
注意: 勾配法と比較するため n で割ってある.
ランダムでは
Cyclicルールの場合はそのままでは証明できない.
[Nesterov, 2012] “The simplest variant of the coordinate descent
method is based on a cyclic coordinate search. However, for this
strategy it is difficult to prove convergence, and almost
impossible to estimate the rate of convergence.”
1
O
f
*
)( ( )k
E f x f x
32. CGD法の反復回数の見積もり
Cyclic ルール
[Saha and Tewari, 2013 (初出は2010)]
の非対角成分が非負で,特別な初期点から始めたら
[Beck and Tetruashvili, 2013 (初出は2012)]
1
O
O
n
2
( )f x
2 2
1 t
t
L
O
n
1
,t
L
1
t
L
1
t
nL
O
n
はステップ幅
36. 一般化されたBCD法
ステップ0: 適当な初期点を選ぶ
ステップ1: 更新する変数の集合 を選ぶ.
ステップ2:
ただし,
であり, は に関して凸関数.
ステップ3:アルミホのルールでステップ幅 を求め
1,2, ,kJ n
) 0argmin ( ( ), ( ) ( , )k
k
k k k k k
i i i J
f x f x d x xd d dd xB
オリジナル
( ) ( ), () ,( )x y xB y yx y
( , )k kk J J
x x kJx
kt
1k k k
kx x dt
のとき既存のBCPG法
1
( )
2
k
kx x H x
37. 一般化CD法の特別な場合(1)
CD法 (ただし, は各 に対して凸)
( ) ( )k
x f x
( , ) ( ) ) ),((k
k k k k k
x x d f x f x dB d f x
(
argmi
argmin ) ( ), ( ) ( , ) 0
) ( ) 0n (
k
k
k
k k k k k
i i i J
k
i i i J
d f x d B df x d x x x
x d
d
xf dd
オリジナル
f kJx
1k k k
kx dx t
ならCD法!1kt
38. 一般化CD法の特別な場合(2)
Inexact CGD法 (Inexact CD法も同様にできる)
正確な場合の部分問題の最適性の条件
近似条件
( )k
g x
1
( ) ( ) ( ) 0k k k k
k k k
J J J J
k k
f x xx g
( )k
g x
1
( )( ( ))k k k kk k k
k k kk
J J J J J JJ
k k
f x g x x
k
k ‖ ‖
オリジナル
0k
k
J
( , ) ( ) ( )xB x yx y
39. InexactなCGD法
行列 を以下の条件をみたすように定義する
を とすると,近似条件は
となる.
E
( )
1
( )
2
k k
y y Eyy k
1
1
1
1
0 ( ) (
( ) (
( ) (
( )
) ( )
) ( ) ( )
) ( )
k k k k
k k k
k
k
k
k k
J
k k k k k
J J J J
k k k k k
J
k
k
J
k
J J
k k k
J J J
k
k
f x g x
f x g
x
xx
f x
E x
g x x
x
オリジナル
1
( )k k k
E x x
41. InexactなCGD法:条件
オリジナル
1
( )k k k
E x x
0E
1
argmax{| |}k k
j
j
jx xi
とすると,
1
1
1
1
1
1
1
11 1
( )
0
2
0 0
1
0
k
k
k k k
j
k k k k k
i i nk k k k
i i i i
k
i
k
n
i
n
j j
j
iE
x
x x
x xx
1
2 k
k k
i i
E
x x
1
2
k k k
k i ix x
E
44. Cyclic-CD法の反復回数の見積もり
反復の見積もり用の新しい仮定:
通常の仮定(リプシッツ連続):
オリジナル
1 2 3 1 2
1 1
2 31
1 2
1
2
1 1 2
1
2 1
3 1 1 2
1
3 1
2
1
( , , , ( , , ,
( , , , , ( , , ,
( , , , , , ( , , ,
( , , , , (
) )
, ) )
) )
) ), , ,
n n
n n n
n
n
n
n
n n
n
f x x x x f x x x
x x
f x x x x f x x x
x x
f x x x f x x x
x x
f x f x x x
x
y
y y
x
y y y
M x y
‖ ‖
M nL
( ) ( )f y f x L x y
が成り立つ
凸関数だと
ひょっとしたら
M L
50. SVMに対する
Sequential Minimum Optimization
C-SVM
データ
損失関数
双対問題
( { 1,1, ) }i i s
R
( ( ) ) max{0, )}( )1 (i i i
i x x
0
0 (
1
min
1, )
2
s. t.
1 ,
i i
i
i i
C
T
K
i
* if 0
( )
otherwis
1
e
i i
i
u
u
u
i
i
iC
1
C
C
54. 潜在変数をもつ最尤推定問題
• 観測変数 ,潜在変数
• 観測データと潜在変数の同時分布の確率モデルが与えられ
ている. はモデルパラメータ
• 潜在変数の確率密度関数 が与えられているとき,
周辺分布
N 個の観測データ が与えられたとき
パラメータ の最尤推定
( , | )p x z
( | ) ( , | ) ( d| )p x p x z q z z
1
min ln ( | )
N
i
i
p x
x z
q
i
x
55. 例:混合正規分布の最尤推定
(応用:クラスタリング)
• K 個のクラスがあり,どのクラスに入っているかは潜在変数
で表す. ( ならクラス k に所属)
• クラス k に入っている観測変数は正規分布に従う.
• クラス k に入る確率を とする.
同時分布
周辺分布(混合正規分布)
{0,1}K
z 1kz
1, , ) |( )| ( ,k k kNx z xp
k
( | )k kq z
1
) ( | , , ) ( |( , | ) ,( )|k k
K
z z
k k
k
p x z N xp x z q z
1
, ) ( |, )( ,| k
K
z
k k
k
Np x z x
1
)( | k
K
z
k k
k
q z
) ( , | ) ( )( | ( | ),k k k
z k
p x N xp x z q z
57. 対数尤度の計算
同時分布
いま, を確率密度関数の集合とし,
とすると
lnln ( , | ) ln ( ), )( ||z pxp x z q x
) ( | , ) (| |( , )q z xp x z x p
( , , )
( , | )
( )ln d
( )
p
r r
r
x
z zL x
z
z
) ln ( )d ( )ln ( , | )d
ln ( )d ( )ln ( | , )d
( , ,
( ) d
( | , )
ln
ln ( | )
ln ( |
( )
( )
)d
( )
( )
r r r r
r r r r
L x z z z p x z z
z z z q z x z z z
q z x
z
z
z
z
z
r
p x
p xr
r
58. 「対数尤度の最大化」と等価な最大化問題
(注意: f は r に関して汎関数)
停留点(や最適解)では
つまり,
( | , )
( , , ) ( )ln d
(
l )
)
n ( |
i
i
i
i
i
i
i
i
i
r r
r
q z x
L x z z
z
p x
( | , )
( , ) ( , , ) ( )ln ( n d
)
) l
(
|i
i
i
i i
i
i
i
i
q z
r r p x
x
f L rx z z
zr
)m
s
ax
.t
( ,
.
f r
r
( ) ( | , )i
ir z q z x
max ) l | )( n, ( i
r
i
f pr x
Kullback-Liebler
divergence
59. の最大化に対するCD法
ステップ1: に関する最大化
ステップ2: に関する最大化
ステップ1 E-Step
ステップ2:
M-Step
max )
s. t. ,
( ,
( 1, )
k
i N
f
r i
r
( , )f r
r
1
) ( , )( |k i k
ir z q z x
1
ax )( ,m k
f r
1 1
1 1 1
, ) )
ln ( )d ( )l
( ( , ,
( ) n ( , | )d
k i k
i
i
k
i
k k
i i i
i
i
r z z r
f r L x
pz zr x z
r
z
max ln ( , | ) ( | , )di i k
i i
p x z q z x z
60. 混合正規分布の推定
潜在変数は離散分布なので,
と考える.
1 2, , , )(i i i iKr rr r
( , | )
) , ) ln
)
( , ( ,
( | ,
( ,
ln
ln ln ln | )
i
i
i i
i
ik
k ik
ik
k ik
ik
k
k
i
k
ik
i
k k k
ki
k
k k
f r L
p x z
r
r
x
r
r
r r
x r
N
N x
0, 1K
krr R r
1
1
( | , )
( | , )
k i
k k k k
Kik
k
j
i
j j
j
N x
r
N x
64. 相関係数の最適化
• t 期の経済指標 j の値:
• t 期の企業 i の株価:
• t 期から t+1 期の企業 i の株価収益率:
既存の経済指標から期待収益率が予測できたらうれしい.
多くの研究では となる f を推定
相関が強い新しい経済指標とポートフォリオができるととうれしそう.
( 1, , )t
jI mj
( 1, , )t
iP ni
1t t
t i i
i t
i
P P
R
P
1 2 1 2, , , , , ,) ( )( n mR f IIR R I
強い相関
1( , , )t t
mI I I 1( , , )n
t t
R R R
65. 相関係数の最適化
新しい経済指標:
ポートフォリオの収益率:
予測ができる ⇒ 相関係数が大きい
1
( )
m
i i
i
I yy I
1
( )
n
i i
i
R x R x
2 2
( ( ) [ ( )])( ( ) [ ( )
min
s. t. ,
])
[( ( ) [ ( )]) ] [( ( ) [ ( )]) ]
E R x E R x I y E I y
E R x U R x E I y E I y
X Yx y
オリジナル
67. 相関係数最適化問題に対する
Block Coordinate Descent 法
ステップ1: 次の問題の(近似)解を とする
ステップ2: 次の問題の(近似)解を とする
オリジナル
(
min
)
s. t.
R
k
RI
k k
R II
V y
V y
x
x x
x X
V y
1
1 1
(
( )
)
min
s. t.
R
k
RI
k k
R II
y
y
x V
x V
y
V
Y
x y
1k
x
1k
y
69. 分数計画問題の解法
1変数非線形方程式への変換
1
2
( )
min
( )
s. t.
g x
g x
x X
)( 0G
1 2) min( { ( ) ( )}Xx gG x xg
* *
*
*
1 2
1 2
* *
) 0 such that ( ) ( ) 0
( ) ( 0
(
)
xX
x
G x
x x X
g g
g
x
g
実際,
1*1
2
*
2
*
( ) (
( )
)
( )
g g x
xg
x
g
x
X
x
70. 1変数非線形方程式の解法
• は単調増加凸関数
• の劣勾配:
ただし, は の解
は一般化ニュートン法で簡単に解ける.
1 2 2 1
ˆ ) ( ) min { ( ) ( )} max { ( )( ( )}Xx x XG G g g gx x gx x
ˆG
ˆG
ˆ )( 0G
2
ˆ( ) ( )ˆxg G
ˆx 2 1max { ( ) ( )}x X x xg g
new 2 1 1
2 2 2
ˆ ( )ˆ ˆ ˆ( ) ( )( )
( ) ( )ˆ )ˆ ( ˆ
x xg g gG
g g g
x
x x x
一般化ニュートン法の各反復で
を解かなければならない!!2 1max { ( ) ( )}x X x xg g
75. DSLゲームの均衡問題
N人ユーザが,Kチャネルある通信路を使って通信している.
ユーザ i の最適化問題
• 決定変数: ( i 以外のユーザの決定変数 )
• 目的関数(通信量):
• ユーザーの制約:
1
( , ) ln 1i i ij
k k
j
K
k
i
i
i
k
i
i k
xu x
x
x
max
1
0,
K
i i
k
i
k kx x P
Ki
x R
i
x
分母はノイズ
77. (KKT条件)
ユーザの最適化問題
max
1
max ( , )
s. t. 0,
i
i
i
i
K
i i
k
k
u
x x
x x
P
max max
( 1,
1
0 ,
0,
)
0 ( 1,0, ,
,
)
00,
i ij i
k k k
i i
k k k
i i i i
k k
k
k
k
x
x x k
x
K
K
P x P
[Luo and Pang, 2006]
max
0 ( 1 , )
0, 0, ,
,
0 ( 1, )
i ij i i i
k k k k
i i
k
i i i i
k k k k
K
x K
x P
x
x k
k
78. 均衡問題
Nash均衡: すべてのユーザが最適
max
0 ( 1 , )
0, 0, ,
,
0 ( 1, )
i ij i i i
k k k k
i i
k
i i i i
k k k k
K
x K
x P
x
x k
k
79. 等価な最適化問題
対角行列 を以下のように定義する
さらに行列 ,A と b を以下のように定義する.
Nash均衡:
,i j K K
M R
,i j ij
kk kM
NK NK
M R
1,1 1,
max
,1 ,
m
1
ax
1 1 0 0
0 1 1
, ,
0
0 0 1 1
N
N N N N
M M P
M A b
M M P
0
0, 0, 0
A
A
Mx q
x
x b
x
84. 単体法とCD法
部分問題:
最適解:
min
s. t. ,( 1 ),
0
j j
i i j
j
b n
x
y x i
x
1
0
arg
if 0
min 0 otherwise
j
k
j i
i
i
b
y
y
x
87. 制約つきの問題
ー 拡張ラグランジュ法(乗数法) -
*簡単のため とする.
ラグランジュ関数:
拡張ラグランジュ関数:
min
s.t. ( ) 0,
( )
1 ,,i
f x
h ix m
1
(( ), ) ) (
m
i i
i
f x hL x x
2
1
( , ) ( , ) ( )
m
i
i
c x L x h xL c
0
88. 拡張ラグランジュ法
拡張ラグランジュ法では点列 を以下のように生成する.
1
argmin ( , )k k
x cx xL
1 1
1
( )k k k
i
m
i
hc x
( ),k k
x
制約なしの問題
1 1 11
0 ( , ) ( () )( )k k k k
x c i
k k
i i
h xL x f x ch x
* * *
0 ( ) ( )i if x h x
89. 交互方向乗数法
(alternating direction method of multipliers)
目的関数が分離可能な問題:
例:
応用: 画像処理,信号処理
( ) ( )min
s.t.
p x q y
Ax By b
1min ( )f x Ax ‖ ‖
1min
s
(
.
)
t 0. A
yf x
x y
‖‖
90. 交互方向乗数法
拡張ラグランジュ関数の最小化を正確にするかわりに,
ブロックCD法の反復を1回する.
2
(( , , ( )) ) ( ) T
cL Ax Byx y p x q y b c Ax By b ‖ ‖
1
1
argmin ( , , )
n
k k k
c
x R
xx yL
2
1 1
argmin ( , , )n
kk k
cy R
xy yL
1 1 1
( )k k k k
c Ax By b
91. 交互方向乗数法が有効な例
Total variation minimization (画像処理)
z:ノイズがある元画像. : total variation
2
1min
s.t. n
x z Ax
x R
‖ ‖ ‖ ‖
1Ax‖ ‖
2
1min
s.t. 0
x z y
Ax y
‖ ‖ ‖‖
2 2
1( , , ) ( )cL Ax y cx y x z y Ax y ‖ ‖ ‖‖ ‖ ‖
92. Total variation minimization
交互方向乗数法
あらかじめ を計算しておけば,
各反復の計算は でできる
1
2 2
arg min ( , , )
argmin )(
n
n
k k k
cx R
k
x R
x x y
x z A x c A y
L
x
‖ ‖ ‖ ‖
1
( ) ( )k
I cA A z A y
1 1 1
)max 0,| ( | sgn(( ),) ,1,k k k
i i iy m
c
iAx Ax
1
( )I cA A
2
( )O n
1 1 1
( )k k k k
c Ax y