Stochastic complexities of reduced rank regression証明概略

Stochastic Complexities of Reduced
Rank Regression in Bayesian
Estimationの証明概略

元論文
https://pdfs.semanticscholar.org/4972/55bf11a6726ee220e6b1
1e3442936ce3d6c6.pdf
http://watanabe
www.math.dis.titech.ac.jp/users/aoyagi/isitamiki.pdf
2

示したいこと
Reduced Rank Regression model
p(y∣x, w) = exp( ∣∣y − BAx∣∣
{w = (A, B)} (AはHxM行列,BはNxH行列)
の学習係数(Real Log Canonical Threshold)は
λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)}
で与えられる
√2π
N
1
2
1 2
2
(N+M)r−r +s(N−r)+(M−r−s)(H−r−s)2
3

方針
真の分布にたいして
KL distance
Φ ≡ ∥BA − B A ∣∣
を考え
サイズ C : r × r, C : (N − r) × r の行列に対して
Φ = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣B A ∣∣
と書けることを示し(Lemma 5)
行列の各要素sに再帰的にblow upすることで
ℓ(s) = (N + M)r − r + s(N − r) + (M − r − s)(H − r − j) − 1
に対して
λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)}
となることを示す。
0 0
2
1 2
′
1
2
2
2
3
2
4 4
2
2
2
ℓ(s)+1
4

Φ = ∣∣P (B A − )Q ∣∣
とA B を対角化
A =
B =
A : r × r, A : r × (M − r)
A : (H − r) × r, A : (H − r) × (M − r)
B : r × r, B : r × (H − r)
B : (N − r) × r, B : (N − r) × (H − r)
rank((B B ) ) = r
なので
C = B A + B A − E
C = B A + B A
0
′ ′
(
E
0
0
0
) 0
2
0 0
′
(
A1
A2
A3
A4
)
′
(
B1
B2
B3
B4
)
1 3
2 4
1 3
2 4
1 3 (
A1
A2
)
1 1 1 3 2
2 2 1 4 2
5

C = B A + B A − E
C = B A + B A
とおいて
B A − =
=
A = −A A1 A + A
=
Φ = ∣∣P Q ∣∣
と書ける。
1 1 1 3 2
2 2 1 4 2
′ ′
(
E
0
0
0
) (
C1
C2
(C + E − B A )A A + B A1 3 2 1
−1
3 3 4
(C − B A )A A + B A2 4 2 1
−1
3 4 4
)
(
C1
C2
C A A + A A + B A1 1
−1
3 1
−1
3 3 4
′
C A A + B A2 1
−1
3 4 4
′ )
4
′
2
−1
3 4
(
C1
C2
C (A − B A ) + A1 3
′
3 4
′
3
′
C (A − B A ) + B A2 3
′
3 4
′
4 4
′ )
0 (
C1
C2
C (A − B A ) + A1 3
′
3 4
′
3
′
C (A − B A ) + B A2 3
′
3 4
′
4 4
′ ) 0
2
6

(lennma2,3から)
Φ ψdw
の極は
∣∣ ∣∣ ψdw
で決まる。
これをblow upしていく。
∫U(A ,B )′ ′
z
∫U(A ,B )′ ′ (
C1
C2
A3
′
B A4 4
′ ) 2z
7

まず
A =
B =
のようにblow upしていく。
{
a = u11 11
a = u a (i, j) ≠ (1, 1)ij 11 ij
′
4
⎝
⎜
⎜
⎛ a11
a21
aH−r,1
...
...
⋮
...
a1,M−r
a2,M−r
aH−r,M−r
⎠
⎟
⎟
⎞
4
⎝
⎜
⎜
⎛ b11
b21
bN−r,1
...
...
⋮
...
b1,H−r
b2,H−r
bN−r,H−r
⎠
⎟
⎟
⎞
8

逐次的な特異点解消
Φ = u ...u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b D + B A ∣∣ )
A = B =
b =
というかたちに持っていきたい
→
′′
11
2
ss
2
1
2
2
2
3
2
∑i=1
s
i
2
∑i=1
s
i i
(s+1) (s+1) 2
s+1
⎝
⎜
⎜
⎛as+1,s+1
as+2,s+1
aH−r,s+1
...
...
⋮
...
a1,M−r
a2,M−r
aH−r,M−r
⎠
⎟
⎟
⎞
4
⎝
⎜
⎜
⎛ b11
b21
bN−r,1
...
...
⋮
...
b1,H−r
b2,H−r
bN−r,H−r
⎠
⎟
⎟
⎞
i
⎝
⎜
⎜
⎛ b1i
b2i
⋮
bN−r,i
⎠
⎟
⎟
⎞
9

2パターンのblow upが考えられる。
まず
{C = C = C = A = 0}
において
(1)
1 2 3 4
⎩
⎨
⎧ c = v,11
c = vc (i.j) ≠ (1, 1),ij ij
C = vC , C = vC , A = vA2 2 3 3 4 4
10

すると
Φ = v (1 + (c ) + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣B A ∣∣ )
となりヤコビアンはv となる。
この指数がλに効いてくる。
′ 2
∑′
ij
(1) 2
2
2
3
2
4 4
2
ℓ(0)
11

別のblow upとして
(2)
を考える。(一般にはa = u という形が含まれる)
これによって
⎩
⎨
⎧ a = u ,11 11
a = u a (i.j) ≠ (1, 1),ij 11 ij
C = vC , C = vC , A = vA2 2 3 3 4 4
ij 11
12

a と列b に関わる項B A から出すと
Φ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣
+∣∣b + B a ∣∣ + ∣∣(b B ) ∣∣
と書ける
11 1 4 4
′
11
2
1
2
2
2
3
2
1
(2)
1
2
1
(2)
(
a1
A(2)) 2
13

b = B + B a と書き換えると
Φ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣
+∣∣b ∣∣ + ∣∣(b − a B b B ) ∣∣
= u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣(b 0) + B (−a E) ∣∣
= u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣b + B (−a + A )∣∣
A = −a + A とおき直すと
1 1
(2)
1
′
11
2
1
2
2
2
3
2
1
2
1 1
(2)
1
(2)
(
a1
A(2)) 2
11
2
1
2
2
2
3
2
1
2
1 (
a¯1
A(2)) (2)
1 (
a¯1
A(2)) 2
11
2
1
2
2
2
3
2
1
2
1a¯ (2)
1a¯1
(2)
(2)
1a¯1
(2)
14

Φ = u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣b + B A ∣∣
とかけ、ヤコビアンはu となる。
B A の各列に対してこの処理を繰り返す。
′
11
2
1
2
2
2
3
2
1
2
1a¯1
(2) (2) 2
11
ℓ
4 4
15

再帰的処理
blow up(1)をΦ
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣B A ∣∣
に対して行うと
Φ = u ...u v (1 + (c ) + ∣∣C ∣∣ + ∣∣C ∣∣
+ ∣∣b ∣∣ + ∣∣ b D + B A ∣∣
(D はB A のs+1行s+1列以降B A 以外の部分であり再帰
的に定義される。)
c , c , c , b に対しては同じ式の形になり
ヤコビアンはu ...u v
(Φ dw = Φ u ...u v dw)
′
1
2
2
2
3
2
4 4
2
′′
11
2
ss
2 2
∑′
ij
(1) 2
2
2
3
2
∑i=1
s
i
2
∑i=1
s
i i
(s+1) (s+1) 2
i 4 4
(s+1) (s+1)
ji
(1)
ji
(2)
ji
(3)
ji
11
ℓ(0)
ss
ℓ(s+1) ℓ(s)
′z ′ ′′z
11
ℓ(0)
ss
ℓ(s+1) ℓ(s)
16

blow up(2)をΦ に行うと
Φ = u ...u u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣
∣∣b ∣∣
+∣∣ b D + (b B ) ∣∣
= u ...u u (∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣
+ ∣∣b ∣∣
+∣∣ b D + (b + B a 0) + (b B ) ∣∣
= (a , ..., a )
a = (a , ..., a )
と変換される。
′
′′
11
2
ss
2
s+1,s+1
2
1
2
2
2
3
2
∑i=1
s
s
2
∑i=1
s
i i s+1
(s+2)
(
1
as+1
a¯s+1
A(s+2)) 2
11
2
ss
2
s+1,s+1
2
1
2
2
2
3
2
∑i=1
s
1
2
∑i=1
s
s i s+1
(s+2)
s+1 s+1
(s+2)
(
a¯s+1
A(s+2)) 2
a¯s+1 s+1,s+2 s+1,M+r
s+1 s+2,s+1 H−r,s+1
T
17

D = (Col1(D )  D )
とおくと
Φ /u ...u u
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ + ∣∣b ∣∣
+∣∣ b D + (b − B a − b Col(D )  B ) ∣∣
b をまとめて項を分割
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b D + (b − b Col(D )  0)
+(−B a   B ) ∣∣
b = b + B a + b Col(D )
とおき直す。
i i i
′
′′
11
2
ss
2
s+1,s+1
2
1
2
2
2
3
2
∑i=1
s
s
2
s+1
2
∑i=1
s
i i
′
s+1
(s+2)
s+1 ∑s
i i
(s+2)
(
a¯s+1
A(s+2)) 2
s+1
1
2
2
2
3
2
∑i=1
s+1
i
2
∑i=1
s
i i
′
s+1 ∑s
i i (
a¯s+1
A(s+2))
(s+2)
s+1
(s+2)
(
a¯s+1
A(s+2)) 2
s+1 s+1
s+2)
s+1 ∑s
i i
18

計算とb_iでのくくり出し
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b (D − Col(D ) ) + b
+B (−a E) ∣∣
(Eは単位行列)
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b (D − Col(D ) ) + b
+B (−a + A )∣∣
1
2
2
2
3
2
∑i=1
s+1
s
2
∑i=1
s
i i
′
i a¯s+1 s+1a¯s+1
(s+2)
s+1 (
a¯s+1
A(s+2)) 2
1
2
2
2
3
2
∑i=1
s+1
s
2
∑i=1
s
i i
′
i a¯s+1 s+1a¯s+1
(s+2)
s+1a¯s+1
(s+2) 2
19

A = −a + A とおき直すと
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b (D − Col(D ) ) + b
+B A ∣∣
D = D − Col(D ) , D =
とおき直すと元の形
Φ = ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣
+∣∣ b D + D + B A ∣∣
= ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣C ∣∣ + ∣∣b ∣∣ + ∣∣ b D + B A ∣∣
戻るのでblow up(1),(2)を繰り返す。すると各変数の指数はℓ(s)
なので最大の極の指数(Real Log Canonical Threshold)は
λ = max{ ∣0 ≤ s ≤ min(M + r, H + r)}
と書ける。
(s+2)
s+1a¯s+1
(s+2)
1
2
2
2
3
2
∑i=1
s+1
s
2
∑i=1
s
i i
′
i a¯s+1 s+1a¯s+1
(s+2) (s+2) 2
i i
′
i a¯s+1 s+1 a¯s+1
1
2
2
2
3
2
∑i=1
s+1
s
2
∑i=1
s
i i s+1a¯s+1
(s+2) (s+2) 2
1
2
2
2
3
2
∑i=1
s+1
s
2
∑i=1
s+1
i i
(s+2) (s+2) 2
2
(N+M)r−r +s(N−r)+(M−r−s)(H−r−s)2
20

ただし
ℓ(s) = (N + M)r − r + s(N − r) + (M − r − s)(H − r − j) − 1
C : r × r
C : (N − r) × r
C (A ) : r × (M − r)
C + C + C = (M + N)r − r :
2
1
2
3 2
′
1 2 3
2
21

Lemma2(元論文の8 page)
ζ(z) = ∣f(w)∣ g(w)dw
の極−Λ(f, g)は
∣f ∣ ≤ ∣f ∣, ∣g ∣ ≤ ∣g ∣)の時Λ(f , g ) ≤ Λ(f , g )
∫W
z
1 2 1 2 1 2 2 2
22

Lemma3(元論文の9 page)
T (w), T (w), T (w)をそれぞれN × H , N × M , H × M
行列の関数とすると
∃α, β.st.
α(∣∣T ∣∣ + ∣∣T ∣∣ ) ≤ ∣∣T ∣∣ + ∣∣T + T T∣∣ ≤ β(∣∣T ∣∣ + ∣∣T ∣∣ )
1 2 3
′ ′ ′ ′ ′ ′
1
2
2
2
1
2
2 1
2
1
2
2
2
23

Stochastic complexities of reduced rank regression証明概略

More Related Content

What's hot

Similar to Stochastic complexities of reduced rank regression証明概略

More from Xiangze

Stochastic complexities of reduced rank regression証明概略