PRML読書会復々讐レーン
6.4.6, 6.4.7
2013/05/05
Presented by takmin
概要
• ガウス過程の分類問題
   111 ,   NNNp C0aa
   
)exp(1
1
1
1
111




N
NNN
a
aatp 
ガウス過程
分類問題
ロジスティックシグモイド関数
 T
NNN aaa 111 ,,,   a
(6.74)
目的
• ガウス過程の分類問題
– 以下の予測分布を求めたい。
        11111 11 NNNNNNN daapatptp tt
近似して解く
• 変分推論法(10.1節)
• EP法(10.7節)
• ラプラス近似(6.4.6節)
解析的に解けない
(6.76)
導出の流れ
   
)exp(1
1
1
1
111




N
NNN
a
aatp 
        11111 11 NNNNNNN daapatptp tt
予測分布
ロジスティックシグモイド関数
導出の流れ
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
(6.77)
この導出は後ほど
導出の流れ
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   NN
T
NN
T
NNN caap kCktCka
11
11 ,

 
(6.77)
(6.78)
この導出は後ほど
導出の流れ
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   1*
,)( 
 Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
導出の流れ
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   1*
,)( 
 Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
の導出
 NNap t1
   NNNN dap ata,1
     NNNNNN
N
dapap
p
aata
t
,,
)(
1
11
       NNNNNN
N
dppap
p
aataa
t
1
)(
1
     NNNNN dpap ataa1
ベイズの定理
(6.77)
tNはaN+1とは無関係
ベイズの定理
 NNap t1
の導出
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
(6.77)
 NNap t1
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   2
1111 )(),(   NNNNN maap xxa 
(6.77)
ガウス過程
(6.66) (6.67)
の導出 NNap a1
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   NN
T
NN
T
NNN caap kCktCka
11
11 ,

 
(6.77)
(6.78)
の導出 NNap a1
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
(6.77)
ガウス分布
もしガウス分布なら、(6.77)
が解析的に計算可能!
ラプラス近似を使う!
の導出 NNp ta
ラプラス近似(復習)
)(
1
)( zz f
Z
p   zz dfZ )(
 1
0,)( 
 Azzzp
0)(
0
 zz
zf
0
)(ln1
zz
zA 

 f
確率分布p(z)が以下で表せる時、
ガウス分布で次のように近似できる。
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
(6.77)
 NNp ta
   
 N
NNN
p
pp
t
aat

ベイズの定理
ラプラス近似のために、
対数の1次微分、2次微
分を求める。
の導出 NNp ta
 NNp ta
   
 N
NNN
p
pp
t
aat

       NNNNNN pppp taatta lnlnlnln 
対数
   NNNN pp aata lnln)(  (6.80)
定数略
の導出 NNp ta
   


N
n
t
n
t
nNN
nn
aap
1
1
)(1)( at (6.79)
(6.80)   NNNN pp aata lnln)( 
の導出 NNp at
   


N
n
t
n
t
nNN
nn
aap
1
1
)(1)( at









































































N
n
n
ta
N
n
a
ta
N
n
a
a
ta
N
n
a
ata
N
n
t
a
t
a
ta
N
n
t
a
at
a
N
n
t
a
t
a
ae
e
e
e
e
e
e
e
ee
e
e
e
eee
nn
n
nn
n
n
nn
n
nnn
n
n
n
n
nn
n
n
nn
n
n
n
n
n
1
11
11
1
)1(
1
1
1
1
)(
1
1
1
1
1
1
1
1
1
11
1
1
1
1
1
1
 (6.79)
の導出 NNp at
(6.79)
(6.80)
  

N
n
n
ta
NN aep nn
1
)(at
   NNNN pp aata lnln)( 
の導出 NNp at
の導出
(6.79)
(6.80)
  

N
n
n
ta
NN aep nn
1
)(at
 
 



















N
n
a
N
T
N
N
n
ann
N
n
n
ta
NN
n
n
nn
e
e
ta
aep
11
1
1ln
1
1
ln
)(lnln
at
at 
対数
   NNNN pp aata lnln)( 
 Na
(6.80)
   

N
n
a
N
T
NNN
n
ep
1
1lnln atat
   NNNN pp aata lnln)( 
の導出 Na
(6.80)
 NNNp Caa ,0)( 
(6.60)
 
 
NN
T
NN
NN
T
N
N
NN
N
p
aCaC
aCa
C
a
1
1
2/12/
2
1
ln
2
1
2ln
2
2
1
exp
1
2
1
lnln




















対数
   NNNN pp aata lnln)( 
の導出 Na
(6.80)
  NN
T
NNN
N
p aCaCa
1
2
1
ln
2
1
2ln
2
ln

 
   

N
n
a
N
T
NNN
n
ep
1
1lnln atat
   NNNN pp aata lnln)( 
の導出 Na
(6.80)
 
NN
T
NN
N
n
a
N
T
N
N
e n
aCaC
at
1
1
2
1
ln
2
1
2ln
2
1ln



 

   NNNN pp aata lnln)( 
の導出 Na
ラプラス近似
(6.80)
  NN
N
n
a
NN
n
e aCta
1
1
1ln)(


 
 
NN
T
NN
N
n
a
N
T
N
N
e n
aCaC
at
1
1
2
1
ln
2
1
2ln
2
1ln



 

   NNNN pp aata lnln)( 
ラプラス近似
  NN
N
n
a
NN
n
e aCta
1
1
1ln)(


 
 
  N
T
N
T
aaa
T
a
a
a
a
a
aN
n
a
aaa
eee
e
e
e
e
e
e
e
N
N
N
n
σ



















)(,),(),(
1
1
,,
1
1
,
1
1
1
,,
1
,
1
1ln
21
1
21
2
2
1
1
 


ラプラス近似
NNNNN aCσta
1
)(


 T
NN aaa )(,),(),( 21  σ
1
)(

 NNN Cσa
 )(1)(
)(
nn
n
n
aa
a
a




 (4.88)
 T
NN aa )(,),( 1  σ
     NNN aaaadiag W )(1)(,,)(1)( 11  
より
(6.81)
ラプラス近似
NNNNN aCσta
1
)(


 T
NN aaa )(,),(),( 21  σ
1
)(

 NNN CWa
    )(1)(,,)(1)( 11 NN
NN
aaaadiag  


σW
(6.81)
(6.82)
ラプラス近似
0)(  Na となる をニュートン-ラフソン法で求める。Na
ニュートン-ラフソン法
 )(1)()( oldoldnew
E wHww  
 )(old
E wH 
(4.92)
(4.94)
Naw 
    )(ln NpE awtw 
ラプラス近似
0)(  Na となる をニュートン-ラフソン法で求める。Na
)( NaH 
ニュートン-ラフソン法
 )(1)()( old
N
old
N
new
N aHaa  
演習6.25
 
   
   
    
   
    
   NNNNNNNN
NNNNNNNN
NNNNNN
NNNNNNNNNN
NNNNNNN
NNN
NN
new
N
σtaWICWC
σtaWCICW
σtaWCW
σtaWaCWCWa
aCσtCWa
aaa
aHaa














1
11
11
111
111
1
1)(
ラプラス近似
0)(  Na となる をニュートン-ラフソン法で求める。Na
)( NaH 
ニュートン-ラフソン法
   NNNNNNNN
new
N σtaWICWCa 
1)(
(6.83)
ラプラス近似
0)(  Na となる をニュートン-ラフソン法で求める。Na
0)(
*1*


NNNNN aCσta
 NNNN σtCa 
*
(6.84)
*
Na に収束
1
)(

 NNN CWaH (6.85)
ラプラス近似
 NNNN σtCa 
*
(6.84)
1
)(

 NNN CWaH (6.85)
   1*
,)( 
 Haaata NNNNN qp (6.86)
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   1*
,)( 
 Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
求まった!
の導出 NNp ta
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
   1*
,)( 
 Haaata NNNNN qp
ラプラス近似
(6.86)
(6.77)
の導出 NNap t1
        NNNNNNN dpapap ataat 11
   1*
,)( 
 Haaata NNNNN qp (6.86)
(6.77)
   NN
T
NN
T
NNN caap kCktCka
11
11 ,

  (6.78)
の導出 NNap t1
演習6.26
   1
, 
 Λμxxp
   1
, 
 LbAxyxyp
   T
p AAΛLbAμyy 11
, 

Nax 
(2.113)
(2.114)
(2.115)
の時、以下が成り立つ
1 Nay*
Naμ  11 
 HΛ
1
 N
T
CkA 0b kCkL
11 
 N
T
c
演習6.26
   1*
, 
 Haaa NNNp
   kCkaCka
11
11 ,

  N
T
NN
T
NNN caap
      NNNNNN aap tata 1111 var,  
(6.86)
(6.78)
の時、以下が成り立つ
  *1
1 NN
T
NN aCkta

 
 
 T
N
T
N
T
N
T
NN
c
1111
1var


 CkHCkkCk
ta
演習6.26
  *1
1 NN
T
NN aCkta

 
 NNNN σtCa 
*
(6.84)より
 
 NN
T
NNNN
T
σtk
σtCCk


1
(6.87)
演習6.26
   
 
  kCCWCCk
kCCWCkkCk
CkHCkkCkta
11111
11111
1111
1var







NNNNN
T
NNNN
T
N
T
T
N
T
N
T
N
T
NN
c
c
c
    1111111 
 CABCADBAACBDA
  kWCk
11 
 NN
T
c
(C.7)より
(6.88)
演習6.26
   1*
, 
 Haaa NNNp
   kCkaCka
11
11 ,

  N
T
NN
T
NNN caap
      NNNNNN aap tata 1111 var,  
(6.86)
(6.78)
の時、以下が成り立つ
   NN
T
NN σtkta  1
    kWCkta
11
1var

  NN
T
NN c
(6.87)
(6.88)
予測分布の導出
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
        NNNNNNN dpapap ataat 11
(6.77)
    NNNNNa tata 111 var,  
予測分布の導出
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
      NNNNNNN aap tatat 1111 var,  
   
)exp(1
1
1
1
111




N
NNN
a
aatp 
    )(,)( 22
 daμaa
  2/122
8/1)(

 
(4.153)
(4.154)
予測分布の導出
        11111 11 NNNNNNN daapatptp tt (6.76)
予測分布
     NNNN tata 11var   
   NN
T
NN σtkta  1
    kWCkta
11
1var

  NN
T
NN c
(6.87)
(6.88)
ガウス過程による分類(ラプラス近似)
アルゴリズムまとめ
1. ガウス過程のパラメータを計算
2. ニュートン-ラフソン法により を計算
*
Na
3. 予測分布を計算する。
ガウス過程による分類(ラプラス近似)
アルゴリズムまとめ
1. 以下のガウス過程のパラメータを計算
   111 ,   NNNp C0aa







cT
N
N
k
kC
C 1 I
xxxx
xxxx
C 











),(),(
),(),(
1
111
NNN
N
N
kk
kk



 T
NNN kk ),(,),,( 111  xxxxk 
  ),( 11 NNkc xx
ガウス過程による分類(ラプラス近似)
アルゴリズムまとめ
2. ニュートン-ラフソン法により を計算
   NNNNNNNN
new
N σtaWICWCa 
1)(
 NNNN σtCa 
*
    )(1)(,,)(1)( 11 NNN aaaadiag   W
 T
NN aaa )(,),(),( 21  σ
更新式
以下に収束
*
Na
ガウス過程による分類(ラプラス近似)
アルゴリズムまとめ
3. 予測分布が以下の通り求まる
       NNNNNNtp tatat 111 var1   
  2/122
8/1)(

 
   NN
T
NN σtkta  1
    kWCkta
11
1var

  NN
T
NN c
(6.87)
(6.88)
パラメータの推定
      NNNNN dppp aθaatθt (6.89)
m
T
nnmmnk xxxxxx 32
21
0
2
exp),( 

 






 (6.63)
カーネル関数のパラメータ を推定したい。θ
例:
最尤推定:
を最大化する を求める。θ
パラメータの推定
2/1
2/
0
)2(
)()(
A
zzz
M
fdfZ

  (4.135)
)(
1
)( zz f
Z
p 
 1
0,)()( 
 Azzzz qp
(4.125)
が、以下のラプラス近似で表わされる時、
Zは以下で近似できる
   NNN ppf aatz )(
パラメータの推定
(6.86)
が、以下のラプラス近似で表わされる時、
p(t)は以下で近似できる
     
    2/1
2/
** )2(
H
aat
aθaatt
N
NNN
NNNNN
pp
dppp


 
   1*
,)( 
 Haaata NNNNN qp
 
 
   NNN
N
NN pp
p
p aat
t
ta
1
 (ベイズの定理)
パラメータの推定
      NNNNN dppp aθaatθt (6.89)
    2/1
2/
** )2(
H
aat
N
NNN pp


      )2ln(
2
ln
2
1
lnln
**

N
ppp NNNN  Haatθt
対数
)(
*
Na (6.80)
1
 NN CW (6.85)
=
=
パラメータの推定
      )2ln(
2
ln
2
1
lnln
**

N
ppp NNNN  Haatθt
  )2ln(
2
ln
2
1 1*

N
NNN 

CWa (6.90)
 θtNplnθ に対する勾配を求めることで、 の最大値を
とる を非線形最適化で求める。θ
対数尤度の勾配
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

を変更θ NC が変更
*
Na が変更 NW が変更
Nσ が変更
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

を変更θ NC が変更
*
Na が変更 NW が変更
Nσ が変更
対数尤度の勾配( 依存)NC
対数尤度の勾配( 依存)
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

(6.80)
 
NN
T
NN
N
n
a
N
T
NN
N
e n
aCaC
ata
1
1
2
1
ln
2
1
2ln
2
1ln)(



 

NC
対数尤度の勾配( 依存)




























ICWaCa
CW
aCaC
NN
j
NN
T
N
j
NN
j
NN
T
N
j
N
j
ln
2
1
ln
2
1
2
1
ln
2
1
*1*
1
*1*



NC
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

対数尤度の勾配( 依存)NC
 
















 
ICWaCa
θt
NN
j
NN
T
N
jj
Np
ln
2
1ln *1*

*1*
NN
T
N
j
aCa




ICW 


NN
j
ln

をそれぞれ として計算0
*



j
N

a
と
対数尤度の勾配( 依存)NC
*1*
NN
T
N
j
aCa




*11*
NN
j
N
N
T
N aC
C
Ca





  111 





A
A
AA
xx
(C.21)より
*
1
*
N
j
N
T
N a
C
a




ICW 


NN
j
ln

  











j
N
NNN

C
WIWC
1
Tr
   












ICWICW NN
j
NN

1
Tr
対数尤度の勾配( 依存)NC










 
xx
A
AA 1
Trln (C.22)より
対称行列
対数尤度の勾配( 依存)NC
 
















 
ICWaCa
θt
NN
j
NN
T
N
jj
Np
ln
2
1ln *1*

*11**1*
NN
j
N
N
T
NNN
T
N
j
aC
C
CaaCa







 












 
j
N
NNNNN
j 
C
WWCICW
1
Trln
対数尤度の勾配( 依存)NC
 
















 
ICWaCa
θt
NN
j
NN
T
N
jj
Np
ln
2
1ln *1*

 
















j
N
NNN
NN
j
N
N
T
N


C
WWC
aC
C
Ca
1
*11*
Tr
2
1
2
1
(6.91)
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

を変更θ NC が変更
*
Na が変更 NW が変更
Nσ が変更
対数尤度の勾配( 依存)
*
Na
対数尤度の勾配( 依存)
    1*
ln
2
1ln 









NN
j
N
jj
Np
CWa
θt

*
Na
 













N
n j
n
NNN
n
a
a1
*
1*
*
ln
2
1

CWa







N
n j
n
n
NN a
a1
*
*
1
ln
2
1

CW
勾配=0







N
n j
n
n
NN a
a1
*
*
1
ln
2
1

CW
対数尤度の勾配( 依存)
*
Na
対数尤度の勾配( 依存)
*
Na
      





















 



*
11
*
1
11
*
1
TrTr
ln
n
N
NN
n
NN
NN
n
NN
aaa
W
CW
CW
CW
CW
(C.22)より
  















0
)(1)(
**
*
,
*
nn
n
jin
N
aa
a
a
W
    )(1)(,,)(1)( 11 NNN aaaadiag   W
なので
)( nji 
others
     )(21)(1)()(1)(
*****
* nnnnn
n
aaaaa
a
 


対数尤度の勾配( 依存)
*
Na
      





















 



*
11
*
1
11
*
1
TrTr
ln
n
N
NN
n
NN
NN
n
NN
aaa
W
CW
CW
CW
CW
(C.22)より
     )(21)(1)(
***11
nnnnnNN aaa  

CW
       NNNNNNNN CWCIIWCCCW
11111 

     )(21)(1)(
***1
nnnnnNNN aaa  

CWCI







N
n j
n
n
NN a
a1
*
*
1
ln
2
1

CW
(6.92)
対数尤度の勾配( 依存)
*
Na
     




N
n j
n
nnnnnNNN
a
1
*
***1
211
2
1

WWC
     )(21)(1)(
ln ***1
*
1
nnnnnNNN
n
NN
aaa
a
 

 

CWCI
CW
より
     
j
NN
NNN
j
N
NNN
jj
N
 










*
**
*
σt
Cσt
C
σtC
a
(6.84)
対数尤度の勾配( 依存)
*
Na
 
j
N
NN
N
n j
n
n
N
N
j
NN
N
a
a  










*
1
*
*
**
a
WC
σ
C
σt
C
 
j
N
NNNN
j
N
 





*
* a
WCσt
C
(6.93)
 
j
N
NNNN
j
N
j
N
 







*
*
*
a
WCσt
Ca
対数尤度の勾配( 依存)
*
Na
(6.93)’
   *
*
NN
j
N
j
N
NN σt
Ca
WCI 







   *1
*
NN
j
N
NN
j
N
σt
C
WCI
a





 

   
n
NN
j
N
NN
nj
N
j
na
























  *1
**
σt
C
WCI
a

(6.94)’
パラメータ推定まとめ
• 最尤推定でカーネルのパラメータを計算す
る。
• 対数尤度のパラメータ の勾配を求める。
– に依存する項:(6.91)式
– に依存する項:(6.92)+(6.94)式
• この勾配から非線形最適化のアルゴリズム
を用いてパラメータの値を決定する。
θ
NC
Na
疑問:具体的にどのように(6.91)と(6.92)を使い分けて最適化するのか?
ガウス過程による分類
黒線:ガウス過程で求まった決定面
緑線:最適な決定面 赤・青:それぞれのクラスの事後分布
黒線:ガウス過程で求まった決定面
6.4.7 ニューラルネットワークとの関係
• ニューラルネットによる識別問題(復習)
・
・
・
・・・ ・・・
x
kt
閾値
)1(
w )2(
w
ky
 


K
k
t
k
t
k
kk
yyp
1
1
),(1),(),|( wxwxwxt (5.22)
6.4.7 ニューラルネットワークとの関係
• ベイズニューラルネット(復習)
),|()|( 1
I0ww 
  Np (5.162)
事前分布を追加
予測分布を求める
 wwwxtxt dDppDp )|(),|(),|( (5.168)
 


K
k
t
k
t
k
kk
yyp
1
1
),(1),(),|( wxwxwxt (5.22)
6.4.7 ニューラルネットワークとの関係
• ベイズニューラルネットの中間層の数Mが
M→∞の極限において、ガウス過程に近づく。
– 出力変数が独立になる。
• ベイズニューラルネットからカーネル関数を計
算
– 重みの事前分布を平均0のガウス分布とした場
合、カーネル関数 は不変にならない。),( xx k

Chapter6.4

  • 1.
  • 2.
    概要 • ガウス過程の分類問題   111 ,   NNNp C0aa     )exp(1 1 1 1 111     N NNN a aatp  ガウス過程 分類問題 ロジスティックシグモイド関数  T NNN aaa 111 ,,,   a (6.74)
  • 3.
    目的 • ガウス過程の分類問題 – 以下の予測分布を求めたい。        11111 11 NNNNNNN daapatptp tt 近似して解く • 変分推論法(10.1節) • EP法(10.7節) • ラプラス近似(6.4.6節) 解析的に解けない (6.76)
  • 4.
    導出の流れ    )exp(1 1 1 1 111     N NNN a aatp          11111 11 NNNNNNN daapatptp tt 予測分布 ロジスティックシグモイド関数
  • 5.
    導出の流れ        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11 (6.77) この導出は後ほど
  • 6.
    導出の流れ        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    NN T NN T NNN caap kCktCka 11 11 ,    (6.77) (6.78) この導出は後ほど
  • 7.
    導出の流れ        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    1* ,)(   Haaata NNNNN qp ラプラス近似 (6.86) (6.77)
  • 8.
    導出の流れ        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    1* ,)(   Haaata NNNNN qp ラプラス近似 (6.86) (6.77)
  • 9.
    の導出  NNap t1   NNNN dap ata,1      NNNNNN N dapap p aata t ,, )( 1 11        NNNNNN N dppap p aataa t 1 )( 1      NNNNN dpap ataa1 ベイズの定理 (6.77) tNはaN+1とは無関係 ベイズの定理  NNap t1
  • 10.
    の導出        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11 (6.77)  NNap t1
  • 11.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    2 1111 )(),(   NNNNN maap xxa  (6.77) ガウス過程 (6.66) (6.67) の導出 NNap a1
  • 12.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    NN T NN T NNN caap kCktCka 11 11 ,    (6.77) (6.78) の導出 NNap a1
  • 13.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11 (6.77) ガウス分布 もしガウス分布なら、(6.77) が解析的に計算可能! ラプラス近似を使う! の導出 NNp ta
  • 14.
    ラプラス近似(復習) )( 1 )( zz f Z p  zz dfZ )(  1 0,)(   Azzzp 0)( 0  zz zf 0 )(ln1 zz zA    f 確率分布p(z)が以下で表せる時、 ガウス分布で次のように近似できる。
  • 15.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11 (6.77)  NNp ta      N NNN p pp t aat  ベイズの定理 ラプラス近似のために、 対数の1次微分、2次微 分を求める。 の導出 NNp ta
  • 16.
     NNp ta     N NNN p pp t aat         NNNNNN pppp taatta lnlnlnln  対数    NNNN pp aata lnln)(  (6.80) 定数略 の導出 NNp ta
  • 17.
         N n t n t nNN nn aap 1 1 )(1)( at (6.79) (6.80)   NNNN pp aata lnln)(  の導出 NNp at
  • 18.
         N n t n t nNN nn aap 1 1 )(1)( at                                                                          N n n ta N n a ta N n a a ta N n a ata N n t a t a ta N n t a at a N n t a t a ae e e e e e e e ee e e e eee nn n nn n n nn n nnn n n n n nn n n nn n n n n n 1 11 11 1 )1( 1 1 1 1 )( 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1  (6.79) の導出 NNp at
  • 19.
    (6.79) (6.80)     N n n ta NNaep nn 1 )(at    NNNN pp aata lnln)(  の導出 NNp at
  • 20.
    の導出 (6.79) (6.80)     N n n ta NNaep nn 1 )(at                        N n a N T N N n ann N n n ta NN n n nn e e ta aep 11 1 1ln 1 1 ln )(lnln at at  対数    NNNN pp aata lnln)(   Na
  • 21.
    (6.80)     N n a N T NNN n ep 1 1lnln atat    NNNN pp aata lnln)(  の導出 Na
  • 22.
    (6.80)  NNNp Caa,0)(  (6.60)     NN T NN NN T N N NN N p aCaC aCa C a 1 1 2/12/ 2 1 ln 2 1 2ln 2 2 1 exp 1 2 1 lnln                     対数    NNNN pp aata lnln)(  の導出 Na
  • 23.
    (6.80)   NN T NNN N paCaCa 1 2 1 ln 2 1 2ln 2 ln         N n a N T NNN n ep 1 1lnln atat    NNNN pp aata lnln)(  の導出 Na
  • 24.
    (6.80)   NN T NN N n a N T N N e n aCaC at 1 1 2 1 ln 2 1 2ln 2 1ln         NNNN pp aata lnln)(  の導出 Na
  • 25.
    ラプラス近似 (6.80)   NN N n a NN n eaCta 1 1 1ln)(       NN T NN N n a N T N N e n aCaC at 1 1 2 1 ln 2 1 2ln 2 1ln          NNNN pp aata lnln)( 
  • 26.
    ラプラス近似   NN N n a NN n eaCta 1 1 1ln)(         N T N T aaa T a a a a a aN n a aaa eee e e e e e e e N N N n σ                    )(,),(),( 1 1 ,, 1 1 , 1 1 1 ,, 1 , 1 1ln 21 1 21 2 2 1 1    
  • 27.
    ラプラス近似 NNNNN aCσta 1 )(    T NNaaa )(,),(),( 21  σ 1 )(   NNN Cσa  )(1)( )( nn n n aa a a      (4.88)  T NN aa )(,),( 1  σ      NNN aaaadiag W )(1)(,,)(1)( 11   より (6.81)
  • 28.
    ラプラス近似 NNNNN aCσta 1 )(    T NNaaa )(,),(),( 21  σ 1 )(   NNN CWa     )(1)(,,)(1)( 11 NN NN aaaadiag     σW (6.81) (6.82)
  • 29.
    ラプラス近似 0)(  Naとなる をニュートン-ラフソン法で求める。Na ニュートン-ラフソン法  )(1)()( oldoldnew E wHww    )(old E wH  (4.92) (4.94) Naw      )(ln NpE awtw 
  • 30.
    ラプラス近似 0)(  Naとなる をニュートン-ラフソン法で求める。Na )( NaH  ニュートン-ラフソン法  )(1)()( old N old N new N aHaa  
  • 31.
    演習6.25                           NNNNNNNN NNNNNNNN NNNNNN NNNNNNNNNN NNNNNNN NNN NN new N σtaWICWC σtaWCICW σtaWCW σtaWaCWCWa aCσtCWa aaa aHaa               1 11 11 111 111 1 1)(
  • 32.
    ラプラス近似 0)(  Naとなる をニュートン-ラフソン法で求める。Na )( NaH  ニュートン-ラフソン法    NNNNNNNN new N σtaWICWCa  1)( (6.83)
  • 33.
    ラプラス近似 0)(  Naとなる をニュートン-ラフソン法で求める。Na 0)( *1*   NNNNN aCσta  NNNN σtCa  * (6.84) * Na に収束 1 )(   NNN CWaH (6.85)
  • 34.
    ラプラス近似  NNNN σtCa * (6.84) 1 )(   NNN CWaH (6.85)    1* ,)(   Haaata NNNNN qp (6.86)
  • 35.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    1* ,)(   Haaata NNNNN qp ラプラス近似 (6.86) (6.77) 求まった! の導出 NNp ta
  • 36.
           11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11    1* ,)(   Haaata NNNNN qp ラプラス近似 (6.86) (6.77) の導出 NNap t1
  • 37.
           NNNNNNN dpapap ataat 11    1* ,)(   Haaata NNNNN qp (6.86) (6.77)    NN T NN T NNN caap kCktCka 11 11 ,    (6.78) の導出 NNap t1
  • 38.
    演習6.26   1 ,   Λμxxp    1 ,   LbAxyxyp    T p AAΛLbAμyy 11 ,   Nax  (2.113) (2.114) (2.115) の時、以下が成り立つ 1 Nay* Naμ  11   HΛ 1  N T CkA 0b kCkL 11   N T c
  • 39.
    演習6.26   1* ,   Haaa NNNp    kCkaCka 11 11 ,    N T NN T NNN caap       NNNNNN aap tata 1111 var,   (6.86) (6.78) の時、以下が成り立つ   *1 1 NN T NN aCkta       T N T N T N T NN c 1111 1var    CkHCkkCk ta
  • 40.
    演習6.26   *1 1NN T NN aCkta     NNNN σtCa  * (6.84)より    NN T NNNN T σtk σtCCk   1 (6.87)
  • 41.
    演習6.26        kCCWCCk kCCWCkkCk CkHCkkCkta 11111 11111 1111 1var        NNNNN T NNNN T N T T N T N T N T NN c c c     1111111   CABCADBAACBDA   kWCk 11   NN T c (C.7)より (6.88)
  • 42.
    演習6.26   1* ,   Haaa NNNp    kCkaCka 11 11 ,    N T NN T NNN caap       NNNNNN aap tata 1111 var,   (6.86) (6.78) の時、以下が成り立つ    NN T NN σtkta  1     kWCkta 11 1var    NN T NN c (6.87) (6.88)
  • 43.
    予測分布の導出        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布         NNNNNNN dpapap ataat 11 (6.77)     NNNNNa tata 111 var,  
  • 44.
    予測分布の導出        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布       NNNNNNN aap tatat 1111 var,       )exp(1 1 1 1 111     N NNN a aatp      )(,)( 22  daμaa   2/122 8/1)(    (4.153) (4.154)
  • 45.
    予測分布の導出        11111 11 NNNNNNN daapatptp tt (6.76) 予測分布      NNNN tata 11var       NN T NN σtkta  1     kWCkta 11 1var    NN T NN c (6.87) (6.88)
  • 46.
  • 47.
    ガウス過程による分類(ラプラス近似) アルゴリズムまとめ 1. 以下のガウス過程のパラメータを計算   111 ,   NNNp C0aa        cT N N k kC C 1 I xxxx xxxx C             ),(),( ),(),( 1 111 NNN N N kk kk     T NNN kk ),(,),,( 111  xxxxk    ),( 11 NNkc xx
  • 48.
    ガウス過程による分類(ラプラス近似) アルゴリズムまとめ 2. ニュートン-ラフソン法により を計算   NNNNNNNN new N σtaWICWCa  1)(  NNNN σtCa  *     )(1)(,,)(1)( 11 NNN aaaadiag   W  T NN aaa )(,),(),( 21  σ 更新式 以下に収束 * Na
  • 49.
    ガウス過程による分類(ラプラス近似) アルゴリズムまとめ 3. 予測分布が以下の通り求まる       NNNNNNtp tatat 111 var1      2/122 8/1)(       NN T NN σtkta  1     kWCkta 11 1var    NN T NN c (6.87) (6.88)
  • 50.
    パラメータの推定      NNNNN dppp aθaatθt (6.89) m T nnmmnk xxxxxx 32 21 0 2 exp),(            (6.63) カーネル関数のパラメータ を推定したい。θ 例: 最尤推定: を最大化する を求める。θ
  • 51.
    パラメータの推定 2/1 2/ 0 )2( )()( A zzz M fdfZ    (4.135) )( 1 )(zz f Z p   1 0,)()(   Azzzz qp (4.125) が、以下のラプラス近似で表わされる時、 Zは以下で近似できる    NNN ppf aatz )(
  • 52.
    パラメータの推定 (6.86) が、以下のラプラス近似で表わされる時、 p(t)は以下で近似できる          2/1 2/ ** )2( H aat aθaatt N NNN NNNNN pp dppp        1* ,)(   Haaata NNNNN qp        NNN N NN pp p p aat t ta 1  (ベイズの定理)
  • 53.
    パラメータの推定      NNNNN dppp aθaatθt (6.89)     2/1 2/ ** )2( H aat N NNN pp         )2ln( 2 ln 2 1 lnln **  N ppp NNNN  Haatθt 対数 )( * Na (6.80) 1  NN CW (6.85) = =
  • 54.
    パラメータの推定      )2ln( 2 ln 2 1 lnln **  N ppp NNNN  Haatθt   )2ln( 2 ln 2 1 1*  N NNN   CWa (6.90)  θtNplnθ に対する勾配を求めることで、 の最大値を とる を非線形最適化で求める。θ
  • 55.
    対数尤度の勾配    1* ln 2 1ln           NN j N jj Np CWa θt  を変更θ NC が変更 * Na が変更 NW が変更 Nσ が変更
  • 56.
       1* ln 2 1ln           NN j N jj Np CWa θt  を変更θ NC が変更 * Na が変更 NW が変更 Nσ が変更 対数尤度の勾配( 依存)NC
  • 57.
    対数尤度の勾配( 依存)    1* ln 2 1ln           NN j N jj Np CWa θt  (6.80)   NN T NN N n a N T NN N e n aCaC ata 1 1 2 1 ln 2 1 2ln 2 1ln)(       NC
  • 58.
  • 59.
    対数尤度の勾配( 依存)NC                    ICWaCa θt NN j NN T N jj Np ln 2 1ln *1*  *1* NN T N j aCa     ICW    NN j ln  をそれぞれ として計算0 *    j N  a と
  • 60.
    対数尤度の勾配( 依存)NC *1* NN T N j aCa     *11* NN j N N T N aC C Ca       111       A A AA xx (C.21)より * 1 * N j N T N a C a    
  • 61.
    ICW    NN j ln               j N NNN  C WIWC 1 Tr                 ICWICW NN j NN  1 Tr 対数尤度の勾配( 依存)NC             xx A AA 1 Trln (C.22)より 対称行列
  • 62.
    対数尤度の勾配( 依存)NC                    ICWaCa θt NN j NN T N jj Np ln 2 1ln *1*  *11**1* NN j N N T NNN T N j aC C CaaCa                        j N NNNNN j  C WWCICW 1 Trln
  • 63.
    対数尤度の勾配( 依存)NC                    ICWaCa θt NN j NN T N jj Np ln 2 1ln *1*                    j N NNN NN j N N T N   C WWC aC C Ca 1 *11* Tr 2 1 2 1 (6.91)
  • 64.
       1* ln 2 1ln           NN j N jj Np CWa θt  を変更θ NC が変更 * Na が変更 NW が変更 Nσ が変更 対数尤度の勾配( 依存) * Na
  • 65.
    対数尤度の勾配( 依存)    1* ln 2 1ln           NN j N jj Np CWa θt  * Na                N n j n NNN n a a1 * 1* * ln 2 1  CWa        N n j n n NN a a1 * * 1 ln 2 1  CW 勾配=0
  • 66.
  • 67.
    対数尤度の勾配( 依存) * Na                                 * 11 * 1 11 * 1 TrTr ln n N NN n NN NN n NN aaa W CW CW CW CW (C.22)より                   0 )(1)( ** * , * nn n jin N aa a a W     )(1)(,,)(1)( 11 NNN aaaadiag   W なので )( nji  others      )(21)(1)()(1)( ***** * nnnnn n aaaaa a    
  • 68.
    対数尤度の勾配( 依存) * Na                                 * 11 * 1 11 * 1 TrTr ln n N NN n NN NN n NN aaa W CW CW CW CW (C.22)より      )(21)(1)( ***11 nnnnnNN aaa    CW        NNNNNNNN CWCIIWCCCW 11111        )(21)(1)( ***1 nnnnnNNN aaa    CWCI
  • 69.
           N n j n n NN a a1 * * 1 ln 2 1  CW (6.92) 対数尤度の勾配(依存) * Na           N n j n nnnnnNNN a 1 * ***1 211 2 1  WWC      )(21)(1)( ln ***1 * 1 nnnnnNNN n NN aaa a       CWCI CW より
  • 70.
         j NN NNN j N NNN jj N             * ** * σt Cσt C σtC a (6.84) 対数尤度の勾配( 依存) * Na   j N NN N n j n n N N j NN N a a             * 1 * * ** a WC σ C σt C   j N NNNN j N        * * a WCσt C (6.93)
  • 71.
      j N NNNN j N j N          * * * a WCσt Ca 対数尤度の勾配(依存) * Na (6.93)’    * * NN j N j N NN σt Ca WCI            *1 * NN j N NN j N σt C WCI a             n NN j N NN nj N j na                           *1 ** σt C WCI a  (6.94)’
  • 72.
    パラメータ推定まとめ • 最尤推定でカーネルのパラメータを計算す る。 • 対数尤度のパラメータの勾配を求める。 – に依存する項:(6.91)式 – に依存する項:(6.92)+(6.94)式 • この勾配から非線形最適化のアルゴリズム を用いてパラメータの値を決定する。 θ NC Na 疑問:具体的にどのように(6.91)と(6.92)を使い分けて最適化するのか?
  • 73.
  • 74.
    6.4.7 ニューラルネットワークとの関係 • ニューラルネットによる識別問題(復習) ・ ・ ・ ・・・・・・ x kt 閾値 )1( w )2( w ky     K k t k t k kk yyp 1 1 ),(1),(),|( wxwxwxt (5.22)
  • 75.
    6.4.7 ニューラルネットワークとの関係 • ベイズニューラルネット(復習) ),|()|(1 I0ww    Np (5.162) 事前分布を追加 予測分布を求める  wwwxtxt dDppDp )|(),|(),|( (5.168)     K k t k t k kk yyp 1 1 ),(1),(),|( wxwxwxt (5.22)
  • 76.
    6.4.7 ニューラルネットワークとの関係 • ベイズニューラルネットの中間層の数Mが M→∞の極限において、ガウス過程に近づく。 –出力変数が独立になる。 • ベイズニューラルネットからカーネル関数を計 算 – 重みの事前分布を平均0のガウス分布とした場 合、カーネル関数 は不変にならない。),( xx k