4.5	
  ベイズロジスティック回帰
     PRML復々習レーン	
  #5	
  

          2012/11/03	
  

        @hagino3000
4.5	
  ベイズロジスティック回帰

ロジスティック回帰のベイズ的
な取り扱い
ロジスティック回帰に対して、
ベイズ推論を適用する


•  厳密にやるのは難しい	
  

•  事後確率分布がガウス分布でない	
  

•  予測分布の評価をどうするか	
  
事後確率分布がガウス分布
でない。	
  
	
  
     ラプラス近似を適用して事
後確率分布のガウス分布表
現を探索する。
事前ガウス分布の一般形

  p(w) = N(w | m0 , S0 )       4.140



  wの上の事後確率分布

  p(w | t) ∝ p(w)p(t | w)      4.141

尤度関数にロジスティック          ロジスティック回帰の場合、
シグモイド関数が含まれる          ロジスティックシグモイド
ため、ガウス分布では無い            関数が含まれる
4.141の両辺の対数を取る
ln( p(w | t))
= ln( p(w)p(t | w))
= ln( p(w)) + ln( p(t | w))
 事前ガウス分布は式4.140を使う
= ln(N(w | m0 , S0 )) + ln( p(t | w))
 ロジスティック回帰の尤度関数は式4.89
                              N
= ln(N(w | m0 , S0 )) + ln(∏ y {1− yn }
                                    tn
                                    n
                                         1−tn
                                                )
                              n=1
事前ガウス分布の項について、多変量ガウス分布の
式(2.43)を使って整理
ln(N(w | m0 , S0 ))
         1     1         1         T
= ln(      D/2  1/2
                    exp{− (x − m0 ) S0 (x − m0 )})
      (2π ) S0           2
         1     1       1
= ln(      D/2  1/2
                    ) − (x − m0 )T S0 (x − m0 )
      (2π ) S0         2
   1         T
= − (x − m0 ) S0 (x − m0 ) + const
   2
尤度関数の項について整理
       N
ln(∏ y {1− yn }
           tn
           n
                  1−tn
                         )
   n=1
   N
= ∑ (tn ln yn + (1− tn )ln(1− yn ))
  n=1
4.142の式が得られる

ln( p(w | t)) =
        1         T
       − (x − m0 ) S0 (x − m0 )
        2
         N
      + ∑ (tn ln yn + (1− tn )ln(1− yn ))
         n=1

      + const
                   T
 この時     yn = σ (w φn )
次に事後確率分布を最大化するMAP解を求める。	
  
(MAP解はなんらかの数値最適化アルゴリズムで求
める 4.4	
  ラプラス近似)	
  
求めたMAP解をWMAPとする。	
  
	
  
共分散は、負の対数尤度における2回微分行列の逆
行列で与えられる。(4.132のヘッセ行列と同じ)
 −1
S = −∇∇ ln p(w | t)
 N


      = S + ∑ yn (1− yn )φ φ
       −1
       0
                           T
                         n n
最大事後確率WMAPはガウス分布の平均、共分散の逆
行列であるヘッセ行列が求まると、事後確率分布の
ガウス分布による近似は次の式となる。	
  


q(w) = N(w | w MAP , SN )


ここまでがラプラス近似の適用	
  
予測分布
新たな特徴ベクトルφ(x)が与えられた際のクラスC1
に対する予測分布を、ラプラス近似によって導出し
たガウス分布q(w)使って近似すると。	
  

p(C1 | φ, t) =     ∫ p(C1 | φ, w)p(w | t)dw
                      T
                 ≈ ∫ σ (w φ )q(w)dw           4.145



                                 T
※4.87より     p(C1 | φ, w) = σ (w φ )
T
σ (w φ ) は、φ上への射影を通してのみwに依存する	
  

                           T
a = w φ と表すと σ (w φ ) は次の通り
        T


        wTφは常にセット、他との組み合わせでは登場しないので	
  a	
  とおける



    T                T
σ (w φ ) = ∫ δ (a − w φ )σ (a)da

    ディラックのデルタ関数(計算に便利)
よって	
  

p(C1 | φ, t) =     ∫ p(C1 | φ, w)p(w | t)dw
                      T
                 ≈ ∫ σ (w φ )q(w)dw
                               T
                 = ∫ ( ∫ σ (a − w φ )σ (a)q(w)da )dw
                               T
                 = ∫ ( ∫ σ (a − w φ )q(w)dw)σ (a)da
                 = ∫ p(a)σ (a)da
                           T
ここで	
   p(a) = ∫ δ (a − w φ )q(w)dw
平均	
  
µ a = E[a] =      ∫ p(a)a da
                            T
                = ∫ ∫ δ (a − w φ )q(w)a dw da
                            T
                = ∫ ( ∫ δ (a − w φ )a da )q(w)dw
                        T
                = ∫ q(w)w φ dw
                                T
                = ( ∫ q(w)w dw) φ
                    T       T
                = E[w] φ = w    φ
                            MAP
共分散	
  
  2
σ a = var[a] =         ∫       p(a){a 2 − Ε[a]2 }da
                       T
 4.146で	
     a=w φ
                                       T
 4.148で	
     p(a) = ∫ δ (a − w φ )q(w)dw                  をあてはめて	
  

                                       T   2       T   2
                   =   ∫ q(w){(w φ )           − (m φ ) }dw
                                                   N
                           T
                   = φ S N φ
予測分布	
  

 p(C1 | t) = ∫ σ (a)p(a)da
                                  2
              = ∫ σ (a)N(a | µ a , σ )da
                                  a

これは2.3.2節で与えられたガウス分布の周辺分布に対する結果を用いて、
直接この結果を導く事もできる。

a上での積分は、ロジスティックシグモイド関数でのガ
ウス分布のたたみ込み積分を表しており、解析的に評価
する事ができない。
a上での積分は、ロジスティックシグモイド関数でのガ
ウス分布のたたみ込み積分を表しており、解析的に評価
する事ができない。

→ ロジスティックシグモイド関数σ(a)	
  4.59とプロビット
関数 4.114	
  の逆関数の高い類似性を利用すれば良い近似
を得る事ができる。(図	
  4.9)




PATTERN	
  RECOGNITION	
  AND	
  MACHINE	
  LEARNING	
  (CM.	
  BISHOP)	
  から引用
σ(a)の代りにプロビット関数の逆関数を使って近似


p(C1 | t) = ∫ σ (a)p(a)da
                                    2
             = ∫ σ (a)N(a | µ a , σ )da
                                    a

                                        2
             ≈   ∫ Φ(λ a)N(a | µ , σ
                                a       a   )da
別のプロビット関数の逆関数で解析的に表現でき
る。具体的には以下の表現

                           2
                            $       µ          '
∫ Φ(λ a)N(a | µa, σ )da = Φ & (λ −2 + ρ 2 )1/2 )
                           a
                            %                  (
両辺に現れるプロビット関数の逆関数に	
  
近似 σ(a) φ(λa)	
  を適用
                       2               2
∫ σ (a)N(a | µ , σ
               a       a   )da ≈ σ (k(σ )µ )

ここで
    2              2        −1/2
k(σ ) = (1+ πσ / 8)
2               2
∫ σ (a)N(a | µ , σ
                a    a   )da ≈ σ (k(σ )µ )

を
                                 2
p(C1 | t) = ∫ σ (a)N(a | µ a , σ )da
                                 a


に適用すると。次の近似予測分布が得られる。
                         2
p(C1 | φ, t) = σ (k(σ )µ a )
                         a

PRML ベイズロジスティック回帰