PRML ベイズロジスティック回帰

4.5
ベイズロジスティック回帰
PRML復々習レーン
#5

2012/11/03

@hagino3000

4.5
ベイズロジスティック回帰

ロジスティック回帰のベイズ的
な取り扱い

ロジスティック回帰に対して、
ベイズ推論を適用する

•  厳密にやるのは難しい

•  事後確率分布がガウス分布でない

•  予測分布の評価をどうするか

事後確率分布がガウス分布
でない。

ラプラス近似を適用して事
後確率分布のガウス分布表
現を探索する。

事前ガウス分布の一般形

p(w) = N(w | m0 , S0 ) 4.140

wの上の事後確率分布

p(w | t) ∝ p(w)p(t | w) 4.141

尤度関数にロジスティックロジスティック回帰の場合、
シグモイド関数が含まれるロジスティックシグモイド
ため、ガウス分布では無い関数が含まれる

4.141の両辺の対数を取る
ln( p(w | t))
= ln( p(w)p(t | w))
= ln( p(w)) + ln( p(t | w))
事前ガウス分布は式4.140を使う
= ln(N(w | m0 , S0 )) + ln( p(t | w))
ロジスティック回帰の尤度関数は式4.89
N
= ln(N(w | m0 , S0 )) + ln(∏ y {1− yn }
tn
n
1−tn
)
n=1

事前ガウス分布の項について、多変量ガウス分布の
式(2.43)を使って整理
ln(N(w | m0 , S0 ))
1 1 1 T
= ln( D/2 1/2
exp{− (x − m0 ) S0 (x − m0 )})
(2π ) S0 2
1 1 1
= ln( D/2 1/2
) − (x − m0 )T S0 (x − m0 )
(2π ) S0 2
1 T
= − (x − m0 ) S0 (x − m0 ) + const
2

尤度関数の項について整理
N
ln(∏ y {1− yn }
tn
n
1−tn
)
n=1
N
= ∑ (tn ln yn + (1− tn )ln(1− yn ))
n=1

4.142の式が得られる

ln( p(w | t)) =
1 T
− (x − m0 ) S0 (x − m0 )
2
N
+ ∑ (tn ln yn + (1− tn )ln(1− yn ))
n=1

+ const
T
この時 yn = σ (w φn )

次に事後確率分布を最大化するMAP解を求める。

(MAP解はなんらかの数値最適化アルゴリズムで求
める 4.4
ラプラス近似)

求めたMAP解をWMAPとする。

共分散は、負の対数尤度における2回微分行列の逆
行列で与えられる。(4.132のヘッセ行列と同じ)
−1
S = −∇∇ ln p(w | t)
N

= S + ∑ yn (1− yn )φ φ
−1
0
T
n n

最大事後確率WMAPはガウス分布の平均、共分散の逆
行列であるヘッセ行列が求まると、事後確率分布の
ガウス分布による近似は次の式となる。

q(w) = N(w | w MAP , SN )

ここまでがラプラス近似の適用

予測分布
新たな特徴ベクトルφ(x)が与えられた際のクラスC1
に対する予測分布を、ラプラス近似によって導出し
たガウス分布q(w)使って近似すると。

p(C1 | φ, t) = ∫ p(C1 | φ, w)p(w | t)dw
T
≈ ∫ σ (w φ )q(w)dw 4.145

T
※4.87より p(C1 | φ, w) = σ (w φ )

T
σ (w φ ) は、φ上への射影を通してのみwに依存する

T
a = w φ と表すと σ (w φ ) は次の通り
T

wTφは常にセット、他との組み合わせでは登場しないので
a
とおける

T T
σ (w φ ) = ∫ δ (a − w φ )σ (a)da

ディラックのデルタ関数(計算に便利)

よって

p(C1 | φ, t) = ∫ p(C1 | φ, w)p(w | t)dw
T
                 ≈ ∫ σ (w φ )q(w)dw
T
                 = ∫ ( ∫ σ (a − w φ )σ (a)q(w)da )dw
T
                 = ∫ ( ∫ σ (a − w φ )q(w)dw)σ (a)da
                 = ∫ p(a)σ (a)da
T
ここで
p(a) = ∫ δ (a − w φ )q(w)dw

平均

µ a = E[a] = ∫ p(a)a da
T
                = ∫ ∫ δ (a − w φ )q(w)a dw da
T
                = ∫ ( ∫ δ (a − w φ )a da )q(w)dw
T
                = ∫ q(w)w φ dw
T
                = ( ∫ q(w)w dw) φ
T T
                = E[w] φ = w    φ
MAP

共分散

2
σ a = var[a] = ∫ p(a){a 2 − Ε[a]2 }da
T
4.146で
a=w φ
T
4.148で
p(a) = ∫ δ (a − w φ )q(w)dw をあてはめて

T 2 T 2
= ∫ q(w){(w φ ) − (m φ ) }dw
N
T
= φ S N φ

予測分布

p(C1 | t) = ∫ σ (a)p(a)da
2
= ∫ σ (a)N(a | µ a , σ )da
a

これは2.3.2節で与えられたガウス分布の周辺分布に対する結果を用いて、
直接この結果を導く事もできる。

a上での積分は、ロジスティックシグモイド関数でのガ
ウス分布のたたみ込み積分を表しており、解析的に評価
する事ができない。

a上での積分は、ロジスティックシグモイド関数でのガ
ウス分布のたたみ込み積分を表しており、解析的に評価
する事ができない。

→ ロジスティックシグモイド関数σ(a)
4.59とプロビット
関数 4.114
の逆関数の高い類似性を利用すれば良い近似
を得る事ができる。(図
4.9)

PATTERN
RECOGNITION
AND
MACHINE
LEARNING
(CM.
BISHOP)
から引用

σ(a)の代りにプロビット関数の逆関数を使って近似

p(C1 | t) = ∫ σ (a)p(a)da
2
= ∫ σ (a)N(a | µ a , σ )da
a

2
≈ ∫ Φ(λ a)N(a | µ , σ
a a )da

別のプロビット関数の逆関数で解析的に表現でき
る。具体的には以下の表現

2
$ µ '
∫ Φ(λ a)N(a | µa, σ )da = Φ & (λ −2 + ρ 2 )1/2 )
a
% (
両辺に現れるプロビット関数の逆関数に

近似 σ(a) φ(λa)
を適用
2 2
∫ σ (a)N(a | µ , σ
a a )da ≈ σ (k(σ )µ )

ここで
2 2 −1/2
k(σ ) = (1+ πσ / 8)

2 2
∫ σ (a)N(a | µ , σ
a a )da ≈ σ (k(σ )µ )

を
2
p(C1 | t) = ∫ σ (a)N(a | µ a , σ )da
a

に適用すると。次の近似予測分布が得られる。
2
p(C1 | φ, t) = σ (k(σ )µ a )
a

PRML ベイズロジスティック回帰

More Related Content

What's hot

Similar to PRML ベイズロジスティック回帰

More from hagino 3000

PRML ベイズロジスティック回帰