Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Prml4.4 ラプラス近似~ベイズロジスティック回帰

5,517 views

Published on

大阪PRML

Published in: Technology
  • Be the first to comment

Prml4.4 ラプラス近似~ベイズロジスティック回帰

  1. 1. PRML4.4-4.5 ラプラス近似∼ベイズロジスティック回帰 Yuki
  2. 2. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 事後確率分布がもはやガウス分布ではないので パラメータw上で正確に積分することができない ベイズロジスティック回帰 ラプラス近似: : 近似する必要がある! 確率密度関数をガウス分布で近似する まず,1変数zの場合を考え分布p(z)を仮定する p(z) = 1 Z f(z) Z = Z f(z)dz Zの値は未知であると仮定する ラプラス近似とは、分布p(z)のモードを中心とする             ガウス分布による近似を見つけることである
  3. 3. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 p(z)のモードを見つける p0 (z0) = 0 dp(z) dz z=z0 = 0 言い換えると または等価な を満たす z0 見つけることである ガウス分布は、対数が変数の二次の関数であるという特性を持っている そこで、z0 を中心としたln f(z) のテーラー展開を考える A = d2 dz2 ln f(z) z=z0 が分布の局所最大値であるので、テイラー展開の一次の項は現れないz0 このテイラー展開の指数を取ると ln f(z) ⇡ ln f(z0) 1 2 A(z z0)2 f(z) ⇡ f(z0) exp ⇢ A 2 (z z0)2
  4. 4. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ガウス分布の正規化のための標準的な結果を利用すると、正規化分布 q(z) q(z) = ✓ A 2⇡ ◆1/2 exp ⇢ A 2 (z z0)2 A > 0 を得る。 ガウス分布による近似が適切に定義されるのは の場合のみである 言い換えると、定常点 が局所最大である場合で、 その点での二階微分が負となる場合である。 z0
  5. 5. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス法を拡張しM次元空間 上で定義される分布z p(z) = f(z)/Z を近似する 同様に で対数を取りテイラー展開z0 A = rr ln f(z)|z=z0 q(z) = |A|1/2 (2⇡)M/2 exp ⇢ 1 2 (z z0)T A(z z0) = N(z|z0, A 1 ) M Mヘッセ行列 は勾配オペレータ 両辺の指数を取る 比例している 正規化 で表される精度行列が正定値行列 定常点 が局所最大である場合にガウス分布が適切に定義される A z0 ln f(z) ⇡ ln f(z0) 1 2 (z z0)T A(z z0) f(z) ⇡ f(z0) exp ⇢ 1 2 (z z0)T A(z z0)
  6. 6. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス近似を適用する モードz0を見つける そのモードでヘッセ行列を評価する モードは数値最適で求められる(Bishop and Nabney, 2008) ・現実の分布は多峰的 ・中心極限定理より  観測データが増えるほど  ガウス分布による近似  が良くなると期待される ・相対的にデータが多いと  良い近似となる ・実数変数のみにしか適用できない ・ある一点における  局面にのみ基づいてしまう ・全体的特性を捉えられない ・多峰な分布の場合どのモードを選択するか  考慮する必要がある 欠点 利点
  7. 7. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC データの集合 パラメータモデル尤度関数 事前確率 p(✓i|Mi)p(D|✓i, Mi) ✓iMi p(D|Mi) D p(D) = Z p(D|✓)p(✓)d✓ モデルエビデンス = f(✓) = p(D|✓)p(✓) 係数 Z = f(z0) (2⇡)M/2 |A|1/2 …4.135 = Z ln Z = A = r2 ln p(D|✓MAP )p(✓MAP ) ex. 4.22 ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam
  8. 8. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC A = r2 ln p(D|✓MAP )p(✓MAP ) と仮定すると A = H + V 1 0 ln p(✓) = ln |V| 1/2 M 2 ln(2⇡) 1 2 (✓MAP m)T V 1 0 (✓MAP m) 係数 p(✓) = N(✓|m, V0) ex. 4.23 V 1 0 = r2 ln p(✓MAP ) iidなデータ点が十分に大きい時V^-1を無視できる 大胆に近似しよう 事前分布が影響しない ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam ln p(D) ⇡ ln p(D|✓MAP ) 1 2 ln |V0| 1 2 (✓MAP m)T V 1 0 (✓MAP m) 1 2 ln |H + V 1 0 |
  9. 9. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 ln |H| の近似に焦点を当てる H = NX i=1 Hi Hi = r2 ln p(Di|✓) H はフルランク行列 ln | ˆH| ln |H| = ln |N ˆHi| = ln(NM | ˆH|) = M ln N + ln | ˆH| 固定された行列で近似できるとし を得る M = dim(✓) であり であると仮定します すると データ数に対して独立なのでデータ数が増加すれば 無視することができます 従って と近似できます H = NX i=1 Hi = N ˆH ln p(D) ⇡ ln p(D|ˆ✓) 1 2 M ln N
  10. 10. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似 p(w) = N(w|m0, S0) 対数尤度 likelihood Prior ln p(w|t) = 1 2 (w m0)T S 1 0 (w m0) yn = (wT n) + NX n=1 {tn ln yn + (1 tn) ln(1 yn)} + const 一般的にm_0=0かな?勾配 ヘッセ行列 r2 ln p(w|t) = NX n=1 yn(1 yn) n T n S 1 0 勾配とヘッセ行列を使って 数値最適化でW_MAPを探索し ガウス分布の平均とする ガウス分布の分散には ヘッセ行列に-1をかけたものを用いる ラプラス近似 p(t|w) = NY n=1 Bern(yn) r ln p(w|t) = NX n=1 (yn tn) n S 1 0 (w m0)
  11. 11. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5.2 予測分布 p(t|w) = NY n=1 Bern(yn) = NY n=1 ytn n (1 yn)1 tn p(w) = N(w|m0, S0) q(w) = N(w|wMAP , SN ) 事後分布(MAP推定) についての予測分布 a = wT = Z ✓ Z (a wT )q(w)dw ◆ (a)da = Z p(a) (a)da デルタ関数の性質 Z 1 1 f(x) (x µ)dx = f(µ) C1 ガウス分布 p(C1| , t) = Z p(C1| , w)p(w|t)dw ⇡ Z (wT )q(w)dw p(C1| , t) ⇡ Z ✓ Z (a wT ) (a)q(w)dw ◆ da
  12. 12. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(a) = Z (a wT )q(w)dw = ✓ Z q(w)wdw ◆T = E[w]T = wT MAP p(a)の平均 = Z ✓ Z (a wT )ada ◆ q(w)dw = Z q(w)(wT )dw µa = E[a] = Z p(a)ada = Z Z (a wT )q(w)adwda q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  13. 13. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 分散 2 = var[a] = Z p(a){a2 E[a]2 }da = Z ✓ (a wT )a2 da ◆ q(w)dw Z ✓ (a wT )E[a]2 da ◆ q(w)dw = Z q(w)(wT )2 dw Z q(w)(wT MAP )2 dw = Z q(w) T wwT dw Z q(w) T wMAP wT MAP dw = T ✓ Z q(w)(wwT wMAP wT MAP )dw ◆ Z q(w)(wwT wMAP wT MAP )dw = E[wwT ] wMAP wT MAP Z q(w)dw = wMAP wT MAP + SN wMAP wT MAP = SN 2 = T SN p(a) = Z (a wT )q(w)dw …2.62E[xxT ] = µµT + ⌃ q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  14. 14. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(C1|t) = Z (a)p(a)da = Z (a)N(a|µa, 2 a)da 予測分布の変分近似は a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を 表しており、解析的に評価することはできない。 最も良い近似を得るために によって を近似できるようにする そのために、原点で2つの関数が同じ傾きを持つことを要請することにより の適切な値を見つけることができ となる ( a) (a) 2 = ⇡/8 シグモイド関数をプロビット関数の逆関数で近似しよう
  15. 15. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 Z ( a)N(a|µ, 2 )da = ✓ µ ( 2 + 2)1/2 ◆ ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる 従ってシグモイド関数に対する近似は Z (a)N(a|µ, 2 )da ⇡ (( 2 )µ) ( 2 ) = (1 + ⇡ 2 /8) 1/2 p(C1| , t) = (( 2 a)µa) で与えられ 予測分布は µa = wT MAP 2 a = T SN S 1 N = S 1 0 + NX n=1 yn(1 yn) n T n   4.5.2 予測分布
  16. 16. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 変数変換使って導出 ex.4.24 ex. 4.25 (a) = Z a 1 N(✓|0, 1)d✓ (a) = 1 1 + exp( a) 二つの微分がa=0で等しいように を選ぶ @ (a) @a a=0 = (0)(1 (0) = 1 2 ✓ 1 1 2 ◆ = 1 4 ( a) = Z a 1 1 Z exp( 1 2 x2 )dx 0 ( a) = 1 Z exp ⇢ 1 2 ( a)2 Z = Z 1 1 exp ⇢ 1 2 ( a)2 da = = p ⇡/8 @ ( a) @ a a=0 = p 2x N(w|wMAP , SN ) N(a|wT MAP , T SN ) a = T w d dx Z x a f(t)dt = f(x) 多分2.115 Appendix

×