PRML chap.10 latter half

1,282 views
1,203 views

Published on

一言まとめてきなもの
かなり適当なので間違い指摘してください


2012/03/09 10.7を更新しました。

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,282
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
42
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

PRML chap.10 latter half

  1. 1. PRML 10章 近似推論法 10.3-10.7 なりひら 1
  2. 2. 目次• 10.3 変分線形回帰• 10.4 指数分布族• 10.5 局所変分推論法• 10.6 変分ロジスティック回帰• 10.7 EP法 2
  3. 3. 10.3 変分線形回帰• 3.3 ベイズ線形回帰をさらにベイズ拡張 – 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼 – 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼 – あとは、10.9式に当てはめゴリゴリ計算 – 大事な性質 • 𝛼で周辺化された答えが求まる • ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化  モデルエビデンスの最 大化の近似ともいえる  過学習しにくい 3
  4. 4. 10.4 指数分型布族• 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族に ならない  変分近似により指数型分布族になる – 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける – intensive var: 𝛉  データにより変化しない – extensive var: 𝐙  データによりサイズが変わる • E-step 十分統計量(2章)の期待値 E[𝐮(𝐱 𝑛 , 𝐳 𝑛 )]計算 • M-step パラメータの期待値E[𝛈 𝑇 ]計算 4
  5. 5. 10.4.1 変分メッセージパッシング• グラフィカルモデルと変分ベイズの関連 – 𝑝 𝐱 = 𝑖 𝑝 𝐱 𝑖 𝑝𝑎 𝑖 ) • ノードxiは潜在変数でも観測変数でも良い • 𝑞 𝐱 = 𝑖 𝑞 𝑖 (x 𝑖 ) 変分推定の枠組みだ • しかも、paiはマルコフブランケット(8章)を考えると効 率的に計算できる 5
  6. 6. 10.5 局所的変分推論法• 10.6への準備 – 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、 𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)• 凸関数f(x)の下限関数(変分下限)の作り方 – 凸関数の下限は 𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、 𝑓 𝑥 = max{𝜂𝑥 − 𝑔(𝜂)} 𝜂 とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る 𝑔 𝜂 = max{𝜂𝑥 − 𝑓 𝑥 } 𝑥 6
  7. 7. 10.6 変分ロジスティック回帰• 10.6.1 - 10.6.2 ベイズ推定 – 局所変分近似で積分可能に変形• 10.6.3 変分ベイズでハイパーパラメータの推論 – 局所変分近似と大局変分近似をMIX! 7
  8. 8. 10.6.1 変分事後分布• 本当は事後分布を求めたい 𝑝 𝑋 𝑍 𝑝(𝑍) – 𝑝 𝑍 𝑋 = ∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍 – 分母の積分が困難 • 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから • 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う ℎ 𝑋,𝜉 𝑝(𝑍) • 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 = ∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍 8
  9. 9. 10.6.2 変分パラメータの最適化• 周辺尤度の下限の最大化 – 10.169式• 解き方は2通り – EM(wを潜在変数として) – 解析的に解く(積分可能な形に変換するために 下限をとったはずなのでできる) 9
  10. 10. 10.6.3 超パラメータの推論• 10.172がすべて – 下限(大局変分近似)の下限(局所変分近似)の 最大化• 𝑤, 𝛼は従来通り10.9式を使う• 𝜉は𝛼を積分消去すると10.6.2と同様になる 10
  11. 11. 2.4 指数型分布族 復習• 指数型分布族 – 次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp⁡ 𝛈 𝑇 𝐮 𝐱 ) ( – 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈 𝑇 𝐮 𝐱 𝑑𝐱 = 1 – 正規化係数の微分は十分統計量の期待値 (2.226) −∇ ln 𝑔 𝛈 = E[𝐮(𝐱)] 11
  12. 12. 10.7 EP法• KLダイバージェンスの最小化(変分ベイズとの違い) – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝 pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞) pを全体的に近似。単峰性の分布の近似に向いている• 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑖 𝑓𝑖 (𝜃) 1 – 事後分布: 𝑝 𝜃 𝐷 = 𝑖 𝑓𝑖 (𝜃) 𝑝(𝐷) 1 – 近似事後分布: 𝑞 𝜃 = 𝑖 𝑓𝑖 ⁡(𝜃) 𝑍 – 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考 慮しているところがポイント • 指数分布族の場合は十分統計量が一致すれば良い 12
  13. 13. 10.7.1 雑音データ問題• データの生成モデル – 新のデータ: 𝑁(𝐱|𝛉, 𝐈) – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈) • 背景雑音が重みwで混じった混合分布 – 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的• 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分 布(10.211)。intractable – 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛 ⁡(𝜃)は指数二次関数で良い(10.213) – あとは205,206,207に代入して更新式を求め、繰り返すだ け 13
  14. 14. 10.7.2 グラフィカルモデルとEP法• この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和 アルゴリズムになる• やるための式 – 注目する𝑍 𝑗 の周辺分布はKLの最小化に相当 • minq 𝐾𝐿(𝑝||𝑞)  𝑞 ∗ 𝐙 𝑗 = ∫ 𝑝 𝐙 𝑗 𝑖≠𝑗 𝑑𝐙 𝑖 = 𝑝(𝐙 𝑗 ) • 式(10.229)の𝑝(𝐱)を使えば新しい𝑞 ∗ (𝐱)が求まる – 𝑞∗ (𝐱 𝑗 ) ⁡ = ⁡𝑝(𝐱 𝑗 ) (10.230-233)であり、𝑞∗ (𝐱) = 𝑗 𝑗 𝑞∗ (𝐱 𝑗 ) 𝑗• 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うように する完全に分解した近似(10.237) 14

×