PRML 10章 近似推論法
      10.3-10.7
     なりひら




                  1
目次
•   10.3 変分線形回帰
•   10.4 指数分布族
•   10.5 局所変分推論法
•   10.6 変分ロジスティック回帰
•   10.7 EP法




                       2
10.3 変分線形回帰
• 3.3 ベイズ線形回帰をさらにベイズ拡張
 – 𝛼についても確率変数として推論にいれる
        𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼
 – 𝑝 𝑤, 𝛼 が積分困難なので、変分近似
              𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼
 – あとは、10.9式に当てはめゴリゴリ計算
 – 大事な性質
   • 𝛼で周辺化された答えが求まる
   • ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化  モデルエビデンスの最
     大化の近似ともいえる  過学習しにくい

                                      3
10.4 指数分型布族
• 指数型分布族の混合分布の変分ベイズ推定
 – 指数型分布族の周辺化は必ずしも指数型分布族に
   ならない
    変分近似により指数型分布族になる
 – 変分ベイズのEMの導出
  • 潜在変数を2つの考え方に分ける
    – intensive var: 𝛉  データにより変化しない
    – extensive var: 𝐙  データによりサイズが変わる
  • E-step
    十分統計量(2章)の期待値 E[𝐮(𝐱 𝑛 , 𝐳 𝑛 )]計算
  • M-step
    パラメータの期待値E[𝛈 𝑇 ]計算

                                         4
10.4.1 変分メッセージパッシング
• グラフィカルモデルと変分ベイズの関連
 – 𝑝 𝐱 =   𝑖   𝑝 𝐱 𝑖 𝑝𝑎 𝑖 )
   • ノードxiは潜在変数でも観測変数でも良い
   • 𝑞 𝐱 = 𝑖 𝑞 𝑖 (x 𝑖 ) 変分推定の枠組みだ
   • しかも、paiはマルコフブランケット(8章)を考えると効
     率的に計算できる




                                    5
10.5 局所的変分推論法
• 10.6への準備
  – 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎
    の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、
                       𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉
    となるような積分可能な下限を利用する
                I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)
• 凸関数f(x)の下限関数(変分下限)の作り方
  – 凸関数の下限は
               𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂
    という形だとすると、
            𝑓 𝑥 = max{𝜂𝑥 − 𝑔(𝜂)}
                     𝜂
    とかける
  – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る
             𝑔 𝜂 = max{𝜂𝑥 − 𝑓 𝑥 }
                      𝑥


                                             6
10.6 変分ロジスティック回帰
• 10.6.1 - 10.6.2
  ベイズ推定
  – 局所変分近似で積分可能に変形
• 10.6.3
  変分ベイズでハイパーパラメータの推論
  – 局所変分近似と大局変分近似をMIX!




                         7
10.6.1 変分事後分布
• 本当は事後分布を求めたい
                𝑝 𝑋 𝑍 𝑝(𝑍)
 – 𝑝 𝑍 𝑋 =
             ∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍
 – 分母の積分が困難
   • 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから
   • 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う
                       ℎ 𝑋,𝜉 𝑝(𝑍)
   • 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 =
                     ∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍




                                      8
10.6.2 変分パラメータの最適化
• 周辺尤度の下限の最大化
 – 10.169式
• 解き方は2通り
 – EM(wを潜在変数として)
 – 解析的に解く(積分可能な形に変換するために
   下限をとったはずなのでできる)




                           9
10.6.3 超パラメータの推論
• 10.172がすべて
 – 下限(大局変分近似)の下限(局所変分近似)の
   最大化
• 𝑤, 𝛼は従来通り10.9式を使う
• 𝜉は𝛼を積分消去すると10.6.2と同様になる




                            10
2.4 指数型分布族 復習
• 指数型分布族
 – 次式で定義 (2.194)
        𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp⁡ 𝛈 𝑇 𝐮 𝐱 )
                              (
 – 𝑔(𝛈)は正規化係数役割 (2.195)
         𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈 𝑇 𝐮 𝐱 𝑑𝐱 = 1
 – 正規化係数の微分は十分統計量の期待値
   (2.226)
            −∇ ln 𝑔 𝛈 = E[𝐮(𝐱)]


                                         11
10.7 EP法
• KLダイバージェンスの最小化(変分ベイズとの違い)
 – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝
   pの局所的に欲近似する
 – EP: 𝐾𝐿(𝑝||𝑞)
   pを全体的に近似。単峰性の分布の近似に向いている
• 近似
 – 同時分布: 𝑝 D, 𝜃 =    𝑖 𝑓𝑖 (𝜃)
                    1
 – 事後分布: 𝑝 𝜃 𝐷   =          𝑖 𝑓𝑖 (𝜃)
                   𝑝(𝐷)
                     1
 – 近似事後分布: 𝑞     𝜃 =       𝑖 𝑓𝑖 ⁡(𝜃)
                      𝑍
 – 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化
   • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考
     慮しているところがポイント
   • 指数分布族の場合は十分統計量が一致すれば良い

                                       12
10.7.1 雑音データ問題
• データの生成モデル
 – 新のデータ: 𝑁(𝐱|𝛉, 𝐈)
 – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈)
   • 背景雑音が重みwで混じった混合分布
 – 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的
• 近似
 – 同時分布は指数関数的に要素数が増える混合ガウス分
   布(10.211)。intractable
 – 事後分布をシングルガウシアンで近似(10.212)
   • 近似分布𝑓 𝑛 ⁡(𝜃)は指数二次関数で良い(10.213)
 – あとは205,206,207に代入して更新式を求め、繰り返すだ
   け

                                      13
10.7.2 グラフィカルモデルとEP法
• この節の目的は次を導くこと
 – 近似分布が完全分解近似であるときのEP法は積和
   アルゴリズムになる
• やるための式
 – 注目する𝑍 𝑗 の周辺分布はKLの最小化に相当
  • minq 𝐾𝐿(𝑝||𝑞)  𝑞 ∗ 𝐙 𝑗 = ∫ 𝑝 𝐙
                      𝑗             𝑖≠𝑗 𝑑𝐙 𝑖 = 𝑝(𝐙 𝑗 )
  • 式(10.229)の𝑝(𝐱)を使えば新しい𝑞 ∗ (𝐱)が求まる
     – 𝑞∗ (𝐱 𝑗 ) ⁡ = ⁡𝑝(𝐱 𝑗 ) (10.230-233)であり、𝑞∗ (𝐱) =
        𝑗                                                𝑗   𝑞∗ (𝐱 𝑗 )
                                                              𝑗

• 完全分解近似とは
 – 分布(10.236)を変数ノードをすべて独立に扱うように
   する完全に分解した近似(10.237)

                                                                         14

PRML chap.10 latter half

  • 1.
    PRML 10章 近似推論法 10.3-10.7 なりひら 1
  • 2.
    目次 • 10.3 変分線形回帰 • 10.4 指数分布族 • 10.5 局所変分推論法 • 10.6 変分ロジスティック回帰 • 10.7 EP法 2
  • 3.
    10.3 変分線形回帰 • 3.3ベイズ線形回帰をさらにベイズ拡張 – 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼 – 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼 – あとは、10.9式に当てはめゴリゴリ計算 – 大事な性質 • 𝛼で周辺化された答えが求まる • ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化  モデルエビデンスの最 大化の近似ともいえる  過学習しにくい 3
  • 4.
    10.4 指数分型布族 • 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族に ならない  変分近似により指数型分布族になる – 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける – intensive var: 𝛉  データにより変化しない – extensive var: 𝐙  データによりサイズが変わる • E-step 十分統計量(2章)の期待値 E[𝐮(𝐱 𝑛 , 𝐳 𝑛 )]計算 • M-step パラメータの期待値E[𝛈 𝑇 ]計算 4
  • 5.
    10.4.1 変分メッセージパッシング • グラフィカルモデルと変分ベイズの関連 – 𝑝 𝐱 = 𝑖 𝑝 𝐱 𝑖 𝑝𝑎 𝑖 ) • ノードxiは潜在変数でも観測変数でも良い • 𝑞 𝐱 = 𝑖 𝑞 𝑖 (x 𝑖 ) 変分推定の枠組みだ • しかも、paiはマルコフブランケット(8章)を考えると効 率的に計算できる 5
  • 6.
    10.5 局所的変分推論法 • 10.6への準備 – 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、 𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉) • 凸関数f(x)の下限関数(変分下限)の作り方 – 凸関数の下限は 𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、 𝑓 𝑥 = max{𝜂𝑥 − 𝑔(𝜂)} 𝜂 とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る 𝑔 𝜂 = max{𝜂𝑥 − 𝑓 𝑥 } 𝑥 6
  • 7.
    10.6 変分ロジスティック回帰 • 10.6.1- 10.6.2 ベイズ推定 – 局所変分近似で積分可能に変形 • 10.6.3 変分ベイズでハイパーパラメータの推論 – 局所変分近似と大局変分近似をMIX! 7
  • 8.
    10.6.1 変分事後分布 • 本当は事後分布を求めたい 𝑝 𝑋 𝑍 𝑝(𝑍) – 𝑝 𝑍 𝑋 = ∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍 – 分母の積分が困難 • 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから • 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う ℎ 𝑋,𝜉 𝑝(𝑍) • 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 = ∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍 8
  • 9.
    10.6.2 変分パラメータの最適化 • 周辺尤度の下限の最大化 – 10.169式 • 解き方は2通り – EM(wを潜在変数として) – 解析的に解く(積分可能な形に変換するために 下限をとったはずなのでできる) 9
  • 10.
    10.6.3 超パラメータの推論 • 10.172がすべて – 下限(大局変分近似)の下限(局所変分近似)の 最大化 • 𝑤, 𝛼は従来通り10.9式を使う • 𝜉は𝛼を積分消去すると10.6.2と同様になる 10
  • 11.
    2.4 指数型分布族 復習 •指数型分布族 – 次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp⁡ 𝛈 𝑇 𝐮 𝐱 ) ( – 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈 𝑇 𝐮 𝐱 𝑑𝐱 = 1 – 正規化係数の微分は十分統計量の期待値 (2.226) −∇ ln 𝑔 𝛈 = E[𝐮(𝐱)] 11
  • 12.
    10.7 EP法 • KLダイバージェンスの最小化(変分ベイズとの違い) – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝 pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞) pを全体的に近似。単峰性の分布の近似に向いている • 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑖 𝑓𝑖 (𝜃) 1 – 事後分布: 𝑝 𝜃 𝐷 = 𝑖 𝑓𝑖 (𝜃) 𝑝(𝐷) 1 – 近似事後分布: 𝑞 𝜃 = 𝑖 𝑓𝑖 ⁡(𝜃) 𝑍 – 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考 慮しているところがポイント • 指数分布族の場合は十分統計量が一致すれば良い 12
  • 13.
    10.7.1 雑音データ問題 • データの生成モデル – 新のデータ: 𝑁(𝐱|𝛉, 𝐈) – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈) • 背景雑音が重みwで混じった混合分布 – 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的 • 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分 布(10.211)。intractable – 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛 ⁡(𝜃)は指数二次関数で良い(10.213) – あとは205,206,207に代入して更新式を求め、繰り返すだ け 13
  • 14.
    10.7.2 グラフィカルモデルとEP法 • この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和 アルゴリズムになる • やるための式 – 注目する𝑍 𝑗 の周辺分布はKLの最小化に相当 • minq 𝐾𝐿(𝑝||𝑞)  𝑞 ∗ 𝐙 𝑗 = ∫ 𝑝 𝐙 𝑗 𝑖≠𝑗 𝑑𝐙 𝑖 = 𝑝(𝐙 𝑗 ) • 式(10.229)の𝑝(𝐱)を使えば新しい𝑞 ∗ (𝐱)が求まる – 𝑞∗ (𝐱 𝑗 ) ⁡ = ⁡𝑝(𝐱 𝑗 ) (10.230-233)であり、𝑞∗ (𝐱) = 𝑗 𝑗 𝑞∗ (𝐱 𝑗 ) 𝑗 • 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うように する完全に分解した近似(10.237) 14