SlideShare a Scribd company logo
PRML 10章 近似推論法
      10.3-10.7
     なりひら




                  1
目次
•   10.3 変分線形回帰
•   10.4 指数分布族
•   10.5 局所変分推論法
•   10.6 変分ロジスティック回帰
•   10.7 EP法




                       2
10.3 変分線形回帰
• 3.3 ベイズ線形回帰をさらにベイズ拡張
 – 𝛼についても確率変数として推論にいれる
        𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼
 – 𝑝 𝑤, 𝛼 が積分困難なので、変分近似
              𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼
 – あとは、10.9式に当てはめゴリゴリ計算
 – 大事な性質
   • 𝛼で周辺化された答えが求まる
   • ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化  モデルエビデンスの最
     大化の近似ともいえる  過学習しにくい

                                      3
10.4 指数分型布族
• 指数型分布族の混合分布の変分ベイズ推定
 – 指数型分布族の周辺化は必ずしも指数型分布族に
   ならない
    変分近似により指数型分布族になる
 – 変分ベイズのEMの導出
  • 潜在変数を2つの考え方に分ける
    – intensive var: 𝛉  データにより変化しない
    – extensive var: 𝐙  データによりサイズが変わる
  • E-step
    十分統計量(2章)の期待値 E[𝐮(𝐱 𝑛 , 𝐳 𝑛 )]計算
  • M-step
    パラメータの期待値E[𝛈 𝑇 ]計算

                                         4
10.4.1 変分メッセージパッシング
• グラフィカルモデルと変分ベイズの関連
 – 𝑝 𝐱 =   𝑖   𝑝 𝐱 𝑖 𝑝𝑎 𝑖 )
   • ノードxiは潜在変数でも観測変数でも良い
   • 𝑞 𝐱 = 𝑖 𝑞 𝑖 (x 𝑖 ) 変分推定の枠組みだ
   • しかも、paiはマルコフブランケット(8章)を考えると効
     率的に計算できる




                                    5
10.5 局所的変分推論法
• 10.6への準備
  – 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎
    の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、
                       𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉
    となるような積分可能な下限を利用する
                I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉)
• 凸関数f(x)の下限関数(変分下限)の作り方
  – 凸関数の下限は
               𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂
    という形だとすると、
            𝑓 𝑥 = max{𝜂𝑥 − 𝑔(𝜂)}
                     𝜂
    とかける
  – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る
             𝑔 𝜂 = max{𝜂𝑥 − 𝑓 𝑥 }
                      𝑥


                                             6
10.6 変分ロジスティック回帰
• 10.6.1 - 10.6.2
  ベイズ推定
  – 局所変分近似で積分可能に変形
• 10.6.3
  変分ベイズでハイパーパラメータの推論
  – 局所変分近似と大局変分近似をMIX!




                         7
10.6.1 変分事後分布
• 本当は事後分布を求めたい
                𝑝 𝑋 𝑍 𝑝(𝑍)
 – 𝑝 𝑍 𝑋 =
             ∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍
 – 分母の積分が困難
   • 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから
   • 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う
                       ℎ 𝑋,𝜉 𝑝(𝑍)
   • 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 =
                     ∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍




                                      8
10.6.2 変分パラメータの最適化
• 周辺尤度の下限の最大化
 – 10.169式
• 解き方は2通り
 – EM(wを潜在変数として)
 – 解析的に解く(積分可能な形に変換するために
   下限をとったはずなのでできる)




                           9
10.6.3 超パラメータの推論
• 10.172がすべて
 – 下限(大局変分近似)の下限(局所変分近似)の
   最大化
• 𝑤, 𝛼は従来通り10.9式を使う
• 𝜉は𝛼を積分消去すると10.6.2と同様になる




                            10
2.4 指数型分布族 復習
• 指数型分布族
 – 次式で定義 (2.194)
        𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp⁡ 𝛈 𝑇 𝐮 𝐱 )
                              (
 – 𝑔(𝛈)は正規化係数役割 (2.195)
         𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈 𝑇 𝐮 𝐱 𝑑𝐱 = 1
 – 正規化係数の微分は十分統計量の期待値
   (2.226)
            −∇ ln 𝑔 𝛈 = E[𝐮(𝐱)]


                                         11
10.7 EP法
• KLダイバージェンスの最小化(変分ベイズとの違い)
 – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝
   pの局所的に欲近似する
 – EP: 𝐾𝐿(𝑝||𝑞)
   pを全体的に近似。単峰性の分布の近似に向いている
• 近似
 – 同時分布: 𝑝 D, 𝜃 =    𝑖 𝑓𝑖 (𝜃)
                    1
 – 事後分布: 𝑝 𝜃 𝐷   =          𝑖 𝑓𝑖 (𝜃)
                   𝑝(𝐷)
                     1
 – 近似事後分布: 𝑞     𝜃 =       𝑖 𝑓𝑖 ⁡(𝜃)
                      𝑍
 – 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化
   • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考
     慮しているところがポイント
   • 指数分布族の場合は十分統計量が一致すれば良い

                                       12
10.7.1 雑音データ問題
• データの生成モデル
 – 新のデータ: 𝑁(𝐱|𝛉, 𝐈)
 – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈)
   • 背景雑音が重みwで混じった混合分布
 – 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的
• 近似
 – 同時分布は指数関数的に要素数が増える混合ガウス分
   布(10.211)。intractable
 – 事後分布をシングルガウシアンで近似(10.212)
   • 近似分布𝑓 𝑛 ⁡(𝜃)は指数二次関数で良い(10.213)
 – あとは205,206,207に代入して更新式を求め、繰り返すだ
   け

                                      13
10.7.2 グラフィカルモデルとEP法
• この節の目的は次を導くこと
 – 近似分布が完全分解近似であるときのEP法は積和
   アルゴリズムになる
• やるための式
 – 注目する𝑍 𝑗 の周辺分布はKLの最小化に相当
  • minq 𝐾𝐿(𝑝||𝑞)  𝑞 ∗ 𝐙 𝑗 = ∫ 𝑝 𝐙
                      𝑗             𝑖≠𝑗 𝑑𝐙 𝑖 = 𝑝(𝐙 𝑗 )
  • 式(10.229)の𝑝(𝐱)を使えば新しい𝑞 ∗ (𝐱)が求まる
     – 𝑞∗ (𝐱 𝑗 ) ⁡ = ⁡𝑝(𝐱 𝑗 ) (10.230-233)であり、𝑞∗ (𝐱) =
        𝑗                                                𝑗   𝑞∗ (𝐱 𝑗 )
                                                              𝑗

• 完全分解近似とは
 – 分布(10.236)を変数ノードをすべて独立に扱うように
   する完全に分解した近似(10.237)

                                                                         14

More Related Content

What's hot

PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
正志 坪坂
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
Taikai Takeda
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2
Takuya Fukagai
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
貴之 八木
 
Oshasta em
Oshasta emOshasta em
Oshasta em
Naotaka Yamada
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
sleepy_yoshi
 
PRML4.3.3
PRML4.3.3PRML4.3.3
PRML4.3.3
sleepy_yoshi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
sleepy_yoshi
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半koba cky
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
Keisuke Sugawara
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
KunihiroTakeoka
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
Taku Yoshioka
 
Draftall
DraftallDraftall
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
KunihiroTakeoka
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
takutori
 

What's hot (20)

PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
Oshasta em
Oshasta emOshasta em
Oshasta em
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
PRML4.3.3
PRML4.3.3PRML4.3.3
PRML4.3.3
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
Draftall
DraftallDraftall
Draftall
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 

Similar to PRML chap.10 latter half

PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
matsuolab
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
Toshiyuki Shimono
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
Ryoma Nakagawa
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
禎晃 山崎
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
Takuto Kimura
 
PRML11章
PRML11章PRML11章
PRML11章
Takashi Tamura
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
matsuolab
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
hakusai
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
Junpei Matsuda
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
daiki hojo
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
ssuserf4860b
 
双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説
h013
 
経験過程
経験過程経験過程
経験過程
hoxo_m
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
matsuolab
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
Kazu Ghalamkari
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
 
PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)
Shogo Nakamura
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
 
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
健児 青木
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
matsuolab
 

Similar to PRML chap.10 latter half (20)

PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
PRML11章
PRML11章PRML11章
PRML11章
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説双方向パストレーシングレンダラedubpt解説
双方向パストレーシングレンダラedubpt解説
 
経験過程
経験過程経験過程
経験過程
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 

PRML chap.10 latter half

  • 1. PRML 10章 近似推論法 10.3-10.7 なりひら 1
  • 2. 目次 • 10.3 変分線形回帰 • 10.4 指数分布族 • 10.5 局所変分推論法 • 10.6 変分ロジスティック回帰 • 10.7 EP法 2
  • 3. 10.3 変分線形回帰 • 3.3 ベイズ線形回帰をさらにベイズ拡張 – 𝛼についても確率変数として推論にいれる 𝑝 𝑤, 𝑡, 𝛼 = 𝑝 𝑡 𝑤 𝑝 𝑤 𝛼 𝑝 𝛼 – 𝑝 𝑤, 𝛼 が積分困難なので、変分近似 𝑞 𝑤, 𝛼 = 𝑞 𝑤 𝑞 𝛼 – あとは、10.9式に当てはめゴリゴリ計算 – 大事な性質 • 𝛼で周辺化された答えが求まる • ln 𝑝(𝑡)の下限ℒ(𝑞)を最大化  モデルエビデンスの最 大化の近似ともいえる  過学習しにくい 3
  • 4. 10.4 指数分型布族 • 指数型分布族の混合分布の変分ベイズ推定 – 指数型分布族の周辺化は必ずしも指数型分布族に ならない  変分近似により指数型分布族になる – 変分ベイズのEMの導出 • 潜在変数を2つの考え方に分ける – intensive var: 𝛉  データにより変化しない – extensive var: 𝐙  データによりサイズが変わる • E-step 十分統計量(2章)の期待値 E[𝐮(𝐱 𝑛 , 𝐳 𝑛 )]計算 • M-step パラメータの期待値E[𝛈 𝑇 ]計算 4
  • 5. 10.4.1 変分メッセージパッシング • グラフィカルモデルと変分ベイズの関連 – 𝑝 𝐱 = 𝑖 𝑝 𝐱 𝑖 𝑝𝑎 𝑖 ) • ノードxiは潜在変数でも観測変数でも良い • 𝑞 𝐱 = 𝑖 𝑞 𝑖 (x 𝑖 ) 変分推定の枠組みだ • しかも、paiはマルコフブランケット(8章)を考えると効 率的に計算できる 5
  • 6. 10.5 局所的変分推論法 • 10.6への準備 – 𝐼 = ∫ 𝜎 𝑎 𝑝 𝑎 𝑑𝑎 の一つの因子𝜎(𝑎)が原因で積分が困難になる場合、 𝜎 𝑎 ≥ 𝑓 𝑎, 𝜉 となるような積分可能な下限を利用する I ≥ ∫ 𝑓 𝑎, 𝜉 𝑝 𝑎 𝑑𝑎 = 𝐹(𝜉) • 凸関数f(x)の下限関数(変分下限)の作り方 – 凸関数の下限は 𝑦 𝑥, 𝜂 = 𝜂𝑥 − 𝑔 𝜂 という形だとすると、 𝑓 𝑥 = max{𝜂𝑥 − 𝑔(𝜂)} 𝜂 とかける – 次式を解き、変分下限𝑦(𝑥, 𝜂)を得る 𝑔 𝜂 = max{𝜂𝑥 − 𝑓 𝑥 } 𝑥 6
  • 7. 10.6 変分ロジスティック回帰 • 10.6.1 - 10.6.2 ベイズ推定 – 局所変分近似で積分可能に変形 • 10.6.3 変分ベイズでハイパーパラメータの推論 – 局所変分近似と大局変分近似をMIX! 7
  • 8. 10.6.1 変分事後分布 • 本当は事後分布を求めたい 𝑝 𝑋 𝑍 𝑝(𝑍) – 𝑝 𝑍 𝑋 = ∫ 𝑝 𝑋|𝑍 𝑝(𝑍)𝑑𝑍 – 分母の積分が困難 • 𝑝(𝑋|𝑍) がロジスティックシグモイドの積だから • 変分下限p X Z ≥ ℎ(𝑋, 𝜉)を使う ℎ 𝑋,𝜉 𝑝(𝑍) • 𝑝 𝑍 𝑋 ≥ 𝑞 𝑍 = ∫ ℎ 𝑋,𝜉 𝑝 𝑍 𝑑𝑍 8
  • 9. 10.6.2 変分パラメータの最適化 • 周辺尤度の下限の最大化 – 10.169式 • 解き方は2通り – EM(wを潜在変数として) – 解析的に解く(積分可能な形に変換するために 下限をとったはずなのでできる) 9
  • 10. 10.6.3 超パラメータの推論 • 10.172がすべて – 下限(大局変分近似)の下限(局所変分近似)の 最大化 • 𝑤, 𝛼は従来通り10.9式を使う • 𝜉は𝛼を積分消去すると10.6.2と同様になる 10
  • 11. 2.4 指数型分布族 復習 • 指数型分布族 – 次式で定義 (2.194) 𝑝 𝐱 𝛈 = ℎ 𝐱 𝑔 𝛈 exp⁡ 𝛈 𝑇 𝐮 𝐱 ) ( – 𝑔(𝛈)は正規化係数役割 (2.195) 𝑔 𝛈 ∫ ℎ 𝐱 exp 𝛈 𝑇 𝐮 𝐱 𝑑𝐱 = 1 – 正規化係数の微分は十分統計量の期待値 (2.226) −∇ ln 𝑔 𝛈 = E[𝐮(𝐱)] 11
  • 12. 10.7 EP法 • KLダイバージェンスの最小化(変分ベイズとの違い) – 変分ベイズ: 𝐾𝐿(𝑞| 𝑝 pの局所的に欲近似する – EP: 𝐾𝐿(𝑝||𝑞) pを全体的に近似。単峰性の分布の近似に向いている • 近似 – 同時分布: 𝑝 D, 𝜃 = 𝑖 𝑓𝑖 (𝜃) 1 – 事後分布: 𝑝 𝜃 𝐷 = 𝑖 𝑓𝑖 (𝜃) 𝑝(𝐷) 1 – 近似事後分布: 𝑞 𝜃 = 𝑖 𝑓𝑖 ⁡(𝜃) 𝑍 – 𝐾𝐿(𝑝(𝜃|𝐷)| 𝑞 𝜃 の最小化 • EP法ではfiごとに最適化するが、最適化の条件はすべての因子を考 慮しているところがポイント • 指数分布族の場合は十分統計量が一致すれば良い 12
  • 13. 10.7.1 雑音データ問題 • データの生成モデル – 新のデータ: 𝑁(𝐱|𝛉, 𝐈) – 背景雑音:𝑁(𝐱|𝟎, 𝑎𝐈) • 背景雑音が重みwで混じった混合分布 – 𝛉以外は既知。これの事後分布𝑝(𝛉|𝐷)を知るのが目的 • 近似 – 同時分布は指数関数的に要素数が増える混合ガウス分 布(10.211)。intractable – 事後分布をシングルガウシアンで近似(10.212) • 近似分布𝑓 𝑛 ⁡(𝜃)は指数二次関数で良い(10.213) – あとは205,206,207に代入して更新式を求め、繰り返すだ け 13
  • 14. 10.7.2 グラフィカルモデルとEP法 • この節の目的は次を導くこと – 近似分布が完全分解近似であるときのEP法は積和 アルゴリズムになる • やるための式 – 注目する𝑍 𝑗 の周辺分布はKLの最小化に相当 • minq 𝐾𝐿(𝑝||𝑞)  𝑞 ∗ 𝐙 𝑗 = ∫ 𝑝 𝐙 𝑗 𝑖≠𝑗 𝑑𝐙 𝑖 = 𝑝(𝐙 𝑗 ) • 式(10.229)の𝑝(𝐱)を使えば新しい𝑞 ∗ (𝐱)が求まる – 𝑞∗ (𝐱 𝑗 ) ⁡ = ⁡𝑝(𝐱 𝑗 ) (10.230-233)であり、𝑞∗ (𝐱) = 𝑗 𝑗 𝑞∗ (𝐱 𝑗 ) 𝑗 • 完全分解近似とは – 分布(10.236)を変数ノードをすべて独立に扱うように する完全に分解した近似(10.237) 14