Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

変分推論法(変分ベイズ法)(PRML第10章)

12,360 views

Published on

変分推論法(変分ベイズ法)(PRML第10章)

  1. 1. 変分推論法(変分ベイズ法) 「第10章 近似推論法」, C.M.ビショップ, パターン認識と学習(下), シュプリンガー・ジャパン,2007. 2013/12/04 上智大学 山中高夫 10.1 変分推論 10.2 例:変分混合ガウス分布 (10.3-10.7は別の機会に)
  2. 2. 近似推論法(1)  やりたいこと 観測データ𝑿が与えられた時に, (1) 潜在変数𝒁の事後分布𝑝 𝒁|𝑿 (2) この事後分布を使った期待値 を求めたい. 例えば,混合ガウス分布の場合 潜在変数 𝐾次元の2値確率変数1-of-K表現 (どれか一つだけ1,残りが0) 事後分布𝑝 𝒁|𝑿 各データ𝑿が特定のガウス分布か ら生成される確率 混合ガウス分布 潜在変数 𝑝 𝒛 = 𝜋 𝑘 𝑧 𝑘 𝐾 𝑘=1 条件付き分布 𝑝 𝒙|𝒛 = 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 𝐾 𝑘=1 同時分布 𝑝 𝒙, 𝒛 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 𝐾 𝑘=1 周辺分布(混合ガウスモデル) 𝑝 𝒙 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝐾 𝑘=1
  3. 3. 近似推論法(2)  やりたいこと(続き) 一般の確率モデルの場合 • 事後分布を解析的に導出できない場合も多い • 潜在変数の次元が高すぎて,直接その空間全体を扱えないこ とがある → 近似法を用いる  近似推論法 • 確率的な近似推論(11章) サンプリング法を用いて数値的に計算を行う方法で,大規 模な課題を取り扱うときに計算量が多くなる問題がある • 決定的な近似推論 ← 10章ではこちらを扱う 事後分布を解析的に近似する方法で,大規模な課題にも適 用できる
  4. 4. 変分推論法(変分ベイズ法)(1)  前準備 • モデルのパラメータ(混合ガウス分布の場合:𝜋 𝑘, 𝜇 𝑘, Σ 𝑘)を 確率変数と考え,潜在変数に含める. • 全てのパラメータに対して事前分布が与えられたベイズ的な モデルを考える. 観測データ:𝑿 = 𝑥1, ⋯ , 𝑥 𝑁 潜在変数: 𝒁 = 𝑧1, ⋯ , 𝑧 𝑁  目的 確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められた時, 事後分 布𝑝 𝒁|𝑿 および周辺尤度(モデルエビデンス) 𝑝 𝑿 の近似を 変分推論法(変分ベイズ法)で求める
  5. 5. 変分推論法(変分ベイズ法)(2)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 ただし, ℒ 𝑞 = 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 (10.2) (10.3) (10.4)
  6. 6. 変分推論法(変分ベイズ法)(3)  周辺対数尤度の分解の導出 ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑝 𝑿 𝑞 𝒁 𝑑𝒁 − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 + ln 𝑝 𝑿 − ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝑿 𝑑𝒁 &= ln 𝑝 𝑿 𝑞 𝒁 𝑑𝒁 &= ln 𝑝 𝑿
  7. 7. 変分推論法(変分ベイズ法)(4)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 ただし, ℒ 𝑞 = 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback- Leiblerダイバージェンス ln 𝑝 𝑿 の下界 確率密度関数𝑞 𝒁 を入力と した汎関数 (10.2) (10.3) (10.4)
  8. 8. 変分推論法(変分ベイズ法)(5)  汎関数 関数:変数の値を入力としてとり,出力として関数の値を返す 写像 汎関数:入力として関数をとり,出力として汎関数の値を返す 写像 例) エントロピー𝐻 𝑝 は確率分布𝑝 𝑥 を入力とし,量 𝐻 𝑝 = 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥 を返す汎関数である (10.1)
  9. 9. 変分推論法(変分ベイズ法)(6)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 • KLダイバージェンスは必ず0以上なので,ℒ 𝑞 はln 𝑝 𝑿 の下 界である • ℒ 𝑞 を最大にする𝑞 𝒁 を求めるためには, 𝐾𝐿 𝑞||𝑝 を最小 にする𝑞 𝒁 を求めればよい 𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback- Leiblerダイバージェンス ln 𝑝 𝑿 の下界 確率密度関数𝑞 𝒁 を入力と した汎関数
  10. 10. 変分推論法(変分ベイズ法)(7)  KLダイバージェンスの最小化による近似 • KLダイバージェンス 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 は𝑞 𝒁 = 𝑝 𝒁|𝑿 のとき,最小になるが,真の分布𝑝 𝒁|𝑿 は 求めることができないと仮定する • ある制限したクラスの𝑞 𝒁 を考え,その中でKLダイバー ジェンスを最小にするものを探す • 求まった𝑞 𝒁 が,真の分布𝑝 𝒁|𝑿 の近似となる
  11. 11. 変分推論法(変分ベイズ法)(8)  分布𝑞 𝒁 のクラスの制限 • 𝒁の要素をいくつかの排反なグループに分割する 𝒁𝑖&(𝑖 = 1, ⋯ , 𝑀) • 分布𝑞 𝒁 がこれらのグループに関して分解できると仮定する 𝑞 𝒁 = 𝑞𝑖 𝒁𝑖 𝑀 𝑖=1 • この式で表される𝑞 𝒁 の中で,ℒ 𝑞 を最大にするものを探す • この分解は,物理学の平均場近似に対応している (10.5)
  12. 12. 変分推論法(変分ベイズ法)(9)  ℒ 𝑞 の変形 制限された形の𝑞 𝒁 に対して, ℒ 𝑞 を最大にするものを求め るために,グループに分解された分布𝑞 𝒁 の式をℒ 𝑞 の式に代 入して変形する ℒ 𝑞 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 − ln 𝑞 𝒁 𝑑𝒁 &= 𝑞𝑖 𝒁𝒊 𝑖 ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝒊 𝑖 𝑑𝒁 &= 𝑞𝑖 𝑖 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝒁𝒊 𝑖 ln 𝑞𝑖 𝑖 𝑑𝒁 𝑞𝑖
  13. 13. 変分推論法(変分ベイズ法)(10)  ℒ 𝑞 の変形(続き) 𝑞𝑗に関わる項だけ抜き出す ℒ 𝑞 &= 𝑞𝑖 𝑖 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝑖 ln 𝑞𝑖 𝑖 𝑑𝒁 &= 𝑞𝑗 𝑞𝑖 𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖 𝑖 ln 𝑞𝑗 + ln 𝑞𝑖 𝑖≠𝑗 𝑑𝒁 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖 𝑖 ln 𝑞𝑗 𝑑𝒁 − 𝑞𝑖 𝑖≠𝑗 ln 𝑞𝑖 𝑖≠𝑗 𝑞𝑗 𝑑𝒁𝑗 𝑑𝒁𝒊 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 − 𝑐𝑜𝑛𝑠𝑡 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 − 𝑞𝑖 𝑖≠𝑗 ln 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 const
  14. 14. 変分推論法(変分ベイズ法)(11)  ℒ 𝑞 の変形(続き) ℒ 𝑞 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡 𝑞𝑗(𝒁𝒋)と𝑝 𝑿, 𝒁𝑗 の負の Kullback-Leiblerダイ バージェンス ただし, ln 𝑝 𝑿, 𝒁𝑗 = ln 𝑝 𝑿, 𝒁 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡 𝑖 ≠ 𝑗である全ての𝑧𝑖によ る分布𝑞での期待値 したがって,ℒ 𝑞 を最大にする 𝑞𝑗 ∗ 𝑍𝑗 は 𝑞𝑗 ∗ 𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗 (10.7), (10.8) (10.6)
  15. 15. 変分推論法(変分ベイズ法)(12)  変分推論法における最適解 以上の結果より ln 𝑞𝑗 ∗ 𝑍𝑗 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡 定数項は分布𝑞𝑗 ∗ 𝑍𝑗 を正規化することで得られ, 𝑞𝑗 ∗ 𝑍𝑗 = exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑗 (10.9)
  16. 16. 分解による近似の特性 (1)  分解による近似の例 相関のある2変数𝒛 = 𝑧1, 𝑧2 に関するガウス分布 𝑝 𝒛 = 𝑁 𝒛|𝝁, 𝜦−1 を考える.ただし, 𝝁 = 𝜇1, 𝜇2 𝑇 , &𝜦 = 𝛬11 𝛬12 𝛬21& 𝛬22 この分布を分解したガウス分布 𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 で近似する.𝑞 𝒛 の最適解は(10.9)式から 𝑙𝑛 𝑞1 ∗ 𝑧1 = 𝐸𝑧2 𝑙𝑛 𝑝 𝒛 + 𝑐𝑜𝑛𝑠𝑡 𝑧1に関する項以外は定数項に含まれるので, 𝑧1に関する項だけを集めて 𝑙𝑛 𝑞1 ∗ 𝑧1 = 𝐸𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 (10.10)
  17. 17. 分解による近似の特性 (2)  分解による近似の例(続き) 𝑙𝑛 𝑞1 ∗ 𝑧1 &= 𝐸𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑞2 𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 𝑑𝑧2 + 𝑐𝑜𝑛𝑠𝑡 &= − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1Λ12 𝑞2 𝑧2 𝑧2 𝑑𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 &= − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1Λ12 𝐸𝑧2 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 この式は𝑧1に関する2次式になっているので,𝑞1 ∗ 𝑧1 はガウス分布となる. 平方完成して, 𝑞1 ∗ 𝑧1 = 𝑁 𝑧1|𝑚1, Λ11 −1 𝑚1 = 𝜇1 − Λ11 −1 Λ12 𝐸𝑧2 𝑧2 − 𝜇2 𝑧2についても同様に導出できる (10.11)
  18. 18. 分解による近似の特性 (3)  分解による近似の例(続き) 以上から求まった𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 の最適解は 𝑞1 ∗ 𝑧1 = 𝑁 𝑧1|𝑚1, Λ11 −1 𝑞2 ∗ 𝑧2 = 𝑁 𝑧2|𝑚2, Λ22 −1 𝑚1 = 𝜇1 − Λ11 −1 Λ12 𝐸𝑧2 𝑧2 − 𝜇2 𝑚2 = 𝜇2 − Λ22 −1 Λ12 𝐸𝑧1 𝑧1 − 𝜇1 これらの解は相互に依存関係がある • 𝑞1 ∗ 𝑧1 は,𝑞2 ∗ 𝑧2 を使って計算される期待値𝐸𝑧2 𝑧2 に依存する • 𝑞2 ∗ 𝑧2 は,𝑞1 ∗ 𝑧1 を使って計算される期待値𝐸𝑧1 𝑧1 に依存する したがって,収束条件が満たされるまで交互に更新して解を求める (10.12)-(10.15)
  19. 19. 分解による近似の特性 (4) 𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛 → 変分推論(変分ベイズ) 𝐾𝐿 𝑝||𝑞 を最小化して求めた𝑞 𝒛 → EP法 (10.7節)
  20. 20. 分解による近似の特性 (5) 𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛 → 変分推論(変分ベイズ) 𝐾𝐿 𝑝||𝑞 を最小化し て求めた𝑞 𝒛 → EP法 (10.7節)  多峰性分布の近似
  21. 21. 例:一変数ガウス分布 (1)  目的 ガウス分布から独立に発生したと仮定する観測値𝑥のデータ集合𝐷 = 𝑥1, ⋯ , 𝑥 𝑁 が与えられた時,もともとのガウス分布の平均𝜇と標準偏差𝜏の事 後分布を求める  尤度関数 𝑝 𝐷|𝜇, 𝜏 = 𝜏 2𝜋 𝑁 2 exp − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1  共役事前分布 パラメータ𝜇と𝜏を確率変数と考え,共役事前分布を導入(2.3.6節参照) 𝑝 𝜇|𝜏 = 𝑁 𝜇|𝜇0, 𝜆0 𝜏 −1 𝑝 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎0, 𝑏0 𝐺𝑎𝑚 𝜏|𝑎, 𝑏 = 1 Γ 𝑎 𝑏 𝑎 𝜏 𝑎−1 exp −𝑏𝜏 Γ 𝑥 = 𝑢 𝑥−1 ∞ 0 𝑒−𝑢 𝑑𝑢 (2.146) (1.141) ただし, (10.21) (10.22) (10.23)
  22. 22. 例:一変数ガウス分布 (2)  分解した変分近似による事後分布の推定 推定事後分布を以下の積の形に分解して考える 𝑞 𝜇, 𝜏 = 𝑞 𝜇 𝜇 𝑞 𝜏 𝜏 (10.9)式から𝑞 𝜇 𝜇 の最適解𝑞 𝜇 ∗ 𝜇 は ln 𝑞 𝜇 ∗ 𝜇 &= 𝐸𝜏 ln 𝑝 𝐷, 𝜇, 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 𝑝 𝜇|𝜏 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 − 𝜆0 𝜏 2 𝜇 − 𝜇0 2 + 𝑐𝑜𝑛𝑠𝑡 &= − 𝐸𝜏 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 + 𝜆0 𝜇 − 𝜇0 2 + 𝑐𝑜𝑛𝑠𝑡 (10.25) (10.24)
  23. 23. 例:一変数ガウス分布 (3)  分解した変分近似による事後分布の推定(続き) 𝜇に関して平方完成すると,𝑞 𝜇 ∗ 𝜇 は以下の様なガウス分布になる 𝑞 𝜇 ∗ 𝜇 = 𝑁 𝜇|𝜇 𝑁, 𝜆 𝑁 −1 𝜇 𝑁 = 𝜆0 𝜇0 + 𝑁𝑥 𝜆0 + 𝑁 𝜆 𝑁 = 𝜆0 + 𝑁 𝐸𝜏 𝜏 同様にして, 𝑞 𝜏 𝜏 の最適解𝑞 𝜏 ∗ 𝜏 は ln 𝑞 𝜏 ∗ 𝜏 &= 𝐸𝜇 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜇 − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 − 𝜆0 𝜏 2 𝜇 − 𝜇0 2 &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ 𝑁 2 ln 𝜏 + 1 2 ln 𝜏 + 𝑎0 − 1 ln 𝜏 − 𝑏0 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑎0 + 𝑁 + 1 2 − 1 ln 𝜏 − 𝑏0 + 1 2 𝐸𝜇 ⋯ 𝜏 + 𝑐𝑜𝑛𝑠𝑡 (10.26) (10.27) (10.28)
  24. 24. 例:一変数ガウス分布 (4)  分解した変分近似による事後分布の推定(続き) したがって, 𝑞 𝜏 ∗ 𝜏 ∝ 𝜏 𝑎0+ 𝑁+1 2 −1 exp − 𝑏0 + 1 2 𝐸𝜇 ⋯ 𝜏 Γ分布 𝐺𝑎𝑚 𝜏|𝑎, 𝑏 = 1 Γ 𝑎 𝑏 𝑎 𝜏 𝑎−1 exp −𝑏𝜏 と比較すると,これがΓ分布となることがわかる 𝑞 𝜏 ∗ 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎 𝑁, 𝑏 𝑁 𝑎 𝑁 = 𝑎0 + 𝑁 + 1 2 𝑏 𝑁 = 𝑏0 + 1 2 𝐸𝜇 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 + 𝜆0 𝜇 − 𝜇0 2 (10.26)(10.27)および(10.29)(10.30)を交互に繰り返して計算することに より,事後分布𝑝 𝜇, 𝜏|𝐷 の変分近似を求めることができる (10.29) (10.30)
  25. 25. 例:一変数ガウス分布 (5)
  26. 26. 例:変分混合ガウス分布 (1)  目的 混合ガウス分布に変分推論法を適用する  データの表現 各観測値𝑥 𝑛に対応する潜在変数を𝑧 𝑛とする(1-of-K表現の二値ベクトル: K個の要素𝑧 𝑛𝑘 𝑘 − 1, ⋯ , 𝐾 の中に1が一つだけある二値ベクトル) 観測データ:𝑿 = 𝒙1, ⋯ , 𝒙 𝑁 潜在変数: 𝒁 = 𝒛1, ⋯ , 𝒛 𝑁 混合比𝝅が与えられた時の𝒁の条件付き分布 𝑝 𝒁|𝝅 = 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 潜在変数と混合要素のパラメータが与えられた時の観測データベクトルの 条件付き分布 𝑝 𝑿|𝒁, 𝝁, 𝚲 = 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 (10.37) (10.38)
  27. 27. 例:変分混合ガウス分布 (2)  共役事前分布 パラメータ𝝁, 𝚲, 𝝅の共役事前分布を導入(2.3.6節参照) 混合要素𝝅に対してディリクレ分布 𝑝 𝝅 = 𝐷𝑖𝑟 𝜋|𝛼0 = 𝐶 𝛼0 𝜋 𝑘 𝛼0−1 𝐾 𝑘=1 (要素の対称性から各混合要素について同じハイパーパラメータ𝛼0を用いる) 混合要素のもつガウス分布の平均𝝁と精度𝚲(共分散行列の逆行列)に対し てガウス-ウィシャート事前分布 𝑝 𝝁, 𝚲 = 𝑝 𝝁|𝚲 𝑝 𝚲 = 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾0, 𝝂0 𝐾 𝑘=1 (対称性から𝒎0 = 𝟎とおく) (10.39) (10.40)
  28. 28. 例:変分混合ガウス分布 (3)  同時分布 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲  分解した変分近似 推定事後分布を以下の積の形に分解して考える 𝑞 𝒁, 𝝅, 𝝁, 𝚲 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲  分解した変分近似による事後分布の推定 (10.9)式から𝑞 𝒁 の最適解𝑞∗ 𝒁 は ln 𝑞∗ 𝒁 &= 𝐸 𝝅,𝝁,𝚲 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝝅 ln 𝑝 𝒁|𝝅 + 𝐸 𝝁,𝚲 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝝅 ln 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝐸 𝝁,𝚲 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑧 𝑛𝑘 𝐸 𝝅 ln 𝜋 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 &&&&&&&&&&&&&&&&&+ 𝑧 𝑛𝑘 𝐸 𝝁,𝚲 1 2 ln 𝚲 𝑘 − 𝐷 2 ln 2𝜋 &− 1 2 𝒙 𝑛 − 𝝁 𝑘 𝑇 𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 (10.41) (10.42) (10.43) (10.44)
  29. 29. 例:変分混合ガウス分布 (4)  分解した変分近似による事後分布の推定(続き) したがって, ln 𝑞∗ 𝒁 &= 𝑧 𝑛𝑘 ln 𝜌 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 ただし, ln 𝜌 𝑛𝑘 = 𝐸 𝝅 𝒌 ln 𝜋 𝑘 + 1 2 𝐸 𝝁 𝒌,𝚲 𝐤 ln 𝚲 𝑘 − 𝐷 2 ln 2𝜋 &− 1 2 𝐸 𝝁 𝐤,𝚲 𝐤 𝒙 𝑛 − 𝝁 𝑘 𝑇 𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘 両辺の指数をとって 𝑞∗ 𝒁 ∝ 𝜌 𝑛𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 全ての𝑍に対して和をとると1になるので, 𝑞∗ 𝒁 = 𝑟𝑛𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 ただし, 𝑟𝑛𝑘 = 𝜌 𝑛𝑘 𝜌 𝑛𝑗𝑗=1 𝐸 𝑧 𝑛𝑘 = 𝑟𝑛𝑘より 𝑟𝑛𝑘は負担率を表す (10.45) (10.46) (10.47) (10.48), (10.49) (10.50)
  30. 30. 例:変分混合ガウス分布 (5) ln 𝑞∗ 𝝅, 𝝁, 𝜦 を求める前に,負担率から計算できる3つの統計量を定義しておく 𝑁𝑘 = 𝑟𝑛𝑘 𝑁 𝑛=1 𝒙 𝑘 = 1 𝑁𝑘 𝑟𝑛𝑘 𝒙 𝑛 𝑁 𝑛=1 𝑺 𝑘 = 1 𝑁𝑘 𝑟𝑛𝑘 𝒙 𝑛 − 𝒙 𝑘 𝒙 𝑛 − 𝒙 𝑘 𝑇 𝑁 𝑛=1 次に, ln 𝑞∗ 𝝅, 𝝁, 𝜦 を求める ln 𝑞∗ 𝝅, 𝝁, 𝜦 &= 𝐸 𝒁 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + ln 𝑝 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝐾 𝑘=1 𝑁 𝑛=1 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ ln 𝑝 𝝅 + ln 𝑝 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 (10.51) (10.52) (10.53) (10.54)
  31. 31. 例:変分混合ガウス分布 (6) したがって, ln 𝑞∗ 𝝅, 𝝁, 𝜦 = ln 𝑞∗ 𝝅 + ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 𝑞∗ 𝝅, 𝝁, 𝜦 = 𝑞∗ 𝝅 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 ただし, ln 𝑞∗ 𝝅 = 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡 ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 = ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 とおいた.(10.55)式は変分事後分布𝑞∗ 𝝅, 𝝁, 𝜦 が,変分近似でおいた仮定以 上にさらに分解されることを意味する.→&導出された分解(10.2.5節) (10.55)
  32. 32. 例:変分混合ガウス分布 (7) ln 𝑞∗ 𝝅 &= 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + ln 𝐶 𝛼0 𝜋 𝑘 𝛼0−1 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝑍 𝑧 𝑛𝑘 ln 𝜋 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝛼0 − 1 ln 𝜋 𝑘 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑁𝑘 + 𝛼0 − 1 ln 𝜋 𝑘 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= ln 𝜋 𝑘 𝑁 𝑘+𝛼0−1 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 したがって,𝑞∗ 𝝅 はディリクレ分布となる 𝑞∗ 𝝅 = 𝐷𝑖𝑟 𝝅|𝜶 𝛼 𝑘 = 𝑁𝑘 + 𝛼0 (10.56) (10.57) (10.58)
  33. 33. 例:変分混合ガウス分布 (8) ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 &= ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &= ln 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾0, 𝜈0 &+ 𝑟𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &(導出は演習10.13の解答:サポートページからダウンロードできる) &= ln 𝑁 𝝁 𝑘|𝒎 𝑘, 𝛽 𝑘 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾 𝑘, 𝜈 𝑘 したがって,𝑞∗ 𝝁 𝒌, 𝚲 𝒌 はガウス-ウィシャート分布となる 𝛽 𝑘 = 𝛽0 + 𝑁𝑘 𝒎 𝑘 = 1 𝛽 𝑘 𝛽0 𝒎0 + 𝑁𝑘 𝒙 𝑘 𝑾 𝑘 −1 = 𝑾0 −1 + 𝑁𝑘 𝑺 𝑘 + 𝛽0 𝑁𝑘 𝛽0 + 𝑁𝑘 𝒙 𝑘 − 𝒎0 𝒙 𝑘 − 𝒎0 𝑇 𝜈 𝑘 = 𝜈0 + 𝑁𝑘 (10.60) | (10.63) (10.59)
  34. 34. 例:変分混合ガウス分布 (9)  変分混合ガウス分布の求め方のまとめ (1) 負担率 𝑟𝑛𝑘を初期化する (2) (10.51)-(10.53)で𝑁𝑘, 𝒙 𝑘, 𝑺 𝑘を求める (3) [Mステップ] (10.57)で𝑞∗ 𝝅 を,(10.59)で𝑞∗ 𝝁 𝑘, 𝚲 𝑘 &(𝑘 = 1 ⋯ 𝐾)を求 める (4) [Eステップ] (10.64)-(10.66)および(10.46)-(10.49)で負担率を計算 する ((10.64)-(10.66)は載せてないので本を参照のこと) (5) (2)に戻って収束するまで繰り返し更新する

×