SlideShare a Scribd company logo
1 of 34
Download to read offline
変分推論法(変分ベイズ法)
「第10章 近似推論法」,
C.M.ビショップ,
パターン認識と学習(下),
シュプリンガー・ジャパン,2007.
2013/12/04 上智大学 山中高夫
10.1 変分推論
10.2 例:変分混合ガウス分布
(10.3-10.7は別の機会に)
近似推論法(1)
 やりたいこと
観測データ𝑿が与えられた時に,
(1) 潜在変数𝒁の事後分布𝑝 𝒁|𝑿
(2) この事後分布を使った期待値
を求めたい.
例えば,混合ガウス分布の場合
潜在変数
𝐾次元の2値確率変数1-of-K表現
(どれか一つだけ1,残りが0)
事後分布𝑝 𝒁|𝑿
各データ𝑿が特定のガウス分布か
ら生成される確率
混合ガウス分布
潜在変数
𝑝 𝒛 = 𝜋 𝑘
𝑧 𝑘
𝐾
𝑘=1
条件付き分布
𝑝 𝒙|𝒛 = 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
同時分布
𝑝 𝒙, 𝒛 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝐾
𝑘=1
周辺分布(混合ガウスモデル)
𝑝 𝒙 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘
𝐾
𝑘=1
近似推論法(2)
 やりたいこと(続き)
一般の確率モデルの場合
• 事後分布を解析的に導出できない場合も多い
• 潜在変数の次元が高すぎて,直接その空間全体を扱えないこ
とがある
→ 近似法を用いる
 近似推論法
• 確率的な近似推論(11章)
サンプリング法を用いて数値的に計算を行う方法で,大規
模な課題を取り扱うときに計算量が多くなる問題がある
• 決定的な近似推論 ← 10章ではこちらを扱う
事後分布を解析的に近似する方法で,大規模な課題にも適
用できる
変分推論法(変分ベイズ法)(1)
 前準備
• モデルのパラメータ(混合ガウス分布の場合:𝜋 𝑘, 𝜇 𝑘, Σ 𝑘)を
確率変数と考え,潜在変数に含める.
• 全てのパラメータに対して事前分布が与えられたベイズ的な
モデルを考える.
観測データ:𝑿 = 𝑥1, ⋯ , 𝑥 𝑁
潜在変数: 𝒁 = 𝑧1, ⋯ , 𝑧 𝑁
 目的
確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められた時, 事後分
布𝑝 𝒁|𝑿 および周辺尤度(モデルエビデンス) 𝑝 𝑿 の近似を
変分推論法(変分ベイズ法)で求める
変分推論法(変分ベイズ法)(2)
 周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
ただし,
ℒ 𝑞 = 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
(10.2)
(10.3)
(10.4)
変分推論法(変分ベイズ法)(3)
 周辺対数尤度の分解の導出
ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿 𝑝 𝑿
𝑞 𝒁
𝑑𝒁 − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
+ ln 𝑝 𝑿 − ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿 𝑑𝒁
&= ln 𝑝 𝑿 𝑞 𝒁 𝑑𝒁
&= ln 𝑝 𝑿
変分推論法(変分ベイズ法)(4)
 周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
ただし,
ℒ 𝑞 = 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数
(10.2)
(10.3)
(10.4)
変分推論法(変分ベイズ法)(5)
 汎関数
関数:変数の値を入力としてとり,出力として関数の値を返す
写像
汎関数:入力として関数をとり,出力として汎関数の値を返す
写像
例) エントロピー𝐻 𝑝 は確率分布𝑝 𝑥 を入力とし,量
𝐻 𝑝 = 𝑝 𝑥 ln 𝑝 𝑥 𝑑𝑥
を返す汎関数である
(10.1)
変分推論法(変分ベイズ法)(6)
 周辺対数尤度の分解
𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する
ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝
• KLダイバージェンスは必ず0以上なので,ℒ 𝑞 はln 𝑝 𝑿 の下
界である
• ℒ 𝑞 を最大にする𝑞 𝒁 を求めるためには, 𝐾𝐿 𝑞||𝑝 を最小
にする𝑞 𝒁 を求めればよい
𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback-
Leiblerダイバージェンス
ln 𝑝 𝑿 の下界
確率密度関数𝑞 𝒁 を入力と
した汎関数
変分推論法(変分ベイズ法)(7)
 KLダイバージェンスの最小化による近似
• KLダイバージェンス
𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln
𝑝 𝒁|𝑿
𝑞 𝒁
𝑑𝒁
は𝑞 𝒁 = 𝑝 𝒁|𝑿 のとき,最小になるが,真の分布𝑝 𝒁|𝑿 は
求めることができないと仮定する
• ある制限したクラスの𝑞 𝒁 を考え,その中でKLダイバー
ジェンスを最小にするものを探す
• 求まった𝑞 𝒁 が,真の分布𝑝 𝒁|𝑿 の近似となる
変分推論法(変分ベイズ法)(8)
 分布𝑞 𝒁 のクラスの制限
• 𝒁の要素をいくつかの排反なグループに分割する
𝒁𝑖&(𝑖 = 1, ⋯ , 𝑀)
• 分布𝑞 𝒁 がこれらのグループに関して分解できると仮定する
𝑞 𝒁 = 𝑞𝑖 𝒁𝑖
𝑀
𝑖=1
• この式で表される𝑞 𝒁 の中で,ℒ 𝑞 を最大にするものを探す
• この分解は,物理学の平均場近似に対応している
(10.5)
変分推論法(変分ベイズ法)(9)
 ℒ 𝑞 の変形
制限された形の𝑞 𝒁 に対して, ℒ 𝑞 を最大にするものを求め
るために,グループに分解された分布𝑞 𝒁 の式をℒ 𝑞 の式に代
入して変形する
ℒ 𝑞 &= 𝑞 𝒁 ln
𝑝 𝑿, 𝒁
𝑞 𝒁
𝑑𝒁
&= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 − ln 𝑞 𝒁 𝑑𝒁
&= 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝒊
𝑖
𝑑𝒁
&= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝒁𝒊
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
𝑞𝑖
変分推論法(変分ベイズ法)(10)
 ℒ 𝑞 の変形(続き)
𝑞𝑗に関わる項だけ抜き出す
ℒ 𝑞 &= 𝑞𝑖
𝑖
ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖
𝑖
ln 𝑞𝑖
𝑖
𝑑𝒁
&= 𝑞𝑗 𝑞𝑖
𝑖≠𝑗
ln 𝑝 𝑿, 𝒁 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖
𝑖
ln 𝑞𝑗 + ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 𝑑𝒁𝒋
− 𝑞𝑖
𝑖
ln 𝑞𝑗 𝑑𝒁 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑞𝑗 𝑑𝒁𝑗 𝑑𝒁𝒊
&= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 − 𝑐𝑜𝑛𝑠𝑡 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 − 𝑞𝑖
𝑖≠𝑗
ln 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊
const
変分推論法(変分ベイズ法)(11)
 ℒ 𝑞 の変形(続き)
ℒ 𝑞 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞𝑗 ln
𝑝 𝑿, 𝒁𝑗
𝑞𝑗
𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡
𝑞𝑗(𝒁𝒋)と𝑝 𝑿, 𝒁𝑗 の負の
Kullback-Leiblerダイ
バージェンス
ただし,
ln 𝑝 𝑿, 𝒁𝑗 = ln 𝑝 𝑿, 𝒁 𝑞𝑖
𝑖≠𝑗
𝑑𝒁𝒊 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡
𝑖 ≠ 𝑗である全ての𝑧𝑖によ
る分布𝑞での期待値
したがって,ℒ 𝑞 を最大にする
𝑞𝑗
∗
𝑍𝑗 は
𝑞𝑗
∗
𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗
(10.7), (10.8)
(10.6)
変分推論法(変分ベイズ法)(12)
 変分推論法における最適解
以上の結果より
ln 𝑞𝑗
∗
𝑍𝑗 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡
定数項は分布𝑞𝑗
∗
𝑍𝑗 を正規化することで得られ,
𝑞𝑗
∗
𝑍𝑗 =
exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁
exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑗
(10.9)
分解による近似の特性 (1)
 分解による近似の例
相関のある2変数𝒛 = 𝑧1, 𝑧2 に関するガウス分布
𝑝 𝒛 = 𝑁 𝒛|𝝁, 𝜦−1
を考える.ただし,
𝝁 = 𝜇1, 𝜇2
𝑇
, &𝜦 =
𝛬11 𝛬12
𝛬21& 𝛬22
この分布を分解したガウス分布
𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2
で近似する.𝑞 𝒛 の最適解は(10.9)式から
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
𝑙𝑛 𝑝 𝒛 + 𝑐𝑜𝑛𝑠𝑡
𝑧1に関する項以外は定数項に含まれるので, 𝑧1に関する項だけを集めて
𝑙𝑛 𝑞1
∗
𝑧1 = 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
(10.10)
分解による近似の特性 (2)
 分解による近似の例(続き)
𝑙𝑛 𝑞1
∗
𝑧1 &= 𝐸𝑧2
−
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑞2 𝑧2 −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 𝑑𝑧2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝑞2 𝑧2 𝑧2 𝑑𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
&= −
1
2
𝑧1 − 𝜇1
2
Λ11 − 𝑧1Λ12 𝐸𝑧2
𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡
この式は𝑧1に関する2次式になっているので,𝑞1
∗
𝑧1 はガウス分布となる.
平方完成して,
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑧2についても同様に導出できる
(10.11)
分解による近似の特性 (3)
 分解による近似の例(続き)
以上から求まった𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 の最適解は
𝑞1
∗
𝑧1 = 𝑁 𝑧1|𝑚1, Λ11
−1
𝑞2
∗
𝑧2 = 𝑁 𝑧2|𝑚2, Λ22
−1
𝑚1 = 𝜇1 − Λ11
−1
Λ12 𝐸𝑧2
𝑧2 − 𝜇2
𝑚2 = 𝜇2 − Λ22
−1
Λ12 𝐸𝑧1
𝑧1 − 𝜇1
これらの解は相互に依存関係がある
• 𝑞1
∗
𝑧1 は,𝑞2
∗
𝑧2 を使って計算される期待値𝐸𝑧2
𝑧2 に依存する
• 𝑞2
∗
𝑧2 は,𝑞1
∗
𝑧1 を使って計算される期待値𝐸𝑧1
𝑧1 に依存する
したがって,収束条件が満たされるまで交互に更新して解を求める
(10.12)-(10.15)
分解による近似の特性 (4)
𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛
→ 変分推論(変分ベイズ)
𝐾𝐿 𝑝||𝑞 を最小化して求めた𝑞 𝒛
→ EP法 (10.7節)
分解による近似の特性 (5)
𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛
→ 変分推論(変分ベイズ)
𝐾𝐿 𝑝||𝑞 を最小化し
て求めた𝑞 𝒛
→ EP法 (10.7節)
 多峰性分布の近似
例:一変数ガウス分布 (1)
 目的
ガウス分布から独立に発生したと仮定する観測値𝑥のデータ集合𝐷 =
𝑥1, ⋯ , 𝑥 𝑁 が与えられた時,もともとのガウス分布の平均𝜇と標準偏差𝜏の事
後分布を求める
 尤度関数
𝑝 𝐷|𝜇, 𝜏 =
𝜏
2𝜋
𝑁
2
exp −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
 共役事前分布
パラメータ𝜇と𝜏を確率変数と考え,共役事前分布を導入(2.3.6節参照)
𝑝 𝜇|𝜏 = 𝑁 𝜇|𝜇0, 𝜆0 𝜏 −1
𝑝 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎0, 𝑏0
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
Γ 𝑥 = 𝑢 𝑥−1
∞
0
𝑒−𝑢
𝑑𝑢
(2.146)
(1.141)
ただし,
(10.21)
(10.22)
(10.23)
例:一変数ガウス分布 (2)
 分解した変分近似による事後分布の推定
推定事後分布を以下の積の形に分解して考える
𝑞 𝜇, 𝜏 = 𝑞 𝜇 𝜇 𝑞 𝜏 𝜏
(10.9)式から𝑞 𝜇 𝜇 の最適解𝑞 𝜇
∗
𝜇 は
ln 𝑞 𝜇
∗
𝜇 &= 𝐸𝜏 ln 𝑝 𝐷, 𝜇, 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 𝑝 𝜇|𝜏 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜏 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡
&= −
𝐸𝜏 𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
+ 𝑐𝑜𝑛𝑠𝑡 (10.25)
(10.24)
例:一変数ガウス分布 (3)
 分解した変分近似による事後分布の推定(続き)
𝜇に関して平方完成すると,𝑞 𝜇
∗
𝜇 は以下の様なガウス分布になる
𝑞 𝜇
∗
𝜇 = 𝑁 𝜇|𝜇 𝑁, 𝜆 𝑁
−1
𝜇 𝑁 =
𝜆0 𝜇0 + 𝑁𝑥
𝜆0 + 𝑁
𝜆 𝑁 = 𝜆0 + 𝑁 𝐸𝜏 𝜏
同様にして, 𝑞 𝜏 𝜏 の最適解𝑞 𝜏
∗
𝜏 は
ln 𝑞 𝜏
∗
𝜏 &= 𝐸𝜇 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸𝜇 −
𝜏
2
𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
−
𝜆0 𝜏
2
𝜇 − 𝜇0
2
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+
𝑁
2
ln 𝜏 +
1
2
ln 𝜏 + 𝑎0 − 1 ln 𝜏 − 𝑏0 𝜏 + 𝑐𝑜𝑛𝑠𝑡
&= 𝑎0 +
𝑁 + 1
2
− 1 ln 𝜏 − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏 + 𝑐𝑜𝑛𝑠𝑡
(10.26)
(10.27)
(10.28)
例:一変数ガウス分布 (4)
 分解した変分近似による事後分布の推定(続き)
したがって,
𝑞 𝜏
∗
𝜏 ∝ 𝜏
𝑎0+
𝑁+1
2
−1
exp − 𝑏0 +
1
2
𝐸𝜇 ⋯ 𝜏
Γ分布
𝐺𝑎𝑚 𝜏|𝑎, 𝑏 =
1
Γ 𝑎
𝑏 𝑎
𝜏 𝑎−1
exp −𝑏𝜏
と比較すると,これがΓ分布となることがわかる
𝑞 𝜏
∗
𝜏 = 𝐺𝑎𝑚 𝜏|𝑎 𝑁, 𝑏 𝑁
𝑎 𝑁 = 𝑎0 +
𝑁 + 1
2
𝑏 𝑁 = 𝑏0 +
1
2
𝐸𝜇 𝑥 𝑛 − 𝜇 2
𝑁
𝑛=1
+ 𝜆0 𝜇 − 𝜇0
2
(10.26)(10.27)および(10.29)(10.30)を交互に繰り返して計算することに
より,事後分布𝑝 𝜇, 𝜏|𝐷 の変分近似を求めることができる
(10.29)
(10.30)
例:一変数ガウス分布 (5)
例:変分混合ガウス分布 (1)
 目的
混合ガウス分布に変分推論法を適用する
 データの表現
各観測値𝑥 𝑛に対応する潜在変数を𝑧 𝑛とする(1-of-K表現の二値ベクトル:
K個の要素𝑧 𝑛𝑘 𝑘 − 1, ⋯ , 𝐾 の中に1が一つだけある二値ベクトル)
観測データ:𝑿 = 𝒙1, ⋯ , 𝒙 𝑁
潜在変数: 𝒁 = 𝒛1, ⋯ , 𝒛 𝑁
混合比𝝅が与えられた時の𝒁の条件付き分布
𝑝 𝒁|𝝅 = 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
潜在変数と混合要素のパラメータが与えられた時の観測データベクトルの
条件付き分布
𝑝 𝑿|𝒁, 𝝁, 𝚲 = 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
(10.37)
(10.38)
例:変分混合ガウス分布 (2)
 共役事前分布
パラメータ𝝁, 𝚲, 𝝅の共役事前分布を導入(2.3.6節参照)
混合要素𝝅に対してディリクレ分布
𝑝 𝝅 = 𝐷𝑖𝑟 𝜋|𝛼0 = 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
(要素の対称性から各混合要素について同じハイパーパラメータ𝛼0を用いる)
混合要素のもつガウス分布の平均𝝁と精度𝚲(共分散行列の逆行列)に対し
てガウス-ウィシャート事前分布
𝑝 𝝁, 𝚲 = 𝑝 𝝁|𝚲 𝑝 𝚲 = 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝝂0
𝐾
𝑘=1
(対称性から𝒎0 = 𝟎とおく)
(10.39)
(10.40)
例:変分混合ガウス分布 (3)
 同時分布
𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲
 分解した変分近似
推定事後分布を以下の積の形に分解して考える
𝑞 𝒁, 𝝅, 𝝁, 𝚲 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲
 分解した変分近似による事後分布の推定
(10.9)式から𝑞 𝒁 の最適解𝑞∗
𝒁 は
ln 𝑞∗
𝒁 &= 𝐸 𝝅,𝝁,𝚲 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝑝 𝒁|𝝅 + 𝐸 𝝁,𝚲 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝝅 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝝁,𝚲 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1 𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝑧 𝑛𝑘 𝐸 𝝅 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
&&&&&&&&&&&&&&&&&+ 𝑧 𝑛𝑘 𝐸 𝝁,𝚲
1
2
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
(10.41)
(10.42)
(10.43)
(10.44)
例:変分混合ガウス分布 (4)
 分解した変分近似による事後分布の推定(続き)
したがって,
ln 𝑞∗
𝒁 &= 𝑧 𝑛𝑘 ln 𝜌 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
ただし,
ln 𝜌 𝑛𝑘 = 𝐸 𝝅 𝒌
ln 𝜋 𝑘 +
1
2
𝐸 𝝁 𝒌,𝚲 𝐤
ln 𝚲 𝑘 −
𝐷
2
ln 2𝜋 &−
1
2
𝐸 𝝁 𝐤,𝚲 𝐤
𝒙 𝑛 − 𝝁 𝑘
𝑇
𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘
両辺の指数をとって
𝑞∗
𝒁 ∝ 𝜌 𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
全ての𝑍に対して和をとると1になるので,
𝑞∗
𝒁 = 𝑟𝑛𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
ただし,
𝑟𝑛𝑘 =
𝜌 𝑛𝑘
𝜌 𝑛𝑗𝑗=1
𝐸 𝑧 𝑛𝑘 = 𝑟𝑛𝑘より
𝑟𝑛𝑘は負担率を表す
(10.45)
(10.46)
(10.47)
(10.48), (10.49)
(10.50)
例:変分混合ガウス分布 (5)
ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める前に,負担率から計算できる3つの統計量を定義しておく
𝑁𝑘 = 𝑟𝑛𝑘
𝑁
𝑛=1
𝒙 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛
𝑁
𝑛=1
𝑺 𝑘 =
1
𝑁𝑘
𝑟𝑛𝑘 𝒙 𝑛 − 𝒙 𝑘 𝒙 𝑛 − 𝒙 𝑘
𝑇
𝑁
𝑛=1
次に, ln 𝑞∗
𝝅, 𝝁, 𝜦 を求める
ln 𝑞∗
𝝅, 𝝁, 𝜦 &= 𝐸 𝒁 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + ln 𝑝 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝐸 𝒁 ln 𝑝 𝒁|𝝅
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ ln 𝑝 𝝅 + ln 𝑝 𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
(10.51)
(10.52)
(10.53)
(10.54)
例:変分混合ガウス分布 (6)
したがって,
ln 𝑞∗
𝝅, 𝝁, 𝜦 = ln 𝑞∗
𝝅 + ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
𝑞∗
𝝅, 𝝁, 𝜦 = 𝑞∗
𝝅 𝑞∗
𝝁 𝒌, 𝚲 𝒌
𝐾
𝑘=1
ただし,
ln 𝑞∗
𝝅 = 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 = ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
とおいた.(10.55)式は変分事後分布𝑞∗
𝝅, 𝝁, 𝜦 が,変分近似でおいた仮定以
上にさらに分解されることを意味する.→&導出された分解(10.2.5節)
(10.55)
例:変分混合ガウス分布 (7)
ln 𝑞∗
𝝅 &= 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝒁 ln 𝜋 𝑘
𝑧 𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ ln 𝐶 𝛼0 𝜋 𝑘
𝛼0−1
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝐸 𝑍 𝑧 𝑛𝑘 ln 𝜋 𝑘
𝐾
𝑘=1
𝑁
𝑛=1
+ 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= 𝑁𝑘 + 𝛼0 − 1 ln 𝜋 𝑘
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
&= ln 𝜋 𝑘
𝑁 𝑘+𝛼0−1
𝐾
𝑘=1
+ 𝑐𝑜𝑛𝑠𝑡
したがって,𝑞∗
𝝅 はディリクレ分布となる
𝑞∗
𝝅 = 𝐷𝑖𝑟 𝝅|𝜶
𝛼 𝑘 = 𝑁𝑘 + 𝛼0
(10.56)
(10.57)
(10.58)
例:変分混合ガウス分布 (8)
ln 𝑞∗
𝝁 𝒌, 𝚲 𝒌 &= ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&= ln 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾0, 𝜈0
&+ 𝑟𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘
−1
𝑁
𝑛=1
+ 𝑐𝑜𝑛𝑠𝑡
&(導出は演習10.13の解答:サポートページからダウンロードできる)
&= ln 𝑁 𝝁 𝑘|𝒎 𝑘, 𝛽 𝑘 𝚲 𝑘
−1
𝑊 𝚲 𝑘|𝑾 𝑘, 𝜈 𝑘
したがって,𝑞∗
𝝁 𝒌, 𝚲 𝒌 はガウス-ウィシャート分布となる
𝛽 𝑘 = 𝛽0 + 𝑁𝑘
𝒎 𝑘 =
1
𝛽 𝑘
𝛽0 𝒎0 + 𝑁𝑘 𝒙 𝑘
𝑾 𝑘
−1
= 𝑾0
−1
+ 𝑁𝑘 𝑺 𝑘 +
𝛽0 𝑁𝑘
𝛽0 + 𝑁𝑘
𝒙 𝑘 − 𝒎0 𝒙 𝑘 − 𝒎0
𝑇
𝜈 𝑘 = 𝜈0 + 𝑁𝑘
(10.60)
|
(10.63)
(10.59)
例:変分混合ガウス分布 (9)
 変分混合ガウス分布の求め方のまとめ
(1) 負担率 𝑟𝑛𝑘を初期化する
(2) (10.51)-(10.53)で𝑁𝑘, 𝒙 𝑘, 𝑺 𝑘を求める
(3) [Mステップ] (10.57)で𝑞∗
𝝅 を,(10.59)で𝑞∗
𝝁 𝑘, 𝚲 𝑘 &(𝑘 = 1 ⋯ 𝐾)を求
める
(4) [Eステップ] (10.64)-(10.66)および(10.46)-(10.49)で負担率を計算
する ((10.64)-(10.66)は載せてないので本を参照のこと)
(5) (2)に戻って収束するまで繰り返し更新する

More Related Content

What's hot

条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
Masaki Saito
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

What's hot (20)

PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
PRML8章
PRML8章PRML8章
PRML8章
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 

Viewers also liked

パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
sleipnir002
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
Takao Yamanaka
 

Viewers also liked (9)

自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI Gymトレーニング
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 

Similar to 変分推論法(変分ベイズ法)(PRML第10章)

Similar to 変分推論法(変分ベイズ法)(PRML第10章) (20)

PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
グレブナー基底輪読会 #1 ―準備体操の巻―
グレブナー基底輪読会 #1 ―準備体操の巻―グレブナー基底輪読会 #1 ―準備体操の巻―
グレブナー基底輪読会 #1 ―準備体操の巻―
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2PRML 2.3.1-2.3.2
PRML 2.3.1-2.3.2
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemBlow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel system
 
退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発について退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発について
 
PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)
 

変分推論法(変分ベイズ法)(PRML第10章)

  • 2. 近似推論法(1)  やりたいこと 観測データ𝑿が与えられた時に, (1) 潜在変数𝒁の事後分布𝑝 𝒁|𝑿 (2) この事後分布を使った期待値 を求めたい. 例えば,混合ガウス分布の場合 潜在変数 𝐾次元の2値確率変数1-of-K表現 (どれか一つだけ1,残りが0) 事後分布𝑝 𝒁|𝑿 各データ𝑿が特定のガウス分布か ら生成される確率 混合ガウス分布 潜在変数 𝑝 𝒛 = 𝜋 𝑘 𝑧 𝑘 𝐾 𝑘=1 条件付き分布 𝑝 𝒙|𝒛 = 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 𝐾 𝑘=1 同時分布 𝑝 𝒙, 𝒛 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 𝐾 𝑘=1 周辺分布(混合ガウスモデル) 𝑝 𝒙 = 𝜋 𝑘 𝑁 𝒙|𝝁 𝑘, 𝚺 𝑘 𝐾 𝑘=1
  • 3. 近似推論法(2)  やりたいこと(続き) 一般の確率モデルの場合 • 事後分布を解析的に導出できない場合も多い • 潜在変数の次元が高すぎて,直接その空間全体を扱えないこ とがある → 近似法を用いる  近似推論法 • 確率的な近似推論(11章) サンプリング法を用いて数値的に計算を行う方法で,大規 模な課題を取り扱うときに計算量が多くなる問題がある • 決定的な近似推論 ← 10章ではこちらを扱う 事後分布を解析的に近似する方法で,大規模な課題にも適 用できる
  • 4. 変分推論法(変分ベイズ法)(1)  前準備 • モデルのパラメータ(混合ガウス分布の場合:𝜋 𝑘, 𝜇 𝑘, Σ 𝑘)を 確率変数と考え,潜在変数に含める. • 全てのパラメータに対して事前分布が与えられたベイズ的な モデルを考える. 観測データ:𝑿 = 𝑥1, ⋯ , 𝑥 𝑁 潜在変数: 𝒁 = 𝑧1, ⋯ , 𝑧 𝑁  目的 確率モデルによって同時分布𝑝 𝑿, 𝒁 が定められた時, 事後分 布𝑝 𝒁|𝑿 および周辺尤度(モデルエビデンス) 𝑝 𝑿 の近似を 変分推論法(変分ベイズ法)で求める
  • 5. 変分推論法(変分ベイズ法)(2)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 ただし, ℒ 𝑞 = 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 (10.2) (10.3) (10.4)
  • 6. 変分推論法(変分ベイズ法)(3)  周辺対数尤度の分解の導出 ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑝 𝑿 𝑞 𝒁 𝑑𝒁 − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 + ln 𝑝 𝑿 − ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝑿 𝑑𝒁 &= ln 𝑝 𝑿 𝑞 𝒁 𝑑𝒁 &= ln 𝑝 𝑿
  • 7. 変分推論法(変分ベイズ法)(4)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 ただし, ℒ 𝑞 = 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback- Leiblerダイバージェンス ln 𝑝 𝑿 の下界 確率密度関数𝑞 𝒁 を入力と した汎関数 (10.2) (10.3) (10.4)
  • 9. 変分推論法(変分ベイズ法)(6)  周辺対数尤度の分解 𝒁に関する分布𝑞 𝒁 を使って,周辺対数尤度ln 𝑝 𝑿 を分解する ln 𝑝 𝑿 = ℒ 𝑞 + 𝐾𝐿 𝑞||𝑝 • KLダイバージェンスは必ず0以上なので,ℒ 𝑞 はln 𝑝 𝑿 の下 界である • ℒ 𝑞 を最大にする𝑞 𝒁 を求めるためには, 𝐾𝐿 𝑞||𝑝 を最小 にする𝑞 𝒁 を求めればよい 𝑝 𝒁|𝑿 と𝑞 𝒁 のKullback- Leiblerダイバージェンス ln 𝑝 𝑿 の下界 確率密度関数𝑞 𝒁 を入力と した汎関数
  • 10. 変分推論法(変分ベイズ法)(7)  KLダイバージェンスの最小化による近似 • KLダイバージェンス 𝐾𝐿 𝑞||𝑝 = − 𝑞 𝒁 ln 𝑝 𝒁|𝑿 𝑞 𝒁 𝑑𝒁 は𝑞 𝒁 = 𝑝 𝒁|𝑿 のとき,最小になるが,真の分布𝑝 𝒁|𝑿 は 求めることができないと仮定する • ある制限したクラスの𝑞 𝒁 を考え,その中でKLダイバー ジェンスを最小にするものを探す • 求まった𝑞 𝒁 が,真の分布𝑝 𝒁|𝑿 の近似となる
  • 11. 変分推論法(変分ベイズ法)(8)  分布𝑞 𝒁 のクラスの制限 • 𝒁の要素をいくつかの排反なグループに分割する 𝒁𝑖&(𝑖 = 1, ⋯ , 𝑀) • 分布𝑞 𝒁 がこれらのグループに関して分解できると仮定する 𝑞 𝒁 = 𝑞𝑖 𝒁𝑖 𝑀 𝑖=1 • この式で表される𝑞 𝒁 の中で,ℒ 𝑞 を最大にするものを探す • この分解は,物理学の平均場近似に対応している (10.5)
  • 12. 変分推論法(変分ベイズ法)(9)  ℒ 𝑞 の変形 制限された形の𝑞 𝒁 に対して, ℒ 𝑞 を最大にするものを求め るために,グループに分解された分布𝑞 𝒁 の式をℒ 𝑞 の式に代 入して変形する ℒ 𝑞 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝑞 𝒁 𝑑𝒁 &= 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 − ln 𝑞 𝒁 𝑑𝒁 &= 𝑞𝑖 𝒁𝒊 𝑖 ln 𝑝 𝑿, 𝒁 − ln 𝑞𝑖 𝒁𝒊 𝑖 𝑑𝒁 &= 𝑞𝑖 𝑖 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝒁𝒊 𝑖 ln 𝑞𝑖 𝑖 𝑑𝒁 𝑞𝑖
  • 13. 変分推論法(変分ベイズ法)(10)  ℒ 𝑞 の変形(続き) 𝑞𝑗に関わる項だけ抜き出す ℒ 𝑞 &= 𝑞𝑖 𝑖 ln 𝑝 𝑿, 𝒁 𝑑𝒁 − 𝑞𝑖 𝑖 ln 𝑞𝑖 𝑖 𝑑𝒁 &= 𝑞𝑗 𝑞𝑖 𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖 𝑖 ln 𝑞𝑗 + ln 𝑞𝑖 𝑖≠𝑗 𝑑𝒁 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 𝑑𝒁𝒋 − 𝑞𝑖 𝑖 ln 𝑞𝑗 𝑑𝒁 − 𝑞𝑖 𝑖≠𝑗 ln 𝑞𝑖 𝑖≠𝑗 𝑞𝑗 𝑑𝒁𝑗 𝑑𝒁𝒊 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 − 𝑐𝑜𝑛𝑠𝑡 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 − 𝑞𝑖 𝑖≠𝑗 ln 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 const
  • 14. 変分推論法(変分ベイズ法)(11)  ℒ 𝑞 の変形(続き) ℒ 𝑞 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑑𝒁𝒋 − 𝑞𝑗 ln 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑞𝑗 ln 𝑝 𝑿, 𝒁𝑗 𝑞𝑗 𝑑𝒁𝒋 + 𝑐𝑜𝑛𝑠𝑡 𝑞𝑗(𝒁𝒋)と𝑝 𝑿, 𝒁𝑗 の負の Kullback-Leiblerダイ バージェンス ただし, ln 𝑝 𝑿, 𝒁𝑗 = ln 𝑝 𝑿, 𝒁 𝑞𝑖 𝑖≠𝑗 𝑑𝒁𝒊 + 𝑐𝑜𝑛𝑠𝑡 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡 𝑖 ≠ 𝑗である全ての𝑧𝑖によ る分布𝑞での期待値 したがって,ℒ 𝑞 を最大にする 𝑞𝑗 ∗ 𝑍𝑗 は 𝑞𝑗 ∗ 𝑍𝑗 = 𝑝 𝑿, 𝒁𝑗 (10.7), (10.8) (10.6)
  • 15. 変分推論法(変分ベイズ法)(12)  変分推論法における最適解 以上の結果より ln 𝑞𝑗 ∗ 𝑍𝑗 = 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 + 𝑐𝑜𝑛𝑠𝑡 定数項は分布𝑞𝑗 ∗ 𝑍𝑗 を正規化することで得られ, 𝑞𝑗 ∗ 𝑍𝑗 = exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 exp 𝐸𝑖≠𝑗 ln 𝑝 𝑿, 𝒁 𝑑𝒁𝑗 (10.9)
  • 16. 分解による近似の特性 (1)  分解による近似の例 相関のある2変数𝒛 = 𝑧1, 𝑧2 に関するガウス分布 𝑝 𝒛 = 𝑁 𝒛|𝝁, 𝜦−1 を考える.ただし, 𝝁 = 𝜇1, 𝜇2 𝑇 , &𝜦 = 𝛬11 𝛬12 𝛬21& 𝛬22 この分布を分解したガウス分布 𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 で近似する.𝑞 𝒛 の最適解は(10.9)式から 𝑙𝑛 𝑞1 ∗ 𝑧1 = 𝐸𝑧2 𝑙𝑛 𝑝 𝒛 + 𝑐𝑜𝑛𝑠𝑡 𝑧1に関する項以外は定数項に含まれるので, 𝑧1に関する項だけを集めて 𝑙𝑛 𝑞1 ∗ 𝑧1 = 𝐸𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 (10.10)
  • 17. 分解による近似の特性 (2)  分解による近似の例(続き) 𝑙𝑛 𝑞1 ∗ 𝑧1 &= 𝐸𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑞2 𝑧2 − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1 − 𝜇1 Λ12 𝑧2 − 𝜇2 𝑑𝑧2 + 𝑐𝑜𝑛𝑠𝑡 &= − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1Λ12 𝑞2 𝑧2 𝑧2 𝑑𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 &= − 1 2 𝑧1 − 𝜇1 2 Λ11 − 𝑧1Λ12 𝐸𝑧2 𝑧2 − 𝜇2 + 𝑐𝑜𝑛𝑠𝑡 この式は𝑧1に関する2次式になっているので,𝑞1 ∗ 𝑧1 はガウス分布となる. 平方完成して, 𝑞1 ∗ 𝑧1 = 𝑁 𝑧1|𝑚1, Λ11 −1 𝑚1 = 𝜇1 − Λ11 −1 Λ12 𝐸𝑧2 𝑧2 − 𝜇2 𝑧2についても同様に導出できる (10.11)
  • 18. 分解による近似の特性 (3)  分解による近似の例(続き) 以上から求まった𝑞 𝒛 = 𝑞1 𝑧1 𝑞2 𝑧2 の最適解は 𝑞1 ∗ 𝑧1 = 𝑁 𝑧1|𝑚1, Λ11 −1 𝑞2 ∗ 𝑧2 = 𝑁 𝑧2|𝑚2, Λ22 −1 𝑚1 = 𝜇1 − Λ11 −1 Λ12 𝐸𝑧2 𝑧2 − 𝜇2 𝑚2 = 𝜇2 − Λ22 −1 Λ12 𝐸𝑧1 𝑧1 − 𝜇1 これらの解は相互に依存関係がある • 𝑞1 ∗ 𝑧1 は,𝑞2 ∗ 𝑧2 を使って計算される期待値𝐸𝑧2 𝑧2 に依存する • 𝑞2 ∗ 𝑧2 は,𝑞1 ∗ 𝑧1 を使って計算される期待値𝐸𝑧1 𝑧1 に依存する したがって,収束条件が満たされるまで交互に更新して解を求める (10.12)-(10.15)
  • 19. 分解による近似の特性 (4) 𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛 → 変分推論(変分ベイズ) 𝐾𝐿 𝑝||𝑞 を最小化して求めた𝑞 𝒛 → EP法 (10.7節)
  • 20. 分解による近似の特性 (5) 𝐾𝐿 𝑞||𝑝 を最小化して求めた𝑞 𝒛 → 変分推論(変分ベイズ) 𝐾𝐿 𝑝||𝑞 を最小化し て求めた𝑞 𝒛 → EP法 (10.7節)  多峰性分布の近似
  • 21. 例:一変数ガウス分布 (1)  目的 ガウス分布から独立に発生したと仮定する観測値𝑥のデータ集合𝐷 = 𝑥1, ⋯ , 𝑥 𝑁 が与えられた時,もともとのガウス分布の平均𝜇と標準偏差𝜏の事 後分布を求める  尤度関数 𝑝 𝐷|𝜇, 𝜏 = 𝜏 2𝜋 𝑁 2 exp − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1  共役事前分布 パラメータ𝜇と𝜏を確率変数と考え,共役事前分布を導入(2.3.6節参照) 𝑝 𝜇|𝜏 = 𝑁 𝜇|𝜇0, 𝜆0 𝜏 −1 𝑝 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎0, 𝑏0 𝐺𝑎𝑚 𝜏|𝑎, 𝑏 = 1 Γ 𝑎 𝑏 𝑎 𝜏 𝑎−1 exp −𝑏𝜏 Γ 𝑥 = 𝑢 𝑥−1 ∞ 0 𝑒−𝑢 𝑑𝑢 (2.146) (1.141) ただし, (10.21) (10.22) (10.23)
  • 22. 例:一変数ガウス分布 (2)  分解した変分近似による事後分布の推定 推定事後分布を以下の積の形に分解して考える 𝑞 𝜇, 𝜏 = 𝑞 𝜇 𝜇 𝑞 𝜏 𝜏 (10.9)式から𝑞 𝜇 𝜇 の最適解𝑞 𝜇 ∗ 𝜇 は ln 𝑞 𝜇 ∗ 𝜇 &= 𝐸𝜏 ln 𝑝 𝐷, 𝜇, 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 𝑝 𝜇|𝜏 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜏 − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 − 𝜆0 𝜏 2 𝜇 − 𝜇0 2 + 𝑐𝑜𝑛𝑠𝑡 &= − 𝐸𝜏 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 + 𝜆0 𝜇 − 𝜇0 2 + 𝑐𝑜𝑛𝑠𝑡 (10.25) (10.24)
  • 23. 例:一変数ガウス分布 (3)  分解した変分近似による事後分布の推定(続き) 𝜇に関して平方完成すると,𝑞 𝜇 ∗ 𝜇 は以下の様なガウス分布になる 𝑞 𝜇 ∗ 𝜇 = 𝑁 𝜇|𝜇 𝑁, 𝜆 𝑁 −1 𝜇 𝑁 = 𝜆0 𝜇0 + 𝑁𝑥 𝜆0 + 𝑁 𝜆 𝑁 = 𝜆0 + 𝑁 𝐸𝜏 𝜏 同様にして, 𝑞 𝜏 𝜏 の最適解𝑞 𝜏 ∗ 𝜏 は ln 𝑞 𝜏 ∗ 𝜏 &= 𝐸𝜇 ln 𝑝 𝐷|𝜇, 𝜏 + ln 𝑝 𝜇|𝜏 + ln 𝑝 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸𝜇 − 𝜏 2 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 − 𝜆0 𝜏 2 𝜇 − 𝜇0 2 &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ 𝑁 2 ln 𝜏 + 1 2 ln 𝜏 + 𝑎0 − 1 ln 𝜏 − 𝑏0 𝜏 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑎0 + 𝑁 + 1 2 − 1 ln 𝜏 − 𝑏0 + 1 2 𝐸𝜇 ⋯ 𝜏 + 𝑐𝑜𝑛𝑠𝑡 (10.26) (10.27) (10.28)
  • 24. 例:一変数ガウス分布 (4)  分解した変分近似による事後分布の推定(続き) したがって, 𝑞 𝜏 ∗ 𝜏 ∝ 𝜏 𝑎0+ 𝑁+1 2 −1 exp − 𝑏0 + 1 2 𝐸𝜇 ⋯ 𝜏 Γ分布 𝐺𝑎𝑚 𝜏|𝑎, 𝑏 = 1 Γ 𝑎 𝑏 𝑎 𝜏 𝑎−1 exp −𝑏𝜏 と比較すると,これがΓ分布となることがわかる 𝑞 𝜏 ∗ 𝜏 = 𝐺𝑎𝑚 𝜏|𝑎 𝑁, 𝑏 𝑁 𝑎 𝑁 = 𝑎0 + 𝑁 + 1 2 𝑏 𝑁 = 𝑏0 + 1 2 𝐸𝜇 𝑥 𝑛 − 𝜇 2 𝑁 𝑛=1 + 𝜆0 𝜇 − 𝜇0 2 (10.26)(10.27)および(10.29)(10.30)を交互に繰り返して計算することに より,事後分布𝑝 𝜇, 𝜏|𝐷 の変分近似を求めることができる (10.29) (10.30)
  • 26. 例:変分混合ガウス分布 (1)  目的 混合ガウス分布に変分推論法を適用する  データの表現 各観測値𝑥 𝑛に対応する潜在変数を𝑧 𝑛とする(1-of-K表現の二値ベクトル: K個の要素𝑧 𝑛𝑘 𝑘 − 1, ⋯ , 𝐾 の中に1が一つだけある二値ベクトル) 観測データ:𝑿 = 𝒙1, ⋯ , 𝒙 𝑁 潜在変数: 𝒁 = 𝒛1, ⋯ , 𝒛 𝑁 混合比𝝅が与えられた時の𝒁の条件付き分布 𝑝 𝒁|𝝅 = 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 潜在変数と混合要素のパラメータが与えられた時の観測データベクトルの 条件付き分布 𝑝 𝑿|𝒁, 𝝁, 𝚲 = 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 (10.37) (10.38)
  • 27. 例:変分混合ガウス分布 (2)  共役事前分布 パラメータ𝝁, 𝚲, 𝝅の共役事前分布を導入(2.3.6節参照) 混合要素𝝅に対してディリクレ分布 𝑝 𝝅 = 𝐷𝑖𝑟 𝜋|𝛼0 = 𝐶 𝛼0 𝜋 𝑘 𝛼0−1 𝐾 𝑘=1 (要素の対称性から各混合要素について同じハイパーパラメータ𝛼0を用いる) 混合要素のもつガウス分布の平均𝝁と精度𝚲(共分散行列の逆行列)に対し てガウス-ウィシャート事前分布 𝑝 𝝁, 𝚲 = 𝑝 𝝁|𝚲 𝑝 𝚲 = 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾0, 𝝂0 𝐾 𝑘=1 (対称性から𝒎0 = 𝟎とおく) (10.39) (10.40)
  • 28. 例:変分混合ガウス分布 (3)  同時分布 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 = 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲  分解した変分近似 推定事後分布を以下の積の形に分解して考える 𝑞 𝒁, 𝝅, 𝝁, 𝚲 = 𝑞 𝒁 𝑞 𝝅, 𝝁, 𝚲  分解した変分近似による事後分布の推定 (10.9)式から𝑞 𝒁 の最適解𝑞∗ 𝒁 は ln 𝑞∗ 𝒁 &= 𝐸 𝝅,𝝁,𝚲 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝝅 ln 𝑝 𝒁|𝝅 + 𝐸 𝝁,𝚲 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝝅 ln 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝐸 𝝁,𝚲 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑧 𝑛𝑘 𝐸 𝝅 ln 𝜋 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 &&&&&&&&&&&&&&&&&+ 𝑧 𝑛𝑘 𝐸 𝝁,𝚲 1 2 ln 𝚲 𝑘 − 𝐷 2 ln 2𝜋 &− 1 2 𝒙 𝑛 − 𝝁 𝑘 𝑇 𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 (10.41) (10.42) (10.43) (10.44)
  • 29. 例:変分混合ガウス分布 (4)  分解した変分近似による事後分布の推定(続き) したがって, ln 𝑞∗ 𝒁 &= 𝑧 𝑛𝑘 ln 𝜌 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 ただし, ln 𝜌 𝑛𝑘 = 𝐸 𝝅 𝒌 ln 𝜋 𝑘 + 1 2 𝐸 𝝁 𝒌,𝚲 𝐤 ln 𝚲 𝑘 − 𝐷 2 ln 2𝜋 &− 1 2 𝐸 𝝁 𝐤,𝚲 𝐤 𝒙 𝑛 − 𝝁 𝑘 𝑇 𝚲 𝑘 𝒙 𝑛 − 𝝁 𝑘 両辺の指数をとって 𝑞∗ 𝒁 ∝ 𝜌 𝑛𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 全ての𝑍に対して和をとると1になるので, 𝑞∗ 𝒁 = 𝑟𝑛𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 ただし, 𝑟𝑛𝑘 = 𝜌 𝑛𝑘 𝜌 𝑛𝑗𝑗=1 𝐸 𝑧 𝑛𝑘 = 𝑟𝑛𝑘より 𝑟𝑛𝑘は負担率を表す (10.45) (10.46) (10.47) (10.48), (10.49) (10.50)
  • 30. 例:変分混合ガウス分布 (5) ln 𝑞∗ 𝝅, 𝝁, 𝜦 を求める前に,負担率から計算できる3つの統計量を定義しておく 𝑁𝑘 = 𝑟𝑛𝑘 𝑁 𝑛=1 𝒙 𝑘 = 1 𝑁𝑘 𝑟𝑛𝑘 𝒙 𝑛 𝑁 𝑛=1 𝑺 𝑘 = 1 𝑁𝑘 𝑟𝑛𝑘 𝒙 𝑛 − 𝒙 𝑘 𝒙 𝑛 − 𝒙 𝑘 𝑇 𝑁 𝑛=1 次に, ln 𝑞∗ 𝝅, 𝝁, 𝜦 を求める ln 𝑞∗ 𝝅, 𝝁, 𝜦 &= 𝐸 𝒁 ln 𝑝 𝑿, 𝒁, 𝝅, 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 𝑝 𝒁|𝝅 𝑝 𝝅 𝑝 𝝁|𝚲 𝑝 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝑝 𝑿|𝒁, 𝝁, 𝚲 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + ln 𝑝 𝝁, 𝚲 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝐾 𝑘=1 𝑁 𝑛=1 + 𝐸 𝒁 ln 𝑝 𝒁|𝝅 &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+ ln 𝑝 𝝅 + ln 𝑝 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 (10.51) (10.52) (10.53) (10.54)
  • 31. 例:変分混合ガウス分布 (6) したがって, ln 𝑞∗ 𝝅, 𝝁, 𝜦 = ln 𝑞∗ 𝝅 + ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 𝑞∗ 𝝅, 𝝁, 𝜦 = 𝑞∗ 𝝅 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 𝐾 𝑘=1 ただし, ln 𝑞∗ 𝝅 = 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡 ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 = ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 とおいた.(10.55)式は変分事後分布𝑞∗ 𝝅, 𝝁, 𝜦 が,変分近似でおいた仮定以 上にさらに分解されることを意味する.→&導出された分解(10.2.5節) (10.55)
  • 32. 例:変分混合ガウス分布 (7) ln 𝑞∗ 𝝅 &= 𝐸 𝒁 ln 𝑝 𝒁|𝝅 + ln 𝑝 𝝅 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝒁 ln 𝜋 𝑘 𝑧 𝑛𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + ln 𝐶 𝛼0 𝜋 𝑘 𝛼0−1 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝐸 𝑍 𝑧 𝑛𝑘 ln 𝜋 𝑘 𝐾 𝑘=1 𝑁 𝑛=1 + 𝛼0 − 1 ln 𝜋 𝑘 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= 𝑁𝑘 + 𝛼0 − 1 ln 𝜋 𝑘 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 &= ln 𝜋 𝑘 𝑁 𝑘+𝛼0−1 𝐾 𝑘=1 + 𝑐𝑜𝑛𝑠𝑡 したがって,𝑞∗ 𝝅 はディリクレ分布となる 𝑞∗ 𝝅 = 𝐷𝑖𝑟 𝝅|𝜶 𝛼 𝑘 = 𝑁𝑘 + 𝛼0 (10.56) (10.57) (10.58)
  • 33. 例:変分混合ガウス分布 (8) ln 𝑞∗ 𝝁 𝒌, 𝚲 𝒌 &= ln 𝑝 𝝁 𝒌, 𝚲 𝒌 + 𝐸 𝒁 𝑧 𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &= ln 𝑁 𝝁 𝑘|𝒎0, 𝛽0 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾0, 𝜈0 &+ 𝑟𝑛𝑘 ln 𝑁 𝒙 𝑛|𝝁 𝑘, 𝚲 𝑘 −1 𝑁 𝑛=1 + 𝑐𝑜𝑛𝑠𝑡 &(導出は演習10.13の解答:サポートページからダウンロードできる) &= ln 𝑁 𝝁 𝑘|𝒎 𝑘, 𝛽 𝑘 𝚲 𝑘 −1 𝑊 𝚲 𝑘|𝑾 𝑘, 𝜈 𝑘 したがって,𝑞∗ 𝝁 𝒌, 𝚲 𝒌 はガウス-ウィシャート分布となる 𝛽 𝑘 = 𝛽0 + 𝑁𝑘 𝒎 𝑘 = 1 𝛽 𝑘 𝛽0 𝒎0 + 𝑁𝑘 𝒙 𝑘 𝑾 𝑘 −1 = 𝑾0 −1 + 𝑁𝑘 𝑺 𝑘 + 𝛽0 𝑁𝑘 𝛽0 + 𝑁𝑘 𝒙 𝑘 − 𝒎0 𝒙 𝑘 − 𝒎0 𝑇 𝜈 𝑘 = 𝜈0 + 𝑁𝑘 (10.60) | (10.63) (10.59)
  • 34. 例:変分混合ガウス分布 (9)  変分混合ガウス分布の求め方のまとめ (1) 負担率 𝑟𝑛𝑘を初期化する (2) (10.51)-(10.53)で𝑁𝑘, 𝒙 𝑘, 𝑺 𝑘を求める (3) [Mステップ] (10.57)で𝑞∗ 𝝅 を,(10.59)で𝑞∗ 𝝁 𝑘, 𝚲 𝑘 &(𝑘 = 1 ⋯ 𝐾)を求 める (4) [Eステップ] (10.64)-(10.66)および(10.46)-(10.49)で負担率を計算 する ((10.64)-(10.66)は載せてないので本を参照のこと) (5) (2)に戻って収束するまで繰り返し更新する