More Related Content Similar to 混合モデルとEMアルゴリズム(PRML第9章)
Similar to 混合モデルとEMアルゴリズム(PRML第9章) (20) 混合モデルとEMアルゴリズム(PRML第9章)4. K-meansクラスタリングのアルゴリズム (1)
データの表現
データ集合 𝒙1 , 𝒙2 , ⋯ , 𝒙 𝑁
𝒙 𝑛 :多次元ベクトルデータ
𝑁個のデータ𝒙1 ~ 𝒙 𝑁 を𝐾個のグループ
(クラス)に分類することが目的
一対K符号化法(1-of-K coding scheme)
各データ𝒙 𝑛 が所属するクラスを表す𝐾次元のベクトル
𝑟 𝑛1 , 𝑟 𝑛2 , ⋯ , 𝑟 𝑛𝐾
𝒙 𝑛 がクラス𝑘に属するとき
(それ以外)
𝑟 𝑛1 , 𝑟 𝑛2 , ⋯ , 𝑟 𝑛𝐾 のうち,1つだけが1でそれ以外は0
𝑟 𝑛𝑘 =
1
0
7. K-meansクラスタリングのアルゴリズム (4)
(1) 𝝁 𝑘 を固定して𝑟 𝑛𝑘 を最適化
𝑁
𝐾
𝐽=
𝑟 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘
2
𝑛=1 𝑘=1
𝐾
=
𝐾
𝑟1𝑘 𝒙1 − 𝝁 𝑘
2
+ ⋯+
𝑘=1
𝑟 𝑁𝑘 𝒙 𝑁 − 𝝁 𝑘
2
𝑘=1
• 各項において,𝑟 𝑛𝑘 はK個のうち1つだけが1で,残りは全て0
なので,n番目のデータ𝒙 𝑛 を𝝁 𝑘 が最も近いクラスに割り当て
れば各項( 𝒙 𝑛 と𝝁 𝑘 の距離)が最小になる
𝑟 𝑛𝑘
1
=
0
𝑘 = arg min 𝒙 𝑛 − 𝝁 𝑗
𝑗
それ以外
2
(9.2)
8. K-meansクラスタリングのアルゴリズム (5)
(2) 𝑟 𝑛𝑘 を固定して𝝁 𝑘 を最適化
𝑁
𝐾
𝐽=
𝑟 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘
2
𝑛=1 𝑘=1
この指標値𝐽は𝝁 𝑘 に関する2次関数なので, 𝝁 𝑘 に関して偏微分
して0とおくと最小化できる
𝑁
𝐽=
𝑁
𝑟 𝑛1 𝒙 𝑛 − 𝝁1
𝑛=1
𝜕𝐽
𝜕
=
𝜕𝝁 𝑘
𝜕𝝁 𝑘
2
+ ⋯+
𝑟 𝑛𝐾 𝒙 𝑛 − 𝝁 𝐾
𝑛=1
𝑁
𝑟 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘
2
𝑛=1
𝑁
=2
𝑟 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘
𝑛=1
𝑁
2
2
𝑟 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘 = 0
𝑛=1
(9.3)
⇒
𝝁𝑘 =
𝑁
𝑛=1 𝑟 𝑛𝑘 𝒙 𝑛
𝑁
𝑛=1 𝑟 𝑛𝑘
(9.4)
K番目のクラ
スに属する
データの和
K番目のクラ
スのデータ数
13. 潜在変数を用いた定式化(1)
混合ガウス分布
𝐾
𝑝 𝒙 =
ただし,𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘 =
𝑘=1
1
1
2𝜋
𝐷
2
(9.7)
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
𝚺
1
𝒌 2
exp −
1
2
𝒙− 𝝁𝑘
𝑇 𝚺 −1
𝑘
𝒙− 𝝁𝑘
(2.43)
潜在変数による表現
𝐾次元の2値確率変数𝒛: 1-of-K表現, 例)𝒛 = 0, 0, 1, 0, ⋯ , 0
(どれか1つの𝑧 𝑘 だけが1で,他は0)
𝐾
𝑝 𝑧𝑘 = 1 = 𝜋𝑘
0 ≤ 𝜋 𝑘 ≤ 1,
𝜋𝑘 = 1
(9.8), (9.9)
𝑘=1
1-of-K表現の場合,𝑧 𝑘 はどれか1つだけ1となるので,
𝐾
𝑧
𝜋𝑘𝑘
𝑝 𝒛 = 𝑝 𝑧1 , ⋯ , 𝑧 𝐾 =
𝑘=1
(9.10)
15. 潜在変数を用いた定式化(3)
𝒙の周辺分布
𝑝 𝒙 =
𝑝 𝒙, 𝒛
𝒛
𝐾
=
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
𝒛
𝑧𝑘
𝑘=1
𝒛の全ての場合( 𝒛 = 1, 0, ⋯ , 0 , 0, 1, 0, ⋯ , 0 , ⋯ , 0, ⋯ , 0, 1 )に
ついて和を取ると,
𝑝 𝒙 = 𝜋1 𝑁 𝒙|𝝁1 , 𝚺1 + ⋯ + 𝜋 𝐾 𝑁 𝒙|𝝁 𝐾 , 𝚺 𝐾
𝐾
=
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
𝑘=1
(9.12)
混合ガウス分布
16. 潜在変数を用いた定式化(3)
負担率(データ𝒙が与えられた下での𝑧 𝑘 = 1の確率)
𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝒙 =
=
=
=
𝑝 𝑧 𝑘 = 1, 𝒙
𝑝 𝒙
𝑝 𝒙|𝑧 𝑘 = 1 𝑝 𝑧 𝑘 = 1
𝐾
𝑗=1
𝑝 𝒙, 𝑧 𝑗 = 1
𝑝 𝒙|𝑧 𝑘 = 1 𝑝 𝑧 𝑘 = 1
𝐾
𝑗=1
𝑝 𝑧 𝑗 = 1 𝑝 𝒙, |𝑧 𝑗 = 1
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
𝐾
𝑗=1
𝜋 𝑗 𝑁 𝒙|𝝁 𝑗 , 𝚺 𝑗
(9.13)
𝑝 𝑧𝑘 = 1 = 𝜋𝑘
𝑝 𝒙|𝑧 𝑘 = 1 = 𝑵 𝑥|𝝁 𝑘 , 𝚺 𝑘
ラベル付き
データ
ラベルなし
データ
負担率を色で表
したデータ
17. 混合ガウス分布の最尤推定(1)
観測したデータ集合𝐗 = 𝒙1 , ⋯ , 𝒙 𝑁 に混合ガウス分布をあては
める問題を考える
各データ点が独立に観測されると仮定すると,
𝑁
ln 𝑝 𝑿|𝝅, 𝝁, 𝚺 = ln
𝑝 𝒙 𝑛 |𝝅, 𝝁, 𝚺
𝑛=1
𝑁
=
ln 𝑝 𝒙 𝑛 |𝝅, 𝝁, 𝚺
𝑛=1
𝑁
=
𝐾
ln
𝑛=1
(対数)尤度:
このデータ組が
観測される確率
𝜋 𝑘 𝑁 𝒙 𝑛 |𝝁 𝑘 , 𝚺 𝑘
(9.14)
𝑘=1
最尤推定法では,この尤度が最大(つまりこのデータ組が観測
される確率が最大)になるように,確率密度関数のパラメータ
𝝅, 𝝁, 𝚺を求める
20. 混合ガウス分布の最尤推定(4)
同様に,共分散行列𝚺 𝑘 に関する偏微分を0とおいて
𝚺𝑘 =
1
𝑁𝑘
𝑁
𝛾 𝑧 𝑛𝑘
𝒙𝑛− 𝝁𝑘
𝒙𝑛− 𝝁𝑘
𝑛=1
𝑻
(9.19)
負担率による
重み付き共分散行列
最後に,混合係数𝜋 𝑘 に関して最大化する
𝐾
ただし, 𝑘=1 𝜋 𝑘 = 1という制約条件を満たさなければいけな
いので,ラグランジュ未定乗数法を利用して,以下の指標値を
最大にする𝜋 𝑘 を求める
𝐾
ln 𝑝 𝑿|𝝅, 𝝁, 𝚺 + 𝜆
(9.20)
𝜋𝑘 −1
𝑘=1
対数尤度
ラグランジュ
の未定定数
制約条件
21. 混合ガウス分布の最尤推定(5)
𝜋 𝑘 で偏微分して0とおくと,
𝑁
𝑁 𝒙 𝑛 |𝝁 𝑘 , 𝚺 𝑘
𝑛=1
𝐾
𝑗=1 𝜋 𝑗
𝑁
𝑛=1
𝑁 𝒙 𝑛 |𝝁 𝑗 , 𝚺 𝑗
+ 𝜆=0
𝛾 𝑧 𝑛𝑘
+ 𝜆=0
𝜋𝑘
𝐾
𝑁
𝜆=−
𝛾 𝑧 𝑛𝑘 = −𝑁
(9.21)
𝛾 𝑧 𝑛𝑘
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
= 𝐾
𝑗=1 𝜋 𝑗 𝑁 𝒙|𝝁 𝑗 , 𝚺 𝑗
𝑘=1 𝑛=1
したがって,
𝑁
𝑛=1
𝜋𝑘 =
𝛾 𝑧 𝑛𝑘
− 𝑁=0
𝜋𝑘
1
𝑁
𝑁
𝛾 𝑧 𝑛𝑘 =
𝑛=1
𝑁𝑘
𝑁
(9.22)
23. 混合ガウス分布の最尤推定(7)
混合ガウス分布のためのEMアルゴリズム
1.
平均𝝁 𝑘 ,分散𝚺 𝑘 ,混合係数𝜋 𝑘 を初期化する
2.
Eステップ:現在のパラメータを使って負担率を計算する
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
(9.23)
𝛾 𝑧 𝑛𝑘 = 𝐾
𝑗=1 𝜋 𝑗 𝑁 𝒙|𝝁 𝑗 , 𝚺 𝑗
3.
Mステップ:現在の負担率を使ってパラメータを更新する
𝑁
1
𝝁𝑘 =
𝑁𝑘
1
𝚺𝑘 =
𝑁𝑘
𝛾 𝑧 𝑛𝑘
𝑛=1
(9.24)
𝑛=1
𝑁
1
𝜋𝑘 =
𝑁
4.
𝛾 𝑧 𝑛𝑘 𝒙 𝑛
𝒙𝑛− 𝝁𝑘
𝑁
𝛾 𝑧 𝑛𝑘
𝑛=1
ただし,
𝒙𝑛− 𝝁𝑘
𝑁𝑘
=
𝑁
𝑻
(9.25)
(9.26)
𝑁
𝑁𝑘 =
𝛾 𝑧 𝑛𝑘
𝑛=1
(9.27)
収束性を確認し,収束基準を満たしていない場合,2に戻って繰り返
し計算する
29. 混合ガウス分布再訪(2)
潜在変数の事後確率
完全データ集合に対する対数尤度
𝑵
𝑲
ln 𝑝 𝑿, 𝒁|𝝁, 𝚺, 𝝅 =
(9.36)
𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝒏=𝟏 𝒌=𝟏
潜在変数𝒁の事後確率
𝑝 𝒁|𝑿, 𝝁, 𝚺, 𝝅 = 𝑝 𝑿, 𝒁|𝝁, 𝚺, 𝝅 /𝑝 𝑿
𝑵
𝐾
∝ 𝑝 𝑿, 𝒁|𝝁, 𝚺, 𝝅 =
𝜋 𝑘 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝑧 𝑛𝑘
(9.38)
𝒏=𝟏 𝑘=1
この式はnについて積の形をしているので,各𝒛 𝑛 の事後確率は正規化定数も
含めて,
𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅 =
𝐾
𝑘=1 𝜋 𝑘 𝑁
𝐾
𝒛𝑛
𝑗=1 𝜋 𝑗
𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝑁 𝒙 𝒏 |𝝁 𝑗 , 𝚺 𝑗
𝑧 𝑛𝑘
𝑧 𝑛𝑗
30. 混合ガウス分布再訪(3)
潜在変数𝑧 𝑛𝑘 の期待値 → 負担率に一致
事後分布𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅 に関する𝑧 𝑛𝑘 の期待値は
𝐸 𝑧 𝑛𝑘 =
𝑧 𝑛𝑘 𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅
𝒛𝑛
𝐾
𝑘 ′ =1
𝐾
𝒛 𝑛′
𝑗=1
𝑧 𝑛𝑘
=
𝒛𝑛
=
𝒛𝑛
𝑧 𝑛𝑘
𝒛𝑛
𝐾
𝑘 ′ =1
𝐾
𝑗=1
𝜋 𝑘 ′ 𝑁 𝒙 𝒏 |𝝁 𝑘 ′ , 𝚺 𝑘 ′
𝜋 𝑗 𝑁 𝒙 𝑛′ |𝝁 𝑗 , 𝚺 𝑗
𝑧 𝑛′ 𝑗
𝑧 𝑛𝑘′
𝜋 𝑘 ′ 𝑁 𝒙 𝒏 |𝝁 𝑘 ′ , 𝚺 𝑘 ′
𝜋 𝑗 𝑁 𝒙 𝒏 |𝝁 𝑗 , 𝚺 𝑗
𝑧 𝑛𝑘′
𝑧 𝑛𝑗
𝒛 𝑛 の全ての場合(𝒛 𝑛 = 1, 0, ⋯ , 0 , 0, 1, 0, ⋯ , 0 , ⋯ , 0, ⋯ , 0, 1 )について和
を取る.分子は𝑧 𝑛𝑘 = 1の項だけのこるので,
𝜋 𝑘 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝐸 𝑧 𝑛𝑘 = 𝐾
= 𝛾 𝑧 𝑛𝑘
𝑗=1 𝜋 𝑗 𝑁 𝒙 𝒏 |𝝁 𝑗 , 𝚺 𝑗
(9.39)
負担率
31. 混合ガウス分布再訪(4)
完全データ集合の対数尤度関数の期待値
𝐸 𝒛 ln 𝑝 𝑿, 𝒁|𝝁, 𝚺, 𝝅
=
𝑝 𝒁|𝑿, 𝝁, 𝚺, 𝝅 ln 𝑝 𝑿, 𝒁|𝝁, 𝚺, 𝝅
𝒛
Nに関して独立
なので
=
𝑁
𝑝 𝒁|𝑿, 𝝁, 𝚺, 𝝅
𝒛
𝑁
ln 𝑝 𝒙 𝑛 , 𝒛 𝑛 |𝝁, 𝚺, 𝝅
𝑛=1
=
𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅 ln 𝑝 𝒙 𝑛 , 𝒛 𝑛 |𝝁, 𝚺, 𝝅
𝑛=1 𝒛 𝒏
𝑵
𝑲
=
=
𝑧 𝑛𝑘 𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅 ln 𝜋 𝑘 + ln 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝒏=𝟏 𝒌=𝟏 𝒛 𝒏
𝑵
𝑲
=
ln 𝜋 𝑘 + ln 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝒏=𝟏 𝒌=𝟏
𝑵
𝑧 𝑛𝑘 𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅
𝒛𝑛
𝑲
=
𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝑁 𝒙 𝒏 |𝝁 𝑘 , 𝚺 𝑘
𝒏=𝟏 𝒌=𝟏
(9.40)
32. 混合ガウス分布再訪(5)
混合ガウス分布のためのEMアルゴリズム
1.
平均𝝁 𝑘 ,分散𝚺 𝑘 ,混合係数𝜋 𝑘 を初期化する
2.
Eステップ:現在のパラメータを使って負担率を計算する(潜在変数𝑧 𝑛𝑘 の
𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝚺, 𝝅 に関する期待値)
𝜋 𝑘 𝑁 𝒙|𝝁 𝑘 , 𝚺 𝑘
𝛾 𝑧 𝑛𝑘 = 𝐾
𝑗=1 𝜋 𝑗 𝑁 𝒙|𝝁 𝑗 , 𝚺 𝑗
3.
Mステップ:現在の負担率を使ってパラメータを更新する(これらの更新式は,
完全データ集合対数尤度関数期待値をパラメータで偏微分して0とおくと導出で
きる)
𝝁𝑘 =
𝚺𝑘 =
1
𝑁𝑘
1
𝑁𝑘
𝛾 𝑧 𝑛𝑘 𝒙 𝑛
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
𝑛=1
𝜋𝑘 =
4.
𝑁
1
𝑁
𝒙𝑛− 𝝁𝑘
𝑻
ただし,
𝑁
𝑁
𝛾 𝑧 𝑛𝑘 =
𝑛=1
𝒙𝑛− 𝝁𝑘
𝑁𝑘
𝑁
𝑁𝑘 =
収束基準を満たしていない場合,2に戻って繰り返し計算する
𝛾 𝑧 𝑛𝑘
𝑛=1
33. K-meansとの関連
混合ガウス分布のモデルにおいて,各ガウス要素の共分散行列が𝜖𝑰で与え
られる場合を考える
1
1
𝑝 𝒙|𝝁 𝑘 , 𝚺 𝑘 =
exp −
𝒙− 𝝁𝑘 2
(9.41)
𝐷
2𝜖
2𝜋𝜖 2
このとき,負担率は,
𝒙𝑛− 𝝁𝑘 2
𝜋 𝑘 exp −
2𝜖
𝛾 𝑧 𝑛𝑘 =
2
(9.42)
𝒙 𝑛 − 𝝁𝑗
𝜋 𝑗 exp −
𝑗
2𝜖
𝜖 → 0の極限を考えると,分母は 𝒙 𝑛 − 𝝁 𝑗 が最小になるjに対して最も遅く0
に近づくため,𝛾 𝑧 𝑛𝑘 は 𝒙 𝑛 − 𝝁 𝑘 が最小になるkに対して1に収束し,それ
以外に対しては0に収束する
→ クラスへのハード割り当て(単一のガウス分布に各データを割り当て)
となり,K-meansクラスタリングと一致する(平均ベクトルの更新式も一致
する)
35. 混合ベルヌーイ分布(2)
混合ベルヌーイ分布(潜在クラス分析)
ベルヌーイ分布の有限混合分布
𝐾
𝑝 𝒙|𝝁, 𝝅 =
𝐾
𝐷
𝜋 𝑘 𝑝 𝒙|𝝁 𝑘 =
𝑘=1
𝑥
𝜇 𝑘𝑖𝑖 1 − 𝜇 𝑘𝑖
𝜋𝑘
𝑘=1
1−𝑥 𝑖
(9.47)
𝑖=1
混合分布の期待値と分散は,
𝐾
𝑘=1
期待値:𝐸 𝒙 =
共分散:cov 𝒙 =
(9.49)
𝝅𝑘 𝝁𝑘
𝐾
𝑘=1
𝑇
𝝅 𝑘 𝚺 𝑘 + 𝝁 𝑘 𝝁 𝑘 − 𝐸 𝒙 𝐸 𝒙 𝑇]
(9.50)
対数尤度関数
𝑁
ln 𝑝 𝑿|𝝁, 𝝅 =
𝐾
ln
𝑛=1
𝜋 𝑘 𝑝 𝒙|𝝁 𝑘
𝑘=1
対数の中に和の形が現れ,最尤解を陽の形で求められない
→EMアルゴリズムで解く
(9.51)
36. 混合ベルヌーイ分布(3)
潜在変数による表現
𝐾次元の2値確率変数𝒛 = 𝑧1 , ⋯ , 𝑧 𝑛 : 1-of-K表現, 例)𝒛 = 0, 0, 1, 0, ⋯ , 0
𝒛が与えられてた下での𝒙の条件付き分布は
𝐾
𝑝 𝒙|𝒛, 𝝁 =
𝐾
𝑝 𝒙|𝝁 𝑘
𝑧𝑘
𝑘=1
𝑧𝑘
𝐷
𝑥
𝜇 𝑘𝑖𝑖 1 − 𝜇 𝑘𝑖
=
𝑘=1
1−𝑥 𝑖
(9.52)
𝑖=1
ただし,潜在変数についての事前分布𝑝 𝒛|𝝅 は
𝐾
(9.53)
𝑧
𝜋𝑘𝑘
𝑝 𝒛|𝝅 =
𝑘=1
観測変数と潜在変数の同時分布
𝐾
𝑝 𝒙, 𝒛|𝝁, 𝝅 = 𝑝 𝒙|𝒛, 𝝁 𝑝 𝒛|𝝅 =
𝑘=1
𝐾
=
𝑘=1
𝑧𝑘
𝐷
𝜋𝑘
𝜇𝑖
𝑖=1
𝑥𝑖
𝑧𝑘
𝜋 𝑘 𝑝 𝒙|𝝁 𝑘
1 − 𝜇𝑖
1−𝑥 𝑖
37. 混合ベルヌーイ分布(4)
完全データ集合に対する対数尤度関数
したがって,完全データ集合に対する対数尤度関数は,
𝑁
ln 𝑝 𝑿, 𝒁|𝝁, 𝝅 =
ln 𝑝 𝒙 𝑛 , 𝒛 𝑛 |𝝁, 𝝅
𝑛=1
𝑁
𝐾
=
𝐷
𝑥
𝜇 𝑘𝑖𝑛𝑖 1 − 𝜇 𝑘𝑖
𝑧 𝑛𝑘 ln 𝜋 𝑘
𝑛=1 𝑘=1
𝑁
𝑖=1
𝐾
=
(9.54)
𝐷
𝑧 𝑛𝑘 ln 𝜋 𝑘 +
𝑛=1 𝑘=1
1−𝑥 𝑛𝑖
𝑥 𝑛𝑖 ln 𝑢 𝑘𝑖 + 1 − 𝑥 𝑛𝑖 ln 1 − 𝜇 𝑘𝑖
𝑖=1
潜在変数の事後確率と負担率はガウス混合分布と同様に導出して,
𝐾
𝑧 𝑛𝑘
𝑘=1 𝜋 𝑘 𝑝 𝒙 𝒏 |𝝁 𝑘
𝑝 𝒛 𝑛 |𝒙 𝑛 , 𝝁, 𝝅 =
𝑧 𝑛𝑗
𝐾
𝜋 𝑗 𝑝 𝒙 𝒏 |𝝁 𝑗
𝒛𝑛
𝑗=1
𝜋 𝑘 𝑝 𝒙 𝒏 |𝝁 𝑘
𝐸 𝑧 𝑛𝑘 = 𝐾
= 𝛾 𝑧 𝑛𝑘
(9.56)
𝑗=1 𝜋 𝑗 𝑝 𝒙 𝒏 |𝝁 𝑗
38. 混合ベルヌーイ分布(5)
潜在変数の事後確率に関する完全データ集合対数尤度関数の
期待値
𝐸 𝒁 ln 𝑝 𝑿, 𝒁|𝝁, 𝝅
𝑁
𝐾
=
𝐷
𝛾 𝑧 𝑛𝑘
ln 𝜋 𝑘 +
𝑛=1 𝑘=1
𝑥 𝑛𝑖 ln 𝜇 𝑘𝑖 + 1 − 𝑥 𝑛𝑖 ln 1 − 𝜇 𝑘𝑖
𝑖=1
対数尤度の最大化
(9.55)
上式を𝝁 𝑘 に関して偏微分して0とおいて整理すると
1
𝝁𝑘 =
𝑁𝑘
𝑁
𝛾 𝑧 𝑛𝑘 𝒙 𝑛
𝑛=1
(9.59)
𝑁
ただし,𝑁 𝑘 = 𝑛=1 𝛾 𝑧 𝑛𝑘
同様に,𝜋 𝑘 に関しても 𝑘 𝜋 𝑘 = 1を制約としたラグランジュ未定乗数法を用
いて, 𝜋 𝑘 に関する偏微分を0とおいて整理すると
𝑁𝑘
(9.60)
𝜋𝑘 =
𝑁
41. 一般のEMアルゴリズム(1)
EMアルゴリズムの目的
観測されない潜在変数があるときの尤度関数最大化
𝑝 𝑿|𝜽 =
(9.69)
𝑝 𝑿, 𝒁|𝜽
𝒁
これを直接最適化することは難しいが,完全データ対数尤度関数
ln 𝑝 𝑿, 𝒁|𝜽 の最適化は容易であると仮定する
尤度関数の分解
ただし,
ln 𝑝 𝑿|𝜽 の下界
ln 𝑝 𝑿|𝜽 = 𝐿 𝑞, 𝜽 + 𝐾𝐿 𝑞||𝑝
(9.70)
𝑝 𝑿, 𝒁|𝜽
𝑞 𝒁
(9.71)
𝐿 𝑞, 𝜽 =
𝑞 𝒁 ln
𝒁
𝐾𝐿 𝑞||𝑝 = −
𝒁
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁 ln
𝑞 𝒁
(9.72)
𝑝 𝑍|𝑋, 𝜃 と𝑞 𝑍 のKullback-Leiblerダイバージェンス
42. 一般のEMアルゴリズム(2)
尤度関数分解の導出
𝐿 𝑞, 𝜽 + 𝐾𝐿 𝑞||𝑝 =
𝒁
=
𝒁
=
𝑝 𝑿, 𝒁|𝜽
𝑞 𝒁 ln
𝑞 𝒁
𝒁
𝑝 𝒁|𝑿, 𝜽 𝑝 𝑿|𝜽
𝑞 𝒁 ln
𝑞 𝒁
𝑞 𝒁
ln
𝒁
=
−
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁
𝑞 𝒁 ln 𝑝 𝑿|𝜽
𝒁
= ln 𝑝 𝑿|𝜽
= ln 𝑝 𝑿|𝜽
𝑞 𝒁
𝒁
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁 ln
𝑞 𝒁
−
𝒁
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁 ln
𝑞 𝒁
+ ln 𝑝 𝑿|𝜽 − ln
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁
43. 一般のEMアルゴリズム(3)
尤度関数の分解
ln 𝑝 𝑿|𝜽 = 𝐿 𝑞, 𝜽 + 𝐾𝐿 𝑞||𝑝
ただし,
𝑝 𝑿, 𝒁|𝜽
𝐿 𝑞, 𝜽 =
𝑞 𝒁 ln
𝑞 𝒁
𝒁
𝐾𝐿 𝑞||𝑝 = −
𝒁
𝑝 𝒁|𝑿, 𝜽
𝑞 𝒁 ln
𝑞 𝒁
EMアルゴリズム
Eステップ
現在のパラメータ𝜽 𝑜𝑙𝑑 を固定して𝑞 𝒁 について𝐿 𝑞, 𝜽 を最大化する.
ln 𝑝 𝑿|𝜽 𝑜𝑙𝑑 は𝑞 𝒁 に依存せず,KLダイバージェンスが必ず0以上なので,
𝐿 𝑞, 𝜽 は𝐾𝐿 𝑞||𝑝 = 0のとき最大となる.すなわち𝑞 𝒁 = 𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 .
Mステップ
𝑞 𝒁 を固定して𝐿 𝑞, 𝜽 を𝜽について最大化する.
𝑝 𝒁|𝑿, 𝜽 𝑛𝑒𝑤 は𝑞 𝒁 と一致するとは限らず0以上の値をとる.つまり,
𝐿 𝑞, 𝜽 を𝜽について最大化することにより,ln 𝑝 𝑿|𝜽 は必ず増加する.
44. 一般のEMアルゴリズム(4)
Mステップにおける𝐿 𝑞, 𝜽
𝐿 𝑞, 𝜽 =
𝒁
𝑝 𝑿, 𝒁|𝜽
𝑞 𝒁 ln
𝑞 𝒁
にEステップで推定された𝑞 𝒁 = 𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 を代入して,
𝑝 𝑿, 𝒁|𝜽
𝑜𝑙𝑑 ln
𝐿 𝑞, 𝜽 =
𝑝 𝒁|𝑿, 𝜽
𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑
𝒁
𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 ln 𝑝 𝑿, 𝒁|𝜽 −
=
𝒁
𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 ln 𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑
𝒁
𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 ln 𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑
= 𝐸 𝒛 ln 𝑝 𝑿, 𝒁|𝜽 −
𝒁
(9.74)
第2項目は𝜽に依存しないので,Mステップの最適化には関係ない.
つまり,第1項目の完全データ対数尤度の事後確率𝑝 𝒁|𝑿, 𝜽 𝑜𝑙𝑑 に関する期
待値を最大化することになり,前で説明したEMアルゴリズムと一致する