SlideShare a Scribd company logo
1 of 29
PRML 9.3 EMアルゴリズム
山岡大輝
2
目次
前回の復習
9.3 EMアルゴリズムのもう一つの解釈(一般化)
9.3.1 混合ガウス分布再訪
9.3.2 K-meansとの関連
9.3.3 混合ベルヌーイ分布
9.3.4 ベイズ線形回帰に関するEMアルゴリズム
3
前回の復習
• 混合ガウス分布
• データ集合 𝐗 =
𝐱1
𝐓
⋮
𝐱 𝑁
𝐓
に対する尤度関数
• 対数尤度関数
logがexpに直接作用していない
4
前回の復習
• 対数尤度関数を最大にするパラメータをEMアルゴリズムで求める
1. 平均ࣆ 𝑘,分散઱ 𝑘,混合係数𝜋 𝑘を初期化,対数尤度の初期値を計算
2. 現在のパラメータ値で負担率を計算(更新)(Eステップ)
3. 負担率からパラメータ値を計算(更新)(Mステップ)
4. 更新したパラメータから対数尤度を計算,終了条件を満たしていれば終了
5
EMアルゴリズムのもう一つの解釈(一般化)
• EMアルゴリズムとは
潜在変数を含むモデルの学習を行う(最尤解を求める)ための最適化
アルゴリズム
• 具体的な目標:(対数)尤度関数𝑝 𝐗 𝜭)の最大化
実際には完全データ集合{X,Z}は与えられない
⇨ 代わりに事後分布𝑝 𝗭 𝐗, 𝜭 𝑜𝑙𝑑
)を計算(Eステップ)して期待値をとる
*不完全データ集合の場合の最大化は困難(2ページ前)
完全データ対数尤度関数の最大化は簡単であると仮定する
6
EMアルゴリズムの解釈(一般化)
• 目標: (対数)尤度関数𝑝 𝐗 𝜭)の最大化
⇨ 条件付き期待値 の最大化
• Mステップで関数𝑄を𝜭について最大化
Σがlogの外
関数𝑄の最大化は妥当? ⇨ 9.4節で証明
7
一般的なEMアルゴリズム
1. パラメータ𝜭 𝑜𝑙𝑑を初期化
2. 𝑝 𝗭 𝐗, 𝜭 𝑜𝑙𝑑
) (負担率)を計算(Eステップ)
3. パラメータ𝜭 𝑛𝑒𝑤
の更新
4. 更新したパラメータから対数尤度を計算,終了条件を満たしていれば終了
• 同時分布𝑝 𝐗, 𝗭 𝜭) は与えられている
8
混合ガウス分布への適用
潜在変数によるEMアルゴリズムの見方を混合ガウス分布に適用
• 完全データ尤度
• 完全データ対数尤度
9
混合ガウス分布への適用
• 完全データ対数尤度の期待値を計算
• 潜在変数𝐳 𝑛の事後分布(ベイズの定理より)
10
混合ガウス分布への適用
負担率
kに割り当てられる全てのデータ点について足し合わせ
・負担率の計算(Eステップ)
11
混合ガウス分布への適用
• 完全データ対数尤度の期待値
完全データ対数尤度の期待値を最大にするパラメータをMステップで計算
12
まとめ
1. パラメータ𝝁 𝑜𝑙𝑑, 𝚺 𝑜𝑙𝑑, 𝛑 𝑜𝑙𝑑を初期化
2. 負担率を計算(Eステップ)
3. パラメータ𝝁 𝑛𝑒𝑤
, 𝚺 𝑛𝑒𝑤
, 𝛑 𝑛𝑒𝑤
の更新
4. 更新したパラメータから対数尤度を計算,終了条件を満たしていれば終了
一般EMアルゴリズムの目標:完全データ対数尤度の最大化
13
K-meansとの関連
• K-means
二値変数𝑟𝑛𝑘によるハード割り当て
• 混合ガウス分布
負担率γ(𝑧 𝑛𝑘)によるソフト割り当て
混合ガウス分布に関するEMアルゴリズムのある極限としてK-meansを導
出できる
14
K-meansとの関連
• 各ガウス要素の共分散行列が𝜀𝑰(𝑰は単位行列)で与えられる場合の混合ガウ
スモデルを考える
• 負担率(潜在変数の事後確率)を計算する
ε → ∞の極限で, γ(𝑧 𝑛𝑘)と𝑟𝑛𝑘が一致する
15
K-meansとの関連
• 𝐱 − 𝝁 𝑗
2
が最小になる𝙟を𝙟∗とおく( 𝑟 𝑛 𝙟∗ = 1,すなわち𝜋 𝙟∗ = 1 )
ε → ∞の極限で, γ(𝑧 𝑛𝑘)と𝑟𝑛𝑘が一致する
16
K-meansとの関連
• Mステップにおける𝝁 𝑘の更新式
• 完全データ対数尤度の期待値
17
K-meansとの関連
• 完全データ対数尤度の期待値
• K-meansにおける歪み尺度
完全データ対数尤度の期待値の最大化は歪み尺度の最小化と等価
18
混合ベルヌーイ分布
混合ベルヌーイ分布に対してEMアルゴリズムを適用した学習を考える
• D個の二値変数𝑥𝑖は以下のベルヌーイ分布に従うと仮定
• 有限混合ベルヌーイ分布
• 対数尤度関数
19
EMアルゴリズムの導出
観測変数𝐱に付随する潜在変数𝘇 = (𝑧1, 𝑧2, ⋯ 𝑧 𝐾) 𝑇 を導入する
• 観測変数𝐱の条件付き確率 • 潜在変数の事前分布
• 𝐱と𝘇の同時分布(尤度関数)
20
EMアルゴリズムの導出
• データ集合𝐗 = {𝐱 𝑁},𝗭 = {𝘇 𝑁}に対する完全データ対数尤度関数
• データ集合𝐗 = {𝐱 𝑁},𝗭 = {𝘇 𝑁}に対する完全データ尤度関数
21
EMアルゴリズムの導出
• 完全データ対数尤度関数の期待値
• 負担率の計算(Eステップ)
22
EMアルゴリズムの導出
• 負担率の計算の続き
• 完全データ対数尤度の期待値
23
EMアルゴリズムの導出
• 完全データ対数尤度を最大にする各パラメータを求める(Mステップ)
• パラメータ𝝁 𝑘,𝜋 𝑘で微分して解を求める
24
𝝁 𝑘の直感的理解
例:手書き数字の分類に混合ベルヌーイ分布を利用
ピクセル数がDの手書き数字をD個の二値変数を要素に持つベクトルを
𝐱 = (𝑥1, 𝑥2, ⋯ 𝑥 𝐷) 𝑇
として与える
• 観測変数:𝐱
• 潜在変数: 𝘇 = (𝑧1, 𝑧2, ⋯ 𝑧 𝐾) 𝑇
• 完全データ対数尤度の期待値が最大となるパラメータを求める
25
𝝁 𝑘の直感的理解
各画像の4らしさ
文字4において各ピクセルが黒くなる度合い
26
ベイズ線形回帰に関するEMアルゴリズム
目標:周辺尤度𝒑 𝒕 𝜶, 𝜷)のα,βに関する最大化にEMアルゴリズムを利用
パラメータ𝐰は周辺化により消去されるため,潜在変数とみなす
• 完全データ対数尤度
尤度
𝐰の事前分布
27
ベイズ線形回帰に関するEMアルゴリズム
• 完全データ対数尤度の(𝐰の事後分布による)期待値の計算(Eステップ)
𝐰の事後分布
• αとβに関して微分して0とおくとMステップの更新式を得る
(3章とは見た目は異なる解になるが結果は同じ)
28
ベイズ線形回帰に関するEMアルゴリズム
• αの導出
29
ベイズ線形回帰に関するEMアルゴリズム
• βの導出

More Related Content

What's hot (9)

PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
Prml14 5
Prml14 5Prml14 5
Prml14 5
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
ディープボルツマンマシン入門〜後半〜
ディープボルツマンマシン入門〜後半〜ディープボルツマンマシン入門〜後半〜
ディープボルツマンマシン入門〜後半〜
 
Osaka prml reading_3.2-3.3.1
Osaka prml reading_3.2-3.3.1Osaka prml reading_3.2-3.3.1
Osaka prml reading_3.2-3.3.1
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 

More from hiroki yamaoka (14)

PRML1.5
PRML1.5PRML1.5
PRML1.5
 
PRML1.3
PRML1.3PRML1.3
PRML1.3
 
DQN
DQNDQN
DQN
 
PRML6.4
PRML6.4PRML6.4
PRML6.4
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
PRML5.5
PRML5.5PRML5.5
PRML5.5
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
強化学習4章
強化学習4章強化学習4章
強化学習4章
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
強化学習2章
強化学習2章強化学習2章
強化学習2章
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
RL_chapter1_to_chapter4
RL_chapter1_to_chapter4RL_chapter1_to_chapter4
RL_chapter1_to_chapter4
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 

PRML9.3