More Related Content
Similar to PRML復々習レーン#14 ver.2 (20)
PRML復々習レーン#14 ver.2
- 2. §9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(1)
¡ 単⼀一のガウス分布ではデータの特徴をうまく表現できないが、2つの
ガウス分布の線形結合であれば、データの特徴をうまく表現できる例例
図 2.21 Old Faithful間⽋欠泉の272の噴出の計測データ
横軸は噴出の持続時間(単位:分) 縦軸は次回の噴出までの時間(単位:分)
- 3. §9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(2)
¡ 3つの1次元ガウス関数の重み付き和で表した混合ガウス分布の例例
¡ ⼗十分な数のガウス分布を⽤用い、重み係数、各分布の平均、分散を調節
すれば、ほぼ任意の連続な密度度関数を任意の精度度で近似できる
図 2.22 3つのガウス分布の重み付きの和(⾚赤線)と和をとる前の3つのガ
ウス分布(⻘青線、重み付けの係数に応じた⽐比率率率で縮⼩小してある)
p(x) = πk N(x | µk,σk
2
)
k=1
3
∑
- 4. §9.2 混合ガウス分布
(Mixtures of Gaussians)
§2.3.9混合ガウス分布の復復習(3)
¡ 2次元中の3要素の混合ガウス分布の例例
図 2.23
(a) ⾚赤、緑、⻘青で3つの混合要素の等⾼高線を混合係数とともに表した図
(b) 混合密度度関数p(x)の等⾼高線
(c) 分布p(x)の曲⾯面グラフ
p(x) = πk N(x | µk,Σk )
k=1
3
∑
- 5. §9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ §2.3.9で⾒見見てきたように、下記の混合ガウス分布は、単⼀一
のガウス分布よりも複雑な確率率率密度度モデルを提供する
¡ §9.2では離離散的な潜在変数(latent variable)を⽤用いた混合
ガウス分布の定式化を⾏行行う
p(x) = πk N(x | µk,Σk )
k=1
K
∑
- 6. ¡ ベクトル z はK種類の状態をとる
確率率率変数とみなせる
¡ 周辺分布p(z)と条件付き分布
p(x|z)で同時分布p(x,z)を表す
§9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ K次元の2値確率率率変数 z を導⼊入
¡ zはどれか⼀一つが1でそれ以外は0
1-of-K表現
z =
z1
z2
zK
!
"
#
#
#
#
#
$
%
&
&
&
&
&
z =
0
1
0
0
!
"
#
#
#
#
#
#
$
%
&
&
&
&
&
&
zの例例
zk ∈ {0,1}
zk
k=1
K
∑ =1
図 9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
- 7. §9.2 混合ガウス分布
(Mixtures of Gaussians)
p(zk =1) = πk
¡ zの周辺分布は、以下のように混合
係数πkによって定まる
¡ 上記のように、πkは確率率率としてい
るので
¡ zには1-of-K表現を⽤用いるので
図 9.4
混合分布のグラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
0 ≤ πk ≤1 πk
k=1
K
∑ =1
p(z) = πk
zk
k=1
K
∏
z =
z1
zk−1
zk
zk+1
zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0
0
1
0
0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
- 8. p(x | z) = N(x | µk,Σk )zk
k=1
K
∏
§9.2 混合ガウス分布
(Mixtures of Gaussians)
p(x | zk =1) = N(x | µk,Σk )
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
p(x) = p(z)p(x | z) =
z
∑ πk
zk
k=1
K
∏ N(x | µk,Σk )zk
k=1
K
∏
$
%
&
'
(
)k=1
K
∑
= πk N(x | µk,Σk )
k=1
K
∑
z =
z1
zk−1
zk
zk+1
zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0
0
1
0
0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
¡ zの値が与えられたもとでのxの条
件付き分布
¡ これは
という形にも書ける
¡ したがってxの周辺分布は
潜在変数 z の周辺化により、
混合ガウス分布を表現
- 9. ¡ xの値が与えられたもとでのzの条件付き確率率率
(ベイズの定理理より)
¡ πkはzk=1となる事前確率率率
¡ γ(zk)はxを観測したときzk=1となる事後確率率率
¡ γ(zk)は混合要素kがxの観測を「説明する」
度度合いを表す「負担率率率(responsibility)」と
しても解釈できる
§9.2 混合ガウス分布
(Mixtures of Gaussians)
γ(zk ) ≡ p(zk =1| x) =
p(zk =1)p(x | zk =1)
p(zj =1)p(x | zj =1)
j=1
K
∑
=
πk N(x | µk,Σk )
π j N(x | µj,Σj )
j=1
K
∑
図 9.4
混合分布の
グラフィカル
モデル表現
p(x,z)=p(z)p(x|z)
z =
z1
zk−1
zk
zk+1
zK
"
#
$
$
$
$
$
$
$
$
$
%
&
'
'
'
'
'
'
'
'
'
zの例例
=
0
0
1
0
0
!
"
#
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
&
1-of-K表現
どの混合要素のガウス分
布から発⽣生しているか、
ということ
(式9.13)
- 10. §9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ 混合ガウスモデルにしたがうランダムサンプルの⽣生成
¡ §8.1.2の伝承サンプリング(ancestral sampling)を⽤用いる
1. zの値 を周辺分布p(z)から⽣生成
2. xの値を条件付き分布 から⽣生成
ˆz
p(x | ˆz)
- 11. §9.2 混合ガウス分布
(Mixtures of Gaussians)
¡ §2.3.9 図9.5の、3つの⼆二次元ガウス分布からなる混合ガウス分布
から⽣生成した500点のサンプルの例例
図.9.5 : (a), (b), (c)とも、⽣生成された x の座標値をプロット
(a) ⾚赤、緑、⻘青で3つの混合要素のどの分布から発⽣生したか(zの値)を表現:完全
(b) どの分布から発⽣生したかは関係なく同じ⾊色で表現:不不完全
(c) 各データ点 に割り当てられる負担率率率 を、 に⽐比例例する量量の⾚赤、
緑、⻘青のインクで表現
p(x) = πk N(x | µk,Σk )
k=1
3
∑
xn
γ(znk ) γ(znk )
- 13. §9.2.1 最尤推定
¡ 観測した、下記のN個のD次元データ集合に混合ガウス分布を当ては
める
¡ 上記のデータ集合を下記のN x D⾏行行列列Xで表す
x1,, xN{ }
X =
x1
T
xn
T
xN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
xn
T
=[xn1, xn2 ,, xnD ]
xN
T
=[xN1, x N 2 ,, xND ]
x1
T
=[x11, x12 ,, x1D ]
- 14. §9.2.1 最尤推定
¡ データ集合 X と同様、対応するN個のK次元潜在変数 z ベクトルをN x
K⾏行行列列 Z で表す
Z =
z1
T
zn
T
zN
T
!
"
#
#
#
#
#
#
#
$
%
&
&
&
&
&
&
&
zn
T
=[zn1, zn2 ,, znK ]
zN
T
=[zN1, z N 2 ,, zNK ]
z1
T
=[z11, z12 ,, z1K ]
- 17. §9.2.1 最尤推定
¡ 混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡ 単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
- 18. §9.2.1 最尤推定
¡ 混合ガウスモデルに最尤推定を適⽤用する際、特異異性の存在に起因する
問題に注意する必要がある
¡ 単純化のため、各混合要素の共分散⾏行行列列が下記の⾏行行列列であるとする
ここで、混合モデルのj番⽬目の混合要素の平均μj が1つのデータ点xn
と等しい、すなわち、
とする。このとき、このデータ点は、尤度度関数に対し、次式の形で
寄与する。
N(xn | µj,σ j
2
I) =
1
(2π)D/2
⋅ σ j
2
I
1/2
⋅exp{−
1
2
(xn −µj )T
σ j
−2
I(xn −µj )}
=
1
(2π)D/2
⋅(Dσ j
2
)1/2
=
1
(2π)D/2
⋅ D1/2
⋅σ j
Σk =σk
2
I
µj = xn
→∞ (σj→0)
- 20. §9.2.1 最尤推定
以上より
¡ 混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題
¡ 1つのガウス分布要素が特定のデータ点で「つぶれれば」発散は必ず起こる
¡ この問題は単⼀一のガウス分布の場合には起こらない。
¡ なぜなら、
1. 分布がある1つのデータ点でつぶれれば(分散が⼩小さくなると)、他のデー
タ点での尤度度関数の値が指数関数的に減少し、
2. 各データ点での尤度度関数の値の積をとった、全体の尤度度関数の値は0に
収束する、
からである。
¡ (混合ガウス分布の場合、⼀一⽅方のガウス分布要素が特定のデータ点に収束
すれば、その効果は対数尤度度を増加させる⽅方向に働く)
- 21. §9.2.1 最尤推定
¡ 混合ガウス分布の対数尤度度関数の最⼤大化は不不良良設定問題(続き)
¡ この困難は、ベイジアンアプローチ(§10.1)を適⽤用すれば避けられる(らしい)
¡ ヒューリスティクスに基づく、適当な⽅方法で、この特異異性を避けることも期待で
きる
¡ 例例えば、混合ガウス分布の1つがつぶれそうになったときには、その平均値をラ
ンダムな値に、分散を⼤大きな値に設定し直して最適化を続ければ良良い
¡ 任意の最尤解に対し、K個の各混合要素の順番の⼊入れ替えに対応した、同等
な解がK!個ある
¡ すなわち、パラメータ空間における、与えられた任意の点について、それと等価
な分布を⽰示すK!-1個の別の解が存在(識識別不不可能性(identifiability))
¡ 識識別不不可能性は12章で連続潜在変数を持つモデルを議論論する際にも問題となる
¡ が、良良い密度度モデルを⾒見見つける⽬目的には関係ない。等価な解はどれも同等に良良
いモデルだから
- 23. §9.2.2 混合ガウス分布のEMア
ルゴリズム
(式9.14)を、
1. ガウス要素の平均μkに関して微分し、0とおく →(式 9.17)
2. ガウス要素の共分散⾏行行列列Σkに関して微分し、0とおく →(式 9.19)
3. 混合係数πkについて、Σk(πk)=1(式9.9)の制約条件のもとで最⼤大化
• ラグランジュ未定係数法を⽤用いる →(式 9.22)
(式9.17), (式9.19), (式9.22)の結果は、混合モデルのパラメータの陽な解
を与えていない。負担率率率 が(式 9.13)という複雑な形でモデルの
パラメータに依存するため。
混合ガウス分布の最尤推定問題の解を⾒見見出すため、(式 9.13)の負担率率率の
計算(E step)と、(式9.17), (式9.19), (式9.22)の計算(M step)を繰り返す
→ 混合ガウスモデルのEMアルゴリズム
γ(znk )
尤度度関数の最⼤大点において満たされるべき条件を書き下す
- 24. §9.2.2 混合ガウス分布のEMア
ルゴリズム
(式 9.17)
(式 9.19)
(式 9.22)
γ(znk ) =
πk N(xn | µk,Σk )
π j N(xn | µj,Σj )
j=1
K
∑
µk =
1
Nk
γ(znk )xn
n=1
N
∑
πk =
Nk
N
Σk =
1
Nk
γ(znk )(xn −µk )(xn −µk )T
n=1
N
∑
Nk = γ(znk )
n=1
N
∑
混合要素kがxnの観測を「説明する」
度度合いを表す負担率率率(responsibility)
N = Nk
k=1
K
∑
"
#
$
%
&
'
# (式 9.17), (式 9.19), (式 9.22)導出の計
算は、「パターン認識識と機械学習の学習
第2版」§9.3 のp.77-78に丁寧に書かれて
いるのを確認しました。
(式 9.18)
(式9.13)
- 25. §9.2.2 混合ガウス分布のEMア
ルゴリズム
/* 混合ガウス分布のためのEMアルゴリム PRML(下巻) p.154-p.155 */
⽬目的:混合ガウスモデルが与えられているとき、各ガウス要素の平均、
分散、混合係数からなるパラメータについて尤度度関数ln p(X|π, μ, Σ)を
最⼤大化すること
1. 平均μk、分散Σk、混合係数πkを初期化し、対数尤度度の初期値を計算
2. E step: 現在のパラメータ値を使って、負担率率率γ(znk), (n=1,...,N,
k=1,...,K)を計算
3. M step: 現在の負担率率率γ(znk)を使って、パラメータ値μk、Σk、
πk(k=1,...,K)を順に計算
4. 対数尤度度ln p(X|μ, Σ, π)を計算。パラメータ値の変化または対数尤
度度の変化を⾒見見て収束性を確認。収束基準を満たしていなければ2.へ。
- 27. §9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : スケール変換した、§2.3.9のOld Faithful間⽋欠泉データに、2つのガウス分
布からなる混合ガウス分布についての、EMアルゴリズムを適⽤用
(a) 初期状態:データ点を緑で、2つのガウス分布の1標準偏差の等⾼高線を⻘青と⾚赤
の円で表⽰示
(b) 最初のE step実⾏行行後:各データ点に割り当てられた負担率率率に⽐比例例する量量の⾚赤、
⻘青のインクでデータ点を描き直した
(c) 最初のM step実⾏行行後:更更新後のパラメータ値μk、Σkで再計算したガウス要素
の等⾼高線を表⽰示
- 28. §9.2.2 混合ガウス分布のEMア
ルゴリズム
図.9.8 : (続き) EMを繰り返した後、各データ点に割り当てられた負担率率率
に⽐比例例する量量の⾚赤、⻘青のインクで描き直したデータ点と、パラメータ値
μk、Σkで計算したガウス要素の等⾼高線を表⽰示
(d) 2回のEMを繰り返した後
(e) 5回のEMを繰り返した後
(f) 20回のEMを繰り返した後
- 29. ¡ EMアルゴリズム実装にあたっての留留意点 ( p.154 より )
¡ K-meansアルゴリズムに⽐比べると、(ほぼ)収束するまでに必要な繰り
返し計算の回数、繰り返し計算⼀一回あたりの計算量量が多い。
¡ そのため、混合ガウスモデルの適切切な初期値を⾒見見出すためにK-means
アルゴリズムを実⾏行行し、その後、EMアルゴリズムを適⽤用する⽅方法がよ
くとられる。
¡ 共分散⾏行行列列の初期値には、K-meansアルゴリズムで⾒見見つけたサンプルのク
ラスター分散
¡ 混合係数の初期値には、各クラスターに属するデータ点の割合
を、⽤用いるのが便便利利
¡ 特定のデータ点にガウス要素がつぶれていく、尤度度関数の特異異性を避
ける処理理が必要
¡ 対数尤度度には、多くの極⼤大解が存在する。EMアルゴリズムはその中で
最⼤大のものに収束するとは限らない。
§9.2.2 混合ガウス分布のEMア
ルゴリズム