PRML Titech
9.0-9.2
Waseda Univ. Hamada lab.
B4 Taikai Takeda
Twitter: @bigsea_t
担当範囲
9. 混合モデルとEM
9.1 K-meansクラスタリング
9.2 混合ガウス分布
9.3 EMアルゴリズムのもう一つの解釈
9.4 一般のEMアルゴリズム
2
Outline
EMアルゴリズム
K-means法
混合ガウス分布
3
EMアルゴリズム
4
EMアルゴリズム
Expectation-Step
潜在変数を更新する
Maximization-Step
分布を更新する
5
交互に繰り返して
最適解を求める
潜在変数(latent variable)
潜在変数:
観測によって直接得ることができず,
ほかの変数から推測することより得る確率変数
隠れ変数(hidden variables)とも
観測変数(observable variables)
背後に存在する状態などを表す
今回の場合はデータ点の𝑥 𝑛の所属クラスタ𝑟𝑛𝑘
6
K-means
7
K-meansの概要
データ点をK個のクラスター(𝑟𝑛𝑘)に分類
それぞれのクラスターの中心を𝝁 𝒌とし,
データ点は一番近いμのクラスターに属する
8
1-of-K
中心µ
歪み尺度(distortion measure)
歪み尺度:
各データ点xと所属するクラスターの中心μの
二乗ユークリッド距離の総和
9
𝐽 =
𝑛 𝑘
𝑟𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘
2
これを目的関数とし,
最小とするような𝝁, 𝒓を求める
K-meansのEMアルゴリズム
Expectation-Step
各要素の所属するクラスタ𝑟𝑛𝑘を更新
Maximization-Step
クラスタの中心𝜇 𝑘を更新
10
K-meansのEMアルゴリズム
隠れパラメータ𝛾の更新
 データ点は一番近い中心のクラスタに属する
クラスタの中心µの更新
 クラスに所属するデータ点の中心
11
K-meansのいろいろ
収束性は保証されている
 ただし局所解
混合ガウス分布の𝝁の初期化によく用いられる
ナイーブに実装すると遅い
 各データ点と𝜇とのユークリッド距離を毎回計算す
るため
 近くのデータ点が同一の部分木に属するデータ構造
 距離の三角不等式を利用して不必要な計算を避ける
12
K-meansのいろいろ
Online版
𝜇 𝑘
𝑛𝑒𝑤
= 𝜇 𝑘
𝑜𝑙𝑑
+ 𝜂 𝑛 𝑥 𝑛 − 𝜇 𝑘
𝑜𝑙𝑑
 𝜂: 学習率パラメータ
 𝜂は𝑛に対して単調減少
K-medoids
𝐽~ =
𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝜈(𝑥 𝑛, 𝜇 𝑘)
 ユークリッド距離の二乗の代わりに非類似度𝜈を用
いる
13
K-meansのいろいろ
画像分割と画像圧縮
 画素ベクトル{R,G,B}をK-meansする
 各画素を割り当てられたクラスタの中心の値に書き
換える->圧縮
 よくわからない()
14
混合ガウス分布
15
混合ガウス分布の概要
混合ガウス分布(Mixtures of Gaussians)
16
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝑁(𝒙; 𝝁 𝑘, Σk)
𝜋 𝑘: 混合係数
混合ガウス分布の定式化
潜在変数𝒛の導入
 1-of-K符号化
 𝑧 𝑘 ∈ 0, 1 , 𝑘 𝑧 𝑘 = 1
 𝑧 𝑘 = 1のとき,クラスタ𝐶 𝑘に属することを表す
混合係数:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
 0 ≤ 𝜋 𝑘 ≤ 1, 𝑘 𝜋 𝑘 = 1
 別の形:
𝑝 𝒛 =
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
17
混合ガウス分布の定式化
条件付き分布
 𝑝 𝒙 𝑧 𝑘 = 1 = 𝑁 𝒙; 𝝁, Σ
 別の形:
𝑝 𝒙 𝒛 =
𝑘=1
𝐾
𝑁 𝒙; 𝝁, Σ 𝑧 𝑘
18
混合ガウス分布の定式化
同時分布
𝑝 𝒙, 𝒛 = 𝑝 𝒙 𝒛 𝑝(𝒙)
=
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
𝑧 𝑘
19
混合ガウス分布の定式化
周辺分布
𝑝 𝒙 =
𝒛
𝑝 𝒛 𝑝(𝒙|𝒛)
=
𝒛 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
𝑧 𝑘
=
𝑘=1
𝐾
𝜋 𝑘 𝑁(𝒙; 𝝁 𝑘, Σ 𝑘)
元の線形重ね合わせの式に一致
20
混合ガウス分布の定式化
負担率𝛾(responsibility)
 分布𝑁(𝑥; 𝜇 𝑘, Σk)が𝒙を説明する度合い
𝛾 𝒛 = 𝑝 𝒛 𝒙
=
𝑝 𝒙 𝒛 𝑝 𝒛
𝒛 𝑝 𝒙 𝒛 𝑝(𝒛)
=
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
𝑧 𝑘
𝒛 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
𝑧 𝑘
𝛾 𝑧 𝑘 = 1 =
𝜋 𝑘 𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
21
パラメータの推定
分布のパラメータを最尤推定する
 分布のパラメータ:𝝁 𝑘, Σk, 𝜋 𝑘
尤度関数𝐿
𝐿 = ln 𝑝(𝑋; 𝝅, 𝝁, 𝚺)
=
𝑛=1
𝑁
ln 𝑝(𝒙 𝑛)
=
𝑛=1
𝑁
ln
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙; 𝝁 𝑘, Σ 𝑘
22
平均の最尤推定𝝁 𝑘𝑀𝐿
0 =
𝜕𝐿
𝜕𝝁 𝒌
=
𝜕
𝜕𝝁 𝑘
𝑛=1
𝑁
ln
𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
=
𝑛=1
𝑁 𝜋 𝑘
𝜕
𝜕𝜇 𝑘
𝑁 𝒙; 𝝁 𝑗, Σ𝑗
ln 𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
=
𝑛=1
𝑁
𝜋 𝑘 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
ln 𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
Σ−1(𝒙 𝑛 − 𝝁 𝑘)
=
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 Σ−1
(𝒙 𝑛 − 𝝁 𝒌)
パラメータの推定 23
負担率
𝜇 𝑘𝑀𝐿 =
1
𝑁𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝒙 𝑛
𝑁𝑘 = 𝑛=1
𝑁
𝛾(𝑧 𝑛𝑘)
パラメータの推定
0 =
𝜕𝐿
𝜕Σ 𝒌
=
𝜕
𝜕Σ 𝑘
𝑛=1
𝑁
ln
𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
=
𝑛=1
𝑁 𝜋 𝑘
𝜕
𝜕Σ 𝑘
𝑁 𝒙; 𝝁 𝑗, Σ𝑗
𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
=
𝑛=1
𝑁
𝜋 𝑘 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
𝑁
2
Σ−1
𝒙 𝑛 − 𝝁 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝑇
Σ−1
− Σ−1
=
𝑁
2
𝑛=1
𝑁
𝛾(𝑧 𝑛𝑘) Σ−1
𝒙 𝑛 − 𝝁 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝑇
Σ−1
− Σ−1
24
 分散共分散行列の最尤推定ΣkML
Σ 𝑘𝑀𝐿 =
1
𝑁𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝑇
𝑁𝑘 = 𝑛=1
𝑁
𝛾(𝑧 𝑛𝑘)
パラメータの推定
混合比𝜋 𝑘の推定
L = ln 𝑝(𝑋; 𝝅, 𝝁, Σ) + 𝜆
𝑘=1
𝐾
𝜋 𝑘 − 1
0 =
𝜕𝐿
𝜕𝜋
=
𝑛=1
𝑁
𝑁 𝒙; 𝝁 𝑗, Σ𝑗
𝑗=1
𝐾
𝜋𝑗 𝑁 𝒙; 𝝁 𝑗, Σ𝑗
+ 𝜆
両辺に𝜋 𝑘をかけて𝑘について和をとり制約条件を適用
𝜆 = −𝑁
𝜋 𝑘 =
𝑁𝑘
𝑁
𝑁𝑘 =
𝑛=1
𝑁
𝛾(𝑧 𝑛𝑘)
25
𝜋 𝑘 =
𝑁𝑘
𝑁
𝑁𝑘 =
𝑛=1
𝑁
𝛾(𝑧 𝑛𝑘)
混合ガウス分布のEMアルゴリズム
Expectation-Step
潜在変数の更新:𝛾(𝒛)
Maximization-Step
分布のパラメータの更新:𝝁 𝑘, Σk, 𝜋 𝑘更新
26
𝛾 𝑧 𝑛𝑘 =
𝜋 𝑘 𝑁 𝒙 𝒏; 𝝁 𝑘, Σ 𝑘
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙 𝒏; 𝝁 𝑘, Σ 𝑘
𝜇 𝑘 =
1
𝑁𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝒙 𝑛
Σ 𝑘 =
1
𝑁𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝒙 𝑛 − 𝝁 𝑘 𝒙 𝑛 − 𝝁 𝑘
𝑇
𝜋 𝑘=
𝑁𝑘
𝑁
𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
混合ガウス分布のいろいろ
尤度の発散
27
分散→0
⇓
尤度→∞
𝑁 𝒙 𝑛; 𝒙 𝑛, 𝜎kI =
1
2𝜋 1/2
1
𝜎 𝑘
混合ガウス分布のいろいろ
識別可能性(identifiability)
 混合ガウス分布は等価な解がK!個ある
 パラメータの割り当ての順番によらず
同じ分布を表すため
28

prml_titech_9.0-9.2