パターン認識と機械学習
M1 菅原啓介
第9章 混合モデルとEM
2016/9/12 パターン認識と機械学習 輪読 1
目次
1. K-meansクラスタリング
2. 混合ガウス分布
3. EMアルゴリズムのもう1つの解釈
4. 一般のEMアルゴリズム
2016/9/12 パターン認識と機械学習 輪読 2
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 3
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
9.1 K-meansクラスタリング
p140~
2016/9/12 パターン認識と機械学習 輪読 4
K-meansクラスタリング
• 多次元空間上のデータ集合をK個のクラスターに分割する方法
• クラスター
• データ点の集まり
• クラスター内部のデータ点間の距離が、
外部のデータ点間の距離と比べて小さい
2個のクラスターに分割
2016/9/12 パターン認識と機械学習 輪読 5
K-meansクラスタリングの方法
【Mステップ】
クラスターの中心を求める
【Eステップ】
データ点の所属を変更
繰り返し
2016/9/12 パターン認識と機械学習 輪読 6
K-means法に対するEMアルゴリズム
• 目的関数:「歪み尺度」
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• 𝑟𝑛𝑘:𝑛番目のデータ点がクラスタ𝑘に属するか 0,1
• 𝐱 𝑛:データ点の座標
• 𝝁 𝑘:クラスタのプロトタイプ(中心)
• Eステップの目的
• 𝑟𝑛𝑘について𝐽を最小化(𝝁 𝑘は固定)
• Mステップの目的
• 𝝁 𝑘について𝐽を最小化(𝑟𝑛𝑘は固定)
2016/9/12 パターン認識と機械学習 輪読 7
例:3番目のデータ点がクラスタ2に属する場合
𝑟31, 𝑟32 = 0,1
Eステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Eステップの目的:𝑟𝑛𝑘について𝐽を最小化
• 例:クラスター2つの場合
• 𝐽 = 𝑛=1
𝑁
𝑟𝑛1 𝐱 𝑛 − 𝝁1
2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2
2
• 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい
大 小0 1
2016/9/12 パターン認識と機械学習 輪読 8
Mステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Mステップの目的:𝝁 𝑘について𝐽を最小化
• 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化
• 2 𝑛=1
𝑁
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0
• ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• クラスターに属するデータ点の座標の平均
2016/9/12 パターン認識と機械学習 輪読 9
画像圧縮への利用
r
g
b
r
g
b
2016/9/12 パターン認識と機械学習 輪読 10
• 画像の色情報を3次元空間にプロット
• クラスタリングをして代表ベクトルを
保持しておく
• 元画像では、各ピクセルは2563色を
区別する必要があったが、
• 圧縮後の画像はK色を区別できればよい
必要データ量が減少
画像圧縮への利用
r
g
b
r
g
b
2016/9/12 パターン認識と機械学習 輪読 11
圧縮前 圧縮後
1ピクセルがとりうる色 256 3
= 224 𝐾
1ピクセルが必要とする情報量(ビット) log2 224
= 24 log2 𝐾
代表ベクトルの保持に必要な情報量(ビット) 𝐾 log2 28 3
= 24𝐾
Nピクセルの画像全体で必要な情報量(ビット) 24𝑁 𝑁 log2 𝐾 + 24𝐾
𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量(ビット) 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒
9.2 混合ガウス分布
p146~
2016/9/12 パターン認識と機械学習 輪読 12
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 13
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
混合ガウス分布の例
• ガウス分布を重ね合わせた分布
• 例:的当てゲーム
• 的が1つ
• →ガウス分布に従う
• 的が3つ
• →混合ガウス分布に従う
• 「壁のどこに当たったか」だけが
観測可能とし、的がどこにあるかを推定する
2016/9/12 パターン認識と機械学習 輪読 14
混合ガウス分布 確率変数とパラメータ
• 𝐱 = 𝑥1, 𝑥2 :観測変数
• データ点から観測できる
• 𝐳 = 𝑧1, 𝑧2, 𝑧3 :潜在変数
• 𝑧 𝑘は 0,1 の2値変数
• 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1
• 𝑘番目の的を狙う確率:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
• データ点からは観測できない
• 的に関する情報
• 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 15
𝑥2 観測可能
観測不可能
混合ガウス分布 確率分布
• 潜在変数𝐳の確率分布
• 𝑝 𝐳 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 狙いをつけた下での𝐱の条件付分布
• 𝑝 𝐱|𝑧 𝑘 = 1 = 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
• 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
• 同時分布は𝑝 𝐳 𝑝 𝐱|𝐳 なので、𝐱の周辺分布は
• 𝑝 𝐱 = 𝐳 𝑝 𝐳 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 16
𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
混合ガウス分布 負担率
2016/9/12 パターン認識と機械学習 輪読 17
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
• あるデータ点は、どの的を狙うことにより
生成されたのか? →「負担率」
• 𝐱が与えられた下での𝐳の条件付確率
• 𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝐱 =
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• 混合要素𝑘が𝐱の観測を説明する度合い
負担率の図示
• (a) 赤の的を狙った人が生成したデータ点は赤で示されている。他色も同様
• (b) どの的を実際に狙ったのか不明
• (c) 図(b)のデータ点と的の中心から、負担率を計算。
例えば青の負担率と緑の負担率が同程度であれば、水色でプロット
2016/9/12 パターン認識と機械学習 輪読 18
的
最尤推定
𝐱 𝑇
= 𝑥1, … , 𝑥 𝐷 , 𝐳 𝑇
= 𝑧1, … , 𝑧 𝐾
2016/9/12 パターン認識と機械学習 輪読 19
𝐗 =
𝑥11 ⋯ 𝑥 𝐷
⋮ ⋱ ⋮
𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷
𝐙 =
𝑧11 ⋯ 𝑧 𝐷
⋮ ⋱ ⋮
𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷
データ集合
• 尤度関数
• 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• データ集合として考え、最尤推定を行う
混合ガウス分布の最尤推定における問題
• 各混合要素の共分散行列を 𝚺 𝑘 = 𝜎 𝑘
2
𝐈 とする
• ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定
• つまり混合要素の平均(中心)とデータ点が一致
• データ点は次の形で尤度関数に寄与
• 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗
2
𝐈 =
1
2𝜋 𝐷/2 ∙
1
𝜎𝑗
𝐷
• 𝜎𝑗 → 0の極限をとると発散
• ガウス分布のパラメータに制限
2016/9/12 パターン認識と機械学習 輪読 20
【ガウス分布の一般形】
𝒩 𝐱|𝝁, 𝚺
=
1
2𝜋 𝐷/2
∙
1
𝚺 1 2
exp −
1
2
𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁
混合ガウス分布のEMアルゴリズム
• 混合ガウス分布:潜在変数を持つモデル
• EMアルゴリズムを利用して最尤解を求める
• 方針
• 最終目標:対数尤度関数の最大化
• 対数尤度関数を、ガウス分布の各パラメータ 𝝁, 𝚺 、𝜋 𝑘で微分
• 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘のそれぞれに対して対数尤度関数を最大化
2016/9/12 パターン認識と機械学習 輪読 21
𝝁 𝑘, 𝚺 𝑘に対する尤度関数の最大化
• 対数尤度を𝝁 𝑘について微分して0とおく
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
Σ 𝑘
−1
𝐱 𝑛 − 𝝁 𝑘
• 整理して
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• ただし、
• 𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 𝚺 𝑘についても同様に
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
2016/9/12 パターン認識と機械学習 輪読 22
負担率𝛾 𝑧 𝑛𝑘
k番目の的が狙われた回数
データ点の重み(=負担率)つき平均
各データ点が的(ガウス要素の中心)
からどのくらい離れているか
ln 𝑝 𝐗|𝝅, 𝝁, 𝚺
=
𝑛=1
𝑁
ln
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝜋 𝑘に関する尤度関数の最大化(1)
• 𝑘=1
𝐾
𝜋 𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる
• 次の量を𝜋 𝑘で微分して0とおく
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1
𝐾
𝜋 𝑘 − 1
• 次の式が得られる
• 0 = 𝑛=1
𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆
2016/9/12 パターン認識と機械学習 輪読 23
次スライド
𝜋 𝑘に関する尤度関数の最大化(2)
• 両辺に𝜋 𝑘をかけて
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆𝜋 𝑘 ⋯ ∗
• 𝑘について和をとる
• 0 = 𝑘=1
𝐾
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1
𝐾
𝜋 𝑘
2016/9/12 パターン認識と機械学習 輪読 24
負担率𝛾 𝑧 𝑛𝑘
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 = 1 𝑘=1
𝐾
𝜋 𝑘 = 1
• 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁
• ∗ より、
• 0 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 =
𝑁 𝑘
𝑁
• よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの
𝑁𝑘 =
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘の最尤解
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• データ点の重み(=負担率)つき平均
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
• 各データ点がガウス要素の中心からどのくらい離れているか
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• その要素の負担率の合計を正規化したもの
2016/9/12 パターン認識と機械学習 輪読 25
EMアルゴリズムの適用
【Eステップ】
負担率の更新
2016/9/12 パターン認識と機械学習 輪読 26
【Mステップ】
ガウス分布のパラメータ調整
繰り返し
混合ガウス分布のためのEMアルゴリズム
• 目的:混合ガウス分布のパラメータについて、尤度関数を最大化
• Eステップ:負担率の計算
• 𝛾 𝑧 𝑛𝑘 =
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• Mステップ:各パラメータの更新
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
2016/9/12 パターン認識と機械学習 輪読 27
9.3 EMアルゴリズムの
もう1つの解釈
p155~
2016/9/12 パターン認識と機械学習 輪読 28
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 29
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
EMアルゴリズムの一般化
2016/9/12 パターン認識と機械学習 輪読 30
目的:尤度関数𝒑 𝐗|𝜽 の最大化
• 𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽
• 𝑝 𝐗, 𝐙|𝜽 を求めるには𝐙の観測が必要
• →不可能
• 𝑝 𝐗, 𝐙|𝜽 を求めることはできないので、
条件付期待値𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 を求める
目的:条件付期待値𝔼 𝐙|𝐗 𝒍𝒏 𝒑 𝐗, 𝐙|𝜽 の最大化
混合ガウス分布再訪
2016/9/12 パターン認識と機械学習 輪読 31
求められるもの
観測変数𝐗
条件付確率𝑝 𝐙 𝐗
対数尤度の期待値
𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽
対数尤度の期待値を最大化するように、
パラメータを調整
完全データ対数尤度
ln 𝑝 𝐗, 𝐙|𝜽
完全データ対数尤度の期待値を導出
• 完全データ尤度
• 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑝 𝐗|𝐙, 𝝁, 𝚺, 𝝅 𝑝 𝐙|𝝁, 𝚺, 𝝅
= 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝐳 𝑛 𝑝 𝐳 𝑛
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
• 完全データ対数尤度を求める
• ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = ln 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
= 𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝑧 𝑛𝑘は観測できないので、期待値を用いると
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝐙 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 を求める
2016/9/12 パターン認識と機械学習 輪読 32
𝑝 𝐳 =
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑝 𝐱|𝐳 =
𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝑧 𝑛𝑘の期待値の導出
• 事後分布𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1
𝐾
𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
𝑧 𝑛𝑗
=
𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
=
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
≡ 𝛾 𝑧 𝑛𝑘
2016/9/12 パターン認識と機械学習 輪読 33
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾
1
1
𝐳 𝑛
の意味:
𝐳 𝑛のすべてのとりうる値、つまり
1,0, … , 0, … , 0
0,1, … , 0, … , 0
0,0, … , 1, … , 0
0,0, … , 0, … , 1
に対して和をとる
𝐾
K-meansとの関連(1)
2016/9/12 パターン認識と機械学習 輪読 34
• K-means
• 二値変数𝑟𝑛𝑘による
ハード割り当て
混合ガウス分布に関するEMアルゴリズムのある極限として、
K-meansアルゴリズムを導ける
• 混合ガウス分布
• 負担率𝛾 𝑧 𝑛𝑘 による
ソフトな割り当て
K-meansとの関連(2)
• 各ガウス要素の共分散行列が𝜖𝐈で与えられる混合ガウス分布を考える
• 𝑝 𝐱|𝝁 𝑘, 𝚺 𝑘 =
1
2𝜋𝜖 𝐷/2 exp −
1
2𝜖
𝐱 − 𝝁 𝑘
2
• 負担率を計算すると
• 𝛾 𝑧 𝑛𝑘 ≡
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝑗=1 𝜋 𝑗 exp − 𝐱−𝝁 𝑗
2
2𝜖
2016/9/12 パターン認識と機械学習 輪読 35
K-meansとの関連(3)
• 𝐱 − 𝝁 𝑗
2
が最小になる𝑗を𝑗∗とおく。
• 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑗∗ = lim
𝜖→∞
𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 1 = 𝑟 𝑛𝑗∗
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑘 = lim
𝜖→∞
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 0 = 𝑟𝑛𝑘
• 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する
2016/9/12 パターン認識と機械学習 輪読 36
K-meansとの関連(4)
• Mステップにおける𝝁 𝑘の値
• 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• 対数尤度の期待値
• 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → −
1
2 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 − 𝝁 𝑘
2 + const.
• 対数尤度の期待値の最大化は、歪み尺度の最小化と同等
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
2016/9/12 パターン認識と機械学習 輪読 37
𝝁 𝑘 =
𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛
𝑛 𝛾 𝑧 𝑛𝑘
混合ベルヌーイ分布
• 手書き文字の分類などに利用可能
• 方針
• ピクセル数が𝐷の手書き数字を、
𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする
• 観測変数: 𝐱
• 潜在変数: 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾
• 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0
• パラメータを調整し対数尤度関数を最大化
• 新しい手書き文字𝐱′を実際に分類
• 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、
最大となる𝑘に分類
2016/9/12 パターン認識と機械学習 輪読 38
ここまで
尤度関数の導出
• 潜在変数の事前分布(=どの文字を書くか)
• 𝑝 𝐳|𝝅 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 観測変数の条件付確率(=書く文字を決めた上での、手書き文字の分布)
• 𝑝 𝐱|𝐳, 𝝁 = 𝑘=1
𝐾
𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
• 同時分布(尤度関数)の導出
• 𝑝 𝐱, 𝐳|𝝁, 𝝅 = 𝑝 𝐱|𝐳, 𝝁 𝑝 𝐳|𝝅
= 𝑘=1
𝐾
𝜋 𝑘 𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
= 𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
2016/9/12 パターン認識と機械学習 輪読 39
𝑝 𝑧 𝑘 = 1|𝜋 𝑘 = 𝜋 𝑘
𝑝 𝑥 𝑑 = 1|𝝁 𝑘 = 𝜇 𝑘𝑑
𝑝 𝑥 𝑑 = 0|𝝁 𝑘 = 1 − 𝜇 𝑘𝑑
↓
𝑝 𝐱|𝝁 𝑘 = 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
混合ベルヌーイ分布による手書き文字分類
• 各文字はピクセルごとに、黒くなる確率 𝜇 𝑘𝑑を持っている
2016/9/12 パターン認識と機械学習 輪読 40
𝜇11 𝜇12 𝜇13 ⋯
𝜇1𝐷
𝜇 𝐾1 𝜇 𝐾2 𝜇 𝐾3 ⋯
𝜇 𝐾𝐷
・・・
𝜇11
クラス番号
(どの文字か)
要素番号
文字1の各要素 文字Kの各要素
対数尤度関数の期待値
• データ集合𝐗 = 𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数
• 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
• 対数尤度関数の導出
• ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
• 対数尤度関数の期待値の導出
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
2016/9/12 パターン認識と機械学習 輪読 41
𝑧 𝑛𝑘の期待値の導出
• ベイズの定理を用いて負担率を計算(混合ガウス分布のものと同様)
𝔼 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁
= 𝐳 𝑛
𝑧 𝑛𝑘
𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝑝 𝐱 𝑛 |𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝐳 𝑛 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′ 𝜋 𝑘′ 𝑝 𝐱 𝑛 |𝝁 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
𝑧 𝑛𝑗
2016/9/12 パターン認識と機械学習 輪読 42
=
𝜋 𝑘 𝑝 𝐱 𝑛 |𝝁 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑗=1
𝐾 𝑝 𝑧 𝑛𝑗=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑗=1,𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑘=1,𝝁 𝑘
𝑧 𝑛𝑗=1 𝑝 𝐱 𝑛,𝑧 𝑛𝑗=1|𝝁
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑝 𝐱 𝑛|𝝁 𝑘
= 𝑝 𝑧 𝑛𝑘 = 1|𝐱 𝑛, 𝝁 𝑘 = 𝛾 𝑧 𝑛𝑘
対数尤度の期待値を最大化するパラメータ
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 +
𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
を各種パラメータで微分して、最大化する解を求める
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• 各ピクセルは、全データの重みつき平均値
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 全データに対する文字𝑘の割合
• ただし𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 文字𝑘に分類されるデータの枚数
2016/9/12 パターン認識と機械学習 輪読 43
パラメータ𝝁 𝑘の直感的理解
2016/9/12 パターン認識と機械学習 輪読 44
𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5
𝝁4
𝛾 𝑧 𝑛4
各データの
「4らしさ」
𝑥1𝑑
𝑥2𝑑
𝑥3𝑑 𝑥4𝑑 𝑥5𝑑
𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓%
𝜇4𝑑 =
1
𝑁4
𝑛=1
𝑁
𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑
𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷
文字4において、
各ピクセルが黒くなる確率
ベイズ線形回帰に関するEMアルゴリズム
• エビデンス近似再訪
• 方法
• 𝑝 𝐭 |𝛼, 𝛽 = 𝐰 𝑝 𝐭, 𝐰|𝛼, 𝛽 なので、𝑝 𝐭, 𝐰|𝛼, 𝛽 を求めたい。
• 𝐰の値が観測できないので 𝐰|𝐭 に関する期待値をとる
• Eステップ
• 𝐰の事後分布𝑝 𝐰|𝐭, 𝛼, 𝛽 を計算
• 期待完全データ対数尤度𝔼 𝐰|𝐭 𝑝 𝐭, 𝐰|𝛼, 𝛽
• Mステップ
• 期待完全データ対数尤度を最大化するように𝛼, 𝛽を更新
2016/9/12 パターン認識と機械学習 輪読 45
観測変数 潜在変数 パラメータ 尤度関数
混合ガウス分布 𝐗 𝐙 𝝁, 𝚺, 𝝅 𝑝 𝐗|𝝁, 𝚺, 𝝅
エビデンス近似 𝐭 𝐰 𝛼, 𝛽 𝑝 𝐭 |𝛼, 𝛽
9.4 一般のEMアルゴリズム
p165~
2016/9/12 パターン認識と機械学習 輪読 46
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 47
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
一般のEMアルゴリズム
• EMアルゴリズムをより一般的に取り扱う
• 尤度関数の最大化であることの証明
• 観測変数𝐗、潜在変数𝐙、パラメータの組𝜽
• 目的:尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化
• 潜在変数についての分布𝑞 𝐙 を導入すると
• ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
• ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り
• ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln
𝑝 𝐗,𝐙|𝜽
𝑞 𝐙
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
2016/9/12 パターン認識と機械学習 輪読 48
ℒ 𝑞, 𝜽 :自由エネルギー
KL 𝑞||𝑝 :KLダイバージェンス
ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明
ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 =
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
−
𝐙
𝑞 𝐙 ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
− ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
∙
𝑞 𝐙
𝑝 𝐙|𝐗, 𝜽
=
𝐙
𝑞 𝐙 ln 𝑝 𝐗|𝜽
= ln 𝑝 𝐗|𝜽
𝐙
𝑞 𝐙
= ln 𝑝 𝐗|𝜽
2016/9/12 パターン認識と機械学習 輪読 49
𝑝 𝐗, 𝐙|𝜽
𝑝 𝐙|𝐗, 𝜽
= 𝑝 𝐗|𝜽
∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
ℒ 𝑞, 𝜽 とKL 𝑞||𝑝 の意味
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス
• KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ
• したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽
• ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる
2016/9/12 パターン認識と機械学習 輪読 50
Eステップ
• Eステップで行うこと
• 𝜽oldを固定し、下界ℒ 𝑞, 𝜽old を𝑞 𝐙 について最大化
• 下界を最大化するにはKL 𝑞||𝑝 = 0とすればよい
• つまり𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽old とする
2016/9/12 パターン認識と機械学習 輪読 51
Mステップ
• Mステップで行うこと
• 分布𝑞 𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る
• 𝑞 𝐙 は𝜽old
のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new
に更新
• →KL 𝑞||𝑝 ≥ 0
2016/9/12 パターン認識と機械学習 輪読 52
下界の意味
• ℒ 𝑞, 𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽old
= 𝒬 𝜽, 𝜽old
+ const
• 対数尤度の期待値𝒬 𝜽, 𝜽old
が現れる
• Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化
2016/9/12 パターン認識と機械学習 輪読 53
EMアルゴリズムの応用
• 複雑なモデルに対してはEMアルゴリズムを拡張する必要がある
• 一般化EMアルゴリズム(GEMアルゴリズム)
• 複雑なMステップにも対応可能
• 下界の最大化は諦め、少しでも増加させるようにパラメータを変化
• ECM法
• GEMアルゴリズムの形式の1つ
• Mステップでいくつかの制限つき最適化を用いる
• パラメータの一部を固定して、残りを最適化
2016/9/12 パターン認識と機械学習 輪読 54
9章 混合モデルとEM まとめ
• EMアルゴリズム:最適化の手法
• 目標:モデルのパラメータを調整し、対数尤度関数の期待値を最大化する
• 混合ガウス分布などのように、潜在変数をもつモデルに対応可能
• 以下のE・Mステップを繰り返す
• Eステップ
• パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める
• Mステップ
• 事後分布を固定し、対数尤度関数の期待値を最大化するように
パラメータを決定
2016/9/12 パターン認識と機械学習 輪読 55

PRML第9章「混合モデルとEM」

  • 1.
  • 2.
    目次 1. K-meansクラスタリング 2. 混合ガウス分布 3.EMアルゴリズムのもう1つの解釈 4. 一般のEMアルゴリズム 2016/9/12 パターン認識と機械学習 輪読 2
  • 3.
    9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 •EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 3 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 4.
  • 5.
    K-meansクラスタリング • 多次元空間上のデータ集合をK個のクラスターに分割する方法 • クラスター •データ点の集まり • クラスター内部のデータ点間の距離が、 外部のデータ点間の距離と比べて小さい 2個のクラスターに分割 2016/9/12 パターン認識と機械学習 輪読 5
  • 6.
  • 7.
    K-means法に対するEMアルゴリズム • 目的関数:「歪み尺度」 • 𝐽= 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • 𝑟𝑛𝑘:𝑛番目のデータ点がクラスタ𝑘に属するか 0,1 • 𝐱 𝑛:データ点の座標 • 𝝁 𝑘:クラスタのプロトタイプ(中心) • Eステップの目的 • 𝑟𝑛𝑘について𝐽を最小化(𝝁 𝑘は固定) • Mステップの目的 • 𝝁 𝑘について𝐽を最小化(𝑟𝑛𝑘は固定) 2016/9/12 パターン認識と機械学習 輪読 7 例:3番目のデータ点がクラスタ2に属する場合 𝑟31, 𝑟32 = 0,1
  • 8.
    Eステップ • 𝐽 =𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • Eステップの目的:𝑟𝑛𝑘について𝐽を最小化 • 例:クラスター2つの場合 • 𝐽 = 𝑛=1 𝑁 𝑟𝑛1 𝐱 𝑛 − 𝝁1 2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2 2 • 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい 大 小0 1 2016/9/12 パターン認識と機械学習 輪読 8
  • 9.
    Mステップ • 𝐽 =𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • Mステップの目的:𝝁 𝑘について𝐽を最小化 • 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化 • 2 𝑛=1 𝑁 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0 • ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛 𝑛 𝑟 𝑛𝑘 • クラスターに属するデータ点の座標の平均 2016/9/12 パターン認識と機械学習 輪読 9
  • 10.
    画像圧縮への利用 r g b r g b 2016/9/12 パターン認識と機械学習 輪読10 • 画像の色情報を3次元空間にプロット • クラスタリングをして代表ベクトルを 保持しておく • 元画像では、各ピクセルは2563色を 区別する必要があったが、 • 圧縮後の画像はK色を区別できればよい 必要データ量が減少
  • 11.
    画像圧縮への利用 r g b r g b 2016/9/12 パターン認識と機械学習 輪読11 圧縮前 圧縮後 1ピクセルがとりうる色 256 3 = 224 𝐾 1ピクセルが必要とする情報量(ビット) log2 224 = 24 log2 𝐾 代表ベクトルの保持に必要な情報量(ビット) 𝐾 log2 28 3 = 24𝐾 Nピクセルの画像全体で必要な情報量(ビット) 24𝑁 𝑁 log2 𝐾 + 24𝐾 𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量(ビット) 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒
  • 12.
  • 13.
    9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 •EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 13 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 14.
    混合ガウス分布の例 • ガウス分布を重ね合わせた分布 • 例:的当てゲーム •的が1つ • →ガウス分布に従う • 的が3つ • →混合ガウス分布に従う • 「壁のどこに当たったか」だけが 観測可能とし、的がどこにあるかを推定する 2016/9/12 パターン認識と機械学習 輪読 14
  • 15.
    混合ガウス分布 確率変数とパラメータ • 𝐱= 𝑥1, 𝑥2 :観測変数 • データ点から観測できる • 𝐳 = 𝑧1, 𝑧2, 𝑧3 :潜在変数 • 𝑧 𝑘は 0,1 の2値変数 • 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1 • 𝑘番目の的を狙う確率:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘 • データ点からは観測できない • 的に関する情報 • 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 2016/9/12 パターン認識と機械学習 輪読 15 𝑥2 観測可能 観測不可能
  • 16.
    混合ガウス分布 確率分布 • 潜在変数𝐳の確率分布 •𝑝 𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 • 狙いをつけた下での𝐱の条件付分布 • 𝑝 𝐱|𝑧 𝑘 = 1 = 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 • 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 • 同時分布は𝑝 𝐳 𝑝 𝐱|𝐳 なので、𝐱の周辺分布は • 𝑝 𝐱 = 𝐳 𝑝 𝐳 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 2016/9/12 パターン認識と機械学習 輪読 16 𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
  • 17.
    混合ガウス分布 負担率 2016/9/12 パターン認識と機械学習輪読 17 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 • あるデータ点は、どの的を狙うことにより 生成されたのか? →「負担率」 • 𝐱が与えられた下での𝐳の条件付確率 • 𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝐱 = 𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1 𝑗=1 𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1 = 𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗 • 混合要素𝑘が𝐱の観測を説明する度合い
  • 18.
    負担率の図示 • (a) 赤の的を狙った人が生成したデータ点は赤で示されている。他色も同様 •(b) どの的を実際に狙ったのか不明 • (c) 図(b)のデータ点と的の中心から、負担率を計算。 例えば青の負担率と緑の負担率が同程度であれば、水色でプロット 2016/9/12 パターン認識と機械学習 輪読 18 的
  • 19.
    最尤推定 𝐱 𝑇 = 𝑥1,… , 𝑥 𝐷 , 𝐳 𝑇 = 𝑧1, … , 𝑧 𝐾 2016/9/12 パターン認識と機械学習 輪読 19 𝐗 = 𝑥11 ⋯ 𝑥 𝐷 ⋮ ⋱ ⋮ 𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷 𝐙 = 𝑧11 ⋯ 𝑧 𝐷 ⋮ ⋱ ⋮ 𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷 データ集合 • 尤度関数 • 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 対数尤度関数 • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • データ集合として考え、最尤推定を行う
  • 20.
    混合ガウス分布の最尤推定における問題 • 各混合要素の共分散行列を 𝚺𝑘 = 𝜎 𝑘 2 𝐈 とする • ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定 • つまり混合要素の平均(中心)とデータ点が一致 • データ点は次の形で尤度関数に寄与 • 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗 2 𝐈 = 1 2𝜋 𝐷/2 ∙ 1 𝜎𝑗 𝐷 • 𝜎𝑗 → 0の極限をとると発散 • ガウス分布のパラメータに制限 2016/9/12 パターン認識と機械学習 輪読 20 【ガウス分布の一般形】 𝒩 𝐱|𝝁, 𝚺 = 1 2𝜋 𝐷/2 ∙ 1 𝚺 1 2 exp − 1 2 𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁
  • 21.
    混合ガウス分布のEMアルゴリズム • 混合ガウス分布:潜在変数を持つモデル • EMアルゴリズムを利用して最尤解を求める •方針 • 最終目標:対数尤度関数の最大化 • 対数尤度関数を、ガウス分布の各パラメータ 𝝁, 𝚺 、𝜋 𝑘で微分 • 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘のそれぞれに対して対数尤度関数を最大化 2016/9/12 パターン認識と機械学習 輪読 21
  • 22.
    𝝁 𝑘, 𝚺𝑘に対する尤度関数の最大化 • 対数尤度を𝝁 𝑘について微分して0とおく • 0 = 𝑛=1 𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 Σ 𝑘 −1 𝐱 𝑛 − 𝝁 𝑘 • 整理して • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • ただし、 • 𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 • 𝚺 𝑘についても同様に • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T 2016/9/12 パターン認識と機械学習 輪読 22 負担率𝛾 𝑧 𝑛𝑘 k番目の的が狙われた回数 データ点の重み(=負担率)つき平均 各データ点が的(ガウス要素の中心) からどのくらい離れているか ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
  • 23.
    𝜋 𝑘に関する尤度関数の最大化(1) • 𝑘=1 𝐾 𝜋𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる • 次の量を𝜋 𝑘で微分して0とおく • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1 𝐾 𝜋 𝑘 − 1 • 次の式が得られる • 0 = 𝑛=1 𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 + 𝜆 2016/9/12 パターン認識と機械学習 輪読 23 次スライド
  • 24.
    𝜋 𝑘に関する尤度関数の最大化(2) • 両辺に𝜋𝑘をかけて • 0 = 𝑛=1 𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 + 𝜆𝜋 𝑘 ⋯ ∗ • 𝑘について和をとる • 0 = 𝑘=1 𝐾 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1 𝐾 𝜋 𝑘 2016/9/12 パターン認識と機械学習 輪読 24 負担率𝛾 𝑧 𝑛𝑘 𝑘=1 𝐾 𝛾 𝑧 𝑛𝑘 = 1 𝑘=1 𝐾 𝜋 𝑘 = 1 • 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁 • ∗ より、 • 0 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 = 𝑁 𝑘 𝑁 • よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの 𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘
  • 25.
    𝝁 𝑘, 𝚺𝑘, 𝜋 𝑘の最尤解 • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • データ点の重み(=負担率)つき平均 • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T • 各データ点がガウス要素の中心からどのくらい離れているか • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • その要素の負担率の合計を正規化したもの 2016/9/12 パターン認識と機械学習 輪読 25
  • 26.
  • 27.
    混合ガウス分布のためのEMアルゴリズム • 目的:混合ガウス分布のパラメータについて、尤度関数を最大化 • Eステップ:負担率の計算 •𝛾 𝑧 𝑛𝑘 = 𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗 • Mステップ:各パラメータの更新 • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • 対数尤度関数 • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 2016/9/12 パターン認識と機械学習 輪読 27
  • 28.
  • 29.
    9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 •EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 29 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 30.
    EMアルゴリズムの一般化 2016/9/12 パターン認識と機械学習 輪読30 目的:尤度関数𝒑 𝐗|𝜽 の最大化 • 𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 • 𝑝 𝐗, 𝐙|𝜽 を求めるには𝐙の観測が必要 • →不可能 • 𝑝 𝐗, 𝐙|𝜽 を求めることはできないので、 条件付期待値𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 を求める 目的:条件付期待値𝔼 𝐙|𝐗 𝒍𝒏 𝒑 𝐗, 𝐙|𝜽 の最大化
  • 31.
    混合ガウス分布再訪 2016/9/12 パターン認識と機械学習 輪読31 求められるもの 観測変数𝐗 条件付確率𝑝 𝐙 𝐗 対数尤度の期待値 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 対数尤度の期待値を最大化するように、 パラメータを調整 完全データ対数尤度 ln 𝑝 𝐗, 𝐙|𝜽
  • 32.
    完全データ対数尤度の期待値を導出 • 完全データ尤度 • 𝑝𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑝 𝐗|𝐙, 𝝁, 𝚺, 𝝅 𝑝 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1 𝑁 𝑝 𝐱 𝑛|𝐳 𝑛 𝑝 𝐳 𝑛 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑛𝑘 • 完全データ対数尤度を求める • ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = ln 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑛𝑘 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 𝑧 𝑛𝑘は観測できないので、期待値を用いると • 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝔼 𝐙 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 を求める 2016/9/12 パターン認識と機械学習 輪読 32 𝑝 𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘
  • 33.
    𝑧 𝑛𝑘の期待値の導出 • 事後分布𝑝𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値 • 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1 𝐾 𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′ 𝑧 𝑛𝑘′ 𝐳 𝑛 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 𝑧 𝑛𝑗 = 𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 = 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 ≡ 𝛾 𝑧 𝑛𝑘 2016/9/12 パターン認識と機械学習 輪読 33 𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾 𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾 1 1 𝐳 𝑛 の意味: 𝐳 𝑛のすべてのとりうる値、つまり 1,0, … , 0, … , 0 0,1, … , 0, … , 0 0,0, … , 1, … , 0 0,0, … , 0, … , 1 に対して和をとる 𝐾
  • 34.
    K-meansとの関連(1) 2016/9/12 パターン認識と機械学習 輪読34 • K-means • 二値変数𝑟𝑛𝑘による ハード割り当て 混合ガウス分布に関するEMアルゴリズムのある極限として、 K-meansアルゴリズムを導ける • 混合ガウス分布 • 負担率𝛾 𝑧 𝑛𝑘 による ソフトな割り当て
  • 35.
    K-meansとの関連(2) • 各ガウス要素の共分散行列が𝜖𝐈で与えられる混合ガウス分布を考える • 𝑝𝐱|𝝁 𝑘, 𝚺 𝑘 = 1 2𝜋𝜖 𝐷/2 exp − 1 2𝜖 𝐱 − 𝝁 𝑘 2 • 負担率を計算すると • 𝛾 𝑧 𝑛𝑘 ≡ 𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1 𝑗=1 𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1 = 𝜋 𝑘 exp − 𝐱−𝝁 𝑘 2 2𝜖 𝑗=1 𝜋 𝑗 exp − 𝐱−𝝁 𝑗 2 2𝜖 2016/9/12 パターン認識と機械学習 輪読 35
  • 36.
    K-meansとの関連(3) • 𝐱 −𝝁 𝑗 2 が最小になる𝑗を𝑗∗とおく。 • 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0 • lim 𝜖→∞ 𝛾 𝑧 𝑛𝑗∗ = lim 𝜖→∞ 𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 𝜋1 exp − 𝐱−𝝁1 2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾 2 2𝜖 = 1 = 𝑟 𝑛𝑗∗ • lim 𝜖→∞ 𝛾 𝑧 𝑛𝑘 = lim 𝜖→∞ 𝜋 𝑘 exp − 𝐱−𝝁 𝑘 2 2𝜖 𝜋1 exp − 𝐱−𝝁1 2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾 2 2𝜖 = 0 = 𝑟𝑛𝑘 • 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する 2016/9/12 パターン認識と機械学習 輪読 36
  • 37.
    K-meansとの関連(4) • Mステップにおける𝝁 𝑘の値 •𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛 𝑛 𝑟 𝑛𝑘 • 対数尤度の期待値 • 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → − 1 2 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 − 𝝁 𝑘 2 + const. • 対数尤度の期待値の最大化は、歪み尺度の最小化と同等 • 𝐽 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 2016/9/12 パターン認識と機械学習 輪読 37 𝝁 𝑘 = 𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 𝑛 𝛾 𝑧 𝑛𝑘
  • 38.
    混合ベルヌーイ分布 • 手書き文字の分類などに利用可能 • 方針 •ピクセル数が𝐷の手書き数字を、 𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする • 観測変数: 𝐱 • 潜在変数: 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾 • 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0 • パラメータを調整し対数尤度関数を最大化 • 新しい手書き文字𝐱′を実際に分類 • 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、 最大となる𝑘に分類 2016/9/12 パターン認識と機械学習 輪読 38 ここまで
  • 39.
    尤度関数の導出 • 潜在変数の事前分布(=どの文字を書くか) • 𝑝𝐳|𝝅 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 • 観測変数の条件付確率(=書く文字を決めた上での、手書き文字の分布) • 𝑝 𝐱|𝐳, 𝝁 = 𝑘=1 𝐾 𝑝 𝐱|𝝁 𝑘 𝑧 𝑘 • 同時分布(尤度関数)の導出 • 𝑝 𝐱, 𝐳|𝝁, 𝝅 = 𝑝 𝐱|𝐳, 𝝁 𝑝 𝐳|𝝅 = 𝑘=1 𝐾 𝜋 𝑘 𝑝 𝐱|𝝁 𝑘 𝑧 𝑘 = 𝑘=1 𝐾 𝜋 𝑘 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑 𝑧 𝑘 2016/9/12 パターン認識と機械学習 輪読 39 𝑝 𝑧 𝑘 = 1|𝜋 𝑘 = 𝜋 𝑘 𝑝 𝑥 𝑑 = 1|𝝁 𝑘 = 𝜇 𝑘𝑑 𝑝 𝑥 𝑑 = 0|𝝁 𝑘 = 1 − 𝜇 𝑘𝑑 ↓ 𝑝 𝐱|𝝁 𝑘 = 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑
  • 40.
    混合ベルヌーイ分布による手書き文字分類 • 各文字はピクセルごとに、黒くなる確率 𝜇𝑘𝑑を持っている 2016/9/12 パターン認識と機械学習 輪読 40 𝜇11 𝜇12 𝜇13 ⋯ 𝜇1𝐷 𝜇 𝐾1 𝜇 𝐾2 𝜇 𝐾3 ⋯ 𝜇 𝐾𝐷 ・・・ 𝜇11 クラス番号 (どの文字か) 要素番号 文字1の各要素 文字Kの各要素
  • 41.
    対数尤度関数の期待値 • データ集合𝐗 =𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数 • 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑 𝑧 𝑘 • 対数尤度関数の導出 • ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 • 対数尤度関数の期待値の導出 • 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 2016/9/12 パターン認識と機械学習 輪読 41
  • 42.
    𝑧 𝑛𝑘の期待値の導出 • ベイズの定理を用いて負担率を計算(混合ガウス分布のものと同様) 𝔼𝑧 𝑛𝑘 = 𝐳 𝑛 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 𝑝 𝐱 𝑛 |𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 𝐳 𝑛 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑘′ 𝜋 𝑘′ 𝑝 𝐱 𝑛 |𝝁 𝑘′ 𝑧 𝑛𝑘′ 𝐳 𝑛 𝑗 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗 𝑧 𝑛𝑗 2016/9/12 パターン認識と機械学習 輪読 42 = 𝜋 𝑘 𝑝 𝐱 𝑛 |𝝁 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘 𝑗=1 𝐾 𝑝 𝑧 𝑛𝑗=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑗=1,𝝁 𝑗 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑘=1,𝝁 𝑘 𝑧 𝑛𝑗=1 𝑝 𝐱 𝑛,𝑧 𝑛𝑗=1|𝝁 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘 𝑝 𝐱 𝑛|𝝁 𝑘 = 𝑝 𝑧 𝑛𝑘 = 1|𝐱 𝑛, 𝝁 𝑘 = 𝛾 𝑧 𝑛𝑘
  • 43.
    対数尤度の期待値を最大化するパラメータ • 𝔼 𝐙|𝐗ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 を各種パラメータで微分して、最大化する解を求める • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • 各ピクセルは、全データの重みつき平均値 • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • 全データに対する文字𝑘の割合 • ただし𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 • 文字𝑘に分類されるデータの枚数 2016/9/12 パターン認識と機械学習 輪読 43
  • 44.
    パラメータ𝝁 𝑘の直感的理解 2016/9/12 パターン認識と機械学習輪読 44 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5 𝝁4 𝛾 𝑧 𝑛4 各データの 「4らしさ」 𝑥1𝑑 𝑥2𝑑 𝑥3𝑑 𝑥4𝑑 𝑥5𝑑 𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓% 𝜇4𝑑 = 1 𝑁4 𝑛=1 𝑁 𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑 𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷 文字4において、 各ピクセルが黒くなる確率
  • 45.
    ベイズ線形回帰に関するEMアルゴリズム • エビデンス近似再訪 • 方法 •𝑝 𝐭 |𝛼, 𝛽 = 𝐰 𝑝 𝐭, 𝐰|𝛼, 𝛽 なので、𝑝 𝐭, 𝐰|𝛼, 𝛽 を求めたい。 • 𝐰の値が観測できないので 𝐰|𝐭 に関する期待値をとる • Eステップ • 𝐰の事後分布𝑝 𝐰|𝐭, 𝛼, 𝛽 を計算 • 期待完全データ対数尤度𝔼 𝐰|𝐭 𝑝 𝐭, 𝐰|𝛼, 𝛽 • Mステップ • 期待完全データ対数尤度を最大化するように𝛼, 𝛽を更新 2016/9/12 パターン認識と機械学習 輪読 45 観測変数 潜在変数 パラメータ 尤度関数 混合ガウス分布 𝐗 𝐙 𝝁, 𝚺, 𝝅 𝑝 𝐗|𝝁, 𝚺, 𝝅 エビデンス近似 𝐭 𝐰 𝛼, 𝛽 𝑝 𝐭 |𝛼, 𝛽
  • 46.
  • 47.
    9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 •EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 47 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 48.
    一般のEMアルゴリズム • EMアルゴリズムをより一般的に取り扱う • 尤度関数の最大化であることの証明 •観測変数𝐗、潜在変数𝐙、パラメータの組𝜽 • 目的:尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化 • 潜在変数についての分布𝑞 𝐙 を導入すると • ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 • ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り • ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗,𝐙|𝜽 𝑞 𝐙 • KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗,𝜽 𝑞 𝐙 2016/9/12 パターン認識と機械学習 輪読 48 ℒ 𝑞, 𝜽 :自由エネルギー KL 𝑞||𝑝 :KLダイバージェンス
  • 49.
    ln 𝑝 𝐗|𝜽= ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明 ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗, 𝜽 𝑞 𝐙 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 − ln 𝑝 𝐙|𝐗, 𝜽 𝑞 𝐙 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 ∙ 𝑞 𝐙 𝑝 𝐙|𝐗, 𝜽 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗|𝜽 = ln 𝑝 𝐗|𝜽 𝐙 𝑞 𝐙 = ln 𝑝 𝐗|𝜽 2016/9/12 パターン認識と機械学習 輪読 49 𝑝 𝐗, 𝐙|𝜽 𝑝 𝐙|𝐗, 𝜽 = 𝑝 𝐗|𝜽 ∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
  • 50.
    ℒ 𝑞, 𝜽とKL 𝑞||𝑝 の意味 • KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗,𝜽 𝑞 𝐙 は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス • KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ • したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽 • ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる 2016/9/12 パターン認識と機械学習 輪読 50
  • 51.
    Eステップ • Eステップで行うこと • 𝜽oldを固定し、下界ℒ𝑞, 𝜽old を𝑞 𝐙 について最大化 • 下界を最大化するにはKL 𝑞||𝑝 = 0とすればよい • つまり𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽old とする 2016/9/12 パターン認識と機械学習 輪読 51
  • 52.
    Mステップ • Mステップで行うこと • 分布𝑞𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る • 𝑞 𝐙 は𝜽old のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new に更新 • →KL 𝑞||𝑝 ≥ 0 2016/9/12 パターン認識と機械学習 輪読 52
  • 53.
    下界の意味 • ℒ 𝑞,𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old ln 𝑝 𝐙|𝐗, 𝜽old = 𝒬 𝜽, 𝜽old + const • 対数尤度の期待値𝒬 𝜽, 𝜽old が現れる • Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化 2016/9/12 パターン認識と機械学習 輪読 53
  • 54.
    EMアルゴリズムの応用 • 複雑なモデルに対してはEMアルゴリズムを拡張する必要がある • 一般化EMアルゴリズム(GEMアルゴリズム) •複雑なMステップにも対応可能 • 下界の最大化は諦め、少しでも増加させるようにパラメータを変化 • ECM法 • GEMアルゴリズムの形式の1つ • Mステップでいくつかの制限つき最適化を用いる • パラメータの一部を固定して、残りを最適化 2016/9/12 パターン認識と機械学習 輪読 54
  • 55.
    9章 混合モデルとEM まとめ •EMアルゴリズム:最適化の手法 • 目標:モデルのパラメータを調整し、対数尤度関数の期待値を最大化する • 混合ガウス分布などのように、潜在変数をもつモデルに対応可能 • 以下のE・Mステップを繰り返す • Eステップ • パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める • Mステップ • 事後分布を固定し、対数尤度関数の期待値を最大化するように パラメータを決定 2016/9/12 パターン認識と機械学習 輪読 55

Editor's Notes

  • #4 上段:観測データに対しパラメトリックなモデルを設定し・・・
  • #8 タイトル:数式を使って説明していく
  • #11 タイトル:ここまではk-meansの原理を説明してきたが、k-meansの利用法としてはデータ解析などさまざまなものがある。ここではその利用法の1つである画像圧縮について説明する
  • #16 的当てゲームといったが、わかるのは壁のどこに
  • #18 中段:負担率は、xが与えられた下での・・・と定義されます 下段:kがどのくらい関与しているか という考え方も可能
  • #19 aは潜在変数Zも観測できている状態。しかし実際は観測できないbの状態
  • #20 タイトル:ここまでで必要な確率分布を定義してきたので、データに対してパラメータつまり的の場所とプレイヤーの正確さがもっともらしくなるように推定を行う。つまり最尤推定
  • #22 タイトル:それではEMアルゴリズムを混合ガウス分布に適用していく
  • #23 Nkはkを1つ決めてつまり的を1つ決めて、その的に対する全データ点の負担率の合計を求める
  • #25 下段:ここでいう正規化とは、負担率の合計を全データ数でわったもの。 直感的には、より多くのデータ点を負担しているガウス要素が、π_kの値が大きくなる
  • #28 タイトル:まとめ
  • #31 対数尤度関数を確率変数の実現値とし、条件付確率𝑝(Z|X)についての期待値を求める 同時分布の式にはzが変数として含まれているが、zについての期待値を求めることで、式からzを消すことができる
  • #32 目的は例によって、観測データ集合から計算される対数尤度関数 完全データ対数尤度は、潜在変数zの値も観測できているときに値がわかる
  • #33 上段: 実際、求めた式の中にzが入っているので、zというデータが必要であることがわかる 期待値をとることによってそのzを消す(矢印の意味)
  • #34 下段:テキストの9.13式と全く同じ形
  • #35 タイトル:次に混合ガウス分布とk-meansの関連について
  • #36 上段:まず混合ガウス分布において、
  • #37 上段:各データ点は、K個のクラスターに対して、距離が最小になるときのみrnj=1とした
  • #38 上段:ガウス分布の式でのパラメータはこの式で表されたが、負担率とrが一致したので、k-meansにおけるμは次の式で表される。γとrを置き換えた
  • #39 タイトル:全く話は変わって、ベルヌーイ分布 手書き文字の分類などに利用可能なので、ここではそれを扱いながら数式を説明していく
  • #42 中段:上の式の対数をとって対数尤度を求める。対数尤度関数はzの値がわからないと求められないが、zは観測できない 下段:混合がうすのものと同じなので省略
  • #43 混合がうすのものと同じなので省略
  • #46 タイトル p164 9.3.4節
  • #48 具体的な例を扱うわけではないので抽象的になるが、EMアルゴリズムが数式的に正しいことを証明していく
  • #49 吹き出し:このテキストには書いていなかったが、文献によってはLを自由エネルギーと言っているものもあった。熱力学で使われるような単語でおもしろいが、どうしてそう言うのかは調べ切れなかった
  • #51 タイトル:ℒ 𝑞,𝜽 とKL 𝑞||𝑝 の意味を考えていきます
  • #52 下界ℒ 𝑞, 𝜽 old を直接動かすのではなくて、KLダイバージェンスを最小化することで下界を最大化する。 θを固定するので、pも固定。その状態で、qをpと等しくする
  • #53 先ほど更新した分布𝑞 𝐙 を固定し・・・
  • #54 定数項はθから独立。θについて最大化されるのは、対数尤度の期待値
  • #56 Eステップ:事後分布を求めるためにいったんパラメータを固定する Mステップ:最適なパラメータを求めるために事後分布を固定 事後分布やパラメータ別々に一発で求められるのであれば繰り返す必要はないのだが、事後分布とパラメータはお互いに依存しているので、EMステップでどちらかを固定しながら繰り返す必要がある