SlideShare a Scribd company logo
1 of 55
パターン認識と機械学習
M1 菅原啓介
第9章 混合モデルとEM
2016/9/12 パターン認識と機械学習 輪読 1
目次
1. K-meansクラスタリング
2. 混合ガウス分布
3. EMアルゴリズムのもう1つの解釈
4. 一般のEMアルゴリズム
2016/9/12 パターン認識と機械学習 輪読 2
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 3
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
9.1 K-meansクラスタリング
p140~
2016/9/12 パターン認識と機械学習 輪読 4
K-meansクラスタリング
• 多次元空間上のデータ集合をK個のクラスターに分割する方法
• クラスター
• データ点の集まり
• クラスター内部のデータ点間の距離が、
外部のデータ点間の距離と比べて小さい
2個のクラスターに分割
2016/9/12 パターン認識と機械学習 輪読 5
K-meansクラスタリングの方法
【Mステップ】
クラスターの中心を求める
【Eステップ】
データ点の所属を変更
繰り返し
2016/9/12 パターン認識と機械学習 輪読 6
K-means法に対するEMアルゴリズム
• 目的関数:「歪み尺度」
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• 𝑟𝑛𝑘:𝑛番目のデータ点がクラスタ𝑘に属するか 0,1
• 𝐱 𝑛:データ点の座標
• 𝝁 𝑘:クラスタのプロトタイプ(中心)
• Eステップの目的
• 𝑟𝑛𝑘について𝐽を最小化(𝝁 𝑘は固定)
• Mステップの目的
• 𝝁 𝑘について𝐽を最小化(𝑟𝑛𝑘は固定)
2016/9/12 パターン認識と機械学習 輪読 7
例:3番目のデータ点がクラスタ2に属する場合
𝑟31, 𝑟32 = 0,1
Eステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Eステップの目的:𝑟𝑛𝑘について𝐽を最小化
• 例:クラスター2つの場合
• 𝐽 = 𝑛=1
𝑁
𝑟𝑛1 𝐱 𝑛 − 𝝁1
2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2
2
• 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい
大 小0 1
2016/9/12 パターン認識と機械学習 輪読 8
Mステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Mステップの目的:𝝁 𝑘について𝐽を最小化
• 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化
• 2 𝑛=1
𝑁
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0
• ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• クラスターに属するデータ点の座標の平均
2016/9/12 パターン認識と機械学習 輪読 9
画像圧縮への利用
r
g
b
r
g
b
2016/9/12 パターン認識と機械学習 輪読 10
• 画像の色情報を3次元空間にプロット
• クラスタリングをして代表ベクトルを
保持しておく
• 元画像では、各ピクセルは2563色を
区別する必要があったが、
• 圧縮後の画像はK色を区別できればよい
必要データ量が減少
画像圧縮への利用
r
g
b
r
g
b
2016/9/12 パターン認識と機械学習 輪読 11
圧縮前 圧縮後
1ピクセルがとりうる色 256 3
= 224 𝐾
1ピクセルが必要とする情報量(ビット) log2 224
= 24 log2 𝐾
代表ベクトルの保持に必要な情報量(ビット) 𝐾 log2 28 3
= 24𝐾
Nピクセルの画像全体で必要な情報量(ビット) 24𝑁 𝑁 log2 𝐾 + 24𝐾
𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量(ビット) 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒
9.2 混合ガウス分布
p146~
2016/9/12 パターン認識と機械学習 輪読 12
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 13
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
混合ガウス分布の例
• ガウス分布を重ね合わせた分布
• 例:的当てゲーム
• 的が1つ
• →ガウス分布に従う
• 的が3つ
• →混合ガウス分布に従う
• 「壁のどこに当たったか」だけが
観測可能とし、的がどこにあるかを推定する
2016/9/12 パターン認識と機械学習 輪読 14
混合ガウス分布 確率変数とパラメータ
• 𝐱 = 𝑥1, 𝑥2 :観測変数
• データ点から観測できる
• 𝐳 = 𝑧1, 𝑧2, 𝑧3 :潜在変数
• 𝑧 𝑘は 0,1 の2値変数
• 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1
• 𝑘番目の的を狙う確率:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
• データ点からは観測できない
• 的に関する情報
• 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 15
𝑥2 観測可能
観測不可能
混合ガウス分布 確率分布
• 潜在変数𝐳の確率分布
• 𝑝 𝐳 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 狙いをつけた下での𝐱の条件付分布
• 𝑝 𝐱|𝑧 𝑘 = 1 = 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
• 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
• 同時分布は𝑝 𝐳 𝑝 𝐱|𝐳 なので、𝐱の周辺分布は
• 𝑝 𝐱 = 𝐳 𝑝 𝐳 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 16
𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
混合ガウス分布 負担率
2016/9/12 パターン認識と機械学習 輪読 17
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
• あるデータ点は、どの的を狙うことにより
生成されたのか? →「負担率」
• 𝐱が与えられた下での𝐳の条件付確率
• 𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝐱 =
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• 混合要素𝑘が𝐱の観測を説明する度合い
負担率の図示
• (a) 赤の的を狙った人が生成したデータ点は赤で示されている。他色も同様
• (b) どの的を実際に狙ったのか不明
• (c) 図(b)のデータ点と的の中心から、負担率を計算。
例えば青の負担率と緑の負担率が同程度であれば、水色でプロット
2016/9/12 パターン認識と機械学習 輪読 18
的
最尤推定
𝐱 𝑇
= 𝑥1, … , 𝑥 𝐷 , 𝐳 𝑇
= 𝑧1, … , 𝑧 𝐾
2016/9/12 パターン認識と機械学習 輪読 19
𝐗 =
𝑥11 ⋯ 𝑥 𝐷
⋮ ⋱ ⋮
𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷
𝐙 =
𝑧11 ⋯ 𝑧 𝐷
⋮ ⋱ ⋮
𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷
データ集合
• 尤度関数
• 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• データ集合として考え、最尤推定を行う
混合ガウス分布の最尤推定における問題
• 各混合要素の共分散行列を 𝚺 𝑘 = 𝜎 𝑘
2
𝐈 とする
• ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定
• つまり混合要素の平均(中心)とデータ点が一致
• データ点は次の形で尤度関数に寄与
• 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗
2
𝐈 =
1
2𝜋 𝐷/2 ∙
1
𝜎𝑗
𝐷
• 𝜎𝑗 → 0の極限をとると発散
• ガウス分布のパラメータに制限
2016/9/12 パターン認識と機械学習 輪読 20
【ガウス分布の一般形】
𝒩 𝐱|𝝁, 𝚺
=
1
2𝜋 𝐷/2
∙
1
𝚺 1 2
exp −
1
2
𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁
混合ガウス分布のEMアルゴリズム
• 混合ガウス分布:潜在変数を持つモデル
• EMアルゴリズムを利用して最尤解を求める
• 方針
• 最終目標:対数尤度関数の最大化
• 対数尤度関数を、ガウス分布の各パラメータ 𝝁, 𝚺 、𝜋 𝑘で微分
• 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘のそれぞれに対して対数尤度関数を最大化
2016/9/12 パターン認識と機械学習 輪読 21
𝝁 𝑘, 𝚺 𝑘に対する尤度関数の最大化
• 対数尤度を𝝁 𝑘について微分して0とおく
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
Σ 𝑘
−1
𝐱 𝑛 − 𝝁 𝑘
• 整理して
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• ただし、
• 𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 𝚺 𝑘についても同様に
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
2016/9/12 パターン認識と機械学習 輪読 22
負担率𝛾 𝑧 𝑛𝑘
k番目の的が狙われた回数
データ点の重み(=負担率)つき平均
各データ点が的(ガウス要素の中心)
からどのくらい離れているか
ln 𝑝 𝐗|𝝅, 𝝁, 𝚺
=
𝑛=1
𝑁
ln
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝜋 𝑘に関する尤度関数の最大化(1)
• 𝑘=1
𝐾
𝜋 𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる
• 次の量を𝜋 𝑘で微分して0とおく
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1
𝐾
𝜋 𝑘 − 1
• 次の式が得られる
• 0 = 𝑛=1
𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆
2016/9/12 パターン認識と機械学習 輪読 23
次スライド
𝜋 𝑘に関する尤度関数の最大化(2)
• 両辺に𝜋 𝑘をかけて
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆𝜋 𝑘 ⋯ ∗
• 𝑘について和をとる
• 0 = 𝑘=1
𝐾
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1
𝐾
𝜋 𝑘
2016/9/12 パターン認識と機械学習 輪読 24
負担率𝛾 𝑧 𝑛𝑘
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 = 1 𝑘=1
𝐾
𝜋 𝑘 = 1
• 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁
• ∗ より、
• 0 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 =
𝑁 𝑘
𝑁
• よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの
𝑁𝑘 =
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘の最尤解
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• データ点の重み(=負担率)つき平均
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
• 各データ点がガウス要素の中心からどのくらい離れているか
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• その要素の負担率の合計を正規化したもの
2016/9/12 パターン認識と機械学習 輪読 25
EMアルゴリズムの適用
【Eステップ】
負担率の更新
2016/9/12 パターン認識と機械学習 輪読 26
【Mステップ】
ガウス分布のパラメータ調整
繰り返し
混合ガウス分布のためのEMアルゴリズム
• 目的:混合ガウス分布のパラメータについて、尤度関数を最大化
• Eステップ:負担率の計算
• 𝛾 𝑧 𝑛𝑘 =
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• Mステップ:各パラメータの更新
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
2016/9/12 パターン認識と機械学習 輪読 27
9.3 EMアルゴリズムの
もう1つの解釈
p155~
2016/9/12 パターン認識と機械学習 輪読 28
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 29
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
EMアルゴリズムの一般化
2016/9/12 パターン認識と機械学習 輪読 30
目的:尤度関数𝒑 𝐗|𝜽 の最大化
• 𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽
• 𝑝 𝐗, 𝐙|𝜽 を求めるには𝐙の観測が必要
• →不可能
• 𝑝 𝐗, 𝐙|𝜽 を求めることはできないので、
条件付期待値𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 を求める
目的:条件付期待値𝔼 𝐙|𝐗 𝒍𝒏 𝒑 𝐗, 𝐙|𝜽 の最大化
混合ガウス分布再訪
2016/9/12 パターン認識と機械学習 輪読 31
求められるもの
観測変数𝐗
条件付確率𝑝 𝐙 𝐗
対数尤度の期待値
𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽
対数尤度の期待値を最大化するように、
パラメータを調整
完全データ対数尤度
ln 𝑝 𝐗, 𝐙|𝜽
完全データ対数尤度の期待値を導出
• 完全データ尤度
• 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑝 𝐗|𝐙, 𝝁, 𝚺, 𝝅 𝑝 𝐙|𝝁, 𝚺, 𝝅
= 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝐳 𝑛 𝑝 𝐳 𝑛
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
• 完全データ対数尤度を求める
• ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = ln 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
= 𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝑧 𝑛𝑘は観測できないので、期待値を用いると
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝐙 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 を求める
2016/9/12 パターン認識と機械学習 輪読 32
𝑝 𝐳 =
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑝 𝐱|𝐳 =
𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
𝑧 𝑛𝑘の期待値の導出
• 事後分布𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1
𝐾
𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
𝑧 𝑛𝑗
=
𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
=
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
≡ 𝛾 𝑧 𝑛𝑘
2016/9/12 パターン認識と機械学習 輪読 33
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾
1
1
𝐳 𝑛
の意味:
𝐳 𝑛のすべてのとりうる値、つまり
1,0, … , 0, … , 0
0,1, … , 0, … , 0
0,0, … , 1, … , 0
0,0, … , 0, … , 1
に対して和をとる
𝐾
K-meansとの関連(1)
2016/9/12 パターン認識と機械学習 輪読 34
• K-means
• 二値変数𝑟𝑛𝑘による
ハード割り当て
混合ガウス分布に関するEMアルゴリズムのある極限として、
K-meansアルゴリズムを導ける
• 混合ガウス分布
• 負担率𝛾 𝑧 𝑛𝑘 による
ソフトな割り当て
K-meansとの関連(2)
• 各ガウス要素の共分散行列が𝜖𝐈で与えられる混合ガウス分布を考える
• 𝑝 𝐱|𝝁 𝑘, 𝚺 𝑘 =
1
2𝜋𝜖 𝐷/2 exp −
1
2𝜖
𝐱 − 𝝁 𝑘
2
• 負担率を計算すると
• 𝛾 𝑧 𝑛𝑘 ≡
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝑗=1 𝜋 𝑗 exp − 𝐱−𝝁 𝑗
2
2𝜖
2016/9/12 パターン認識と機械学習 輪読 35
K-meansとの関連(3)
• 𝐱 − 𝝁 𝑗
2
が最小になる𝑗を𝑗∗とおく。
• 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑗∗ = lim
𝜖→∞
𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 1 = 𝑟 𝑛𝑗∗
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑘 = lim
𝜖→∞
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 0 = 𝑟𝑛𝑘
• 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する
2016/9/12 パターン認識と機械学習 輪読 36
K-meansとの関連(4)
• Mステップにおける𝝁 𝑘の値
• 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• 対数尤度の期待値
• 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → −
1
2 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 − 𝝁 𝑘
2 + const.
• 対数尤度の期待値の最大化は、歪み尺度の最小化と同等
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
2016/9/12 パターン認識と機械学習 輪読 37
𝝁 𝑘 =
𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛
𝑛 𝛾 𝑧 𝑛𝑘
混合ベルヌーイ分布
• 手書き文字の分類などに利用可能
• 方針
• ピクセル数が𝐷の手書き数字を、
𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする
• 観測変数: 𝐱
• 潜在変数: 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾
• 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0
• パラメータを調整し対数尤度関数を最大化
• 新しい手書き文字𝐱′を実際に分類
• 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、
最大となる𝑘に分類
2016/9/12 パターン認識と機械学習 輪読 38
ここまで
尤度関数の導出
• 潜在変数の事前分布(=どの文字を書くか)
• 𝑝 𝐳|𝝅 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 観測変数の条件付確率(=書く文字を決めた上での、手書き文字の分布)
• 𝑝 𝐱|𝐳, 𝝁 = 𝑘=1
𝐾
𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
• 同時分布(尤度関数)の導出
• 𝑝 𝐱, 𝐳|𝝁, 𝝅 = 𝑝 𝐱|𝐳, 𝝁 𝑝 𝐳|𝝅
= 𝑘=1
𝐾
𝜋 𝑘 𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
= 𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
2016/9/12 パターン認識と機械学習 輪読 39
𝑝 𝑧 𝑘 = 1|𝜋 𝑘 = 𝜋 𝑘
𝑝 𝑥 𝑑 = 1|𝝁 𝑘 = 𝜇 𝑘𝑑
𝑝 𝑥 𝑑 = 0|𝝁 𝑘 = 1 − 𝜇 𝑘𝑑
↓
𝑝 𝐱|𝝁 𝑘 = 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
混合ベルヌーイ分布による手書き文字分類
• 各文字はピクセルごとに、黒くなる確率 𝜇 𝑘𝑑を持っている
2016/9/12 パターン認識と機械学習 輪読 40
𝜇11 𝜇12 𝜇13 ⋯
𝜇1𝐷
𝜇 𝐾1 𝜇 𝐾2 𝜇 𝐾3 ⋯
𝜇 𝐾𝐷
・・・
𝜇11
クラス番号
(どの文字か)
要素番号
文字1の各要素 文字Kの各要素
対数尤度関数の期待値
• データ集合𝐗 = 𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数
• 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
• 対数尤度関数の導出
• ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
• 対数尤度関数の期待値の導出
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
2016/9/12 パターン認識と機械学習 輪読 41
𝑧 𝑛𝑘の期待値の導出
• ベイズの定理を用いて負担率を計算(混合ガウス分布のものと同様)
𝔼 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁
= 𝐳 𝑛
𝑧 𝑛𝑘
𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝑝 𝐱 𝑛 |𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝐳 𝑛 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′ 𝜋 𝑘′ 𝑝 𝐱 𝑛 |𝝁 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
𝑧 𝑛𝑗
2016/9/12 パターン認識と機械学習 輪読 42
=
𝜋 𝑘 𝑝 𝐱 𝑛 |𝝁 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑗=1
𝐾 𝑝 𝑧 𝑛𝑗=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑗=1,𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑘=1,𝝁 𝑘
𝑧 𝑛𝑗=1 𝑝 𝐱 𝑛,𝑧 𝑛𝑗=1|𝝁
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑝 𝐱 𝑛|𝝁 𝑘
= 𝑝 𝑧 𝑛𝑘 = 1|𝐱 𝑛, 𝝁 𝑘 = 𝛾 𝑧 𝑛𝑘
対数尤度の期待値を最大化するパラメータ
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 +
𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
を各種パラメータで微分して、最大化する解を求める
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• 各ピクセルは、全データの重みつき平均値
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 全データに対する文字𝑘の割合
• ただし𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 文字𝑘に分類されるデータの枚数
2016/9/12 パターン認識と機械学習 輪読 43
パラメータ𝝁 𝑘の直感的理解
2016/9/12 パターン認識と機械学習 輪読 44
𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5
𝝁4
𝛾 𝑧 𝑛4
各データの
「4らしさ」
𝑥1𝑑
𝑥2𝑑
𝑥3𝑑 𝑥4𝑑 𝑥5𝑑
𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓%
𝜇4𝑑 =
1
𝑁4
𝑛=1
𝑁
𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑
𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷
文字4において、
各ピクセルが黒くなる確率
ベイズ線形回帰に関するEMアルゴリズム
• エビデンス近似再訪
• 方法
• 𝑝 𝐭 |𝛼, 𝛽 = 𝐰 𝑝 𝐭, 𝐰|𝛼, 𝛽 なので、𝑝 𝐭, 𝐰|𝛼, 𝛽 を求めたい。
• 𝐰の値が観測できないので 𝐰|𝐭 に関する期待値をとる
• Eステップ
• 𝐰の事後分布𝑝 𝐰|𝐭, 𝛼, 𝛽 を計算
• 期待完全データ対数尤度𝔼 𝐰|𝐭 𝑝 𝐭, 𝐰|𝛼, 𝛽
• Mステップ
• 期待完全データ対数尤度を最大化するように𝛼, 𝛽を更新
2016/9/12 パターン認識と機械学習 輪読 45
観測変数 潜在変数 パラメータ 尤度関数
混合ガウス分布 𝐗 𝐙 𝝁, 𝚺, 𝝅 𝑝 𝐗|𝝁, 𝚺, 𝝅
エビデンス近似 𝐭 𝐰 𝛼, 𝛽 𝑝 𝐭 |𝛼, 𝛽
9.4 一般のEMアルゴリズム
p165~
2016/9/12 パターン認識と機械学習 輪読 46
9章の概要
• EMアルゴリズム:最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• EMアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
2016/9/12 パターン認識と機械学習 輪読 47
EMアルゴリズム 9.2節 混合ガウス分布
9.3節 混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節
一般のEMアルゴリズム
• EMアルゴリズムをより一般的に取り扱う
• 尤度関数の最大化であることの証明
• 観測変数𝐗、潜在変数𝐙、パラメータの組𝜽
• 目的:尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化
• 潜在変数についての分布𝑞 𝐙 を導入すると
• ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
• ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り
• ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln
𝑝 𝐗,𝐙|𝜽
𝑞 𝐙
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
2016/9/12 パターン認識と機械学習 輪読 48
ℒ 𝑞, 𝜽 :自由エネルギー
KL 𝑞||𝑝 :KLダイバージェンス
ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明
ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 =
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
−
𝐙
𝑞 𝐙 ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
− ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
∙
𝑞 𝐙
𝑝 𝐙|𝐗, 𝜽
=
𝐙
𝑞 𝐙 ln 𝑝 𝐗|𝜽
= ln 𝑝 𝐗|𝜽
𝐙
𝑞 𝐙
= ln 𝑝 𝐗|𝜽
2016/9/12 パターン認識と機械学習 輪読 49
𝑝 𝐗, 𝐙|𝜽
𝑝 𝐙|𝐗, 𝜽
= 𝑝 𝐗|𝜽
∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
ℒ 𝑞, 𝜽 とKL 𝑞||𝑝 の意味
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス
• KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ
• したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽
• ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる
2016/9/12 パターン認識と機械学習 輪読 50
Eステップ
• Eステップで行うこと
• 𝜽oldを固定し、下界ℒ 𝑞, 𝜽old を𝑞 𝐙 について最大化
• 下界を最大化するにはKL 𝑞||𝑝 = 0とすればよい
• つまり𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽old とする
2016/9/12 パターン認識と機械学習 輪読 51
Mステップ
• Mステップで行うこと
• 分布𝑞 𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る
• 𝑞 𝐙 は𝜽old
のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new
に更新
• →KL 𝑞||𝑝 ≥ 0
2016/9/12 パターン認識と機械学習 輪読 52
下界の意味
• ℒ 𝑞, 𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽old
= 𝒬 𝜽, 𝜽old
+ const
• 対数尤度の期待値𝒬 𝜽, 𝜽old
が現れる
• Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化
2016/9/12 パターン認識と機械学習 輪読 53
EMアルゴリズムの応用
• 複雑なモデルに対してはEMアルゴリズムを拡張する必要がある
• 一般化EMアルゴリズム(GEMアルゴリズム)
• 複雑なMステップにも対応可能
• 下界の最大化は諦め、少しでも増加させるようにパラメータを変化
• ECM法
• GEMアルゴリズムの形式の1つ
• Mステップでいくつかの制限つき最適化を用いる
• パラメータの一部を固定して、残りを最適化
2016/9/12 パターン認識と機械学習 輪読 54
9章 混合モデルとEM まとめ
• EMアルゴリズム:最適化の手法
• 目標:モデルのパラメータを調整し、対数尤度関数の期待値を最大化する
• 混合ガウス分布などのように、潜在変数をもつモデルに対応可能
• 以下のE・Mステップを繰り返す
• Eステップ
• パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める
• Mステップ
• 事後分布を固定し、対数尤度関数の期待値を最大化するように
パラメータを決定
2016/9/12 パターン認識と機械学習 輪読 55

More Related Content

What's hot

PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似KokiTakamiya
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11matsuolab
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13matsuolab
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルohken
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性sleepy_yoshi
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Taikai Takeda
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門佑馬 斎藤
 

What's hot (20)

PRML8章
PRML8章PRML8章
PRML8章
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性PRML 8.2 条件付き独立性
PRML 8.2 条件付き独立性
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 

Viewers also liked

Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Wataru Kishimoto
 
入門パターン認識と機械学習3章
入門パターン認識と機械学習3章入門パターン認識と機械学習3章
入門パターン認識と機械学習3章hiro5585
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Wataru Kishimoto
 
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)Yuma Yoshimoto
 
Guide for program Implement for PRML
Guide for program Implement for PRML  Guide for program Implement for PRML
Guide for program Implement for PRML Masato Nakai
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)Itaru Otomaru
 
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜Mitsuki Ogasahara
 
入門パターン認識と機械学習12章
入門パターン認識と機械学習12章入門パターン認識と機械学習12章
入門パターン認識と機械学習12章hiro5585
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」Koichi Hamada
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係Prunus 1350
 
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Wataru Kishimoto
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11Minoru Chikamune
 
SVMについて
SVMについてSVMについて
SVMについてmknh1122
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 

Viewers also liked (17)

Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504Bishop prml 9.3_wk77_100408-1504
Bishop prml 9.3_wk77_100408-1504
 
入門パターン認識と機械学習3章
入門パターン認識と機械学習3章入門パターン認識と機械学習3章
入門パターン認識と機械学習3章
 
機械学習
機械学習機械学習
機械学習
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
PATTERN RECOGNITION AND MACHINE LEARNING (1.1)
 
Guide for program Implement for PRML
Guide for program Implement for PRML  Guide for program Implement for PRML
Guide for program Implement for PRML
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
 
入門パターン認識と機械学習12章
入門パターン認識と機械学習12章入門パターン認識と機械学習12章
入門パターン認識と機械学習12章
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
 
パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係パターン認識と機械学習 §8.3.4 有向グラフとの関係
パターン認識と機械学習 §8.3.4 有向グラフとの関係
 
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11「機械学習 By スタンフォード大学」勉強会 2015.09.11
「機械学習 By スタンフォード大学」勉強会 2015.09.11
 
SVMについて
SVMについてSVMについて
SVMについて
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 

Similar to PRML第9章「混合モデルとEM」

Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル). .
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2Ryoma Nakagawa
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsulesyukihiro domae
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Takao Yamanaka
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法健児 青木
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現Kazu Ghalamkari
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習Kenta Ishii
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector MachineYuma Nakamura
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoderMikio Shiga
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisYasu Math
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomikenyanonaka
 

Similar to PRML第9章「混合モデルとEM」 (20)

Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
Dynamic Routing Between Capsules
Dynamic Routing Between CapsulesDynamic Routing Between Capsules
Dynamic Routing Between Capsules
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoder
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner Basis
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 

PRML第9章「混合モデルとEM」

  • 2. 目次 1. K-meansクラスタリング 2. 混合ガウス分布 3. EMアルゴリズムのもう1つの解釈 4. 一般のEMアルゴリズム 2016/9/12 パターン認識と機械学習 輪読 2
  • 3. 9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 • EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 3 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 5. K-meansクラスタリング • 多次元空間上のデータ集合をK個のクラスターに分割する方法 • クラスター • データ点の集まり • クラスター内部のデータ点間の距離が、 外部のデータ点間の距離と比べて小さい 2個のクラスターに分割 2016/9/12 パターン認識と機械学習 輪読 5
  • 7. K-means法に対するEMアルゴリズム • 目的関数:「歪み尺度」 • 𝐽 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • 𝑟𝑛𝑘:𝑛番目のデータ点がクラスタ𝑘に属するか 0,1 • 𝐱 𝑛:データ点の座標 • 𝝁 𝑘:クラスタのプロトタイプ(中心) • Eステップの目的 • 𝑟𝑛𝑘について𝐽を最小化(𝝁 𝑘は固定) • Mステップの目的 • 𝝁 𝑘について𝐽を最小化(𝑟𝑛𝑘は固定) 2016/9/12 パターン認識と機械学習 輪読 7 例:3番目のデータ点がクラスタ2に属する場合 𝑟31, 𝑟32 = 0,1
  • 8. Eステップ • 𝐽 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • Eステップの目的:𝑟𝑛𝑘について𝐽を最小化 • 例:クラスター2つの場合 • 𝐽 = 𝑛=1 𝑁 𝑟𝑛1 𝐱 𝑛 − 𝝁1 2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2 2 • 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい 大 小0 1 2016/9/12 パターン認識と機械学習 輪読 8
  • 9. Mステップ • 𝐽 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 • Mステップの目的:𝝁 𝑘について𝐽を最小化 • 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化 • 2 𝑛=1 𝑁 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0 • ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛 𝑛 𝑟 𝑛𝑘 • クラスターに属するデータ点の座標の平均 2016/9/12 パターン認識と機械学習 輪読 9
  • 10. 画像圧縮への利用 r g b r g b 2016/9/12 パターン認識と機械学習 輪読 10 • 画像の色情報を3次元空間にプロット • クラスタリングをして代表ベクトルを 保持しておく • 元画像では、各ピクセルは2563色を 区別する必要があったが、 • 圧縮後の画像はK色を区別できればよい 必要データ量が減少
  • 11. 画像圧縮への利用 r g b r g b 2016/9/12 パターン認識と機械学習 輪読 11 圧縮前 圧縮後 1ピクセルがとりうる色 256 3 = 224 𝐾 1ピクセルが必要とする情報量(ビット) log2 224 = 24 log2 𝐾 代表ベクトルの保持に必要な情報量(ビット) 𝐾 log2 28 3 = 24𝐾 Nピクセルの画像全体で必要な情報量(ビット) 24𝑁 𝑁 log2 𝐾 + 24𝐾 𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量(ビット) 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒
  • 13. 9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 • EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 13 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 14. 混合ガウス分布の例 • ガウス分布を重ね合わせた分布 • 例:的当てゲーム • 的が1つ • →ガウス分布に従う • 的が3つ • →混合ガウス分布に従う • 「壁のどこに当たったか」だけが 観測可能とし、的がどこにあるかを推定する 2016/9/12 パターン認識と機械学習 輪読 14
  • 15. 混合ガウス分布 確率変数とパラメータ • 𝐱 = 𝑥1, 𝑥2 :観測変数 • データ点から観測できる • 𝐳 = 𝑧1, 𝑧2, 𝑧3 :潜在変数 • 𝑧 𝑘は 0,1 の2値変数 • 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1 • 𝑘番目の的を狙う確率:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘 • データ点からは観測できない • 的に関する情報 • 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 2016/9/12 パターン認識と機械学習 輪読 15 𝑥2 観測可能 観測不可能
  • 16. 混合ガウス分布 確率分布 • 潜在変数𝐳の確率分布 • 𝑝 𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 • 狙いをつけた下での𝐱の条件付分布 • 𝑝 𝐱|𝑧 𝑘 = 1 = 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 • 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘 • 同時分布は𝑝 𝐳 𝑝 𝐱|𝐳 なので、𝐱の周辺分布は • 𝑝 𝐱 = 𝐳 𝑝 𝐳 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 2016/9/12 パターン認識と機械学習 輪読 16 𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
  • 17. 混合ガウス分布 負担率 2016/9/12 パターン認識と機械学習 輪読 17 𝑥1 𝑥2 𝑧1 𝑧2 𝑧3 • あるデータ点は、どの的を狙うことにより 生成されたのか? →「負担率」 • 𝐱が与えられた下での𝐳の条件付確率 • 𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝐱 = 𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1 𝑗=1 𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1 = 𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗 • 混合要素𝑘が𝐱の観測を説明する度合い
  • 18. 負担率の図示 • (a) 赤の的を狙った人が生成したデータ点は赤で示されている。他色も同様 • (b) どの的を実際に狙ったのか不明 • (c) 図(b)のデータ点と的の中心から、負担率を計算。 例えば青の負担率と緑の負担率が同程度であれば、水色でプロット 2016/9/12 パターン認識と機械学習 輪読 18 的
  • 19. 最尤推定 𝐱 𝑇 = 𝑥1, … , 𝑥 𝐷 , 𝐳 𝑇 = 𝑧1, … , 𝑧 𝐾 2016/9/12 パターン認識と機械学習 輪読 19 𝐗 = 𝑥11 ⋯ 𝑥 𝐷 ⋮ ⋱ ⋮ 𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷 𝐙 = 𝑧11 ⋯ 𝑧 𝐷 ⋮ ⋱ ⋮ 𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷 データ集合 • 尤度関数 • 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 対数尤度関数 • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • データ集合として考え、最尤推定を行う
  • 20. 混合ガウス分布の最尤推定における問題 • 各混合要素の共分散行列を 𝚺 𝑘 = 𝜎 𝑘 2 𝐈 とする • ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定 • つまり混合要素の平均(中心)とデータ点が一致 • データ点は次の形で尤度関数に寄与 • 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗 2 𝐈 = 1 2𝜋 𝐷/2 ∙ 1 𝜎𝑗 𝐷 • 𝜎𝑗 → 0の極限をとると発散 • ガウス分布のパラメータに制限 2016/9/12 パターン認識と機械学習 輪読 20 【ガウス分布の一般形】 𝒩 𝐱|𝝁, 𝚺 = 1 2𝜋 𝐷/2 ∙ 1 𝚺 1 2 exp − 1 2 𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁
  • 21. 混合ガウス分布のEMアルゴリズム • 混合ガウス分布:潜在変数を持つモデル • EMアルゴリズムを利用して最尤解を求める • 方針 • 最終目標:対数尤度関数の最大化 • 対数尤度関数を、ガウス分布の各パラメータ 𝝁, 𝚺 、𝜋 𝑘で微分 • 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘のそれぞれに対して対数尤度関数を最大化 2016/9/12 パターン認識と機械学習 輪読 21
  • 22. 𝝁 𝑘, 𝚺 𝑘に対する尤度関数の最大化 • 対数尤度を𝝁 𝑘について微分して0とおく • 0 = 𝑛=1 𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 Σ 𝑘 −1 𝐱 𝑛 − 𝝁 𝑘 • 整理して • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • ただし、 • 𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 • 𝚺 𝑘についても同様に • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T 2016/9/12 パターン認識と機械学習 輪読 22 負担率𝛾 𝑧 𝑛𝑘 k番目の的が狙われた回数 データ点の重み(=負担率)つき平均 各データ点が的(ガウス要素の中心) からどのくらい離れているか ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
  • 23. 𝜋 𝑘に関する尤度関数の最大化(1) • 𝑘=1 𝐾 𝜋 𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる • 次の量を𝜋 𝑘で微分して0とおく • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1 𝐾 𝜋 𝑘 − 1 • 次の式が得られる • 0 = 𝑛=1 𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 + 𝜆 2016/9/12 パターン認識と機械学習 輪読 23 次スライド
  • 24. 𝜋 𝑘に関する尤度関数の最大化(2) • 両辺に𝜋 𝑘をかけて • 0 = 𝑛=1 𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 + 𝜆𝜋 𝑘 ⋯ ∗ • 𝑘について和をとる • 0 = 𝑘=1 𝐾 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1 𝐾 𝜋 𝑘 2016/9/12 パターン認識と機械学習 輪読 24 負担率𝛾 𝑧 𝑛𝑘 𝑘=1 𝐾 𝛾 𝑧 𝑛𝑘 = 1 𝑘=1 𝐾 𝜋 𝑘 = 1 • 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁 • ∗ より、 • 0 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 = 𝑁 𝑘 𝑁 • よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの 𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘
  • 25. 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘の最尤解 • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • データ点の重み(=負担率)つき平均 • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T • 各データ点がガウス要素の中心からどのくらい離れているか • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • その要素の負担率の合計を正規化したもの 2016/9/12 パターン認識と機械学習 輪読 25
  • 27. 混合ガウス分布のためのEMアルゴリズム • 目的:混合ガウス分布のパラメータについて、尤度関数を最大化 • Eステップ:負担率の計算 • 𝛾 𝑧 𝑛𝑘 = 𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗 • Mステップ:各パラメータの更新 • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • 𝚺 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘 T • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • 対数尤度関数 • ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1 𝑁 ln 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 2016/9/12 パターン認識と機械学習 輪読 27
  • 29. 9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 • EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 29 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 30. EMアルゴリズムの一般化 2016/9/12 パターン認識と機械学習 輪読 30 目的:尤度関数𝒑 𝐗|𝜽 の最大化 • 𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 • 𝑝 𝐗, 𝐙|𝜽 を求めるには𝐙の観測が必要 • →不可能 • 𝑝 𝐗, 𝐙|𝜽 を求めることはできないので、 条件付期待値𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 を求める 目的:条件付期待値𝔼 𝐙|𝐗 𝒍𝒏 𝒑 𝐗, 𝐙|𝜽 の最大化
  • 31. 混合ガウス分布再訪 2016/9/12 パターン認識と機械学習 輪読 31 求められるもの 観測変数𝐗 条件付確率𝑝 𝐙 𝐗 対数尤度の期待値 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 対数尤度の期待値を最大化するように、 パラメータを調整 完全データ対数尤度 ln 𝑝 𝐗, 𝐙|𝜽
  • 32. 完全データ対数尤度の期待値を導出 • 完全データ尤度 • 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑝 𝐗|𝐙, 𝝁, 𝚺, 𝝅 𝑝 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1 𝑁 𝑝 𝐱 𝑛|𝐳 𝑛 𝑝 𝐳 𝑛 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑛𝑘 • 完全データ対数尤度を求める • ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = ln 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑛𝑘 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 𝑧 𝑛𝑘は観測できないので、期待値を用いると • 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝔼 𝐙 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘 • 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 を求める 2016/9/12 パターン認識と機械学習 輪読 32 𝑝 𝐳 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 𝑝 𝐱|𝐳 = 𝑘=1 𝐾 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘 𝑧 𝑘
  • 33. 𝑧 𝑛𝑘の期待値の導出 • 事後分布𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値 • 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1 𝐾 𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′ 𝑧 𝑛𝑘′ 𝐳 𝑛 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 𝑧 𝑛𝑗 = 𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 = 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗 ≡ 𝛾 𝑧 𝑛𝑘 2016/9/12 パターン認識と機械学習 輪読 33 𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾 𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾 1 1 𝐳 𝑛 の意味: 𝐳 𝑛のすべてのとりうる値、つまり 1,0, … , 0, … , 0 0,1, … , 0, … , 0 0,0, … , 1, … , 0 0,0, … , 0, … , 1 に対して和をとる 𝐾
  • 34. K-meansとの関連(1) 2016/9/12 パターン認識と機械学習 輪読 34 • K-means • 二値変数𝑟𝑛𝑘による ハード割り当て 混合ガウス分布に関するEMアルゴリズムのある極限として、 K-meansアルゴリズムを導ける • 混合ガウス分布 • 負担率𝛾 𝑧 𝑛𝑘 による ソフトな割り当て
  • 35. K-meansとの関連(2) • 各ガウス要素の共分散行列が𝜖𝐈で与えられる混合ガウス分布を考える • 𝑝 𝐱|𝝁 𝑘, 𝚺 𝑘 = 1 2𝜋𝜖 𝐷/2 exp − 1 2𝜖 𝐱 − 𝝁 𝑘 2 • 負担率を計算すると • 𝛾 𝑧 𝑛𝑘 ≡ 𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1 𝑗=1 𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1 = 𝜋 𝑘 exp − 𝐱−𝝁 𝑘 2 2𝜖 𝑗=1 𝜋 𝑗 exp − 𝐱−𝝁 𝑗 2 2𝜖 2016/9/12 パターン認識と機械学習 輪読 35
  • 36. K-meansとの関連(3) • 𝐱 − 𝝁 𝑗 2 が最小になる𝑗を𝑗∗とおく。 • 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0 • lim 𝜖→∞ 𝛾 𝑧 𝑛𝑗∗ = lim 𝜖→∞ 𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 𝜋1 exp − 𝐱−𝝁1 2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾 2 2𝜖 = 1 = 𝑟 𝑛𝑗∗ • lim 𝜖→∞ 𝛾 𝑧 𝑛𝑘 = lim 𝜖→∞ 𝜋 𝑘 exp − 𝐱−𝝁 𝑘 2 2𝜖 𝜋1 exp − 𝐱−𝝁1 2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗ 2 2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾 2 2𝜖 = 0 = 𝑟𝑛𝑘 • 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する 2016/9/12 パターン認識と機械学習 輪読 36
  • 37. K-meansとの関連(4) • Mステップにおける𝝁 𝑘の値 • 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛 𝑛 𝑟 𝑛𝑘 • 対数尤度の期待値 • 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → − 1 2 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 − 𝝁 𝑘 2 + const. • 対数尤度の期待値の最大化は、歪み尺度の最小化と同等 • 𝐽 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 2 2016/9/12 パターン認識と機械学習 輪読 37 𝝁 𝑘 = 𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 𝑛 𝛾 𝑧 𝑛𝑘
  • 38. 混合ベルヌーイ分布 • 手書き文字の分類などに利用可能 • 方針 • ピクセル数が𝐷の手書き数字を、 𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする • 観測変数: 𝐱 • 潜在変数: 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾 • 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0 • パラメータを調整し対数尤度関数を最大化 • 新しい手書き文字𝐱′を実際に分類 • 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、 最大となる𝑘に分類 2016/9/12 パターン認識と機械学習 輪読 38 ここまで
  • 39. 尤度関数の導出 • 潜在変数の事前分布(=どの文字を書くか) • 𝑝 𝐳|𝝅 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 • 観測変数の条件付確率(=書く文字を決めた上での、手書き文字の分布) • 𝑝 𝐱|𝐳, 𝝁 = 𝑘=1 𝐾 𝑝 𝐱|𝝁 𝑘 𝑧 𝑘 • 同時分布(尤度関数)の導出 • 𝑝 𝐱, 𝐳|𝝁, 𝝅 = 𝑝 𝐱|𝐳, 𝝁 𝑝 𝐳|𝝅 = 𝑘=1 𝐾 𝜋 𝑘 𝑝 𝐱|𝝁 𝑘 𝑧 𝑘 = 𝑘=1 𝐾 𝜋 𝑘 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑 𝑧 𝑘 2016/9/12 パターン認識と機械学習 輪読 39 𝑝 𝑧 𝑘 = 1|𝜋 𝑘 = 𝜋 𝑘 𝑝 𝑥 𝑑 = 1|𝝁 𝑘 = 𝜇 𝑘𝑑 𝑝 𝑥 𝑑 = 0|𝝁 𝑘 = 1 − 𝜇 𝑘𝑑 ↓ 𝑝 𝐱|𝝁 𝑘 = 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑
  • 40. 混合ベルヌーイ分布による手書き文字分類 • 各文字はピクセルごとに、黒くなる確率 𝜇 𝑘𝑑を持っている 2016/9/12 パターン認識と機械学習 輪読 40 𝜇11 𝜇12 𝜇13 ⋯ 𝜇1𝐷 𝜇 𝐾1 𝜇 𝐾2 𝜇 𝐾3 ⋯ 𝜇 𝐾𝐷 ・・・ 𝜇11 クラス番号 (どの文字か) 要素番号 文字1の各要素 文字Kの各要素
  • 41. 対数尤度関数の期待値 • データ集合𝐗 = 𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数 • 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝜋 𝑘 𝑑=1 𝐷 𝜇 𝑘𝑑 𝑥 𝑑 1 − 𝜇 𝑘𝑑 1−𝑥 𝑑 𝑧 𝑘 • 対数尤度関数の導出 • ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 • 対数尤度関数の期待値の導出 • 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 2016/9/12 パターン認識と機械学習 輪読 41
  • 42. 𝑧 𝑛𝑘の期待値の導出 • ベイズの定理を用いて負担率を計算(混合ガウス分布のものと同様) 𝔼 𝑧 𝑛𝑘 = 𝐳 𝑛 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 𝑝 𝐱 𝑛 |𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 𝐳 𝑛 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁 = 𝐳 𝑛 𝑧 𝑛𝑘 𝑘′ 𝜋 𝑘′ 𝑝 𝐱 𝑛 |𝝁 𝑘′ 𝑧 𝑛𝑘′ 𝐳 𝑛 𝑗 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗 𝑧 𝑛𝑗 2016/9/12 パターン認識と機械学習 輪読 42 = 𝜋 𝑘 𝑝 𝐱 𝑛 |𝝁 𝑘 𝑗=1 𝐾 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘 𝑗=1 𝐾 𝑝 𝑧 𝑛𝑗=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑗=1,𝝁 𝑗 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑘=1,𝝁 𝑘 𝑧 𝑛𝑗=1 𝑝 𝐱 𝑛,𝑧 𝑛𝑗=1|𝝁 = 𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘 𝑝 𝐱 𝑛|𝝁 𝑘 = 𝑝 𝑧 𝑛𝑘 = 1|𝐱 𝑛, 𝝁 𝑘 = 𝛾 𝑧 𝑛𝑘
  • 43. 対数尤度の期待値を最大化するパラメータ • 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1 𝑁 𝑘=1 𝐾 𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1 𝐷 𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑 を各種パラメータで微分して、最大化する解を求める • 𝝁 𝑘 = 1 𝑁 𝑘 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 𝐱 𝑛 • 各ピクセルは、全データの重みつき平均値 • 𝜋 𝑘 = 𝑁 𝑘 𝑁 • 全データに対する文字𝑘の割合 • ただし𝑁𝑘 = 𝑛=1 𝑁 𝛾 𝑧 𝑛𝑘 • 文字𝑘に分類されるデータの枚数 2016/9/12 パターン認識と機械学習 輪読 43
  • 44. パラメータ𝝁 𝑘の直感的理解 2016/9/12 パターン認識と機械学習 輪読 44 𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5 𝝁4 𝛾 𝑧 𝑛4 各データの 「4らしさ」 𝑥1𝑑 𝑥2𝑑 𝑥3𝑑 𝑥4𝑑 𝑥5𝑑 𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓% 𝜇4𝑑 = 1 𝑁4 𝑛=1 𝑁 𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑 𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷 文字4において、 各ピクセルが黒くなる確率
  • 45. ベイズ線形回帰に関するEMアルゴリズム • エビデンス近似再訪 • 方法 • 𝑝 𝐭 |𝛼, 𝛽 = 𝐰 𝑝 𝐭, 𝐰|𝛼, 𝛽 なので、𝑝 𝐭, 𝐰|𝛼, 𝛽 を求めたい。 • 𝐰の値が観測できないので 𝐰|𝐭 に関する期待値をとる • Eステップ • 𝐰の事後分布𝑝 𝐰|𝐭, 𝛼, 𝛽 を計算 • 期待完全データ対数尤度𝔼 𝐰|𝐭 𝑝 𝐭, 𝐰|𝛼, 𝛽 • Mステップ • 期待完全データ対数尤度を最大化するように𝛼, 𝛽を更新 2016/9/12 パターン認識と機械学習 輪読 45 観測変数 潜在変数 パラメータ 尤度関数 混合ガウス分布 𝐗 𝐙 𝝁, 𝚺, 𝝅 𝑝 𝐗|𝝁, 𝚺, 𝝅 エビデンス近似 𝐭 𝐰 𝛼, 𝛽 𝑝 𝐭 |𝛼, 𝛽
  • 47. 9章の概要 • EMアルゴリズム:最適化の手法 • 観測データに対しモデルを設定し、そのモデルのパラメータを決定 • EMアルゴリズムは「潜在変数」を持つモデルに対応 • 観測変数が「潜在変数」に影響を受ける 2016/9/12 パターン認識と機械学習 輪読 47 EMアルゴリズム 9.2節 混合ガウス分布 9.3節 混合ベルヌーイ分布 9.1節 K-meansクラスタリング 抽象度 9.3節 9.4節
  • 48. 一般のEMアルゴリズム • EMアルゴリズムをより一般的に取り扱う • 尤度関数の最大化であることの証明 • 観測変数𝐗、潜在変数𝐙、パラメータの組𝜽 • 目的:尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化 • 潜在変数についての分布𝑞 𝐙 を導入すると • ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 • ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り • ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗,𝐙|𝜽 𝑞 𝐙 • KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗,𝜽 𝑞 𝐙 2016/9/12 パターン認識と機械学習 輪読 48 ℒ 𝑞, 𝜽 :自由エネルギー KL 𝑞||𝑝 :KLダイバージェンス
  • 49. ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明 ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗, 𝜽 𝑞 𝐙 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 − ln 𝑝 𝐙|𝐗, 𝜽 𝑞 𝐙 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗, 𝐙|𝜽 𝑞 𝐙 ∙ 𝑞 𝐙 𝑝 𝐙|𝐗, 𝜽 = 𝐙 𝑞 𝐙 ln 𝑝 𝐗|𝜽 = ln 𝑝 𝐗|𝜽 𝐙 𝑞 𝐙 = ln 𝑝 𝐗|𝜽 2016/9/12 パターン認識と機械学習 輪読 49 𝑝 𝐗, 𝐙|𝜽 𝑝 𝐙|𝐗, 𝜽 = 𝑝 𝐗|𝜽 ∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
  • 50. ℒ 𝑞, 𝜽 とKL 𝑞||𝑝 の意味 • KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln 𝑝 𝐙|𝐗,𝜽 𝑞 𝐙 は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス • KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ • したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽 • ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる 2016/9/12 パターン認識と機械学習 輪読 50
  • 51. Eステップ • Eステップで行うこと • 𝜽oldを固定し、下界ℒ 𝑞, 𝜽old を𝑞 𝐙 について最大化 • 下界を最大化するにはKL 𝑞||𝑝 = 0とすればよい • つまり𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽old とする 2016/9/12 パターン認識と機械学習 輪読 51
  • 52. Mステップ • Mステップで行うこと • 分布𝑞 𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る • 𝑞 𝐙 は𝜽old のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new に更新 • →KL 𝑞||𝑝 ≥ 0 2016/9/12 パターン認識と機械学習 輪読 52
  • 53. 下界の意味 • ℒ 𝑞, 𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old ln 𝑝 𝐙|𝐗, 𝜽old = 𝒬 𝜽, 𝜽old + const • 対数尤度の期待値𝒬 𝜽, 𝜽old が現れる • Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化 2016/9/12 パターン認識と機械学習 輪読 53
  • 54. EMアルゴリズムの応用 • 複雑なモデルに対してはEMアルゴリズムを拡張する必要がある • 一般化EMアルゴリズム(GEMアルゴリズム) • 複雑なMステップにも対応可能 • 下界の最大化は諦め、少しでも増加させるようにパラメータを変化 • ECM法 • GEMアルゴリズムの形式の1つ • Mステップでいくつかの制限つき最適化を用いる • パラメータの一部を固定して、残りを最適化 2016/9/12 パターン認識と機械学習 輪読 54
  • 55. 9章 混合モデルとEM まとめ • EMアルゴリズム:最適化の手法 • 目標:モデルのパラメータを調整し、対数尤度関数の期待値を最大化する • 混合ガウス分布などのように、潜在変数をもつモデルに対応可能 • 以下のE・Mステップを繰り返す • Eステップ • パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める • Mステップ • 事後分布を固定し、対数尤度関数の期待値を最大化するように パラメータを決定 2016/9/12 パターン認識と機械学習 輪読 55

Editor's Notes

  1. 上段:観測データに対しパラメトリックなモデルを設定し・・・
  2. タイトル:数式を使って説明していく
  3. タイトル:ここまではk-meansの原理を説明してきたが、k-meansの利用法としてはデータ解析などさまざまなものがある。ここではその利用法の1つである画像圧縮について説明する
  4. 的当てゲームといったが、わかるのは壁のどこに
  5. 中段:負担率は、xが与えられた下での・・・と定義されます 下段:kがどのくらい関与しているか という考え方も可能
  6. aは潜在変数Zも観測できている状態。しかし実際は観測できないbの状態
  7. タイトル:ここまでで必要な確率分布を定義してきたので、データに対してパラメータつまり的の場所とプレイヤーの正確さがもっともらしくなるように推定を行う。つまり最尤推定
  8. タイトル:それではEMアルゴリズムを混合ガウス分布に適用していく
  9. Nkはkを1つ決めてつまり的を1つ決めて、その的に対する全データ点の負担率の合計を求める
  10. 下段:ここでいう正規化とは、負担率の合計を全データ数でわったもの。 直感的には、より多くのデータ点を負担しているガウス要素が、π_kの値が大きくなる
  11. タイトル:まとめ
  12. 対数尤度関数を確率変数の実現値とし、条件付確率𝑝(Z|X)についての期待値を求める 同時分布の式にはzが変数として含まれているが、zについての期待値を求めることで、式からzを消すことができる
  13. 目的は例によって、観測データ集合から計算される対数尤度関数 完全データ対数尤度は、潜在変数zの値も観測できているときに値がわかる
  14. 上段: 実際、求めた式の中にzが入っているので、zというデータが必要であることがわかる 期待値をとることによってそのzを消す(矢印の意味)
  15. 下段:テキストの9.13式と全く同じ形
  16. タイトル:次に混合ガウス分布とk-meansの関連について
  17. 上段:まず混合ガウス分布において、
  18. 上段:各データ点は、K個のクラスターに対して、距離が最小になるときのみrnj=1とした
  19. 上段:ガウス分布の式でのパラメータはこの式で表されたが、負担率とrが一致したので、k-meansにおけるμは次の式で表される。γとrを置き換えた
  20. タイトル:全く話は変わって、ベルヌーイ分布 手書き文字の分類などに利用可能なので、ここではそれを扱いながら数式を説明していく
  21. 中段:上の式の対数をとって対数尤度を求める。対数尤度関数はzの値がわからないと求められないが、zは観測できない 下段:混合がうすのものと同じなので省略
  22. 混合がうすのものと同じなので省略
  23. タイトル p164 9.3.4節
  24. 具体的な例を扱うわけではないので抽象的になるが、EMアルゴリズムが数式的に正しいことを証明していく
  25. 吹き出し:このテキストには書いていなかったが、文献によってはLを自由エネルギーと言っているものもあった。熱力学で使われるような単語でおもしろいが、どうしてそう言うのかは調べ切れなかった
  26. タイトル:ℒ 𝑞,𝜽 とKL 𝑞||𝑝 の意味を考えていきます
  27. 下界ℒ 𝑞, 𝜽 old を直接動かすのではなくて、KLダイバージェンスを最小化することで下界を最大化する。 θを固定するので、pも固定。その状態で、qをpと等しくする
  28. 先ほど更新した分布𝑞 𝐙 を固定し・・・
  29. 定数項はθから独立。θについて最大化されるのは、対数尤度の期待値
  30. Eステップ:事後分布を求めるためにいったんパラメータを固定する Mステップ:最適なパラメータを求めるために事後分布を固定 事後分布やパラメータ別々に一発で求められるのであれば繰り返す必要はないのだが、事後分布とパラメータはお互いに依存しているので、EMステップでどちらかを固定しながら繰り返す必要がある