SlideShare a Scribd company logo
1 of 35
続・わかりやすいパターン認識
第9章 混合分布のパラメータ推定
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
2/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
3/35
9.1 混合分布に対するパラメトリックな学習
 9章以降では𝜔𝑖の扱いを一般化
【8章まで】
𝜔𝑖 :コインまたはサイコロの種類
【9章以降】
𝜔𝑖 :所属クラス、あるいはクラス
 第6章 EMアルゴリズムでは学習アルゴリズムの一般化を行った
推定対象のパラメータ:π𝑖(= 𝑃 𝜔𝑖 )、𝜃𝑖𝑘(= 𝑃(𝑣 𝑘|𝜔𝑖))
𝑚の値が大きくなり、パラメータ数が増大すると
⇒推定に要する計算量が膨大になる
𝑡回目の観察結果𝑥𝑡は𝑚種の候補𝑣1, 𝑣2, … , 𝑣 𝑚のいずれかを取ると
想定し、クラス𝜔𝑖に対する𝑚種のパラメータとして扱った
4/35
9.1 混合分布に対するパラメトリックな学習
 𝑣 𝑘の扱いを変更
【8章まで】
𝑣 𝑘 : コインの表・裏、あるいはサイコロの目
もとから離散値
【9章】
𝑣 𝑘 : 𝑚種の数値
もとは連続値だが、𝑥を𝑚段階に量子化して離散値𝑣1, 𝑣2, … , 𝑣 𝑚に変換
量子化幅を𝛿とすると、確率関数𝑃 𝑣 𝑘 𝜔𝑖 は確率密度関数𝑝(𝑥|𝜔𝑖)を用いると
次式で表される
𝑃 𝑣 𝑘 𝜔𝑖 =
𝑣 𝑘−𝛿/2
𝑣 𝑘+𝛿/2
𝑝 𝑥 𝜔𝑖 𝑑𝑥 (9.1)
5/35
9.1 混合分布に対するパラメトリックな学習
 例
ある𝜔𝑖に対して、パラメータ𝑃 𝑣 𝑘 𝜔𝑖 の値を推定すると以下になった
𝑝 𝑥 𝜔𝑖 =
1
2𝜋𝜎𝑖
exp −
1
2
𝑥 − 𝜇𝑖
2/𝜎𝑖
2
で表される場合、𝜔𝑖に対して𝑚種のパラメータ𝑃(𝑣 𝑘|𝜔𝑖)を推定する代わり
に、平均𝜇𝑖、分散𝜎𝑖
2
の二つのパラメータのみを推定すればよい
確率密度関数𝑝 𝑥 𝜔𝑖 が正規分布
(9.2)
m=9
正規分布に近似できそう
6/35
9.1 混合分布に対するパラメトリックな学習
 学習の方法
パラメトリックな学習
確率密度関数を想定し、そのパラメータを観測データより推定する手法
識別関数の設計は、推定された確率密度関数を用いたベイズ決定則を実現
することで行われる
ノンパラメトリックな学習
確率密度関数を想定せず、観測データより直接識別関数の設計を行う方法
例:パーセプトロンやニューラルネットワークで用いられている学習法
 9章ではパラメトリックな学習法によるパラメータ推定を試みる
• クラス𝜔𝑖(𝑖 = 1,2, … , 𝑐)がそれぞれ異なった確率密度関数を有する
• 観測結果はこれら𝑐個の確立密度関数より成る混合分布に従うとする
• 観測データは独立で、マルコフ性はないものとする
7/35
9.1 混合分布に対するパラメトリックな学習
 記法の確認
𝑝(𝑥|𝜔𝑖; 𝜽𝑖):クラス𝜔𝑖の確率密度関数
𝜽𝑖:𝜔𝑖の確率密度関数に含まれるパラメータを表すベクトル
例)正規分布の場合は𝜽𝑖 = (𝜇𝑖, 𝜎𝑖
2
)
𝜽:パラメータベクトル
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
𝜋𝑖:各クラスの事前確率𝑃 𝜔𝑖
𝑐種の確率密度関数の混合比を表す(𝑖 = 1, … , 𝑐)
以降のデータは順序関係を考慮しないので記法を変更
𝑥 𝑡, 𝑠𝑡(𝑡 = 1, … , 𝑛)⇒𝑥 𝑘, 𝑠 𝑘(𝑘 = 1, … , 𝑛)
𝐱 = 𝑥1 𝑥2 … 𝑥 𝑛, 𝐬 = 𝑠1 𝑠2 … 𝑠 𝑛 ⇒ 𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝑛 , 𝐬 = {𝑠1, 𝑠2, … , 𝑠 𝑛}
混合分布の確率密度関数
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
順序関係を含まない順序関係を含む
(𝑘 = 1,2, … , 𝑛) (9.4)
(9.3)
8/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
9/35
9.2 教師付き学習によるパラメータ推定
 教師付き学習では以下のような、完全データを得ることができる
(9.5)𝑥1, 𝑠1 , 𝑥2, 𝑠2 , … , (𝑥 𝑛, 𝑠 𝑛)
𝑠 𝑘 ∈ {𝜔1, 𝜔2, … , 𝜔𝑐} (𝑘 = 1,2, … , 𝑛) (9.6)
 マルコフ性がないので、このような観測結果が得られる尤度は次式で表される
𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
𝑝(𝑥 𝑘, 𝑠 𝑘; 𝜽)
=
𝑘=1
𝑛
𝑃(𝑠 𝑘) ∙
𝑘=1
𝑛
𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
log 𝑝 𝐱, 𝐬; 𝜽 =
𝑘=1
𝑛
log 𝑃(𝑠 𝑘) +
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
= 𝐿1 + 𝐿2
 以下の対数尤度は第5章と一致するので、同様の手順で𝐿1, 𝐿2をそれぞれ最大化すればよい
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
𝐿2 ≝
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
(9.7)
(9.8)
(9.9)
(9.10)
(9.11)
(9.12)
10/35
9.2 教師付き学習によるパラメータ推定
 𝐿1最大化(第5章で既出のため計算は省略)
𝜋𝑖 =
𝑛𝑖
𝑛
𝐿1 ≝
𝑘=1
𝑛
log 𝑃 𝑠 𝑘
 𝐿2最大化
(9.11)
(9.12)
(9.13)
𝐿2 ≝
𝑘=1
𝑛
log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐)
𝐿2 =
𝑖=1
𝑐
𝑥 𝑘∈𝜔 𝑖
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
教師付きの場合は、各𝑥 𝑘の所属クラスがわかるので、クラスごとに分割して表すことができる
上式でΣ 𝑥 𝑘∈𝜔 𝑖
はクラス𝜔𝑖に属する𝑥 𝑘について和をとることを示す
11/35
9.2 教師付き学習によるパラメータ推定
 𝐿2最大化(続き)
𝐿2 =
𝑖=1
𝑐
𝑥 𝑘∈𝜔 𝑖
log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14)
∇ 𝜽 𝑖
𝐿2 = 0
求めるべきパラメータ 𝜃𝑖は以下の解となる
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
(9.15)
(9.16)
𝐿2の推定はクラス𝜔𝑖ごとに行えばよい
∇ 𝜽 𝑖
𝐿2:勾配ベクトル
スカラ𝐿2を𝜽𝑖の各要素で偏微分することで得られるパラメータ
∇ 𝜽 𝑖
𝐿2 =
𝑥 𝑘∈𝜔 𝑖
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある
12/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
13/35
9.3 教師なし学習によるパラメータ推定
log 𝑝(𝐱; 𝜽) =
𝑘=1
𝑛
log 𝑝 𝑥 𝑘; 𝜽 (9.17)
教師なしの場合、得られるデータは不完全データであり、観測できるのは𝑥 𝑘のみである
観測結果𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑛}から得られる対数尤度は次式となる
𝑖=1
𝑐
𝜋𝑖 = 1
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1
𝜕𝐿
𝜕𝜋𝑖
= 0
∇ 𝜽 𝑖
𝐿 = 0
(9.18)
(9.19)
(9.20)
(9.21)
最尤推定を適用し、以下制約条件の下で(9.17)を最大にする𝜽および𝜋𝑖を求める
最適なパラメータを得るには、ラグランジュの未定乗数法により、𝜆を定数として
次式が極値をとる𝜽および𝜋𝑖を求めればよい
以下の各式が成り立つことが必要
14/35
9.3 教師なし学習によるパラメータ推定
 パラメータ𝜋𝑖の推定(第5章で既出のため計算は省略)
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
(9.22)
 パラメータ𝜽𝑖の推定
𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆
𝑖=1
𝑐
𝜋𝑖 − 1 (9.19)
∇ 𝜽 𝑖
𝐿 = ∇ 𝜽 𝑖
log 𝑝(𝐱; 𝜽)
=
𝑘=1
𝑛
1
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝(𝑥 𝑘; 𝜽)
=
𝑘=1
𝑛
1
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
=
𝑘=1
𝑛
𝜋𝑖
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0
𝑝 𝑥 𝑘; 𝜽 =
𝑖=1
𝑐
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (9.4)
(9.23)
(9.24)
(9.25)
(9.26)
15/35
9.3 教師なし学習によるパラメータ推定
 パラメータ𝜽𝑖の推定(続き)
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑝(𝑥 𝑘; 𝜽)
∇ 𝜽 𝑖
𝐿 =
𝑘=1
𝑛
𝜋𝑖
𝑝 𝑥 𝑘; 𝜽
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∙
∇ 𝜽 𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖
=
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
(9.26)
(9.27)
(9.28)
(9.29)
ベイズの定理(9.27)を用いて、式(9.26)を変形する
分子分母に𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)を掛ける
式(9.29)を満たす𝜽𝑖が求めるべき最適パラメータ 𝜃𝑖である
再帰的な表現となっているので、第5章同様に繰り返し演算を適用する
16/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
17/35
9.3 教師なし学習によるパラメータ推定
 教師付きの場合との対比(𝜋𝑖 の推定)
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22)
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
1 (𝑥 𝑘∈ 𝜔𝑖)
0 (otherwise)
教師なしの場合
教師付きの場合、𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 は1または0の確定的な値を取る
式(9.22)に適用すると、教師付きの場合と一致する
𝜋𝑖 =
𝑛𝑖
𝑛
(9.33)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝑥 𝑘; 𝜽 = 𝑛𝑖 (9.34)
式(9.33)より次式が成り立つ
(9.35)
 教師付きの場合との対比(𝜃𝑖 の推定)
𝜃𝑖も同様に教師付きの場合と一致する(計算略)
𝑥 𝑘∈𝜔 𝑖
∇ 𝜽 𝑖
log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 (9.36)
18/35
9.3 教師なし学習によるパラメータ推定
 EMアルゴリズムとの関係
𝑄 𝜽0
, 𝜽 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖 +
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
= 𝑅1 + 𝑅2
𝑅1 ≝
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖
𝑅2 ≝
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
EMアルゴリズムで導入されたQ関数は以下のように書ける
𝜽0
を定数とみなし、𝑄(𝜽0
, 𝜽)を最大化する𝜋𝑖および𝜽𝑖を求める
⇒𝑅1, 𝑅2をそれぞれ最大にすればよい
(9.37)
(9.38)
(9.39)
(9.40)
19/35
9.3 教師なし学習によるパラメータ推定
 𝑅1最大化(第6章で既出のため計算略)
𝑅1 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝜋𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
 𝑅2最大化(第6章で既出のため計算略)
𝑅2 =
𝑖=1
𝑐
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑅2を最大化するには、𝑖ごとに独立に考え次式を最大化すればよい
パラメータ𝜽𝑖に関して最大化することになるので、上式を𝜽𝑖について偏微分して0とおく
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (𝑖 = 1,2, … , 𝑐)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0
) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
(9.39)
(9.40)
(9.41)
(9.42)
(9.43)
式(9.41)、式(9.43)は教師なしでパラメータ推定を行った結果と一致(式(9.31)と式(9.32))
⇒混合分布のパラメータ推定を教師なしで行う処理は、EMアルゴリズムに対応している
20/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
⇐E-step
(Q関数構成要素算出)
⇐M-step(Q関数の最大化)
21/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
22/35
9.4 混合正規分布のパラメータ推定
 混合正規分布
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
混合分布の確率密度関数として正規分布を考え、そのパラメータを教師なし学習
により推定する
一般化のため、スカラ𝑥 𝑘ではなく、𝑑次元ベクトル𝐱 𝑘を考える
クラス𝜔𝑖の確率密度関数
𝝁𝑖、𝚺𝑖は、それぞれクラス𝜔𝑖の平均ベクトル、共分散行列であり、推定すべき
パラメータである
ここで 𝚺𝑖 は𝚺𝑖の行列式である
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)
𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐)
これまでの表記に従うと以下になる
(9.44)
(9.45)
(9.46)
次ページの計算手順を適用する
23/35
9.3 教師なし学習によるパラメータ推定
 混合分布のパラメータ推定
Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)
𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡.
𝑘=1
𝑛
𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖
log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0
Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.32)
(9.31)
(9.30)
本処理はEMアルゴリズムに対応しており、収束が保証されている
得られる解は大域的最適解であるとは限らない
𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)のため、 𝝁𝑖, 𝚺𝑖でそれぞれ偏微分
24/35
9.4 混合正規分布のパラメータ推定
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
上式を解くと、以下となる(導出は次ページ以降)
(9.48)
(9.49)
25/35
9.4 混合正規分布のパラメータ推定
 𝝁𝑖の導出
𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 =
1
2𝜋 𝑑/2 𝚺𝑖
1/2
exp −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) (9.44)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
式(9.44)より
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
𝜕
𝜕𝐱
𝐱 𝑡
𝐀𝐱 = 2𝐀𝐱
式(A.3.5)を用いると次式が成り立つ
(A.3.5)
※𝐱を𝑑次元の列ベクトル、𝐀
を 𝑑 × 𝑑 の対称行列とすると、
式(A.3.5)が成り立つ
𝜕
𝜕𝝁𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
(S.9.1)
式(S.9.1)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖) = 𝟎
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 = 𝟎
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖を左から掛ける
(9.48)
𝐱 𝑡
𝐀 𝐱
26/35
9.4 混合正規分布のパラメータ推定
 𝚺𝑖の導出
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = −
𝑑
2
log 2𝜋 −
1
2
log 𝚺𝑖 −
1
2
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
(𝐱 𝑘 − 𝝁𝑖)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
= −
1
2
𝜕
𝜕𝚺𝑖
log 𝚺𝑖 −
1
2
𝜕
𝜕𝚺𝑖
𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖
= −
1
2
𝚺𝑖
−1
−
1
2
𝜕
𝜕𝚺𝑖
tr 𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜕
𝜕𝐗
log 𝐗 = 𝐗−1
𝜕
𝜕𝐗
tr 𝐗−1
𝐀 = −𝐗−1
𝐀𝐗−1
※𝐱, 𝐲を𝑑次元の列ベクトル、𝐀, 𝐗を
𝑑 × 𝑑の対称行列とすると、次式が成
り立つ
tr(B)は行列Bの体格成分の和を表す
𝐱 𝑡
𝐲 = tr 𝐱𝐲 𝑡
= tr(𝐲𝐱 𝑡
) (A.3.1)
(A.3.7)
(A.3.6)
式(A.3.6)適用 式(A.3.1)適用
式(A.3.7)適用
= −
1
2
𝚺𝑖
−1
+
1
2
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝚺𝑖
−1
= −
1
2
𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 𝚺𝑖
−1
(S.9.2)
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝜕
𝜕𝚺𝑖
log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎
式(S.9.2)に代入
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖
−1
𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 𝚺𝑖
−1
= 𝟎
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
− 𝚺𝑖 = 𝟎
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
(9.49)
左右から𝚺𝑖を掛ける
27/35
9.4 混合正規分布のパラメータ推定
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
 パラメータ𝜋𝑖の推定
これまでと同様の計算で推定可能
(9.50)
 教師付き学習の場合
𝝁𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
𝐱 𝑘
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
1 (𝐱 𝑘∈ 𝜔𝑖)
0 (otherwise)
𝑘=1
𝑛
𝑃 𝜔𝑖|𝐱 𝑘; 𝜽 = 𝑛𝑖
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
1
𝑛𝑖
𝐱 𝑘∈𝜔 𝑖
(𝐱 𝑘− 𝝁𝑖) 𝐱 𝑘 − 𝝁𝑖
𝑡
𝜋𝑖 =
𝑛𝑖
𝑛
所属クラスが陽に与えられるので次式が成り立つ
教師なし 教師付き
28/35
9.4 混合正規分布のパラメータ推定
 混合正規分布のパラメータ推定
Step1 事前確率𝜋𝑖および𝝁𝑖, 𝚺𝑖の初期値を与える。
Step2 次式のベイズの定理より、各𝐱 𝑘に対して𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)を計算する。
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 =
𝜋𝑖 ∙ 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖)
𝑗=1
𝑐
𝜋𝑗 ∙ 𝑝(𝐱 𝑘|𝜔𝑗; 𝜽𝑗)
Step3 次式により𝜋𝑖, 𝝁𝑖, 𝚺𝑖を更新し、新しい 𝜋𝑖, 𝝁𝑖, 𝚺𝑖を求める。
𝜋𝑖 =
1
𝑛
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝝁𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
𝚺𝑖 =
𝑘=1
𝑛
𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖
𝑡
𝑘=1
𝑛
𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)
Step4 𝜋𝑖 = 𝜋𝑖、𝝁𝑖 = 𝝁𝑖、𝚺𝑖 = 𝚺𝑖と設定する。
対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ
Step2に戻る。
(9.56)
(9.57)
(9.58)
(9.59)
29/35
目次
9.1 混合分布に対するパラメトリックな学習
9.2 教師付き学習によるパラメータ推定
9.3 教師なし学習によるパラメータ推定
9.4 混合正規分布のパラメータ推定
9.5 混合正規分布のパラメータ推定実験
30/35
9.5 混合正規分布のパラメータ推定実験
 教師なし学習による、2種の一次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 2
• パラメータは𝜽1 = 𝜇1, 𝜎1
2
, 𝜽2 = 𝜇2, 𝜎2
2
• 真値は𝜇1 = 3, 𝜇2 = −1, 𝜎1
2
= 𝜎2
2
= 1, 𝜋1 = 0.6, 𝜋2 = 0.4
• 未知パラメータは𝜇1, 𝜇2のみで、他は既知とする
• 乱数により500個のデータを発生
対数尤度log 𝑝(𝐱; 𝜽)の等高線
初期値
(𝜇1, 𝜇2) = (−2, −3)
大域的最適解
推定結果
(𝜇1, 𝜇2) = (3.06, −1.17)
初期値
(𝜇1, 𝜇2) = (−3, −2)
log 𝑝(𝐱; 𝜽) = −1068.5
log 𝑝(𝐱; 𝜽) = −1026.6
局所最適解
𝜋1 = 𝜋2 = 0.5の場合は対数尤度の値は等しくなるので、解は双方が候補となり唯一に定まらない
12回の繰り返しで収束
31/35
9.5 混合正規分布のパラメータ推定実験
 教師なし学習による、5種の二次元正規分布より成る混合分布のパラメータ推定実験
• クラス数𝑐 = 5
• クラス𝜔𝑖に関する未知パラメータは事前確率𝜋𝑖とパラメータ𝜽𝑖 = 𝝁𝑖, 𝚺𝑖 (𝑖 = 1,2, … , 5)
• クラス𝜔1, … , 𝜔5に対するパターン数:200, 100, 100, 50, 50(計500パターン)
• 事前確率𝜋1~𝜋5:0.4, 0.2, 0.2, 0.1, 0.1
𝐱 = 𝑥1, 𝑥2
𝑡
を発生させプロット
事前確率に比例する太さで等高線を描画
32/35
9.5 混合正規分布のパラメータ推定実験
 パラメータの初期値
良い値が得られている
真値
推定結果
𝝁𝑖:等間隔に並べた値(図参照)
𝚺𝑖 =
1 0
0 1
(𝑖 = 1, … , 5)
𝜋𝑖 = 0.2 (𝑖 = 1, … , 5)
33/35
9.5 混合正規分布のパラメータ推定実験
 対数尤度、事前確率の変化
• 対数尤度は繰り返しとともに増大している
• 事前確率は0.2から始まり、途中で収束し、正しい値が得られている
34/35
9.5 混合正規分布のパラメータ推定実験
 クラスタリングについて
• 混合分布のパラメータ推定はクラスタリング法としても有用
• K-means法は、混合正規分布のパラメータ推定の特別な場合(10.4節参照)
• 混合正規分布のパラメータ推定において、クラス(分布関数)の数𝑐を事前に設定する必要がある
【解決策】
 複数候補の𝑐に対しパラメータ推定を行い、最良の結果を選択⇐効率的ではない
 想定される値よりもやや大きめの値に𝑐を設定し、パラメータ推定処理を実施
無駄な分布関数の事前確率は0に近づき、必要な分布関数の事前確率は非零で残る
𝜔6~𝜔9の事前確率は0に近づいているものの、𝜋6 = 0.126と比較的大きいものも存在
𝑐を大きくした場合に得られる解は、局所的最適解であることがほとんど
この考え方で大域的最適解を求める方法が凸クラスタリング(次章で紹介)
𝑐=9として実行
35/35

More Related Content

What's hot

ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章YosukeAkasaka
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
指数時間アルゴリズムの最先端
指数時間アルゴリズムの最先端指数時間アルゴリズムの最先端
指数時間アルゴリズムの最先端Yoichi Iwata
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013Shuyo Nakatani
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ssuserf4860b
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3noname409
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎Hirotaka Hachiya
 
ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4noname409
 
指数時間アルゴリズム入門
指数時間アルゴリズム入門指数時間アルゴリズム入門
指数時間アルゴリズム入門Yoichi Iwata
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
社内機械学習勉強会 #5
社内機械学習勉強会 #5社内機械学習勉強会 #5
社内機械学習勉強会 #5shingo suzuki
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析Hirotaka Hachiya
 
様々な全域木問題
様々な全域木問題様々な全域木問題
様々な全域木問題tmaehara
 

What's hot (20)

ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
Gmm勉強会
Gmm勉強会Gmm勉強会
Gmm勉強会
 
指数時間アルゴリズムの最先端
指数時間アルゴリズムの最先端指数時間アルゴリズムの最先端
指数時間アルゴリズムの最先端
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4
 
指数時間アルゴリズム入門
指数時間アルゴリズム入門指数時間アルゴリズム入門
指数時間アルゴリズム入門
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
社内機械学習勉強会 #5
社内機械学習勉強会 #5社内機械学習勉強会 #5
社内機械学習勉強会 #5
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析
 
様々な全域木問題
様々な全域木問題様々な全域木問題
様々な全域木問題
 

Similar to 続・わかりやすいパターン認識 9章

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Takao Yamanaka
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2Takuya Fukagai
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter halfNarihira Takuya
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現Kazu Ghalamkari
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル). .
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2禎晃 山崎
 

Similar to 続・わかりやすいパターン認識 9章 (20)

混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
PRML9.3
PRML9.3PRML9.3
PRML9.3
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
PRML4.3
PRML4.3PRML4.3
PRML4.3
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2PRML復々習レーン#14 ver.2
PRML復々習レーン#14 ver.2
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
PRML11章
PRML11章PRML11章
PRML11章
 

続・わかりやすいパターン認識 9章

  • 2. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 2/35
  • 3. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 3/35
  • 4. 9.1 混合分布に対するパラメトリックな学習  9章以降では𝜔𝑖の扱いを一般化 【8章まで】 𝜔𝑖 :コインまたはサイコロの種類 【9章以降】 𝜔𝑖 :所属クラス、あるいはクラス  第6章 EMアルゴリズムでは学習アルゴリズムの一般化を行った 推定対象のパラメータ:π𝑖(= 𝑃 𝜔𝑖 )、𝜃𝑖𝑘(= 𝑃(𝑣 𝑘|𝜔𝑖)) 𝑚の値が大きくなり、パラメータ数が増大すると ⇒推定に要する計算量が膨大になる 𝑡回目の観察結果𝑥𝑡は𝑚種の候補𝑣1, 𝑣2, … , 𝑣 𝑚のいずれかを取ると 想定し、クラス𝜔𝑖に対する𝑚種のパラメータとして扱った 4/35
  • 5. 9.1 混合分布に対するパラメトリックな学習  𝑣 𝑘の扱いを変更 【8章まで】 𝑣 𝑘 : コインの表・裏、あるいはサイコロの目 もとから離散値 【9章】 𝑣 𝑘 : 𝑚種の数値 もとは連続値だが、𝑥を𝑚段階に量子化して離散値𝑣1, 𝑣2, … , 𝑣 𝑚に変換 量子化幅を𝛿とすると、確率関数𝑃 𝑣 𝑘 𝜔𝑖 は確率密度関数𝑝(𝑥|𝜔𝑖)を用いると 次式で表される 𝑃 𝑣 𝑘 𝜔𝑖 = 𝑣 𝑘−𝛿/2 𝑣 𝑘+𝛿/2 𝑝 𝑥 𝜔𝑖 𝑑𝑥 (9.1) 5/35
  • 6. 9.1 混合分布に対するパラメトリックな学習  例 ある𝜔𝑖に対して、パラメータ𝑃 𝑣 𝑘 𝜔𝑖 の値を推定すると以下になった 𝑝 𝑥 𝜔𝑖 = 1 2𝜋𝜎𝑖 exp − 1 2 𝑥 − 𝜇𝑖 2/𝜎𝑖 2 で表される場合、𝜔𝑖に対して𝑚種のパラメータ𝑃(𝑣 𝑘|𝜔𝑖)を推定する代わり に、平均𝜇𝑖、分散𝜎𝑖 2 の二つのパラメータのみを推定すればよい 確率密度関数𝑝 𝑥 𝜔𝑖 が正規分布 (9.2) m=9 正規分布に近似できそう 6/35
  • 7. 9.1 混合分布に対するパラメトリックな学習  学習の方法 パラメトリックな学習 確率密度関数を想定し、そのパラメータを観測データより推定する手法 識別関数の設計は、推定された確率密度関数を用いたベイズ決定則を実現 することで行われる ノンパラメトリックな学習 確率密度関数を想定せず、観測データより直接識別関数の設計を行う方法 例:パーセプトロンやニューラルネットワークで用いられている学習法  9章ではパラメトリックな学習法によるパラメータ推定を試みる • クラス𝜔𝑖(𝑖 = 1,2, … , 𝑐)がそれぞれ異なった確率密度関数を有する • 観測結果はこれら𝑐個の確立密度関数より成る混合分布に従うとする • 観測データは独立で、マルコフ性はないものとする 7/35
  • 8. 9.1 混合分布に対するパラメトリックな学習  記法の確認 𝑝(𝑥|𝜔𝑖; 𝜽𝑖):クラス𝜔𝑖の確率密度関数 𝜽𝑖:𝜔𝑖の確率密度関数に含まれるパラメータを表すベクトル 例)正規分布の場合は𝜽𝑖 = (𝜇𝑖, 𝜎𝑖 2 ) 𝜽:パラメータベクトル 𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐) 𝜋𝑖:各クラスの事前確率𝑃 𝜔𝑖 𝑐種の確率密度関数の混合比を表す(𝑖 = 1, … , 𝑐) 以降のデータは順序関係を考慮しないので記法を変更 𝑥 𝑡, 𝑠𝑡(𝑡 = 1, … , 𝑛)⇒𝑥 𝑘, 𝑠 𝑘(𝑘 = 1, … , 𝑛) 𝐱 = 𝑥1 𝑥2 … 𝑥 𝑛, 𝐬 = 𝑠1 𝑠2 … 𝑠 𝑛 ⇒ 𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝑛 , 𝐬 = {𝑠1, 𝑠2, … , 𝑠 𝑛} 混合分布の確率密度関数 𝑝 𝑥 𝑘; 𝜽 = 𝑖=1 𝑐 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 順序関係を含まない順序関係を含む (𝑘 = 1,2, … , 𝑛) (9.4) (9.3) 8/35
  • 9. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 9/35
  • 10. 9.2 教師付き学習によるパラメータ推定  教師付き学習では以下のような、完全データを得ることができる (9.5)𝑥1, 𝑠1 , 𝑥2, 𝑠2 , … , (𝑥 𝑛, 𝑠 𝑛) 𝑠 𝑘 ∈ {𝜔1, 𝜔2, … , 𝜔𝑐} (𝑘 = 1,2, … , 𝑛) (9.6)  マルコフ性がないので、このような観測結果が得られる尤度は次式で表される 𝑝 𝐱, 𝐬; 𝜽 = 𝑘=1 𝑛 𝑝(𝑥 𝑘, 𝑠 𝑘; 𝜽) = 𝑘=1 𝑛 𝑃(𝑠 𝑘) ∙ 𝑘=1 𝑛 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) log 𝑝 𝐱, 𝐬; 𝜽 = 𝑘=1 𝑛 log 𝑃(𝑠 𝑘) + 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) = 𝐿1 + 𝐿2  以下の対数尤度は第5章と一致するので、同様の手順で𝐿1, 𝐿2をそれぞれ最大化すればよい 𝐿1 ≝ 𝑘=1 𝑛 log 𝑃 𝑠 𝑘 𝐿2 ≝ 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) (9.7) (9.8) (9.9) (9.10) (9.11) (9.12) 10/35
  • 11. 9.2 教師付き学習によるパラメータ推定  𝐿1最大化(第5章で既出のため計算は省略) 𝜋𝑖 = 𝑛𝑖 𝑛 𝐿1 ≝ 𝑘=1 𝑛 log 𝑃 𝑠 𝑘  𝐿2最大化 (9.11) (9.12) (9.13) 𝐿2 ≝ 𝑘=1 𝑛 log 𝑝(𝑥 𝑘|𝑠 𝑘; 𝜽1, … , 𝜽 𝑐) 𝐿2 = 𝑖=1 𝑐 𝑥 𝑘∈𝜔 𝑖 log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14) 教師付きの場合は、各𝑥 𝑘の所属クラスがわかるので、クラスごとに分割して表すことができる 上式でΣ 𝑥 𝑘∈𝜔 𝑖 はクラス𝜔𝑖に属する𝑥 𝑘について和をとることを示す 11/35
  • 12. 9.2 教師付き学習によるパラメータ推定  𝐿2最大化(続き) 𝐿2 = 𝑖=1 𝑐 𝑥 𝑘∈𝜔 𝑖 log 𝑝(𝑥𝑖|𝜔𝑖; 𝜽𝑖) (9.14) ∇ 𝜽 𝑖 𝐿2 = 0 求めるべきパラメータ 𝜃𝑖は以下の解となる 𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある (9.15) (9.16) 𝐿2の推定はクラス𝜔𝑖ごとに行えばよい ∇ 𝜽 𝑖 𝐿2:勾配ベクトル スカラ𝐿2を𝜽𝑖の各要素で偏微分することで得られるパラメータ ∇ 𝜽 𝑖 𝐿2 = 𝑥 𝑘∈𝜔 𝑖 ∇ 𝜽 𝑖 log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 𝐿2を最大にする𝜽𝑖は以下の式を満足する必要がある 12/35
  • 13. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 13/35
  • 14. 9.3 教師なし学習によるパラメータ推定 log 𝑝(𝐱; 𝜽) = 𝑘=1 𝑛 log 𝑝 𝑥 𝑘; 𝜽 (9.17) 教師なしの場合、得られるデータは不完全データであり、観測できるのは𝑥 𝑘のみである 観測結果𝐱 = {𝑥1, 𝑥2, … , 𝑥 𝑛}から得られる対数尤度は次式となる 𝑖=1 𝑐 𝜋𝑖 = 1 𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆 𝑖=1 𝑐 𝜋𝑖 − 1 𝜕𝐿 𝜕𝜋𝑖 = 0 ∇ 𝜽 𝑖 𝐿 = 0 (9.18) (9.19) (9.20) (9.21) 最尤推定を適用し、以下制約条件の下で(9.17)を最大にする𝜽および𝜋𝑖を求める 最適なパラメータを得るには、ラグランジュの未定乗数法により、𝜆を定数として 次式が極値をとる𝜽および𝜋𝑖を求めればよい 以下の各式が成り立つことが必要 14/35
  • 15. 9.3 教師なし学習によるパラメータ推定  パラメータ𝜋𝑖の推定(第5章で既出のため計算は省略) 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22)  パラメータ𝜽𝑖の推定 𝐿 = log 𝑝(𝐱; 𝜽) − 𝜆 𝑖=1 𝑐 𝜋𝑖 − 1 (9.19) ∇ 𝜽 𝑖 𝐿 = ∇ 𝜽 𝑖 log 𝑝(𝐱; 𝜽) = 𝑘=1 𝑛 1 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝(𝑥 𝑘; 𝜽) = 𝑘=1 𝑛 1 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) = 𝑘=1 𝑛 𝜋𝑖 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 𝑝 𝑥 𝑘; 𝜽 = 𝑖=1 𝑐 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (9.4) (9.23) (9.24) (9.25) (9.26) 15/35
  • 16. 9.3 教師なし学習によるパラメータ推定  パラメータ𝜽𝑖の推定(続き) 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑝(𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 𝐿 = 𝑘=1 𝑛 𝜋𝑖 𝑝 𝑥 𝑘; 𝜽 ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∙ ∇ 𝜽 𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 (9.26) (9.27) (9.28) (9.29) ベイズの定理(9.27)を用いて、式(9.26)を変形する 分子分母に𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖)を掛ける 式(9.29)を満たす𝜽𝑖が求めるべき最適パラメータ 𝜃𝑖である 再帰的な表現となっているので、第5章同様に繰り返し演算を適用する 16/35
  • 17. 9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない 17/35
  • 18. 9.3 教師なし学習によるパラメータ推定  教師付きの場合との対比(𝜋𝑖 の推定) 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) (9.22) 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 1 (𝑥 𝑘∈ 𝜔𝑖) 0 (otherwise) 教師なしの場合 教師付きの場合、𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 は1または0の確定的な値を取る 式(9.22)に適用すると、教師付きの場合と一致する 𝜋𝑖 = 𝑛𝑖 𝑛 (9.33) 𝑘=1 𝑛 𝑃 𝜔𝑖|𝑥 𝑘; 𝜽 = 𝑛𝑖 (9.34) 式(9.33)より次式が成り立つ (9.35)  教師付きの場合との対比(𝜃𝑖 の推定) 𝜃𝑖も同様に教師付きの場合と一致する(計算略) 𝑥 𝑘∈𝜔 𝑖 ∇ 𝜽 𝑖 log 𝑝 𝑥 𝑘 𝜔𝑖; 𝜽𝑖 = 0 (9.36) 18/35
  • 19. 9.3 教師なし学習によるパラメータ推定  EMアルゴリズムとの関係 𝑄 𝜽0 , 𝜽 = 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 + 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 𝑅1 + 𝑅2 𝑅1 ≝ 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 𝑅2 ≝ 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) EMアルゴリズムで導入されたQ関数は以下のように書ける 𝜽0 を定数とみなし、𝑄(𝜽0 , 𝜽)を最大化する𝜋𝑖および𝜽𝑖を求める ⇒𝑅1, 𝑅2をそれぞれ最大にすればよい (9.37) (9.38) (9.39) (9.40) 19/35
  • 20. 9.3 教師なし学習によるパラメータ推定  𝑅1最大化(第6章で既出のため計算略) 𝑅1 = 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝜋𝑖 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)  𝑅2最大化(第6章で既出のため計算略) 𝑅2 = 𝑖=1 𝑐 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑅2を最大化するには、𝑖ごとに独立に考え次式を最大化すればよい パラメータ𝜽𝑖に関して最大化することになるので、上式を𝜽𝑖について偏微分して0とおく 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) (𝑖 = 1,2, … , 𝑐) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽0 ) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 (9.39) (9.40) (9.41) (9.42) (9.43) 式(9.41)、式(9.43)は教師なしでパラメータ推定を行った結果と一致(式(9.31)と式(9.32)) ⇒混合分布のパラメータ推定を教師なしで行う処理は、EMアルゴリズムに対応している 20/35
  • 21. 9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない ⇐E-step (Q関数構成要素算出) ⇐M-step(Q関数の最大化) 21/35
  • 22. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 22/35
  • 23. 9.4 混合正規分布のパラメータ推定  混合正規分布 𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 = 1 2𝜋 𝑑/2 𝚺𝑖 1/2 exp − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 混合分布の確率密度関数として正規分布を考え、そのパラメータを教師なし学習 により推定する 一般化のため、スカラ𝑥 𝑘ではなく、𝑑次元ベクトル𝐱 𝑘を考える クラス𝜔𝑖の確率密度関数 𝝁𝑖、𝚺𝑖は、それぞれクラス𝜔𝑖の平均ベクトル、共分散行列であり、推定すべき パラメータである ここで 𝚺𝑖 は𝚺𝑖の行列式である 𝜽𝒊 = (𝝁𝑖, 𝚺𝑖) 𝜽 = (𝜽1, … , 𝜽 𝑐, 𝜋1, … , 𝜋 𝑐) これまでの表記に従うと以下になる (9.44) (9.45) (9.46) 次ページの計算手順を適用する 23/35
  • 24. 9.3 教師なし学習によるパラメータ推定  混合分布のパラメータ推定 Step1 事前確率𝜋𝑖およびパラメータ𝜽𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝑥 𝑘に対して𝑃(𝜔𝑖|𝑥 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝑥 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝑥 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝜽𝑖を更新し、新しい 𝜋𝑖, 𝜽𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) 𝜃𝑖 = 𝜃𝑖 𝑠. 𝑡. 𝑘=1 𝑛 𝑃(𝜔𝑖|𝑥 𝑘; 𝜽) ∇ 𝜽 𝑖 log 𝑝(𝑥 𝑘|𝜔𝑖; 𝜽𝑖) = 0 Step4 𝜋𝑖 = 𝜋𝑖、𝜃𝑖 = 𝜃𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.32) (9.31) (9.30) 本処理はEMアルゴリズムに対応しており、収束が保証されている 得られる解は大域的最適解であるとは限らない 𝜽𝒊 = (𝝁𝑖, 𝚺𝑖)のため、 𝝁𝑖, 𝚺𝑖でそれぞれ偏微分 24/35
  • 25. 9.4 混合正規分布のパラメータ推定 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 上式を解くと、以下となる(導出は次ページ以降) (9.48) (9.49) 25/35
  • 26. 9.4 混合正規分布のパラメータ推定  𝝁𝑖の導出 𝑝 𝐱 𝑘 𝜔; 𝜽𝑖 = 1 2𝜋 𝑑/2 𝚺𝑖 1/2 exp − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) (9.44) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 式(9.44)より log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 𝑑 2 log 2𝜋 − 1 2 log 𝚺𝑖 − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 𝜕 𝜕𝐱 𝐱 𝑡 𝐀𝐱 = 2𝐀𝐱 式(A.3.5)を用いると次式が成り立つ (A.3.5) ※𝐱を𝑑次元の列ベクトル、𝐀 を 𝑑 × 𝑑 の対称行列とすると、 式(A.3.5)が成り立つ 𝜕 𝜕𝝁𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) (S.9.1) 式(S.9.1)に代入 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) = 𝟎 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 = 𝟎 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖を左から掛ける (9.48) 𝐱 𝑡 𝐀 𝐱 26/35
  • 27. 9.4 混合正規分布のパラメータ推定  𝚺𝑖の導出 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 𝑑 2 log 2𝜋 − 1 2 log 𝚺𝑖 − 1 2 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 (𝐱 𝑘 − 𝝁𝑖) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = − 1 2 𝜕 𝜕𝚺𝑖 log 𝚺𝑖 − 1 2 𝜕 𝜕𝚺𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 = − 1 2 𝚺𝑖 −1 − 1 2 𝜕 𝜕𝚺𝑖 tr 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝜕 𝜕𝐗 log 𝐗 = 𝐗−1 𝜕 𝜕𝐗 tr 𝐗−1 𝐀 = −𝐗−1 𝐀𝐗−1 ※𝐱, 𝐲を𝑑次元の列ベクトル、𝐀, 𝐗を 𝑑 × 𝑑の対称行列とすると、次式が成 り立つ tr(B)は行列Bの体格成分の和を表す 𝐱 𝑡 𝐲 = tr 𝐱𝐲 𝑡 = tr(𝐲𝐱 𝑡 ) (A.3.1) (A.3.7) (A.3.6) 式(A.3.6)適用 式(A.3.1)適用 式(A.3.7)適用 = − 1 2 𝚺𝑖 −1 + 1 2 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝚺𝑖 −1 = − 1 2 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 𝚺𝑖 −1 (S.9.2) 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝜕 𝜕𝚺𝑖 log 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) = 𝟎 式(S.9.2)に代入 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 −1 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 𝚺𝑖 −1 = 𝟎 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 − 𝚺𝑖 = 𝟎 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) (9.49) 左右から𝚺𝑖を掛ける 27/35
  • 28. 9.4 混合正規分布のパラメータ推定 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)  パラメータ𝜋𝑖の推定 これまでと同様の計算で推定可能 (9.50)  教師付き学習の場合 𝝁𝑖 = 1 𝑛𝑖 𝐱 𝑘∈𝜔 𝑖 𝐱 𝑘 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 = 1 (𝐱 𝑘∈ 𝜔𝑖) 0 (otherwise) 𝑘=1 𝑛 𝑃 𝜔𝑖|𝐱 𝑘; 𝜽 = 𝑛𝑖 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 1 𝑛𝑖 𝐱 𝑘∈𝜔 𝑖 (𝐱 𝑘− 𝝁𝑖) 𝐱 𝑘 − 𝝁𝑖 𝑡 𝜋𝑖 = 𝑛𝑖 𝑛 所属クラスが陽に与えられるので次式が成り立つ 教師なし 教師付き 28/35
  • 29. 9.4 混合正規分布のパラメータ推定  混合正規分布のパラメータ推定 Step1 事前確率𝜋𝑖および𝝁𝑖, 𝚺𝑖の初期値を与える。 Step2 次式のベイズの定理より、各𝐱 𝑘に対して𝑃(𝜔𝑖|𝐱 𝑘; 𝜽)を計算する。 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 = 𝜋𝑖 ∙ 𝑝(𝐱 𝑘|𝜔𝑖; 𝜽𝑖) 𝑗=1 𝑐 𝜋𝑗 ∙ 𝑝(𝐱 𝑘|𝜔𝑗; 𝜽𝑗) Step3 次式により𝜋𝑖, 𝝁𝑖, 𝚺𝑖を更新し、新しい 𝜋𝑖, 𝝁𝑖, 𝚺𝑖を求める。 𝜋𝑖 = 1 𝑛 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝝁𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) 𝚺𝑖 = 𝑘=1 𝑛 𝑃 𝜔𝑖 𝐱 𝑘; 𝜽 𝐱 𝑘 − 𝝁𝑖 𝐱 𝑘 − 𝝁𝑖 𝑡 𝑘=1 𝑛 𝑃(𝜔𝑖|𝐱 𝑘; 𝜽) Step4 𝜋𝑖 = 𝜋𝑖、𝝁𝑖 = 𝝁𝑖、𝚺𝑖 = 𝚺𝑖と設定する。 対数尤度log 𝑝(𝐱; 𝜽)を求め、増分が予め決めた閾値以下なら終了し、さもなければ Step2に戻る。 (9.56) (9.57) (9.58) (9.59) 29/35
  • 30. 目次 9.1 混合分布に対するパラメトリックな学習 9.2 教師付き学習によるパラメータ推定 9.3 教師なし学習によるパラメータ推定 9.4 混合正規分布のパラメータ推定 9.5 混合正規分布のパラメータ推定実験 30/35
  • 31. 9.5 混合正規分布のパラメータ推定実験  教師なし学習による、2種の一次元正規分布より成る混合分布のパラメータ推定実験 • クラス数𝑐 = 2 • パラメータは𝜽1 = 𝜇1, 𝜎1 2 , 𝜽2 = 𝜇2, 𝜎2 2 • 真値は𝜇1 = 3, 𝜇2 = −1, 𝜎1 2 = 𝜎2 2 = 1, 𝜋1 = 0.6, 𝜋2 = 0.4 • 未知パラメータは𝜇1, 𝜇2のみで、他は既知とする • 乱数により500個のデータを発生 対数尤度log 𝑝(𝐱; 𝜽)の等高線 初期値 (𝜇1, 𝜇2) = (−2, −3) 大域的最適解 推定結果 (𝜇1, 𝜇2) = (3.06, −1.17) 初期値 (𝜇1, 𝜇2) = (−3, −2) log 𝑝(𝐱; 𝜽) = −1068.5 log 𝑝(𝐱; 𝜽) = −1026.6 局所最適解 𝜋1 = 𝜋2 = 0.5の場合は対数尤度の値は等しくなるので、解は双方が候補となり唯一に定まらない 12回の繰り返しで収束 31/35
  • 32. 9.5 混合正規分布のパラメータ推定実験  教師なし学習による、5種の二次元正規分布より成る混合分布のパラメータ推定実験 • クラス数𝑐 = 5 • クラス𝜔𝑖に関する未知パラメータは事前確率𝜋𝑖とパラメータ𝜽𝑖 = 𝝁𝑖, 𝚺𝑖 (𝑖 = 1,2, … , 5) • クラス𝜔1, … , 𝜔5に対するパターン数:200, 100, 100, 50, 50(計500パターン) • 事前確率𝜋1~𝜋5:0.4, 0.2, 0.2, 0.1, 0.1 𝐱 = 𝑥1, 𝑥2 𝑡 を発生させプロット 事前確率に比例する太さで等高線を描画 32/35
  • 34. 9.5 混合正規分布のパラメータ推定実験  対数尤度、事前確率の変化 • 対数尤度は繰り返しとともに増大している • 事前確率は0.2から始まり、途中で収束し、正しい値が得られている 34/35
  • 35. 9.5 混合正規分布のパラメータ推定実験  クラスタリングについて • 混合分布のパラメータ推定はクラスタリング法としても有用 • K-means法は、混合正規分布のパラメータ推定の特別な場合(10.4節参照) • 混合正規分布のパラメータ推定において、クラス(分布関数)の数𝑐を事前に設定する必要がある 【解決策】  複数候補の𝑐に対しパラメータ推定を行い、最良の結果を選択⇐効率的ではない  想定される値よりもやや大きめの値に𝑐を設定し、パラメータ推定処理を実施 無駄な分布関数の事前確率は0に近づき、必要な分布関数の事前確率は非零で残る 𝜔6~𝜔9の事前確率は0に近づいているものの、𝜋6 = 0.126と比較的大きいものも存在 𝑐を大きくした場合に得られる解は、局所的最適解であることがほとんど この考え方で大域的最適解を求める方法が凸クラスタリング(次章で紹介) 𝑐=9として実行 35/35