はじめてのパターン認識 p.159~177

はじめてのパターン認識
p.159~177

目次
 第10章クラスタリング（13枚）
 階層型クラスタリング（続き）
 確率モデルによるクラスタリング
 第11章識別器の組み合わせによる性能強化（2枚）
 ノーフリーランチ定理
 決定木
1

目次
 決定木
2

超距離 10.3.2
２つのデータ𝒙𝑖と𝒙𝑗が融合する直前の「クラスタ間の距離」
例題10.1をもとに
3
超距離 𝑑 𝒙𝑖, 𝒙𝑗
データ Bと Eの超距離を
求めたい(単連結法)
Bと Eの超距離
＝融合前のクラスタの
BCとDEの距離
∴ 𝑑 𝐵, 𝐸 = 𝑑 𝐶, 𝐸 = 2 2
(1) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙𝑗 ⇒ 𝑑 𝐵, 𝐸 ≤ 𝑑 𝐵, 𝐸
(2) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙 𝑘 + 𝑑 𝒙 𝑘, 𝒙𝑗
(3) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ max 𝑑 𝒙𝑖, 𝒙 𝑘 , 𝑑 𝒙 𝑘, 𝒙𝑗
超距離の性質

完全連結法 10.3.3
類似度基準が最遠隣距離、つまり単連結法の逆
クラスタ間で最も類似度が低いデータ間の距離を
クラスタ間の距離とする
4
𝐷 𝐴, 𝐵 = max
𝒙∈𝐴,𝒚∈𝐵
𝑑 𝒙, 𝒚
(1) クラスタに一つデータが追加されると、
他のクラスタとの距離は、大きくなるか等しい
(2) クラスタA,Bが融合されてCになったとき、他クラスタXとの距離は
𝐷 𝐶, 𝑋 = max 𝐷 𝐴, 𝑋 , 𝐷(𝐵, 𝑋)
(3) 大きなクラスタになりにくく、同サイズのクラスタができる傾向がある
(4) 連鎖効果は現れない → 分類感度は高いが、クラスタが拡散する
完全連結法の性質
𝑑 𝑖, 𝑗 = 8.7
𝑑 𝑘, 𝑗 = 5.6
𝑑 𝑖, 𝑘 = 4.6
例えば

群平均法 10.3.4
類似度基準が2つのクラスタ内のすべてのデータ対間の
距離の平均
 クラスタA,Bのデータ数を𝑁𝐴, 𝑁 𝐵、クラスタ間の距離を𝐷(𝐴, 𝐵)とすると
𝐷 𝐴, 𝐵 =
1
𝑁𝐴 𝑁 𝐵
𝒙∈𝐴,𝒚∈𝐵
𝑑(𝒙, 𝒚)
クラスタA,Bが融合されてCとなったとき、他クラスタXとの距離は、
𝐷 𝐶, 𝑋 =
𝑁𝐴 𝐷(𝐴, 𝑋)
𝑁𝐴 +𝑁 𝐵
+
𝑁 𝐵 𝐷(𝐵, 𝑋)
𝑁𝐴 +𝑁 𝐵
5
引用： https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering

ウォード法 10.3.5
類似度基準がクラスタを融合した時のクラスタ内変動の増加分
𝐷 𝐴, 𝐵 =
𝒙∈𝐴,𝐵
𝑑(𝒙, 𝝁 𝐴𝐵)2 −
𝒙∈𝐴
𝑑 𝒙, 𝝁 𝐴
2 +
𝒙∈𝐵
𝑑 𝒙, 𝝁 𝐵
2
= 𝑆𝐴𝐵 − 𝑆𝐴 + 𝑆 𝐵
クラスタA,Bが融合されてCとなったとき、
他クラスタXとの距離は、
階層法の中で最も精度が高い
6
𝐷 𝐶, 𝑋 =
𝑁𝐴 + 𝑁𝑋
𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋
𝐷 𝐴, 𝑋 +
𝑁 𝐵 + 𝑁𝑋
𝐷 𝐵, 𝑋
−
𝑁 𝑋
𝐷(𝐴, 𝐵)

 ハードクラスタリング
 1つのデータは1つのクラスタにのみ分類
 K-平均法（非階層型クラスタリング）、融合法（階層型クラスタリング）
 ソフトクラスタリング
 確率モデルを用いて所属クラスタを確率的に決定する
 複数の確率モデルの重み付け線形和で全体の確率分布をモデル化
 クラスタ数をK、k番目のクラスタの確率モデルを𝑝 𝑘(𝒙)とした時の全体の確率分布は
確率モデルによるクラスタリング 10.4 7
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝑝 𝑘(𝒙)
k番目の
確率モデルの重み
このようなものを混合分布モデル
正規分布を用いたものを
混合正規分布モデルという
引用：https://datachemeng.com/gaussianmixturemodel/

混合正規分布モデル 10.4.1
 k番目のクラスタを表すd次元正規分布関数を以下で評価［観測変数𝑥 だけのモデル］
(つまり、多変量正規分布モデル)
𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 =
1
(2𝜋)
𝑑
2 ∑
1
2
𝑒𝑥𝑝 −
1
2
𝒙 − 𝝁 𝑘
𝑇∑ 𝑘
−1
𝒙 − 𝝁 𝑘
全体の分布は、線形和な為以下の通り、
（観測𝑥が得られたとき、どのようなモデル 𝑝 𝑥 を立てればいいかという話）
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 , 0 ≤ 𝜋 𝑘 ≤ 1,
𝑘=1
𝐾
𝜋 𝑘 = 1
8
𝒙 : 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑑
𝝁 𝑘 : k番目の正規分布における1 × 𝑑の平均ベクトル
∑ 𝑘: k番目の正規分布における𝑑 × 𝑑の共分散行列
𝜋 𝑘 : 混合比(各正規分布の重み)
引用：https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75

隠れ変数と事後確率(1) 10.4.2
 データからK組の混合比、平均ベクトル、共分散行列を推定するために、
1つのデータがどのクラスタに属するかを推定する必要がある
[観測変数𝑥と隠れ変数𝑧のモデル]
1つのデータがK個のクラスタのどこに属するかを表現する
K次元変数𝑧(変数xが所属する隠れたクラスタを指定しているため、隠れ変数と呼ばれる)は以下の通り
𝒛 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝐾
𝑇, 𝒛 = 0, ⋯ , 0,1,0, ⋯ , 0 𝑇,
𝑘=1
𝐾
𝑧 𝑘 = 1
変数xと隠れ変数zの同時分布はベイズの定理を元いて以下に分解
𝑝 𝒙, 𝒛 = 𝑝 𝒛 𝑝 𝒙 𝒛
𝑝(𝑧 𝑘 = 1) = 𝜋 𝑘なので、隠れ変数の分布𝑝(𝑧)は以下の通り
𝑝 𝒛 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
観測データの隠れ変数による条件付き分布は以下の通り
𝑝 𝒙|𝒛 = 𝑘
𝐾
𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
𝑧 𝑘
∵ 𝑝(𝒙|𝑧 𝑘 = 1) = 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
9
𝐾 = 2,
𝜋 = 𝜋1, 𝜋2 = 0.2,0.8
𝒛 = (1,0)
の時
𝑝 𝑧1 = 1 = 𝜋1
𝑧1
× 𝜋2
𝑧2
= 0.2 × 1
クラスタ1に所属する確率が0.2
同様にクラスタ2に所属する確率が0.8
例えば

隠れ変数と事後確率(2) 10.4.2
 𝑝(𝑥)は同時分布𝑝(𝑥, 𝑧)をすべての𝑧についての総和となるので以下の通り
𝑝 𝒙 =
𝑘=1
𝐾
𝑝 𝒛 𝑝 𝒙 𝒛 =
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
以上によって、隠れ変数の事後確率(負担率) 𝛶(𝑧𝑘)が計算できる
Υ 𝑧 𝑘 ≜ 𝑝 𝑧 𝑘 = 1 𝒙 =
𝑝(𝑧 𝑘 = 1)𝑝(𝒙|𝑧 𝑘 = 1)
𝑝(𝒙)
=
∑ 𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗
𝐾
𝑗=1
10
引用：https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb
例えば
観測変数𝑥 だけのモデルと同じ形に帰着
負担率が求まれば、パラメータ(𝜽)が決まる
パラメータが求まれば、負担率が決まる
交互に片方を固定し、
もう一方を求める

完全データの対数尤度 10.4.3
 完全データ（各データ点が、観測変数𝑥と隠れ変数𝑧の情報を保持している）
 観測データの集合：𝑿 = 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑁 , 𝒙𝑖 = 𝑥𝑖1, 𝑥𝑖2, 𝑥𝑖3, ⋯ , 𝑥𝑖𝑑
𝑇
 隠れ変数の集合：𝐙 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝑁 , 𝒛𝑖 = 𝑧𝑖1, 𝑧𝑖2, 𝑧𝑖3, ⋯ , 𝑧𝑖𝐾
𝑇
,
𝑧𝑖𝑘 =
1
0
(𝑥𝑖 ∈ クラスタ𝑘の場合)
(𝑥𝑖 ∉ クラスタ𝑘の場合)
 その他変数定義
 完全データ：𝒀 = (𝑋, 𝑍)
 完全データの尤度を最大化 → パラメータを求める
𝑝 𝒀 𝝅, 𝝁, ∑ = 𝑝 𝒁 𝝅, 𝝁, ∑ 𝑝 𝑿 𝒁, 𝝅, 𝝁, ∑ =
𝑖=1
𝑁
𝑘=1
𝐾
[𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ] 𝑧 𝑖𝑘
 各パラメータの最尤推定値を求めるために対数尤度関数を求める
→ 隠れ変数があるため確定できない
ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ = ∑𝑖=1
𝑁 ∑ 𝑘=1
𝐾
𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 )
11
𝑁：観測データの個数 𝑑：観測データの次元数 𝐾：クラスタ数
ちなみに、 ln 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 = −
𝑑
2
ln 2𝜋 +
1
2
ln ∑ 𝑘
−1 −
1
2
(𝒙𝑖 − 𝝁 𝑘) 𝑇 ∑ 𝑘
−1
(𝒙𝑖 − 𝝁 𝑘)

Q関数 10.4.4
対数尤度の隠れ変数に関する期待値のこと
（これが極大になる時の、パラメータ、負担率が最も尤もらしい）
12
対数尤度関数
ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ =
𝑖=1
𝑁
𝑘=1
𝐾
𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 )
Q関数
𝑄 = 𝐸𝑧 𝑖𝑘
ℒ =
𝑖=1
𝑁
𝑘=1
𝐾
Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘
∵ 𝐸𝑧 𝑖𝑘
𝑧𝑖𝑘 = Υ 𝑧𝑖𝑘 … (計算略)
負担率が求まれば、パラメータ(𝜽)が決まる
パラメータが求まれば、負担率が決まる
交互に片方を固定し、
もう一方を求める

EM アルゴリズム 10.4.5 13
引用：https://www.slideshare.net/yag_ays/em-algorithm-
animation
(1) 𝜋 𝑘, 𝝁 𝑘, ∑ 𝑘
を初期化 → 𝝁 𝑘は標準正規分布から生成、
∑ 𝑘は単位行列として設定
(2) E ステップ：現在のパラメータを用いたΥ 𝑧𝑖𝑘 の推定
Υ 𝑧𝑖𝑘 =
∑ 𝑗=1
𝐾
𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗
(3) M ステップ：推定したΥ 𝑧𝑖𝑘 を用いたパラメータの再推定
Q関数の各パラメータの最大化
(4)
完全データの対数尤度に変化があり収束していなければ(2)へ
変化がなくなり収束していれば終了
EMアルゴリズム
引用：https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb
例えば

M ステップの導出 10.4.6 14
Q関数を𝜇 𝑘について微分して0と置く
𝜕𝑄
𝜕𝝁 𝑘
=
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 ∑ 𝑘
−1
(𝒙𝑖 − 𝝁 𝑘) = 0
∴ 𝝁 𝑘 =
1
𝑁𝑘
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖
∵ 𝑁𝑘 =
𝑖=1
𝑁
Υ 𝑧𝑖𝑘
𝝁 𝑘の推定
Q関数を∑ 𝑘
−1
について微分して0と置く
𝜕𝑄
𝜕 ∑ 𝑘
−1 =
1
2
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 ∑ 𝑘
−1
−
1
2
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘
𝑇
= 0
∴ ∑ 𝑘 =
1
𝑁𝑘
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘
𝑇
∑ 𝑘
の推定
混合比には∑ 𝑘=1
𝐾
𝜋 𝑘 = 1という制約があるため、
ラグランジュ関数を𝜋 𝑘について微分して0と置く
𝑓 = ∑𝑖=1
𝑁
∑ 𝑘=1
𝐾
Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 + 𝜆 ∑ 𝑘=1
𝐾
𝜋 𝑘 − 1
𝜕𝑓
𝜕𝜋 𝑘
=
1
𝜋 𝑘
∑𝑖=1
𝑁
Υ 𝑧𝑖𝑘 + 𝜆 = 0 ∴ 𝜋 𝑘 = −
1
𝜆
∑𝑖=1
𝑁
Υ 𝑧𝑖𝑘
𝜋 𝑘の推定
また、𝜆について微分し0と置くと
𝜕𝑓
𝜕𝜆
=
𝑘=1
𝐾
𝜋 𝑘 − 1 = 0 ∴ −
1
𝜆
=
1
𝑁
… 計算略
∴ 𝜋 𝑘 =
𝑁𝑘
𝑁

目次
 決定木
16

ノーフリーランチ定理 11.1
 「すべての識別問題に対して、
他の識別器より識別性能がよい識別器は存在しない」
 簡単な識別器の組み合わせで複雑な識別境界を構成する手法■
 決定木■
 複数の決定木や識別器を組み合わせて識別性能を強化する手法■
 バギング
 ブースティング
 ランダムフォレスト
 決定木の学習に関する代表的な方法■
 CART(classification and regression tree) ← 決定木はここを扱う
 ID3
 C4.5
17

決定木 11.2
 ボトムアップ的手法
 ある1つの学習データを正しく識別できる特徴の
集合を探して特別な識別規則を作り、
特徴に対する制約を緩めながら、他の学習データ
を識別できるように規則を一般化する手法
 トップダウン的手法
 まず根ノードで全ての学習データをできるだけ
誤りが少ないようにクラス分けできる特徴軸を
探して特徴空間を2分割する規則を求めて、
2分割された空間をさらにそれぞれ2分割する
規則を求めることを繰り返して決定木を大きくする
手法
（分割統治法）
18
(1) 各ノードで特徴分割規則を構成するための特徴軸としきい値の選択
(2)終端ノードの決定。1つの終端ノードに複数クラスがあることを許容す
るかの選択。また、大きくなった木の剪定(pruning)をどこまで行うか。
(3)終端ノードに対する多数決によるクラス割当
トップダウン的手法の構成について
引用：https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75

問題
1. 図10.4 , 図10.5のとき、
データAとEの超距離を求めよ.
（単連結法）
2. ３つのクラスタA,B,Cの距離を以下に示す.
この時、完全連結法で融合されるクラスタは
どの二つか答えよ.
3. 問２のうち、融合後のクラスタをDとするとき、完全連結法で
クラスタDとクラスタA,B,Cのうち残ったクラスタとの距離を求めよ.
ただし、形式は { 𝑑 𝐷, ? = }.
19
𝑑 𝐴, 𝐵 = 9.4
𝑑 𝐵, 𝐶 = 3.2
𝑑 𝐶, 𝐴 = 5.4

はじめてのパターン認識 p.159~177

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

はじめてのパターン認識 p.159~177

Editor's Notes