SlideShare a Scribd company logo
1 of 20
はじめてのパターン認識
p.159~177
目次
 第10章 クラスタリング (13枚)
 階層型クラスタリング(続き)
 確率モデルによるクラスタリング
 第11章 識別器の組み合わせによる性能強化 (2枚)
 ノーフリーランチ定理
 決定木
1
目次
 第10章 クラスタリング (13枚)
 階層型クラスタリング(続き)
 確率モデルによるクラスタリング
 第11章 識別器の組み合わせによる性能強化 (2枚)
 ノーフリーランチ定理
 決定木
2
超距離 10.3.2
2つのデータ𝒙𝑖と𝒙𝑗が融合する直前の「クラスタ間の距離」
例題10.1をもとに
3
超距離 𝑑 𝒙𝑖, 𝒙𝑗
データ Bと Eの超距離を
求めたい(単連結法)
Bと Eの超距離
=融合前のクラスタの
BCとDEの距離
∴ 𝑑 𝐵, 𝐸 = 𝑑 𝐶, 𝐸 = 2 2
(1) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙𝑗 ⇒ 𝑑 𝐵, 𝐸 ≤ 𝑑 𝐵, 𝐸
(2) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙 𝑘 + 𝑑 𝒙 𝑘, 𝒙𝑗
(3) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ max 𝑑 𝒙𝑖, 𝒙 𝑘 , 𝑑 𝒙 𝑘, 𝒙𝑗
超距離の性質
完全連結法 10.3.3
類似度基準が最遠隣距離、つまり単連結法の逆
クラスタ間で最も類似度が低いデータ間の距離を
クラスタ間の距離とする
4
𝐷 𝐴, 𝐵 = max
𝒙∈𝐴,𝒚∈𝐵
𝑑 𝒙, 𝒚
(1) クラスタに一つデータが追加されると、
他のクラスタとの距離は、大きくなるか等しい
(2) クラスタA,Bが融合されてCになったとき、他クラスタXとの距離は
𝐷 𝐶, 𝑋 = max 𝐷 𝐴, 𝑋 , 𝐷(𝐵, 𝑋)
(3) 大きなクラスタになりにくく、同サイズのクラスタができる傾向がある
(4) 連鎖効果は現れない → 分類感度は高いが、クラスタが拡散する
完全連結法の性質
𝑑 𝑖, 𝑗 = 8.7
𝑑 𝑘, 𝑗 = 5.6
𝑑 𝑖, 𝑘 = 4.6
例えば
群平均法 10.3.4
類似度基準が2つのクラスタ内のすべてのデータ対間の
距離の平均
 クラスタA,Bのデータ数を𝑁𝐴, 𝑁 𝐵、クラスタ間の距離を𝐷(𝐴, 𝐵)とすると
𝐷 𝐴, 𝐵 =
1
𝑁𝐴 𝑁 𝐵
𝒙∈𝐴,𝒚∈𝐵
𝑑(𝒙, 𝒚)
クラスタA,Bが融合されてCとなったとき、他クラスタXとの距離は、
𝐷 𝐶, 𝑋 =
𝑁𝐴 𝐷(𝐴, 𝑋)
𝑁𝐴 +𝑁 𝐵
+
𝑁 𝐵 𝐷(𝐵, 𝑋)
𝑁𝐴 +𝑁 𝐵
5
引用: https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering
ウォード法 10.3.5
類似度基準がクラスタを融合した時のクラスタ内変動の増加分
𝐷 𝐴, 𝐵 =
𝒙∈𝐴,𝐵
𝑑(𝒙, 𝝁 𝐴𝐵)2 −
𝒙∈𝐴
𝑑 𝒙, 𝝁 𝐴
2 +
𝒙∈𝐵
𝑑 𝒙, 𝝁 𝐵
2
= 𝑆𝐴𝐵 − 𝑆𝐴 + 𝑆 𝐵
クラスタA,Bが融合されてCとなったとき、
他クラスタXとの距離は、
階層法の中で最も精度が高い
6
𝐷 𝐶, 𝑋 =
𝑁𝐴 + 𝑁𝑋
𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋
𝐷 𝐴, 𝑋 +
𝑁 𝐵 + 𝑁𝑋
𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋
𝐷 𝐵, 𝑋
−
𝑁 𝑋
𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋
𝐷(𝐴, 𝐵)
 ハードクラスタリング
 1つのデータは1つのクラスタにのみ分類
 K-平均法(非階層型クラスタリング)、融合法(階層型クラスタリング)
 ソフトクラスタリング
 確率モデルを用いて所属クラスタを確率的に決定する
 複数の確率モデルの重み付け線形和で全体の確率分布をモデル化
 クラスタ数をK、k番目のクラスタの確率モデルを𝑝 𝑘(𝒙)とした時の全体の確率分布は
確率モデルによるクラスタリング 10.4 7
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝑝 𝑘(𝒙)
k番目の
確率モデルの重み
このようなものを混合分布モデル
正規分布を用いたものを
混合正規分布モデルという
引用:https://datachemeng.com/gaussianmixturemodel/
混合正規分布モデル 10.4.1
 k番目のクラスタを表すd次元正規分布関数を以下で評価 [観測変数𝑥 だけのモデル]
(つまり、多変量正規分布モデル)
𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 =
1
(2𝜋)
𝑑
2 ∑
1
2
𝑒𝑥𝑝 −
1
2
𝒙 − 𝝁 𝑘
𝑇∑ 𝑘
−1
𝒙 − 𝝁 𝑘
全体の分布は、線形和な為以下の通り、
( 観測𝑥が得られたとき、どのようなモデル 𝑝 𝑥 を立てればいいかという話)
𝑝 𝒙 =
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 , 0 ≤ 𝜋 𝑘 ≤ 1,
𝑘=1
𝐾
𝜋 𝑘 = 1
8
𝒙 : 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑑
𝝁 𝑘 : k番目の正規分布における1 × 𝑑の平均ベクトル
∑ 𝑘: k番目の正規分布における𝑑 × 𝑑の共分散行列
𝜋 𝑘 : 混合比(各正規分布の重み)
引用:https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75
隠れ変数と事後確率(1) 10.4.2
 データからK組の混合比、平均ベクトル、共分散行列を推定するために、
1つのデータがどのクラスタに属するかを推定する必要がある
[観測変数𝑥と隠れ変数𝑧のモデル]
1つのデータがK個のクラスタのどこに属するかを表現する
K次元変数𝑧(変数xが所属する隠れたクラスタを指定しているため、隠れ変数と呼ばれる)は以下の通り
𝒛 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝐾
𝑇, 𝒛 = 0, ⋯ , 0,1,0, ⋯ , 0 𝑇,
𝑘=1
𝐾
𝑧 𝑘 = 1
変数xと隠れ変数zの同時分布はベイズの定理を元いて以下に分解
𝑝 𝒙, 𝒛 = 𝑝 𝒛 𝑝 𝒙 𝒛
𝑝(𝑧 𝑘 = 1) = 𝜋 𝑘なので、隠れ変数の分布𝑝(𝑧)は以下の通り
𝑝 𝒛 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
観測データの隠れ変数による条件付き分布は以下の通り
𝑝 𝒙|𝒛 = 𝑘
𝐾
𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
𝑧 𝑘
∵ 𝑝(𝒙|𝑧 𝑘 = 1) = 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
9
𝐾 = 2,
𝜋 = 𝜋1, 𝜋2 = 0.2,0.8
𝒛 = (1,0)
の時
𝑝 𝑧1 = 1 = 𝜋1
𝑧1
× 𝜋2
𝑧2
= 0.2 × 1
クラスタ1に所属する確率が0.2
同様にクラスタ2に所属する確率が0.8
例えば
隠れ変数と事後確率(2) 10.4.2
 𝑝(𝑥)は同時分布𝑝(𝑥, 𝑧)をすべての𝑧についての総和となるので以下の通り
𝑝 𝒙 =
𝑘=1
𝐾
𝑝 𝒛 𝑝 𝒙 𝒛 =
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
以上によって、隠れ変数の事後確率(負担率) 𝛶(𝑧𝑘)が計算できる
Υ 𝑧 𝑘 ≜ 𝑝 𝑧 𝑘 = 1 𝒙 =
𝑝(𝑧 𝑘 = 1)𝑝(𝒙|𝑧 𝑘 = 1)
𝑝(𝒙)
=
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
∑ 𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗
𝐾
𝑗=1
10
引用:https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb
例えば
観測変数𝑥 だけのモデルと同じ形に帰着
負担率が求まれば、パラメータ(𝜽)が決まる
パラメータが求まれば、負担率が決まる
交互に片方を固定し、
もう一方を求める
完全データの対数尤度 10.4.3
 完全データ(各データ点が、観測変数𝑥と隠れ変数𝑧の情報を保持している)
 観測データの集合:𝑿 = 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑁 , 𝒙𝑖 = 𝑥𝑖1, 𝑥𝑖2, 𝑥𝑖3, ⋯ , 𝑥𝑖𝑑
𝑇
 隠れ変数の集合:𝐙 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝑁 , 𝒛𝑖 = 𝑧𝑖1, 𝑧𝑖2, 𝑧𝑖3, ⋯ , 𝑧𝑖𝐾
𝑇
,
𝑧𝑖𝑘 =
1
0
(𝑥𝑖 ∈ クラスタ𝑘の場合)
(𝑥𝑖 ∉ クラスタ𝑘の場合)
 その他変数定義
 完全データ:𝒀 = (𝑋, 𝑍)
 完全データの尤度を最大化 → パラメータを求める
𝑝 𝒀 𝝅, 𝝁, ∑ = 𝑝 𝒁 𝝅, 𝝁, ∑ 𝑝 𝑿 𝒁, 𝝅, 𝝁, ∑ =
𝑖=1
𝑁
𝑘=1
𝐾
[𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ] 𝑧 𝑖𝑘
 各パラメータの最尤推定値を求めるために対数尤度関数を求める
→ 隠れ変数があるため確定できない
ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ = ∑𝑖=1
𝑁 ∑ 𝑘=1
𝐾
𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 )
11
𝑁:観測データの個数 𝑑:観測データの次元数 𝐾:クラスタ数
ちなみに、 ln 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 = −
𝑑
2
ln 2𝜋 +
1
2
ln ∑ 𝑘
−1 −
1
2
(𝒙𝑖 − 𝝁 𝑘) 𝑇 ∑ 𝑘
−1
(𝒙𝑖 − 𝝁 𝑘)
Q関数 10.4.4
対数尤度の隠れ変数に関する期待値のこと
(これが極大になる時の、パラメータ、負担率が最も尤もらしい)
12
対数尤度関数
ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ =
𝑖=1
𝑁
𝑘=1
𝐾
𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 )
Q関数
𝑄 = 𝐸𝑧 𝑖𝑘
ℒ =
𝑖=1
𝑁
𝑘=1
𝐾
Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘
∵ 𝐸𝑧 𝑖𝑘
𝑧𝑖𝑘 = Υ 𝑧𝑖𝑘 … (計算略)
負担率が求まれば、パラメータ(𝜽)が決まる
パラメータが求まれば、負担率が決まる
交互に片方を固定し、
もう一方を求める
EM アルゴリズム 10.4.5 13
引用:https://www.slideshare.net/yag_ays/em-algorithm-
animation
(1) 𝜋 𝑘, 𝝁 𝑘, ∑ 𝑘
を初期化 → 𝝁 𝑘は標準正規分布から生成、
∑ 𝑘は単位行列として設定
(2) E ステップ: 現在のパラメータを用いたΥ 𝑧𝑖𝑘 の推定
Υ 𝑧𝑖𝑘 =
𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘
∑ 𝑗=1
𝐾
𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗
(3) M ステップ: 推定したΥ 𝑧𝑖𝑘 を用いたパラメータの再推定
Q関数の各パラメータの最大化
(4)
完全データの対数尤度に変化があり収束していなければ(2)へ
変化がなくなり収束していれば終了
EMアルゴリズム
引用:https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb
例えば
M ステップの導出 10.4.6 14
Q関数を𝜇 𝑘について微分して0と置く
𝜕𝑄
𝜕𝝁 𝑘
=
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 ∑ 𝑘
−1
(𝒙𝑖 − 𝝁 𝑘) = 0
∴ 𝝁 𝑘 =
1
𝑁𝑘
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖
∵ 𝑁𝑘 =
𝑖=1
𝑁
Υ 𝑧𝑖𝑘
𝝁 𝑘の推定
Q関数を∑ 𝑘
−1
について微分して0と置く
𝜕𝑄
𝜕 ∑ 𝑘
−1 =
1
2
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 ∑ 𝑘
−1
−
1
2
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘
𝑇
= 0
∴ ∑ 𝑘 =
1
𝑁𝑘
𝑖=1
𝑁
Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘
𝑇
∑ 𝑘
の推定
混合比には∑ 𝑘=1
𝐾
𝜋 𝑘 = 1という制約があるため、
ラグランジュ関数を𝜋 𝑘について微分して0と置く
𝑓 = ∑𝑖=1
𝑁
∑ 𝑘=1
𝐾
Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 + 𝜆 ∑ 𝑘=1
𝐾
𝜋 𝑘 − 1
𝜕𝑓
𝜕𝜋 𝑘
=
1
𝜋 𝑘
∑𝑖=1
𝑁
Υ 𝑧𝑖𝑘 + 𝜆 = 0 ∴ 𝜋 𝑘 = −
1
𝜆
∑𝑖=1
𝑁
Υ 𝑧𝑖𝑘
𝜋 𝑘の推定
また、𝜆について微分し0と置くと
𝜕𝑓
𝜕𝜆
=
𝑘=1
𝐾
𝜋 𝑘 − 1 = 0 ∴ −
1
𝜆
=
1
𝑁
… 計算略
∴ 𝜋 𝑘 =
𝑁𝑘
𝑁
EM アルゴリズムの性質 10.4.7
ここまでは混合正規分布に従っている前提だったが、
特定の分布を仮定しない場合どうなるのか…
15
𝑿 : 観 測 デ ー タ 𝒁 : 隠 れ 変 数 𝜽 : 確 率 モ デ ル の パ ラ メ ー タ
𝑝 𝑿|𝜽 =
𝑝 𝑿, 𝒁|𝜽
𝑝 𝒁|𝑿, 𝜽
q(𝒁) : 𝒁に関する任意の分布
ln 𝑝 𝑿|𝜽 =
𝒵
𝑞 𝑍 ln
𝑝 𝑿, 𝒁|𝜽
𝑞 𝒁
+
𝒵
𝑞 𝒁 ln
𝑞 𝒁
𝑝 𝒁|𝑿, 𝜽
= ℒ 𝑞, 𝜽 + 𝐾𝐿 𝑞 ∥ 𝑝
EM アルゴリズムによる 𝑡 回目と 𝑡 + 1 回目の更新での対数尤度の差は、
△ ℒ = ln
𝑝 𝑿|𝜽 𝑡+1
𝑝 𝑿|𝜽 𝑡
=
𝒵
𝑝 𝒁|𝑿, 𝜽 𝑡
ln
𝑝 𝒁, 𝑿|𝜽 𝑡+1
𝑝 𝒁, 𝑿|𝜽 𝑡
+ 𝐾𝐿 𝑝 𝒁|𝑿, 𝜽 𝑡
∥ 𝑝 𝒁|𝑿, 𝜽 𝑡+1
= 𝑄 𝜽 𝑡+1
|𝜽 𝑡
− 𝑄 𝜽 𝑡
|𝜽 𝑡
+ 𝐾𝐿 𝑝 𝒁|𝑿, 𝜽 𝑡
∥ 𝑝 𝒁|𝑿, 𝜽 𝑡+1
≥ 𝑄 𝜽 𝑡+1
|𝜽 𝑡
− 𝑄 𝜽 𝑡
|𝜽 𝑡
≥ 0
更新ごとにQ関数を最大化すれば、尤度は必ず増加または収束する
目次
 第10章 クラスタリング (13枚)
 階層型クラスタリング(続き)
 確率モデルによるクラスタリング
 第11章 識別器の組み合わせによる性能強化 (2枚)
 ノーフリーランチ定理
 決定木
16
ノーフリーランチ定理 11.1
 「すべての識別問題に対して、
他の識別器より識別性能がよい識別器は存在しない」
 簡単な識別器の組み合わせで複雑な識別境界を構成する手法■
 決定木■
 複数の決定木や識別器を組み合わせて識別性能を強化する手法■
 バギング
 ブースティング
 ランダムフォレスト
 決定木の学習に関する代表的な方法■
 CART(classification and regression tree) ← 決定木はここを扱う
 ID3
 C4.5
17
決定木 11.2
 ボトムアップ的手法
 ある1つの学習データを正しく識別できる特徴の
集合を探して特別な識別規則を作り、
特徴に対する制約を緩めながら、他の学習データ
を識別できるように規則を一般化する手法
 トップダウン的手法
 まず根ノードで全ての学習データをできるだけ
誤りが少ないようにクラス分けできる特徴軸を
探して特徴空間を2分割する規則を求めて、
2分割された空間をさらにそれぞれ2分割する
規則を求めることを繰り返して決定木を大きくする
手法
(分割統治法)
18
(1) 各ノードで特徴分割規則を構成するための特徴軸としきい値の選択
(2)終端ノードの決定。1つの終端ノードに複数クラスがあることを許容す
るかの選択。また、大きくなった木の剪定(pruning)をどこまで行うか。
(3)終端ノードに対する多数決によるクラス割当
トップダウン的手法の構成について
引用:https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75
問題
1. 図10.4 , 図10.5のとき、
データAとEの超距離を求めよ.
(単連結法)
2. 3つのクラスタA,B,Cの距離を以下に示す.
この時、完全連結法で融合されるクラスタは
どの二つか答えよ.
3. 問2のうち、融合後のクラスタをDとするとき、完全連結法で
クラスタDとクラスタA,B,Cのうち残ったクラスタとの距離を求めよ.
ただし、形式は { 𝑑 𝐷, ? = }.
19
𝑑 𝐴, 𝐵 = 9.4
𝑑 𝐵, 𝐶 = 3.2
𝑑 𝐶, 𝐴 = 5.4

More Related Content

What's hot

Beocom2 Userguide Chinese Traditional
Beocom2 Userguide Chinese TraditionalBeocom2 Userguide Chinese Traditional
Beocom2 Userguide Chinese Traditionalguest8759309
 
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴opengroove
 
Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)R Sunder Raj
 
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)handbook
 
Persona design method / ペルソナ概論
Persona design method / ペルソナ概論Persona design method / ペルソナ概論
Persona design method / ペルソナ概論Katsumi TAZUKE
 
Cellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in JapanCellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in JapanMasaru IKEDA
 
CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖handbook
 
CEO-030-平衡計分卡之現在及未來發展方向
CEO-030-平衡計分卡之現在及未來發展方向CEO-030-平衡計分卡之現在及未來發展方向
CEO-030-平衡計分卡之現在及未來發展方向handbook
 
Jaws2008 Presen12
Jaws2008 Presen12Jaws2008 Presen12
Jaws2008 Presen12umekoumeda
 
CEO-022-領導統御的基本概念
CEO-022-領導統御的基本概念CEO-022-領導統御的基本概念
CEO-022-領導統御的基本概念handbook
 
CEO-020-領導的意義Ok
CEO-020-領導的意義OkCEO-020-領導的意義Ok
CEO-020-領導的意義Okhandbook
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心devsumi2009
 
Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchYoichiro Hasebe
 
Upstream and downstream in Requirement Development
Upstream and downstream in Requirement DevelopmentUpstream and downstream in Requirement Development
Upstream and downstream in Requirement DevelopmentKent Ishizawa
 
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介devsumi2009
 
CRE-019-創意思考與與創造力開發Ok
CRE-019-創意思考與與創造力開發OkCRE-019-創意思考與與創造力開發Ok
CRE-019-創意思考與與創造力開發Okhandbook
 
PMT-012-總合生產計劃
PMT-012-總合生產計劃PMT-012-總合生產計劃
PMT-012-總合生產計劃handbook
 
PMT-013-總合生產計劃
PMT-013-總合生產計劃PMT-013-總合生產計劃
PMT-013-總合生產計劃handbook
 

What's hot (20)

100420
100420100420
100420
 
Beocom2 Userguide Chinese Traditional
Beocom2 Userguide Chinese TraditionalBeocom2 Userguide Chinese Traditional
Beocom2 Userguide Chinese Traditional
 
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴
イントラネット検索・「ジーラ・ドキュメント・サーチ」の機能と特徴
 
Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)Abacus tamil (Sun Easy Abacus)
Abacus tamil (Sun Easy Abacus)
 
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
 
Persona design method / ペルソナ概論
Persona design method / ペルソナ概論Persona design method / ペルソナ概論
Persona design method / ペルソナ概論
 
Cellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in JapanCellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in Japan
 
CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖
 
CEO-030-平衡計分卡之現在及未來發展方向
CEO-030-平衡計分卡之現在及未來發展方向CEO-030-平衡計分卡之現在及未來發展方向
CEO-030-平衡計分卡之現在及未來發展方向
 
Jaws2008 Presen12
Jaws2008 Presen12Jaws2008 Presen12
Jaws2008 Presen12
 
CEO-022-領導統御的基本概念
CEO-022-領導統御的基本概念CEO-022-領導統御的基本概念
CEO-022-領導統御的基本概念
 
CEO-020-領導的意義Ok
CEO-020-領導的意義OkCEO-020-領導的意義Ok
CEO-020-領導的意義Ok
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心
 
Regex Introduction
Regex IntroductionRegex Introduction
Regex Introduction
 
Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic research
 
Upstream and downstream in Requirement Development
Upstream and downstream in Requirement DevelopmentUpstream and downstream in Requirement Development
Upstream and downstream in Requirement Development
 
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
 
CRE-019-創意思考與與創造力開發Ok
CRE-019-創意思考與與創造力開發OkCRE-019-創意思考與與創造力開發Ok
CRE-019-創意思考與與創造力開發Ok
 
PMT-012-總合生產計劃
PMT-012-總合生產計劃PMT-012-總合生產計劃
PMT-012-總合生產計劃
 
PMT-013-總合生產計劃
PMT-013-總合生產計劃PMT-013-總合生產計劃
PMT-013-總合生產計劃
 

はじめてのパターン認識 p.159~177

  • 2. 目次  第10章 クラスタリング (13枚)  階層型クラスタリング(続き)  確率モデルによるクラスタリング  第11章 識別器の組み合わせによる性能強化 (2枚)  ノーフリーランチ定理  決定木 1
  • 3. 目次  第10章 クラスタリング (13枚)  階層型クラスタリング(続き)  確率モデルによるクラスタリング  第11章 識別器の組み合わせによる性能強化 (2枚)  ノーフリーランチ定理  決定木 2
  • 4. 超距離 10.3.2 2つのデータ𝒙𝑖と𝒙𝑗が融合する直前の「クラスタ間の距離」 例題10.1をもとに 3 超距離 𝑑 𝒙𝑖, 𝒙𝑗 データ Bと Eの超距離を 求めたい(単連結法) Bと Eの超距離 =融合前のクラスタの BCとDEの距離 ∴ 𝑑 𝐵, 𝐸 = 𝑑 𝐶, 𝐸 = 2 2 (1) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙𝑗 ⇒ 𝑑 𝐵, 𝐸 ≤ 𝑑 𝐵, 𝐸 (2) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ 𝑑 𝒙𝑖, 𝒙 𝑘 + 𝑑 𝒙 𝑘, 𝒙𝑗 (3) 𝑑 𝒙𝑖, 𝒙𝑗 ≤ max 𝑑 𝒙𝑖, 𝒙 𝑘 , 𝑑 𝒙 𝑘, 𝒙𝑗 超距離の性質
  • 5. 完全連結法 10.3.3 類似度基準が最遠隣距離、つまり単連結法の逆 クラスタ間で最も類似度が低いデータ間の距離を クラスタ間の距離とする 4 𝐷 𝐴, 𝐵 = max 𝒙∈𝐴,𝒚∈𝐵 𝑑 𝒙, 𝒚 (1) クラスタに一つデータが追加されると、 他のクラスタとの距離は、大きくなるか等しい (2) クラスタA,Bが融合されてCになったとき、他クラスタXとの距離は 𝐷 𝐶, 𝑋 = max 𝐷 𝐴, 𝑋 , 𝐷(𝐵, 𝑋) (3) 大きなクラスタになりにくく、同サイズのクラスタができる傾向がある (4) 連鎖効果は現れない → 分類感度は高いが、クラスタが拡散する 完全連結法の性質 𝑑 𝑖, 𝑗 = 8.7 𝑑 𝑘, 𝑗 = 5.6 𝑑 𝑖, 𝑘 = 4.6 例えば
  • 6. 群平均法 10.3.4 類似度基準が2つのクラスタ内のすべてのデータ対間の 距離の平均  クラスタA,Bのデータ数を𝑁𝐴, 𝑁 𝐵、クラスタ間の距離を𝐷(𝐴, 𝐵)とすると 𝐷 𝐴, 𝐵 = 1 𝑁𝐴 𝑁 𝐵 𝒙∈𝐴,𝒚∈𝐵 𝑑(𝒙, 𝒚) クラスタA,Bが融合されてCとなったとき、他クラスタXとの距離は、 𝐷 𝐶, 𝑋 = 𝑁𝐴 𝐷(𝐴, 𝑋) 𝑁𝐴 +𝑁 𝐵 + 𝑁 𝐵 𝐷(𝐵, 𝑋) 𝑁𝐴 +𝑁 𝐵 5 引用: https://www.albert2005.co.jp/knowledge/data_mining/cluster/hierarchical_clustering
  • 7. ウォード法 10.3.5 類似度基準がクラスタを融合した時のクラスタ内変動の増加分 𝐷 𝐴, 𝐵 = 𝒙∈𝐴,𝐵 𝑑(𝒙, 𝝁 𝐴𝐵)2 − 𝒙∈𝐴 𝑑 𝒙, 𝝁 𝐴 2 + 𝒙∈𝐵 𝑑 𝒙, 𝝁 𝐵 2 = 𝑆𝐴𝐵 − 𝑆𝐴 + 𝑆 𝐵 クラスタA,Bが融合されてCとなったとき、 他クラスタXとの距離は、 階層法の中で最も精度が高い 6 𝐷 𝐶, 𝑋 = 𝑁𝐴 + 𝑁𝑋 𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋 𝐷 𝐴, 𝑋 + 𝑁 𝐵 + 𝑁𝑋 𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋 𝐷 𝐵, 𝑋 − 𝑁 𝑋 𝑁𝐴 + 𝑁 𝐵 + 𝑁 𝑋 𝐷(𝐴, 𝐵)
  • 8.  ハードクラスタリング  1つのデータは1つのクラスタにのみ分類  K-平均法(非階層型クラスタリング)、融合法(階層型クラスタリング)  ソフトクラスタリング  確率モデルを用いて所属クラスタを確率的に決定する  複数の確率モデルの重み付け線形和で全体の確率分布をモデル化  クラスタ数をK、k番目のクラスタの確率モデルを𝑝 𝑘(𝒙)とした時の全体の確率分布は 確率モデルによるクラスタリング 10.4 7 𝑝 𝒙 = 𝑘=1 𝐾 𝜋 𝑘 𝑝 𝑘(𝒙) k番目の 確率モデルの重み このようなものを混合分布モデル 正規分布を用いたものを 混合正規分布モデルという 引用:https://datachemeng.com/gaussianmixturemodel/
  • 9. 混合正規分布モデル 10.4.1  k番目のクラスタを表すd次元正規分布関数を以下で評価 [観測変数𝑥 だけのモデル] (つまり、多変量正規分布モデル) 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 = 1 (2𝜋) 𝑑 2 ∑ 1 2 𝑒𝑥𝑝 − 1 2 𝒙 − 𝝁 𝑘 𝑇∑ 𝑘 −1 𝒙 − 𝝁 𝑘 全体の分布は、線形和な為以下の通り、 ( 観測𝑥が得られたとき、どのようなモデル 𝑝 𝑥 を立てればいいかという話) 𝑝 𝒙 = 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 , 0 ≤ 𝜋 𝑘 ≤ 1, 𝑘=1 𝐾 𝜋 𝑘 = 1 8 𝒙 : 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑑 𝝁 𝑘 : k番目の正規分布における1 × 𝑑の平均ベクトル ∑ 𝑘: k番目の正規分布における𝑑 × 𝑑の共分散行列 𝜋 𝑘 : 混合比(各正規分布の重み) 引用:https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75
  • 10. 隠れ変数と事後確率(1) 10.4.2  データからK組の混合比、平均ベクトル、共分散行列を推定するために、 1つのデータがどのクラスタに属するかを推定する必要がある [観測変数𝑥と隠れ変数𝑧のモデル] 1つのデータがK個のクラスタのどこに属するかを表現する K次元変数𝑧(変数xが所属する隠れたクラスタを指定しているため、隠れ変数と呼ばれる)は以下の通り 𝒛 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝐾 𝑇, 𝒛 = 0, ⋯ , 0,1,0, ⋯ , 0 𝑇, 𝑘=1 𝐾 𝑧 𝑘 = 1 変数xと隠れ変数zの同時分布はベイズの定理を元いて以下に分解 𝑝 𝒙, 𝒛 = 𝑝 𝒛 𝑝 𝒙 𝒛 𝑝(𝑧 𝑘 = 1) = 𝜋 𝑘なので、隠れ変数の分布𝑝(𝑧)は以下の通り 𝑝 𝒛 = 𝑘=1 𝐾 𝜋 𝑘 𝑧 𝑘 観測データの隠れ変数による条件付き分布は以下の通り 𝑝 𝒙|𝒛 = 𝑘 𝐾 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 𝑧 𝑘 ∵ 𝑝(𝒙|𝑧 𝑘 = 1) = 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 9 𝐾 = 2, 𝜋 = 𝜋1, 𝜋2 = 0.2,0.8 𝒛 = (1,0) の時 𝑝 𝑧1 = 1 = 𝜋1 𝑧1 × 𝜋2 𝑧2 = 0.2 × 1 クラスタ1に所属する確率が0.2 同様にクラスタ2に所属する確率が0.8 例えば
  • 11. 隠れ変数と事後確率(2) 10.4.2  𝑝(𝑥)は同時分布𝑝(𝑥, 𝑧)をすべての𝑧についての総和となるので以下の通り 𝑝 𝒙 = 𝑘=1 𝐾 𝑝 𝒛 𝑝 𝒙 𝒛 = 𝑘=1 𝐾 𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 以上によって、隠れ変数の事後確率(負担率) 𝛶(𝑧𝑘)が計算できる Υ 𝑧 𝑘 ≜ 𝑝 𝑧 𝑘 = 1 𝒙 = 𝑝(𝑧 𝑘 = 1)𝑝(𝒙|𝑧 𝑘 = 1) 𝑝(𝒙) = 𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 ∑ 𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗 𝐾 𝑗=1 10 引用:https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb 例えば 観測変数𝑥 だけのモデルと同じ形に帰着 負担率が求まれば、パラメータ(𝜽)が決まる パラメータが求まれば、負担率が決まる 交互に片方を固定し、 もう一方を求める
  • 12. 完全データの対数尤度 10.4.3  完全データ(各データ点が、観測変数𝑥と隠れ変数𝑧の情報を保持している)  観測データの集合:𝑿 = 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥 𝑁 , 𝒙𝑖 = 𝑥𝑖1, 𝑥𝑖2, 𝑥𝑖3, ⋯ , 𝑥𝑖𝑑 𝑇  隠れ変数の集合:𝐙 = 𝑧1, 𝑧2, 𝑧3, ⋯ , 𝑧 𝑁 , 𝒛𝑖 = 𝑧𝑖1, 𝑧𝑖2, 𝑧𝑖3, ⋯ , 𝑧𝑖𝐾 𝑇 , 𝑧𝑖𝑘 = 1 0 (𝑥𝑖 ∈ クラスタ𝑘の場合) (𝑥𝑖 ∉ クラスタ𝑘の場合)  その他変数定義  完全データ:𝒀 = (𝑋, 𝑍)  完全データの尤度を最大化 → パラメータを求める 𝑝 𝒀 𝝅, 𝝁, ∑ = 𝑝 𝒁 𝝅, 𝝁, ∑ 𝑝 𝑿 𝒁, 𝝅, 𝝁, ∑ = 𝑖=1 𝑁 𝑘=1 𝐾 [𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ] 𝑧 𝑖𝑘  各パラメータの最尤推定値を求めるために対数尤度関数を求める → 隠れ変数があるため確定できない ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ = ∑𝑖=1 𝑁 ∑ 𝑘=1 𝐾 𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ) 11 𝑁:観測データの個数 𝑑:観測データの次元数 𝐾:クラスタ数 ちなみに、 ln 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 = − 𝑑 2 ln 2𝜋 + 1 2 ln ∑ 𝑘 −1 − 1 2 (𝒙𝑖 − 𝝁 𝑘) 𝑇 ∑ 𝑘 −1 (𝒙𝑖 − 𝝁 𝑘)
  • 13. Q関数 10.4.4 対数尤度の隠れ変数に関する期待値のこと (これが極大になる時の、パラメータ、負担率が最も尤もらしい) 12 対数尤度関数 ℒ = ln 𝑝 𝒀 𝝅, 𝝁, ∑ = 𝑖=1 𝑁 𝑘=1 𝐾 𝑧𝑖𝑘 ln(𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ) Q関数 𝑄 = 𝐸𝑧 𝑖𝑘 ℒ = 𝑖=1 𝑁 𝑘=1 𝐾 Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 𝒩 𝒙𝑖 𝝁 𝑘, ∑ 𝑘 ∵ 𝐸𝑧 𝑖𝑘 𝑧𝑖𝑘 = Υ 𝑧𝑖𝑘 … (計算略) 負担率が求まれば、パラメータ(𝜽)が決まる パラメータが求まれば、負担率が決まる 交互に片方を固定し、 もう一方を求める
  • 14. EM アルゴリズム 10.4.5 13 引用:https://www.slideshare.net/yag_ays/em-algorithm- animation (1) 𝜋 𝑘, 𝝁 𝑘, ∑ 𝑘 を初期化 → 𝝁 𝑘は標準正規分布から生成、 ∑ 𝑘は単位行列として設定 (2) E ステップ: 現在のパラメータを用いたΥ 𝑧𝑖𝑘 の推定 Υ 𝑧𝑖𝑘 = 𝜋 𝑘 𝒩 𝒙 𝝁 𝑘, ∑ 𝑘 ∑ 𝑗=1 𝐾 𝜋𝑗 𝒩 𝒙 𝝁 𝑗, ∑ 𝑗 (3) M ステップ: 推定したΥ 𝑧𝑖𝑘 を用いたパラメータの再推定 Q関数の各パラメータの最大化 (4) 完全データの対数尤度に変化があり収束していなければ(2)へ 変化がなくなり収束していれば終了 EMアルゴリズム 引用:https://qiita.com/kenmatsu4/items/59ea3e5dfa3d4c161efb 例えば
  • 15. M ステップの導出 10.4.6 14 Q関数を𝜇 𝑘について微分して0と置く 𝜕𝑄 𝜕𝝁 𝑘 = 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 ∑ 𝑘 −1 (𝒙𝑖 − 𝝁 𝑘) = 0 ∴ 𝝁 𝑘 = 1 𝑁𝑘 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 𝒙𝑖 ∵ 𝑁𝑘 = 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 𝝁 𝑘の推定 Q関数を∑ 𝑘 −1 について微分して0と置く 𝜕𝑄 𝜕 ∑ 𝑘 −1 = 1 2 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 ∑ 𝑘 −1 − 1 2 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘 𝑇 = 0 ∴ ∑ 𝑘 = 1 𝑁𝑘 𝑖=1 𝑁 Υ 𝑧𝑖𝑘 𝒙𝑖 − 𝝁 𝑘 𝒙𝑖 − 𝝁 𝑘 𝑇 ∑ 𝑘 の推定 混合比には∑ 𝑘=1 𝐾 𝜋 𝑘 = 1という制約があるため、 ラグランジュ関数を𝜋 𝑘について微分して0と置く 𝑓 = ∑𝑖=1 𝑁 ∑ 𝑘=1 𝐾 Υ 𝑧𝑖𝑘 ln 𝜋 𝑘 + 𝜆 ∑ 𝑘=1 𝐾 𝜋 𝑘 − 1 𝜕𝑓 𝜕𝜋 𝑘 = 1 𝜋 𝑘 ∑𝑖=1 𝑁 Υ 𝑧𝑖𝑘 + 𝜆 = 0 ∴ 𝜋 𝑘 = − 1 𝜆 ∑𝑖=1 𝑁 Υ 𝑧𝑖𝑘 𝜋 𝑘の推定 また、𝜆について微分し0と置くと 𝜕𝑓 𝜕𝜆 = 𝑘=1 𝐾 𝜋 𝑘 − 1 = 0 ∴ − 1 𝜆 = 1 𝑁 … 計算略 ∴ 𝜋 𝑘 = 𝑁𝑘 𝑁
  • 16. EM アルゴリズムの性質 10.4.7 ここまでは混合正規分布に従っている前提だったが、 特定の分布を仮定しない場合どうなるのか… 15 𝑿 : 観 測 デ ー タ 𝒁 : 隠 れ 変 数 𝜽 : 確 率 モ デ ル の パ ラ メ ー タ 𝑝 𝑿|𝜽 = 𝑝 𝑿, 𝒁|𝜽 𝑝 𝒁|𝑿, 𝜽 q(𝒁) : 𝒁に関する任意の分布 ln 𝑝 𝑿|𝜽 = 𝒵 𝑞 𝑍 ln 𝑝 𝑿, 𝒁|𝜽 𝑞 𝒁 + 𝒵 𝑞 𝒁 ln 𝑞 𝒁 𝑝 𝒁|𝑿, 𝜽 = ℒ 𝑞, 𝜽 + 𝐾𝐿 𝑞 ∥ 𝑝 EM アルゴリズムによる 𝑡 回目と 𝑡 + 1 回目の更新での対数尤度の差は、 △ ℒ = ln 𝑝 𝑿|𝜽 𝑡+1 𝑝 𝑿|𝜽 𝑡 = 𝒵 𝑝 𝒁|𝑿, 𝜽 𝑡 ln 𝑝 𝒁, 𝑿|𝜽 𝑡+1 𝑝 𝒁, 𝑿|𝜽 𝑡 + 𝐾𝐿 𝑝 𝒁|𝑿, 𝜽 𝑡 ∥ 𝑝 𝒁|𝑿, 𝜽 𝑡+1 = 𝑄 𝜽 𝑡+1 |𝜽 𝑡 − 𝑄 𝜽 𝑡 |𝜽 𝑡 + 𝐾𝐿 𝑝 𝒁|𝑿, 𝜽 𝑡 ∥ 𝑝 𝒁|𝑿, 𝜽 𝑡+1 ≥ 𝑄 𝜽 𝑡+1 |𝜽 𝑡 − 𝑄 𝜽 𝑡 |𝜽 𝑡 ≥ 0 更新ごとにQ関数を最大化すれば、尤度は必ず増加または収束する
  • 17. 目次  第10章 クラスタリング (13枚)  階層型クラスタリング(続き)  確率モデルによるクラスタリング  第11章 識別器の組み合わせによる性能強化 (2枚)  ノーフリーランチ定理  決定木 16
  • 18. ノーフリーランチ定理 11.1  「すべての識別問題に対して、 他の識別器より識別性能がよい識別器は存在しない」  簡単な識別器の組み合わせで複雑な識別境界を構成する手法■  決定木■  複数の決定木や識別器を組み合わせて識別性能を強化する手法■  バギング  ブースティング  ランダムフォレスト  決定木の学習に関する代表的な方法■  CART(classification and regression tree) ← 決定木はここを扱う  ID3  C4.5 17
  • 19. 決定木 11.2  ボトムアップ的手法  ある1つの学習データを正しく識別できる特徴の 集合を探して特別な識別規則を作り、 特徴に対する制約を緩めながら、他の学習データ を識別できるように規則を一般化する手法  トップダウン的手法  まず根ノードで全ての学習データをできるだけ 誤りが少ないようにクラス分けできる特徴軸を 探して特徴空間を2分割する規則を求めて、 2分割された空間をさらにそれぞれ2分割する 規則を求めることを繰り返して決定木を大きくする 手法 (分割統治法) 18 (1) 各ノードで特徴分割規則を構成するための特徴軸としきい値の選択 (2)終端ノードの決定。1つの終端ノードに複数クラスがあることを許容す るかの選択。また、大きくなった木の剪定(pruning)をどこまで行うか。 (3)終端ノードに対する多数決によるクラス割当 トップダウン的手法の構成について 引用:https://qiita.com/FukuharaYohei/items/502d2d2b99ccd3980d75
  • 20. 問題 1. 図10.4 , 図10.5のとき、 データAとEの超距離を求めよ. (単連結法) 2. 3つのクラスタA,B,Cの距離を以下に示す. この時、完全連結法で融合されるクラスタは どの二つか答えよ. 3. 問2のうち、融合後のクラスタをDとするとき、完全連結法で クラスタDとクラスタA,B,Cのうち残ったクラスタとの距離を求めよ. ただし、形式は { 𝑑 𝐷, ? = }. 19 𝑑 𝐴, 𝐵 = 9.4 𝑑 𝐵, 𝐶 = 3.2 𝑑 𝐶, 𝐴 = 5.4

Editor's Notes

  1. 鎖効果とは、クラスター分析において、ある1つのクラスターに対象が1つずつ順番に吸収されながらクラスターが形成される現象のこと。最短距離法で起こりやすい。望ましくない現象であるため、鎖効果の起きにくいウォード法が使用されることが多い。 チェーンクラスターが大きくなるにつれ、他のデータと最短距離を多く持つようになり、次のクラスターの形成の候補に選ばれやすくなる現象。 拡散現象クラスターが大きくなるにつれ、他のデータと最長距離を多く持つようになり、次のクラスターの形成の候補に選ばれにくくなる現象。 図 3.2: cluster
  2. チェーンクラスターが大きくなるにつれ、他のデータと最短距離を多く持つようになり、次のクラスターの形成の候補に選ばれやすくなる現象。 拡散現象クラスターが大きくなるにつれ、他のデータと最長距離を多く持つようになり、次のクラスターの形成の候補に選ばれにくくなる現象。
  3. チェーンクラスターが大きくなるにつれ、他のデータと最短距離を多く持つようになり、次のクラスターの形成の候補に選ばれやすくなる現象。 拡散現象クラスターが大きくなるにつれ、他のデータと最長距離を多く持つようになり、次のクラスターの形成の候補に選ばれにくくなる現象。 𝝁は平均ベクトル
  4. ハードクラスタリング ハードクラスタリングでは、それぞれのデータ点は1つのクラスタに完全に属しているか否かの二択です。例えば上の小売店の例では、それぞれの顧客は10グループのうちのどれかに必ず割り当てられます。 ソフトクラスタリング ソフトクラスタリングでは、それぞれのデータ点が別々のクラスタに1か0かで完全に割り当てられるのではなく、そのデータ点がそのクラスタたちに属する確率ないしは尤度が計算されます。例えば先ほどの例では、個々の客がそれぞれのクラスタに属する確率が計算されます。 クラスタ数をK、k番目のクラスタの確率モデルをpk(x)とし、全体の確率分布を p(x)=∑k=1Kπkpk(x)で表します πkがk番目の確率モデルの重み(混合比)です。このような確率モデルを混合分布モデルと言います 確率モデルに正規分布を使う場合、混合正規分布モデル(混合ガウス分布モデル)と呼ばれます。 混合正規分布モデルを使う場合、最初にクラスタ数Kを決める必要があります。 正規分布は次の図のように左右対称の形をしており、横軸は確率変数を、縦軸はそのときの確率密度を表します。
  5. 観測変数𝑥 だけのモデル 観測変数𝑥と隠れ変数𝑧のモデル
  6. 全体で K(混合比)+dK(平均ベクトル)+(d+1)dK/2(共分散行列の対角分)個のパラメータを求める必要があります。 K=2 クラスタ数が2 π=(π1,π2)=(0.2,0.8) クラスタ1への所属確率が0.2クラスタ2への所属確率が0.8 z=(1,0) クラスタ1に属している場合の隠れ変数最終的に事後確率で最尤推定する p(z1=1)=π1z1×π2z2=0.2×1 クラスタ1に所属する確率が0.2 * x : D次元の確率変数 * z : k次元の確率変数であり、モデルの潜在変数 * D={x1,⋯,xN}: N個の観測点(データ集合) * K : クラスタの数(既知の定数)
  7. この事後分布p(zk=1|x) をγ(zk) とおき、これを負担率と表現することがある 負担率とは、ある地点xにおける混合ガウス分布の密度関数の値の中で、各kの分布が占める割合 1次元の例を表示してみました。上の図は1つ1つのガウス分布が混合係数に従った比率πkとなった密度関数です。 積分するとそれぞれ面積がπkになります。 これを縦に積んだグラフが下のものです。これが混合ガウス分布の密度関数になります。∑kπk=1となるようにπkをとることとすると、 面積がきちんと1になります。 混合比、平均ベクトル、共分散行列
  8. 完全データ: 位置を表すxと、複数の正規分布のうちどの分布から生成されたかを表すzの情報の両方を保持しているデータ 不完全データ: Xしか持っていない 負担率で表現したデータ; EMアルゴリズムを利用してzの推定値として負担率を利用して表現したデータ 総乗そうじょう
  9. 最後にππの最尤解ですが、これは前の2つとは違い、 ∑k=1Kπk=1∑k=1Kπk=1 という制約条件が付いています。この場合制約条件付き最大化を行う手法としてラグランジュの未定乗数法を利用して解いていきます。 まずこの制約条件の式を右辺を0にしたもの ∑k=1Kπk−1=0∑k=1Kπk−1=0 を作りこれにラグランジュの未定乗数λλを掛け、元々の最大化の目的の項に足してあげることで最適化対象の式を作ります。 G=L+λ(∑k=1Kπk−1)G=L+λ(∑k=1Kπk−1) LLは対数尤度です。
  10. C4.5エントロピーに基づくゲイン比が基準
  11. 現在はトップダウン的な手法で決定木を構成するのが主流だそうです。 トップダウン的な手法で決定木を学習データから構成するためには、次の要素について考える必要があります。 CART(classification and regression tree) ← 決定木はここを扱う ID3 C4.5