[第2版]Python機械学習プログラミング第11章

Python機械学習プログラミング
読み会
第11章
クラスタ分析 - ラベルなしデータの分析
1
[第2版]
基盤江口春紀

目次
● k-means法を使った類似度によるオブジェクトのグループ化
● クラスタを階層木として構成する
● DBSCANを使って高密度の領域を特定する
2

クラスタ分析 - ラベルなしデータの分析
● クラスタ分析
● 教師なし学習。
● 正しい答えが事前に分かっていないデータから隠れた構造を見つけ出す。
3

4
k-means法を使った
類似度によるオブジェクトのグループ化

k-means法を使った類似度によるオブジェクトのグループ化
● k-means法(k-means algorithm)
● 類似したオブジェクトをグループにまとめることができる。
● レコメンデーションエンジンのベースとして、異なるテーマの文書、
音楽映画を同じグループにまとめること、などができる。
5
POP
Rock
Jazz

scikit-learnを使ったk-meansクラスタリング
● k-means法
● プロトタイプベースクラスタリングに属する手法。
(他に階層的クラスタリングと密度ベースクラスタリングがある)
● もっとも効果を発揮するのは球状または円状のクラスタの分類である。
● クラスタの適切な個数kを決定する必要がある。(後述)
6

● k-means法を説明するための簡易的な例
● ランダムに生成された150個のサンプル点を用意する。
7
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=150,
n_features=2,
centers=3,
cluster_std=0.5,
shuffle=True,
random_state=0)
plt.scatter(X[:, 0], X[:, 1],
c='white', marker='o', edgecolor='black',
s=50)
plt.grid()
plt.tight_layout()
plt.show()

● k-means法のアルゴリズム
1. クラスタの中心の初期値として、サンプル点からk個のセントロイドをランダムに選択する。
2. 各サンプルをもっとも近いセントロイドに割り当てる。
3. セントロイドに割り当てられたサンプルの中心にセントロイドを移動する。
4. クラスタ割り当てが変化しなくなるか、指定したイテレーションの回数2~3を繰り返す。
8
1 2 3

● オブジェクトの類似度
● オブジェクトの類似度は「距離が離れていないこと」として定義ができる。
オブジェクトの類似度を測る指標として、ユークリッド距離を用いた、
クラスタ内誤差平方和(SSE)を使用する。このSSEを最小化するような最適化問題を
取り上げる。
9
クラスタjの中心点(セントロイド)
サンプル点x^(i)がクラスタ内に存在する場合は
w=1、そうでない場合はw=0となる

● サンプルデータへの適用
10
from sklearn.cluster import KMeans
km = KMeans(n_clusters=3,
init='random',
n_init=10,
max_iter=300,
tol=1e-04,
random_state=0)
y_km = km.fit_predict(X)

● k-meansで注意すべき点
● クラスタの個数kを指定する必要がある。
● 空になるクラスタが存在する可能性がある。scikit-learnの実装では、この問題を
回避している。
クラスタが空である場合、空のクラスタのセントロイドからもっとも離れた
サンプルを探し、そのサンプル点をセントロイドに変更する。
11

k-means++法を使ってセントロイドの初期値をよりスマートに設定する
● k-means++
● 最初のセントロイドの選択の時、セントロイドを互いに離れた位置に配置することで、
k-means法よりも効果的な、より一貫性のある結果が得られる。
12

k-means++法を使ってセントロイドの初期値をよりスマートに設定する
● k-means++法による初期化
1. 選択の対象となるk個のセントロイドを格納するために、空のデータセットMを初期化する。
2. 入力サンプルから初期のセントロイドμをランダムに選択し、Mに割り当てる。
3. Mに含まれていないサンプルxごとに、Mのセントロイドに対して距離の2乗d(x, M)^2
が最小となるセントロイドを求める。
4. 次のセントロイドμをランダムに選択するために、各サンプルとの距離によって重み付けされ
た確率分布を使用する。
5. k個のセントロイドが選択されるまで3~4を繰り返す。
13
https://wasyro.github.io/k-meansppVisualizer/

ハードクラスタリングとソフトクラスタリング
● ハードクラスタリング
● データセットのサンプルがそれぞれちょうど1つのクラスタに割り当てられるアルゴリズム。
● ソフトクラスタリング
● サンプルを1つ以上のクラスタに割り当てるアルゴリズム。
ファジークラスタリングとも呼ばれる。
● ソフトクラスタリングの代表的な例として、Fuzzy C-means法(FCM)がある。
14

● Fuzzy C-means法(FCM)
● 通常のハードクラスタリングではサンプルの帰属が0か1かで判断されるが、
ソフトクラスタリングでは、「あるクラスターには0.8帰属し、
別のクラスターには0.2帰属する」というような確率に置き換えられる。
15
ハードクラスタリングソフトクラスタリング

● FCM法のアルゴリズム
1. セントロイドの個数kを指定し、各サンプル点に対してクラスタメンバシップ確率を
ランダムに割り当てる。
2. クラスタのセントロイドを計算する。
3. 各サンプルのクラスタメンバシップ確率を変更する。
4. クラスタメンバシップ確率の係数が変化しなくなるか、ユーザ定義の許容値、
またはイテレーションの最大回数に達するまで2~3を繰り返す。
16

● FCM法の目的変数J
● k-means法によって最小化されるクラスタ内誤差平方和(SSE)とよく似ている。
17
0と1の二値ではなくクラスタメンバシップ確率
を表す実数値である。
ファジー性の度合いを制御するファジー係数。
mの値が大きくなるほどクラスタメンバシップ確率w
は小さくなりよりファジーなクラスタとなる。

● FCM法のクラスタメンバシップ確率w
● クラスタ自体の中心μは、そのクラスタの全てのサンプルの平均として計算できる。
サンプルは独自のクラスタに対するクラスタメンバシップ確率の度合いで重み付けされる。
18

エルボー法を使ってクラスタの最適な個数を求める
● 教師なし学習の課題
● 教師なし学習は明確な正解がないので、クラスタリングの性能を数値化するには、
クラスタ内誤差平方和(SSE)のような指標を用いて性能を比較する必要がある。
● kの値が増えるとSSEの値は小さくなる。エルボー法という図解によって、kを変化させた時
SSEが最も急激に増え始めるkを特定することができる。
19
エルボー

シルエット図を使ってクラスタリングの性能を数値化する
● シルエット分析
● クラスタ内のサンプルがどの程度密にグループ化されているか(凝集度)の目安となる
グラフをプロットする。
(1つのクラスターが隣接するクラスターとどれくらい離れているかを可視化する。)
● k-means法以外のクラスタリングアルゴリズムにも適用できる。
20

● シルエット分析のアルゴリズム
1. クラスタの凝集度a^(i)を計算する。この凝集度は同一クラスのサンプルx^(i)と他の
全サンプルとの平均距離として計算する。
2. 最も近いクラスタからの乖離度b^(i)を計算する。この乖離度は、サンプルx^(i)と最も近くに
あるクラスタ内の全サンプルとの平均距離として計算する。
3. クラスタの凝集度と乖離度の差を、それらのうちの大きい方の値で割り、
シルエット係数s^(i)を計算する。
21

● シルエット係数のプロット
22
from sklearn.metrics import silhouette_samples
cluster_labels = np.unique(y_km)
n_clusters = cluster_labels.shape[0]
silhouette_vals = silhouette_samples(X, y_km, metric='euclidean')
y_ax_lower, y_ax_upper = 0, 0
yticks = []
for i, c in enumerate(cluster_labels):
c_silhouette_vals = silhouette_vals[y_km == c]
c_silhouette_vals.sort()
y_ax_upper += len(c_silhouette_vals)
color = cm.jet(float(i) / n_clusters)
plt.barh(range(y_ax_lower,y_ax_upper),
c_silhouette_vals,
height=1.0,
edgecolor='none',
color=color)
yticks.append((y_ax_lower + y_ax_upper) / 2.)
y_ax_lower += len(c_silhouette_vals)

● 悪いクラスタリングの例
● k=2でk-meansを実行し、シルエット係数を算出する。
23
明らかにシルエット係数が低い

24
クラスタを階層木として構成する

● 階層的クラスタリング
● プロトタイプベースのクラスタリングのうちの1つだが、クラスタの個数を事前に
指定する必要がない。
● 樹形図をプロットできる。樹形図は二分木の階層的クラスタリングを可視化した
ものであり、意味のある分割を作成することで、結果を解釈するのに役立つ。
25

● 凝集型階層的クラスタリング
● 個々のサンプルを1つのクラスタと扱い、クラスタが1つだけ残った状態になるまで
最も近くにある2つのクラスタをマージしていく。
● 分割型階層的クラスタリング
● まず全てのサンプルを包含する1つのクラスタを定義し、全てのクラスタにサンプルが
1つだけ含まれた状態になるまでクラスタをより小さなクラスタに分割していく。
26

ボトムアップ方式でのクラスタのグループ化
● 単連結法(single linkage)
● クラスタのペアごとに最も類似度の高いメンバー同士の距離を計算し、
それらの距離が最小になるような方法で2つのクラスタをマージする。
● 完全連結法(complete linkage)
● クラスタのペアごとに最も類似度の高いメンバー同士を比較するのではなく、
最も類似度の低いメンバー同士を比較する。
27
単連結
完全連結

ボトムアップ方式でのクラスタのグループ化
● 完全連結法
1. 全てのサンプルの距離行列を計算する。
2. 各データ点を単一のクラスタとみなして表現する。
3. 最も類似度の低いメンバーの距離に基づき、2つの最も近いクラスタをマージする。
4. 距離行列を更新する。
5. クラスタが1つだけ残った状態になるまで、3~4を繰り返す。
28

距離行列で階層的クラスタリングを実行する
● 完全連結法の実行
● クラスタリングの結果
29
from scipy.cluster.hierarchy import linkage
row_clusters = linkage(
pdist(df, metric='euclidean'),
method='complete'
)

30
DBSCANを使って
高密度の領域を特定する

DBSCANを使って高密度の領域を特定する
● DBSCAN(Density-based spatial clustering of applications with noise)
● 密度ベースのクラスタリングで、サンプル点の局所的な密度に基づいて
クラスタラベルを割り当てる。
「密度」とは指定された半径ε以内に存在する点の個数として定義される。
31
コア点 : 半径ε以内に少なくともminPts個の隣接点を持つ点。
ボーダー点 : 半径ε以内にminPts個ほどは隣接点がないが，
半径ε以内にコア点を持つ点
ノイズ点 : 半径ε以内に隣接点がない点

● DBSCANのメリット
● k-meansと違って，クラスタ数を決める必要がない。
● クラスタが球状であることを前提としないので、とがったクラスタでも分類できる。
● ノイズが除去できる。
● DBSCANのデメリット
● データが密集していると適切にεとminPtsを決めるのが困難である。
● クラスタ間で密度が異なるようなデータの場合、期待通りのクラスタリングができない。
32

● 他のアルゴリズムとの比較
● k-means法と階層的クラスタリングとの比較結果
33

まとめ
● k-means法
● 指定された個数のクラスタのセントロイドに基づいて、サンプルが球状に
クラスタリングされる。
● クラスタの個数を事前に指定する必要はなく、結果は樹形図として表示される。
● DBSCAN
● 局所的な密度に基づいて点をグループ化するアルゴリズムであり、外れ値の処理や
球状以外の形状を識別できる。
● 性能指標
● エルボー法、シルエット分析
34

[第2版]Python機械学習プログラミング 第11章

More Related Content

What's hot

Similar to [第2版]Python機械学習プログラミング 第11章

More from Haruki Eguchi

Recently uploaded