階層的クラスタリング入門の入門

階層的クラスタリング hierarchical clustering
説明を簡単にするため、今、次のようなフィンガープリントで表現され
る８つの分子があると考えましょう。（分子→遺伝子、フィンガープリン
ト→遺伝子発現データと読み替えても構いません）
•  分子0 = (60, 34)
•  分子1 = (64, 61)
•  分子2 = (93, 33)
•  分子3 = (91, 45)
•  分子4 = (13, 94)
•  分子5 = (92, 97)
•  分子6 = (56, 5)
•  分子7 = (13, 53)
これらの分子を２つや３つのグループ（クラスター）に分類したい。
1

階層的クラスタリング hierarchical clustering
簡単のため、分子
を二次元ベクトル
とし、ユークリッド
距離を分子間の
「非類似性」とする。

初期状態でのクラ
スターは[0][1][2]
[3][4][5][6][7]の８
つ。
2

最短距離法 Single-linkage
全てのクラスター
間で最も「最短距
離」の短い２つを
結合する。

最も近い２点は
「２」と「３」（距離
約12.2）なので、
それを結ぶ。

この時点でのクラ
スターは[0][1][23]
[4][5][6][7]の７つ。
3

結合する。

次に近い２点は
「0」と「1」（距離約
27.3）なので、そ
れを結ぶ。

スターは[01][23]
[4][5][6][7]の６つ。
4

結合する。

「0」と「6」（距離約
れを結ぶ。

スターは[016][23]
[4][5][7]の５つ。
5

結合する。

「1」と「3」（距離約
れを結ぶ。

スターは[01236]
[4][5][7]の４つ。
6

結合する。

「4」と「7」（距離約
れを結ぶ。

スターは[01236]
[47][5]の３つ。
7

結合する。

「1」と「5」（距離約
れを結ぶ。

スターは[012356]
[47]の２つ。
8

全てのクラスター間
で最も「最短距離」
の短い２つを結合す
る。

次に近い２点は「1」
と「5」（距離約45.6）
なので、それを結ぶ。

これで全ての点がひ
とつのクラスターとし
てまとまった。
9

樹形図 dendrogram
•  以上の過程を樹形図で表す。閾値（Threshold）を変えること
で、適切な数のクラスターを得る。
10

最長距離法 Complete-linkage
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。

最も近い２点は「２」
と「３」（距離約12.2）

この時点でのクラス
ターは[0][1][23][4]
[5][6][7]の７つ。
11


次に近い２点は「0」
と「1」（距離約27.3）

ターは[01][23][4][5]
[6][7]の６つ。
12


クラスタ[01][23]間の
距離が、[1][2]間に
相当する約40.3であ
り最短なので結合。

ターは[0123][4][5]
[6][7]の５つ。
13


最も近い２点は「４」
と「７」（距離約41.0）

ターは[0123][47][5]
[6]の４つ。
14


クラスタ[0123][6]間
の距離が、[1][6]間
に相当する約56.7で
あり最短なので結合。

ターは[01236][47][5]
の３つ。
15


クラスタ[47][5]間の
距離が、[7][5]間に
相当する約90.4であ

ターは[01236][457]
の２つ。
16

「それに属する点間の
距離のうち最長のも
の」とし、それが閾値
以下なら結合する。

クラスタ[01236][457]
間の距離が、[6][4]間
に相当する約98.8であ

ターはこれで全ての点
がひとつのクラスター
としてまとまった。
17

樹形図の比較
最短距離法による樹形図最長距離法による樹形図
18

階層的クラスタリング手法の違い
•  最短距離法
–  ２つのクラスターに属するそ
れぞれの点群間の距離を取
り、その最短距離が閾値以
下ならクラスターを結合する。
•  平均法
り、その平均距離が閾値以
•  最長距離法
り、その最長距離が閾値以
•  重心法
–  ２つのクラスターの重心をそ
れぞれ求め、その重心間距
離が閾値以下ならクラスター
を結合する。
19
さらに「距離」の定義の違いも色々ある。
ユークリッド距離、マンハッタン距離、コサイン距離、谷本距離など。

20
最短距離法最長距離法
平均法重心法

最短距離法と最長距離法
21
２つのクラスターを結合するかどうかの閾値
最短距離法：
クラスター間の最短距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素が互いに
近接している保証は全くない。
最長距離法：
クラスター間の最長距離が閾値
たクラスター内の要素は必ず閾
値以下であるという保証がある。

平均法と重心法
22
２つのクラスターを結合するかどうかの閾値
平均法：
クラスター間の全ての要素間の距
離の平均が閾値以下なら結合する。
新しく得られたクラスター内の要素
は”ある程度”互いに近接している。
重心法：
クラスターの重心間距離が閾値
たクラスター内の要素は”ある程
度”互いに近接している。

いろんな「距離」の定義
23
・ユークリッド距離・マンハッタン距離（シティブロック距離）
・チェビシェフ距離（チェスボード距離）
・谷本距離
　1 – 谷本係数。0〜1の値を取る（同一ならゼロ）。

・コサイン距離
　多次元ベクトルの角度が似ているかどうかを 1 -
コサインで表す。0〜1の値を取る（同一ならゼロ）。

実際の高次元データ解析例：
様々な味のアイスクリームの好みの分類
24

実際の高次元データ解析例：
様々な組織における様々な遺伝子の発現データ
25
hKp://qiita.com/s-wakaba/items/a93f03f27137cﬀ4a26c

課題５
①  次のベクトルで表される５つの分子がある。ユークリッド距離で最
短距離法を用いて階層的クラスタリングを行い、樹形図を描きな
さい。
–  分子０ = (25, 81)
–  分子１ = (29, 67)
–  分子２ = (77, 48)
–  分子３ = (68, 11)
–  分子４ = (13, 3)
②  同様に、ユークリッド距離で最長距離法を用いて階層的クラスタ
リングを行い、樹形図を描きなさい。
また、この講義の感想なども書いてもらえると嬉しいです。今後の講
義の改善につながるかもしれません。

26

課題５は、いくらでも問題のバリエーションを作れます。
次のベクトルで表される５つの分子がある。（ユークリッド距離・
マンハッタン距離・チェビシェフ距離・谷本距離・コサイン距離）
で（最短距離法・最長距離法・平均法・重心法）を用いて階層的
クラスタリングを行い、樹形図を描きなさい。
–  分子０ = (25, 81)
–  分子１ = (29, 67)
–  分子２ = (77, 48)
–  分子３ = (68, 11)
–  分子４ = (13, 3)
（※これは今日の課題ではありません）
27

階層的クラスタリング入門の入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Mas Kot

More from Mas Kot (16)

階層的クラスタリング入門の入門