SlideShare a Scribd company logo
階層的クラスタリング hierarchical	clustering	
説明を簡単にするため、今、次のようなフィンガープリントで表現され
る8つの分子があると考えましょう。(分子→遺伝子、フィンガープリン
ト→遺伝子発現データと読み替えても構いません)	
•  分子0	=	(60,	34)	
•  分子1	=	(64,	61)		
•  分子2	=	(93,	33)	
•  分子3	=	(91,	45)	
•  分子4	=	(13,	94)	
•  分子5	=	(92,	97)	
•  分子6	=	(56,	5)	
•  分子7	=	(13,	53)	
これらの分子を2つや3つのグループ(クラスター)に分類したい。	
1
階層的クラスタリング hierarchical	clustering	
簡単のため、分子
を二次元ベクトル
とし、ユークリッド
距離を分子間の
「非類似性」とする。	
	
初期状態でのクラ
スターは[0][1][2]
[3][4][5][6][7]の8
つ。	
2
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
最も近い2点は
「2」と「3」(距離
約12.2)なので、
それを結ぶ。	
	
この時点でのクラ
スターは[0][1][23]
[4][5][6][7]の7つ。	
3
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「0」と「1」(距離約
27.3)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01][23]
[4][5][6][7]の6つ。	
4
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「0」と「6」(距離約
29.3)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[016][23]
[4][5][7]の5つ。	
5
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「1」と「3」(距離約
31.4)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01236]
[4][5][7]の4つ。	
6
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「4」と「7」(距離約
41.0)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01236]
[47][5]の3つ。	
7
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「1」と「5」(距離約
45.6)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[012356]
[47]の2つ。	
8
最短距離法 Single-linkage	
全てのクラスター間
で最も「最短距離」
の短い2つを結合す
る。	
	
次に近い2点は「1」
と「5」(距離約45.6)
なので、それを結ぶ。	
	
これで全ての点がひ
とつのクラスターとし
てまとまった。	
9
樹形図 dendrogram	
•  以上の過程を樹形図で表す。閾値(Threshold)を変えること
で、適切な数のクラスターを得る。	
10
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
最も近い2点は「2」
と「3」(距離約12.2)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[0][1][23][4]
[5][6][7]の7つ。	
11
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
次に近い2点は「0」
と「1」(距離約27.3)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[01][23][4][5]
[6][7]の6つ。	
12
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[01][23]間の
距離が、[1][2]間に
相当する約40.3であ
り最短なので結合。	
	
この時点でのクラス
ターは[0123][4][5]
[6][7]の5つ。	
13
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
最も近い2点は「4」
と「7」(距離約41.0)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[0123][47][5]
[6]の4つ。	
14
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[0123][6]間
の距離が、[1][6]間
に相当する約56.7で
あり最短なので結合。	
	
この時点でのクラス
ターは[01236][47][5]
の3つ。	
15
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[47][5]間の
距離が、[7][5]間に
相当する約90.4であ
り最短なので結合。	
	
この時点でのクラス
ターは[01236][457]
の2つ。	
16
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間の
距離のうち最長のも
の」とし、それが閾値
以下なら結合する。	
	
クラスタ[01236][457]
間の距離が、[6][4]間
に相当する約98.8であ
り最短なので結合。	
	
この時点でのクラス
ターはこれで全ての点
がひとつのクラスター
としてまとまった。	
17
樹形図の比較	
最短距離法による樹形図	 最長距離法による樹形図	
18
階層的クラスタリング手法の違い	
•  最短距離法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その最短距離が閾値以
下ならクラスターを結合する。	
•  平均法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その平均距離が閾値以
下ならクラスターを結合する。	
•  最長距離法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その最長距離が閾値以
下ならクラスターを結合する。	
•  重心法	
–  2つのクラスターの重心をそ
れぞれ求め、その重心間距
離が閾値以下ならクラスター
を結合する。	
19	
さらに「距離」の定義の違いも色々ある。	
ユークリッド距離、マンハッタン距離、コサイン距離、谷本距離など。
20	
最短距離法	 最長距離法	
平均法	 重心法
最短距離法と最長距離法	
21	
2つのクラスターを結合するかどうかの閾値	
最短距離法:	
クラスター間の最短距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素が互いに
近接している保証は全くない。	
最長距離法:	
クラスター間の最長距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素は必ず閾
値以下であるという保証がある。
平均法と重心法	
22	
2つのクラスターを結合するかどうかの閾値	
平均法:	
クラスター間の全ての要素間の距
離の平均が閾値以下なら結合する。
新しく得られたクラスター内の要素
は”ある程度”互いに近接している。	
重心法:	
クラスターの重心間距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素は”ある程
度”互いに近接している。
いろんな「距離」の定義	
23	
・ユークリッド距離	 ・マンハッタン距離(シティブロック距離)	
・チェビシェフ距離(チェスボード距離)	
・谷本距離	
 1	–	谷本係数。0〜1の値を取る(同一ならゼロ)。	
	
・コサイン距離	
 多次元ベクトルの角度が似ているかどうかを	1	-	
コサインで表す。0〜1の値を取る(同一ならゼロ)。
実際の高次元データ解析例:	
様々な味のアイスクリームの好みの分類	
24
実際の高次元データ解析例:	
様々な組織における様々な遺伝子の発現データ	
25	
hKp://qiita.com/s-wakaba/items/a93f03f27137cff4a26c
課題5	
①  次のベクトルで表される5つの分子がある。ユークリッド距離で最
短距離法を用いて階層的クラスタリングを行い、樹形図を描きな
さい。	
–  分子0	=	(25,	81)	
–  分子1	=	(29,	67)	
–  分子2	=	(77,	48)	
–  分子3	=	(68,	11)	
–  分子4	=	(13,	3)	
②  同様に、ユークリッド距離で最長距離法を用いて階層的クラスタ
リングを行い、樹形図を描きなさい。	
また、この講義の感想なども書いてもらえると嬉しいです。今後の講
義の改善につながるかもしれません。	
	
26
課題5は、いくらでも問題のバリエーションを作れます。	
次のベクトルで表される5つの分子がある。(ユークリッド距離・
マンハッタン距離・チェビシェフ距離・谷本距離・コサイン距離)
で(最短距離法・最長距離法・平均法・重心法)を用いて階層的
クラスタリングを行い、樹形図を描きなさい。	
–  分子0	=	(25,	81)	
–  分子1	=	(29,	67)	
–  分子2	=	(77,	48)	
–  分子3	=	(68,	11)	
–  分子4	=	(13,	3)	
(※これは今日の課題ではありません)	
27

More Related Content

What's hot

正準相関分析
正準相関分析正準相関分析
正準相関分析
Akisato Kimura
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンMotoya Wakiyama
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
Daisuke Takai
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
Takao Yamanaka
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
matsuolab
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
貴之 八木
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
Ken'ichi Matsui
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
NobuyukiTakayasu
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
 

What's hot (20)

正準相関分析
正準相関分析正準相関分析
正準相関分析
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 

More from Mas Kot

機械学習入門の入門
機械学習入門の入門機械学習入門の入門
機械学習入門の入門
Mas Kot
 
生命化学情報学4
生命化学情報学4生命化学情報学4
生命化学情報学4
Mas Kot
 
生命化学情報学3
生命化学情報学3生命化学情報学3
生命化学情報学3
Mas Kot
 
生命化学情報学2
生命化学情報学2生命化学情報学2
生命化学情報学2
Mas Kot
 
生命化学情報学1
生命化学情報学1生命化学情報学1
生命化学情報学1
Mas Kot
 
天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス
Mas Kot
 
文献データベース Literature Databases
文献データベース Literature Databases文献データベース Literature Databases
文献データベース Literature Databases
Mas Kot
 
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
Mas Kot
 
バイオインフォ講義4
バイオインフォ講義4バイオインフォ講義4
バイオインフォ講義4
Mas Kot
 
バイオインフォ講義3
バイオインフォ講義3バイオインフォ講義3
バイオインフォ講義3
Mas Kot
 
バイオインフォ講義2
バイオインフォ講義2バイオインフォ講義2
バイオインフォ講義2
Mas Kot
 
バイオインフォ講義1
バイオインフォ講義1バイオインフォ講義1
バイオインフォ講義1
Mas Kot
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
Mas Kot
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
Mas Kot
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
Mas Kot
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
Mas Kot
 

More from Mas Kot (16)

機械学習入門の入門
機械学習入門の入門機械学習入門の入門
機械学習入門の入門
 
生命化学情報学4
生命化学情報学4生命化学情報学4
生命化学情報学4
 
生命化学情報学3
生命化学情報学3生命化学情報学3
生命化学情報学3
 
生命化学情報学2
生命化学情報学2生命化学情報学2
生命化学情報学2
 
生命化学情報学1
生命化学情報学1生命化学情報学1
生命化学情報学1
 
天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス天然物生合成と環境物質代謝のケモインフォマティクス
天然物生合成と環境物質代謝のケモインフォマティクス
 
文献データベース Literature Databases
文献データベース Literature Databases文献データベース Literature Databases
文献データベース Literature Databases
 
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
KNApSAcKデータベースを用いた昆虫・植物間化学的相互作用解析
 
バイオインフォ講義4
バイオインフォ講義4バイオインフォ講義4
バイオインフォ講義4
 
バイオインフォ講義3
バイオインフォ講義3バイオインフォ講義3
バイオインフォ講義3
 
バイオインフォ講義2
バイオインフォ講義2バイオインフォ講義2
バイオインフォ講義2
 
バイオインフォ講義1
バイオインフォ講義1バイオインフォ講義1
バイオインフォ講義1
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
 

階層的クラスタリング入門の入門