T08

クラスター分析
クラスター分析とは
似た特徴を持つものをまとめて
グループを作成するための⼿手法のこと。
　⼆二種類の⼿手法について説明する。
　・似た特徴を持つものをまとめて階層構造にする。
　・事前に決めた個数のグループに分ける。

[テーマ] 講義の構成
階層的クラスター分析
Rによる計算
Rによる計算
⾮非階層的クラスター分析（k-means 法）
まとめ

೒
ন
೒
ন
෾
‫ܝ‬
෾
‫ܝ‬
‫܊‬
୔
ఛ
࣪
‫܊‬
୔
ఛ
࣪
ધ
੔
ધ
੔
ओ
ࡩ
ओ
ࡩ
ࡢ
੿
ࡢ
੿
‫ڀ‬
ࡩ
‫ڀ‬
ࡩ
৻
ӯ
৻
ӯ
୔
ઐ
୔
ઐ
௪
൑
ຂ
௪
൑
ຂ
ࣣ
ฐ
ࣣ
ฐ
ࡉ
๕
‫ڀ‬
ࡉ
๕
‫ڀ‬
୼
֮
୼
֮
ओ
ׄ
ओ
ׄ
0
20
20
40
40
60
60
80
80
ʸʻƪ˛൥
ʸʻƪ˛൥
+HLJKW
+HLJKW

೒
ন
೒
ন
෾
‫ܝ‬
෾
‫ܝ‬
‫܊‬
୔
ఛ
࣪
‫܊‬
୔
ఛ
࣪
ધ
੔
ધ
੔
ओ
ࡩ
ओ
ࡩ
ࡢ
੿
ࡢ
੿
‫ڀ‬
ࡩ
‫ڀ‬
ࡩ
৻
ӯ
৻
ӯ
୔
ઐ
୔
ઐ
௪
൑
ຂ
௪
൑
ຂ
ࣣ
ฐ
ࣣ
ฐ
ࡉ
๕
‫ڀ‬
ࡉ
๕
‫ڀ‬
୼
֮
୼
֮
ओ
ׄ
ओ
ׄ
0
20
20
40
40
60
60
80
80
ʸʻƪ˛൥
ʸʻƪ˛൥
+HLJKW
+HLJKW

೒ন
෾‫ܝ‬
ࡢ੿
‫ࡩڀ‬
ओࡩ
‫୔܊‬ఛ࣪
ધ੔ ৻ӯ ୔ઐ
௪൑ຂ
ࣣฐ
ࡉ๕‫ڀ‬
୼֮
ओׄ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱬ
ƔɼʫɽʫȤ୐Ԩʍ֧຃ɫ
ƔɼʫɽʫȤ୐Ԩʍ֧຃ɫ
ƏƏƏ฿ɧʨʫʅɣʪʡʍʇɸʪƑ
ƏƏƏ฿ɧʨʫʅɣʪʡʍʇɸʪƑ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱭ
Ɣ֧຃ɫ‫ݍ‬એʍʡʍʱূʕƑ
Ɣ֧຃ɫ‫ݍ‬એʍʡʍʱূʕƑ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱮ
Ɣφಀ֧຃ʍએɣʡʍʱ
Ɣφಀ֧຃ʍએɣʡʍʱ
ƏƏƏφʃʍ˂˽ƪ˩ʊɸʪƑ
ƏƏƏφʃʍ˂˽ƪ˩ʊɸʪƑ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱯ
Ɣʝʇʠɾ୐ʇ਴ʍ୐ʇʍ֧຃ʱ
Ə‫ޟك‬ɶ૰ɸƸɣɮʃɪൣ൥ɫɡʪƹ
Ƒ
Ƒ
‫ݍ‬એ
‫ݍ‬એ
‫ݍ‬૫
‫ݍ‬૫

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱰ
Ƒ
Ƒ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱱ
Ɣ֧຃ʱ‫ޟك݌‬ɸʪɲʇʆƐ୐ɫφʃ
Ɣ֧຃ʱ‫ޟك݌‬ɸʪɲʇʆƐ୐ɫφʃ
ࢭʉɮʉʂɾʇ۵ɧʪɲʇɫʆɬʪƑ
ࢭʉɮʉʂɾʇ۵ɧʪɲʇɫʆɬʪƑ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱲ
ƔঢʚʈʇடํʊƐ֧຃ʍφಀએɣ
ƔঢʚʈʇடํʊƐ֧຃ʍφಀએɣ
ƏƏ୐ʱφʃʍ୐ʇɶʅʝʇʠʪƑ
ƏƏ୐ʱφʃʍ୐ʇɶʅʝʇʠʪƑ
ƏƏ
ƏƏ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱳ
Ɣ֧຃ʍએɣʡʍʱূʕƑ
Ɣɼʫʱφʃʍ୐ʇɶʅ۵ɧʪƑ
Ɣ֧຃ʱ‫ޟك‬ɶ૰ɸƑ
ʇɣɥ‫זݴ‬ʱ‫ؗ‬ʩ഼ɸƑ
ƏƏ
ƏƏ

D
A
C
B
֧຃ʍ‫ׯ‬ɣȤʃʍ୐ʱʝʇʠʪƑ ᱴ
‫گݍ‬ʎφʃʍ୐ʊʝʇʝʩࡊນɸʪƑ
‫گݍ‬ʎφʃʍ୐ʊʝʇʝʩࡊນɸʪƑ

距離の再計算
① 最短距離法 : ⼀一番短い距離を利⽤用する。
② 最⻑⾧長距離法 : ⼀一番⻑⾧長い距離を利⽤用する。
③  群平均法　 : 距離の平均を求める。
④  重⼼心法　　 : 重⼼心との距離を計算する。
⑤  ウォード法 : クラスターが巨⼤大にならないように
　　　　　　グループの中の距離がどれだけ
増えるかを計算する。
それが⼀一番最⼩小となる点を選ぶ。
݂઄֜๸
݂઄֜๸
݂ૠ֜๸
݂ૠ֜๸

距離の再計算
ؓച‫ה‬
ؓച‫ה‬

距離の再計算
࡚अ൚
࡚अ൚

距離の再計算
ʭʰƟː൚
ʭʰƟː൚

Rによる計算例
೒
ন
೒
ন
෾
‫ܝ‬
෾
‫ܝ‬
‫܊‬
୔
ఛ
࣪
‫܊‬
୔
ఛ
࣪
ધ
੔
ધ
੔
ओ
ࡩ
ओ
ࡩ
ࡢ
੿
ࡢ
੿
‫ڀ‬
ࡩ
‫ڀ‬
ࡩ
৻
ӯ
৻
ӯ
୔
ઐ
୔
ઐ
௪
൑
ຂ
௪
൑
ຂ
ࣣ
ฐ
ࣣ
ฐ
ࡉ
๕
‫ڀ‬
ࡉ
๕
‫ڀ‬
୼
֮
୼
֮
ओ
ׄ
ओ
ׄ
0
20
20
40
40
60
60
80
80
ʸʻƪ˛൥
ʸʻƪ˛൥
+HLJKW
+HLJKW

階層的クラスター分析の計算 (hclust)
所要時間データ × Ø Ù Ĩ Ĩ Ĩ ×Ø ×Ù ×Ú
×Ôೇঝ Ö Ý ×Ø Ĩ Ĩ Ĩ ×Ú ×Ö Ý
ØÔෳ‫ܒ‬ Ý Ö Û Ĩ Ĩ Ĩ Ø× ×Ý ×Ú
ÙÔࡗੴ ×Ø Û Ö Ĩ Ĩ Ĩ ØÜ ØØ ×ß
ÚÔ‫࡞ٵ‬ ×Ú Ý Ø Ĩ Ĩ Ĩ ØÞ ØÚ Ø×
Ĩ Ĩ Ĩ Ĩ Ĩ Ĩ
×ØÔ࠾๊‫ٵ‬ ×Ú Ø× ØÜ Ĩ Ĩ Ĩ Ö Ú Ý
×ÙÔୱ֣ ×Ö ×Ý ØØ Ĩ Ĩ Ĩ Ú Ö Ù
×ÚÔईֹ Ý ×Ú ×ß Ĩ Ĩ Ĩ Ý Ù Ö

所要時間データ
CSVファイル
ÒೇঝÒෳ‫ܒ‬ÒࡗੴÒ‫࡞ٵ‬Òई࡞Ò‫ۿ‬୉ఐࣟƧ
ೇঝÒÖÒÝÒ×ØÒ×ÚÒ×ÞÒØØÒƧ
ෳ‫ܒ‬ÒÝÒÖÒÛÒÝÒ××Ò×ÛÒƧ
ࡗੴÒ×ØÒÛÒÖÒØÒÜÒ×ÖÒƧ
‫࡞ٵ‬Ò×ÚÒÝÒØÒÖÒÚÒÞÒƧ
ई࡞Ò×ÞÒ××ÒÜÒÚÒÖÒÚÒƧ
‫ۿ‬୉ఐࣟÒØØÒ×ÛÒ×ÖÒÞÒÚÒÖÒƧ
જ੉ÒØÛÒ×ÞÒ×ÙÒ××ÒÝÒÙÒƧ
Ƨ

plot( yamatewa )
yamate0 - read.csv( yamate.csv , header=T, row.names=1)
yamate1 - as.dist( yamate0 )
yamatewa - hclust ( yamate1,method= ward )
yamatewa
R

多次元尺度法の計算 ( cmdscale )
所要時間データ × Ø Ù Ĩ Ĩ Ĩ ×Ø ×Ù ×Ú
×Ôೇঝ Ö Ý ×Ø Ĩ Ĩ Ĩ ×Ú ×Ö Ý
ØÔෳ‫ܒ‬ Ý Ö Û Ĩ Ĩ Ĩ Ø× ×Ý ×Ú
ÙÔࡗੴ ×Ø Û Ö Ĩ Ĩ Ĩ ØÜ ØØ ×ß
ÚÔ‫࡞ٵ‬ ×Ú Ý Ø Ĩ Ĩ Ĩ ØÞ ØÚ Ø×
Ĩ Ĩ Ĩ Ĩ Ĩ Ĩ
×ØÔ࠾๊‫ٵ‬ ×Ú Ø× ØÜ Ĩ Ĩ Ĩ Ö Ú Ý
×ÙÔୱ֣ ×Ö ×Ý ØØ Ĩ Ĩ Ĩ Ú Ö Ù
×ÚÔईֹ Ý ×Ú ×ß Ĩ Ĩ Ĩ Ý Ù Ö

plot( yamate3 )
yamate0 - read.csv( yamate.csv , header=T, row.names=1)
yamate1 - as.dist( yamate0 )
yamatewa -hclust ( yamate1,method= ward )
yamatewa
hclust(距離データ, method= 距離の方法)
最短距離法 single 、最長距離法 complete、群平均法 average
重心法 centroid、ウォード法 ward
R

೒ন
೒ন
୼֮
୼֮
ओׄ
ओׄ
ࣣฐ
ࣣฐ
ࡉ๕‫ڀ‬
ࡉ๕‫ڀ‬
৻ӯ
৻ӯ
୔ઐ
୔ઐ
௪൑ຂ
௪൑ຂ
෾‫ܝ‬
෾‫ܝ‬
‫୔܊‬ఛ࣪
‫୔܊‬ఛ࣪
ધ੔
ધ੔
ओࡩ
ओࡩ
ࡢ੿
ࡢ੿
‫ࡩڀ‬
‫ࡩڀ‬

‫ݍ‬એ֧຃൥
‫ݍ‬એ֧຃൥
+HLJKW
+HLJKW
৻ӯ
৻ӯ
୔ઐ
୔ઐ
௪൑ຂ
௪൑ຂ
ࣣฐ
ࣣฐ
ࡉ๕‫ڀ‬
ࡉ๕‫ڀ‬
୼֮
୼֮
ओׄ
ओׄ
೒ন
೒ন
‫୔܊‬ఛ࣪
‫୔܊‬ఛ࣪
ધ੔
ધ੔
෾‫ܝ‬
෾‫ܝ‬
ओࡩ
ओࡩ
ࡢ੿
ࡢ੿
‫ࡩڀ‬
‫ࡩڀ‬

ࡥऐ൥
ࡥऐ൥
+HLJKW
+HLJKW
距離の逆転

⾮非階層的クラスター分析

[

೒ন
೒ন
෾‫ܝ‬
෾‫ܝ‬
ࡢ੿
ࡢ੿
‫ࡩڀ‬
‫ࡩڀ‬
ओࡩ
ओࡩ
‫୔܊‬ఛ࣪
‫୔܊‬ఛ࣪
ધ੔
ધ੔
৻ӯ
৻ӯ ୔ઐ
୔ઐ
௪൑ຂ
௪൑ຂ
ࣣฐ
ࣣฐ
ࡉ๕‫ڀ‬
ࡉ๕‫ڀ‬
୼֮
୼֮
ओׄ
ओׄ

k-means法
x
y ‫ڎ‬ʍ୐ʱȤʃʍ˂˽ƪ˩ʊഒɰʪƑ
‫ڎ‬ʍ୐ʱȤʃʍ˂˽ƪ˩ʊഒɰʪƑ

x
k-means法

x
Ɣɼʍ ୐ʇʍ֧຃ʱ‫ޟك‬ɸʪƑ
Ɣɼʍ ୐ʇʍ֧຃ʱ‫ޟك‬ɸʪƑ
ᱭ
k-means法

x
Ɣɼʫɽʫʍ୐ʎƐ‫ׯ‬ɣൣʍਜ਼೅୐
Ɣɼʫɽʫʍ୐ʎƐ‫ׯ‬ɣൣʍਜ਼೅୐
Əʍ˂˽ƪ˩ʊਦɸʪɲʇʊɸʪƑ
Əʍ˂˽ƪ˩ʊਦɸʪɲʇʊɸʪƑ
ᱮ
k-means法

x
Ɣɼʫɽʫʍ˂˽ƪ˩ʍࡥऐʱ
Ɣɼʫɽʫʍ˂˽ƪ˩ʍࡥऐʱ
Əओɾʉਜ਼೅ʍ୐ʇɸʪƑ
Əओɾʉਜ਼೅ʍ୐ʇɸʪƑ
ƏƏ
ƏƏ
ᱯ
k-means法

x
Ɣओɾʉਜ਼೅୐ʇƐɼʫɽʫʍ
Ɣओɾʉਜ਼೅୐ʇƐɼʫɽʫʍ
ƏƏƏƏƏƏƏƏ֧຃ʱ‫ޟك‬ɸʪƑ
ƏƏƏƏƏƏƏƏ֧຃ʱ‫ޟك‬ɸʪƑ
ᱰ
k-means法

x
ƔঢʚʈʇடํʊƐ‫ׯ‬ɣൣʍਜ਼೅୐ʇ
ƔঢʚʈʇடํʊƐ‫ׯ‬ɣൣʍਜ਼೅୐ʇ
Əடɷ˂˽ƪ˩ʇɶʅƐഒ຾ɸʪƑ
Əடɷ˂˽ƪ˩ʇɶʅƐഒ຾ɸʪƑ
ƏƏ
ƏƏ
ᱱ
k-means法

x
Ɣਜ਼೅ʇʉʪ୐ʱূʒ૰ɸƑ
Ɣ֧຃ʱ‫ޟك‬ɸʪƑ
Ɣ‫ׯ‬ɣൣʍ୐ʍ˂˽ƪ˩ʇɸʪƑ
ƏƏ
ƏƏ
ᱲ
k-means法

x
ƏƏ
ƏƏ
ᱳ
k-means法

x
˂˽ƪ˩ʊഷѓɫʉɰʫʏࡊນʇɸʪƑ
˂˽ƪ˩ʊഷѓɫʉɰʫʏࡊນʇɸʪƑ
ᱴ
k-means法

Rによる計算例

[

೒ন
೒ন
෾‫ܝ‬
෾‫ܝ‬
ࡢ੿
ࡢ੿
‫ࡩڀ‬
‫ࡩڀ‬
ओࡩ
ओࡩ
‫୔܊‬ఛ࣪
‫୔܊‬ఛ࣪
ધ੔
ધ੔
৻ӯ
৻ӯ ୔ઐ
୔ઐ
௪൑ຂ
௪൑ຂ
ࣣฐ
ࣣฐ
ࡉ๕‫ڀ‬
ࡉ๕‫ڀ‬
୼֮
୼֮
ओׄ
ओׄ

6点の座標データ ēĆĒĊÆÆÆÆĝÆÆÆÆÆÆÆĞ
é×ÆÆÆÆÆÆ×ÆÆÆÆÆÆÆ×
éØÆÆÆÆÆÆØÆÆÆÆÆÆÆ×
éÙÆÆÆÆÆÆ×ÆÆÆÆÆÆÆÙ
éÚÆÆÆÆÆÆÚÆÆÆÆÆÆÆÛ
éÛÆÆÆÆÆÆÛÆÆÆÆÆÆÆÛ
éÜÆÆÆÆÆÆÛÆÆÆÆÆÆÆÙ

Rによる計算 (kmeans)
km1 - read.table( kmeans.dat , header=T, row.names=1)
km1
km2 - kmeans ( km1, 2 )
km2
plot(km1, pch = km2$cluster)
points(km2$centers, pch = 8) R

まとめ

[

೒ন
೒ন
෾‫ܝ‬
෾‫ܝ‬
ࡢ੿
ࡢ੿
‫ࡩڀ‬
‫ࡩڀ‬
ओࡩ
ओࡩ
‫୔܊‬ఛ࣪
‫୔܊‬ఛ࣪
ધ੔
ધ੔
৻ӯ
৻ӯ ୔ઐ
୔ઐ
௪൑ຂ
௪൑ຂ
ࣣฐ
ࣣฐ
ࡉ๕‫ڀ‬
ࡉ๕‫ڀ‬
୼֮
୼֮
ओׄ
ओׄ

まとめ
階層的クラスター分析⾮非階層的クラスター分析
・k-means法 | k-平均法
・局所解
・初期値依存性
・樹形図
・クラスター間の距離　　　
　最短距離
　最⻑⾧長距離
　群平均
　重⼼心法
　ウォード法など

T08

Recommended

Recommended

More Related Content

More from anonymousouj

More from anonymousouj (6)

Recently uploaded

Recently uploaded (8)

T08