SlideShare a Scribd company logo
1 of 38
Tokyo.R#10 Rによるデータサイエンス 第五章:クラスター分析
自己紹介 ,[object Object],[object Object],[object Object],[object Object],[object Object]
Rとわたし ,[object Object],[object Object],[object Object],[object Object],[object Object]
アジェンダ ,[object Object],[object Object],[object Object],[object Object],[object Object],R によるデータサイエンス 第五章:クラスター分析 http://mjin.doshisha.ac.jp/R/28/28.html
クラスター分析とは ,[object Object],[object Object],[object Object],[object Object],本章ではこっちを扱います
階層的クラスタリング
分析の流れ ,[object Object],[object Object],[object Object],[object Object],[object Object]
デンドログラム
デンドログラム クラスタが一つずつ併合され, 最終的に一つのクラスタにまとまる 階層的クラスタリング 併合されてゆく過程をグラフで表現したもの =デンドログラム
デンドログラム 併合されたクラスターの距離
コーフェン行列 ,[object Object],[object Object],階層的クラスタリングの手法はこの行列 の求め方の違い 1.1  1.1  1.1  0.1  setosa5 0.2  0.3  1.1  setosa4 0.3  1.1  setosa3 1.1  setosa2 setosa4 setosa3 setosa2 setosa1  
アルゴリズム ,[object Object],C(1) C(2) C(3) C(4) C(5) (4.5,2) データ 5 (4,4) データ 4 (2,4) データ 3 (1,2) データ 2 (2,1) データ 1 座標 データ
STEP1 併合 ,[object Object],C(1) C(2) C(3) C(4) C(5) 初期のコーフェン行列は データ間の距離 2.06  3.20  3.50  2.69  C(5)   2.00  3.61  3.61  C(4)     2.24  3.00  C(3)       1.14  C(2) C(4) C(3) C(2) C(1)  
STEP2 コーフェン行列の更新 ,[object Object],[object Object],[object Object]
以下繰り返し… クラスタ  C(3) と C(4) が併合され,クラスタ C(3,4) が作られる C(1,2) C(3) C(4) C(5) 2.06  3.20  2.69  C(5)   2.00  3.61  C(4)     2.61  C(3) C(4) C(3) C(1 ,2 )  
以下繰り返し… クラスタ  C(3,4) と C(5) が併合され,クラスタ C(3,4,5) が作られる C(1,2) C(5) C(3,4) 2.63  3.09  C(5)   3.11  C(3,4) C(3,4) C(1 ,2 )  
以下繰り返し… クラスタ  C(1,2) と C(3,4,5) が併合され,クラスタ C(1,2,3,4,5) が作られる C(1,2) C(5) C(3,4) 3.10 C(3,4,5) C(1 , 2)  
クラスタ間の距離(1/4) ,[object Object],[object Object],[object Object],[object Object],j i k j i k Cij Cij
クラスタ間の距離(2/4) ,[object Object],[object Object],[object Object],[object Object],i i j k j k Cij Cij
クラスタ間の距離(3/4) ,[object Object],[object Object],i j k Cij
クラスタ間の距離(4/4) ,[object Object],[object Object],[object Object],※ 平方和 :  クラスタ X 内の各データ x に対して, クラスタ X の重心 center ( X ) との距離 d(x,center(X)) の自乗の和
手法を選ぶ上での注意点 ,[object Object],[object Object],[object Object]
hclust  関数 ,[object Object],[object Object],hclust(d, method = “complete”, …)
hclust に関連する関数 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
デンドログラムのできるまで  STEP 1/3 ,[object Object],[object Object]
非階層的クラスター分析 ,[object Object],[object Object],[object Object]
k-means のアルゴリズム ,[object Object],K 個のクラスタの代表点      を適当に作成 STEP 1
k-means のアルゴリズム 各データ  X  とクラスタの代表点 との距離を測り 最も距離が近いクラスタを X のクラスタとする STEP  2
k-means のアルゴリズム 形成されたクラスターの中心を求める STEP 3
k-means のアルゴリズム クラスタの中心が変化しない時点まで STEP2,3 を 繰り返す STEP  2
kmeans 関数 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],kmeans(x, centers, iter.max=10,nstart=1, algorithm= c("Hartigan-Wong", "Lloyd",  "Forgy", "MacQueen"))
モデルに基づいたクラスター分析 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
EMアルゴリズム 不完全データ  x どのクラスタ で発生したか がわからない 隠れ変数: c ( どのクラスタで発生したか)を付与 完全データ: y=(x,c) x  の分布の最適化問題を y の分布の最適化問題の 繰り返しに帰着させるアルゴリズム EM アルゴリズム
EMアルゴリズムの流れ θ :固定 c :  尤度最大 E-step θ :尤度最大 c :  固定 M-step c を推定! θ を推定! パラメータ θ と隠れ変数 c を交互に推定 -> 収束したときのパラメータを採用!
R で混合分布モデルを使うときの 3STEP ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
hc で選択できるモデル ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
実行例 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
iris  データについて ,[object Object],Iris setosa ( 檜扇菖蒲) Iris versicolor Iris virginica

More Related Content

What's hot

自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
入門パターン認識と機械学習15章
入門パターン認識と機械学習15章入門パターン認識と機械学習15章
入門パターン認識と機械学習15章hiro5585
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入Hiroshi Nakagawa
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 Kenta Oono
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214Kosuke Nakago
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知hagino 3000
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Seiya Tokui
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界Preferred Networks
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)Motoya Wakiyama
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMCKenta Oono
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6Prunus 1350
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13matsuolab
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 

What's hot (20)

自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
入門パターン認識と機械学習15章
入門パターン認識と機械学習15章入門パターン認識と機械学習15章
入門パターン認識と機械学習15章
 
クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入クラシックな機械学習入門 1 導入
クラシックな機械学習入門 1 導入
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用 2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
 
Stochastic Gradient MCMC
Stochastic Gradient MCMCStochastic Gradient MCMC
Stochastic Gradient MCMC
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6はじめてのパターン認識 第9章 9.5-9.6
はじめてのパターン認識 第9章 9.5-9.6
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 

Similar to Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析

how-calculate-cluster-coefficience
how-calculate-cluster-coefficiencehow-calculate-cluster-coefficience
how-calculate-cluster-coefficienceNorihiro Shimoda
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについてArien Kakkowara
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングHiroshi Nakagawa
 
基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどきXMLProJ2014
 
Simulation_Report1
Simulation_Report1Simulation_Report1
Simulation_Report1T2C_
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Yuichiroh Matsubayashi
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法Hirotaka Hachiya
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3Teruyuki Sakaue
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )aich_08_
 
Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124博三 太田
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能Hiroshi Nakagawa
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingAtsushiKayama2
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Etsuji Nakai
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズムTakuya Akiba
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)YoheiOkuyama
 

Similar to Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析 (20)

how-calculate-cluster-coefficience
how-calculate-cluster-coefficiencehow-calculate-cluster-coefficience
how-calculate-cluster-coefficience
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについて
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリング
 
基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき
 
論文紹介&実験
論文紹介&実験論文紹介&実験
論文紹介&実験
 
Simulation_Report1
Simulation_Report1Simulation_Report1
Simulation_Report1
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
 
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
 
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
「続・わかりやすいパターン認識」 第12章 ディリクレ過程混合モデルによるクラスタリング(前半 : 12.1 )
 
Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)
 
Fast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewritingFast abstractive summarization with reinforce selected sentence rewriting
Fast abstractive summarization with reinforce selected sentence rewriting
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
Thinking in Cats
Thinking in CatsThinking in Cats
Thinking in Cats
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 

Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析