SlideShare a Scribd company logo
+

はじパタ
10章	
 クラスタリング	
 前半
(10.1 ~ 10.3)	
 

2014/3/4 yamakatu
+

omae dare yo	
 
n 

やまかつ(@yamakatu)

n 

フルスタックイクメンエンジニア

n 

主に検索方面

n 

gihyo.jp Mahoutで体感する機械学習の実践
n 

n 

合い言葉は「読まずにはてブだけ」

一部の心ない人たちからソーシャルチンピラって呼ばれてる
n 

インターネット怖い
+

最初に知っておくべきこと 1/2
+

最初に知っておくべきこと	
 2/2
+

10章	
 クラスタリング	
 
n 

教師なし学習の一つ

n 

入力データ間の類似度や非類似度から、データをグループ分け

n 

手法(やまかつ、ポッター小野氏)
n 

n 

n 

非階層的クラスタリング
n  K-means法
階層的クラスタリング(融合法)
n  単連結法
n  完全連結法
n  群平均法
n  ウォード法
n  重心法
n  メディアン法
混合分布(混合分布モデル
n  EMアルゴリズム
+

10.1 類似度と非類似度
+

10.1.1 距離の公理	
 
n 

データをグループ分け
n 
n 

n 

指標:類似度や非類似度
尺度:距離

距離の公理
n 

非負性:d(x,y) >= 0
反射律:d(x,y) = 0 の時、x = yが成り立つ

n 

対称性:d(x,y) = d(y,x)

n 

三角不等式:d(x,z) <= d(x,y) + d(y,z)

n 
+

10.1.2 ミンコフスキー距離	
 
n 

で、実際の距離の計算方法は?
n 

n 

パラメータa,bの値次第で以下の距離に派生する
n 
n 
n 
n 

n 

ミンコフスキー距離

a=1, b=1 :	
 市街地距離(マンハッタン距離)
a=2, b=2 :	
 ユークリッド距離
a=2, b=1 :ユークリッド距離の2乗(ユークリッド平方距離)
a=b=∞ :	
 チェビシェフ距離(各次元の差の内、最大の差が距離となる)

一言で言うと
n 
n 

aの増加:個々の特徴間の差の重みが大きくなる
bの増加:差分累乗和に対する重みが小さくなる
+

その他の距離	
 
n 

キャンベラ尺度(キャンベラ距離)

n 
n 

n 

方向余弦(方向余弦距離、コサイン類似度)

n 

n 

マンハッタン距離の亜種っぽい感じ
各次元を正規化できる

ベクトル間の角度を利用

LTの資料がまとまってるぽい
+

新鋭	
 
n 

アルベルト距離
n 
n 

??????????
いつかきっとアルベルトな方が説明してくれる、、、?
+

10.2 非階層型クラスタリ
ング(K-平均法)
+

10.2 非階層型クラスタリング
(K-平均法) 1/2	
 
n 

非階層型クラスタリング、と言うよりK-Meansの話

n 

目的
n 
n 

n 

d次元のN個のデータ
これをあらかじめ定めたK個のクラスタに分類する

定義

n 

各クラスタの代表ベクトルの集合
k番目の代表ベクトルが支配するクラスタ
帰属変数

n 

K-Meansの評価関数

n 

最適化

n 
n 
+

10.2 非階層型クラスタリング
(K-平均法)	
 2/2	
 
n 

アルゴリズム(逐次最適化)
n 

以下、TJO氏のサイト wikipedia(
http://en.wikipedia.org/wiki/K-means_clustering )から

1.	
 

n 

3.	
 

4.	
 

収束するまで3〜4を繰り返す
ちなみにKmeansの初期化ってやりかた2つあるよね
n  本:データをクラスタにランダムに割り当てる
n  wikipedia:ランダムに重心を決める
ちなみにK個のKはCanopyクラスタリングで求める方法があるぜよ
n 

n 

2.
+

10.3 階層型クラスタリン
グ(融合法)
+

10.3 階層型クラスタリング(融合法)	
 
n 

類似度の高い順に融合していって、最終的にN個のデータを一
つのクラスタに統合

n 

デンドログラムで表現できる
+

クラスタ間の類似度の定義	
 
n 

単連結法

n 

完全連結法

n 

群平均法

n 

ウォード法

n 

重心法

n 

メディアン法
+

10.3.1 単連結法	
 
n 

二つのクラスタA,B間でもっとも類似度の高いデータ間の距離
を、クラスタ間の距離にする
+

単連結法の性質	
 
n 

クラスタに一つデータが追加されると、他のクラスタとの距離は
小さくなるか、または変化しない
n 

最も距離が近いデータを採用してるから、遠くなることはない

n 

クラスタAとBが融合してクラスタCができた場合、他のクラスタ
Xとの距離

n 

大きなクラスタができる傾向がある
n 

n 

???

あるクラスタから同じ距離に二つのクラスタがある場合、どちら
を選んでも結果は同じ
n 

???
+

10.3.2 超距離	
 
n 

単連結法と完全連結法との間にいきなり出てきた、、、だと!?

n 

「二つのデータxiとxjが融合する直前のクラスタ間の距離」

n 

例題10.1にもどる
n 
n 
n 

n 

BとEの超距離を考える
クラスタBCとDEがあるとする
このクラスタ間の距離は、ユークリッド距離で単連結法だとd(C, E)で2√2になる

そういう訳で
n 
n 

「融合する直前」というより単に「融合前」
     でxiとxjが属するクラスタが融合する前のクラスタ間の距離を表現する
+

10.3.3 完全連結法	
 
n 

単連結法の逆

n 

クラスタ間でもっとも類似度の低いデータ間の距離をクラスタ間
の距離に

n 

性質も逆
n 

略
+

10.3.4 群平均法	
 
n 

二つのクラスタ間のすべてのデータ間の距離の平均

n 

式
n 

NA, NB:クラスタA, Bのデータ件数
+

10.3.5 ウォード法	
 
n 

クラスタを融合したときのクラスタ内変動の増加分で距離を定義

n 

この距離が小さなクラスタから融合する
n 

データ間の距離計算にはユークリッド距離(って書いてあるけど、他
じゃ駄目なの?)

n 

式

n 

階層法の中で最も精度が高い
Have a nice
clustering!!

More Related Content

What's hot

パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則
Shuhei Sowa
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
Tyee Z
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
Hiroshi Nakagawa
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
Ken'ichi Matsui
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
nishio
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
Yoshitaka Ushiku
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンMotoya Wakiyama
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
Chapter11.2
Chapter11.2Chapter11.2
Chapter11.2
Takuya Minagawa
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
NobuyukiTakayasu
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
Taku Yoshioka
 

What's hot (20)

パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
Random Forest による分類
Random Forest による分類Random Forest による分類
Random Forest による分類
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Chapter11.2
Chapter11.2Chapter11.2
Chapter11.2
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML8章
PRML8章PRML8章
PRML8章
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 

More from Katsushi Yamashita

CROSS 2015 全文検索群雄割拠
CROSS 2015 全文検索群雄割拠CROSS 2015 全文検索群雄割拠
CROSS 2015 全文検索群雄割拠
Katsushi Yamashita
 
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
Katsushi Yamashita
 
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
Katsushi Yamashita
 
第1回「データ解析のための統計モデリング入門」読書会 オープニング
第1回「データ解析のための統計モデリング入門」読書会 オープニング第1回「データ解析のための統計モデリング入門」読書会 オープニング
第1回「データ解析のための統計モデリング入門」読書会 オープニング
Katsushi Yamashita
 
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみるelasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみるKatsushi Yamashita
 
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
 

More from Katsushi Yamashita (6)

CROSS 2015 全文検索群雄割拠
CROSS 2015 全文検索群雄割拠CROSS 2015 全文検索群雄割拠
CROSS 2015 全文検索群雄割拠
 
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング「データ解析のための統計モデリング入門」読書会 最終回 クロージング
「データ解析のための統計モデリング入門」読書会 最終回 クロージング
 
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
#みどりぼん 11章「空間構造のある階層ベイズモデル」後半
 
第1回「データ解析のための統計モデリング入門」読書会 オープニング
第1回「データ解析のための統計モデリング入門」読書会 オープニング第1回「データ解析のための統計モデリング入門」読書会 オープニング
第1回「データ解析のための統計モデリング入門」読書会 オープニング
 
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみるelasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
 
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
 

Recently uploaded

論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 

Recently uploaded (8)

論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 

はじパタ 10章 クラスタリング 前半