11. 本講座で学ぶ5つの技術
1. K-means(K平均法)
2. 階層的クラスタリング
3. DBSCAN
4. 決定木
5. 相関ルールマイニング
X⇒Yのルールを効率よく抽出
客ID 日付 購入物
111 12/1 A, B, C
112 12/3 B, D
113 12/3 C, H, J
… … …
商品の購買記録
一緒によく買われる商品を抽出
A, B ⇒ H
B, I ⇒ J
K, Y ⇒ A, H
11
67. DBSCAN (Density-based spatial clustering of applications with noise)の概要
入力
・ベクトルの集合(表データ)
・密度の閾値
出力
各ベクトルが所属するクラスタ
& ノイズデータ
利用するケース
クラスタ数は未知だが,
密集度でクラスタリングしたいとき
A
B
D
C
E
F
G
H
I
A
B
D
C
E
F
G
H
I
ある程度密に群がっている
データのみグルーピング
67
68. 密度ベースクラスタリングの利⽤例
米国のGPSの位置情報データをクラスタリングして
人が密集している地域を抽出
L. Cao et al., 2009. Enhancing semantic and geographic annotation of web images via logistic canonical correlation
regression. In Proceedings of the 17th ACM international conference on Multimedia (MM '09). 68