Msn User Clustering

MSN Users Clustering

日落
2009.05.18

Introduction
 What is MSN for ?

Introduction

程式設計

美食

阿宅

嘴炮

Introduction
 讀取對話記錄
 中文斷詞
 清除無用資料
 K-mean

中文斷詞
 雞哥是蘿莉控

 雞哥 / 是 / 蘿莉 / 控

中文斷詞
 中研院中文斷詞系統 (CKIP)

 Yahoo 斷章取義

清除無用資料

痴漢：哈囉

正妹：哈囉關鍵字：
 自拍
痴漢：你喜歡自拍嗎？
 洗澡
正妹：掰掰......去洗澡

清除無用資料
 全形、半形符號
 大小寫英文
 注音
 代名詞：你、我、他
 結構助詞：的、地、得
 關連詞：因為、所以、然後、結果
 嘆詞：嗨、啊、喔、嗚、科科....... etc

清除無用資料

我們晚上去 85℃喝咖啡

去喝咖啡

清除無用資料

歐趴糖

K-mean
 計算距離

 取得重心

 分群

K-mean - Text Retrievaling
 我讀逢甲大學
相似度高
 我是逢甲大學學生

相似度低
 我是大學生

逢甲 / 大學

大學
 我是大學生

 相似度

重複次數

集合中詞彙總數

2
= 29%
7
1
我是大學生 = 14%

7

 資料間的距離

= 1 - 相似度

 U1 = { 1, 2, 3, 4 }
U2 = { 1, 2, 3 }
U3 = { 1, , 5, 6 }

U1 U2 U3
U1 0
U2 0.25 0

U3 0.83 0.80 0

 優點
 容易計算

 缺點
 陣列大小 = N x N

K-mean - Clustering
 K：分群數量

 K = 1, 2, 3 .... ?

K-mean - Clustering
 K=2？

①

②

K-mean - Clustering

工具可分很多種

K-mean - Clustering
 停止條件
 重心多次沒有改變
 重心計算超過 m 次
 群集小於 n

More Related Content