MSN Users Clustering


                    日落
              2009.05.18
Introduction
   What is MSN for ?
Introduction

          程式設計

                    美食




                    阿宅

               嘴炮
Introduction
   讀取對話記錄
   中文斷詞
   清除無用資料
   K-mean
中文斷詞
   雞哥是蘿莉控

   雞哥 / 是 / 蘿莉 / 控
中文斷詞
   中研院中文斷詞系統 (CKIP)

   Yahoo 斷章取義
清除無用資料

痴漢:哈囉

正妹:哈囉            關鍵字:
                  自拍
痴漢:你喜歡自拍嗎?
                  洗澡
正妹:掰掰......去洗澡
清除無用資料
   全形、半形符號
   大小寫英文
   注音
   代名詞:你、我、他
   結構助詞:的、地、得
   關連詞:因為、所以、然後、結果
   嘆詞:嗨、啊、喔、嗚、科科....... etc
清除無用資料

 我們晚上去 85℃喝咖啡




    去喝咖啡
清除無用資料




    歐趴糖
K-mean
   計算距離

   取得重心

   分群
K-mean - Text Retrievaling
   我讀逢甲大學
                   相似度高
   我是逢甲大學學生

                   相似度低
   我是大學生
K-mean - Text Retrievaling
   我讀逢甲大學
                   逢甲 / 大學
   我是逢甲大學學生

                   大學
   我是大學生
K-mean - Text Retrievaling
   相似度


           重複次數

          集合中詞彙總數
K-mean - Text Retrievaling
   我讀逢甲大學
                    2
                        = 29%
                    7
   我是逢甲大學學生
                    1
    我是大學生               = 14%

                    7
K-mean - Text Retrievaling
   資料間的距離

       = 1 - 相似度
K-mean - Text Retrievaling
   U1 = { 1, 2, 3, 4 }
    U2 = { 1, 2, 3 }
    U3 = { 1,         , 5, 6 }

                             U1      U2     U3
                       U1        0
                       U2   0.25      0

                       U3   0.83     0.80   0
K-mean - Text Retrievaling
   優點
       容易計算


   缺點
       陣列大小 = N x N
K-mean - Clustering
   K:分群數量


   K = 1, 2, 3 .... ?
K-mean - Clustering
   K=2?

    ①


    ②
K-mean - Clustering

工具可分很多種
K-mean - Clustering
   停止條件
       重心多次沒有改變
       重心計算超過 m 次
       群集小於 n
Q & A

Msn User Clustering