分類演算法之比較—以帕金
森氏症電子監控資料為例

         組別:男人真命苦
 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠
         指導教授:徐嘉連

 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
大綱
   什麼是帕金森氏症?                                   Naïve Bayesian
                                                 classification
   資料描述
                                                Support vector machines
   實驗設計                                        K-nearest neighbor
   測量方法                                        Bayesian networks
   演算法                                         Neural networks
      Decision tree                            Genetic algorithms
      Rule induction                           Fuzzy classification
      Classification using               結果比較
       association rules
                                          結論

2010/5/28               Web Mining course, CSIE dept., FJU             2
什麼是帕金森氏症?
 帕金森氏症(Parkinson's Disease)是一種慢性的中
  樞神經系統失調。它的病因目前仍不明,推測和
  大腦底部基底核(basal ganglia)以及黑質
  (substantial nigra)腦細胞快速退化,無法製造足
  夠的神經引導物質多巴胺(Dopamine)和膽鹼作用
  增強有關。腦內需要多巴胺來指揮肌肉的活動;
  缺乏足夠的多巴胺就產生各種活動障礙。
 會有靜止時顫抖、僵直、運動不能和運動遲緩、
  平衡感差、便秘、講話速度緩慢、音調呆板、寫
  字越寫越小等症狀(黑質內之細胞喪失80%時)

2010/5/28     Web Mining course, CSIE dept., FJU   3
多巴胺傳導路徑及其作用


2010/5/28   Web Mining course, CSIE dept., FJU   4
資料描述         (1/4)



 以美國十個醫學中心和英特爾(Intel)合作發展的
  一套電子監控設備記錄帕金森氏症病患說話時的
  聲音訊號,來預測帕金森氏症病患在帕金森式症
  症狀衡量表(UPDRS)中所獲得的分數,藉以判別
  患者病症程度。
 共計有5875筆資料,記錄了六個月內,42名早期
  帕金森氏症病患於家中使用電子監控設備的聲音
  訊號(一名病患大約有200筆左右的資料)。



2010/5/28     Web Mining course, CSIE dept., FJU   5
資料描述          (2/4)



 資料屬性
      subject#:受測者的代號
      age:受測者年齡
      sex :受測者性別,0代表男性,1代表女性
      test_time:使用電子監控設備的時間。整數部分代表
       天數(例:5.6431)。
      motor_UPDRS:受測者利用線性內差法所得之帕金森
       症症狀衡量表分數(運動部分)
      total_UPDRS:受測者利用線性內差法所得之帕金森症
       症狀衡量表分數(總分)


2010/5/28      Web Mining course, CSIE dept., FJU   6
資料描述                (3/4)



      Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5,
       Jitter:DDP:一些對基頻(fundamental frequency)變異
       的測量
      Shimmer, Shimmer(dB), Shimmer:APQ3,
       Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA:
       一些對振幅變異的測量
      NHR, HNR:兩種對雜訊干擾的判斷
      RPDE:非線性動態複雜度分析
      DFA:碎形信號指數
      PPE:非線性的基頻變異測量


2010/5/28            Web Mining course, CSIE dept., FJU   7
資料描述                       (4/4)



 其中只有sex為名詞性(nominal)的資料,其餘皆
  為數值(numerical)
 Unified Parkinson's Disease Rating Scale(UDPRS)
      分為四大部分,每一部份再細分為不同的測量指標
            1.   智能、行為、情緒(mentation, behavior and mood)
            2.   日常生活能力(activities of daily living)
            3.   動作能力之檢查(motor examination)
            4.   治療之併發症(complications of therapy)
       最後依據量測結果對患者做病症之分級,藉以判斷患
        者的生活能力。
             共分為十個等級(0% ~ 100%)

2010/5/28                   Web Mining course, CSIE dept., FJU   8
實驗設計
 演算法本身的比較
      不同的參數設定,如決策樹是否修剪(pruning),或是
       類神經網路隱藏層(hidden layer)的數量等。
      不同的測試設定(test options),如cross validation、
       percentage split等。
 各演算法之間的比較
           以70%為訓練資料,30%為測試資料
           以各個演算法之最佳精準度之結果作為比較依據
           資料正規化(numerical to nominal)
           相同的執行環境

2010/5/28            Web Mining course, CSIE dept., FJU   9
測量方法
 精確度(accuracy)
      Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure
 錯誤率(error rate)
      Mean absolute error/root mean square error/relative
       absolute error/root relative squared error
 一致性(agreement)
      Observed agreement/chance agreement/Kappa
 執行時間(time)
 消耗資源(memory)

2010/5/28             Web Mining course, CSIE dept., FJU     10
Decision Tree
 J48(C4.5)
      簡單、快速、準確率高
      參數設定較尐
      老師有教過
 參數設定
      Pruned/unpruned/redu
       ced error pruning(RCP)
      Confidence factor(CF):
       0.1~1.0
      Random seed(RS): 1~10

2010/5/28            Web Mining course, CSIE dept., FJU   11
Decision Tree
 數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1)
                 Correctly(%) Precision(avg.) Leaves                    Size   Time(s)
     Unpruned      93.8138                0.938                   254   507      0.9
     Pruned        93.9841                 0.94                   242   483     0.86
     RCP           90.4654                0.905                   199   397     0.54
     CF = 0.1      93.9841                 0.94                   232   463     1.03
     CF = 0.5      93.9841                 0.94                   242   483     0.99
     RS = 2        95.9705                0.961                   242   483     1.02
     RS = 3         95.63                 0.956                   242   483     0.97
     CF = 0.75     95.9137                 0.96                   250   499     3.83




2010/5/28                    Web Mining course, CSIE dept., FJU                          12
Decision Tree, level = 17, root = age


2010/5/28         Web Mining course, CSIE dept., FJU   13
Neural Network
 適合數值資料
 參數設定
           Decay(D)
           Hidden layer(HL)
           Learning rate(LR)
           Training time(TT)
           Random seed(RS)
           GUI




2010/5/28                  Web Mining course, CSIE dept., FJU   14
Neural Network
 數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false)
                           Correctly(%) Precision(avg.) Recall(avg.) Time(s)
     HL = a, LR = 0.3        52.8377                   0.545        0.528   81.02
     HL = t, LR = 0.3        58.5698                   0.599        0.586   147.26
     HL = 1, LR = 0.3        22.9852                   0.114        0.23    14.62
     HL = t, LR = 1, D       48.6379                   0.498        0.486   147.84
     HL = t, LR = 0.5, D     37.4007                   0.395        0.374   156.96
     HL = t, LR = 0.5        59.5346                   0.612        0.595   148.49
     HL = t, LR = 0.1        66.5153                   0.682        0.665   149.6
     TT = 1000               69.9773                   0.708         0.7    300.89
     RS = 2                  69.1827                   0.698        0.692   149.54


2010/5/28                      Web Mining course, CSIE dept., FJU                15
Bayesian network




 適用在離散型
 依照P(Xi | Pi)此條件機率寫出條件機率表
 缺點:若節點Xi是由很多的「因」所造成的「果」,
  條件機率表就會變得在計算上既複雜又使用不便。
2010/5/28        Web Mining course, CSIE dept., FJU   16
Bayesian network
 適用在離散型
 依照P(Xi | Pi)此條件機
  率寫出條件機率表
 缺點:若節點Xi是由很
  多的「因」所造成的「
  果」,條件機率表就會
  變得在計算上既複雜又
  使用不便。
 參數設定
      MaxNrOfParents
2010/5/28           Web Mining course, CSIE dept., FJU   17
Bayesian network
 數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2)
                       Correctly(%) Precision(avg.) Recall(avg.) Time(s)

  MaxNrOfParents = 1     39.7843                  0.457         0.398   0.28

  MaxNrOfParents = 2     58.9671                  0.593         0.59    0.53

  MaxNrOfParents = 3      57.605                  0.579         0.576   1.23




2010/5/28                  Web Mining course, CSIE dept., FJU                  18
Bayesian network


2010/5/28   Web Mining course, CSIE dept., FJU   19
K-Nearest Neighbor
 優點:
      突破統計模型對資料的限制
      預測能力更優於決策樹以及類神經網路
      KNN分類器非常簡單
 缺點:
      計算未知樣本與已知樣本間距離的成本過高,
       特別是在高維度的特徵空間且有大量訓練資料
       時。

2010/5/28        Web Mining course, CSIE dept., FJU   20
K-Nearest Neighbor
 提供四種方式實現KNN:

      Linear Search

      KD Tree

      Cover Tree

      Ball Tree

 本次以較易實現的KD Tree為主

2010/5/28              Web Mining course, CSIE dept., FJU   21
KNN concept


2010/5/28   Web Mining course, CSIE dept., FJU   22
K-Nearest Neighbor
 參數設定
      KNN(number of neighbors)
      Random seed(RS)




2010/5/28            Web Mining course, CSIE dept., FJU   23
K-Nearest Neighbor
 數據與結果(default: KNN = 1)
             Correctly(%)     Precision(avg.)               Recall(avg.)   Time(s)
     K=1       73.6095               0.736                       0.736      0.13
     K=2       70.8854               0.718                       0.709       0.1
     K=3       74.1771               0.749                       0.742      0.12
     K=4       72.4177               0.726                       0.724      0.11
     K=5       73.1555               0.732                       0.732      0.11




2010/5/28                   Web Mining course, CSIE dept., FJU                       24
75




74




73




72




71




70




69
        1   2   3    4          5           6            7   8   9   10



                            KNN 正確率


2010/5/28           Web Mining course, CSIE dept., FJU                    25
Association Rules
 利用由下往上(bottom-up)循序漸進的方式,藉
  由產生與測試候選項目集得到高頻項目集合,然
  後再從高頻項目集中找出有用的關聯法則。
 可接受的輸入(input)必須是名詞性(nominal)的,
  所以必須將所有的屬性先離散化(discretize)。
      age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67,
       68, 71, 72, 73, 74, 75, 76, 78, 85}
      其他屬性如何離散化才有意義?
 參數設定
      Minimum confidence: 0.1~0.9

2010/5/28                Web Mining course, CSIE dept., FJU        26
Association Rules
 數據與結果
           一直到minimum confidence = 0.1才有結果。
           Minimum support = 0.15(881 instances)
           Number of cycles performed: 17
           Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf-
            0.4422]' Shimmer:APQ5='(-inf-0.034956]'
            Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf-
            0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]'
            894 conf:(0.18)



2010/5/28                  Web Mining course, CSIE dept., FJU   27
Rule Induction
 尋找在同一事件中出現的不同項目的相關性。
 一系列有意義的規則,顯示數據中蘊含的關聯性。
 優點:
      尋找多條規則,每個規則可得出一個不同結論、結果清
       晰有用、可以處理增加的數據、計算的消耗量可以預見
       、規則集比決策樹更具有一般性。
 缺點:
      花費時間長、難以決定正確的數據、易忽略稀有數據。




2010/5/28        Web Mining course, CSIE dept., FJU   28
Rule Induction
 決策表(decision table)




2010/5/28        Web Mining course, CSIE dept., FJU   29
Rule Induction
 建立決策表
      需要決定表格的大小
      計算max decision table中的列數(columns) x 每個
       altermatives condition的數目(ex. Condition列為3,
       altermatives選擇為2個, 則每個condition x , 即有2^3=8
       個possibilities)
      盡量簡化表格,並刪除以下的狀況
             不可能發生的狀況(impossible)
             前後矛盾的狀況(inconsistencies)
             冗長、多餘的狀況(redundancies)



2010/5/28                Web Mining course, CSIE dept., FJU   30
Rule Induction
 參數設定
      Search(S):選擇不同的演算法找出建立表格的屬性
      Random seed(RS)
 數據與結果
      選擇不同的演算法沒有什麼太大的差異,都是以age、
       sex、test_time、total_UPDRS來建構表格。
      調整random seed = 3有最高的準確率。
      Number of Rules : 975
      Correctly Classified Instances: 74.6879 %
      Precision: 0.758

2010/5/28          Web Mining course, CSIE dept., FJU   31
Naive Bayesian
 前提假設
      所有屬性對其類別具有conditional independence
 估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較
  高,判斷A1, A2屬於C1或C2。
 P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)
 參數設定
      useKernelEstimator:Use a kernel estimator for
       numeric attributes rather than a normal distribution
      UseSupervisedDiscretization
      Random seed(RS)
2010/5/28              Web Mining course, CSIE dept., FJU     32
Naive Bayesian
 數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization =
    false)

                      Correctly(%) Precision(avg.)               Recall(avg.)   Time(s)
     Original           18.5017                0.326                0.185        0.08
     UseKernelEsti
                        24.0068                  0.33               0.24          0.1
     mator
     UseSupervised
                         38.025                0.449                0.38         0.25
     Discretization
     RS = 5             40.4654                 0.46                0.405        0.23




2010/5/28                   Web Mining course, CSIE dept., FJU                          33
Support Vector Machine
 Support vector machine(SVM)在資料的分佈空間
  中,找出一個超平面(hyper-plane),依資料特性
  將資料分為兩類。




2010/5/28         Web Mining course, CSIE dept., FJU   34
中間實線的部分即為超平面,而虛線H1、H2則為support hyper-plane。當H1和H2之間
出現最大的Margin,即為最佳的hyper-plane

2010/5/28         Web Mining course, CSIE dept., FJU   35
Support Vector Machine
 參數設定
      Kernel
               The normalized polynomial kernel(norPoly)
               The polynomial kernel(Poly)
               The Pearson VII function-based universal kernel(PUK)
               The RBF kernel(RBF)
      C: The complexity parameter
      Random seed(RS)




2010/5/28                      Web Mining course, CSIE dept., FJU      36
Support Vector Machine
 數據結果(default: c = 1.0)
               Correctly(%)          Precision(avg.)            Recall(avg.) Time(s)
     norPoly                                     Failed
     Poly        28.5471                     0.275                0.285       5.44
     PUK                                         Failed
     RBF                                         Failed
     C = 0.7                                     Failed
     C = 1.5                                     Failed




2010/5/28                  Web Mining course, CSIE dept., FJU                          37
結果比較




2010/5/28     Web Mining course, CSIE dept., FJU   38
討論與結論
   Weka記憶體管理很有問題
   Total_UPDR的切割
   每個演算法所能接受的輸入資料的性質不同
   如何離散化屬性才有意義?

 決策樹較適用於此資料集,準確度高且速度快




2010/5/28     Web Mining course, CSIE dept., FJU   39
參考資料
 [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate
  telemonitoring of Parkinson disease progression by non-invasive
  speech tests’, IEEE Transactions on Biomedical Engineering (to
  appear).
 [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring
 [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf
 [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19
  &page=1
 [5]http://zh.wikipedia.org/zh/帕金森氏症
 [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S
  cale
 [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html



2010/5/28                Web Mining course, CSIE dept., FJU         40

Mining the Parkinson's Telemonitoring Data Set

  • 1.
    分類演算法之比較—以帕金 森氏症電子監控資料為例 組別:男人真命苦 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠 指導教授:徐嘉連 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
  • 2.
    大綱  什麼是帕金森氏症?  Naïve Bayesian classification  資料描述  Support vector machines  實驗設計  K-nearest neighbor  測量方法  Bayesian networks  演算法  Neural networks  Decision tree  Genetic algorithms  Rule induction  Fuzzy classification  Classification using  結果比較 association rules  結論 2010/5/28 Web Mining course, CSIE dept., FJU 2
  • 3.
    什麼是帕金森氏症?  帕金森氏症(Parkinson's Disease)是一種慢性的中 樞神經系統失調。它的病因目前仍不明,推測和 大腦底部基底核(basal ganglia)以及黑質 (substantial nigra)腦細胞快速退化,無法製造足 夠的神經引導物質多巴胺(Dopamine)和膽鹼作用 增強有關。腦內需要多巴胺來指揮肌肉的活動; 缺乏足夠的多巴胺就產生各種活動障礙。  會有靜止時顫抖、僵直、運動不能和運動遲緩、 平衡感差、便秘、講話速度緩慢、音調呆板、寫 字越寫越小等症狀(黑質內之細胞喪失80%時) 2010/5/28 Web Mining course, CSIE dept., FJU 3
  • 4.
    多巴胺傳導路徑及其作用 2010/5/28 Web Mining course, CSIE dept., FJU 4
  • 5.
    資料描述 (1/4)  以美國十個醫學中心和英特爾(Intel)合作發展的 一套電子監控設備記錄帕金森氏症病患說話時的 聲音訊號,來預測帕金森氏症病患在帕金森式症 症狀衡量表(UPDRS)中所獲得的分數,藉以判別 患者病症程度。  共計有5875筆資料,記錄了六個月內,42名早期 帕金森氏症病患於家中使用電子監控設備的聲音 訊號(一名病患大約有200筆左右的資料)。 2010/5/28 Web Mining course, CSIE dept., FJU 5
  • 6.
    資料描述 (2/4)  資料屬性  subject#:受測者的代號  age:受測者年齡  sex :受測者性別,0代表男性,1代表女性  test_time:使用電子監控設備的時間。整數部分代表 天數(例:5.6431)。  motor_UPDRS:受測者利用線性內差法所得之帕金森 症症狀衡量表分數(運動部分)  total_UPDRS:受測者利用線性內差法所得之帕金森症 症狀衡量表分數(總分) 2010/5/28 Web Mining course, CSIE dept., FJU 6
  • 7.
    資料描述 (3/4)  Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5, Jitter:DDP:一些對基頻(fundamental frequency)變異 的測量  Shimmer, Shimmer(dB), Shimmer:APQ3, Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA: 一些對振幅變異的測量  NHR, HNR:兩種對雜訊干擾的判斷  RPDE:非線性動態複雜度分析  DFA:碎形信號指數  PPE:非線性的基頻變異測量 2010/5/28 Web Mining course, CSIE dept., FJU 7
  • 8.
    資料描述 (4/4)  其中只有sex為名詞性(nominal)的資料,其餘皆 為數值(numerical)  Unified Parkinson's Disease Rating Scale(UDPRS)  分為四大部分,每一部份再細分為不同的測量指標 1. 智能、行為、情緒(mentation, behavior and mood) 2. 日常生活能力(activities of daily living) 3. 動作能力之檢查(motor examination) 4. 治療之併發症(complications of therapy)  最後依據量測結果對患者做病症之分級,藉以判斷患 者的生活能力。  共分為十個等級(0% ~ 100%) 2010/5/28 Web Mining course, CSIE dept., FJU 8
  • 9.
    實驗設計  演算法本身的比較  不同的參數設定,如決策樹是否修剪(pruning),或是 類神經網路隱藏層(hidden layer)的數量等。  不同的測試設定(test options),如cross validation、 percentage split等。  各演算法之間的比較  以70%為訓練資料,30%為測試資料  以各個演算法之最佳精準度之結果作為比較依據  資料正規化(numerical to nominal)  相同的執行環境 2010/5/28 Web Mining course, CSIE dept., FJU 9
  • 10.
    測量方法  精確度(accuracy)  Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure  錯誤率(error rate)  Mean absolute error/root mean square error/relative absolute error/root relative squared error  一致性(agreement)  Observed agreement/chance agreement/Kappa  執行時間(time)  消耗資源(memory) 2010/5/28 Web Mining course, CSIE dept., FJU 10
  • 11.
    Decision Tree  J48(C4.5)  簡單、快速、準確率高  參數設定較尐  老師有教過  參數設定  Pruned/unpruned/redu ced error pruning(RCP)  Confidence factor(CF): 0.1~1.0  Random seed(RS): 1~10 2010/5/28 Web Mining course, CSIE dept., FJU 11
  • 12.
    Decision Tree  數據與結果(default:CF = 0.25, unpruned = false, RCP = false, RS = 1) Correctly(%) Precision(avg.) Leaves Size Time(s) Unpruned 93.8138 0.938 254 507 0.9 Pruned 93.9841 0.94 242 483 0.86 RCP 90.4654 0.905 199 397 0.54 CF = 0.1 93.9841 0.94 232 463 1.03 CF = 0.5 93.9841 0.94 242 483 0.99 RS = 2 95.9705 0.961 242 483 1.02 RS = 3 95.63 0.956 242 483 0.97 CF = 0.75 95.9137 0.96 250 499 3.83 2010/5/28 Web Mining course, CSIE dept., FJU 12
  • 13.
    Decision Tree, level= 17, root = age 2010/5/28 Web Mining course, CSIE dept., FJU 13
  • 14.
    Neural Network  適合數值資料 參數設定  Decay(D)  Hidden layer(HL)  Learning rate(LR)  Training time(TT)  Random seed(RS)  GUI 2010/5/28 Web Mining course, CSIE dept., FJU 14
  • 15.
    Neural Network  數據與結果(default:D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) HL = a, LR = 0.3 52.8377 0.545 0.528 81.02 HL = t, LR = 0.3 58.5698 0.599 0.586 147.26 HL = 1, LR = 0.3 22.9852 0.114 0.23 14.62 HL = t, LR = 1, D 48.6379 0.498 0.486 147.84 HL = t, LR = 0.5, D 37.4007 0.395 0.374 156.96 HL = t, LR = 0.5 59.5346 0.612 0.595 148.49 HL = t, LR = 0.1 66.5153 0.682 0.665 149.6 TT = 1000 69.9773 0.708 0.7 300.89 RS = 2 69.1827 0.698 0.692 149.54 2010/5/28 Web Mining course, CSIE dept., FJU 15
  • 16.
    Bayesian network  適用在離散型 依照P(Xi | Pi)此條件機率寫出條件機率表  缺點:若節點Xi是由很多的「因」所造成的「果」, 條件機率表就會變得在計算上既複雜又使用不便。 2010/5/28 Web Mining course, CSIE dept., FJU 16
  • 17.
    Bayesian network  適用在離散型 依照P(Xi | Pi)此條件機 率寫出條件機率表  缺點:若節點Xi是由很 多的「因」所造成的「 果」,條件機率表就會 變得在計算上既複雜又 使用不便。  參數設定  MaxNrOfParents 2010/5/28 Web Mining course, CSIE dept., FJU 17
  • 18.
    Bayesian network  數據與結果(default:Estimator = Simple Estimator, Search Algorithm = K2) Correctly(%) Precision(avg.) Recall(avg.) Time(s) MaxNrOfParents = 1 39.7843 0.457 0.398 0.28 MaxNrOfParents = 2 58.9671 0.593 0.59 0.53 MaxNrOfParents = 3 57.605 0.579 0.576 1.23 2010/5/28 Web Mining course, CSIE dept., FJU 18
  • 19.
    Bayesian network 2010/5/28 Web Mining course, CSIE dept., FJU 19
  • 20.
    K-Nearest Neighbor  優點:  突破統計模型對資料的限制  預測能力更優於決策樹以及類神經網路  KNN分類器非常簡單  缺點:  計算未知樣本與已知樣本間距離的成本過高, 特別是在高維度的特徵空間且有大量訓練資料 時。 2010/5/28 Web Mining course, CSIE dept., FJU 20
  • 21.
    K-Nearest Neighbor  提供四種方式實現KNN:  Linear Search  KD Tree  Cover Tree  Ball Tree  本次以較易實現的KD Tree為主 2010/5/28 Web Mining course, CSIE dept., FJU 21
  • 22.
    KNN concept 2010/5/28 Web Mining course, CSIE dept., FJU 22
  • 23.
    K-Nearest Neighbor  參數設定  KNN(number of neighbors)  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 23
  • 24.
    K-Nearest Neighbor  數據與結果(default:KNN = 1) Correctly(%) Precision(avg.) Recall(avg.) Time(s) K=1 73.6095 0.736 0.736 0.13 K=2 70.8854 0.718 0.709 0.1 K=3 74.1771 0.749 0.742 0.12 K=4 72.4177 0.726 0.724 0.11 K=5 73.1555 0.732 0.732 0.11 2010/5/28 Web Mining course, CSIE dept., FJU 24
  • 25.
    75 74 73 72 71 70 69 1 2 3 4 5 6 7 8 9 10 KNN 正確率 2010/5/28 Web Mining course, CSIE dept., FJU 25
  • 26.
    Association Rules  利用由下往上(bottom-up)循序漸進的方式,藉 由產生與測試候選項目集得到高頻項目集合,然 後再從高頻項目集中找出有用的關聯法則。  可接受的輸入(input)必須是名詞性(nominal)的, 所以必須將所有的屬性先離散化(discretize)。  age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67, 68, 71, 72, 73, 74, 75, 76, 78, 85}  其他屬性如何離散化才有意義?  參數設定  Minimum confidence: 0.1~0.9 2010/5/28 Web Mining course, CSIE dept., FJU 26
  • 27.
    Association Rules  數據與結果  一直到minimum confidence = 0.1才有結果。  Minimum support = 0.15(881 instances)  Number of cycles performed: 17  Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf- 0.4422]' Shimmer:APQ5='(-inf-0.034956]' Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf- 0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]' 894 conf:(0.18) 2010/5/28 Web Mining course, CSIE dept., FJU 27
  • 28.
    Rule Induction  尋找在同一事件中出現的不同項目的相關性。 一系列有意義的規則,顯示數據中蘊含的關聯性。  優點:  尋找多條規則,每個規則可得出一個不同結論、結果清 晰有用、可以處理增加的數據、計算的消耗量可以預見 、規則集比決策樹更具有一般性。  缺點:  花費時間長、難以決定正確的數據、易忽略稀有數據。 2010/5/28 Web Mining course, CSIE dept., FJU 28
  • 29.
    Rule Induction  決策表(decisiontable) 2010/5/28 Web Mining course, CSIE dept., FJU 29
  • 30.
    Rule Induction  建立決策表  需要決定表格的大小  計算max decision table中的列數(columns) x 每個 altermatives condition的數目(ex. Condition列為3, altermatives選擇為2個, 則每個condition x , 即有2^3=8 個possibilities)  盡量簡化表格,並刪除以下的狀況  不可能發生的狀況(impossible)  前後矛盾的狀況(inconsistencies)  冗長、多餘的狀況(redundancies) 2010/5/28 Web Mining course, CSIE dept., FJU 30
  • 31.
    Rule Induction  參數設定  Search(S):選擇不同的演算法找出建立表格的屬性  Random seed(RS)  數據與結果  選擇不同的演算法沒有什麼太大的差異,都是以age、 sex、test_time、total_UPDRS來建構表格。  調整random seed = 3有最高的準確率。  Number of Rules : 975  Correctly Classified Instances: 74.6879 %  Precision: 0.758 2010/5/28 Web Mining course, CSIE dept., FJU 31
  • 32.
    Naive Bayesian  前提假設  所有屬性對其類別具有conditional independence  估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較 高,判斷A1, A2屬於C1或C2。  P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)  參數設定  useKernelEstimator:Use a kernel estimator for numeric attributes rather than a normal distribution  UseSupervisedDiscretization  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 32
  • 33.
    Naive Bayesian  數據結果(default:useKernelEstimator = false, UseSupervisedDiscretization = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) Original 18.5017 0.326 0.185 0.08 UseKernelEsti 24.0068 0.33 0.24 0.1 mator UseSupervised 38.025 0.449 0.38 0.25 Discretization RS = 5 40.4654 0.46 0.405 0.23 2010/5/28 Web Mining course, CSIE dept., FJU 33
  • 34.
    Support Vector Machine Support vector machine(SVM)在資料的分佈空間 中,找出一個超平面(hyper-plane),依資料特性 將資料分為兩類。 2010/5/28 Web Mining course, CSIE dept., FJU 34
  • 35.
  • 36.
    Support Vector Machine 參數設定  Kernel  The normalized polynomial kernel(norPoly)  The polynomial kernel(Poly)  The Pearson VII function-based universal kernel(PUK)  The RBF kernel(RBF)  C: The complexity parameter  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 36
  • 37.
    Support Vector Machine 數據結果(default: c = 1.0) Correctly(%) Precision(avg.) Recall(avg.) Time(s) norPoly Failed Poly 28.5471 0.275 0.285 5.44 PUK Failed RBF Failed C = 0.7 Failed C = 1.5 Failed 2010/5/28 Web Mining course, CSIE dept., FJU 37
  • 38.
    結果比較 2010/5/28 Web Mining course, CSIE dept., FJU 38
  • 39.
    討論與結論  Weka記憶體管理很有問題  Total_UPDR的切割  每個演算法所能接受的輸入資料的性質不同  如何離散化屬性才有意義?  決策樹較適用於此資料集,準確度高且速度快 2010/5/28 Web Mining course, CSIE dept., FJU 39
  • 40.
    參考資料  [1]A Tsanas,MA Little, PE McSharry, LO Ramig (2009) ‘Accurate telemonitoring of Parkinson disease progression by non-invasive speech tests’, IEEE Transactions on Biomedical Engineering (to appear).  [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring  [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf  [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19 &page=1  [5]http://zh.wikipedia.org/zh/帕金森氏症  [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S cale  [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html 2010/5/28 Web Mining course, CSIE dept., FJU 40