Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
分類演算法之比較—以帕金
森氏症電子監控資料為例

         組別:男人真命苦
 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠
         指導教授:徐嘉連

 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
大綱
   什麼是帕金森氏症?                                   Naïve Bayesian
                                                 classi...
什麼是帕金森氏症?
 帕金森氏症(Parkinson's Disease)是一種慢性的中
  樞神經系統失調。它的病因目前仍不明,推測和
  大腦底部基底核(basal ganglia)以及黑質
  (substantial nigra)腦細...
多巴胺傳導路徑及其作用


2010/5/28   Web Mining course, CSIE dept., FJU   4
資料描述         (1/4)



 以美國十個醫學中心和英特爾(Intel)合作發展的
  一套電子監控設備記錄帕金森氏症病患說話時的
  聲音訊號,來預測帕金森氏症病患在帕金森式症
  症狀衡量表(UPDRS)中所獲得的分數,藉以...
資料描述          (2/4)



 資料屬性
      subject#:受測者的代號
      age:受測者年齡
      sex :受測者性別,0代表男性,1代表女性
      test_time:使用電子監...
資料描述                (3/4)



      Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5,
       Jitter:DDP:一些對基頻(fundamental f...
資料描述                       (4/4)



 其中只有sex為名詞性(nominal)的資料,其餘皆
  為數值(numerical)
 Unified Parkinson's Disease Rating Sc...
實驗設計
 演算法本身的比較
      不同的參數設定,如決策樹是否修剪(pruning),或是
       類神經網路隱藏層(hidden layer)的數量等。
      不同的測試設定(test options),如cross...
測量方法
 精確度(accuracy)
      Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure
 錯誤率(error rate)
      Mean absolute erro...
Decision Tree
 J48(C4.5)
      簡單、快速、準確率高
      參數設定較尐
      老師有教過
 參數設定
      Pruned/unpruned/redu
       ced error...
Decision Tree
 數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1)
                 Correctly(%) Precision(a...
Decision Tree, level = 17, root = age


2010/5/28         Web Mining course, CSIE dept., FJU   13
Neural Network
 適合數值資料
 參數設定
           Decay(D)
           Hidden layer(HL)
           Learning rate(LR)
          ...
Neural Network
 數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false)
                           Cor...
Bayesian network




 適用在離散型
 依照P(Xi | Pi)此條件機率寫出條件機率表
 缺點:若節點Xi是由很多的「因」所造成的「果」,
  條件機率表就會變得在計算上既複雜又使用不便。
2010/5/28    ...
Bayesian network
 適用在離散型
 依照P(Xi | Pi)此條件機
  率寫出條件機率表
 缺點:若節點Xi是由很
  多的「因」所造成的「
  果」,條件機率表就會
  變得在計算上既複雜又
  使用不便。
 參數設...
Bayesian network
 數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2)
                       Correctly(%)...
Bayesian network


2010/5/28   Web Mining course, CSIE dept., FJU   19
K-Nearest Neighbor
 優點:
      突破統計模型對資料的限制
      預測能力更優於決策樹以及類神經網路
      KNN分類器非常簡單
 缺點:
      計算未知樣本與已知樣本間距離的成本過高,
...
K-Nearest Neighbor
 提供四種方式實現KNN:

      Linear Search

      KD Tree

      Cover Tree

      Ball Tree

 本次以較易實現的KD...
KNN concept


2010/5/28   Web Mining course, CSIE dept., FJU   22
K-Nearest Neighbor
 參數設定
      KNN(number of neighbors)
      Random seed(RS)




2010/5/28            Web Mining cours...
K-Nearest Neighbor
 數據與結果(default: KNN = 1)
             Correctly(%)     Precision(avg.)               Recall(avg.)   Ti...
75




74




73




72




71




70




69
        1   2   3    4          5           6            7   8   9   10



  ...
Association Rules
 利用由下往上(bottom-up)循序漸進的方式,藉
  由產生與測試候選項目集得到高頻項目集合,然
  後再從高頻項目集中找出有用的關聯法則。
 可接受的輸入(input)必須是名詞性(nominal...
Association Rules
 數據與結果
           一直到minimum confidence = 0.1才有結果。
           Minimum support = 0.15(881 instances)
 ...
Rule Induction
 尋找在同一事件中出現的不同項目的相關性。
 一系列有意義的規則,顯示數據中蘊含的關聯性。
 優點:
      尋找多條規則,每個規則可得出一個不同結論、結果清
       晰有用、可以處理增加的數據、...
Rule Induction
 決策表(decision table)




2010/5/28        Web Mining course, CSIE dept., FJU   29
Rule Induction
 建立決策表
      需要決定表格的大小
      計算max decision table中的列數(columns) x 每個
       altermatives condition的數目(ex....
Rule Induction
 參數設定
      Search(S):選擇不同的演算法找出建立表格的屬性
      Random seed(RS)
 數據與結果
      選擇不同的演算法沒有什麼太大的差異,都是以age、
 ...
Naive Bayesian
 前提假設
      所有屬性對其類別具有conditional independence
 估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較
  高,判斷A1, A2屬於C...
Naive Bayesian
 數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization =
    false)

                     ...
Support Vector Machine
 Support vector machine(SVM)在資料的分佈空間
  中,找出一個超平面(hyper-plane),依資料特性
  將資料分為兩類。




2010/5/28      ...
中間實線的部分即為超平面,而虛線H1、H2則為support hyper-plane。當H1和H2之間
出現最大的Margin,即為最佳的hyper-plane

2010/5/28         Web Mining course, CSI...
Support Vector Machine
 參數設定
      Kernel
               The normalized polynomial kernel(norPoly)
               The ...
Support Vector Machine
 數據結果(default: c = 1.0)
               Correctly(%)          Precision(avg.)            Recall(avg...
結果比較




2010/5/28     Web Mining course, CSIE dept., FJU   38
討論與結論
   Weka記憶體管理很有問題
   Total_UPDR的切割
   每個演算法所能接受的輸入資料的性質不同
   如何離散化屬性才有意義?

 決策樹較適用於此資料集,準確度高且速度快




2010/5/28  ...
參考資料
 [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate
  telemonitoring of Parkinson disease progression by...
Upcoming SlideShare
Loading in …5
×

Mining the Parkinson's Telemonitoring Data Set

2,185 views

Published on

Speaker: 周思婷、林芳竹、趙健復、鄭筱頻、盧松筠
Topics: Exploring Complex Networks
Date: 2010.05.29

WECO Lab, CSIE, FJU

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Mining the Parkinson's Telemonitoring Data Set

  1. 1. 分類演算法之比較—以帕金 森氏症電子監控資料為例 組別:男人真命苦 演講者:周思婷、林芳竹、趙健復、鄭筱頻、盧松筠 指導教授:徐嘉連 天主教輔仁大學 資訊工程學系 網際網路資料探勘課程
  2. 2. 大綱  什麼是帕金森氏症?  Naïve Bayesian classification  資料描述  Support vector machines  實驗設計  K-nearest neighbor  測量方法  Bayesian networks  演算法  Neural networks  Decision tree  Genetic algorithms  Rule induction  Fuzzy classification  Classification using  結果比較 association rules  結論 2010/5/28 Web Mining course, CSIE dept., FJU 2
  3. 3. 什麼是帕金森氏症?  帕金森氏症(Parkinson's Disease)是一種慢性的中 樞神經系統失調。它的病因目前仍不明,推測和 大腦底部基底核(basal ganglia)以及黑質 (substantial nigra)腦細胞快速退化,無法製造足 夠的神經引導物質多巴胺(Dopamine)和膽鹼作用 增強有關。腦內需要多巴胺來指揮肌肉的活動; 缺乏足夠的多巴胺就產生各種活動障礙。  會有靜止時顫抖、僵直、運動不能和運動遲緩、 平衡感差、便秘、講話速度緩慢、音調呆板、寫 字越寫越小等症狀(黑質內之細胞喪失80%時) 2010/5/28 Web Mining course, CSIE dept., FJU 3
  4. 4. 多巴胺傳導路徑及其作用 2010/5/28 Web Mining course, CSIE dept., FJU 4
  5. 5. 資料描述 (1/4)  以美國十個醫學中心和英特爾(Intel)合作發展的 一套電子監控設備記錄帕金森氏症病患說話時的 聲音訊號,來預測帕金森氏症病患在帕金森式症 症狀衡量表(UPDRS)中所獲得的分數,藉以判別 患者病症程度。  共計有5875筆資料,記錄了六個月內,42名早期 帕金森氏症病患於家中使用電子監控設備的聲音 訊號(一名病患大約有200筆左右的資料)。 2010/5/28 Web Mining course, CSIE dept., FJU 5
  6. 6. 資料描述 (2/4)  資料屬性  subject#:受測者的代號  age:受測者年齡  sex :受測者性別,0代表男性,1代表女性  test_time:使用電子監控設備的時間。整數部分代表 天數(例:5.6431)。  motor_UPDRS:受測者利用線性內差法所得之帕金森 症症狀衡量表分數(運動部分)  total_UPDRS:受測者利用線性內差法所得之帕金森症 症狀衡量表分數(總分) 2010/5/28 Web Mining course, CSIE dept., FJU 6
  7. 7. 資料描述 (3/4)  Jitter(%), Jitter(Abs), Jitter:RAP, Jitter:PPQ5, Jitter:DDP:一些對基頻(fundamental frequency)變異 的測量  Shimmer, Shimmer(dB), Shimmer:APQ3, Shimmer:APQ5, Shimmer:APQ11, Shimmer:DDA: 一些對振幅變異的測量  NHR, HNR:兩種對雜訊干擾的判斷  RPDE:非線性動態複雜度分析  DFA:碎形信號指數  PPE:非線性的基頻變異測量 2010/5/28 Web Mining course, CSIE dept., FJU 7
  8. 8. 資料描述 (4/4)  其中只有sex為名詞性(nominal)的資料,其餘皆 為數值(numerical)  Unified Parkinson's Disease Rating Scale(UDPRS)  分為四大部分,每一部份再細分為不同的測量指標 1. 智能、行為、情緒(mentation, behavior and mood) 2. 日常生活能力(activities of daily living) 3. 動作能力之檢查(motor examination) 4. 治療之併發症(complications of therapy)  最後依據量測結果對患者做病症之分級,藉以判斷患 者的生活能力。  共分為十個等級(0% ~ 100%) 2010/5/28 Web Mining course, CSIE dept., FJU 8
  9. 9. 實驗設計  演算法本身的比較  不同的參數設定,如決策樹是否修剪(pruning),或是 類神經網路隱藏層(hidden layer)的數量等。  不同的測試設定(test options),如cross validation、 percentage split等。  各演算法之間的比較  以70%為訓練資料,30%為測試資料  以各個演算法之最佳精準度之結果作為比較依據  資料正規化(numerical to nominal)  相同的執行環境 2010/5/28 Web Mining course, CSIE dept., FJU 9
  10. 10. 測量方法  精確度(accuracy)  Precision/Recall/TP(TN) rate/FP(FN) rate/F-measure  錯誤率(error rate)  Mean absolute error/root mean square error/relative absolute error/root relative squared error  一致性(agreement)  Observed agreement/chance agreement/Kappa  執行時間(time)  消耗資源(memory) 2010/5/28 Web Mining course, CSIE dept., FJU 10
  11. 11. Decision Tree  J48(C4.5)  簡單、快速、準確率高  參數設定較尐  老師有教過  參數設定  Pruned/unpruned/redu ced error pruning(RCP)  Confidence factor(CF): 0.1~1.0  Random seed(RS): 1~10 2010/5/28 Web Mining course, CSIE dept., FJU 11
  12. 12. Decision Tree  數據與結果(default: CF = 0.25, unpruned = false, RCP = false, RS = 1) Correctly(%) Precision(avg.) Leaves Size Time(s) Unpruned 93.8138 0.938 254 507 0.9 Pruned 93.9841 0.94 242 483 0.86 RCP 90.4654 0.905 199 397 0.54 CF = 0.1 93.9841 0.94 232 463 1.03 CF = 0.5 93.9841 0.94 242 483 0.99 RS = 2 95.9705 0.961 242 483 1.02 RS = 3 95.63 0.956 242 483 0.97 CF = 0.75 95.9137 0.96 250 499 3.83 2010/5/28 Web Mining course, CSIE dept., FJU 12
  13. 13. Decision Tree, level = 17, root = age 2010/5/28 Web Mining course, CSIE dept., FJU 13
  14. 14. Neural Network  適合數值資料  參數設定  Decay(D)  Hidden layer(HL)  Learning rate(LR)  Training time(TT)  Random seed(RS)  GUI 2010/5/28 Web Mining course, CSIE dept., FJU 14
  15. 15. Neural Network  數據與結果(default: D = false, HL = a, LR = 0.3, TT = 500, RS = 1, GUI = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) HL = a, LR = 0.3 52.8377 0.545 0.528 81.02 HL = t, LR = 0.3 58.5698 0.599 0.586 147.26 HL = 1, LR = 0.3 22.9852 0.114 0.23 14.62 HL = t, LR = 1, D 48.6379 0.498 0.486 147.84 HL = t, LR = 0.5, D 37.4007 0.395 0.374 156.96 HL = t, LR = 0.5 59.5346 0.612 0.595 148.49 HL = t, LR = 0.1 66.5153 0.682 0.665 149.6 TT = 1000 69.9773 0.708 0.7 300.89 RS = 2 69.1827 0.698 0.692 149.54 2010/5/28 Web Mining course, CSIE dept., FJU 15
  16. 16. Bayesian network  適用在離散型  依照P(Xi | Pi)此條件機率寫出條件機率表  缺點:若節點Xi是由很多的「因」所造成的「果」, 條件機率表就會變得在計算上既複雜又使用不便。 2010/5/28 Web Mining course, CSIE dept., FJU 16
  17. 17. Bayesian network  適用在離散型  依照P(Xi | Pi)此條件機 率寫出條件機率表  缺點:若節點Xi是由很 多的「因」所造成的「 果」,條件機率表就會 變得在計算上既複雜又 使用不便。  參數設定  MaxNrOfParents 2010/5/28 Web Mining course, CSIE dept., FJU 17
  18. 18. Bayesian network  數據與結果(default: Estimator = Simple Estimator, Search Algorithm = K2) Correctly(%) Precision(avg.) Recall(avg.) Time(s) MaxNrOfParents = 1 39.7843 0.457 0.398 0.28 MaxNrOfParents = 2 58.9671 0.593 0.59 0.53 MaxNrOfParents = 3 57.605 0.579 0.576 1.23 2010/5/28 Web Mining course, CSIE dept., FJU 18
  19. 19. Bayesian network 2010/5/28 Web Mining course, CSIE dept., FJU 19
  20. 20. K-Nearest Neighbor  優點:  突破統計模型對資料的限制  預測能力更優於決策樹以及類神經網路  KNN分類器非常簡單  缺點:  計算未知樣本與已知樣本間距離的成本過高, 特別是在高維度的特徵空間且有大量訓練資料 時。 2010/5/28 Web Mining course, CSIE dept., FJU 20
  21. 21. K-Nearest Neighbor  提供四種方式實現KNN:  Linear Search  KD Tree  Cover Tree  Ball Tree  本次以較易實現的KD Tree為主 2010/5/28 Web Mining course, CSIE dept., FJU 21
  22. 22. KNN concept 2010/5/28 Web Mining course, CSIE dept., FJU 22
  23. 23. K-Nearest Neighbor  參數設定  KNN(number of neighbors)  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 23
  24. 24. K-Nearest Neighbor  數據與結果(default: KNN = 1) Correctly(%) Precision(avg.) Recall(avg.) Time(s) K=1 73.6095 0.736 0.736 0.13 K=2 70.8854 0.718 0.709 0.1 K=3 74.1771 0.749 0.742 0.12 K=4 72.4177 0.726 0.724 0.11 K=5 73.1555 0.732 0.732 0.11 2010/5/28 Web Mining course, CSIE dept., FJU 24
  25. 25. 75 74 73 72 71 70 69 1 2 3 4 5 6 7 8 9 10 KNN 正確率 2010/5/28 Web Mining course, CSIE dept., FJU 25
  26. 26. Association Rules  利用由下往上(bottom-up)循序漸進的方式,藉 由產生與測試候選項目集得到高頻項目集合,然 後再從高頻項目集中找出有用的關聯法則。  可接受的輸入(input)必須是名詞性(nominal)的, 所以必須將所有的屬性先離散化(discretize)。  age: {36, 49, 55, 56, 57, 58, 59, 60, 61, 62, 63, 65, 66, 67, 68, 71, 72, 73, 74, 75, 76, 78, 85}  其他屬性如何離散化才有意義?  參數設定  Minimum confidence: 0.1~0.9 2010/5/28 Web Mining course, CSIE dept., FJU 26
  27. 27. Association Rules  數據與結果  一直到minimum confidence = 0.1才有結果。  Minimum support = 0.15(881 instances)  Number of cycles performed: 17  Shimmer='(-inf-0.056174]' Shimmer(dB)='(-inf- 0.4422]' Shimmer:APQ5='(-inf-0.034956]' Shimmer:APQ11='(-inf-0.057084]' NHR='(-inf- 0.149881]' 4932 ==> total_UPDRS='(21.3976-26.1968]' 894 conf:(0.18) 2010/5/28 Web Mining course, CSIE dept., FJU 27
  28. 28. Rule Induction  尋找在同一事件中出現的不同項目的相關性。  一系列有意義的規則,顯示數據中蘊含的關聯性。  優點:  尋找多條規則,每個規則可得出一個不同結論、結果清 晰有用、可以處理增加的數據、計算的消耗量可以預見 、規則集比決策樹更具有一般性。  缺點:  花費時間長、難以決定正確的數據、易忽略稀有數據。 2010/5/28 Web Mining course, CSIE dept., FJU 28
  29. 29. Rule Induction  決策表(decision table) 2010/5/28 Web Mining course, CSIE dept., FJU 29
  30. 30. Rule Induction  建立決策表  需要決定表格的大小  計算max decision table中的列數(columns) x 每個 altermatives condition的數目(ex. Condition列為3, altermatives選擇為2個, 則每個condition x , 即有2^3=8 個possibilities)  盡量簡化表格,並刪除以下的狀況  不可能發生的狀況(impossible)  前後矛盾的狀況(inconsistencies)  冗長、多餘的狀況(redundancies) 2010/5/28 Web Mining course, CSIE dept., FJU 30
  31. 31. Rule Induction  參數設定  Search(S):選擇不同的演算法找出建立表格的屬性  Random seed(RS)  數據與結果  選擇不同的演算法沒有什麼太大的差異,都是以age、 sex、test_time、total_UPDRS來建構表格。  調整random seed = 3有最高的準確率。  Number of Rules : 975  Correctly Classified Instances: 74.6879 %  Precision: 0.758 2010/5/28 Web Mining course, CSIE dept., FJU 31
  32. 32. Naive Bayesian  前提假設  所有屬性對其類別具有conditional independence  估計 P(C1 | A1, A2) 和 P(C2 | A1, A2) 何者機率較 高,判斷A1, A2屬於C1或C2。  P(A1, A2 | C1) = P(A1 | C1) * P(A2 | C1)  參數設定  useKernelEstimator:Use a kernel estimator for numeric attributes rather than a normal distribution  UseSupervisedDiscretization  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 32
  33. 33. Naive Bayesian  數據結果(default: useKernelEstimator = false, UseSupervisedDiscretization = false) Correctly(%) Precision(avg.) Recall(avg.) Time(s) Original 18.5017 0.326 0.185 0.08 UseKernelEsti 24.0068 0.33 0.24 0.1 mator UseSupervised 38.025 0.449 0.38 0.25 Discretization RS = 5 40.4654 0.46 0.405 0.23 2010/5/28 Web Mining course, CSIE dept., FJU 33
  34. 34. Support Vector Machine  Support vector machine(SVM)在資料的分佈空間 中,找出一個超平面(hyper-plane),依資料特性 將資料分為兩類。 2010/5/28 Web Mining course, CSIE dept., FJU 34
  35. 35. 中間實線的部分即為超平面,而虛線H1、H2則為support hyper-plane。當H1和H2之間 出現最大的Margin,即為最佳的hyper-plane 2010/5/28 Web Mining course, CSIE dept., FJU 35
  36. 36. Support Vector Machine  參數設定  Kernel  The normalized polynomial kernel(norPoly)  The polynomial kernel(Poly)  The Pearson VII function-based universal kernel(PUK)  The RBF kernel(RBF)  C: The complexity parameter  Random seed(RS) 2010/5/28 Web Mining course, CSIE dept., FJU 36
  37. 37. Support Vector Machine  數據結果(default: c = 1.0) Correctly(%) Precision(avg.) Recall(avg.) Time(s) norPoly Failed Poly 28.5471 0.275 0.285 5.44 PUK Failed RBF Failed C = 0.7 Failed C = 1.5 Failed 2010/5/28 Web Mining course, CSIE dept., FJU 37
  38. 38. 結果比較 2010/5/28 Web Mining course, CSIE dept., FJU 38
  39. 39. 討論與結論  Weka記憶體管理很有問題  Total_UPDR的切割  每個演算法所能接受的輸入資料的性質不同  如何離散化屬性才有意義?  決策樹較適用於此資料集,準確度高且速度快 2010/5/28 Web Mining course, CSIE dept., FJU 39
  40. 40. 參考資料  [1]A Tsanas, MA Little, PE McSharry, LO Ramig (2009) ‘Accurate telemonitoring of Parkinson disease progression by non-invasive speech tests’, IEEE Transactions on Biomedical Engineering (to appear).  [2]http://archive.ics.uci.edu/ml/datasets/Parkinsons+Telemonitoring  [3]http://www.mdvu.org/library/ratingscales/pd/updrs.pdf  [4]http://www.neuro.org.tw/movement/measure/view.asp?m_no=19 &page=1  [5]http://zh.wikipedia.org/zh/帕金森氏症  [6]http://en.wikipedia.org/wiki/Unified_Parkinson's_Disease_Rating_S cale  [7]http://www.cs.waikato.ac.nz/~ml/weka/index_related.html 2010/5/28 Web Mining course, CSIE dept., FJU 40

×