Building optimal regression tree by
ant colony system – genetic algorithm
Application to modeling of melting points
計算型智慧 論文報告
100502205 資工三 B 楊翔雲
Twenty Questions
▪ 在二十個問題內,
能猜出心中想的目標角色。
▪ http://en.akinator.com/
2014/5/6Morris' blog 2
決策樹
▪ 決策樹的分類
▪ Classification Tree:分類樹
分類,輸出 “類型”
▪ Regression Tree:回歸樹
關係程度,輸出 “數值”
▪ CART (Classification And
Regression Tree) 即上述兩個的總稱
2014/5/6Morris' blog 3
CART
▪ 大量數據可以快速算出結果
▪ 易於理解 和 解釋
▪ 可以用統計數據驗證模型
▪ 最優 CART 是 NP 問題。
▪ 能力有限,只能對有限數據屬性操作
▪ 機器學習 Machine Learning
2014/5/6Morris' blog 4
論文實驗資料
▪ 4173 種化合物,分類屬性有 202 種描述方式。
▪ 在 4173 種化合物中,
3000 種用來訓練,1173 種用來驗證。
▪ 與另外一組經由 277 種藥物進行熔點預測的 CART 相比。
(另外一篇論文做的結果)
▪ 目標預測更加準確。
2014/5/6Morris' blog 5
CART – ACS – GA 理論
▪ 將 ACS – GA 算法,套用在 CART 的建造上。
▪ 先說說 ACS – GA 算法運作
▪ 註:ACS – GA 蟻群遺傳混合算法
2014/5/6Morris' blog 6
ACS – GA 算法 (蟻群遺傳混合算法) – (1)
▪ 基於 ACS 的缺點 – 收斂慢,加入 GA 算法來加快。
▪ 為什麼不單純使用 GA 算法就好?
▪ 對問題編碼的困難 (轉 DNA 的問題)
▪ 突變效果可能不好
2014/5/6Morris' blog 7
ACS – GA 算法 (蟻群遺傳混合算法) – (2)
▪ 螞蟻基因也有好壞問題
▪ 如何反應基因好壞
▪ 對費洛蒙決策的方式
▪ 對費洛蒙的敏感度
▪ … 等
2014/5/6Morris' blog 8
ACS – GA 算法 (蟻群遺傳混合算法) – (3)
▪ 運行方式
2014/5/6Morris' blog 9
ACS – GA 算法 (蟻群遺傳混合算法) – (4)
▪ 換句話說,將螞蟻的能力也各自數據化
▪ 對於產生較好解的螞蟻,繁殖、交配、突變
▪ 接著談論如何運用在 CART!
2014/5/6Morris' blog 10
ACS – GA – CART Algorithm (1)
2014/5/6Morris' blog 11
▪ 假解亂做前,如何隨機?
▪ CART 是一棵二分樹
▪ How we do ?
A
B
D E
C
F G
ACS – GA – CART Algorithm (2)
2014/5/6Morris' blog 12
▪ How We Do?
▪ 基於深度優先的方式,直到某個葉節點的分類種數 < 30 或深度大於某個
值,就退回。
▪ 每一層必須決定 “依據哪個屬性分類”
Age ? Gender ? Last R ?
▪ 分類時,又要按照什麼 數值 進行分割。
< 30 ? > 30 ? = 30 ?
ACS – GA – CART Algorithm (3)
2014/5/6Morris' blog 13
▪ 假設 CART 有 m 個節點,n 個分類描述。
// 在此篇中,化合物有 202 種描述,即 n = 202。
▪ 為了表示螞蟻的判斷能力
▪ 到達某個節點 i 時,採用下一個分類方式 k 的費洛蒙 M[i][k]
▪ i < m, k < n
▪ 這樣可以決定分類方式。
▪ 對於某個節點 i,i 可以是目前累計完成的節點個數,或者是其他。
ACS – GA – CART Algorithm (4)
2014/5/6Morris' blog 14
▪ 上一篇決定了分類方式,但沒決定分割點 ( cut point )
的選擇方式。
▪ 假設用 10 種決策方式,來對應分類到節點內有的所有
項目屬性,進行統計分類。
▪ 決策方式 1:平均、眾數、權重、 ID3、C4.5 (熵理論和訊
息增益) … 等分割策略
▪ 決策方式 2 : 用 10 個常數對於屬性最大最小值
f(min, max) = x0 * min + x1 * max + x2 * min * max
▪ 決策方式 3:最大最小值之間切 10 等分。
▪ 那費洛蒙將會有 10 × n × m,即 M[10][n][m]。
PLS model algorithm (偏最小二乘法)
2014/5/6Morris' blog 15
▪ Partial least squares method 不同於 “最小平方法”
▪ 多因變數 對 多自變數 的回歸建模方法
▪ 對於每一個葉節點的所有資料分別做偏最小二乘法,
會得到分類的相聯性,也就是 相關係數 (correlation coefficient)
▪ 相關係數總和大小 與 適應力高低 成正比,用 驗證集 找到相關係
數。’
ACS – GA – CART Algorithm (5) 適應
2014/5/6Morris' blog 16
▪ 對於表現最好的螞蟻,增加其走過路徑上的費洛蒙。
▪ β 是表現最好螞蟻選擇的變數,也就是在節點 i 上選擇了哪一個分類屬性
▪ 對於費洛蒙的消散,仍與 ACS 相同。
ACS – GA – CART Algorithm (6)
2014/5/6Morris' blog 17
▪ 對於下次迭代
▪ 偏向於好的切割屬性
▪ 對於切割屬性,可以得到好的分割點
▪ 排除單一分割策略的形式
結果 與 討論
2014/5/6Morris' blog 18
▪一般用在 CART 建造的算法中,如左圖。
結果 與 討論
2014/5/6Morris' blog 19
▪分別使用的分類屬性情況。
結果 與 討論
2014/5/6Morris' blog 20
▪ 在查詢的項目都屬切割點數值,將無法得到好的分類
結果 與 討論
2014/5/6Morris' blog 21
▪ 使用參數情形
結果 與 討論
2014/5/6Morris' blog 22
▪ 與其他建造方式相比,相關係數越高越好。
參考條目
▪ [1] Decision Tree:Analysis
http://isilic.iteye.com/blog/1841339
▪ [2] Decision Tree:ID3、C4.5
http://isilic.iteye.com/blog/1844097
▪ [3] Decision Tree:CART、剪枝
http://isilic.iteye.com/blog/1846726
▪ [4] 蚁群遗传混合算法
毛宁 顾军华 谭庆
http://www.joca.cn/CN/abstract/abstract
9941.shtml
▪ [5] PLS modeling algorithm
http://wiki.mbalib.com/zh-
tw/%E5%81%8F%E6%9C%80%E5%B0%8F%E4
%BA%8C%E4%B9%98%E6%B3%95
2014/5/6Morris' blog 23
計算型智慧論文報告 Building optimal regression tree ...

計算型智慧論文報告 Building optimal regression tree ...

  • 1.
    Building optimal regressiontree by ant colony system – genetic algorithm Application to modeling of melting points 計算型智慧 論文報告 100502205 資工三 B 楊翔雲
  • 2.
  • 3.
    決策樹 ▪ 決策樹的分類 ▪ ClassificationTree:分類樹 分類,輸出 “類型” ▪ Regression Tree:回歸樹 關係程度,輸出 “數值” ▪ CART (Classification And Regression Tree) 即上述兩個的總稱 2014/5/6Morris' blog 3
  • 4.
    CART ▪ 大量數據可以快速算出結果 ▪ 易於理解和 解釋 ▪ 可以用統計數據驗證模型 ▪ 最優 CART 是 NP 問題。 ▪ 能力有限,只能對有限數據屬性操作 ▪ 機器學習 Machine Learning 2014/5/6Morris' blog 4
  • 5.
    論文實驗資料 ▪ 4173 種化合物,分類屬性有202 種描述方式。 ▪ 在 4173 種化合物中, 3000 種用來訓練,1173 種用來驗證。 ▪ 與另外一組經由 277 種藥物進行熔點預測的 CART 相比。 (另外一篇論文做的結果) ▪ 目標預測更加準確。 2014/5/6Morris' blog 5
  • 6.
    CART – ACS– GA 理論 ▪ 將 ACS – GA 算法,套用在 CART 的建造上。 ▪ 先說說 ACS – GA 算法運作 ▪ 註:ACS – GA 蟻群遺傳混合算法 2014/5/6Morris' blog 6
  • 7.
    ACS – GA算法 (蟻群遺傳混合算法) – (1) ▪ 基於 ACS 的缺點 – 收斂慢,加入 GA 算法來加快。 ▪ 為什麼不單純使用 GA 算法就好? ▪ 對問題編碼的困難 (轉 DNA 的問題) ▪ 突變效果可能不好 2014/5/6Morris' blog 7
  • 8.
    ACS – GA算法 (蟻群遺傳混合算法) – (2) ▪ 螞蟻基因也有好壞問題 ▪ 如何反應基因好壞 ▪ 對費洛蒙決策的方式 ▪ 對費洛蒙的敏感度 ▪ … 等 2014/5/6Morris' blog 8
  • 9.
    ACS – GA算法 (蟻群遺傳混合算法) – (3) ▪ 運行方式 2014/5/6Morris' blog 9
  • 10.
    ACS – GA算法 (蟻群遺傳混合算法) – (4) ▪ 換句話說,將螞蟻的能力也各自數據化 ▪ 對於產生較好解的螞蟻,繁殖、交配、突變 ▪ 接著談論如何運用在 CART! 2014/5/6Morris' blog 10
  • 11.
    ACS – GA– CART Algorithm (1) 2014/5/6Morris' blog 11 ▪ 假解亂做前,如何隨機? ▪ CART 是一棵二分樹 ▪ How we do ? A B D E C F G
  • 12.
    ACS – GA– CART Algorithm (2) 2014/5/6Morris' blog 12 ▪ How We Do? ▪ 基於深度優先的方式,直到某個葉節點的分類種數 < 30 或深度大於某個 值,就退回。 ▪ 每一層必須決定 “依據哪個屬性分類” Age ? Gender ? Last R ? ▪ 分類時,又要按照什麼 數值 進行分割。 < 30 ? > 30 ? = 30 ?
  • 13.
    ACS – GA– CART Algorithm (3) 2014/5/6Morris' blog 13 ▪ 假設 CART 有 m 個節點,n 個分類描述。 // 在此篇中,化合物有 202 種描述,即 n = 202。 ▪ 為了表示螞蟻的判斷能力 ▪ 到達某個節點 i 時,採用下一個分類方式 k 的費洛蒙 M[i][k] ▪ i < m, k < n ▪ 這樣可以決定分類方式。 ▪ 對於某個節點 i,i 可以是目前累計完成的節點個數,或者是其他。
  • 14.
    ACS – GA– CART Algorithm (4) 2014/5/6Morris' blog 14 ▪ 上一篇決定了分類方式,但沒決定分割點 ( cut point ) 的選擇方式。 ▪ 假設用 10 種決策方式,來對應分類到節點內有的所有 項目屬性,進行統計分類。 ▪ 決策方式 1:平均、眾數、權重、 ID3、C4.5 (熵理論和訊 息增益) … 等分割策略 ▪ 決策方式 2 : 用 10 個常數對於屬性最大最小值 f(min, max) = x0 * min + x1 * max + x2 * min * max ▪ 決策方式 3:最大最小值之間切 10 等分。 ▪ 那費洛蒙將會有 10 × n × m,即 M[10][n][m]。
  • 15.
    PLS model algorithm(偏最小二乘法) 2014/5/6Morris' blog 15 ▪ Partial least squares method 不同於 “最小平方法” ▪ 多因變數 對 多自變數 的回歸建模方法 ▪ 對於每一個葉節點的所有資料分別做偏最小二乘法, 會得到分類的相聯性,也就是 相關係數 (correlation coefficient) ▪ 相關係數總和大小 與 適應力高低 成正比,用 驗證集 找到相關係 數。’
  • 16.
    ACS – GA– CART Algorithm (5) 適應 2014/5/6Morris' blog 16 ▪ 對於表現最好的螞蟻,增加其走過路徑上的費洛蒙。 ▪ β 是表現最好螞蟻選擇的變數,也就是在節點 i 上選擇了哪一個分類屬性 ▪ 對於費洛蒙的消散,仍與 ACS 相同。
  • 17.
    ACS – GA– CART Algorithm (6) 2014/5/6Morris' blog 17 ▪ 對於下次迭代 ▪ 偏向於好的切割屬性 ▪ 對於切割屬性,可以得到好的分割點 ▪ 排除單一分割策略的形式
  • 18.
    結果 與 討論 2014/5/6Morris'blog 18 ▪一般用在 CART 建造的算法中,如左圖。
  • 19.
    結果 與 討論 2014/5/6Morris'blog 19 ▪分別使用的分類屬性情況。
  • 20.
    結果 與 討論 2014/5/6Morris'blog 20 ▪ 在查詢的項目都屬切割點數值,將無法得到好的分類
  • 21.
    結果 與 討論 2014/5/6Morris'blog 21 ▪ 使用參數情形
  • 22.
    結果 與 討論 2014/5/6Morris'blog 22 ▪ 與其他建造方式相比,相關係數越高越好。
  • 23.
    參考條目 ▪ [1] DecisionTree:Analysis http://isilic.iteye.com/blog/1841339 ▪ [2] Decision Tree:ID3、C4.5 http://isilic.iteye.com/blog/1844097 ▪ [3] Decision Tree:CART、剪枝 http://isilic.iteye.com/blog/1846726 ▪ [4] 蚁群遗传混合算法 毛宁 顾军华 谭庆 http://www.joca.cn/CN/abstract/abstract 9941.shtml ▪ [5] PLS modeling algorithm http://wiki.mbalib.com/zh- tw/%E5%81%8F%E6%9C%80%E5%B0%8F%E4 %BA%8C%E4%B9%98%E6%B3%95 2014/5/6Morris' blog 23