Shinsaku Kono
@lapis_zero09
Introduction
to ensemble methods
for beginners
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
2
Outline
1. Introduction
• What is Ensemble Methods?
• Application of Ensemble Methods
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
3
What is Ensemble Methods?
• アンサンブル - 学習器の集合
• 基本学習器の結合によって得られる
モデルの集合
• アンサンブルの構築ステップ
1. 基本学習器の⽣成
2. 基本学習器の結合
• 意思決定時のセカンドオピニオン
• 違う医者の打診
• レビューを⾒⽐べる
• 反省⽂
4
Application of Ensemble Methods
• Computer Vision
• 物体検出[Viola and Jones, 2001, 2004]
• 顔検出・姿勢推定[Huang et al., 2000][Li et
al., 2001]
• 肺がん細胞の特定[Zhou et al., 2002]
• 物体追跡[Avidan, 2005]
• Security
• 侵⼊検知[Giacinto et al., 2003, 2008]
• マルウェア検出[Schultz et al.,
2001][Kolter and Maloof, 2006]
• クレジットカードの不正使⽤検知Panigrahi
et al., 2009]
• Competition
• KDD-Cup^1
• Netflix Prize^2
• other
• アルツハイマー診断[Polikar et al., 2008]
• 倒産予測[West et al., 2005]
• タンパク質構造の分類[Shen and Chou,
2006]
• ⾳楽ジャンルとアーティストの分類
[Bergstra et al., 2006]
• etc...
1 http://www.kdd.org/kdd-cup
2 https://www.netflixprize.com/5
Outline
1. Introduction
2. Rationale for Ensemble Methods
• Benefit of Ensemble
• History of Ensemble Methods
• Requirements for Emsembles
3. Basics of Combination Methods
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
6
Benefit of Ensemble
• Statistical: 分散
• 利⽤可能なデータの量⼩さすぎる
• 同様な正確さを持つ幾つかの異なるモデルが存在
• 仮説の平均によって,良好な近似を取得
• Computational: 計算的分散
• ⼗分なデータがある
• 最良の仮説を⾒つけることは計算上⾮常に困難
• 多くの異なる開始点から局所探索を実⾏
• 真の未知関数に対してより良い近似を提供
• Representational: バイアス
• fはHのいずれの仮説によっても表すことができない
• 仮説の結合により表現可能な関数の空間を拡張
• [Xu et al., 1992][Bauer and Kohavi, 1999][Opitz and Maclin, 1999]
• 学習アルゴリズムの分散やバイアスを減少
[Dietterich, 2000]外側の曲線は仮説空間H,fとラベル付けされた点は真の仮説
7
Benefit of Ensemble
1. Statistical reasons
• モデルの結合により汎化性能の向上
• 悪い選択リスクの減少
• [Hansen and Salmon, 1990]
• 25 base learners
• Error rates of each classifier, 𝜀 = 0.35
• Ensemble: ∑ 25
𝑖
*+
,-. 𝜀,(1 − 𝜀)*+3,= 0.06
8
Benefit of Ensemble
2. Volumes of data
• Too Large
• 単⼀のモデルで扱いきれない
• データを分割して学習可能
• Too Little
• Resampling
• Model Diversity
https://www.rhipe.com/big-data-and-the-cloud/9
Benefit of Ensemble
3. Devide and Conquer
• データを単純で⼩さい部分問題へ分割
10
Benefit of Ensemble
4. Data Fusion
• 性質の異なる様々なソースから取得された特徴量
• 単⼀のモデルで学習できない
• Ex) 為替予測
• 以前の為替,ホットニュース,政府要⼈専⽤⾞のエンジン始動時間,etc..
• 異種モデルの結合
11
History of Ensemble Methods
• Principle of Multiple Explanations^3
• if several theories are consistent with the observed data, retain
them all
• Ockhamʼs razer^4
• among competing hypotheses, the one with the fewest assumptions
should be selected
• No Free Lunch[Wolpert, 1996][Wolpert and Macready, 1997]
• all algorithms that search for an extremum of a cost function
perform exactly the same, when averaged over all possible cost
functions
3 http://www.gutenberg.org/ebooks/785?msg=welcome_stranger
4 http://plato.stanford.edu/entries/ockham/#4.1 12
History of Ensemble Methods
Pioneering research
1. [Hansen and Salamon, 1990]
• experimental
• 分類器の結合により⾏われる予測は,多く
の場合で最も優れた単⼀の分類器による予
測よりも正しい
2. [Schapire, 1990]
• theorical
• 弱学習器は強学習器に押し上げることが可
能という証明
• Boostingの導⼊
13
History of Emsemble Methods
• 3 threads of early contributions
1. Combination classifiers: Pattern Recognition
• 強分類器について研究し,より強い結合した分類器を得るために強⼒な結合規則の
設計を試みる
2. Ensemble of weak learners: Machine Learning
• 弱学習器から強学習器へ性能を⾼めるためにアルゴリズムを設計することを試みる
• Boosting,Bagging
• 弱学習器が強学習器になるのかという理論的な理解の導⼊
3. Mixture of experts: Neural Network
• 分割統治(devide-and-conquer)構造
• パラメトリックモデルの混合を学習,全体の解を得るために結合規則を⽤いる
14
Requirements for Ensemble
• Objective
• 基本学習器を作って結合しパフォーマンスを向上させたい
• Intuition
• 結合戦略によってアンサンブルのerrorを減少することができそう
• この時,基本学習器が互いに異なることが必要
• このような基本学習器の集合をdiverseであるという
15
Requirements for Ensemble
• How to achieve classifier deversity?
1. 各学習器を異なったデータセットで訓練
• subsample
2. 学習器のパラメータを変更
3. 異種学習器
4. 異なる特徴量の組み合わせ
• subspace
16
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
• Averaging
• Voting
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
17
Averaging
For Numeric outputs
1. Simple averaging
• 𝐻 𝒙 =
.
7
∑ ℎ, 𝒙7
,-.
2. Weighted averaging
• 𝐻 𝒙 = ∑ 𝑤,ℎ, 𝒙7
,-.
• [Xu et al., 1992][Ho et al., 1994][Kittler et al., 1996][Kuncheva and
Rodríguez, 2014]
• 単純平均化よりも明確に優れているわけではない
• 推定した結合重みは過学習しやすい
18
• Base learners: {ℎ., … , ℎ7}
• Weights: 𝑤 = [𝑤., … , 𝑤7]
• 𝑠. 𝑡		𝑤, ≥ 0, ∑ 𝑤, = 17
,-.
• Input: 𝒙
• Output of ℎ,: ℎ, 𝒙 ∈ ℝ
Voting
For nominal outputs(crisp label)
1. Majority voting
• 𝐻 𝒙 = F
𝑐H ∑ ℎ,
H
𝒙 >
.
*
∑ ∑ ℎ,
J
(𝒙)7
,-.
K
J-.
7
,-.
𝑟𝑒𝑗𝑒𝑐𝑡 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒.
2. Plurality voting
• 𝐻 𝒙 = 𝑐PQRSPTU ∑ VW
U
(𝒙)X
WYZ
• 2クラス分類ではmajorityと⼀致
3. Weighted voting
• 𝐻 𝒙 = 𝑐PQRSPTU ∑ [WVW
U
(𝒙)X
WYZ
19
• Base learners: {ℎ., … , ℎ7}
• Weights: 𝑤 = [𝑤., … , 𝑤7]
• 𝑠. 𝑡		𝑤, ≥ 0, ∑ 𝑤, = 17
,-.
• Input: 𝒙
• Class: {𝑐., … , 𝑐K}
• Output of ℎ, for 𝑐H: ℎ,
H
𝒙 ∈ {0, 1}
Voting
For nominal outputs(class probability)
• soft voting
1. Simple soft voting
• 𝐻H
𝒙 =
.
7
∑ ℎ,
H
𝒙7
,-.
2. Classifier weight
• 𝐻H
𝒙 = ∑ 𝑤,ℎ,
H
𝒙7
,-.
• 𝑤,は分類器ℎ,に割り当てられた重み
3. Class weight
• 𝐻H
𝒙 = ∑ 𝑤,
H
ℎ,
H
𝒙7
,-.
• 𝑤,
H
はクラス𝑐Hについて分類器ℎ,に割り当てられた重み
4. Clasifier & Class weight
• 𝐻H
𝒙 = ∑ ∑ 𝑤,J
H
ℎ,
H
𝒙S
J-.
7
,-.
• 𝑤,J
H
は分類器ℎ,に対するクラス𝑐Hのインスタンス𝒙Jの重み
20
• Base learners: {ℎ., … , ℎ7}
• Weights: 𝑤 = [𝑤., … , 𝑤7]
• 𝑠. 𝑡		𝑤, ≥ 0, ∑ 𝑤, = 17
,-.
• Input: 𝒙
• Class: {𝑐., … , 𝑐K}
• Output of ℎ, for 𝑐H: ℎ,
H
𝒙 ∈ [0, 1]
Voting
• ⾮正規化マージンを構築する分類器には以下で分
類確率を取得
• Platt scaling[Platt, 2000]
• Isotonic regression[Zadrozny and Elkan,
2001]
• Calibration
• 参照すべき論⽂
• [Narasimhamurthy, 2003, 2005]
• 多数決による理論的限界
• [Tumer and Ghosh, 1996][Fumera and Roli, 2005]
• 決定境界分析
21
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
• Bagging
• Bootstrap sampling
• Stable lerner
• Ensemble of Random Trees
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
22
Bagging[Breiman, 1996]
• Bootstrap AGGregatING
• Bootstrap sampling
• [Efron and Tibshirani, 1993]
• 復元抽出による重複を許すデータセットの作成
• 独⽴した基本学習器を作るためのサンプリング
• Parallel ensemble:基本学習器が同時に⽣成される
• 学習過程においてランダム性を取り⼊れる→diversity
23
結合法 信頼度出⼒可能
分類 voting weighted voting
回帰 averaging weighted averaging
Bootstrap sampling[Efron and Tibshirani, 1993]
Sample index 1st sampling 2nd sampling …
1 3 7 …
2 2 1 …
3 1 1 …
4 3 4 …
5 5 1 …
6 2 7 …
7 4 7 …
24
• m個のインスタンスを含むデータセットからm個を復元抽出
• あるインスタンスがn回選択される確率は𝜆=1のポアソン分布で近似可能
• あるインスタンスが少なくとも⼀回以上選択される確率
1 − (1/𝑒) ≈ 0.632
• out-of-bagを⽤いてアンサンブルの⼀般化誤差を推定可能
• [Breiman, 1996][Tibshirani, 1996][Wolpert and Macready, 1999]
Stable lerner
• 訓練⽤標本の変化に対して敏感で無い基本学習アルゴリズム
• bootstrap標本から訓練された基本学習器が類似
→baggingには安定していない基本学習器が良い
• [Freidman and Hall, 2007]
• ⾮線形性が⾼い学習器で⽤いるのが良い
• ⾮線形性が⾼い学習器は不安定な傾向
• データ標本の変化に対して⼤きく変わる
• [Ali and Pazzani, 1995, 1996]
• Baggingは⼤きいデータに対していい傾向がない
25
Ensemble of Random Trees
[Dietterrich, 2000]
• Boosting, Bagging, Randomizedの⽐較検証
• Randomized
• 分割にどの特徴量を⽤いるかをランダムに選択
• ⾮負の情報利得⽐を有する20の分割点から1つをランダムに選択(⾮常に雑)
• No noize
• Randomized ≥ Bagging
• AdaBoost ≥ Randomized
• More noizy
• AdaBoostよりもRandomizedとBaggingが優れる
• ↑Baggingの⽅が優れることがある
• Randomizedは全てのデータを使うのでノイズに対してBaggingよりも弱い
26
Ensemble of Random Trees
Random Forest[Breiman, 2001]
• Baggingの拡張法の1つ
• ランダムな特徴選択をする
• 特徴数の対数を特徴の部分集合パラメータとすると良い
• RFの訓練段階はBaggingよりも効率的
• ⽊の構築過程において分割選択のために
• Baggingは全ての特徴の評価を⾏う
• RFは特徴の部分集合の評価を⾏う
27
Ensemble of Random Trees
PERT[Cutler and Zhao, 2001]
• Perfect Random Tree Ensembles
• 分割選択で,異なるクラスの2つのインスタンスを取り出し,属性をラ
ンダムに選択し,ランダムに分割
• 他のアンサンブル⼿法と⽐較して⾮常に速くフィットする
• 分割点選択が完全にランダムなので計算がはやいけど,⽊が⼤きくな
る
• Bootstrap Samplingしないことでバイアスを最⼩限に抑える
28
Ensemble of Random Trees
[Robnik-Sikonja, 2004]
• RFの改良PERT
1. 分割選択のための属性評価尺度を使⽤
• Tree間の相関が低下し,パフォーマンスのわずかな向上
• 依存性の⾼い属性を持つデータセットで顕著
2. 投票法の変更
• ⼊⼒に対してマージンが⾮負のTreeをマージンで投票を重み付け
• 精度とAUCが優位に改善
29
Ensemble of Random Trees
Rotation Forest [Rodriguez et al., 2006]
• データセットの特徴量をK個の部分集合に分割(不連続・交差可)
• ↑で分割したサブセットごとに75%のBootstrap Sampleとして選択
• それぞれに対してPCAを⾏い,rotation matrixを作成
• 基本学習器の構築に使⽤することで,多様な学習器を作成
30
Ensemble of Random Trees
Extra-Trees[Geurts, et al., 2006]
• Extremely randomized trees
• PERTと似てる
• 回帰問題にも使える
• 計算がはやい
• Bootstrap Samplingしないことでバイアスを最⼩限に抑える
• 分割選択を完全ランダムにすることで他のランダム化よりも分散の減
少をはかる
31
Ensemble of Random Trees
VR-Tree[Liu et al., 2008]
• 特徴選択と分割選択の両⽅でランダム性
• ⽊の各ノードにおいて,確率𝛼で:
• 決定論的なノードを構築
• ランダムに1つの特徴を選択し,その特徴に対しランダムな分割
• Coalescence
• パラメータ𝛼を[0, 0.5]の区間でランダムに選択されるVR-Treesを集約
• RFや𝛼固定のVR-Trees ensembleよりも良い性能
32
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
5. Boosting
• Boosting
• History of Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
33
Boosting
• 学習器が誤った箇所に着⽬する分布を
使って次の学習器を訓練する
• ⼗分な強さを持った弱学習器
• too weak → 適合はうまくいかない
• too strong→ 容易に過学習
• [Mukherjee and Schapire, 2010]
• 弱学習器を明確に指定する⽅が良い
• Sequential ensemble
• 基本学習器が逐次的に⽣成される
• SQ Boosting
• ノイズ耐性を持つBoosting
34
History of Boosting
計算論的学習理論[Kearns and Valiant, 1989]
• PAC: Probably Approximately Correct
• 学習アルゴリズムの分布に依らないモデル化
• 仮説集合が有限,学習可能性を扱うフレームワーク
35
History of Boosting
• [Kearns and Valiant, 1989]
• 「弱学習可能問題,強学習可能問題の2つの複雑性クラスは等しいのか?」
→ 任意の弱学習器は潜在的に強学習器へと強化することが可能
• [Schapire, 1990]
• 「等しいよ」→ boostingの導⼊
• [Freund, 1990, 1995]
• boost-by-majority
• SQBoostingノイズ耐性[Aslam and Decatur, 1993]
• パラメータが多い
• 基本学習器の誤差限界が事前にわかっている必要がある
36
History of Boosting
[Freund and Schapire, 1995]
• Adaboost
• 指数損失関数とニュートン法的な更新式による最適化
• 未知のパラメータが必要ないのでadaptive boosting
• AdaBoost.M1
• 基本学習器に他クラス分類器を使うだけ
• 全ての基本学習器は1/2以下の他クラス0/1損失を持たなければいけな
いという強い制限
• AdaBoost.M2
• 1対1
• 擬似損失を最⼩化
37
History of Boosting
• [Schapire and Singer, 1999]
• AdaBoost.MH
• 1対他
• AdaBoost.MR
• 1対1
• AdaBoost.M2の改良
• ランキング損失の最⼩化
• 最も⾼いランクのクラスは正しいクラスである可能性がより⾼い
• [Freidman et al., 2000]
• LogitBoost
• 対数損失関数と最急降下法による最適化
38
History of Boosting
• [Domingo and Watanebe, 2000]
• AdaBoostはノイズに弱い
• (主に指数損失関数)
• 間違たインスタンスの重みを⼤きく
• → 正解クラスが間違いだったら?
• MadaBoost
• AdaBoostの重み更新ルールを変更
• SQ Boosting
• [Freund, 2001]
• BrownBoost
• boost-by-majorityの適⽤
• BBMのノイズ耐性を引き継ぐ
• 損失関数はブラウン運動過程[Gardiner, 2004]
39
History of Boosting
• [Demiriz et al., 2002]
• LPBoost
• 弱学習器の重みを数理計画法で解
く
• 改良版のentropy regularized
LPBoostは頻繁にAdaBoostよりも
性能が良い
• [Buhlmann and Yu, 2003]
• L2Boost
• 𝑙*損失関数
• [Zhu et al., 2006]
• SAMME, SAMME.R
• AdaBoost.M1の改良
• Scikit-learn^5
• [Bradley and Schapire, 2008]
• FilterBoost
• 対数損失関数
• ⼤規模データを効率的に処理
• [Freund, 2009]
• RobustBoost
• BrownBoostの改良
• ノイズ耐性をさらに改善
• 損失関数はオルンシュタイン・
ウーレンベック過程[Gardiner,
2004]に対応
40
5: http://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_multiclass.html
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
41
Other Ensemble Methods
BKS[Huang and Suen, 1993, 1995]
• Behavior Knowledge Space
• 各クラスのインスタンス数に応
じてアンサンブルの予測を決定
• 基本分類器の予測のうち最もイ
ンスタンス数の多いものを予測
とする
• ⼤きいデータ向き
• ⼩標本に対する改善[Raudys and
Roli, 2003]
42
Other Ensemble Methods
DTs[Kuncheva et al., 2001]
• decision templetes
• 分類器の出⼒によるプロファイル
Decision Profile
• ⼊⼒𝒙に対する分類器ℎJのクラス𝑐Hに対する確率ℎJ
H
(𝒙)
• 𝐷𝑃 𝒙 =
ℎ.
.
(𝒙) ⋯ ℎ.
K
(𝒙)
⋮ ⋱ ⋮
ℎ7
.
(𝒙) ⋯ ℎ7
K
(𝒙)
• 𝐷𝑇H =
.
SU
∑ 𝐷𝑃(𝒙,)hW-iU
• 類似性尺度を⽤いて尤もらしいDTのク
ラスラベルを予測とする
43
Other Ensemble Methods
Stacking
• 個々の学習器を結合するために1つの学習器を訓練
する
• 訓練データでfirst-level learnerを訓練
• first-level learnerの出⼒を基にmeta-learnerを訓練
• Stacked Generalization[Wolpert, 1992]
• Stacked regressions[Breiman, 1996]
• 1段⽬は⼤きさの異なる回帰⽊,線形回帰モデルを⽤いる
• 2段⽬は最⼩⼆乗線形回帰(s.t. 全ての回帰係数が⾮負)
44
Other Ensemble Methods
• BMA[Domingos, 2000]
• 事後確率に基づきモデルの重みを割り当てる
• 理論的にDGM(Data Generating Model:正確なモデル)がある場合うまく機
能
• StackingC[Seewald, 2002]
• Infinite ensemble[Lin and Li, 2008]
• 全ての可能な仮説に対するコンビネーション重みを学習
• SVMに基づいて無限個の仮説をカーネルに埋め込む
• → 特定のカーネルを持つSVMの訓練問題へと帰着
• ECOC[Dietterich and Bakiri, 1995][Allwein et al., 2000]
• Error-Correcting Output Codes
• 2クラス分類器の結合に基づく多クラス問題を扱うための⼿法
45
Outline
1. Introduction
2. Rationale for Ensemble Methods
3. Basics of Combination Methods
4. Bagging
5. Boosting
6. Other Ensemble Methods
7. Ensemble Pruning
46
Ensemble Pruning
• 訓練された個々の学習器
• 全てを結合するのではなく,部分集合を選択する
• [Zhou et al., 2002]
• Many could be better than all
• サニティーチェックはアンサンブル枝刈りではない
• Boosting pruning[Margineantu and Ditterich, 1977]
47
Ensemble Pruning
[Tsoumakas et al., 2009]
• アンサンブル枝刈りの分類
• Ranking based
• 評価関数に従ってアンサンブルを⼀度構築し,基本学習器の⼊れ替えを⾏う
• Clustering based
• モデルをクラスタリングし,クラスタ毎に枝刈りを⾏う
• Optimization based
• 汎化性能を⽰す評価指標を最適化する基本学習器の部分集合を発⾒する
48
Ensemble Pruning
• Ranking based
• [Margineantu and Ditterich, 1977]
• Reduce-error pruning
• Kappa pruning
• Kappa-error diagram pruning
• [Martínez-Muñoz and Suárez, 2004]
• Complementariness pruning
• Margin distance pruning
• [Martínez-Muñoz and Suárez, 2006]
• Orientation pruning
• [Martínez-Muñoz and Suárez, 2007]
• Boosting-based pruning
• [Partalas et al., 2009]
• Reinforcement learning pruning
• Clustering based
• [Giacinto et al., 2000]
• Hierarchical agglomerative clustering
• [Lazarevic and Obradovic, 2001]
• K-mean clustering
• [Bakker and Heskes, 2003]
• Deterministic annealing
• Optimization based
• [Zhou et al., 2002]
• Genetic algorithm
• SDP[Zhang et al., 2006]
• RSE[Li and Zhou, 2009]
• MAP[Chen et al, 2006, 2009]
49
References [Application of ensembles]
• S. Avidan, “Ensemble Tracking .pdf,” 2005.
• J. Bergstra, N. Casagrande, D. Erhan, D. Eck, and B. K??gl, “Aggregate features and ADABOOST for music classification,” Mach. Learn., vol. 65, no. 2‒3, pp. 473‒484, 2006.
• H. S. K. Chou, “Ensemble Classifier for Protein Fold Pattern Recognition Associate Editor : Keith A Crandall,” Image Process., no. 1, pp. 1‒6, 2006.
• G. Giacinto, R. Perdisci, M. Del Rio, and F. Roli, “Intrusion detection in computer networks by a modular ensemble of one-class classifiers,” Inf. Fusion, vol. 9, no. 1, pp. 69‒82, 2008.
• G. Giacinto, F. Roli, and L. Didaci, “Fusion of multiple classifiers for intrusion detection in computer networks,” Pattern Recognit. Lett., vol. 24, no. 12, pp. 1795‒1803, 2003.
• F. J. H. F. J. Huang, Z. Z. Z. Zhou, H.-J. Z. H.-J. Zhang, and T. C. T. Chen, “Pose invariant face recognition,” Proc. IEEE 2000 Natl. Aerosp. Electron. Conf. NAECON 2000 Eng. Tomorrow Cat
No00CH37093, vol. 6, no. 3, pp. 245‒250, 2000.
• J. Z. Kolter and M. A. Maloof, “Learning to detect malicious executables in the wild,” Proc. 2004 ACM SIGKDD Int. Conf. Knowl. Discov. data Min. - KDD ʼ04, vol. 7, p. 470, 2004.
• S. Z. Li, B. Schölkopf, H. Zhang, Q. Fu, and Y. Cheng, “Kernel machine based learning for multi-view face detection and pose estimation,” Iccv, no. Iccv, pp. 674‒679, 2001.
• S. Panigrahi, A. Kundu, S. Sural, and A. K. Majumdar, “Credit card fraud detection: A fusion approach using Dempster-Shafer theory and Bayesian learning,” Inf. Fusion, vol. 10, no. 4, pp.
354‒363, 2009.
• R. Polikar et al., “An ensemble based data fusion approach for early diagnosis of Alzheimerʼs disease,” Inf. Fusion, vol. 9, no. 1, pp. 83‒95, 2008.
• M. G. Schultz, E. Eskin, E. Zadok, and S. J. Stolfo, “Data mining methods for detection of new malicious executables,” Proceedings. 2001 IEEE Symp. Secur. Privacy, 2001. S&P 2001., pp.
38‒49, 2001.
• P. Viola and M. Jones, “Fast and Robust Classification using Asymmetric AdaBoost and a Detector Cascade,” Adv. Neural Inf. Process. Syst. 14, 2001.
• P. Viola and M. J. Jones, “Robust Real-time Object Detection,” Int. J. Comput. Vis., no. February, pp. 1‒30, 2001.
• D. West, S. Dellana, and J. Qian, “Neural network ensemble strategies for financial decision applications,” Comput. Oper. Res., vol. 32, no. 10, pp. 2543‒2559, 2005.
• Z.-H. Zhou, Y. Jiang, Y.-B. Yang, and S.-F. Chen, “Lung cancer cell identification based on artificial neural network ensembles,” Artif. Intell. Med., vol. 24, no. 1, pp. 25‒36, 2002.
50
References
• K. Ali, “A comparison of methods for learning and combining evidence from multiple models,” Tech. Rep. 95-47, 1995.
• K. M. Ali and M. J. Pazzani, “Error reduction through learning multiple descriptions,” Mach. Learn., vol. 202, pp. 173‒202, 1996.
• E. L. Allwein, R. Schapire, and Y. Singer, “Reducing multiclass to binary: A unifying approach for margin classifiers,” J. Mach. Learn. …, vol. 1, pp. 113‒141, 2001.
• J. a. Aslam and S. E. Decatur, “General bounds on statistical query learning and PAC learning withnnoise via hypothesis boosting,” Proc. 1993 IEEE 34th Annu. Found. Comput. Sci., vol. 118, pp. 85‒118, 1993.
• B. Bakker and T. Heskes, “Clustering ensembles of neural network models,” Neural Networks, vol. 16, no. 2, pp. 261‒269, 2003.
• E. Bauer, R. Kohavi, P. Chan, S. Stolfo, and D. Wolpert, “An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants,” Mach. Learn., vol. 36, no. August, pp. 105‒139, 1999.
• J. K. Bradley and R. Schapire, “Filterboost: Regression and classification on large datasets,” Adv. Neural Inf. Process. Syst., vol. 20, no. 1997, pp. 185‒192, 2008.
• L. Breiman, “Bagging predictors: Technical Report No. 421,” Mach. Learn., vol. 140, no. 2, p. 19, 1994.
• L. Breiman, “Stacked regressions,” Mach. Learn., vol. 24, no. 1, pp. 49‒64, 1996.
• L. Breiman, “Out-of-Bag Estimation,” Tech. Rep., pp. 1‒13, 1996.
• L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. 1, pp. 5‒32, 2001.
• P. Bühlmann and B. Yu, “Boosting With the L 2 Loss,” J. Am. Stat. Assoc., vol. 98, no. 462, pp. 324‒339, 2003.
• H. Chen, P. Tino, and X. Yao, “A Probabilistic Ensemble Pruning Algorithm,” Sixth IEEE Int. Conf. Data Min. - Work., no. 1, pp. 878‒882, 2006.
• H. Chen, P. Tiňo, and X. Yao, “Predictive ensemble pruning by expectation propagation,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 7, pp. 999‒1013, 2009.
• A. Cutler and G. Zhao, “PERT - Perfect Random Tree Ensembles,” Comput. Sci. Stat., vol. 33, pp. 490‒497, 2001.
• A. Demiriz et al., “Linear Programming Boosting via Column Generation,” pp. 1‒22, 2000.
• T. G. Dietterich, “An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization,” Mach. Learn., vol. 40, no. 2, pp. 139‒157, 2000.
• T. G. Dietterich, “Ensemble Methods in Machine Learning,” Mult. Classif. Syst., vol. 1857, pp. 1‒15, 2000.
• T. G. Dietterich and G. Bakiri, “Solving Multiclass Learning Problems via Error-Correcting Output Codes,” Jouranal Artifical Intell. Res., vol. 2, pp. 263‒286, 1995.
• C. Domingo and O. Watanabe, “MadaBoost: A Modification of AdaBoost,” Conf. Comput. Learn. Theory, pp. 180‒189, 2000.
51
References
• P. Domingos, “Bayesian Averaging of Classifiers and the Overfitting Problem,” Icml, pp. 223‒230, 2000.
• Y. Freund, “Boosting a Weak Learning Algorithm by Majority,” Information and Computation, vol. 121, no. 2. pp. 256‒285, 1995.
• Y. Freund, “Data Filtering and Distribution Modeling Algorithms for Machine Learning,” no. September, 1993.
• Y. Freund, “An adaptive version of the boost by majority algorithm,” Mach. Learn., vol. 43, no. 3, pp. 293‒318, 2001.
• Y. Freund, “A more robust boosting algorithm,” Mach. Learn., vol. arXiv:0905, pp. 1‒9, 2009.
• Y. Freund and R. E. Schapire, “A desicion-theoretic generalization of on-line learning and an application to boosting,” vol. 139, pp. 23‒37, 1995.
• J. H. Friedman and P. Hall, “On bagging and nonlinear estimation,” J. Stat. Plan. Inference, vol. 137, no. 3, pp. 669‒683, 2007.
• J. Friedman, T. Hastie, and R. Tibshirani, “Additive Logistic Regression: a Statistical View of Boosting,” Int. J. Qual. Methods, vol. 16, no. 1, pp. 1‒71, 2000.
• G. Fumera and F. Roli, “A theoretical and experimental analysis of linear combiners for multiple classifier systems,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 27, no. 6, pp. 942‒956, 2005.
• P. Geurts, D. Ernst, and L. Wehenkel, “Extremely randomized trees,” Mach. Learn., vol. 63, no. 1, pp. 3‒42, 2006.
• G. Giacinto, F. Roli, and G. Fumera, “Design of effective multiple classifier systems by clustering ofnclassifiers,” Proc. 15th Int. Conf. Pattern Recognition. ICPR-2000, vol. 2, 2000.
• L. K. Hansen and P. Salamon, “Neural Network Ensembles,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 12, no. October, pp. 993‒1001, 1990.
• T. K. Ho, J. J. Hull, and S. N. Srihari, “Decision Combination in Multiple Classifier Systems,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 16, no. 1, pp. 66‒75, 1994.
• Y. S. Huang and C. Y. Suen, “A method of combining multiple experts for the recognition ofnunconstrained handwritten numerals,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 17, no. 1, pp. 90‒94, 1995.
• M. Kearns and L. Valiant, “Cryptographic Limitations on Learning Boolean Formulae and Finite Automata,” J. ACM, vol. 41, no. 1, pp. 67‒95, 1994.
• J. Kittler, M. Hater, and R. P. W. Duin, “Combining classifiers,” Proc. - Int. Conf. Pattern Recognit., vol. 2, no. 3, pp. 897‒901, 1996.
• L. I. Kuncheva, J. C. Bezdek, and R. P. W. Duin, “Decision templates for multiple classifier fusion: an experimental comparison,” Pattern Recognit., vol. 34, no. 2, pp. 299‒314, 2001.
• L. I. Kuncheva and J. J. Rodríguez, “A weighted voting framework for classifiers ensembles,” Knowl. Inf. Syst., vol. 38, no. 2, pp. 259‒275, 2014.
• A. Lazarevic and Z. Obradovic, “Effective pruning of neural network classifier ensembles,” IJCNNʼ01. Int. Jt. Conf. Neural Networks. Proc. (Cat. No.01CH37222), vol. 2, no. January, pp. 796‒801, 2001.
• N. Li and Z. H. Zhou, “Selective ensemble under regularization framework,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 5519 LNCS, pp. 293‒303, 2009.
52
References
• H. Lin and L. Li, “Support Vector Machinery for Infinite Ensemble Learning,” J. Mach. Learn. Res., vol. 9, pp. 285‒312, 2008.
• F. T. Liu, K. M. Ting, Y. Yu, and Z. H. Zhou, “Spectrum of Variable-Random Trees,” J. Artif. Intell. Res., vol. 32, pp. 355‒384, 2008.
• D. D. Margineantu and T. G. Dietterich, “Pruning Adaptive Boosting,” Proc. Fourteenth Int. Conf. Mach. Learn., pp. 211--218, 1997.
• G. Martínez-Muñoz and A. Suárez, “Using boosting to prune bagging ensembles,” Pattern Recognit. Lett., vol. 28, no. 1, pp. 156‒165, 2007.
• G. Martínez-Muñoz and A. Suárez, “Pruning in Ordered Bagging Ensembles,” Proc. 23rd Int. Conf. Mach. Learn., pp. 609‒616, 2006.
• G. Martínez-Muñoz and A. Suárez, “Aggregation ordering in bagging,” Proc. {IASTED} Int. Conf. Artif. Intell. Appl., pp. 258‒263, 2004.
• I. Mukherjee and R. E. Schapire, “A theory of multiclass boosting,” J. Mach. Learn. Res., vol. 14, no. 1, pp. 437‒497, 2011.
• A. Narasimhamurthy, “Theoretical bounds of majority voting performance for a binary classification problem,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 27, no. 12, pp. 1988‒1995, 2005.
• D. W. Opitz and R. Maclin, “Popular Ensemble Methods: An Empirical Study,” J. Artif. Intell. Res., vol. 11, pp. 169‒198, 1999.
• I. Partalas, G. Tsoumakas, and I. Vlahavas, “Pruning an ensemble of classifiers via reinforcement learning,” Neurocomputing, vol. 72, no. 7‒9, pp. 1900‒1909, 2009.
• R. Polikar, “Ensemble based systems in decision making,” Circuits Syst. Mag. IEEE, vol. 6, no. 3, pp. 21‒45, 2006.
• S. Raudys and F. Roli, “The behavior knowledge space fusion method: Analysis of generalization error and strategies for performance improvement,” Mult. Classif. Syst. 4th Int. Work. Lect. Notes Comput. Sci. Vol. 2709, pp. 55‒64, 2003.
• M. Robnik-Sikonja, “Improving random forests,” Mach. Learn. ECML 2004, p. 12, 2004.
• J. J. Rodriguez, L. I. Kuncheva, and C. J. Alonso, “Rotation forest: A New classifier ensemble method,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 28, no. 10, pp. 1619‒1630, 2006.
• R. E. Schapire, “The Strength of Weak Learnability (Extended Abstract),” Mach. Learn., vol. 227, no. October, pp. 28‒33, 1990.
• R. E. Schapire and Y. Singer, “Improved boosting algorithms using confidence-rated predictions,” Mach. Learn., vol. 37, no. 3, pp. 297‒336, 1999.
• A. K. Seewald, “How to Make Stacking Better and Faster While Also Taking Care of an Unknown Weakness,” Icml, no. January 2002, pp. 554‒561, 2002.
• R. Tibshirani, “Bias, variance and prediction error for classification rules,” Tech. Report, Univ. Toronto, pp. 1‒17, 1996.
• K. Tumer and J. Ghosh, “Analysis of decision boundaries in linearly combined neural classifiers,” Pattern Recognit., vol. 29, no. 2, pp. 341‒348, 1996.
• J. W. Vaughan, “CS260 : Machine Learning Theory Lecture 13 : Weak vs . Strong Learning and the Adaboost Algorithm Weak vs . Strong Learning AdaBoost,” pp. 1‒6, 2011.
53
References
• D. H. Wolpert and W. G. Macready, “No Free Lunch Theorems for
Optimisation,” IEEE Trans. Evol. Comput., vol. 1, no. 1, pp. 67‒82, 1997.
• D. H. Wolpert, “Stacked Generalization,” vol. 87545, no. 505, pp. 241‒259, 1992.
• D. H. Wolpert, “The Lack of A Priori Distinctions Between Learning
Algorithms,” Neural Comput., vol. 8, no. 7, pp. 1341‒1390, 1996.
• L. Xu, A. Krzyżak, and C. Y. Suen, “Methods of Combining Multiple Classifiers
and Their Applications to Handwriting Recognition,” IEEE Trans. Syst. Man
Cybern., vol. 22, no. 3, pp. 418‒435, 1992.
• Y. Zhang, S. Burer, and W. N. Street, “Ensemble pruning via semi-definite
programming,” J. Mach. Learn. Res., vol. 7, pp. 1315‒1338, 2006.
• Z.-H. Zhou, J. Wu, and W. Tang, “Ensembling neural networks: Many could be
better than all,” Artif. Intell., vol. 137, no. 1‒2, pp. 239‒263, May 2002.
• J. Zhu, A. Arbor, and T. Hastie, “Multi-class AdaBoost,” pp. 0‒20, 2006.
54

Introduction to ensemble methods for beginners

  • 1.
  • 2.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 2
  • 3.
    Outline 1. Introduction • Whatis Ensemble Methods? • Application of Ensemble Methods 2. Rationale for Ensemble Methods 3. Basics of Combination Methods 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 3
  • 4.
    What is EnsembleMethods? • アンサンブル - 学習器の集合 • 基本学習器の結合によって得られる モデルの集合 • アンサンブルの構築ステップ 1. 基本学習器の⽣成 2. 基本学習器の結合 • 意思決定時のセカンドオピニオン • 違う医者の打診 • レビューを⾒⽐べる • 反省⽂ 4
  • 5.
    Application of EnsembleMethods • Computer Vision • 物体検出[Viola and Jones, 2001, 2004] • 顔検出・姿勢推定[Huang et al., 2000][Li et al., 2001] • 肺がん細胞の特定[Zhou et al., 2002] • 物体追跡[Avidan, 2005] • Security • 侵⼊検知[Giacinto et al., 2003, 2008] • マルウェア検出[Schultz et al., 2001][Kolter and Maloof, 2006] • クレジットカードの不正使⽤検知Panigrahi et al., 2009] • Competition • KDD-Cup^1 • Netflix Prize^2 • other • アルツハイマー診断[Polikar et al., 2008] • 倒産予測[West et al., 2005] • タンパク質構造の分類[Shen and Chou, 2006] • ⾳楽ジャンルとアーティストの分類 [Bergstra et al., 2006] • etc... 1 http://www.kdd.org/kdd-cup 2 https://www.netflixprize.com/5
  • 6.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods • Benefit of Ensemble • History of Ensemble Methods • Requirements for Emsembles 3. Basics of Combination Methods 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 6
  • 7.
    Benefit of Ensemble •Statistical: 分散 • 利⽤可能なデータの量⼩さすぎる • 同様な正確さを持つ幾つかの異なるモデルが存在 • 仮説の平均によって,良好な近似を取得 • Computational: 計算的分散 • ⼗分なデータがある • 最良の仮説を⾒つけることは計算上⾮常に困難 • 多くの異なる開始点から局所探索を実⾏ • 真の未知関数に対してより良い近似を提供 • Representational: バイアス • fはHのいずれの仮説によっても表すことができない • 仮説の結合により表現可能な関数の空間を拡張 • [Xu et al., 1992][Bauer and Kohavi, 1999][Opitz and Maclin, 1999] • 学習アルゴリズムの分散やバイアスを減少 [Dietterich, 2000]外側の曲線は仮説空間H,fとラベル付けされた点は真の仮説 7
  • 8.
    Benefit of Ensemble 1.Statistical reasons • モデルの結合により汎化性能の向上 • 悪い選択リスクの減少 • [Hansen and Salmon, 1990] • 25 base learners • Error rates of each classifier, 𝜀 = 0.35 • Ensemble: ∑ 25 𝑖 *+ ,-. 𝜀,(1 − 𝜀)*+3,= 0.06 8
  • 9.
    Benefit of Ensemble 2.Volumes of data • Too Large • 単⼀のモデルで扱いきれない • データを分割して学習可能 • Too Little • Resampling • Model Diversity https://www.rhipe.com/big-data-and-the-cloud/9
  • 10.
    Benefit of Ensemble 3.Devide and Conquer • データを単純で⼩さい部分問題へ分割 10
  • 11.
    Benefit of Ensemble 4.Data Fusion • 性質の異なる様々なソースから取得された特徴量 • 単⼀のモデルで学習できない • Ex) 為替予測 • 以前の為替,ホットニュース,政府要⼈専⽤⾞のエンジン始動時間,etc.. • 異種モデルの結合 11
  • 12.
    History of EnsembleMethods • Principle of Multiple Explanations^3 • if several theories are consistent with the observed data, retain them all • Ockhamʼs razer^4 • among competing hypotheses, the one with the fewest assumptions should be selected • No Free Lunch[Wolpert, 1996][Wolpert and Macready, 1997] • all algorithms that search for an extremum of a cost function perform exactly the same, when averaged over all possible cost functions 3 http://www.gutenberg.org/ebooks/785?msg=welcome_stranger 4 http://plato.stanford.edu/entries/ockham/#4.1 12
  • 13.
    History of EnsembleMethods Pioneering research 1. [Hansen and Salamon, 1990] • experimental • 分類器の結合により⾏われる予測は,多く の場合で最も優れた単⼀の分類器による予 測よりも正しい 2. [Schapire, 1990] • theorical • 弱学習器は強学習器に押し上げることが可 能という証明 • Boostingの導⼊ 13
  • 14.
    History of EmsembleMethods • 3 threads of early contributions 1. Combination classifiers: Pattern Recognition • 強分類器について研究し,より強い結合した分類器を得るために強⼒な結合規則の 設計を試みる 2. Ensemble of weak learners: Machine Learning • 弱学習器から強学習器へ性能を⾼めるためにアルゴリズムを設計することを試みる • Boosting,Bagging • 弱学習器が強学習器になるのかという理論的な理解の導⼊ 3. Mixture of experts: Neural Network • 分割統治(devide-and-conquer)構造 • パラメトリックモデルの混合を学習,全体の解を得るために結合規則を⽤いる 14
  • 15.
    Requirements for Ensemble •Objective • 基本学習器を作って結合しパフォーマンスを向上させたい • Intuition • 結合戦略によってアンサンブルのerrorを減少することができそう • この時,基本学習器が互いに異なることが必要 • このような基本学習器の集合をdiverseであるという 15
  • 16.
    Requirements for Ensemble •How to achieve classifier deversity? 1. 各学習器を異なったデータセットで訓練 • subsample 2. 学習器のパラメータを変更 3. 異種学習器 4. 異なる特徴量の組み合わせ • subspace 16
  • 17.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods • Averaging • Voting 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 17
  • 18.
    Averaging For Numeric outputs 1.Simple averaging • 𝐻 𝒙 = . 7 ∑ ℎ, 𝒙7 ,-. 2. Weighted averaging • 𝐻 𝒙 = ∑ 𝑤,ℎ, 𝒙7 ,-. • [Xu et al., 1992][Ho et al., 1994][Kittler et al., 1996][Kuncheva and Rodríguez, 2014] • 単純平均化よりも明確に優れているわけではない • 推定した結合重みは過学習しやすい 18 • Base learners: {ℎ., … , ℎ7} • Weights: 𝑤 = [𝑤., … , 𝑤7] • 𝑠. 𝑡 𝑤, ≥ 0, ∑ 𝑤, = 17 ,-. • Input: 𝒙 • Output of ℎ,: ℎ, 𝒙 ∈ ℝ
  • 19.
    Voting For nominal outputs(crisplabel) 1. Majority voting • 𝐻 𝒙 = F 𝑐H ∑ ℎ, H 𝒙 > . * ∑ ∑ ℎ, J (𝒙)7 ,-. K J-. 7 ,-. 𝑟𝑒𝑗𝑒𝑐𝑡 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. 2. Plurality voting • 𝐻 𝒙 = 𝑐PQRSPTU ∑ VW U (𝒙)X WYZ • 2クラス分類ではmajorityと⼀致 3. Weighted voting • 𝐻 𝒙 = 𝑐PQRSPTU ∑ [WVW U (𝒙)X WYZ 19 • Base learners: {ℎ., … , ℎ7} • Weights: 𝑤 = [𝑤., … , 𝑤7] • 𝑠. 𝑡 𝑤, ≥ 0, ∑ 𝑤, = 17 ,-. • Input: 𝒙 • Class: {𝑐., … , 𝑐K} • Output of ℎ, for 𝑐H: ℎ, H 𝒙 ∈ {0, 1}
  • 20.
    Voting For nominal outputs(classprobability) • soft voting 1. Simple soft voting • 𝐻H 𝒙 = . 7 ∑ ℎ, H 𝒙7 ,-. 2. Classifier weight • 𝐻H 𝒙 = ∑ 𝑤,ℎ, H 𝒙7 ,-. • 𝑤,は分類器ℎ,に割り当てられた重み 3. Class weight • 𝐻H 𝒙 = ∑ 𝑤, H ℎ, H 𝒙7 ,-. • 𝑤, H はクラス𝑐Hについて分類器ℎ,に割り当てられた重み 4. Clasifier & Class weight • 𝐻H 𝒙 = ∑ ∑ 𝑤,J H ℎ, H 𝒙S J-. 7 ,-. • 𝑤,J H は分類器ℎ,に対するクラス𝑐Hのインスタンス𝒙Jの重み 20 • Base learners: {ℎ., … , ℎ7} • Weights: 𝑤 = [𝑤., … , 𝑤7] • 𝑠. 𝑡 𝑤, ≥ 0, ∑ 𝑤, = 17 ,-. • Input: 𝒙 • Class: {𝑐., … , 𝑐K} • Output of ℎ, for 𝑐H: ℎ, H 𝒙 ∈ [0, 1]
  • 21.
    Voting • ⾮正規化マージンを構築する分類器には以下で分 類確率を取得 • Plattscaling[Platt, 2000] • Isotonic regression[Zadrozny and Elkan, 2001] • Calibration • 参照すべき論⽂ • [Narasimhamurthy, 2003, 2005] • 多数決による理論的限界 • [Tumer and Ghosh, 1996][Fumera and Roli, 2005] • 決定境界分析 21
  • 22.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods 4. Bagging • Bagging • Bootstrap sampling • Stable lerner • Ensemble of Random Trees 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 22
  • 23.
    Bagging[Breiman, 1996] • BootstrapAGGregatING • Bootstrap sampling • [Efron and Tibshirani, 1993] • 復元抽出による重複を許すデータセットの作成 • 独⽴した基本学習器を作るためのサンプリング • Parallel ensemble:基本学習器が同時に⽣成される • 学習過程においてランダム性を取り⼊れる→diversity 23 結合法 信頼度出⼒可能 分類 voting weighted voting 回帰 averaging weighted averaging
  • 24.
    Bootstrap sampling[Efron andTibshirani, 1993] Sample index 1st sampling 2nd sampling … 1 3 7 … 2 2 1 … 3 1 1 … 4 3 4 … 5 5 1 … 6 2 7 … 7 4 7 … 24 • m個のインスタンスを含むデータセットからm個を復元抽出 • あるインスタンスがn回選択される確率は𝜆=1のポアソン分布で近似可能 • あるインスタンスが少なくとも⼀回以上選択される確率 1 − (1/𝑒) ≈ 0.632 • out-of-bagを⽤いてアンサンブルの⼀般化誤差を推定可能 • [Breiman, 1996][Tibshirani, 1996][Wolpert and Macready, 1999]
  • 25.
    Stable lerner • 訓練⽤標本の変化に対して敏感で無い基本学習アルゴリズム •bootstrap標本から訓練された基本学習器が類似 →baggingには安定していない基本学習器が良い • [Freidman and Hall, 2007] • ⾮線形性が⾼い学習器で⽤いるのが良い • ⾮線形性が⾼い学習器は不安定な傾向 • データ標本の変化に対して⼤きく変わる • [Ali and Pazzani, 1995, 1996] • Baggingは⼤きいデータに対していい傾向がない 25
  • 26.
    Ensemble of RandomTrees [Dietterrich, 2000] • Boosting, Bagging, Randomizedの⽐較検証 • Randomized • 分割にどの特徴量を⽤いるかをランダムに選択 • ⾮負の情報利得⽐を有する20の分割点から1つをランダムに選択(⾮常に雑) • No noize • Randomized ≥ Bagging • AdaBoost ≥ Randomized • More noizy • AdaBoostよりもRandomizedとBaggingが優れる • ↑Baggingの⽅が優れることがある • Randomizedは全てのデータを使うのでノイズに対してBaggingよりも弱い 26
  • 27.
    Ensemble of RandomTrees Random Forest[Breiman, 2001] • Baggingの拡張法の1つ • ランダムな特徴選択をする • 特徴数の対数を特徴の部分集合パラメータとすると良い • RFの訓練段階はBaggingよりも効率的 • ⽊の構築過程において分割選択のために • Baggingは全ての特徴の評価を⾏う • RFは特徴の部分集合の評価を⾏う 27
  • 28.
    Ensemble of RandomTrees PERT[Cutler and Zhao, 2001] • Perfect Random Tree Ensembles • 分割選択で,異なるクラスの2つのインスタンスを取り出し,属性をラ ンダムに選択し,ランダムに分割 • 他のアンサンブル⼿法と⽐較して⾮常に速くフィットする • 分割点選択が完全にランダムなので計算がはやいけど,⽊が⼤きくな る • Bootstrap Samplingしないことでバイアスを最⼩限に抑える 28
  • 29.
    Ensemble of RandomTrees [Robnik-Sikonja, 2004] • RFの改良PERT 1. 分割選択のための属性評価尺度を使⽤ • Tree間の相関が低下し,パフォーマンスのわずかな向上 • 依存性の⾼い属性を持つデータセットで顕著 2. 投票法の変更 • ⼊⼒に対してマージンが⾮負のTreeをマージンで投票を重み付け • 精度とAUCが優位に改善 29
  • 30.
    Ensemble of RandomTrees Rotation Forest [Rodriguez et al., 2006] • データセットの特徴量をK個の部分集合に分割(不連続・交差可) • ↑で分割したサブセットごとに75%のBootstrap Sampleとして選択 • それぞれに対してPCAを⾏い,rotation matrixを作成 • 基本学習器の構築に使⽤することで,多様な学習器を作成 30
  • 31.
    Ensemble of RandomTrees Extra-Trees[Geurts, et al., 2006] • Extremely randomized trees • PERTと似てる • 回帰問題にも使える • 計算がはやい • Bootstrap Samplingしないことでバイアスを最⼩限に抑える • 分割選択を完全ランダムにすることで他のランダム化よりも分散の減 少をはかる 31
  • 32.
    Ensemble of RandomTrees VR-Tree[Liu et al., 2008] • 特徴選択と分割選択の両⽅でランダム性 • ⽊の各ノードにおいて,確率𝛼で: • 決定論的なノードを構築 • ランダムに1つの特徴を選択し,その特徴に対しランダムな分割 • Coalescence • パラメータ𝛼を[0, 0.5]の区間でランダムに選択されるVR-Treesを集約 • RFや𝛼固定のVR-Trees ensembleよりも良い性能 32
  • 33.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods 4. Bagging 5. Boosting • Boosting • History of Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 33
  • 34.
    Boosting • 学習器が誤った箇所に着⽬する分布を 使って次の学習器を訓練する • ⼗分な強さを持った弱学習器 •too weak → 適合はうまくいかない • too strong→ 容易に過学習 • [Mukherjee and Schapire, 2010] • 弱学習器を明確に指定する⽅が良い • Sequential ensemble • 基本学習器が逐次的に⽣成される • SQ Boosting • ノイズ耐性を持つBoosting 34
  • 35.
    History of Boosting 計算論的学習理論[Kearnsand Valiant, 1989] • PAC: Probably Approximately Correct • 学習アルゴリズムの分布に依らないモデル化 • 仮説集合が有限,学習可能性を扱うフレームワーク 35
  • 36.
    History of Boosting •[Kearns and Valiant, 1989] • 「弱学習可能問題,強学習可能問題の2つの複雑性クラスは等しいのか?」 → 任意の弱学習器は潜在的に強学習器へと強化することが可能 • [Schapire, 1990] • 「等しいよ」→ boostingの導⼊ • [Freund, 1990, 1995] • boost-by-majority • SQBoostingノイズ耐性[Aslam and Decatur, 1993] • パラメータが多い • 基本学習器の誤差限界が事前にわかっている必要がある 36
  • 37.
    History of Boosting [Freundand Schapire, 1995] • Adaboost • 指数損失関数とニュートン法的な更新式による最適化 • 未知のパラメータが必要ないのでadaptive boosting • AdaBoost.M1 • 基本学習器に他クラス分類器を使うだけ • 全ての基本学習器は1/2以下の他クラス0/1損失を持たなければいけな いという強い制限 • AdaBoost.M2 • 1対1 • 擬似損失を最⼩化 37
  • 38.
    History of Boosting •[Schapire and Singer, 1999] • AdaBoost.MH • 1対他 • AdaBoost.MR • 1対1 • AdaBoost.M2の改良 • ランキング損失の最⼩化 • 最も⾼いランクのクラスは正しいクラスである可能性がより⾼い • [Freidman et al., 2000] • LogitBoost • 対数損失関数と最急降下法による最適化 38
  • 39.
    History of Boosting •[Domingo and Watanebe, 2000] • AdaBoostはノイズに弱い • (主に指数損失関数) • 間違たインスタンスの重みを⼤きく • → 正解クラスが間違いだったら? • MadaBoost • AdaBoostの重み更新ルールを変更 • SQ Boosting • [Freund, 2001] • BrownBoost • boost-by-majorityの適⽤ • BBMのノイズ耐性を引き継ぐ • 損失関数はブラウン運動過程[Gardiner, 2004] 39
  • 40.
    History of Boosting •[Demiriz et al., 2002] • LPBoost • 弱学習器の重みを数理計画法で解 く • 改良版のentropy regularized LPBoostは頻繁にAdaBoostよりも 性能が良い • [Buhlmann and Yu, 2003] • L2Boost • 𝑙*損失関数 • [Zhu et al., 2006] • SAMME, SAMME.R • AdaBoost.M1の改良 • Scikit-learn^5 • [Bradley and Schapire, 2008] • FilterBoost • 対数損失関数 • ⼤規模データを効率的に処理 • [Freund, 2009] • RobustBoost • BrownBoostの改良 • ノイズ耐性をさらに改善 • 損失関数はオルンシュタイン・ ウーレンベック過程[Gardiner, 2004]に対応 40 5: http://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_multiclass.html
  • 41.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 41
  • 42.
    Other Ensemble Methods BKS[Huangand Suen, 1993, 1995] • Behavior Knowledge Space • 各クラスのインスタンス数に応 じてアンサンブルの予測を決定 • 基本分類器の予測のうち最もイ ンスタンス数の多いものを予測 とする • ⼤きいデータ向き • ⼩標本に対する改善[Raudys and Roli, 2003] 42
  • 43.
    Other Ensemble Methods DTs[Kunchevaet al., 2001] • decision templetes • 分類器の出⼒によるプロファイル Decision Profile • ⼊⼒𝒙に対する分類器ℎJのクラス𝑐Hに対する確率ℎJ H (𝒙) • 𝐷𝑃 𝒙 = ℎ. . (𝒙) ⋯ ℎ. K (𝒙) ⋮ ⋱ ⋮ ℎ7 . (𝒙) ⋯ ℎ7 K (𝒙) • 𝐷𝑇H = . SU ∑ 𝐷𝑃(𝒙,)hW-iU • 類似性尺度を⽤いて尤もらしいDTのク ラスラベルを予測とする 43
  • 44.
    Other Ensemble Methods Stacking •個々の学習器を結合するために1つの学習器を訓練 する • 訓練データでfirst-level learnerを訓練 • first-level learnerの出⼒を基にmeta-learnerを訓練 • Stacked Generalization[Wolpert, 1992] • Stacked regressions[Breiman, 1996] • 1段⽬は⼤きさの異なる回帰⽊,線形回帰モデルを⽤いる • 2段⽬は最⼩⼆乗線形回帰(s.t. 全ての回帰係数が⾮負) 44
  • 45.
    Other Ensemble Methods •BMA[Domingos, 2000] • 事後確率に基づきモデルの重みを割り当てる • 理論的にDGM(Data Generating Model:正確なモデル)がある場合うまく機 能 • StackingC[Seewald, 2002] • Infinite ensemble[Lin and Li, 2008] • 全ての可能な仮説に対するコンビネーション重みを学習 • SVMに基づいて無限個の仮説をカーネルに埋め込む • → 特定のカーネルを持つSVMの訓練問題へと帰着 • ECOC[Dietterich and Bakiri, 1995][Allwein et al., 2000] • Error-Correcting Output Codes • 2クラス分類器の結合に基づく多クラス問題を扱うための⼿法 45
  • 46.
    Outline 1. Introduction 2. Rationalefor Ensemble Methods 3. Basics of Combination Methods 4. Bagging 5. Boosting 6. Other Ensemble Methods 7. Ensemble Pruning 46
  • 47.
    Ensemble Pruning • 訓練された個々の学習器 •全てを結合するのではなく,部分集合を選択する • [Zhou et al., 2002] • Many could be better than all • サニティーチェックはアンサンブル枝刈りではない • Boosting pruning[Margineantu and Ditterich, 1977] 47
  • 48.
    Ensemble Pruning [Tsoumakas etal., 2009] • アンサンブル枝刈りの分類 • Ranking based • 評価関数に従ってアンサンブルを⼀度構築し,基本学習器の⼊れ替えを⾏う • Clustering based • モデルをクラスタリングし,クラスタ毎に枝刈りを⾏う • Optimization based • 汎化性能を⽰す評価指標を最適化する基本学習器の部分集合を発⾒する 48
  • 49.
    Ensemble Pruning • Rankingbased • [Margineantu and Ditterich, 1977] • Reduce-error pruning • Kappa pruning • Kappa-error diagram pruning • [Martínez-Muñoz and Suárez, 2004] • Complementariness pruning • Margin distance pruning • [Martínez-Muñoz and Suárez, 2006] • Orientation pruning • [Martínez-Muñoz and Suárez, 2007] • Boosting-based pruning • [Partalas et al., 2009] • Reinforcement learning pruning • Clustering based • [Giacinto et al., 2000] • Hierarchical agglomerative clustering • [Lazarevic and Obradovic, 2001] • K-mean clustering • [Bakker and Heskes, 2003] • Deterministic annealing • Optimization based • [Zhou et al., 2002] • Genetic algorithm • SDP[Zhang et al., 2006] • RSE[Li and Zhou, 2009] • MAP[Chen et al, 2006, 2009] 49
  • 50.
    References [Application ofensembles] • S. Avidan, “Ensemble Tracking .pdf,” 2005. • J. Bergstra, N. Casagrande, D. Erhan, D. Eck, and B. K??gl, “Aggregate features and ADABOOST for music classification,” Mach. Learn., vol. 65, no. 2‒3, pp. 473‒484, 2006. • H. S. K. Chou, “Ensemble Classifier for Protein Fold Pattern Recognition Associate Editor : Keith A Crandall,” Image Process., no. 1, pp. 1‒6, 2006. • G. Giacinto, R. Perdisci, M. Del Rio, and F. Roli, “Intrusion detection in computer networks by a modular ensemble of one-class classifiers,” Inf. Fusion, vol. 9, no. 1, pp. 69‒82, 2008. • G. Giacinto, F. Roli, and L. Didaci, “Fusion of multiple classifiers for intrusion detection in computer networks,” Pattern Recognit. Lett., vol. 24, no. 12, pp. 1795‒1803, 2003. • F. J. H. F. J. Huang, Z. Z. Z. Zhou, H.-J. Z. H.-J. Zhang, and T. C. T. Chen, “Pose invariant face recognition,” Proc. IEEE 2000 Natl. Aerosp. Electron. Conf. NAECON 2000 Eng. Tomorrow Cat No00CH37093, vol. 6, no. 3, pp. 245‒250, 2000. • J. Z. Kolter and M. A. Maloof, “Learning to detect malicious executables in the wild,” Proc. 2004 ACM SIGKDD Int. Conf. Knowl. Discov. data Min. - KDD ʼ04, vol. 7, p. 470, 2004. • S. Z. Li, B. Schölkopf, H. Zhang, Q. Fu, and Y. Cheng, “Kernel machine based learning for multi-view face detection and pose estimation,” Iccv, no. Iccv, pp. 674‒679, 2001. • S. Panigrahi, A. Kundu, S. Sural, and A. K. Majumdar, “Credit card fraud detection: A fusion approach using Dempster-Shafer theory and Bayesian learning,” Inf. Fusion, vol. 10, no. 4, pp. 354‒363, 2009. • R. Polikar et al., “An ensemble based data fusion approach for early diagnosis of Alzheimerʼs disease,” Inf. Fusion, vol. 9, no. 1, pp. 83‒95, 2008. • M. G. Schultz, E. Eskin, E. Zadok, and S. J. Stolfo, “Data mining methods for detection of new malicious executables,” Proceedings. 2001 IEEE Symp. Secur. Privacy, 2001. S&P 2001., pp. 38‒49, 2001. • P. Viola and M. Jones, “Fast and Robust Classification using Asymmetric AdaBoost and a Detector Cascade,” Adv. Neural Inf. Process. Syst. 14, 2001. • P. Viola and M. J. Jones, “Robust Real-time Object Detection,” Int. J. Comput. Vis., no. February, pp. 1‒30, 2001. • D. West, S. Dellana, and J. Qian, “Neural network ensemble strategies for financial decision applications,” Comput. Oper. Res., vol. 32, no. 10, pp. 2543‒2559, 2005. • Z.-H. Zhou, Y. Jiang, Y.-B. Yang, and S.-F. Chen, “Lung cancer cell identification based on artificial neural network ensembles,” Artif. Intell. Med., vol. 24, no. 1, pp. 25‒36, 2002. 50
  • 51.
    References • K. Ali,“A comparison of methods for learning and combining evidence from multiple models,” Tech. Rep. 95-47, 1995. • K. M. Ali and M. J. Pazzani, “Error reduction through learning multiple descriptions,” Mach. Learn., vol. 202, pp. 173‒202, 1996. • E. L. Allwein, R. Schapire, and Y. Singer, “Reducing multiclass to binary: A unifying approach for margin classifiers,” J. Mach. Learn. …, vol. 1, pp. 113‒141, 2001. • J. a. Aslam and S. E. Decatur, “General bounds on statistical query learning and PAC learning withnnoise via hypothesis boosting,” Proc. 1993 IEEE 34th Annu. Found. Comput. Sci., vol. 118, pp. 85‒118, 1993. • B. Bakker and T. Heskes, “Clustering ensembles of neural network models,” Neural Networks, vol. 16, no. 2, pp. 261‒269, 2003. • E. Bauer, R. Kohavi, P. Chan, S. Stolfo, and D. Wolpert, “An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants,” Mach. Learn., vol. 36, no. August, pp. 105‒139, 1999. • J. K. Bradley and R. Schapire, “Filterboost: Regression and classification on large datasets,” Adv. Neural Inf. Process. Syst., vol. 20, no. 1997, pp. 185‒192, 2008. • L. Breiman, “Bagging predictors: Technical Report No. 421,” Mach. Learn., vol. 140, no. 2, p. 19, 1994. • L. Breiman, “Stacked regressions,” Mach. Learn., vol. 24, no. 1, pp. 49‒64, 1996. • L. Breiman, “Out-of-Bag Estimation,” Tech. Rep., pp. 1‒13, 1996. • L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. 1, pp. 5‒32, 2001. • P. Bühlmann and B. Yu, “Boosting With the L 2 Loss,” J. Am. Stat. Assoc., vol. 98, no. 462, pp. 324‒339, 2003. • H. Chen, P. Tino, and X. Yao, “A Probabilistic Ensemble Pruning Algorithm,” Sixth IEEE Int. Conf. Data Min. - Work., no. 1, pp. 878‒882, 2006. • H. Chen, P. Tiňo, and X. Yao, “Predictive ensemble pruning by expectation propagation,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 7, pp. 999‒1013, 2009. • A. Cutler and G. Zhao, “PERT - Perfect Random Tree Ensembles,” Comput. Sci. Stat., vol. 33, pp. 490‒497, 2001. • A. Demiriz et al., “Linear Programming Boosting via Column Generation,” pp. 1‒22, 2000. • T. G. Dietterich, “An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization,” Mach. Learn., vol. 40, no. 2, pp. 139‒157, 2000. • T. G. Dietterich, “Ensemble Methods in Machine Learning,” Mult. Classif. Syst., vol. 1857, pp. 1‒15, 2000. • T. G. Dietterich and G. Bakiri, “Solving Multiclass Learning Problems via Error-Correcting Output Codes,” Jouranal Artifical Intell. Res., vol. 2, pp. 263‒286, 1995. • C. Domingo and O. Watanabe, “MadaBoost: A Modification of AdaBoost,” Conf. Comput. Learn. Theory, pp. 180‒189, 2000. 51
  • 52.
    References • P. Domingos,“Bayesian Averaging of Classifiers and the Overfitting Problem,” Icml, pp. 223‒230, 2000. • Y. Freund, “Boosting a Weak Learning Algorithm by Majority,” Information and Computation, vol. 121, no. 2. pp. 256‒285, 1995. • Y. Freund, “Data Filtering and Distribution Modeling Algorithms for Machine Learning,” no. September, 1993. • Y. Freund, “An adaptive version of the boost by majority algorithm,” Mach. Learn., vol. 43, no. 3, pp. 293‒318, 2001. • Y. Freund, “A more robust boosting algorithm,” Mach. Learn., vol. arXiv:0905, pp. 1‒9, 2009. • Y. Freund and R. E. Schapire, “A desicion-theoretic generalization of on-line learning and an application to boosting,” vol. 139, pp. 23‒37, 1995. • J. H. Friedman and P. Hall, “On bagging and nonlinear estimation,” J. Stat. Plan. Inference, vol. 137, no. 3, pp. 669‒683, 2007. • J. Friedman, T. Hastie, and R. Tibshirani, “Additive Logistic Regression: a Statistical View of Boosting,” Int. J. Qual. Methods, vol. 16, no. 1, pp. 1‒71, 2000. • G. Fumera and F. Roli, “A theoretical and experimental analysis of linear combiners for multiple classifier systems,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 27, no. 6, pp. 942‒956, 2005. • P. Geurts, D. Ernst, and L. Wehenkel, “Extremely randomized trees,” Mach. Learn., vol. 63, no. 1, pp. 3‒42, 2006. • G. Giacinto, F. Roli, and G. Fumera, “Design of effective multiple classifier systems by clustering ofnclassifiers,” Proc. 15th Int. Conf. Pattern Recognition. ICPR-2000, vol. 2, 2000. • L. K. Hansen and P. Salamon, “Neural Network Ensembles,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 12, no. October, pp. 993‒1001, 1990. • T. K. Ho, J. J. Hull, and S. N. Srihari, “Decision Combination in Multiple Classifier Systems,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 16, no. 1, pp. 66‒75, 1994. • Y. S. Huang and C. Y. Suen, “A method of combining multiple experts for the recognition ofnunconstrained handwritten numerals,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 17, no. 1, pp. 90‒94, 1995. • M. Kearns and L. Valiant, “Cryptographic Limitations on Learning Boolean Formulae and Finite Automata,” J. ACM, vol. 41, no. 1, pp. 67‒95, 1994. • J. Kittler, M. Hater, and R. P. W. Duin, “Combining classifiers,” Proc. - Int. Conf. Pattern Recognit., vol. 2, no. 3, pp. 897‒901, 1996. • L. I. Kuncheva, J. C. Bezdek, and R. P. W. Duin, “Decision templates for multiple classifier fusion: an experimental comparison,” Pattern Recognit., vol. 34, no. 2, pp. 299‒314, 2001. • L. I. Kuncheva and J. J. Rodríguez, “A weighted voting framework for classifiers ensembles,” Knowl. Inf. Syst., vol. 38, no. 2, pp. 259‒275, 2014. • A. Lazarevic and Z. Obradovic, “Effective pruning of neural network classifier ensembles,” IJCNNʼ01. Int. Jt. Conf. Neural Networks. Proc. (Cat. No.01CH37222), vol. 2, no. January, pp. 796‒801, 2001. • N. Li and Z. H. Zhou, “Selective ensemble under regularization framework,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 5519 LNCS, pp. 293‒303, 2009. 52
  • 53.
    References • H. Linand L. Li, “Support Vector Machinery for Infinite Ensemble Learning,” J. Mach. Learn. Res., vol. 9, pp. 285‒312, 2008. • F. T. Liu, K. M. Ting, Y. Yu, and Z. H. Zhou, “Spectrum of Variable-Random Trees,” J. Artif. Intell. Res., vol. 32, pp. 355‒384, 2008. • D. D. Margineantu and T. G. Dietterich, “Pruning Adaptive Boosting,” Proc. Fourteenth Int. Conf. Mach. Learn., pp. 211--218, 1997. • G. Martínez-Muñoz and A. Suárez, “Using boosting to prune bagging ensembles,” Pattern Recognit. Lett., vol. 28, no. 1, pp. 156‒165, 2007. • G. Martínez-Muñoz and A. Suárez, “Pruning in Ordered Bagging Ensembles,” Proc. 23rd Int. Conf. Mach. Learn., pp. 609‒616, 2006. • G. Martínez-Muñoz and A. Suárez, “Aggregation ordering in bagging,” Proc. {IASTED} Int. Conf. Artif. Intell. Appl., pp. 258‒263, 2004. • I. Mukherjee and R. E. Schapire, “A theory of multiclass boosting,” J. Mach. Learn. Res., vol. 14, no. 1, pp. 437‒497, 2011. • A. Narasimhamurthy, “Theoretical bounds of majority voting performance for a binary classification problem,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 27, no. 12, pp. 1988‒1995, 2005. • D. W. Opitz and R. Maclin, “Popular Ensemble Methods: An Empirical Study,” J. Artif. Intell. Res., vol. 11, pp. 169‒198, 1999. • I. Partalas, G. Tsoumakas, and I. Vlahavas, “Pruning an ensemble of classifiers via reinforcement learning,” Neurocomputing, vol. 72, no. 7‒9, pp. 1900‒1909, 2009. • R. Polikar, “Ensemble based systems in decision making,” Circuits Syst. Mag. IEEE, vol. 6, no. 3, pp. 21‒45, 2006. • S. Raudys and F. Roli, “The behavior knowledge space fusion method: Analysis of generalization error and strategies for performance improvement,” Mult. Classif. Syst. 4th Int. Work. Lect. Notes Comput. Sci. Vol. 2709, pp. 55‒64, 2003. • M. Robnik-Sikonja, “Improving random forests,” Mach. Learn. ECML 2004, p. 12, 2004. • J. J. Rodriguez, L. I. Kuncheva, and C. J. Alonso, “Rotation forest: A New classifier ensemble method,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 28, no. 10, pp. 1619‒1630, 2006. • R. E. Schapire, “The Strength of Weak Learnability (Extended Abstract),” Mach. Learn., vol. 227, no. October, pp. 28‒33, 1990. • R. E. Schapire and Y. Singer, “Improved boosting algorithms using confidence-rated predictions,” Mach. Learn., vol. 37, no. 3, pp. 297‒336, 1999. • A. K. Seewald, “How to Make Stacking Better and Faster While Also Taking Care of an Unknown Weakness,” Icml, no. January 2002, pp. 554‒561, 2002. • R. Tibshirani, “Bias, variance and prediction error for classification rules,” Tech. Report, Univ. Toronto, pp. 1‒17, 1996. • K. Tumer and J. Ghosh, “Analysis of decision boundaries in linearly combined neural classifiers,” Pattern Recognit., vol. 29, no. 2, pp. 341‒348, 1996. • J. W. Vaughan, “CS260 : Machine Learning Theory Lecture 13 : Weak vs . Strong Learning and the Adaboost Algorithm Weak vs . Strong Learning AdaBoost,” pp. 1‒6, 2011. 53
  • 54.
    References • D. H.Wolpert and W. G. Macready, “No Free Lunch Theorems for Optimisation,” IEEE Trans. Evol. Comput., vol. 1, no. 1, pp. 67‒82, 1997. • D. H. Wolpert, “Stacked Generalization,” vol. 87545, no. 505, pp. 241‒259, 1992. • D. H. Wolpert, “The Lack of A Priori Distinctions Between Learning Algorithms,” Neural Comput., vol. 8, no. 7, pp. 1341‒1390, 1996. • L. Xu, A. Krzyżak, and C. Y. Suen, “Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition,” IEEE Trans. Syst. Man Cybern., vol. 22, no. 3, pp. 418‒435, 1992. • Y. Zhang, S. Burer, and W. N. Street, “Ensemble pruning via semi-definite programming,” J. Mach. Learn. Res., vol. 7, pp. 1315‒1338, 2006. • Z.-H. Zhou, J. Wu, and W. Tang, “Ensembling neural networks: Many could be better than all,” Artif. Intell., vol. 137, no. 1‒2, pp. 239‒263, May 2002. • J. Zhu, A. Arbor, and T. Hastie, “Multi-class AdaBoost,” pp. 0‒20, 2006. 54