非定常データストリームにおける適応的決定木を用いたアンサンブル学習

非定常データストリームにおける
適応的決定木を用いた
アンサンブル学習
北海道大学工学部
◯菅原優
2019年3月14日

• 教師あり学習
 与えられた訓練データに潜む
決定ルールを推測する問題
実用例）ネットワーク監視、天気予報
• オンライン学習
 逐次的にサンプルが与えられ、
逐次的な予測が求められる教師あり学習
• 決定木とアンサンブル
 通常の教師あり学習の分野で特に
成果を挙げている学習手法
研究背景
1

• バッチ学習
• 全ての訓練データをまとめて受け取ってから学習
• 通常の教師あり学習問題
• オンライン学習
• 訓練データを1サンプルずつ逐次的に受け取る
• 新たなデータ到着毎に予測モデルを更新していく
• オンライン学習では…
• 各サンプルは逐次的に与えられ、順序を変更できない
• データサイズは予め与えられない
 上限なくデータが来ても，有限の計算資源で処理する必要がある
• 全てのデータを受け取ること無く
任意の時点で予測モデルを返さなければならない
問題設定 - バッチ学習とオンライン学習
2
対象はデータセット
対象はデータストリーム
本研究で扱うのは
こっち

• 途中でデータの特徴が変化することがある
• コンセプトドリフトと呼ばれる現象
• これを含む場合特に非定常データストリームと呼ぶ
• 予測モデルは常に最新の真の決定ルール(コンセプト)
に適応することが求められる
コンセプトドリフトと非定常データストリーム
3
現実には
データストリームの
多くが非定常
時間の経過に従って真の分布が変化

なぜ今オンライン学習が重要か
• 運用上の制約からバッチ学習が原理上不可能な場合
• 一定時間毎に到着する時系列データ等，どうやっても
一度に全てのデータを受け取ることはできない
• 最新のデータセットを受け取る度にいちいち初めから
バッチ学習アルゴリズムを走らせるわけにもいかない
• あまりにも巨大なデータセットに対しては
計算資源の観点からバッチ学習できない
• データストリームとして扱わざるを得ない場面が少なくない
 オンライン学習は広いニーズのある問題設定である
4

本研究の目的と概要
• 非定常データストリームに対応した
決定木構築アルゴリズムを用いたアンサンブル
 さらなる予測精度の向上を図る
• 用いるオンライン決定木構築アルゴリズム
• HAT-EWMA[Bifet & Gavaldà, 2009]
• 用いるオンラインアンサンブル手法
• Online Bagging[Oza & Russell, 2005]
• ADWIN Bagging[Bifet et al. 2009]
• 実験を通し，これら提案手法の評価を行う
5

• 説明変数の属する空間を再帰的に分割していく
• CART[Breiman+, 1984]やC4.5[Quinlan, 1993]といった従来の
バッチ学習手法は一度全てのデータを受け取ることを
前提とする
 データストリームの制約に反する
バッチ学習の場合 : Decision Tree （決定木）
8

• 全データの到着を待たずして
確率的に最善らしい分割を逐次的に実行する
オンライン決定木構築アルゴリズム
• 分割を実行するかの判断に Hoeffding Bound を利用
• 最善の基準値と次善の基準値
この差が以上になれば、で分割を実行する
Hoeffding Tree (VFDT) [Domingos & Hulten, 2000]
9
幅𝑅の区間に
𝑛種類の値が生じる
𝛿はユーザー指定
ハイパーパラメータ
分割基準
𝐺(∙) は分割時に計算される情報利得関数

Hoeffding Tree とメモリ消費量
• Hoeffding Tree は受け取ったサンプルの情報を
カウント 𝑛𝑖𝑗𝑘 として記録する
• 𝑖番目の説明変数が値𝑗を取り，クラスラベルが𝑘な
サンプルを受け取った回数を記録
• これだけあれば情報利得の計算が可能
 サンプルをそのままの形で保持しておく必要はない
• メモリ消費量の大幅な削減
• 派生手法 Hoeffding Adaptive Tree で別の使い道も
• 後で説明します
10

Hoeffding Tree (VFDT)
11
• 1つの葉ノードしか
持たない決定木
からスタートする
• 葉ノードは受け取った
サンプルを蓄積する
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準

12
• 1つの葉ノードしか
持たない決定木
からスタートする
• 葉ノードは受け取った
サンプルを蓄積する
分割基準

13
• 十分なサンプルを得て
Hoeffding Bound を
満たす分割があれば
葉を分割
分割基準

14
Hoeffding Bound を
葉を分割
分割基準

15
Hoeffding Bound を
葉を分割
分割基準

• Hoeffding Tree は
定常データストリームからの学習を可能にした
• しかし、コンセプトドリフトに対応できない
• 一度作成した分割をその後見直すことがない
 非定常データストリームにも対応したい
Hoeffding Tree の問題点
16
時間の経過に従って真の分布が変化

Hoeffding Window Tree (HWT) [Bifet & Gavaldà, 2009]
18
1. 基本的にはVFDTの
ルールで決定木を構築
2. 精度の悪化を検知した
ノードで代替木を作成
3. 代替木は本線の木と
同様に構築していく
4. 代替木の性能が
元の木を上回ったら昇進
• VFDTとスライド窓を組み合わせることで
非定常データストリームへの対応を実現
HWT の動作イメージ図
直近 𝑀 サンプルのみを
記憶する装置

• HWTのコンセプトドリフト対応力を高める拡張を行った
具体的な実装が Hoeffding Adaptive Tree
• 決定木のノードが記憶するサンプルの情報 𝑛𝑖𝑗𝑘
について，過去に受け取ったものから忘却していく
• 具体的な忘却方法で3通りに派生
• HAT-ADWIN ADWIN[Bifet & Gavaldà, 2007]を使う
• HAT-EWMA 指数荷重移動平均を使う
• HAT-INC 線形荷重移動平均を使う
Hoeffding Adaptive Tree (HAT) [Bifet & Gavaldà, 2009]
19
適応的に窓長を決定するスライド窓（Adaptive Window）
窓内のサンプルの平均値に変化が無い最大の窓長
を維持する

• 先行研究[Bifet & Gavaldà, 2009]によれば…
• HAT3種のうち，HAT-ADWINが最良の予測精度
• HAT-EWMAは予測精度はわずかに劣るが効率的
• 計算時間，メモリ消費量共に約3倍の差
• アンサンブル化にあたっては
ある程度の計算効率の良さも求められる
• 単体で性能の良い基底学習器が必ずしも良い
アンサンブル効果をもたらすわけではない
 本研究では HAT-EWMA を基底学習器とする
アンサンブルに用いる基底学習器
20

• アンサンブル学習手法の一つ
• 複数の基底学習器を独立して同時に
学習させその合議によって予測
• 決定木との相性が良い
• 各基底学習器に異なる Bootstrap 標本を与える
 𝑁 個のサンプルから成るデータセットから
重複を許して 𝑁 個再抽出
• 基底学習器の予測モデルにばらつきをもたせる
 予測精度が向上する
• しかし，この方法はデータストリームの制約に反する
バッチ学習の場合 : Bootstrap Aggregating (Bagging)
22
A A B
アンサンブルサイズ 𝑀 = 3 のとき．
全体としての予測は多数決でA．

• オンライン学習可能な Bagging
• Bootstrap Sampling で，
あるサンプルが
𝑘 回抽出される確率
• これはポアソン分布(𝜆 = 1)で近似できる( 𝑁 → ∞ )
 各サンプルを平均1回ランダムに複数回学習する
 アンサンブルレベルでデータストリームへ対応可能に
• ただし，アンサンブルレベルでは
非定常データストリームへの対応はしない
Online Bagging[Oza & Russell, 2005]
23
弱学習器毎にPoisson(1)
を引いて学習回数を決定

• Online Bagging に
基底学習器の
追加/削除機能を加えたのが
ADWIN Bagging
• アンサンブル全体の精度を
ADWINで管理
 精度の悪化を検知した時
最も性能の低い基底学習器を
新しい基底学習器に置き換える
• アンサンブルレベルで非定常データストリームに対応
ADWIN Bagging [Bifet et al. 2009]
25

• ADWINはコンセプトドリフト検知機能を持つスライド窓
• 通常はサンプルを蓄積し続ける（窓を伸ばす）
• 異変を検知したらサンプル破棄（窓を縮める）
• 入力 : 0から1の実数値あるいはビット
• 新たなサンプルの到着毎に
全ての可能な分割による
部分窓 𝑤0 と 𝑤1 内の
平均値の乖離をチェック
• 乖離と窓サイズが
十分に大きければ
変化が生じたと判断
Adaptive Window (ADWIN) [Bifet & Gavaldà, 2007]
26

提案手法
• HAT を基底学習器として用いた Bagging
• Online Bagging の場合
• コンセプトドリフトへの対応は基底学習器に任せることになる
• 元論文で基底学習器は
Incremental Tree Induction[Utgoff +, 1997]を導入した決定木
• ADWIN Bagging の場合
• アンサンブルと基底学習器共にコンセプトドリフトに対応
• 元論文で基底学習器は
Adaptive-Size Hoeffding Tree （木の深さを制限したVFDT）
• これら Online HAT Bagging / ADWIN HAT Bagging の
性能を比較検討する
28
もう少し詳しく説明します

• ADWIN Bagging で用いられた基底学習器
• アンサンブルを前提としたアルゴリズムであり，単体では弱い
• 予めノード数に上限を定めた Hoeffding Tree
• 上限に達したら木をリセットする
• 定期的にリセットされるので，
一応，非定常データストリームに対応している
• Bagging 時には基底学習器毎に異なる
ノード数上限を与えておく
• リセットのタイミングにバラツキが生じるため，
一斉にリセットされて総崩れすることが無くなる
Adaptive Size Hoeffding Tree(ASHT) [Bifet et al. 2009]
29

実験
 実験内容
• 提案手法を含む複数の手法について，性能を比較する
• 単体の Adaptive Size Hoeffding Tree (ASHT)
• 単体の Hoeffding Adaptive Tree (HAT)
• ASHT または HAT による Online Bagging
• ASHT または HAT による ADWIN Bagging
• 各手法に対して4つの異なる非定常データストリームを与え
誤り率を比較する
• SEA (1% noise)
• SEA (10% noise)
• hyperplane-abrupt
• hyperplane-gradual
30
3変数→2クラス
分類問題
5変数→2クラス
分類問題
急激な Concept Drift
緩やかな Concept Drift

既存手法提案手法
実験結果
 実験結果
• HAT-EWMA による Online / ADWIN Bagging は
他の手法よりも高い予測精度を発揮した
• 実行速度は
悪化
• 基底学習器
を並列化
すれば
高速になる
可能性も
31

まとめと今後の課題
• 非定常データストリームに対するアンサンブル学習
• 基底学習器，アンサンブル手法共にコンセプトドリフトに
対応する HAT-EWMA + ADWIN Bagging で最も良い精度
 実験に用いた全てのデータストリームで
既存手法よりも高い精度を発揮した
• 今後の課題
• Bagging ではなく Boosting ベースの手法を用いる
 精度の面では Boosting の方が良い結果となる場合が多い
• ノード分割の際にランダム性を取り込む方法の検討
 基底学習器同士の相関を引き下げることで
アンサンブルとしての精度向上に寄与する可能性
 実行時間の削減も期待できる
32

参考文献
[1] Pedro Domingos and Geoff Hulten. Mining high-speed data streams. In Proceedings of the
sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pp.
71–80. ACM, 2000.
[2] Albert Bifet and Ricard Gavaldà. Adaptive learning from evolving data streams. In International
Symposium on Intelligent Data Analysis, pp. 249–260. Springer, 2009.
[3] Nikunj Oza and Stuart Russell. Online bagging and boosting. In Proc. Artif. Intell. Statist., 2005,
pp. 105–112.
[4] Albert Bifet, Geoff Holmes, Bernhard Pfahringer, Richard Kirkby, and Ricard Gavaldà. New
ensemble methods for evolving data streams. In Proceedings of the 15th ACM SIGKDD
international conference on Knowledge discovery and data mining, pp. 139–148. ACM, 2009.
[5] Paul Utgoff. Decision tree induction based on efficient tree restructuring, Tech. Rept. 05-18,
University of Massachusetts, Amherst, MA, 1995.
[6] Ross Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann Publishers, 1993.
[7] Leo Breiman, Jerome Friedman, Richard Olshen, and C. J. Stone. Classifcation and
Regression Trees. Wadsworth, 1984.
[8] Albert Bifet and Ricard Gavaldà. Learning from time-changing data with adaptive windowing.
In Proceedings of the 2007 SIAM international conference on data mining, pp. 443–448.
SIAM, 2007.
33

• HAT – EWMAの内部ノードは過去に受け取った
サンプルの情報を減衰率 𝛼 で忘却していく
• ある時点 𝑘 でノード分割時の計算に使用する
統計情報は、
直前の時点での統計情報と
最新のサンプルを用いて
として得られる
HAT-EWMA の動作について
35
ユーザー指定のハイパーパラメータ

 実験結果
• 元論文で使用されていた(𝛿, 𝛼) = 10−4, 0.01 が
最善となるケースは無かった
• 最良の性能を発揮することが最も多かったのは
(𝛿, 𝛼) = (10−2, 0.9) のときだった
• 𝛿 が大きくなると内部ノード数と実行時間が増大する
• 𝛼 の設定は特にオーバーヘッドに影響を与えない
実験1 – HAT-EWMAのハイパーパラメータに関して
36
4つのデータストリームにおける平均損失割合
(10−2
, 0.9)(10−4
, 0.01)
各𝛿におけるオーバーヘッド

 実験結果（2）
• HAT 単体や VFDT を使った Bagging より精度が向上した
実験2 – HAT-EWMAを基底学習器としたBaggingに関し
て
37
他手法との平均損失割合の比較

非定常データストリームにおける適応的決定木を用いたアンサンブル学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 非定常データストリームにおける適応的決定木を用いたアンサンブル学習

Similar to 非定常データストリームにおける適応的決定木を用いたアンサンブル学習 (20)

非定常データストリームにおける適応的決定木を用いたアンサンブル学習

Editor's Notes