SlideShare a Scribd company logo
1 of 38
非定常データストリームにおける
適応的決定木を用いた
アンサンブル学習
北海道大学 工学部
◯菅原 優
2019年3月14日
• 教師あり学習
 与えられた訓練データに潜む
決定ルールを推測する問題
実用例) ネットワーク監視、天気予報
• オンライン学習
 逐次的にサンプルが与えられ、
逐次的な予測が求められる教師あり学習
• 決定木とアンサンブル
 通常の教師あり学習の分野で特に
成果を挙げている学習手法
研究背景
1
• バッチ学習
• 全ての訓練データをまとめて受け取ってから学習
• 通常の教師あり学習問題
• オンライン学習
• 訓練データを1サンプルずつ逐次的に受け取る
• 新たなデータ到着毎に予測モデルを更新していく
• オンライン学習では…
• 各サンプルは逐次的に与えられ、順序を変更できない
• データサイズは予め与えられない
 上限なくデータが来ても,有限の計算資源で処理する必要がある
• 全てのデータを受け取ること無く
任意の時点で予測モデルを返さなければならない
問題設定 - バッチ学習とオンライン学習
2
対象はデータセット
対象はデータストリーム
本研究で扱うのは
こっち
• 途中でデータの特徴が変化することがある
• コンセプトドリフト と呼ばれる現象
• これを含む場合特に 非定常データストリーム と呼ぶ
• 予測モデルは常に最新の真の決定ルール(コンセプト)
に適応することが求められる
コンセプトドリフトと非定常データストリーム
3
現実には
データストリームの
多くが非定常
時間の経過に従って真の分布が変化
なぜ今オンライン学習が重要か
• 運用上の制約からバッチ学習が原理上不可能な場合
• 一定時間毎に到着する時系列データ等,どうやっても
一度に全てのデータを受け取ることはできない
• 最新のデータセットを受け取る度にいちいち初めから
バッチ学習アルゴリズムを走らせるわけにもいかない
• あまりにも巨大なデータセットに対しては
計算資源の観点からバッチ学習できない
• データストリームとして扱わざるを得ない場面が少なくない
 オンライン学習は広いニーズのある問題設定である
4
本研究の目的と概要
• 非定常データストリームに対応した
決定木構築アルゴリズムを用いたアンサンブル
 さらなる予測精度の向上を図る
• 用いるオンライン決定木構築アルゴリズム
• HAT-EWMA[Bifet & Gavaldà, 2009]
• 用いるオンラインアンサンブル手法
• Online Bagging[Oza & Russell, 2005]
• ADWIN Bagging[Bifet et al. 2009]
• 実験を通し,これら提案手法の評価を行う
5
本研究の位置づけ
6
本研究の位置づけ
7
• 説明変数の属する空間を再帰的に分割していく
• CART[Breiman+, 1984]やC4.5[Quinlan, 1993]といった従来の
バッチ学習手法は一度全てのデータを受け取ることを
前提とする
 データストリームの制約に反する
バッチ学習の場合 : Decision Tree (決定木)
8
• 全データの到着を待たずして
確率的に最善らしい分割を逐次的に実行する
オンライン決定木構築アルゴリズム
• 分割を実行するかの判断に Hoeffding Bound を利用
• 最善の基準値 と次善の基準値
この差が 以上になれば、 で分割を実行する
Hoeffding Tree (VFDT) [Domingos & Hulten, 2000]
9
幅𝑅の区間に
𝑛種類の値が生じる
𝛿はユーザー指定
ハイパーパラメータ
分割基準
𝐺(∙) は分割時に計算される情報利得関数
Hoeffding Tree とメモリ消費量
• Hoeffding Tree は受け取ったサンプルの情報を
カウント 𝑛𝑖𝑗𝑘 として記録する
• 𝑖番目の説明変数が値𝑗を取り,クラスラベルが𝑘な
サンプルを受け取った回数を記録
• これだけあれば情報利得の計算が可能
 サンプルをそのままの形で保持しておく必要はない
• メモリ消費量の大幅な削減
• 派生手法 Hoeffding Adaptive Tree で別の使い道も
• 後で説明します
10
Hoeffding Tree (VFDT)
11
• 1つの葉ノードしか
持たない決定木
からスタートする
• 葉ノードは受け取った
サンプルを蓄積する
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準
Hoeffding Tree (VFDT)
12
• 1つの葉ノードしか
持たない決定木
からスタートする
• 葉ノードは受け取った
サンプルを蓄積する
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準
Hoeffding Tree (VFDT)
13
• 十分なサンプルを得て
Hoeffding Bound を
満たす分割があれば
葉を分割
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準
Hoeffding Tree (VFDT)
14
• 十分なサンプルを得て
Hoeffding Bound を
満たす分割があれば
葉を分割
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準
Hoeffding Tree (VFDT)
15
• 十分なサンプルを得て
Hoeffding Bound を
満たす分割があれば
葉を分割
幅 𝑅 の区間に 𝑛 種類の値が生じる
𝛿 はユーザー指定ハイパーパラメータ
分割基準
• Hoeffding Tree は
定常データストリームからの学習を可能にした
• しかし、コンセプトドリフトに対応できない
• 一度作成した分割をその後見直すことがない
 非定常データストリームにも対応したい
Hoeffding Tree の問題点
16
時間の経過に従って真の分布が変化
本研究の位置づけ
17
Hoeffding Window Tree (HWT) [Bifet & Gavaldà, 2009]
18
1. 基本的にはVFDTの
ルールで決定木を構築
2. 精度の悪化を検知した
ノードで代替木を作成
3. 代替木は本線の木と
同様に構築していく
4. 代替木の性能が
元の木を上回ったら昇進
• VFDTとスライド窓を組み合わせることで
非定常データストリームへの対応を実現
HWT の動作イメージ図
直近 𝑀 サンプルのみを
記憶する装置
• HWTのコンセプトドリフト対応力を高める拡張を行った
具体的な実装が Hoeffding Adaptive Tree
• 決定木のノードが記憶するサンプルの情報 𝑛𝑖𝑗𝑘
について,過去に受け取ったものから忘却していく
• 具体的な忘却方法で3通りに派生
• HAT-ADWIN ADWIN[Bifet & Gavaldà, 2007]を使う
• HAT-EWMA 指数荷重移動平均を使う
• HAT-INC 線形荷重移動平均を使う
Hoeffding Adaptive Tree (HAT) [Bifet & Gavaldà, 2009]
19
適応的に窓長を決定するスライド窓(Adaptive Window)
窓内のサンプルの平均値に変化が無い最大の窓長
を維持する
• 先行研究[Bifet & Gavaldà, 2009]によれば…
• HAT3種のうち,HAT-ADWINが最良の予測精度
• HAT-EWMAは予測精度はわずかに劣るが効率的
• 計算時間,メモリ消費量共に約3倍の差
• アンサンブル化にあたっては
ある程度の計算効率の良さも求められる
• 単体で性能の良い基底学習器が必ずしも良い
アンサンブル効果をもたらすわけではない
 本研究では HAT-EWMA を基底学習器とする
アンサンブルに用いる基底学習器
20
本研究の位置づけ
21
• アンサンブル学習手法の一つ
• 複数の基底学習器を独立して同時に
学習させその合議によって予測
• 決定木との相性が良い
• 各基底学習器に異なる Bootstrap 標本を与える
 𝑁 個のサンプルから成るデータセットから
重複を許して 𝑁 個再抽出
• 基底学習器の予測モデルにばらつきをもたせる
 予測精度が向上する
• しかし,この方法はデータストリームの制約に反する
バッチ学習の場合 : Bootstrap Aggregating (Bagging)
22
A A B
アンサンブルサイズ 𝑀 = 3 のとき.
全体としての予測は多数決でA.
• オンライン学習可能な Bagging
• Bootstrap Sampling で,
あるサンプルが
𝑘 回抽出される確率
• これはポアソン分布(𝜆 = 1)で近似できる( 𝑁 → ∞ )
 各サンプルを平均1回ランダムに複数回学習する
 アンサンブルレベルでデータストリームへ対応可能に
• ただし,アンサンブルレベルでは
非定常データストリームへの対応はしない
Online Bagging[Oza & Russell, 2005]
23
弱学習器毎にPoisson(1)
を引いて学習回数を決定
本研究の位置づけ
24
• Online Bagging に
基底学習器の
追加/削除機能を加えたのが
ADWIN Bagging
• アンサンブル全体の精度を
ADWINで管理
 精度の悪化を検知した時
最も性能の低い基底学習器を
新しい基底学習器に置き換える
• アンサンブルレベルで非定常データストリームに対応
ADWIN Bagging [Bifet et al. 2009]
25
• ADWINはコンセプトドリフト検知機能を持つスライド窓
• 通常はサンプルを蓄積し続ける(窓を伸ばす)
• 異変を検知したらサンプル破棄(窓を縮める)
• 入力 : 0から1の実数値あるいはビット
• 新たなサンプルの到着毎に
全ての可能な分割による
部分窓 𝑤0 と 𝑤1 内の
平均値の乖離をチェック
• 乖離と窓サイズが
十分に大きければ
変化が生じたと判断
Adaptive Window (ADWIN) [Bifet & Gavaldà, 2007]
26
本研究の位置づけ
27
提案手法
• HAT を基底学習器として用いた Bagging
• Online Bagging の場合
• コンセプトドリフトへの対応は基底学習器に任せることになる
• 元論文で基底学習器は
Incremental Tree Induction[Utgoff +, 1997]を導入した決定木
• ADWIN Bagging の場合
• アンサンブルと基底学習器共にコンセプトドリフトに対応
• 元論文で基底学習器は
Adaptive-Size Hoeffding Tree (木の深さを制限したVFDT)
• これら Online HAT Bagging / ADWIN HAT Bagging の
性能を比較検討する
28
もう少し詳しく説明します
• ADWIN Bagging で用いられた基底学習器
• アンサンブルを前提としたアルゴリズムであり,単体では弱い
• 予めノード数に上限を定めた Hoeffding Tree
• 上限に達したら木をリセットする
• 定期的にリセットされるので,
一応,非定常データストリームに対応している
• Bagging 時には基底学習器毎に異なる
ノード数上限を与えておく
• リセットのタイミングにバラツキが生じるため,
一斉にリセットされて総崩れすることが無くなる
Adaptive Size Hoeffding Tree(ASHT) [Bifet et al. 2009]
29
実験
 実験内容
• 提案手法を含む複数の手法について,性能を比較する
• 単体の Adaptive Size Hoeffding Tree (ASHT)
• 単体の Hoeffding Adaptive Tree (HAT)
• ASHT または HAT による Online Bagging
• ASHT または HAT による ADWIN Bagging
• 各手法に対して4つの異なる非定常データストリームを与え
誤り率を比較する
• SEA (1% noise)
• SEA (10% noise)
• hyperplane-abrupt
• hyperplane-gradual
30
3変数→2クラス
分類問題
5変数→2クラス
分類問題
急激な Concept Drift
緩やかな Concept Drift
既存手法 提案手法
実験結果
 実験結果
• HAT-EWMA による Online / ADWIN Bagging は
他の手法よりも高い予測精度を発揮した
• 実行速度は
悪化
• 基底学習器
を並列化
すれば
高速になる
可能性も
31
まとめと今後の課題
• 非定常データストリームに対するアンサンブル学習
• 基底学習器,アンサンブル手法共にコンセプトドリフトに
対応する HAT-EWMA + ADWIN Bagging で最も良い精度
 実験に用いた全てのデータストリームで
既存手法よりも高い精度を発揮した
• 今後の課題
• Bagging ではなく Boosting ベースの手法を用いる
 精度の面では Boosting の方が良い結果となる場合が多い
• ノード分割の際にランダム性を取り込む方法の検討
 基底学習器同士の相関を引き下げることで
アンサンブルとしての精度向上に寄与する可能性
 実行時間の削減も期待できる
32
参考文献
[1] Pedro Domingos and Geoff Hulten. Mining high-speed data streams. In Proceedings of the
sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pp.
71–80. ACM, 2000.
[2] Albert Bifet and Ricard Gavaldà. Adaptive learning from evolving data streams. In International
Symposium on Intelligent Data Analysis, pp. 249–260. Springer, 2009.
[3] Nikunj Oza and Stuart Russell. Online bagging and boosting. In Proc. Artif. Intell. Statist., 2005,
pp. 105–112.
[4] Albert Bifet, Geoff Holmes, Bernhard Pfahringer, Richard Kirkby, and Ricard Gavaldà. New
ensemble methods for evolving data streams. In Proceedings of the 15th ACM SIGKDD
international conference on Knowledge discovery and data mining, pp. 139–148. ACM, 2009.
[5] Paul Utgoff. Decision tree induction based on efficient tree restructuring, Tech. Rept. 05-18,
University of Massachusetts, Amherst, MA, 1995.
[6] Ross Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann Publishers, 1993.
[7] Leo Breiman, Jerome Friedman, Richard Olshen, and C. J. Stone. Classifcation and
Regression Trees. Wadsworth, 1984.
[8] Albert Bifet and Ricard Gavaldà. Learning from time-changing data with adaptive windowing.
In Proceedings of the 2007 SIAM international conference on data mining, pp. 443–448.
SIAM, 2007.
33
以下は補足資料
34
• HAT – EWMAの内部ノードは過去に受け取った
サンプルの情報を減衰率 𝛼 で忘却していく
• ある時点 𝑘 でノード分割時の計算に使用する
統計情報 は、
直前の時点での統計情報 と
最新のサンプル を用いて
として得られる
HAT-EWMA の動作について
35
ユーザー指定のハイパーパラメータ
 実験結果
• 元論文で使用されていた(𝛿, 𝛼) = 10−4, 0.01 が
最善となるケースは無かった
• 最良の性能を発揮することが最も多かったのは
(𝛿, 𝛼) = (10−2, 0.9) のときだった
• 𝛿 が大きくなると内部ノード数と実行時間が増大する
• 𝛼 の設定は特にオーバーヘッドに影響を与えない
実験1 – HAT-EWMAのハイパーパラメータに関して
36
4つのデータストリームにおける平均損失割合
(10−2
, 0.9)(10−4
, 0.01)
各𝛿におけるオーバーヘッド
 実験結果(2)
• HAT 単体や VFDT を使った Bagging より精度が向上した
実験2 – HAT-EWMAを基底学習器としたBaggingに関し
て
37
他手法との平均損失割合の比較

More Related Content

What's hot

【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
データドリフトの紹介
データドリフトの紹介データドリフトの紹介
データドリフトの紹介Sho Tanaka
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性Satoshi Hara
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法Tatsuya Shirakawa
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRMLKatsuya Ito
 
Extremely fast decision tree 論文紹介
Extremely fast decision tree 論文紹介Extremely fast decision tree 論文紹介
Extremely fast decision tree 論文紹介Yu Sugawara
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214Kosuke Nakago
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介KCS Keio Computer Society
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 

What's hot (20)

【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
データドリフトの紹介
データドリフトの紹介データドリフトの紹介
データドリフトの紹介
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
Extremely fast decision tree 論文紹介
Extremely fast decision tree 論文紹介Extremely fast decision tree 論文紹介
Extremely fast decision tree 論文紹介
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
能動学習セミナー
能動学習セミナー能動学習セミナー
能動学習セミナー
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 

Similar to 非定常データストリームにおける適応的決定木を用いたアンサンブル学習

Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicHakky St
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択無職
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On陽平 山口
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task LearningDeep Learning JP
 
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine LearningMasanari Kimura
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へPreferred Networks
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象としてYusaku Kawaguchi
 
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価Masahito Ohue
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」Kaoru Nasuno
 

Similar to 非定常データストリームにおける適応的決定木を用いたアンサンブル学習 (20)

NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
強化学習5章
強化学習5章強化学習5章
強化学習5章
 
Nttr study 20130206_share
Nttr study 20130206_shareNttr study 20130206_share
Nttr study 20130206_share
 
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
 
MANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-OnMANABIYA Machine Learning Hands-On
MANABIYA Machine Learning Hands-On
 
Machine learning
Machine learningMachine learning
Machine learning
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
 
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として
新しいコンピュータ支援語学学習態度尺度作成の試み:英語を学習する大学生を対象として
 
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
Microsoft Azure上でのタンパク質間相互作用予測システムの並列計算と性能評価
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
 
M1GP Mori
M1GP MoriM1GP Mori
M1GP Mori
 

非定常データストリームにおける適応的決定木を用いたアンサンブル学習

  • 2. • 教師あり学習  与えられた訓練データに潜む 決定ルールを推測する問題 実用例) ネットワーク監視、天気予報 • オンライン学習  逐次的にサンプルが与えられ、 逐次的な予測が求められる教師あり学習 • 決定木とアンサンブル  通常の教師あり学習の分野で特に 成果を挙げている学習手法 研究背景 1
  • 3. • バッチ学習 • 全ての訓練データをまとめて受け取ってから学習 • 通常の教師あり学習問題 • オンライン学習 • 訓練データを1サンプルずつ逐次的に受け取る • 新たなデータ到着毎に予測モデルを更新していく • オンライン学習では… • 各サンプルは逐次的に与えられ、順序を変更できない • データサイズは予め与えられない  上限なくデータが来ても,有限の計算資源で処理する必要がある • 全てのデータを受け取ること無く 任意の時点で予測モデルを返さなければならない 問題設定 - バッチ学習とオンライン学習 2 対象はデータセット 対象はデータストリーム 本研究で扱うのは こっち
  • 4. • 途中でデータの特徴が変化することがある • コンセプトドリフト と呼ばれる現象 • これを含む場合特に 非定常データストリーム と呼ぶ • 予測モデルは常に最新の真の決定ルール(コンセプト) に適応することが求められる コンセプトドリフトと非定常データストリーム 3 現実には データストリームの 多くが非定常 時間の経過に従って真の分布が変化
  • 5. なぜ今オンライン学習が重要か • 運用上の制約からバッチ学習が原理上不可能な場合 • 一定時間毎に到着する時系列データ等,どうやっても 一度に全てのデータを受け取ることはできない • 最新のデータセットを受け取る度にいちいち初めから バッチ学習アルゴリズムを走らせるわけにもいかない • あまりにも巨大なデータセットに対しては 計算資源の観点からバッチ学習できない • データストリームとして扱わざるを得ない場面が少なくない  オンライン学習は広いニーズのある問題設定である 4
  • 6. 本研究の目的と概要 • 非定常データストリームに対応した 決定木構築アルゴリズムを用いたアンサンブル  さらなる予測精度の向上を図る • 用いるオンライン決定木構築アルゴリズム • HAT-EWMA[Bifet & Gavaldà, 2009] • 用いるオンラインアンサンブル手法 • Online Bagging[Oza & Russell, 2005] • ADWIN Bagging[Bifet et al. 2009] • 実験を通し,これら提案手法の評価を行う 5
  • 9. • 説明変数の属する空間を再帰的に分割していく • CART[Breiman+, 1984]やC4.5[Quinlan, 1993]といった従来の バッチ学習手法は一度全てのデータを受け取ることを 前提とする  データストリームの制約に反する バッチ学習の場合 : Decision Tree (決定木) 8
  • 10. • 全データの到着を待たずして 確率的に最善らしい分割を逐次的に実行する オンライン決定木構築アルゴリズム • 分割を実行するかの判断に Hoeffding Bound を利用 • 最善の基準値 と次善の基準値 この差が 以上になれば、 で分割を実行する Hoeffding Tree (VFDT) [Domingos & Hulten, 2000] 9 幅𝑅の区間に 𝑛種類の値が生じる 𝛿はユーザー指定 ハイパーパラメータ 分割基準 𝐺(∙) は分割時に計算される情報利得関数
  • 11. Hoeffding Tree とメモリ消費量 • Hoeffding Tree は受け取ったサンプルの情報を カウント 𝑛𝑖𝑗𝑘 として記録する • 𝑖番目の説明変数が値𝑗を取り,クラスラベルが𝑘な サンプルを受け取った回数を記録 • これだけあれば情報利得の計算が可能  サンプルをそのままの形で保持しておく必要はない • メモリ消費量の大幅な削減 • 派生手法 Hoeffding Adaptive Tree で別の使い道も • 後で説明します 10
  • 12. Hoeffding Tree (VFDT) 11 • 1つの葉ノードしか 持たない決定木 からスタートする • 葉ノードは受け取った サンプルを蓄積する 幅 𝑅 の区間に 𝑛 種類の値が生じる 𝛿 はユーザー指定ハイパーパラメータ 分割基準
  • 13. Hoeffding Tree (VFDT) 12 • 1つの葉ノードしか 持たない決定木 からスタートする • 葉ノードは受け取った サンプルを蓄積する 幅 𝑅 の区間に 𝑛 種類の値が生じる 𝛿 はユーザー指定ハイパーパラメータ 分割基準
  • 14. Hoeffding Tree (VFDT) 13 • 十分なサンプルを得て Hoeffding Bound を 満たす分割があれば 葉を分割 幅 𝑅 の区間に 𝑛 種類の値が生じる 𝛿 はユーザー指定ハイパーパラメータ 分割基準
  • 15. Hoeffding Tree (VFDT) 14 • 十分なサンプルを得て Hoeffding Bound を 満たす分割があれば 葉を分割 幅 𝑅 の区間に 𝑛 種類の値が生じる 𝛿 はユーザー指定ハイパーパラメータ 分割基準
  • 16. Hoeffding Tree (VFDT) 15 • 十分なサンプルを得て Hoeffding Bound を 満たす分割があれば 葉を分割 幅 𝑅 の区間に 𝑛 種類の値が生じる 𝛿 はユーザー指定ハイパーパラメータ 分割基準
  • 17. • Hoeffding Tree は 定常データストリームからの学習を可能にした • しかし、コンセプトドリフトに対応できない • 一度作成した分割をその後見直すことがない  非定常データストリームにも対応したい Hoeffding Tree の問題点 16 時間の経過に従って真の分布が変化
  • 19. Hoeffding Window Tree (HWT) [Bifet & Gavaldà, 2009] 18 1. 基本的にはVFDTの ルールで決定木を構築 2. 精度の悪化を検知した ノードで代替木を作成 3. 代替木は本線の木と 同様に構築していく 4. 代替木の性能が 元の木を上回ったら昇進 • VFDTとスライド窓を組み合わせることで 非定常データストリームへの対応を実現 HWT の動作イメージ図 直近 𝑀 サンプルのみを 記憶する装置
  • 20. • HWTのコンセプトドリフト対応力を高める拡張を行った 具体的な実装が Hoeffding Adaptive Tree • 決定木のノードが記憶するサンプルの情報 𝑛𝑖𝑗𝑘 について,過去に受け取ったものから忘却していく • 具体的な忘却方法で3通りに派生 • HAT-ADWIN ADWIN[Bifet & Gavaldà, 2007]を使う • HAT-EWMA 指数荷重移動平均を使う • HAT-INC 線形荷重移動平均を使う Hoeffding Adaptive Tree (HAT) [Bifet & Gavaldà, 2009] 19 適応的に窓長を決定するスライド窓(Adaptive Window) 窓内のサンプルの平均値に変化が無い最大の窓長 を維持する
  • 21. • 先行研究[Bifet & Gavaldà, 2009]によれば… • HAT3種のうち,HAT-ADWINが最良の予測精度 • HAT-EWMAは予測精度はわずかに劣るが効率的 • 計算時間,メモリ消費量共に約3倍の差 • アンサンブル化にあたっては ある程度の計算効率の良さも求められる • 単体で性能の良い基底学習器が必ずしも良い アンサンブル効果をもたらすわけではない  本研究では HAT-EWMA を基底学習器とする アンサンブルに用いる基底学習器 20
  • 23. • アンサンブル学習手法の一つ • 複数の基底学習器を独立して同時に 学習させその合議によって予測 • 決定木との相性が良い • 各基底学習器に異なる Bootstrap 標本を与える  𝑁 個のサンプルから成るデータセットから 重複を許して 𝑁 個再抽出 • 基底学習器の予測モデルにばらつきをもたせる  予測精度が向上する • しかし,この方法はデータストリームの制約に反する バッチ学習の場合 : Bootstrap Aggregating (Bagging) 22 A A B アンサンブルサイズ 𝑀 = 3 のとき. 全体としての予測は多数決でA.
  • 24. • オンライン学習可能な Bagging • Bootstrap Sampling で, あるサンプルが 𝑘 回抽出される確率 • これはポアソン分布(𝜆 = 1)で近似できる( 𝑁 → ∞ )  各サンプルを平均1回ランダムに複数回学習する  アンサンブルレベルでデータストリームへ対応可能に • ただし,アンサンブルレベルでは 非定常データストリームへの対応はしない Online Bagging[Oza & Russell, 2005] 23 弱学習器毎にPoisson(1) を引いて学習回数を決定
  • 26. • Online Bagging に 基底学習器の 追加/削除機能を加えたのが ADWIN Bagging • アンサンブル全体の精度を ADWINで管理  精度の悪化を検知した時 最も性能の低い基底学習器を 新しい基底学習器に置き換える • アンサンブルレベルで非定常データストリームに対応 ADWIN Bagging [Bifet et al. 2009] 25
  • 27. • ADWINはコンセプトドリフト検知機能を持つスライド窓 • 通常はサンプルを蓄積し続ける(窓を伸ばす) • 異変を検知したらサンプル破棄(窓を縮める) • 入力 : 0から1の実数値あるいはビット • 新たなサンプルの到着毎に 全ての可能な分割による 部分窓 𝑤0 と 𝑤1 内の 平均値の乖離をチェック • 乖離と窓サイズが 十分に大きければ 変化が生じたと判断 Adaptive Window (ADWIN) [Bifet & Gavaldà, 2007] 26
  • 29. 提案手法 • HAT を基底学習器として用いた Bagging • Online Bagging の場合 • コンセプトドリフトへの対応は基底学習器に任せることになる • 元論文で基底学習器は Incremental Tree Induction[Utgoff +, 1997]を導入した決定木 • ADWIN Bagging の場合 • アンサンブルと基底学習器共にコンセプトドリフトに対応 • 元論文で基底学習器は Adaptive-Size Hoeffding Tree (木の深さを制限したVFDT) • これら Online HAT Bagging / ADWIN HAT Bagging の 性能を比較検討する 28 もう少し詳しく説明します
  • 30. • ADWIN Bagging で用いられた基底学習器 • アンサンブルを前提としたアルゴリズムであり,単体では弱い • 予めノード数に上限を定めた Hoeffding Tree • 上限に達したら木をリセットする • 定期的にリセットされるので, 一応,非定常データストリームに対応している • Bagging 時には基底学習器毎に異なる ノード数上限を与えておく • リセットのタイミングにバラツキが生じるため, 一斉にリセットされて総崩れすることが無くなる Adaptive Size Hoeffding Tree(ASHT) [Bifet et al. 2009] 29
  • 31. 実験  実験内容 • 提案手法を含む複数の手法について,性能を比較する • 単体の Adaptive Size Hoeffding Tree (ASHT) • 単体の Hoeffding Adaptive Tree (HAT) • ASHT または HAT による Online Bagging • ASHT または HAT による ADWIN Bagging • 各手法に対して4つの異なる非定常データストリームを与え 誤り率を比較する • SEA (1% noise) • SEA (10% noise) • hyperplane-abrupt • hyperplane-gradual 30 3変数→2クラス 分類問題 5変数→2クラス 分類問題 急激な Concept Drift 緩やかな Concept Drift
  • 32. 既存手法 提案手法 実験結果  実験結果 • HAT-EWMA による Online / ADWIN Bagging は 他の手法よりも高い予測精度を発揮した • 実行速度は 悪化 • 基底学習器 を並列化 すれば 高速になる 可能性も 31
  • 33. まとめと今後の課題 • 非定常データストリームに対するアンサンブル学習 • 基底学習器,アンサンブル手法共にコンセプトドリフトに 対応する HAT-EWMA + ADWIN Bagging で最も良い精度  実験に用いた全てのデータストリームで 既存手法よりも高い精度を発揮した • 今後の課題 • Bagging ではなく Boosting ベースの手法を用いる  精度の面では Boosting の方が良い結果となる場合が多い • ノード分割の際にランダム性を取り込む方法の検討  基底学習器同士の相関を引き下げることで アンサンブルとしての精度向上に寄与する可能性  実行時間の削減も期待できる 32
  • 34. 参考文献 [1] Pedro Domingos and Geoff Hulten. Mining high-speed data streams. In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 71–80. ACM, 2000. [2] Albert Bifet and Ricard Gavaldà. Adaptive learning from evolving data streams. In International Symposium on Intelligent Data Analysis, pp. 249–260. Springer, 2009. [3] Nikunj Oza and Stuart Russell. Online bagging and boosting. In Proc. Artif. Intell. Statist., 2005, pp. 105–112. [4] Albert Bifet, Geoff Holmes, Bernhard Pfahringer, Richard Kirkby, and Ricard Gavaldà. New ensemble methods for evolving data streams. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 139–148. ACM, 2009. [5] Paul Utgoff. Decision tree induction based on efficient tree restructuring, Tech. Rept. 05-18, University of Massachusetts, Amherst, MA, 1995. [6] Ross Quinlan. C4.5: Programs for machine learning. Morgan Kaufmann Publishers, 1993. [7] Leo Breiman, Jerome Friedman, Richard Olshen, and C. J. Stone. Classifcation and Regression Trees. Wadsworth, 1984. [8] Albert Bifet and Ricard Gavaldà. Learning from time-changing data with adaptive windowing. In Proceedings of the 2007 SIAM international conference on data mining, pp. 443–448. SIAM, 2007. 33
  • 36. • HAT – EWMAの内部ノードは過去に受け取った サンプルの情報を減衰率 𝛼 で忘却していく • ある時点 𝑘 でノード分割時の計算に使用する 統計情報 は、 直前の時点での統計情報 と 最新のサンプル を用いて として得られる HAT-EWMA の動作について 35 ユーザー指定のハイパーパラメータ
  • 37.  実験結果 • 元論文で使用されていた(𝛿, 𝛼) = 10−4, 0.01 が 最善となるケースは無かった • 最良の性能を発揮することが最も多かったのは (𝛿, 𝛼) = (10−2, 0.9) のときだった • 𝛿 が大きくなると内部ノード数と実行時間が増大する • 𝛼 の設定は特にオーバーヘッドに影響を与えない 実験1 – HAT-EWMAのハイパーパラメータに関して 36 4つのデータストリームにおける平均損失割合 (10−2 , 0.9)(10−4 , 0.01) 各𝛿におけるオーバーヘッド
  • 38.  実験結果(2) • HAT 単体や VFDT を使った Bagging より精度が向上した 実験2 – HAT-EWMAを基底学習器としたBaggingに関し て 37 他手法との平均損失割合の比較

Editor's Notes

  1. …という題で、北海道大学工学部の菅原が発表させていただきます。
  2. まずは研究背景から説明させていただきます。 近年,情報通信技術の発達により、膨大な電子化データを収集できるようになった このデータから有益な情報を抽出する手法の一つが教師あり学習 教師あり学習の目的は,与えられた訓練データに潜む… 教師あり学習の分野の一つにオンライン学習というものがあります
  3. 本研究が対象にする問題は、データストリームからの教師あり分類学習です。 このような手法をオンライン学習と呼び、通常のバッチ学習と区別します。 バッチ学習では全ての訓練データを…反面,オンライン学習では訓練データを1サンプルずつ受け取ります。これによって、学習時に通常のバッチ学習にはない特殊な制約が発生します。第一に…
  4. また、データストリーム特有の問題として重大なものに コンセプトドリフトがあります。 例えばこのような訓練データを受け取り学習したとしても、その後真のデータ分布が変化してしまった場合、それまでに学習したルールはもはや意味を成しません。予測精度を維持するためには常に最新の真の決定ルールに従う必要があります。
  5. オンライン学習には困難がいくつかあることを説明したわけですが,では,なぜオンライン学習が重要なのかという話をします. まずわかりやすいのは,運用上の制約からバッチ学習が不可能な場面です.例えば… もう一つのケースとして,あまりにも巨大なデータセットもデータストリームとして扱わざるを得ない場合があります.
  6. 本研究では、最終的に非定常データストリームに対応した決定木構築アルゴリズムを用いてアンサンブル学習を行うことを目的とします。
  7. ここからは、各既存手法の説明に入ります。 青で示されているのが…
  8. まずはこの領域から説明します。
  9. まずは決定木のおさらいです。 従来のバッチ学習手法であるCARTやC4.5において、決定木の構築にあたっては、全ての訓練データから成る集合を再帰的に分割していくことが求められます。 しかしこの方法は…
  10. そこで、決定木をオンライン学習可能にしたものがヘフディングツリー, あるいはVery Fast Decision Tree(VFDT)です。 VFDTは…
  11. さらにもう一つ説明しておかなければならない点として,Hoeffding Treeは…
  12. ヘフディングツリーの動作イメージをアニメーションにしました.ヘフディングツリーははじめ,1つの葉ノードしか…
  13. このようにして,ヘフディングツリーは定常データストリームからの学習を可能にしました. しかし…
  14. そこで、 VFDTからの発展形であるHoeffding Window Tree を説明します。
  15. HWTは、VFDTにスライド窓を組み合わせることで非定常データストリームへの対応を実現したものです。 木の各内部ノードは、自身を根とする部分木の予測精度を管理する機能を持っています。 …この,すでに作成した木の構造を見直すという操作を行うことで,HWTは非定常データストリームへの対応を可能にしています.
  16. HWTの時点で理論上は非定常データストリームへの対応が可能になったのですが、 より実用的にするためHWTのコンセプトドリフト対応能力を高める拡張を… HATもヘフディングツリーの派生アルゴリズムなので,受け取ったサンプルの情報はカウントNijkに記録するわけですが,HATではここに手を加えます.
  17. 今回は基底学習器として,HATの派生の中でもHAT-EWMAを使用することとしました。 先程3種類のHATの派生系を説明しましたが、そのうち…
  18. さて、これで決定木からの派生アルゴリズムについては説明し終わりましたので、ここからはアンサンブル手法について見ていきます。 !ここまでで10分が望ましい
  19. アンサンブルとは,複数の基底学習器を同時に学習させる方法です. アンサンブル手法の一つにBootstrap Aggregating (Bagging)があります。 Baggingでは基底学習器毎にBootstrap標本を作成し、これを基にそれぞれの基底学習器が同時に学習を行い,合議によって予測を得ます.
  20. Baggingをオンライン学習可能にしたものがOnline Baggingです. Online Baggingではどんなことをやるかといいますと,こちらの図を見てほしいのですが… さて,なぜこんな操作をするのかといいますと…
  21. ADWINについてもう少し詳しく説明します. ADWINは… HWTにおける部分木の精度管理にもこのADWINを用いています.
  22. 以上で既存手法の説明を終わりましたので、 ようやく提案手法の説明に移ります。 ここまでで16分が望ましい?
  23. 本研究では、Hoeffding Adaptive Treeを基底学習器として用いたBaggingを提案します。 Bagging手法として先程2つの手法を紹介させていただきました。 Online Baggingの場合、コンセプトドリフトへの対応は基底学習器であるHATに任せることになります。ADWIN Baggingの場合…
  24. 比較対象として用いますので,ADWIN Baggingで元々用いられていた基底学習器である アダプティブサイズヘフディングツリーについて説明します.
  25. というわけでまとめです,本研究では,HAT-EWMAを基底学習器とした… 今後の課題としては,まずアンサンブル手法としてBaggingではなくBoostingを用いる… もう一つの方法としては,ノード分割の際にランダム性を取り込むことも考えられます. これはRandom Forest等で行われている方法で,弱学習器同士の相関を引き下げることで…