* Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach. AISTATS'18 (to appear).
arXiv ver.: https://arxiv.org/abs/1606.09066#
* GitHub
https://github.com/sato9hara/defragTrees
First part shows several methods to sample points from arbitrary distributions. Second part shows application to population genetics to infer population size and divergence time using obtained sequence data.
Convex Hull Approximation of Nearly Optimal Lasso SolutionsSatoshi Hara
Satoshi Hara, Takanori Maehara. Convex Hull Approximation of Nearly Optimal Lasso Solutions. In Proceedings of 16th Pacific Rim International Conference on Artificial Intelligence, Part II, pages 350--363, 2019.
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Satoshi Hara
【NeurIPS 2018 読み会 in 京都】
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and Thresholds
https://papers.nips.cc/paper/8120-theoretical-linear-convergence-of-unfolded-ista-and-its-practical-weights-and-thresholds
ERATO感謝祭 Season IV
【参考】Satoshi Hara and Takanori Maehara. Enumerate Lasso Solutions for Feature Selection. In Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI'17), pages 1985--1991, 2017.
2. 論文とコード
n Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A
Bayesian Model Selection Approach. AISTATS'18 (to appear).
• arXiv ver.: https://arxiv.org/abs/1606.09066#
n GitHub
• https://github.com/sato9hara/defragTrees
2
6. なぜアンサンブル木? → 最も使われているモデルだから
n 2016年のKaggleコンペで一番使われたのがXGBoost。
• ちなみに二番はKeras(deep learning)
n MicrosoftのLightGBMも有名。
n 一方、XGBoostなどを使っている
ユーザからは解釈性が低いのが課題、
という声も上がっている。
n XGBoostなどアンサンブル木の解釈性を
向上することでデータサイエンティスト
の分析業務をより効果的にしたい。
6
Kaggleブログより
アンサンブル木
アンサンブル木
7. 【参考】アンサンブル木モデル
n 決定木:ルールに従って入力xの属する領域を決定し、その領域に対応した予測
値を返すモデル。解釈性が高い。
n アンサンブル木:複数の決定木を組みわせる手法。
• 少しずつ異なる決定木の足し算(平均)や多数決で予測値を出力する。
7
x1 > 0.5
x2 > 0.5
y=0 y=1
x2 > 0.5
y=1 y=0
no yes
no yes no yes
y = XOR(x1 < 0.5, x2 < 0.5) + ✏
y=0.1 y=1.0 y=0.8 y=0.1
no yes
no yes no yes
y=0.1 y=0.9 y=1.1 y=0.0
no yes
no yes no yes
y=0.2 y=0.9 y=1.1 y=0.3
no yes
no yes no yes
+ + = 1.0
x1= 0.2, x2=0.8の
場合の例x1>0.4
x2>0.3 x2>0.7
x1>0.6
x2>0.4 x2>0.5
x2>0.5
x1>0.4 x1>0.7
8. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 8
15. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 15
16. 既存研究:Born Again Trees (Breiman & Shang, ‘96)
n 学習で得られた任意のモデルを決定木で事後的に近似する。
• 入力 をランダムに大量に生成する。
• 学習されたモデル を元に、 により擬似的に学習データを生成する。
• 擬似学習データで決定木を学習する。
- 枝刈りとか細かいテクニックは省略。
n 特徴
• アイディアはすごくシンプル。
• 元データよりも多くの擬似学習データで決定木を作るため、一般に深い木になる傾
向がある。あまりに木が深すぎると解釈が困難になる。
16
y = ˆf(x)ˆf
x
17. 既存研究:inTrees (Deng, ‘14)
n 複数の決定木のノード分割ルールのうち、頻出度合い、予測への貢献、ルール
の長さ、という3つの指標に基づいて重要なルールを抽出する。
n 特徴
• 分類問題に特化した手法。回帰の場合はまず出力を離散化して分類問題に直して
から処理を行う。
• 細かいルールを抽出する傾向にある。
• 抽出されたルールの間には領域の重複が大きい。重複が大きいと解釈が困難にな
る。
17
19. 既存研究の問題点と提案法
n Born Again Trees
• 一般に深い決定木が学習される。あまりに木が深すぎると解釈が困難になる。
n inTrees
• 適用対象が分類に限られる。
• 抽出されたルールの重複が大きく解釈が難しい。
n Node Harvest
• 適用対象が回帰に限られる。
• 学習結果もアンサンブルなので解釈が難しい。
n 提案法
• ルール数の少ないモデルが学習されるので解釈が容易。
• 分類にも回帰にも使える。
19
20. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 20
22. アンサンブル木:領域を使ったアンサンブル木の表現
n アンサンブル木は分割された入力空間の領域と各領域の予測値を使って記述で
きる。
22
x1
x2
y=0 y=1 y=0 y=1
no yes
no yes no yes
y=0 y=0 y=0 y=1
no yes
no yes no yes
y=0 y=1 y=0 y=1
no yes
no yes no yes
+ +
x1>0.7
x2>0.4 x2>0.7
x1>0.6
x2>0.5 x2>0.6
x2>0.5
x1>0.5 x1>0.7 …
x1
x2
+ + …
x1
x2
y = ↵
˜IX
i=1
˜ziI(x 2 ˜Ri) + ↵0
˜I0
X
i0=1
˜z0
i0 I(x 2 ˜R0
i0 ) + ↵00
˜I00
X
i00=1
˜z00
i00 I(x 2 ˜R00
i00 ) + . . .
23. アンサンブル木:領域を使ったアンサンブル木の表現
n アンサンブル木は分割された入力空間の領域と各領域の予測値を使って記述で
きる。
23
y=0 y=1 y=0 y=1
no yes
no yes no yes
y=0 y=0 y=0 y=1
no yes
no yes no yes
y=0 y=1 y=0 y=1
no yes
no yes no yes
+ +
x1>0.7
x2>0.4 x2>0.7
x1>0.6
x2>0.5 x2>0.6
x2>0.5
x1>0.5 x1>0.7 …
y = ↵
˜IX
i=1
˜ziI(x 2 ˜Ri) + ↵0
˜I0
X
i0=1
˜z0
i0 I(x 2 ˜R0
i0 ) + ↵00
˜I00
X
i00=1
˜z00
i00 I(x 2 ˜R00
i00 ) + . . .
y =
GX
g=1
zgI(x 2 Rg)
Rg = ˜Ri ˜R0
i0 ˜R00
i00 . . .
zg = ↵˜zi + ↵0
˜z0
i0 + ↵00
˜z00
i00 + . . .
24. 問題:アンサンブル木を簡略化する。
n アンサンブル木はG個の領域で表現される。(=G個のルールで記述される。)
• Gは一般に木の本数に対して指数。
• 指数個あるルールを人間が解釈するのはほぼ不可能。
n 簡略化:アンサンブル木をたかだかK個の領域で近似する。
• 予測値 と領域 を最適化することで近似モデルを作る。
• 領域数Kを適当な値に自動決定する。
- 領域が少なすぎると、データの重要な側面を見落としてしまう恐れがある。
- 領域が多すぎると、解釈が困難になる。
24
GX
g=1
zgI(x 2 Rg) ⇡
KX
k=1
z0
kI(x 2 R0
k), (K ⌧ G)
z0
k R0
k
y =
GX
g=1
zgI(x 2 Rg)
25. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• データ
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 25
39. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• データ
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 39
40. EMアルゴリズムによるパラメータ推定
n アンサンブル木の確率的生成モデル表現
n データ からパラメータ を推定する。
n EMアルゴリズムの欠点:適切な領域数Kをユーザが指定する必要がある。
40
p(y, s, u|⇧, G) =
GY
g=1
(p(y| g)p(s|⌘g))
ug
p(ug|↵) ⇧ = { , ⌘, ↵}
モデルパラメータ
D = {y(n)
, s(n)
}N
n=1, (s(n)
= s(x(n)
))
潜在変数uについて周辺化した対数尤度の最大化
潜在変数モデルなので、EMアルゴリズムで解ける。
max
NX
n=1
log p(y(n)
, s(n)
|⇧, K)
領域数をGからKまで減らしたもとで、パラメータを推定する。
p(y| g):回帰なら正規分布、分類ならカテゴリカル分布を使う。
⇧
41. 【参考】EMアルゴリズムによるパラメータ推定 - 更新式
n EMの下限
n Eステップ:潜在変数の分布 の最適化
n Mステップ:モデルパラメータ の最適化
41
エントロピー
⌘k` =
PN
n=1 q(u
(n)
k )s
(n)
`
PN
n=1 q(u
(n)
k )
↵k =
1
N
NX
n=1
q(u
(n)
k ) k の更新も解析的に計算可能
LB =
NX
n=1
KX
k=1
Eq(U)[u
(n)
k ] log p(y(n)
| k) +
LX
`=1
log ⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` + log ↵k
!
+ H(q(U))
q(U)
⇧
q(u
(n)
k ) / p(y(n)
| k)
LY
`=1
⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` ↵k
42. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• データ
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 42
45. 【参考】FABの下限はEMの下限に”正則化項”を加えたもの
n EM下限
n FAB下限
45
LB =
NX
n=1
KX
k=1
Eq(U)[u
(n)
k ] log p(y(n)
| k) +
LX
`=1
log ⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` + log ↵k
!
+ H(q(U))
追加の”正則化項”
この項により、領域数の自動決定が可能となる(次頁)。
LB =
NX
n=1
KX
k=1
Eq(U)[u
(n)
k ] log p(y(n)
| k) +
LX
`=1
log ⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` + log ↵k
!
!
KX
k=1
log
NX
n=1
Eq(U)[u
(n)
k ] + 1
!
+ H(q(U))
46. FAB Inferenceによるパラメータ推定
n Eステップ:潜在変数の分布 の最適化
• 収束するまで更新を繰り返す。
n 領域数Kの自動決定
• のとき、 に が乗算される。
→ となる。つまり、k番目の領域は削除される。
→ Eステップを繰り返すことで、不要な領域は削除されていき、
最適な領域数Kが自動決定される。
n Mステップ:EMアルゴリズムと同じ
46
q(U)
q(u
(n)
k ) / p(y(n)
| k)
LY
`=1
⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` ↵k exp
!
PN
n=1 q(u
(n)
k ) + 1
!
過去の分布の値を使って、新しい分布の値を更新する。
q(u
(n)
k )
q(u
(n)
k ) ⇡ 0 (8n)
EMではこの項がない
FAB Inferenceでは初期値として十分大きなKを
指定しておけば、あとは領域数の刈り込みによ
り適切なKが自動で決まる。
PN
n=1 q(u
(n)
k ) = ⌧ N exp( !/( + 1)) ⌧ 1
47. 【参考】FAB Inferenceの計算量
n 1EMステップの計算量はO(KLN + ζKN)
• ただし、ζはEステップ内部の反復回数。
n Eステップ
n Mステップ
47
q(u
(n)
k ) / p(y(n)
| k)
LY
`=1
⌘
s
(n)
`
k` (1 ⌘k`)1 s
(n)
` ↵k exp
!
PN
n=1 q(u
(n)
k ) + 1
!
ここの計算にO(KLN)かかる。一回計算したらEステップの間は保持する。
全てのKとNについてqを更
新するため、一反復に
O(KN)かかる。
⌘k` =
PN
n=1 q(u
(n)
k )s
(n)
`
PN
n=1 q(u
(n)
k )
全てのKとLについてηを更新する。
一つのηの更新にO(N)かかるため、全
体でO(KLN)かかる。
48. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 48
50. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 50
51. EM vs. FAB – 1:領域数の比較
n EMアルゴリズムでは適切な領域数Kを決定するために、様々なKを試してその中
で良い結果をピックアップする必要がある。
51
どのデータでも、FABはテスト誤差がほぼ最小になる領域数を選択できている。
EMのように様々なKを試すことなく適切な領域数が自動決定されている。
52. EM vs. FAB – 2:計算時間の比較
n EMアルゴリズムでは適切な領域数Kを決定するために、様々なKを試してその中
で良い結果をピックアップする必要がある。
n EMアルゴリズムをKを変えて問題を解き直すだけ時間がかかる。
• 本実験ではKを1~10の間で変えて計算した。
52
FABはKを変えて計算し直さなくて良いだけ速い。
実験ではEMより5~20倍程度速かった。
53. 目次
n 研究背景
n 研究目的と課題
n 既存研究
n 問題:アンサンブル木の簡略化
n 提案法
• アンサンブル木の確率的生成モデルによる表現
• EMアルゴリズム
• FAB Inference
n 実験
• 実験設定
• EM vs. FAB
• 提案法 vs. 既存手法
n まとめ 53
54. 提案法 vs. 既存手法
n 比較対象
• 既存手法
- Born Again Trees (BATrees)
- inTrees
- Node Harvest (NH)
• 他のベースライン
- DTree2
- 深さ2の決定木(ルール数4のモデル)。少ないルール数のモデルの代表として導入。同じく
少ないルール数のモデルを学習する提案法との比較のためのベースライン。
- Ensemble
- もとのランダムフォレスト。予測精度の比較のために導入。
- 簡略化モデルのテスト誤差がランダムフォレストの予測誤差に近いほど良い。
54
55. 提案法 vs. 既存手法:提案法が少ルール、低誤差を達成
n ルール数 vs. テスト誤差
55
提案法の結果が全体的に左下
にある。
つまり、少ないルール数で低い
テスト誤差を達成できた。
既存手法は全体的にルール数
が多かった(30~200程度)。
DTree2はルール数が少ないた
め予測誤差が高めだった。
56. 提案法 vs. 既存手法:提案法が少ルールでモデル簡略化を達成
n 学習された簡略化モデルの例(Synthetic)
56
真のデータ 提案法
Born Again Trees inTrees Node Harvest
他の手法よりも少ない領域数で
モデルを簡略化できた。
少し領域数多め 領域数非常に多い
重複も大きい
重複が非常に
大きい
57. 【参考】提案法はルール間の重複が少ない。
n inTreesはルール間の重複が大きい。
n Node Harvestはアンサンブルなのでルール間の重複が非常に大きい。
n 提案法も一部ルール間に重複が発生する場合がある。
• 確率的生成モデルとして領域の定義を緩和したため。
n 提案法の重複度合いはinTrees, Node Harvestよりも小さい。
• 提案法の重複度合いは1に近い(=ほぼ重複がない)。
• inTrees, Node Harvestの重複度合いは5~10程度と大きい。
57
58. まとめ
n アンサンブル木モデルを簡略化する方法を提案した。
• モデル簡略化をベイズモデル選択の問題として定式化した。
- アンサンブル木モデルを確率的生成モデルとして表現することで、ベイズモデル選択が使えるよ
うになった。
- FAB Inferenceを使うことでモデル選択の計算を効率化した。
n 実験により、FABがEMより効率的であることを確認した。
• FABはEMを使った領域数探索よりも5~20倍程度速かった。
n 実験により、提案法を使うことで「少ないルール」で「低い予測誤差」を達成できる
ことを確認した。
• 既存手法のBorn Again Trees, inTrees, Node Harvestはどれもルール数が多くなる
傾向があった。
• 提案法を使うことで「少ないルール数」によるモデルの簡略化という、モデル解釈に
おいて重要な目的を達成できた。 58