NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree

NIPS2017論文紹介
LightGBM: A Highly Efficient Gradient
Boosting Decision Tree
Takami Sato
NIPS2017論文読み会@クックパッド
2018/1/27NIPS2017論文読み会@クックパッド 1

アジェンダ
• 導入＆近年のGBDTの状況
• GBDTとは
• LightGBMとは
– GOSS (Gradient-based One-side Sampling)
– EFB (Exclusive Feature Bundling)
• 数値実験
• まとめ＆私見

自己紹介
名前：佐藤貴海（さとうたかみ） @tkm2261
専門：連続最適化 (半正定値計画問題)
略歴：（株）ブレインパッド
⇒ （株）リクルートコミュニケーションズ
⇒ ニート
職業：データ分析＆Web開発＆PM
趣味：自転車、Kaggle

宣伝: Kaggler Slackぜひ来てね！
https://kaggler-ja.herokuapp.com/

今日はKaggleを席巻するGBDTの実装
LightGBMの論文を紹介します

GBDT（Xgboost）がKaggleを席巻（２０１６年）
More than half of the winning
solutions in machine learning
challenges hosted at Kaggle
adopt XGBoost
http://www.kdnuggets.com/2016/03/xgboost-implementing-winningest-kaggle-algorithm-spark-flink.html

Awesome XGBoost
• Vlad Sandulescu, Mihai Chiru, 1st place of the KDD Cup 2016 competition. Link to the arxiv paper.
• Marios Michailidis, Mathias Müller and HJ van Veen, 1st place of the Dato Truely Native? competition.
Link to the Kaggle interview.
• Vlad Mironov, Alexander Guschin, 1st place of the CERN LHCb experiment Flavour of Physics
competition. Link to the Kaggle interview.
• Josef Slavicek, 3rd place of the CERN LHCb experiment Flavour of Physics competition. Link to the
Kaggle interview.
• Mario Filho, Josef Feigl, Lucas, Gilberto, 1st place of the Caterpillar Tube Pricing competition. Link to the
Kaggle interview.
• Qingchen Wang, 1st place of the Liberty Mutual Property Inspection. Link to the Kaggle interview.
• Chenglong Chen, 1st place of the Crowdflower Search Results Relevance. Link to the winning solution.
• Alexandre Barachant (“Cat”) and Rafał Cycoń (“Dog”), 1st place of the Grasp-and-Lift EEG Detection.
Link to the Kaggle interview.
• Halla Yang, 2nd place of the Recruit Coupon Purchase Prediction Challenge. Link to the Kaggle interview.
• Owen Zhang, 1st place of the Avito Context Ad Clicks competition. Link to the Kaggle interview.
• Keiichi Kuroyanagi, 2nd place of the Airbnb New User Bookings. Link to the Kaggle interview.
• Marios Michailidis, Mathias Müller and Ning Situ, 1st place Homesite Quote Conversion. Link to the
Kaggle interview.
Awesome XGBoost: Machine Learning Challenge Winning Solutions
https://github.com/dmlc/xgboost/tree/master/demo#machine-learning-challenge-winning-solutions

現在いろんなGBDT実装が存在
• Scikit-learn
• qGBRT
• gbm on R
• Spark MLLib
• H2O
• XGBoost
• LightGBM
• Catboost (本論文では比較されず)

現在いろんなGBDT実装が存在
• Scikit-learn
• qGBRT
• gbm on R
• Spark MLLib
• H2O
• XGBoost
• LightGBM
• Catboost (本論文では比較されず)
xgboostが元論文で圧勝
[Chen+ 2016]
今回割愛するが、
経験的にはxgboostより遅く、
スコアも劇的に改善した経験はない。

LightGBMは2017年末に登場してから一気にメジャーに
https://www.kdnuggets.com/2017/08/lessons-benchmarking-fast-machine-learning-algorithms.html
本論文が出る前から検証がされて、速度・精度共にxgboostを上回る

LightGBMはいったいなんなのか？
Decision Tree Random Forest Gradient Boosting Tree
?LightGBM
本論文を読み解いて解説します。

ここから色々持ってきてます
XGBoostとかの詳しい解説はこちらを参照下さい。
https://www.slideshare.net/tkm2261/overview-of-tree-algorithms-from-decision-tree-to-xgboost

結論
LightGBM
=
GBDT (Gradient Boosting Decision Tree)
GOSS (Gradient-based One-side Sampling)
EFB (Exclusive Feature Bundling)
＋
＋
LightGBMはソフトウェア名ではなくアルゴリズム名

論文内表記
ただ正確にはXGBoost＋GOSS+EFBが正しいかも(後述)

論文内表記
論文の構成も
１章: Introduction
２章: GBDT
３章: GOSS
４章: FEB
５章: 数値実験
なのでGBDTとGOSSとFEBがわかればLightGBMわかったといえる

でも、、、
LightGBM
=
GBDT (Gradient Boosting Decision Tree)
＋
＋
GOSSってデフォルトだとoffだったり

GBDTとは

Gradient Boosting Decision Tree (GBDT) とは
The Elements of Statistical Learning 2nd edition, p. 359
psedo-residual
各反復で負の勾配にフィットする学習を行う

決定木の分岐点の求め方
Pre-sorted Algorithm
特徴の値の中点やpercentile点など、
分岐となりえる点を列挙し分岐毎に探査。
正確だが重い
Histogram-based
Algorithm
ヒストグラムを作ってそのビンを分岐単位とする。
早いが損失最小の分岐とは限らない。
Pre-sorted Algorithm Histogram-based Algorithm
XGBoost ◯
（デフォルト）
◯
LightGBM ✕ ◯
qGBRT ✕ ◯
Scikit-learn ◯ ✕
Gbm on R ◯ ✕
◆ 対応状況

XGBoostとは
GBDT自体の提案は２００1年 [Friedman 2001]、それにXGBoostは、
• 損失関数から直接の分岐スコアを求める手法を提案
• 疎な特徴に対する高速な分岐手法の提案
• スケールする圧倒的な実装

GBDT自体の提案は２００1年 [Friedman 2001]、それにXGBoostは、
• 損失関数から直接の分岐スコアを求める手法を提案
• 疎な特徴に対する高速な分岐手法の提案
• スケールする圧倒的な実装
LightGBMは
XGBoostの多分一番の貢献
LightGBMにも引き継がれる
LightGBMではまた別の方法で
疎構造を利用（EFB等）
後発の有利を活かしてLightGBMのほう
が実装がキレイな気がする。
どちらも凄い開発者たち
なのでXGBoost＋GOSS+EFBが感覚的には合う

LightGBMとは

LightGBMの特徴である
本発表ではこの後、
を順次解説していきます。

木系学習器の学習を高速化するには
一般論として、木系学習器の学習を高速に行うには
の２パターンが存在します
• データを減らす
• 特徴を減らす

木系学習器の学習を高速化するには
そのため各手法は
こういう対応になっています。
• データを減らす
• 特徴を減らす

• AdaBoostみたいにsample weightはGBDTにない
• 各反復の勾配（疑似残差）で代用しよう
• 十分勾配が小さいデータは無視して良さそう (well-trained)
• 単純にデータを取り除くとデータの分布がおかしくなる
• サンプリングした分を割り戻して整合性をとろう
• 勾配の絶対値の上位𝑎 × 100 %と、
残りのデータの𝑏 × 100%をサンプリングして各反復で使用
サンプリングした側の勾配は
1−𝑎
𝑏
倍して使用
GOSSの思想

分岐スコアが分散の場合
左側分岐の分散右側分岐の分散
この辺の決定木のアルゴリズムが思い出せない方は
次ページの例を参照
コレが分岐前の分散より
一番下がる分割を分岐点にする

参考：分岐スコアが分散の場合の分岐
Regression
sex survived age
female 1 29
male 1 1
female 0 2
male 0 30
female 0 25
male 1 48
female 1 63
male 0 39
female 1 53
male 0 71
Predict age of a person from Titanic Dataset.
491.0
calculate variances
weighted average
Variance
sex Var #people
male 524.56 5
female 466.24 5
survived Var #people
0 502.64 5
1 479.36 5
495.4
Varience: 498.29
7.29 Down
2.11 Down

GOSSによる近似分岐スコア
勾配の大きいデータA
分散の小さいサンプリング
されたデータB
サンプリングした分
を割り戻し
左側分岐と同様
• 勾配の絶対値の上位𝑎 × 100 %と、
残りのデータの𝑏 × 100%をサンプリングして各反復で使用
サンプリングした側の勾配は
1−𝑎
𝑏
倍して使用

GOSSによる近似誤差
• 分岐においてデータが両側に𝑂( 𝑛)個以上ある場合は、
第二項が支配的になる
• つまり𝑂( 𝑛)で近似誤差は減っていくので、非常に良い近似との
こと

GOSSによる近似誤差
• 𝑎 = 0のときはランダムサンプリングとおなじになるが、
• 基本的に𝐶0,𝛽 > 𝐶 𝑎,𝛽−𝑎となる限りは誤差が小さくなる。
つまり単純なサンプリングよりは大体良い近似となりそう
の場合

一般的な損失関数について
本論文では分散による分岐スコアしか扱って無いが、
おそらく内部ではXGBoostと同じ分岐スコアをつかってるはずなので
Gain of xgboost’s criterion when a node splits to 𝐿 𝐿 and 𝐿 𝑅
恐らくヘッシアンについても
同じ割り戻しの操作をする
と思われる

• 分岐点の探索が一番重い。特徴の数だけやる必要
• 大規模データでは疎な特徴がとても多く、
非ゼロ要素のパターンに全く被りが無いことも多い(exclusive)
（one-hot encodingした特徴等）
• 非ゼロ要素が被らない特徴はまとめて(bundling)、
一つの特徴と扱っても特に問題は発生しない
• まとめれば纏めるほど計算量は下がる
𝑂 #𝑑𝑎𝑡𝑎 × #𝑓𝑒𝑎𝑡𝑢𝑟𝑒 → 𝑂(#𝑑𝑎𝑡𝑎 × #𝑏𝑢𝑛𝑑𝑙𝑒)
EFBの思想

Bundleの数を一番小さくしたい
出来る限り特徴を纏めるほど計算量は下がるが、
グラフ 𝐺 = (𝑉, 𝐸)を、
𝑉 : 特徴の集合
𝑒𝑖𝑗 ∈ 𝐸: 特徴iと特徴ｊの非ゼロ要素のパターンに全く被りが無い
とすると、この問題はグラフ彩色問題と等価なのでNP-hard
Theorem 4.1

Boundle発見の貪欲法
• 基本アイデアはグラフの次数が多い特徴量から順にbundleを
作成していく貪欲法
• 『非ゼロ要素のパターンに全く被りが無い』ではなく、
ある一定の被りまでは許す
• グラフの次数は特徴が多い場合に計算コストが重いので、
非ゼロ要素数の少ない順に貪欲法をする
『非ゼロ要素数の少ない』 ≒ 『被りが少ない』
• ヒストグラムのビンをずらしてbundleから各特徴へ復元出来る
ようにする
• 𝑂 #𝑓𝑒𝑎𝑡𝑢𝑟𝑒2
かかるが最初に一回やるだけなので問題ない

数値実験
LightGBM GBDT + BOSS + FEB
lgb_baseline Without BOSS & FEB
xgb_his Xgboost with histogram Algorithm
xgb_exa Xgboost with Pre-sorted Algorithm
• LightGBMが最も高速・高精度
• EFBが速度向上にかなり寄与

GOSSとSGB（Stochastic Gradient Boosting）との比較
GOSSの方がsampling ratioに関わらず精度が高い

まとめ＆私見
• LightGBM は GBDT + GOSS + EFB
• GOSSで全データを走査せずに分岐スコアを算出
– でもLightGBMのデフォルトはgossがオフ。これは一体。。。
– 論文の理論解析がGOSSだけなので執筆上の都合かも
• EFBで特徴量をまとめて計算量を削減
– EFBはhistogram-based algorithmと結びついているので、
LightGBMにpre-sorted algorithmはない
• 速度を可能な限り上げるために実装を考えた感じが、
行間からにじみ出てておりKagglerとして感謝しかない

NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree

Similar to NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree (19)

More from Takami Sato

More from Takami Sato (12)

Recently uploaded

Recently uploaded (16)

NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree