SlideShare a Scribd company logo
1 of 21
GBDTアルゴリズム
Gradient Boost Decision Tree
with Iris datasets
工学院大学 情報学部 コンピュータ科学科
やっしー
目次
• 自己紹介
• 勾配ブースティングとは
• 今回やったこと
• 結果
• これから
自己紹介
工学院大学情報学部
コンピュータ科学科
未来の機械学習エンジニア
趣味:Webプロ,ゲーム,マインクラフト
好きなゲームの世界線:ニーアオートマタ
自己紹介
工学院大学情報学部
コンピュータ科学科
未来の機械学習エンジニア
趣味:Webプロ,ゲーム,マインクラフト
勾配ブースティングとは
勾配ブースティングとは
• 前の弱分類器の予測値の誤差を,新しい弱分類器が引き継いで
小さくしていく手法
XGBoost、LightGBM、CatBoostの違い
XGBoost
外部記憶装置から適宜,読み出して処理するときの問題
分割検出の際の勾配統計のキャッシュミス
・速度の低下
・貪欲法の精度低下
→各スレッドに内部バッファを割り当て、勾配統計をそこに
フェッチしてから、小刻みに蓄積をする
やはりデータ量が多いと
キャッシュミスが起きるらしい
LightGBM
「Leaf Wise」…使用する決定木を葉に準じて成長させる
→「Level Wise」より計算量が少ない
データの特徴量を階級に分けてヒストグラム化
→最適な枝分かれを探すための計算コストの削減
Leaf Wise
Level Wise
LightGBM
「Leaf Wise」…使用する決定木を葉に準じて成長させる
→「Level Wise」より計算量が少ない
データの特徴量を階級に分けてヒストグラム化
→最適な枝分かれを探すための計算コストの削減
Leaf Wise
Level Wise
XGBoostでもできるみたいです!
演算量が減って軽そう
CatBoost
「 Prediction shift 」…新しい木を生成する際に、現在の木
から、そして同じデータセットから勾配近似値を求めるため、真
の確率分布と予測勾配値の確率分布に差異がある
→「 Ordered Boosting 」
前回のブースティング段階で毎回新たなデータセットを個
別にサンプリングして木を作る
データ
データ
データ
猫は飽きっぽい
今回やったこと
今回やったこと
試したアルゴリズム
・XGBoost
・LightGBM
・CatBoost
結果
https://github.com/YaCpotato/ToyBox
実行時間
XGBoost 1.07 s
LightGBM 34.1 ms
CatBoost 863 ms
これから
• 各アルゴリズムをもっと細かく追求する
• 概要をまとめる(利点、欠点を明確に)
最後に
1月18日(明後日)にLT会をやります。
初心者と(自称)初心者が集まります。
おざけんさんが登壇します
https://mlforbiginners.connpass.com/event/159580/
ご静聴ありがとうございました

More Related Content

Similar to GBDTアルゴリズムを比べてみる

kagami_comput2016_13
kagami_comput2016_13kagami_comput2016_13
kagami_comput2016_13swkagami
 
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」Atsushi Nakada
 
Jazug信州 クラウドとデータ解析
Jazug信州  クラウドとデータ解析Jazug信州  クラウドとデータ解析
Jazug信州 クラウドとデータ解析Tsubasa Yoshino
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点Tetsutaro Watanabe
 
20220125_neurips_sharing_vqgnn
20220125_neurips_sharing_vqgnn20220125_neurips_sharing_vqgnn
20220125_neurips_sharing_vqgnnssuser9156f1
 
ビジュアルプログラミングで機械学習にチャレンジ
ビジュアルプログラミングで機械学習にチャレンジビジュアルプログラミングで機械学習にチャレンジ
ビジュアルプログラミングで機械学習にチャレンジSatoshi Fujimoto
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"Hajime Mihara
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向The Japan DataScientist Society
 
Pg Admin IIIを使おう
Pg Admin IIIを使おうPg Admin IIIを使おう
Pg Admin IIIを使おうchocolate-bar
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14swkagami
 
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜Deep Learning Lab(ディープラーニング・ラボ)
 
XGBoostからNGBoostまで
XGBoostからNGBoostまでXGBoostからNGBoostまで
XGBoostからNGBoostまでTomoki Yoshida
 
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方Shun Nukui
 
先端技術 量子コンピュータ
先端技術 量子コンピュータ先端技術 量子コンピュータ
先端技術 量子コンピュータ聡 中川
 
kagamicomput201714
kagamicomput201714kagamicomput201714
kagamicomput201714swkagami
 
LEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APILEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APIAkira Hatsune
 
新しい分散実行の仕組み PROCESS WARPについて
新しい分散実行の仕組み PROCESS WARPについて新しい分散実行の仕組み PROCESS WARPについて
新しい分散実行の仕組み PROCESS WARPについて祐司 伊藤
 

Similar to GBDTアルゴリズムを比べてみる (20)

kagami_comput2016_13
kagami_comput2016_13kagami_comput2016_13
kagami_comput2016_13
 
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」ビッグデータ革命 クラウドがコモデティ化する「奇跡」
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
 
Jazug信州 クラウドとデータ解析
Jazug信州  クラウドとデータ解析Jazug信州  クラウドとデータ解析
Jazug信州 クラウドとデータ解析
 
Azureでデータ解析
Azureでデータ解析Azureでデータ解析
Azureでデータ解析
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
 
20220125_neurips_sharing_vqgnn
20220125_neurips_sharing_vqgnn20220125_neurips_sharing_vqgnn
20220125_neurips_sharing_vqgnn
 
ビジュアルプログラミングで機械学習にチャレンジ
ビジュアルプログラミングで機械学習にチャレンジビジュアルプログラミングで機械学習にチャレンジ
ビジュアルプログラミングで機械学習にチャレンジ
 
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
 
Pg Admin IIIを使おう
Pg Admin IIIを使おうPg Admin IIIを使おう
Pg Admin IIIを使おう
 
kagami_comput2016_14
kagami_comput2016_14kagami_comput2016_14
kagami_comput2016_14
 
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
 
XGBoostからNGBoostまで
XGBoostからNGBoostまでXGBoostからNGBoostまで
XGBoostからNGBoostまで
 
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
 
先端技術 量子コンピュータ
先端技術 量子コンピュータ先端技術 量子コンピュータ
先端技術 量子コンピュータ
 
ソフトウェアとは
ソフトウェアとはソフトウェアとは
ソフトウェアとは
 
kagamicomput201714
kagamicomput201714kagamicomput201714
kagamicomput201714
 
LEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APILEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 API
 
新しい分散実行の仕組み PROCESS WARPについて
新しい分散実行の仕組み PROCESS WARPについて新しい分散実行の仕組み PROCESS WARPについて
新しい分散実行の仕組み PROCESS WARPについて
 

GBDTアルゴリズムを比べてみる