Xgboost for share

About My Self
安井翔太 / Shota Salmon Yasui
Twitter: @housecat442
<けーれき>
• 日本のド文系経済学部
• アメリカで計量経済学１年
• ノルウェーで資源・環境経済学修士取得
• SNF研究所でデータ分析（環境税作成）
• 広告関係のデータ分析やってます。

xgboostとは？
• Gradient Boosting Decision Treeという予測モデルのC++での実装。
• それをRから使える様にするのが、xgboost package。
• メモリエラーが原因でCRANから消されてる・・・けど、githubからイン
ストール可能。
<githubからインストール>
devtools::install_github('dmlc/xgboost',subdir='R-package')
gbmよりはやい！（当社比10倍・・・らしい）

Gradient Boosting Decision Treeとは？
• Decision Tree（決定木）をGradient Boostingする。
• 決定木は割愛
• Boostingとは、複数のモデルを連動させ、「M人寄れば文殊の知恵」的な
感じに逐次的に学習をする方法。（adaboostというのが有名）
• Gradient Boosting とは基本的にはboostingと一緒だが、疑似的な誤差を算
出してその誤差に対して次のモデルを学習させるという方法。
• 疑似的な誤差は、各サンプルについての誤差を予測モデルについて偏微
分した値なので、モデルに変化を与えた際に誤差が変わりやすいサンプ
ルに対して重点的に追加の学習が行われていると解釈できる。

1. 決定木の学習をする
2. 決定木の予測と誤差を算出する
3. 誤差に対して決定木を学習しなおす。（木が1本増える）
4. 誤差を算出する。
5. 指定したM本の木が出来るまで3-4を繰り返す。
単純化して言えば・・・
学習の際のハイパーパラメーターは
• 木の本数
• 木の深さ
• 次の木にどのくらい学習の情報を渡すかの重み（shrinkage）
 3で学習する際に適応される
の３つが基本。

Y
X
こんなデータがある
x <- 1:5000*0.005 + rnorm(5000)
y <- sin(x)

GBDTの学習結果を木の本数を２本刻みで変えて表示（shrinkage = 0.3）
２
４
６
８
• 本数を増やすとよりデータに対してフィットして行くのが解る。
• ただ増やしまくれば良いと言う訳ではない。

GBDTの学習結果を木の本数を本刻みで変えて表示（shrinkage = 0.1）
5
10
15
20

GBDTの学習結果を木の本数を150本刻みで変えて表示（shrinkage = 0.001）
150
300
450
Shrinkageが下がると学習に必要な木の本数が増えている事が解る。
▶︎オーバーフィッティングしにくくなるので精度が上がり易い。

Xgboostの使い方
#データをsparse.model.matrixにする
data.model <- sparse.model.matrix(y~x,ds)
#GBDTの学習
gdbt.result <- xgboost(data = data.model,
label = y,
booster = "gbtree",
max.depth = 4,
eta = 0.3,
nrounds = 1000)

Xgboost for share

Recommended

Recommended

More Related Content

Similar to Xgboost for share

Similar to Xgboost for share (19)

More from Shota Yasui

More from Shota Yasui (13)

Xgboost for share