RandomForestとR package

Random Forest & R Packages
Shuma Ishigami
2/1/2018 Shuma Ishigami 1

Agenda
• Random Forest Algorithmとは
– Decision Tree(決定木)
– Bootstrapping とバギング
– Random Forest
• RF用のR package比較
– サンプルコード
– 性能比較

Random Forestとは?
Random Forest =
[Something randomized] + [Forest consist of trees] =
[ランダムに選択したbootstrap sample +
ランダムに選んだ特徴量 ] +
[弱識別機(決定木)を集めて多数決でクラス識別]

Random Forestとは(Cont.)
• Random Forestとは、つまり
ブートストラップサンプリングで作られたサンプルと
ランダムに選ばれた特徴量で作った
たくさんの決定木で多数決をとったもの

決定木
• 単純な規則を組み合わせた非線形識別機
• ノードと枝で構成されたツリー構造を持つ
• 各ノードにおいて、ある特徴量を選びデータを
分類する
– 分割規則には、Gini係数、誤り率、逸脱度などが
使われる

𝑋2
𝑋1
例：2クラス(まる組、さんかく組)、
２つの特徴量(X1,X2)

𝑋2
𝑋1
a
b
こんな風に２つの線でデータを分類
できるよね

𝑋1 > 𝑎 ?
𝑋2 > 𝑏 ?
Yes
Yes No
No
前スライドの分け方をツリー構造で
表すとこのように表される

𝑋2
𝑋1
a
b
学習した決定木は、左上ゾーンと右
側ゾーンを△クラスと判断、左下
ゾーンを○クラスと判断する

New input
𝐶𝑙𝑎𝑠𝑠( ) ⇒
𝑋2
𝑋1
a
b
真のクラスがな
新しい入力データを
この決定木で分類してみる
上手く分類できていて
うれしい！2/1/2018 Shuma Ishigami 10

決定木の問題
• ノイズに弱い
– サンプルのノイズに敏感で、ごくわずかなノイズ
のせいで識別性能が大幅に変わってしまう

𝑋2
𝑋1
例：二つのノイズが加わる

𝑋2
𝑋1
二つノイズが加わっただけで、分割
がかなり複雑になってしまった

𝑋2
𝑋1
New input
決定木がノイズに過敏に反応してし
まったので、分類を間違えてしまった2/1/2018 Shuma Ishigami 14

Bootstrap Samplingを使う
• 元のサンプルから、重複ありでランダムに選んだ
ブートストラップサンプルを複数用意する。
• それぞれのブートストラップサンプルで決定木を学
習させ、そのたくさんの決定木を用いて分類を行う
• 本質的なアイデアは、
ノイズはまれにしか観測されないので、たくさんブー
トストラップサンプリングを行えばノイズの影響が少
なくなるという考え方
• これはバギング(Bootstrap AGGregatING)と呼ばれる

𝑋2
𝑋1
ブートストラップで今回は
このサンプルが得られた。
たまたまノイズは入らなかった。

𝑋2
𝑋1
あるブートストラップサンプルで
決定木を作ってみる

𝑋2
𝑋1
２回目はたまたまノイズが入ってし
まった。

𝑋2
𝑋1
３回目はたまたまノイズが入ってし
まった。

𝑋2
𝑋1
４回目はたまたまノイズが入らな
かった。

𝑋1
𝑋2
学習した４つの木を重ねてみる。
ノイズはまれにしか観測されないか
らノイズの影響で生まれたおかしな
規則はほとんど無視できる。

𝑋1
𝑋2
New input
識別クラスを多数決をとって決める。
ノイズの影響は小さくなり、正しく分類
することができた！2/1/2018 Shuma Ishigami 22

なぜRandom Forest?
• [Bootstrap sample] + [たくさんの決定木]だけだと、どの決定
木も同じ特徴量を使用しているので、それぞれの決定木が
似通ってくる。そのせいで、識別性能を十分に向上できてい
ないかもしれない。
• Random Forest
– それぞれの木で使用できる特徴量もランダムに決めてし
まえば、個々の木の相関は少なくなる
– そのうえで、各決定木を使って識別した結果で多数決をと
る

𝑋1
この決定木では
あるブートストラップサンプルと、
特徴量としてX1が選ばれた。
この決定木では特徴量X1だけでクラ
スを分類する規則を求める。

𝑋1
今回もたまたまX1が特徴量の候補とし
て選ばれた。2/1/2018 Shuma Ishigami 25

𝑋2
今度はたまたま、X2が特徴量として
選ばれたので、
X2のみでクラスを分類する。

𝑋2
X2のみでクラスを分類するので、
識別規則は全部横点線。

Random Forestでの分類
入力データを、学習済みの各決定木で分類して、
多数決をとる。
New input
𝐶𝑙𝑎𝑠𝑠 ⇒ ？
VS

𝑋1
New input
それぞれの決定木で分類する。
この木は、と分類した。

𝑋1
New input

𝑋2
New input

New input
𝐶𝑙𝑎𝑠𝑠 ⇒
1 3
VS
それぞれの木を集めて多数決をとると、
新しいデータはと分類された。正解OK!

Out-Of-Bag(OOB) エラー
• RFのCross validationのようなもの
• ある学習データ𝐷𝑖 = (𝑋𝑖, 𝐶𝑖)(Cはクラス)について、ブートスト
ラップサンプリングによって、これがサンプルされる木とそう
でない木が生まれる。 𝐷𝑖 について、 𝐷𝑖がサンプルとして選
ばれていない木を集めて、その森を使用して𝐷𝑖を分類してみ
る。ひとつの𝐷𝑖 に関して、誤り率= (間違って分類した回数)/
(分類された回数)とする。これをすべてのデータに関して行う。
全部のデータに関して求めた誤り率を平均することでOOB
error を求められる。

１
𝑋1𝑋1
この決定木において、
色が濃い図形はブート
ストラップサンプルとし
て選ばれたサンプル。
色が薄い図形は、選ば
れなかったOut-Of-Bag
サンプル。
このサンプルは、この木ではOOBで、
として分類される。2/1/2018 Shuma Ishigami 35

RFのパラメータ
• 使用者としてどのパラメータをいじれるのか?
– 木の数：多いと分類性能UP, but 計算量が増える
– 特徴量の数：多いとそれぞれの木の分類性能UP.しかし、RFの特徴
である木の独立性が失われてしまう.また計算量が増える.
– 木の深さ:深いほど複雑な分岐. しかし過学習しやすくなる.
– エンドノードのサンプル数：少なすぎると、ノイズを拾いやすくな
る.

R Packages for Random Forest
• randomForest
• party
• partykit
• randomForestSRC
• ranger
• Rborist
• grf

“randomForest”: Sample Codes
randomForest(x = X, y = Y,
na.action = na.fail,
ntree = 100)
X and Y are dataframe

“party”: Sample Codes
cforest(formula = Y ~ X,
data = Data,
controls = cforest_unbiased(ntree = 10))
Data is a dataframe , consisting of Y and X

“partykit”: Sample Codes
cforest(formula = Y ~ X,
data = Data,
ntree = 100)

“randomForestSRC”: Sample Codes
rfsrc(formula = Y ~ X,
data = as.data.frame(Data),
na.action = "na.impute",
ntree = 100)

“ranger”: Sample Codes
ranger(formula = Y ~ X,
data = as.data.frame(Data),
num.trees = 100)

“Rborist”: Sample Codes
Rborist(x = X,
y = Y,
nTree = 100)
X and Y are dataframe

“grf”: Sample Codes
custom_forest(X = X, Y = Y,
num.trees = 100)
X and Y are dataframe or matrix

Attributes
a.説明変数として、質的変数(factor)が使えるか
b.説明変数として、量的変数(numeric)が使えるか
(a,b共通)
- 普通に食わせたときエラーが出ないか
- numeric/factorを内部でどのようにとらえているか(マニュアル参照)
- 欠損値があると何が起こるか
c.そのパッケージに、欠損に対応する方法が用意されているか
d.分類問題に対応しているか
e.回帰問題に対応しているか
f.十万件のデータを与えた時にモデルがつくれるか
g.並列処理に対応しているか

Comparison Table
random
Forest
party partykit random
ForestSRC
ranger Rborist grf
a Yes.
質的.
Levels < 53.
Error with
NA.
Yes.
わからない.
100でも大
丈夫.
NAに対応.
Yes.
わからない.
Levels < 31.
NAに対応.
Yes.
質的.
100でも大
丈夫.
NAに対応.
Yes.
質的.
100でも大
丈夫.
Error with
NA.
Yes.
わからない.
100でも大
丈夫.
Error with
NA.
No.
Factorを
食ってくれ
ない.
b Yes.
量的.
Error with
NA.
Yes.
わからない.
NAに対応.
Yes.
わからない.
NAに対応.
Yes.
量的.
NAに対応.
Yes.
量的.
Error with
NA.
Yes.
量的.
Error with
NA.
Yes.
量的.
NAに対応.

random
Forest
party partykit random
ForestSRC
ranger Rborist grf
c Impute関
数
なし NAはランダ
ムもしくは
多数のノー
ドに分ける
Impute用
のoption,
functionあ
り
なしなしなし
d Yes Yes Yes Yes Yes Yes Yes
e Yes Yes Yes Yes Yes Yes No
f Yes
3.96 sec
Yes
331.79 sec
Not end in
sufficient
time
Yes
8.44 sec
Yes
5.07 sec
Yes
2.79 sec
Yes
NA
g With
external
packages.
なし Mclapplyで
マルチコア
対応.
OpenMPと
合わせて可
能.
スレッドの
数を変更可
能.
デフォルト
でコアを全
部使用.
スレッドの
数を変更可
能.
Notes: 問fのテストには、ランダムに生成した、２値factor型の目的変数と10個の連続値の説明変数を使用した。サ
ンプル数は100,000で、10個の木で作られる森を作る時間を計測した。３回シードを変えた、平均タイムを表示して
いる。

randomForest : Notes
a.説明変数として、質的変数が使えるか
factorを与えた時、いっけんエラーがないか; OK
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか;質的
factorのカテゴリ数がすごく多いとき、エラーが出るか; 53 categoryまで対応
factorに欠損があるとき、なにがおきるか; NA not permitted in predictorsのエラーがでる
b.説明変数として、量的変数が使えるか
numericを与えた時、いっけんエラーがないか; OK
numericを与えた時に、それを量的に捉えていますとマニュアルに書いてあるか; 量的
numericに欠損があるとき、なにが起きるか; NA not permitted in predictors
他の関数が対応するか; Impute関数が存在. median value for numerical feature and most frequent/mode category
for categorical feature
g.並列処理に対応するか
そのパッケージが対応するか;なし
他のパッケージを使って自力でできるか；snowやparallelで可能
ex:[Rのsnowパッケージを使ってrandomForestを並列化 - Qiita](https://qiita.com/freename/items/17f13777a56b0d1518e8)
[parallelパッケージを使ってRandomForestを並列化 - Programming Memo](http://eerf0309458.hatenadiary.com/entry/2016/03/25/182931)

party : Notes
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか;わからない
factorのカテゴリ数がすごく多いとき、エラーが出るか: 100でも大丈夫
factorに欠損があるとき、なにがおきるか; うごく
numericを与えた時に、それを量的に捉えていますとマニュアルに書いてあるか;わからない
numericに欠損があるとき、なにが起きるか; うごく
c.そのパッケージに、欠損に対応する方法が用意されているか；なし
そのパッケージが対応するか;なし

partykit : Notes
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか;わからない
factorのカテゴリ数がすごく多いとき、エラーが出るか; 31カテゴリーまで可能
numericを与えた時に、それを量的に捉えていますとマニュアルに書いてあるか;わからない
その関数が対応するか；majority option :missing valueでデータが分けられないとき、randomに分けるか、
majorityに分けるか指定可能
そのパッケージが対応するか; mapplyr で可能

randomForestSRC : Notes
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか; 質的
factorのカテゴリ数がすごく多いとき、エラーが出るか; 100 でも大丈夫
numericを与えた時に、それを量的に捉えていますとマニュアルに書いてあるか; 量的
その関数が対応するか；na.impute option
他の関数が対応するか; inpute用の関数が存在
そのパッケージが対応するか;OpenMP

ranger : Notes
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか; 質的
factorに欠損があるとき、なにがおきるか; エラーが発生
numericを与えた時に、それを量的に捉えていますとマニュアルに書いてあるか;量的
numericに欠損があるとき、なにが起きるか; エラーが発生
その関数が対応するか；ない
他の関数が対応するか； “missRanger”なるmissing value 取扱い用パッケージ(imputeする)があるらしい。
R package "missRanger" for fast imputation of missing values by random forest.
(https://github.com/mayer79/missRanger)
そのパッケージが対応するか; num of threads optionでCPUの数を変えられる

Rborist : Notes
factorを与えた時に、それを質的に捉えていますとマニュアルに書いてあるか; わからない
factorに欠損があるとき、なにがおきるか; エラー発生
numericに欠損があるとき、なにが起きるか; エラー発生
その関数が対応するか；なし
そのパッケージが対応するか;自動で全部のコアを使う、自分でコア数を設定できない

grf : Notes
factorを与えた時、いっけんエラーがないか; エラー発生
その関数が対応するか；ない
d.分類問題に対応するとマニュアルに書いてあるか:わからない。たぶんない。
e.回帰問題に対応するとマニュアルに書いてあるか: Yes
そのパッケージが対応するか; num.threads optionでスレッド数を指定可能
Notes:超スーパーな経済学者のSusan Atheyが関わっており、操作変数(!!)を利用してheterogenousな
トリートメント効果を推定しようとするなど、エコノメ風味が盛りだくさん。

RandomForestとR package

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

RandomForestとR package

Editor's Notes