4. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
0.まず初めに
質問:状況によって話すことの内容を若干調整します
① Rまたは Python を使ったことのある人は?
② Kaggle や KDD CUP などに参加したことのある人は?
4
10. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-3 情報の様々なレベル(2)
データサイエンティストに求められる3つのスキルは、この情報のレベル
の各段階に比較的うまく対応している
Data → Info, Info → Knowledge, Knowledge → Intelligence
10
NEWS
FACT
DATA
Information
Intelligence
Knowledge
Data Engineering
Data Science
Business Problem Solving
22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(2)
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)
その結果として、分析対象データ(Training Set)での精度は高いが
検証用データ(Validation Set)での精度は低いという現象(Over
Fitting)が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid
23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(3)
モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブル モデル
24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(4)
Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
これを更に拡大したのが Random Forest(2001, L.Breiman)である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し(数千回)
Model アンサンブル
25. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(5)
Random Forest は、ツリーを並列に生やしたものと言える
これに対して、ツリーを直列に生やしたものもあり、Gradient
Boosting Machine(2001, J.Friedman)などと呼ばれている
Boosting は、ツリーなどの精度を上げていくために開発された手法
であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー
で説明するという考え方に基づき、極めて多数のツリー(数千本)を
生成していく
これに改良を加えたものが Xgboost(eXtreme Gradient
Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の
手法である
25