Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved. 1
データサイエンスの
全体像
2016年6月15日
株式会社 金融エンジニアリング・グループ
創業者 チーフデータサイエンティスト
中林三平
データサイエンティスト協会 2016年第一回勉強会資料
2.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved. 2
本日のアジェンダ
Ⅰ.「情報」、「分析」、「データサイエンティスト」
データサイエンスとデータサイエンティスト
データサイエンティストとは何者か
気軽に使っている言葉は、皆が共通の意味で使っているのか
Ⅱ.「分析」に関わる技術の簡単な紹介
伝統的統計分析とデータマイニング
ホワイトボックスからブラックボックスへ
Deep Learning への進化
Ⅲ.データサイエンティストの育成方法
データサイエンティストとしての自己教育
「競う」、「共に学ぶ」
3.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅰ.「情報」、「分析」、「データサイエンティスト」
ここでは、データサイエンティストに要求される3つのスキル
セットのうち「データサイエンス力」に焦点を当てる
データサイエンス力は、「情報」を「分析」する力と言い換える
ことができるが、気軽に使っている「情報」、「分析」という言
葉にも実際には様々なレベルがあることを示し、技術的な研究開
発が最も盛んである “Predictive Analytics” の基本的な手法群を
概観する
3
4.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
0.まず初めに
質問:状況によって話すことの内容を若干調整します
① Rまたは Python を使ったことのある人は?
② Kaggle や KDD CUP などに参加したことのある人は?
4
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅰ-3 情報の様々なレベル(2)
データサイエンティストに求められる3つのスキルは、この情報のレベル
の各段階に比較的うまく対応している
Data → Info, Info → Knowledge, Knowledge → Intelligence
10
NEWS
FACT
DATA
Information
Intelligence
Knowledge
Data Engineering
Data Science
Business Problem Solving
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(2)
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)
その結果として、分析対象データ(Training Set)での精度は高いが
検証用データ(Validation Set)での精度は低いという現象(Over
Fitting)が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid
23.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(3)
モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブル モデル
24.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(4)
Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
これを更に拡大したのが Random Forest(2001, L.Breiman)である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し(数千回)
Model アンサンブル
25.
Copyright 2016, FinancialEngineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(5)
Random Forest は、ツリーを並列に生やしたものと言える
これに対して、ツリーを直列に生やしたものもあり、Gradient
Boosting Machine(2001, J.Friedman)などと呼ばれている
Boosting は、ツリーなどの精度を上げていくために開発された手法
であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー
で説明するという考え方に基づき、極めて多数のツリー(数千本)を
生成していく
これに改良を加えたものが Xgboost(eXtreme Gradient
Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の
手法である
25