3. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
1. データサイエンスという表現(2)
データサイエンスとは、データの形式的なハンドリングではなく、デー
タが表現している事柄の意味を理解し、そこに含まれている情報を解き
放つことを目的としている
多くの場合、データは「一目瞭然」な結果を表していることは少なく
慎重な分析を行うことにより、隠れていた構造が見えてくる
データサイエンスを構成する要素は様々であるが、その中でも「分
析」が非常に重要なものである
3
Data A
Data B
Data C
Data Analytics
(Data Science)
データが
本来持って
いる情報
22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(2)
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)
その結果として、分析対象データ(Training Set)での精度は高いが
検証用データ(Validation Set)での精度は低いという現象(Over
Fitting)が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid
23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(3)
モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブル モデル
24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(4)
Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
これを更に拡大したのが Random Forest(2001, L.Breiman)である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し(数千回)
Model アンサンブル