コミュニティの偉大な貢献
• 実用化に向けてハードルが下がる
– ここ数年で、計算資源(HWリソース)×豊富なデータ×アルゴリズム進歩=
機械学習がビジネスシーンに広がってきた
– 十分な精度、コストが低く、入手しやすい、人間にできないことができる
• ユーザー会やコミュニティ、個人の貢献が偉大
User Groups and R Awareness(*1) Local R User Group Directory(*2)
*1: http://blog.revolutionanalytics.com/2016/05/user-groups-and-r-awareness.html
*2: http://blog.revolutionanalytics.com/local-r-groups.html
15
(サンプルコード) 2 of4
# 実行結果
> fit.rf
Random Forest
5850 samples
48 predictor
11 classes: '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11'
No pre-processing
Resampling: Bootstrapped (25 reps)
Summary of sample sizes: 5850, 5850, 5850, 5850, 5850, 5850, ...
Resampling results across tuning parameters:
mtry Accuracy Kappa
2 0.9920029 0.9911994
17 0.9772760 0.9749927
32 0.9685406 0.9653798
48 0.9636917 0.9600440
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 2.
# グラフの描画
plot(fit.rf)
正解率を確認
できます
34
(サンプルコード) 4 of4
# 実行結果
> fit.svm
Support Vector Machines with Radial Basis Function Kernel
5850 samples
47 predictor
11 classes: '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11'
No pre-processing
Resampling: Cross-Validated (10 fold)
Summary of sample sizes: 5264, 5265, 5263, 5266, 5264, 5266, ...
Resampling results across tuning parameters:
C sigma Accurancy
0.5 0.05 0.8451294
0.5 0.10 0.8000024
1.0 0.05 0.8885480
1.0 0.10 0.8490595
Accurancy was used to select the optimal model using the largest value.
The final values used for the model were sigma = 0.05 and C = 1.
# グラフの描画
plot(fit.svm)
正解率を確認
できます
36
データの活用度
デ
ー
タ
の
多
様
さ
R C
C
C
C RR
②データ活用が可能に。
AnalyticsDatamodeling
Structured Data
(SoR)
Unstructured Data
(SoE)
①データの範囲が広がり、
*SoR System of Record
*SoE System of Engagement
45
• 私自身、機械学習について学んだのは、
テクノロジストとして価値あるスキル
セットを追加したかったからです
• スピーカの出発点は、大規模データの扱
いや可用性を得意とするデータベースエ
ンジニアで、統計的なデータ活用のため
の収集、変換、集計、可視化、などを
やってくうちに徐々に統計解析の世界に
足を踏み入れました
• 機械学習を使えることにより、新たな
データの価値を提供できることになり、
結果としてお客様に感謝されるようにな
りました
新たなスキルセットとしての機械学習