Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
LET’S	
  GO,	
  KAGGLE!
-­‐	
  CHIH-­‐MING	
  CHEN
About ME
CM 志明
Ph.D Student in TIGP-SNHCC
Research Assistant at AS CITI
Research Intern at KKBOX
Advisor: Prof. Ming-Feng ...
Target a right Competition
Target a right Competition
Data Type?
Data Size?
Evaluation Metric?
Prize?
A Classical Data Prediction Type
TRAIN

DATA
TEST

DATA
LABEL ???
A Classical Data Prediction Type
TRAIN

DATA
TEST

DATA
LABEL ???
MODEL
Input / Output
TRAIN

DATA
LABEL
MODEL
[ 港式, 點⼼心, 300元, 200公尺 ]
[ ⻄西式, 漢堡, 350元, 800公尺 ]
[ 台式, 熱炒, 400元, 100公尺 ]
[
]
5分
2分...
Input / Output
TRAIN

DATA
LABEL
MODEL
[ 港式, 點⼼心, 300元, 200公尺 ]
[ ⻄西式, 漢堡, 350元, 800公尺 ]
[ 台式, 熱炒, 400元, 100公尺 ]
[
]
5分
2分...
0. Get into 10%
How to Get into Top 10%?
1. Data Preprocess

2. Suitable ML Models

3. Feature Engineering

4. Predictions Ensemble
1. Data Preprocess
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - Categorical/Numerical Feature
Categorical Numerical
類型:港式
類型:⻄西式
類型:台式
價格:300元
價格:350元
價格:400元
Label
5分
...
Data Preprocess - DateTime Feature
DateTime
2017/05/20 18:00
2017/05/21 09:00
2017/05/22 20:00
0
0
1
[ ]
0
1
0
[ ]
1
0
0
[...
Data Preprocess - DateTime Feature
DateTime
2017/05/20 18:00
2017/05/21 09:00
2017/05/22 20:00
0
0
1
[ ]
0
1
0
[ ]
1
0
0
[...
Data Preprocess - DateTime Feature
DateTime
2017/05/20 18:00
2017/05/21 09:00
2017/05/22 20:00
0
0
0
[ ]
0
1
0
[ ]
0
0
0
[...
Data Preprocess - DateTime Feature
DateTime
2017/05/20 18:00
2017/05/21 09:00
2017/05/22 20:00
0
0
0
[ ]
0
1
0
[ ]
0
0
0
[...
Data Preprocess - DateTime Feature
DateTime
2017/05/20 18:00
2017/05/21 09:00
2017/05/22 20:00
0
0
0
[ ]
0
1
0
[ ]
0
0
0
[...
Data Preprocess - Text Feature
Text
服務好、環境整潔 …
服務⼈人員笑容溫暖...
今天點了商業午餐...
Data Preprocess - Text Feature
Text
服務好、環境整潔 …
服務⼈人員笑容溫暖...
今天點了商業午餐...
segmentation
[服務] [好] [環境] [整潔]
[服務] [⼈人員] [笑容] [溫...
Data Preprocess - Text Feature
Text
服務好、環境整潔 …
服務⼈人員笑容溫暖...
今天點了商業午餐...
segmentation
[服務] [好] [環境] [整潔]
[服務] [⼈人員] [笑容] [溫...
Data Preprocess - Missing Data
Missing Data
類型:⻄西式 價格:???元
Data Preprocess - Missing Data
Missing Data
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:???元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:3...
Data Preprocess - Missing Data
Missing Data
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:???元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:3...
Data Preprocess - Missing Data
Missing Data
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:???元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:3...
Data Preprocess - Missing Data
Missing Data
類型:⻄西式 價格:???元 ?價格?:1
類型:???? ?類型?:1
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Outlier
Outlier
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:6,600元
價格:330元
價格:420元
類型:⻄西式
類型:⻄西式
類型:⻄西式
價格:280元
價格:380元
價格:3...
Data Preprocess - Offline Validation
DATASET
Data Preprocess - Offline Validation
DATASET
TRAIN TEST
Data Preprocess - Offline Validation
DATASET
TRAIN TEST
TEST TRAIN
or refer to the so-called cross validation
2. Apply ML Toolkits
Apply ML Toolkits - Popular ML Models
Linear Regression / Logistic Regression
SVM / SVC
Decision Tree / Random Forest
Matr...
Apply ML Toolkits - Popular ML Models
Linear Regression / Logistic Regression
SVM / SVC
Decision Tree / Random Forest
Matr...
Apply ML Toolkits - A Simple Strategy
Linear Regression / Logistic Regression
SVM / SVC
Fast and Effective
High Accuracy
+...
Apply ML Toolkits - A Simple Strategy
Linear Regression / Logistic Regression
SVM / SVC
Fast and Effective
High Accuracy
+...
3. Feature Engineering
Feature Engineering - example1
DateTime
2017/05/20 08:00
2017/05/20 19:00
2017/05/21 08:30
2017/05/21 18:40
Categorical
類型...
Feature Engineering - example1
DateTime
2017/05/20 08:00
2017/05/20 19:00
2017/05/21 08:30
2017/05/21 18:40
Categorical
類型...
Feature Engineering - example1
DateTime
2017/05/20 08:00
2017/05/20 19:00
2017/05/21 08:30
2017/05/21 18:40
Categorical
類型...
Feature Engineering - example2
DateTime
2017/05/20 08:00
2017/05/21 08:10
2017/05/22 08:30
2017/05/23 08:05
Categorical
類型...
Feature Engineering - example2
DateTime
2017/05/20 08:00
2017/05/21 08:10
2017/05/22 08:30
2017/05/23 08:05
Categorical
類型...
Feature Engineering - example2
DateTime
2017/05/20 08:00
2017/05/21 08:10
2017/05/22 08:30
2017/05/23 08:05
Categorical
類型...
Feature Engineering - example2
DateTime
2017/05/20 08:00
2017/05/21 08:10
2017/05/22 08:30
2017/05/23 08:05
Categorical
類型...
Feature Engineering - example3
Text
服務好、環境整潔 …
服務⼈人員笑容溫暖...
今天點了商業午餐...
segmentation
[服務] [好] [環境] [整潔]
[服務] [⼈人員] [笑容] [溫...
Feature Engineering - example3
Text
服務好、環境整潔 …
服務⼈人員笑容溫暖...
今天點了商業午餐...
segmentation
[服務] [好] [環境] [整潔]
[服務] [⼈人員] [笑容] [溫...
4. Predictions Ensemble
DataSet
Predictions Ensemble
Feature

Set A
DataSet
Feature

Set B
Predictions Ensemble
Feature

Set A
Linear
Regression
DataSet
SVM
Linear
Regression
Feature

Set B
Random
Forest
Predictions Ensemble
Feature

Set A
Linear
Regression
Final
Prediction
DataSet
SVM
Linear
Regression
Feature

Set B
Random
Forest
Predictions E...
Linear
Regression
Final
Prediction
SVM
Linear
Regression
Random
Forest
Predictions Ensemble
0.25
0.25
0.25
0.25
Linear
Regression
Final
Prediction
SVM
Linear
Regression
Random
Forest
Predictions Ensemble
0.55TEST
TEST
TEST
TEST
0.65
0...
Linear
Regression
SVM
Linear
Regression
Random
Forest
Predictions Ensemble
0.55 / (0.55+0.65+0.65+0.75)0.55TEST
TEST
TEST
...
Linear
Regression
SVM
Linear
Regression
Random
Forest
Predictions Ensemble
or Use an additional model to
learn how to set ...
ANY QUESTION?
1. Data Preprocess
2. Suitable ML Models
3. Feature Engineering
4. Predictions Ensemble
changecandy at gmail
CM KaggleTW Share
Upcoming SlideShare
Loading in …5
×

CM KaggleTW Share

1,857 views

Published on

分享於http://kaggletw.azurewebsites.net

Published in: Data & Analytics
  • Hi there! Essay Help For Students | Discount 10% for your first order! - Check our website! https://vk.cc/80SakO
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

CM KaggleTW Share

  1. 1. LET’S  GO,  KAGGLE! -­‐  CHIH-­‐MING  CHEN
  2. 2. About ME CM 志明 Ph.D Student in TIGP-SNHCC Research Assistant at AS CITI Research Intern at KKBOX Advisor: Prof. Ming-Feng Tsai (蔡銘峰) Advisor: Dr. Eric Yang (楊弈軒) • CLIP Lab • MAC Lab Research, Machine Learning team https://about.me/chewme
  3. 3. Target a right Competition
  4. 4. Target a right Competition Data Type? Data Size? Evaluation Metric? Prize?
  5. 5. A Classical Data Prediction Type TRAIN
 DATA TEST
 DATA LABEL ???
  6. 6. A Classical Data Prediction Type TRAIN
 DATA TEST
 DATA LABEL ??? MODEL
  7. 7. Input / Output TRAIN
 DATA LABEL MODEL [ 港式, 點⼼心, 300元, 200公尺 ] [ ⻄西式, 漢堡, 350元, 800公尺 ] [ 台式, 熱炒, 400元, 100公尺 ] [ ] 5分 2分 4分 [ ]
  8. 8. Input / Output TRAIN
 DATA LABEL MODEL [ 港式, 點⼼心, 300元, 200公尺 ] [ ⻄西式, 漢堡, 350元, 800公尺 ] [ 台式, 熱炒, 400元, 100公尺 ] [ ] 5分 2分 4分 [ ] not readable by models
  9. 9. 0. Get into 10%
  10. 10. How to Get into Top 10%? 1. Data Preprocess
 2. Suitable ML Models
 3. Feature Engineering
 4. Predictions Ensemble
  11. 11. 1. Data Preprocess
  12. 12. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分
  13. 13. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分 300 350 400 5 4 3 [ ] [ ]
  14. 14. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分 1 2 3 300 350 400 5 4 3 [ ] [ ] [ ]
  15. 15. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分 1 2 3 300 350 400 5 4 3 W1 x W2 x = [ ] [ ] [ ]+
  16. 16. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分 1 2 3 300 350 400 5 4 3 W1 x W2 x = [ ] [ ] [ ] order? +
  17. 17. Data Preprocess - Categorical/Numerical Feature Categorical Numerical 類型:港式 類型:⻄西式 類型:台式 價格:300元 價格:350元 價格:400元 Label 5分 4分 3分 0 0 1 300 350 400 5 4 3 W1a x W2 x = [ ] [ ] [ ] 0 1 0 [ ] 1 0 0 [ ] W2a x W3a x +++ dummy variable
  18. 18. Data Preprocess - DateTime Feature DateTime 2017/05/20 18:00 2017/05/21 09:00 2017/05/22 20:00 0 0 1 [ ] 0 1 0 [ ] 1 0 0 [ ] 0 0 1 [ ] 0 1 0 [ ] 1 0 0 [ ] … 5/20 5/21 5/22 5/23 5/24 5/25
  19. 19. Data Preprocess - DateTime Feature DateTime 2017/05/20 18:00 2017/05/21 09:00 2017/05/22 20:00 0 0 1 [ ] 0 1 0 [ ] 1 0 0 [ ] 0 0 1 [ ] 0 1 0 [ ] 1 0 0 [ ] … 5/20 5/21 5/22 5/23 5/24 5/25 365 days?
  20. 20. Data Preprocess - DateTime Feature DateTime 2017/05/20 18:00 2017/05/21 09:00 2017/05/22 20:00 0 0 0 [ ] 0 1 0 [ ] 0 0 0 [ ] 0 1 0 [ ] 1 0 0 [ ] 0 0 0 [ ] Tue. Wed. Thur. Fri. Sat. Sun. 0 0 1 [ ] Mon. weekday
 / holiday
  21. 21. Data Preprocess - DateTime Feature DateTime 2017/05/20 18:00 2017/05/21 09:00 2017/05/22 20:00 0 0 0 [ ] 0 1 0 [ ] 0 0 0 [ ] 0 1 0 [ ] 1 0 0 [ ] 0 0 0 [ ] Tue. Wed. Thur. Fri. Sat. Sun. 0 0 1 [ ] Mon. weekday
 / holiday 1 0 1 [ ] 0 0 0 [ ] 0 1 0 [ ] Breakfast Lunch Dinner
  22. 22. Data Preprocess - DateTime Feature DateTime 2017/05/20 18:00 2017/05/21 09:00 2017/05/22 20:00 0 0 0 [ ] 0 1 0 [ ] 0 0 0 [ ] 0 1 0 [ ] 1 0 0 [ ] 0 0 0 [ ] Tue. Wed. Thur. Fri. Sat. Sun. 0 0 1 [ ] Mon. weekday
 / holiday 1 0 1 [ ] 0 0 0 [ ] 0 1 0 [ ] Breakfast Lunch Dinner what about the weather?
  23. 23. Data Preprocess - Text Feature Text 服務好、環境整潔 … 服務⼈人員笑容溫暖... 今天點了商業午餐...
  24. 24. Data Preprocess - Text Feature Text 服務好、環境整潔 … 服務⼈人員笑容溫暖... 今天點了商業午餐... segmentation [服務] [好] [環境] [整潔] [服務] [⼈人員] [笑容] [溫暖] [今天] [點了] [商業午餐]
  25. 25. Data Preprocess - Text Feature Text 服務好、環境整潔 … 服務⼈人員笑容溫暖... 今天點了商業午餐... segmentation [服務] [好] [環境] [整潔] [服務] [⼈人員] [笑容] [溫暖] [今天] [點了] [商業午餐] 服務:1 好:1 環境:1 整潔:2 服務:1 笑容:1 溫暖:2 商業午餐:1filtering dummy
 variables
  26. 26. Data Preprocess - Missing Data Missing Data 類型:⻄西式 價格:???元
  27. 27. Data Preprocess - Missing Data Missing Data 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:???元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  28. 28. Data Preprocess - Missing Data Missing Data 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:???元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元 mean / median / mode / others
  29. 29. Data Preprocess - Missing Data Missing Data 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:???元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元 主⻝⾷食:漢堡 主⻝⾷食:漢堡 主⻝⾷食:排餐 主⻝⾷食:漢堡 主⻝⾷食:排餐 主⻝⾷食:漢堡
  30. 30. Data Preprocess - Missing Data Missing Data 類型:⻄西式 價格:???元 ?價格?:1 類型:???? ?類型?:1
  31. 31. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  32. 32. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  33. 33. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  34. 34. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  35. 35. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元
  36. 36. Data Preprocess - Outlier Outlier 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:6,600元 價格:330元 價格:420元 類型:⻄西式 類型:⻄西式 類型:⻄西式 價格:280元 價格:380元 價格:300元 remove it? / give it an additional tag?
  37. 37. Data Preprocess - Offline Validation DATASET
  38. 38. Data Preprocess - Offline Validation DATASET TRAIN TEST
  39. 39. Data Preprocess - Offline Validation DATASET TRAIN TEST TEST TRAIN or refer to the so-called cross validation
  40. 40. 2. Apply ML Toolkits
  41. 41. Apply ML Toolkits - Popular ML Models Linear Regression / Logistic Regression SVM / SVC Decision Tree / Random Forest Matrix Factorization / Dimensionality Reduction Nearest Neighbors / Clustering Naive Bayes Neural Networks / Deep Learning
  42. 42. Apply ML Toolkits - Popular ML Models Linear Regression / Logistic Regression SVM / SVC Decision Tree / Random Forest Matrix Factorization / Dimensionality Reduction Nearest Neighbors / Clustering Naive Bayes Neural Networks / Deep Learning Fast and Effective Higher Accuracy Boosting & Bagging Deal with Sparse Data Unsupervised Learning High-level Feature Extraction
  43. 43. Apply ML Toolkits - A Simple Strategy Linear Regression / Logistic Regression SVM / SVC Fast and Effective High Accuracy + (Linear, Poly or Gaussian Kernels)
  44. 44. Apply ML Toolkits - A Simple Strategy Linear Regression / Logistic Regression SVM / SVC Fast and Effective High Accuracy + (Linear, Poly or Gaussian Kernels) Good for selecting features
  45. 45. 3. Feature Engineering
  46. 46. Feature Engineering - example1 DateTime 2017/05/20 08:00 2017/05/20 19:00 2017/05/21 08:30 2017/05/21 18:40 Categorical 類型:⻄西式 類型:台式 類型:⻄西式 類型:台式 2017/05/22 09:00 2017/05/22 18:30 2017/05/23 08:40 類型:⻄西式 類型:台式 類型:⻄西式
  47. 47. Feature Engineering - example1 DateTime 2017/05/20 08:00 2017/05/20 19:00 2017/05/21 08:30 2017/05/21 18:40 Categorical 類型:⻄西式 類型:台式 類型:⻄西式 類型:台式 2017/05/22 09:00 2017/05/22 18:30 2017/05/23 08:40 類型:⻄西式 類型:台式 類型:⻄西式
  48. 48. Feature Engineering - example1 DateTime 2017/05/20 08:00 2017/05/20 19:00 2017/05/21 08:30 2017/05/21 18:40 Categorical 類型:⻄西式 類型:台式 類型:⻄西式 類型:台式 2017/05/22 09:00 2017/05/22 18:30 2017/05/23 08:40 類型:⻄西式 類型:台式 類型:⻄西式 ♥ ⻄西式早餐 ♥ 台式晚餐 A kind of
 Clustering Approach
  49. 49. Feature Engineering - example2 DateTime 2017/05/20 08:00 2017/05/21 08:10 2017/05/22 08:30 2017/05/23 08:05 Categorical 類型:⻄西式 類型:⻄西式 類型:台式 類型:⻄西式 2017/05/24 08:40 2017/05/25 08:30 2017/05/26 08:05 類型:台式 類型:台式 類型:⻄西式
  50. 50. Feature Engineering - example2 DateTime 2017/05/20 08:00 2017/05/21 08:10 2017/05/22 08:30 2017/05/23 08:05 Categorical 類型:⻄西式 類型:⻄西式 類型:台式 類型:⻄西式 2017/05/24 08:40 2017/05/25 08:30 2017/05/26 08:05 類型:台式 類型:台式 類型:⻄西式
  51. 51. Feature Engineering - example2 DateTime 2017/05/20 08:00 2017/05/21 08:10 2017/05/22 08:30 2017/05/23 08:05 Categorical 類型:⻄西式 類型:⻄西式 類型:台式 類型:⻄西式 2017/05/24 08:40 2017/05/25 08:30 2017/05/26 08:05 類型:台式 類型:台式 類型:⻄西式 8:00 9:00 ⻄西式 ⻄西式 ⻄西式 ⻄西式 台式 台式 台式 台式 Try variant Data Visualisations Do Statistics
  52. 52. Feature Engineering - example2 DateTime 2017/05/20 08:00 2017/05/21 08:10 2017/05/22 08:30 2017/05/23 08:05 Categorical 類型:⻄西式 類型:⻄西式 類型:台式 類型:⻄西式 2017/05/24 08:40 2017/05/25 08:30 2017/05/26 08:05 類型:台式 類型:台式 類型:⻄西式 Additional 60 50 30 55 20 30 55
  53. 53. Feature Engineering - example3 Text 服務好、環境整潔 … 服務⼈人員笑容溫暖... 今天點了商業午餐... segmentation [服務] [好] [環境] [整潔] [服務] [⼈人員] [笑容] [溫暖] [今天] [點了] [商業午餐] 服務:1 好:1 環境:1 整潔:2 服務:1 笑容:1 溫暖:2 商業午餐:1filtering dummy
 variables
  54. 54. Feature Engineering - example3 Text 服務好、環境整潔 … 服務⼈人員笑容溫暖... 今天點了商業午餐... segmentation [服務] [好] [環境] [整潔] [服務] [⼈人員] [笑容] [溫暖] [今天] [點了] [商業午餐] 服務:1 好:1 環境:1 整潔:2 服務:1 笑容:1 溫暖:2 商業午餐:1filtering Word
 Embeddings? dummy
 variables 服務:2 好:1 環境:1 整潔:4 服務:2 笑容:1 溫暖:1 商業午餐:0.8 Advanced
 Weighting?
  55. 55. 4. Predictions Ensemble
  56. 56. DataSet Predictions Ensemble
  57. 57. Feature
 Set A DataSet Feature
 Set B Predictions Ensemble
  58. 58. Feature
 Set A Linear Regression DataSet SVM Linear Regression Feature
 Set B Random Forest Predictions Ensemble
  59. 59. Feature
 Set A Linear Regression Final Prediction DataSet SVM Linear Regression Feature
 Set B Random Forest Predictions Ensemble
  60. 60. Linear Regression Final Prediction SVM Linear Regression Random Forest Predictions Ensemble 0.25 0.25 0.25 0.25
  61. 61. Linear Regression Final Prediction SVM Linear Regression Random Forest Predictions Ensemble 0.55TEST TEST TEST TEST 0.65 0.65 0.75
  62. 62. Linear Regression SVM Linear Regression Random Forest Predictions Ensemble 0.55 / (0.55+0.65+0.65+0.75)0.55TEST TEST TEST TEST 0.65 0.65 0.75 0.65 / (0.55+0.65+0.65+0.75) 0.65 / (0.55+0.65+0.65+0.75) 0.75 / (0.55+0.65+0.65+0.75)
  63. 63. Linear Regression SVM Linear Regression Random Forest Predictions Ensemble or Use an additional model to learn how to set the weights 0.55TEST TEST TEST TEST 0.65 0.65 0.75
  64. 64. ANY QUESTION? 1. Data Preprocess 2. Suitable ML Models 3. Feature Engineering 4. Predictions Ensemble changecandy at gmail

×