SlideShare a Scribd company logo
1 of 28
機器學習導論
紐約計程車車資預估
組員:04170120 吳友翔
04170145 賴雲柔
04170212 王思惟
04170215 顏灝
04170231 蘇舫萱
目錄
C O N T E N T
01 資料清理
02 資料預測
03 心得
01 資料清理
資料清理
不符原則資料
刪除
時間切割
計算兩地距離Missing data
刪除
• 年
• 月
• 日
• 星期
• 時
• 分
• 秒
Missing data處理
零的資料去除
NaN去除
不符原則資料刪除
乘客數錯誤經緯度錯誤價格為負
紐約的經緯度(40°40′N 73°56′W) 大於0位,小於10位
時間切割
切割後
原本型態
將時間做切割
多建立星期變數
使用 Haversine formula 半正矢公式,計算出乘客上乘坐計程車之公里。
距離計算
資料觀察
以一位乘客為居多
載客人數
乘車價格多落在50美元以下
乘車價格
資料觀察 – 乘車價格
價格漲幅並不明顯一人搭乘時乘,價錢高的較多
年分與平均價格乘客人數
左圖為上車
由兩圖比較可以發現,下車地點更為廣布,
而上車地點以紐約市區為中心擴散。
右圖為下車
資料觀察 – 上下車熱點圖
相關性
距離小於80公里時,
兩變數有線性關係存在
價格與距離相關性最高
Domain Knowhow
• 起跳費用為2.5美元
• 每0.2哩0.5美元
• 慢速或暫停時間,每分鐘0.5美元
每趟車加收附加費:
• 0.5美元的MTA State Surcharge及0.3美元的Improvement
Surcharge。
• 夜間8點到隔天清晨6點加收0.5美元
• 平日(不含假日)下午4點到8點加收1美元,
• 若是途經隧道或橋樑,過路費(toll)由乘客負擔。
• 付小費,一般行情是給20%
• 司機可以拒收超過20美元的現金
• Manhattan to Newark Airport加收17.5美元
• https://www.taxifarefinder.com/info.php?city=NY
02 資料預測
方法二
XGboost
方法一
回歸分析
資料預測
回歸分析
刪除key、秒數資料欄位
將出現零及空值的資料刪除
增加變數欄位
選取2013~2015年的資料使用
Regression-資料前處理
Regression-變數選擇
01
原有欄位變數
• pickup_longitude:上車經度
• pickup_latitude:上車緯度
• dropoff_longitude:下車經度
• dropoff_latitude:下車緯度
• passenger_count:乘客數量
02
時間變數
• Year:年
(2009年~2015年6月)
• Month:月
• Date:日
• Day_of_Week:星期
• Hour:小時
• Minute:分
03
特殊時間變數
• Hour_8to6:
是否為晚上8點到早上6點
• holiday:
是否為周休與國定假日
• work_4to8:
是否為平日下午4點到8點
• Y_1315
判斷是否是2013~2015年
04
距離
• distance_km:最短距離
Regression-結果呈現
XGboost分析
兩者準確度差距很大,
故以下都以XGboost做模型做訓練
BEFORE
AFTER
變數選擇為『距離(公里)』、『小時』、『年』、『乘客數』
max_depth : 樹的最大深度。
eta : shrinkage參數,用於更新葉子節點權重時,乘以該係數,避
免步長過大。參數值越大,越可能無法收斂。
silent : 設置為1,則無運行訊息輸出。
objective : 分類問題的方式。
eval_metric : 可以傳多個平均指標。
learning rate : 學習率。
使用XGboost
第一次上傳kaggle分數:4.52379
上傳kaggle
分數變差,代表樹的最大深度再下
去,並不會使模型有更好的表現。
Training set:20000筆 -> 1000000 筆
上傳kaggle –調整筆數
分數從原本4.52變成3.85,因為訓練
的樣本數變多,所以分數提高了!
03 心得
1. XGboost的準確率約為0.95,
2. 上傳kaggle後的最佳分數也才3.85
3. 推測的原因為overfitting之現象
我們認為預測不理想原因就是變數的使用的
不理想以及資料量
1. 年份的資料,由於記憶體關係我們只使
用了一部分而不是全部,但是test的資料
有其他年份的,這就會造出錯誤
2. 用最短直線距離來當作變數
謝謝大家

More Related Content

What's hot

06 spatial filtering DIP
06 spatial filtering DIP06 spatial filtering DIP
06 spatial filtering DIPbabak danyal
 
Morphological image processing
Morphological image processingMorphological image processing
Morphological image processingVinayak Narayanan
 
Spatial filtering using image processing
Spatial filtering using image processingSpatial filtering using image processing
Spatial filtering using image processingAnuj Arora
 
구세대 엔진 신데렐라 만들기 최종본 유트브2
구세대 엔진 신데렐라 만들기 최종본 유트브2구세대 엔진 신데렐라 만들기 최종본 유트브2
구세대 엔진 신데렐라 만들기 최종본 유트브2Kyoung Seok(경석) Ko(고)
 
Dilation and erosion
Dilation and erosionDilation and erosion
Dilation and erosionAswin Pv
 
Image interpolation
Image interpolationImage interpolation
Image interpolationKokuiSai
 
Statistical database, problems and mitigation
Statistical database, problems and mitigationStatistical database, problems and mitigation
Statistical database, problems and mitigationBikrant Gautam
 
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせToru Tamaki
 
Midpoint circle algo
Midpoint circle algoMidpoint circle algo
Midpoint circle algoMohd Arif
 
Lecture 9-online
Lecture 9-onlineLecture 9-online
Lecture 9-onlinelifebreath
 
AtCoder Regular Contest 026 解説
AtCoder Regular Contest 026 解説AtCoder Regular Contest 026 解説
AtCoder Regular Contest 026 解説AtCoder Inc.
 
Matlab Image Enhancement Techniques
Matlab Image Enhancement TechniquesMatlab Image Enhancement Techniques
Matlab Image Enhancement Techniquesmatlab Content
 
IMAGE SEGMENTATION TECHNIQUES
IMAGE SEGMENTATION TECHNIQUESIMAGE SEGMENTATION TECHNIQUES
IMAGE SEGMENTATION TECHNIQUESVicky Kumar
 

What's hot (20)

カーネル法
カーネル法カーネル法
カーネル法
 
06 spatial filtering DIP
06 spatial filtering DIP06 spatial filtering DIP
06 spatial filtering DIP
 
Morphological image processing
Morphological image processingMorphological image processing
Morphological image processing
 
Spatial filtering using image processing
Spatial filtering using image processingSpatial filtering using image processing
Spatial filtering using image processing
 
구세대 엔진 신데렐라 만들기 최종본 유트브2
구세대 엔진 신데렐라 만들기 최종본 유트브2구세대 엔진 신데렐라 만들기 최종본 유트브2
구세대 엔진 신데렐라 만들기 최종본 유트브2
 
Dilation and erosion
Dilation and erosionDilation and erosion
Dilation and erosion
 
Image interpolation
Image interpolationImage interpolation
Image interpolation
 
Statistical database, problems and mitigation
Statistical database, problems and mitigationStatistical database, problems and mitigation
Statistical database, problems and mitigation
 
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
配置情報のエネルギー最小化に基づく3次元点群の位置合わせ
 
Midpoint circle algo
Midpoint circle algoMidpoint circle algo
Midpoint circle algo
 
Mask R-CNN
Mask R-CNNMask R-CNN
Mask R-CNN
 
Lecture 9-online
Lecture 9-onlineLecture 9-online
Lecture 9-online
 
Canny Edge Detection
Canny Edge DetectionCanny Edge Detection
Canny Edge Detection
 
実践QBVH
実践QBVH実践QBVH
実践QBVH
 
AtCoder Regular Contest 026 解説
AtCoder Regular Contest 026 解説AtCoder Regular Contest 026 解説
AtCoder Regular Contest 026 解説
 
Spatial domain and filtering
Spatial domain and filteringSpatial domain and filtering
Spatial domain and filtering
 
Spatial filtering
Spatial filteringSpatial filtering
Spatial filtering
 
Matlab Image Enhancement Techniques
Matlab Image Enhancement TechniquesMatlab Image Enhancement Techniques
Matlab Image Enhancement Techniques
 
SPATIAL FILTER
SPATIAL FILTERSPATIAL FILTER
SPATIAL FILTER
 
IMAGE SEGMENTATION TECHNIQUES
IMAGE SEGMENTATION TECHNIQUESIMAGE SEGMENTATION TECHNIQUES
IMAGE SEGMENTATION TECHNIQUES
 

More from YunRouLai

WSDM - KK box's churn prediction challenge
WSDM - KK box's churn prediction challenge WSDM - KK box's churn prediction challenge
WSDM - KK box's churn prediction challenge YunRouLai
 
Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .YunRouLai
 
Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.YunRouLai
 
Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5YunRouLai
 
Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.YunRouLai
 
Strategy of MACD.
Strategy of MACD.Strategy of MACD.
Strategy of MACD.YunRouLai
 
Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.YunRouLai
 

More from YunRouLai (7)

WSDM - KK box's churn prediction challenge
WSDM - KK box's churn prediction challenge WSDM - KK box's churn prediction challenge
WSDM - KK box's churn prediction challenge
 
Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .Chunghwa Post Big Data Competition .
Chunghwa Post Big Data Competition .
 
Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.Final written report of internship in Shanghai Stock Exchange.
Final written report of internship in Shanghai Stock Exchange.
 
Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5Quantity forecast of bus and minibus on national road no. 5
Quantity forecast of bus and minibus on national road no. 5
 
Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.Data analysis of marketing in banking industry.
Data analysis of marketing in banking industry.
 
Strategy of MACD.
Strategy of MACD.Strategy of MACD.
Strategy of MACD.
 
Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.Analysis of how family background have an effect on self confidence of children.
Analysis of how family background have an effect on self confidence of children.
 

New York City Taxi Fare Prediction

Editor's Notes

  1. Missing data 原本train資料集所含資料筆數很多,所以當遇到有欄位為空值,就直接刪除該筆資料 刪除不符原則資料 查看個別變數統計分析 計算兩地距離 經緯度刻度背後的含義即為兩地點的距離,所以將經緯度刻度轉換為兩地距離公里數。
  2. 將時間做切割 多建立星期變數,因為紐約的計程車價格,除了每日時段差異會做調整,假日平日的價格也不同。
  3. 經緯度距離使用 Haversine formula半正矢公式 (根據兩點的經度和緯度來確定大圓上兩點之間距離的計算方法,在導航有著重要地位),計算出乘客上乘坐計程車之公里。
  4. 當距離小於80公里時,兩變數有線性關係存在。 距離大於80公里資料,可能其乘車時間、非在市中心乘車所導致。因為紐約有不同自治市鎮,每一個市鎮繁榮程度不一,所導致的價格也會不同。 上圖為各變數與價格的矩陣熱力圖,可以發現與價格相關性最高為距離,其他變數幾乎都無相關性。