Post Big Data 0530
- 2. 2
作品簡介
郵務運輸小尖兵 分析 優化 我最行
<作品名稱>
處在網路科技蓬勃發展的年代,即使傳統書信往返已逐漸式微,但
是電子商務的興起不僅帶動產業供應鏈的轉變外,也促進網購業的發
展。所以,物流運輸的成本、時效及安全性,是整個經濟環節的當務
之急。基於此我們將資料分析目標聚焦在「配送路徑最佳化」、「降
低到府收件次數」、「i 郵箱收寄優化」以及各項郵件種類數量分
析,以降低相關營運成本,進而提高獲利。
<提案動機與摘要>
- 5. • 使用的技術與方法
• 結合兩者後,縮短出車時間成本、排除交通路況
• 戴克斯特拉算法(Dijkstra)
最短路徑算法,計算多個上下貨區域之間的最短路徑規劃
• Google Maps API 配合當地區域交通狀況的最佳路徑
資料前處理
• 四輪車輛的「可能性上下貨之GPS資料」,
作為所有路徑的必須目的地來安排最佳化的行車路徑!
• 僅針對,「東經」、「北緯」、「時間」、「狀態代碼」、
「車牌號碼」、「使用局號」欄位做資料分析。
資料分析流程
First
Second
GPS四輪車輛GPS軌跡資料
5
- 9. 資料前處理
• 「特約客戶主檔」
產 業 別 代 碼 表 說 明 為 1 - 1 5 及 9 9 共 1 6 項 類 別 , 但 資 料 中 卻 有
數值26,資料可能有誤,將以將以平均值並四捨五入做處理
• 「客戶郵遞區號」
僅取前三碼做為客戶所在縣市之統計(不統計鄉鎮市區)
• 建立資料分析模型
• 利用「決策樹」模型進行分類,訓練後的決策樹模型樹狀圖能直覺的
了解各欄位與預測結果間的關係。
9
資料分析流程 特約客戶主檔
First
Second
CC
- 11. • 「產業別」視覺化分析
• 其他類為最大宗
• 次之為零售業、第三為製造業
• 「交寄方式」分析
• 自行交寄方式明顯大於電話通知郵局取
件,與以往對客戶寄貨量大就需要郵局
上門取件想法略有不同,也可能表示寄
送物品之運送即時性。
11
資料分析流程
CC特約客戶主檔
產業別 自行交寄比例
政府機關 68.2%
金融保險業 61.4%
零售業 62.6%
其他 60.7%
Fourth
• 資料處理碰到的困難
• 想了解「天氣」因素是否會影響客戶決定貨物送到郵局的方
式以及影響的結果,但此次資料僅有特約客戶簽約時間,並
無後續寄送之時間欄位,所以無從考量。
- 13. 第一季各郵件種類的郵寄數量統計
可以得知函件的數量為最多
郵件種類郵寄數量的折線圖
各郵件種類在2月份的郵寄數量最低
郵件
種類
細分類 數量
函件
信函 17,908,319
小包 3,435,210
印刷物 603,446
郵簡 39,777
雜誌 23,312
明信片 15,406
新聞紙 9,025
型錄 1,145
盲人文件 210
印刷物專袋 8
包裹
一般包裹 4,909,425
勞軍包裹 100
快捷
一般快捷 538,524
商品快捷 247,373
文件快捷 80,385
總計 27,811,665
• 第一季各郵件種類的數量統計分析
資料分析流程
郵件種類 數量
函件 22,035,858
包裹 4,909,525
快捷 866,282
總計 27,811,665
ACC收寄資料明細檔
Second
各郵件的細分類數量統計
13
- 14. • 第一季各月份郵件之郵寄數量
• 二月份的郵寄數量有著顯著的下降
信函 小包 印刷物 郵簡 雜誌 明信片 新聞紙
型
錄
盲人
文件
印刷物
專袋
一月 6,589,565 1,262,463 231,224 14,221 8,759 6,276 3,221 303 59 2
二月 4,435,607 875,596 171,234 10,177 5,681 4,120 2,137 155 43 0
三月 6,883,147 1,297,151 200,988 15,379 8,872 5,010 3,667 687 108 6
資料分析流程
一般包裹
勞軍
包裹
一月 1,889,127 26
二月 1,345,856 33
三月 1,674,442 41
函件 包裹 快捷
一月 8,116,093 1,889,153 316,331
二月 5,504,750 1,345,889 251,501
三月 8,415,015 1,674,483 298,450
Third
ACC收寄資料明細檔
函件
一般
快捷
商品
快捷
文件
快捷
一月 191,872 95,920 28,539
二月 168,556 63,018 19,927
三月 178,096 88,435 31,919
包裹 快捷
快捷各月份折線圖包裹各月份折線圖
函件各月份折線圖
郵件細分類
各月份郵寄數量表
14
- 15. • 郵件多寄往哪些區域?
資料分析流程
地區 數量
104 中山區 456,039
100 中正區 443,265
106 大安區 354,239
114 內湖區 297,237
110 信義區 262,344
220 板橋區 251,609
105 松山區 251,148
407 西屯區 244,474
330 桃園區 231,109
300 新竹市 231,109
地區 數量
300 新竹市 76,314
330 桃園區 66,234
220 板橋區 66,085
106 大安區 62,786
104 中山區 62,670
235 中和區 60,023
320 中壢區 58,602
100 中正區 56,489
242 新莊區 53,465
114 內湖區 53,246
地區 數量
104 中山區 15,064
100 中正區 13,357
106 大安區 10,700
220 板橋區 7,401
105 松山區 7,274
330 桃園區 7,205
110 信義區 7,128
114 內湖區 7,119
300 新竹市 7,119
880 澎湖馬公 6,704
ACC收寄資料明細檔
地區 數量
104 中山區 533,733
100 中正區 513,111
106 大安區 427,725
114 內湖區 357,602
220 板橋區 325,095
110 信義區 309,015
330 桃園區 304,548
407 西屯區 303,646
105 松山區 301,438
300 新竹市 293,523
前十多寄達郵號 前十多函件寄達郵號 前十多包裹寄達郵號 前十多快捷寄達郵號
Fourth • 郵件寄達之郵號,以郵件總數來看,
可看出寄達台北市的郵件數量最多。
• 郵件種類來看,寄達台北市的多為函件
及快捷,但包裹反而以寄達新竹市最
多、桃園區次之。
15
- 16. • 定義資料問題與目標
• 匯入資料與定義
• 匯入MS SQL 以節省重複查詢時間
• 使用ODBC 於 ACL通用稽核軟體、POWER BI 做數據分析
• 篩選出TT3包含”2018-02-”資料
特 種 郵 件 追 蹤 查 詢 資 料 資 料 量 大 ( 近 4 億 筆 資 料 ) ,
以2018年2月(約1億筆)資料作為分析標的。
重複投遞造成資源、人力浪費,透過資料分析,標記出
較容易造成投遞不成功之區域,再透過政府公開資料,
尋找出適合設置小型 i 郵箱位置。
<Things To Do>
16
資料分析流程
TT特種郵件追蹤查詢資料
First
- 17. 17
資料分析流程
資料前處理
• 重號問題:挑選出合適資料已建立分析模型
1. 依順序排序:TT2 > TT3 > TT4
2. 挑選TT1以代碼A開頭,除開頭外沒有A
3. 篩選末筆為H、I
• 資訊重複(因資訊轉換重複紀錄)
代碼A開頭若有於30分鐘重複紀錄,
則只使用第一筆
• 註銷交寄郵件
以郵件編號為單位,
若有註銷郵件(V)則刪除前面資料
Second
55000624105618在3日內有多筆交寄紀錄(A1)
03834100105670有短時間重複紀錄
TT特種郵件追蹤查詢資料