Chunghwa Post Big Data Competition .

中華郵政大數據競賽
叮咚!有人在家嗎？
組員：林宛諭汪瑞勛黃郁清賴雲柔
指導教授：鄭江宇
競賽隊伍：LASY
01

摘要提案動機選用理論架構模型分析流程說明總結
目錄 / CONTENTS
1 2 3 4 5
1. 處理環境
2. ETL資料前處理
3. 關聯法則資料探勘
1. 資料分析流程圖
2. 資料分析架構
1. 資料分析結果與證明
2. 提案

绪论
研究方法与思路
关键技术与难点
成果与应用
相关建议
论文总结
3
摘要
摘要
提案動機
分析流程說明
選用理論架構模型
總結
摘要
關聯規則探勘
利用關聯規則探勘以及Apriori演
算法，藉由支持度、信賴度以及
增益度三個指標，找出影響收件
人不在家的主要原因。
主要原因為收件人不在家，
希望解決此現象來提高
送件成功率。
投遞失敗原因
實驗結果
12點投遞對於投遞結果為無人在
家有很大的關聯，因此時間是影
響投遞結果的重要因子。
分散式架構與平行運算
因為郵件投遞相關資料量
相當龐大，利用分散式架
構以及平行運算可提高計
算速度。
選用因子
以TT資料表中狀態為投遞成功以
及投遞失敗者作為母體資料，並
將處理時間轉為時間區間，處理
日期轉為星期幾。
APP追蹤郵件狀態
從關聯規則發現在沒有預先
假設的情況下時間與失敗原
因關聯度最高，所以想要透
過APP讓使用者可以確認郵件
狀態並以方便時間收信。
提高
送件成功率
2

成果与应用
相关建议
论文总结
绪论
4
透過Power BI分析TTS1檔案，發現投遞不成功(H4)占了郵遞狀態的18%，將近總件數的1/5。
藉由H4為母體來深度分析失敗原因，希望避免不成功之因素，提高送達的準確率與顧客之滿意度。
投遞失敗比例
摘要
提案動機
分析流程說明
總結
提案動機
3

成果与应用
相关建议
论文总结
绪论
5
投遞失敗原因分析
希望找到與失敗原因關聯度最高的因素且予以解決，
本提案會針對此兩種失敗原因作分析處理。
第一名:不在
第二名:按門鈴沒人回應
結合內政部資料庫，寄信人寄信時的地址在行政人
員建檔時可確認收件者地址是否為真實存在，降低
第五名失敗原因的機率，避免誤跑造成的人力及時
間成本。
第五名:查無此地址
目的：提高送達準確度
無法預知收件人的動向。
第三名:查無此人
第四名:搬家
1
2
5
3
4
摘要
提案動機
分析流程說明
總結
提案動機
4

绪论
成果与应用
相关建议
论文总结
6
資料分析流程圖
建立研究標的與合適變數
擬定研究方法與變數因果關係
ETL資料前處理
調整模型參數
驗證模型結果關聯規則資料探勘結論與建模
假設驗證模型結果不如預期，
便調整模型參數，
再次進行分析探勘。
摘要
提案動機
分析流程說明
總結
分析流程說明
資料分析流程圖
5

成果与应用
相关建议
论文总结
绪论
7
資料分析架構
Business Intelligence, BI
Data Mining Visualization
Extraction Transformation Loading
Spark
Hadoop
HDFS
VM
Slave
VM
Slave
VM
Slave
摘要
提案動機
分析流程說明
總結
分析流程說明
資料分析架構
6

绪论
成果与应用
相关建议
论文总结
成果与应用
8
運算環境
本實驗以Power BI將數據視覺
化及初步分析後，使用Hadoop
做為運算環境。
硬體設備
在Windows 10實體機中利用
Oracle VM VMWare建立一台
Master Node以及三台Data
Node虛擬機，詳細規格如右圖。
程式語言與框架
使用Java程式語言以及Spark框
架進行程式撰寫。
處理環境
實體機
Master
(虛擬機)
Slave
(虛擬機)
作業系統 Windows10 Ubuntu 18.04 Ubuntu 18.04
硬碟空間 1TB 128GB 128GB
記憶體空間 64GB 8GB 8GB
CPU
I7-7700
3.6GHZ
I7-7700
3.6GHZ
I7-7700
3.6GHZ
Hadoop版本 2.3.1 2.3.1
Spark版本 2.7.7 2.7.7
摘要
提案動機
分析流程說明
總結
處理環境
7

成果与应用
相关建议
论文总结
绪论
9
ETL資料前處理
TransformExtract Load
1. 選擇「特種郵件追蹤查詢資料」
2. 將「TTS1」與「未妥投原因代
碼表」以「行」為單位合併
3. 留下郵件狀態為「投遞成功」
或「投遞失敗」的資料
對TTS1進行以下轉換：
1. 資料類型轉換
將文字型態轉為日期型態
2. 擷取字串
同一欄位下資料長度不一，只取所需字元。
例如：C45200 & B4539990057
3. 時間剖析
將時間欄位歸類為以小時為單位的時間區間
例如 : 08:23:01 -> 08:00:00
4. 去除空白及錯誤資料
5. 欄位分割
例如：2018-03-31 14:35:16 以空格來分割成兩個欄位
將資料載入分散式管理系統 (HDFS)
摘要
提案動機
分析流程說明
總結
ETL資料前處理
8

绪论
研究成果与应用
相关建议
论文总结论文总结
10
資料探勘方法
在資料探勘的多種方法中，關聯規則
(Association Rule)是最常被利用的方法之
一。
尋找變數間相關性
關聯規則的目的在於尋找資料集中變數之間
的相關性，此方法是基於不同變數個別出現
以及共同出現的頻率的統計。
關聯須為合理假設
關聯規則探勘的結果並不一定具有意義，可
能僅是數字上的巧合，因此使用者假設並進
行分析的關聯須為合理假設。
關聯法則資料探勘
LHS or 條件變數
(condition)
RHS or 結果變數
(consequence)
關聯規則的依據是由三個參數
產生，分別為支持度、信賴度、
增益度，並以假設關聯X->Y作
為說明。
X以及Y為變數集合
摘要
提案動機
分析流程說明
總結
9

成果与应用
相关建议
论文总结
绪论
11
支持度 (Support)
定義
限制
圖示
支持度表示資料集中包含目標
變數的比例，表示為 supp(X)，
即包含變數 X 的資料在總資料
中的比例，介於0~1之間。
supp(X)數值越大表示包含關
聯規則之相關變數的資料比
例越多，supp(X)需大於最低
門檻值min_supp才足以支持
分析結果。
集合X={a, b}之 supp(X) = 0.2，
表示資料集中有20%的比例同時
包含 a 和 b 兩個變數。
Definition
Plot
Restriction
Support (A ⇒B) = P(A ∩B) = 0.2：A與B共同出現的機率，數值越大越好。
a=0.5 b=0.7
0.2
0.3
0.5
摘要
提案動機
分析流程說明
總結
10

成果与应用
相关建议
论文总结
绪论
12
信賴度用以說明此假設之關聯規則的可靠程度，
也就是當條件變數X成立時，結果變數Y發生之機
率，表示為conf(X->Y)，信賴度介於0~1之間。
例如關聯{a} -> {b}之conf(a->b) = 0.3，表示
在包含變數a的資料集中，有30%亦包含變數b。
conf(X->Y)數值越大表示條件下符合關聯規則
之資料比例越多，conf(X->Y)需大於最低門檻
值min_conf。
信賴度 (Confidence)
conf(X->Y)
Confidence (A ⇒B) = P(B | A) = P(A ∩B)/P(A) = 0.2/0.7
：在A出現的前提下，
出現B的的機率，數值越大越好。
a=0.5 b=0.7
0.2
0.3
0.5
摘要
提案動機
分析流程說明
總結
11

成果与应用
相关建议
论文总结
绪论
13
增益度 (Lift)
Definition
該指標由Silverstein、Brin與Motwani 於
1998年提出，目的用於比較信賴度conf(X-
>Y)與結果變數P(Y)出現比例之比較，意即
結果變數出現的資料集中，關聯規則出現的
比例，表示為lift(X->Y)。
Function
Lift (A ⇒B) = P(B | A) / P(B)：B單獨出現
比率與前項Confidence (A ⇒B)的比較，當數值
大於1表示規則有效，數值越大效果越好。
Statement
此參數可作為判斷關聯假設是否具有意義的
指標，當lift(X->Y) > 1時，表示此關聯規
則具實用性。
摘要
提案動機
分析流程說明
總結
12

绪论
成果与应用
相关建议
论文总结
14
Apriori Algorithm
标签
文字
K=2
Dataset Support
{8點, 無人在家} 0.22
{9點, 無人在家} 0.11
{10點, 無人在家} 0.17
…
{星期一, 無人在家} 0.11
{星期二, 無人在家} 0.15
{星期三, 無人在家} 0.23
…
K=3
Dataset Support
{8點, 星期二, 無人在家} 0.13
{8點, 星期三, 無人在家} 0.20
{10點, 星期二, 無人在家} 0.08
{10點, 星期三, 無人在家} 0.14
2-item Candidate Pattern
Frequent Pattern
min_support = 0.15
K=1
Dataset Support
{無人在家} 0.25
{7點} 0.13
{8點} 0.23
{9點} 0.12
{10點} 0.20
…
{星期一} 0.14
{星期二} 0.18
{星期三} 0.20
{星期四} 0.14
…
GenerateGenerate
Apriori演算法是關聯規則探勘中最常被使用的演算
法，Apriori演算法的目的為在一資料集中找出所有
頻繁樣式(Frequent Pattern，滿足最小支持度的變
數組合)，相較於暴力演算法(Brute-force)降低產
生頻繁樣式的計算複雜度。
(1)若一個集合{A, B}滿足最小支持度頻繁集合，其子集合{A}及{B}
也是頻繁集合。
(2)若一個集合{A}不滿足最小支持度頻繁集合，其超集合{A, B}也不
是頻繁集合。
藉由以上定律，我們可在產生K個項目的頻繁集合時找出K+1個項目的
候選頻繁集合，以降低記憶體空間、計算時間與複雜度。
摘要
提案動機
分析流程說明
總結
13

绪论
成果与应用
相关建议
论文总结
15
Spark是一個開源的叢集
運算框架，利用記憶體內
運算技術加速運算，在資
料尚未寫入硬碟時即在記
憶體內分析運算，以減少
硬碟讀取所花費的時間。
Spark的彈性分散式資料
集 (Resilient
Distributed Datasets，
簡稱RDD) 的技術也提供
高容錯高效能的優勢，因
此非常適合運用於機器學
習及巨量資料處理。
Spark僅提供資料計算
的功能，並無數據存
儲功能，因此須配合
其他管理系統使用，
本實驗儲存資料使用
的是Hadoop的HDFS。
Apache Spark
Spark介紹適用領域功能限制
摘要
提案動機
分析流程說明
總結
14

绪论
成果与应用
相关建议
论文总结
16
Driver
• 將應用程式分割成多個任務
• 建立SparkContext連接
Cluster Manager並計畫任務執行
Cluster Manager
• 管理叢集，
將程式碼和任務發送至Executor上執行。
Executor
• 執行任務
• 將計算結果存至記憶體或硬碟中
Apache Spark
Driver Program
Cluster Manager
Node
Executor
Task Task
Task Task
Node
Executor
Task Task
Task Task
Node
Executor
Task Task
Task Task
由下圖所示，Spark叢集主要包含下列幾個元件：摘要
提案動機
分析流程說明
總結
15

绪论
研究成果与应用
相关建议
论文总结论文总结
17
Apache Hadoop
Hadoop是一個分佈式數據建設框架，
透過分散式文件系統（Hadoop
Distributed File System，簡稱HDFS）
將巨量資料由一台機器發送至數個節
點儲存，透過並行的方式存取資料，
減少硬體設施費用並加速資料處理速
度。
HDFS保證了數據的完整性，將
相同資料自動儲存至不同節點
上以提供更高的容錯性。
Hadoop雖提供MapReduce的資料
計算框架，但速度僅為Spark的
1/100，因此本實驗採用Spark及
HDFS的環境框架組合。
分布式數據
建設框架
數據完整性
及高容錯性
速度限制
摘要
提案動機
分析流程說明
總結
16

绪论
成果与应用
相关建议
论文总结
成果与应用
18
Apache Hadoop
• 只有一個
• 紀錄所有檔案及目錄的
描述資訊(Metadata)
• 紀錄各資料節點
(DataNode)放置的資料
區塊(Block)
• 管理檔案系統的命名空
間(Namespace)
• 可有多個且可擴充
• 實際儲存資料區塊
HDFS
Client
NameNode
Secondary
NameNode
DataNode DataNodeDataNode
摘要
提案動機
分析流程說明
總結
17

绪论
成果与应用
相关建议
论文总结
19
資料分析結果與證明
(1)以Power BI初步分析資料，投遞時
間約為每日9點至17點，投遞結果為無
人在家的比例約為0.1。
=>因此訂定關聯規則探勘的min_supp =
0.02、min_conf = 0.25
(3)步驟2得出的三個樣式中，僅{12
點, 無人在家}之信賴度達到min_conf，
且關聯規則{12點->無人在家}的增益
度達到2.152。
=>12點投遞對於投遞結果為無人在家
有很大的關聯，因此時間是影響投遞
結果的重要因子。
(2)經Apriori得知樣式{12點, 無人在
家}、{13點, 無人在家}以及{14點,
無人在家}為頻繁樣式，而包含星期
幾變數之樣式皆不為頻繁樣式。
=>星期幾投遞不影響是否無人在家
依據中華郵政所提供的「特種郵件代碼表」(TT)中的資料，影
響「無人在家」可能的因子為寄送的時間(以小時為單位)以及星期
幾寄送。實驗分為以下三步驟：
透過Apriori找出包含無人在家的頻繁樣式及驗證頻繁樣式的
信賴度與增益度是否超過門檻值以上兩步驟可找出所有具關
聯規則的變數組合。
摘要
提案動機
分析流程說明
總結總結
資料分析結果與證明
18

成果与应用
相关建议
论文总结
绪论
20
提案
APP追蹤郵件狀態
收件人利用APP追蹤自身郵件的物流狀態，提供預估送達的時
間方便收件者確認能否收信，若無法則提前更改時間，使提高
顧客滿意度與降低送件失敗率。
結合內政部資料庫
寄信人寄信時在行政人員建檔可確認收件者地址是否真實存在。
內政部戶政司全球資訊網：
https://www.ris.gov.tw/app/portal/3053
發現12:00會影響沒人在家
從關聯規則發現在沒有預先假設的情況下時間與失敗原因關聯
度最高，並且找到12:00為沒人在家之高峰時間，而樣本為所
有狀態為寄件成功或寄件失敗的TT資料，假使直觀避開12:00
的作業時間，怕過於偏頗，於是希望讓收件人可以得知物流狀
態，方便調整在家取件之時間。
01
02
03
摘要
提案動機
分析流程說明
總結總結
提案
19

Thank You！
參考資料：
https://www.geeksforgeeks.org/apriori-algorithm/
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9
中華郵政大數據競賽
競賽隊伍：LASY

Chunghwa Post Big Data Competition .

Recommended

Recommended

More Related Content

Similar to Chunghwa Post Big Data Competition .

Similar to Chunghwa Post Big Data Competition . (20)

More from YunRouLai

More from YunRouLai (7)

Chunghwa Post Big Data Competition .