4 association rule

國立臺北護理健康大學 NTUHS
Association Rule
Orozco Hsu
2021-12-13
1

About me
• Education
• NCU (MIS)、NCCU (CS)
• Work Experience
• Telecom big data Innovation
• AI projects
• Retail marketing technology
• User Group
• TW Spark User Group
• TW Hadoop User Group
• Taiwan Data Engineer Association Director
• Research
• Big Data/ ML/ AIOT/ AI Columnist
2

Tutorial
Content
3
Apriori and FP-growth
實務應用
Homework
關聯法則介紹

Code
• Download code
• https://github.com/orozcohsu/ntunhs_2021.git
• Folder
• 20211213_day_master
4

關聯法則介紹
• 擁有大量數據的交易資料庫中，找尋資料間彼此的關聯，找到讓
人意想不到的結果
• 經典的 Walmart 尿布與啤酒的故事，這兩種不著關係的商品放
在一起銷售，竟然可以增加營業額
5

關聯法則介紹
• 關聯法則會進行以下兩個步驟:
• 找出頻繁項集(Frequent item sets)
• 經常一起出現的物品集合
• 透過 Apriori 或 FP-growth
• 產生關聯規則(Association Rules from frequent item sets)
• 表達數據之間的可能存在很強關聯性
• 須滿足定義(Min Support 或 Min confidence)
6

關聯法則介紹
• 從銷售紀錄中發現 {B, C, E} 三項物品一起出現頻率高，就是所謂
的頻繁項集；分析 {B, E} 一起出現的關聯，就稱為關聯規則
• 關聯的強弱由支持度 (Support)與信心水準(Confidence)來計算
7
發票號碼購買商品
1 {A, C, D}
2 {B, C, E}
3 {A, B, C, E}
4 {B, E}
5 {A}
6 {A, B, C, D, E}

關聯法則介紹
• 關聯分析應用範圍
• PCHOME 推薦相關書籍
• Disneys+ 影片推薦
• Walmart 尿布與啤酒
• Momo 雙11商品特惠組合
8

關聯法則介紹
• 支持度 (Support)
• 如果總共的交易數據有200筆，香腸這項商品出現的次數有20筆, 那它的
支持度為50/200 = 1/4, 也就是香腸的支持度為25%
• 信心水準(Confidence)
• 表示兩物品同時出現的條件機率，簡單來說就是在已經出現商品A的情
況下，出現商品B的機率
9
Confidence(A -> B) =
條件機率: https://www.youtube.com/watch?v=HlYU8hhZGHE

關聯法則介紹
• 提升度(Lift)
• 表示當經出現商品A的情況下，出現商品B的機率，但會看出只出現商品
B的機率的問題，提升度(Lift)代表著數據間的關聯性
10
Lift(A -> B) = Confidence(A -> B) / P(B) = P(B|A) / P(B)
Lift > 1 表示數據間越相關，呈正相關
Lift = 1 表示兩數據獨立，不相關
Lift < 1 表示兩數據呈負相關

關聯法則介紹
• 定義最低支持度 (Min Support)與最小信心水準 (Min Confidence)
• 一般我們定義 50%，也就是說購買商品集 {A, B} 至少出現總次數的50%以
上，才算是頻繁項集，才會納入計算
12
設定太低的話，會導致關聯分析的結果出現太多的關聯規則，
太高的話，關聯規則太少，都不利我們參考分析結果做決策

Apriori
• 優點
• 計算方式簡單，容易理解
• 數據中只需要關聯數據即可計算
• 容易編碼
• 缺點
• 數據量大時，運算效率低
• 如遇到多維度(multi-dimensional association rules)需要額外進行資料處理
• 假設條件
• 當產品B為頻繁出現時，它的子集也會是頻繁的，如 {B, C} 或 {B, C, E}；
反之，就是不頻繁出現的
13

Apriori
• multi-dimensional association rules
• 當我們分析的情境不只有購物的商品，如遇到連續型資料 age, pay,
purchases 三個維度資料，透過資料離散化、分箱法等，把連續資料轉
換成類別資料，最後再透過 Apriori 處理
• 購買Apple的情況下，age+pay為[青年, 低] 機率?
• 購買Apple的情況下，age+pay為[青年, 中] 機率?
• …
14
age [青年、中年、老年]
pay [低、中、高]
purchase [Apple, Orange….]

Apriori
15
參考: https://chwang12341.medium.com
4
3
全部進行排列組合

Apriori
• 分析結果
16
(PAPER CUPS 與 PAPER PLATES )、(PAPER NAPKINS 與 PAPER CUPS )經常一起購買
apriori_practice.ipynb

Apriori
• 分析結果
17
英國人喜歡收集不同顏色的茶具

Apriori
• 分析結果
18
都是小朋友上學需要的東西，一起購買也很合理

Apriori
• 分析結果
19
因為客製化(CULTERY DOLLY GIRL 與 CULTERY CIRCUS PARADE )經常一起購買

FP-growth
• 透過交易數據庫，每一筆資料為一比較易記錄，一個字母代表一
個商品，逐步建立 FP-Tree
20
統一發票號碼購買商品
0001 i1,i2,i5
0002 i2,i4
0003 i2,i3
0004 i1,i2,i4
0005 i1,i3
0006 i2,i3
0007 i1,i3
0008 i1,i2,i3,i5
0009 i1,i2,i3

FP-growth
• 掃描商品頻次:
• i1: 6
• i2: 7
• I3: 6
• i4: 2
• i5: 2
• 以上結果，得到第一次頻繁項集
21

FP-growth
• 進行第二次掃描頻繁項集，對於每一筆交易紀錄，按照第一次頻
繁項集順序，重新排列
22
商品 Support count
i2 7
i1 6
i3 6
i4 2
i5 2

FP-growth
• 將資料插入 FP-Tree 當中
• 例如插入第一筆資料 {i1, i2, i5}
23

FP-growth
24
• 例如插入第二筆資料 {i2, i4}

FP-growth
25
• 例如插入第三筆資料 {i2, i3}
更正: i2為3

FP-growth
• 將所有資料插入FP-Tree後的結果
26
樹葉節點為 i1, i3, i4, i5

FP-growth
• 從FP-Tree中，挖掘出頻繁項集
• 從樹葉節點開始，建構條件模式(CPB)
• Min Support 為2
27
透過FP-Tree來實現頻繁項集發掘過程，不需要一直掃描交易數據庫
左樹與右樹分開計算
結合商品產生頻繁項集，可驗證交易資料庫
找最小值
fp_growth_practice.ipynb

總結
• Apriori 演算法多次掃描交易數據庫，I/O是很大的瓶頸，每次利
用候選頻繁項集產生頻繁項集
• FP-growth 則利用樹結構，無論多少數據，只需要掃描兩次數據
集，直接得到頻繁項集，大大減少掃描交易數據庫的次數，從而
提高了演算法的效率
28

總結
• 關聯規則:
• 如果…那麼…(If…Then…)，前者為條件，後者為結果
• 一般表示為A→B
• 衡量一個規則，可以用支持度和置信度衡量
• 支持度(Support):
• 某事件發生的概率
• A的支持度就是A被購買的機率
• Support(A)=P(A)=num(A)/num(total)
• A→B的支持度就是A和B同時購買的機率
• Support(A→B)= P(A∩B) =num(A∩B)/num(total)
29

總結
• 置信度(Confidence):
• 在A條件下，A和B共同購買的機率
• Confidence(A→B)=P(B|A)=P(A∩B)/P(A)
• 提升度(Lift):
• 相對於不用關聯規則，使用關聯規則可以提高多少購買機
• Lift(A→B)=Confidence(A→B)/Support(B)=P(B|A)/P(B)
30

總結
• 但 Apriori的算法擴展性較好，可以用於平行計算等領域
• https://www.researchgate.net/publication/316749396_Parallel_Impl
ementation_of_Apriori_Algorithm_Based_on_MapReduce
31
Searching frequent patterns in transactional databases is considered as one of the most
important data mining problems and Apriori is one of the typical algorithms for this task.
Developing fast and efficient algorithms that can handle large volumes of data becomes
a challenging task due to the large databases. In this paper, we implement a parallel
Apriori algorithm based on MapReduce, which is a framework for processing huge
datasets on certain kinds of distributable problems using a large number of computers
(nodes). The experimental results demonstrate that the proposed algorithm can scale
well and efficiently process large datasets on commodity hardware.

電商實現交叉銷售
• 在電商的行業裡，增加營業額有個著名的公式
• 銷售額 = UV (unique visitor) * 轉化率 * 客單價
• 提高轉化率
• 精準行銷(把對的東西，在對的時間，用對的方式，推薦給對的人)
• 延伸參考: https://www.slideshare.net/orozcohsu/martech-update
• 提高客單價
• 透過關聯銷售或交叉銷售 (cross-selling)
• 常見的型態如: 組合產品、套餐搭配提升起客戶的購買慾望，加大購買
32
客單價 = 總銷售金額
總銷售人數

推薦系統
33
參考: https://link.springer.com/chapter/10.1007/978-3-030-11928-7_43

Homework
• 透過程式撰寫，給予交易數據集如下，請計算下列條件
• 計算支持度 {a}、{b, c}、{a,b,e}
• 計算置信度 {b, c} → {a} 、 {a} → {b, c}
34

Homework
以下小組報告，選擇一個題目報告
• 利用關聯規則有效提升影音廣告的觀看成效
• https://www.onead.com.tw/obm_only/associationrule/
• 照著做 HotSpot 演算法
• https://blog.pulipuli.info/2017/08/wekahotspot-association-rule-
mining.html
35

延伸閱讀
• Frequent episode mining
• data streams in continuously and is stored as a sequence of time-stamped
events
• https://zimmermanna.users.greyc.fr/papers/journals/ida2014lirias-
version.pdf
36

4 association rule

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 4 association rule

Similar to 4 association rule (20)

More from FEG

More from FEG (20)

Recently uploaded

Recently uploaded (6)

4 association rule