isd314-06-association-mining

264 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
264
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

isd314-06-association-mining

  1. 1. ISD314 - Teknik Data Mining ISD314 - Teknik Data Mining Anung Ariwibowo April 9, 2014
  2. 2. ISD314 - Teknik Data Mining Agenda 1 Pendahuluan 2 Algoritme Apriori Frequent Itemset Generation Join Step Rule Generation 3 Problems
  3. 3. ISD314 - Teknik Data Mining Pendahuluan Association Rule Jika kita ingin mulai usaha berjualan produk A, produk lain apa yang bisa kita jual, yang bisa meningkatkan pendapatan? Jika kita memiliki sebuah dokumen tentang topik tertentu, dokumen mana topik apa yang mungkin berkaitan?
  4. 4. ISD314 - Teknik Data Mining Pendahuluan Association Rule Bentuk umum Association Rule if x1 ∧ x2 ∧ . . . ∧ xnthen y1 ∧ y2 ∧ . . . ∧ ym Head: xi Body: yj Contoh Jika seorang pengunjung toko membeli Roti, Maka dia juga akan membeli Susu. Catatan: Belum tentu berlaku rule dalam arah sebaliknya (contrapositive)
  5. 5. ISD314 - Teknik Data Mining Pendahuluan Support dan Condence Support: Jumlah sub-himpunan yang ditemukan dalam data transaksi Condence: Jumlah sub-himpunan yang menyusun bagian head dari aturan asosiasi yang terbentuk Support dan Condence biasanya dinyatakan dalam persentase
  6. 6. ISD314 - Teknik Data Mining Algoritme Apriori Algoritme Apriori Prinsip Apriori Jika sebuah itemset bersifat frequent, Maka sub-himpunan dari itemset tersebut juga bersifat frequent. Secara apriori meyakini bahwa sub-himpunan bersifat frequent.
  7. 7. ISD314 - Teknik Data Mining Algoritme Apriori Algoritme Apriori Ck ← candidate item-set of size k Lk ← frequent item-set of size k L1 ← {frquentitems} for k ← 1; Lk = ∅; k + + do Ck+1 ← candidates generated from Lk for each transaction t in databse D do increment the count of all candidates in Ck+1 those are contained in t Lk+1 ← candidates in Ck+1 with minimum support end for end for return ∪kLk
  8. 8. ISD314 - Teknik Data Mining Algoritme Apriori Frequent Itemset Generation Contoh Data Data transaksi (?, ?) TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 Minimum Support σ = 50% Minimum Condence c = 70%
  9. 9. ISD314 - Teknik Data Mining Algoritme Apriori Frequent Itemset Generation Contoh Data C1 Generate C1, candidate 1-item-set TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 item-set support count {1} 2 {2} 3 {3} 3 {4} 1 {5} 3
  10. 10. ISD314 - Teknik Data Mining Algoritme Apriori Frequent Itemset Generation Contoh Data: L1 Generate L1dari C1dengan menghapus 1-item-set yang kurang dari σ. TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 item-set support count {1} 2 {2} 3 {3} 3 {5} 3
  11. 11. ISD314 - Teknik Data Mining Algoritme Apriori Join Step Join Step Pola umum {a1, a2, . . . , ak−1, ak} {b1, b2, . . . , bk−1, bk} {a1, a2, . . . , ak−1, ak, bk} ai = bi untuk 1 ≤ i k, unsur akberbeda dari unsur bk. Contoh L3 = { {a, b, c}, {a, b, d}, {a, c, d}, {a, c, e}, {b, c, d} } C4 = { {a, b, c, d}, {a, c, d, e} }
  12. 12. ISD314 - Teknik Data Mining Algoritme Apriori Join Step Contoh Data: Join and Prune Generate C2, candidate 2-item-set dari L1dengan melakukan join step TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 item-set support count {1, 2} 1 {1, 3} 2 {1, 5} 1 {2, 3} 2 {2, 5} 3 {3, 5} 2 Prune jika diperlukan untuk membuat C2 Ulang hingga dihasilkan largest itemset
  13. 13. ISD314 - Teknik Data Mining Algoritme Apriori Join Step Contoh Data: Frequent Item-set F = {2, 3, 5} support count = 2 Bentuk rule dengan pola Head dan Body H ⇒ B H = ∅ B = ∅ Head = H ⊂ F Body = B = F − H
  14. 14. ISD314 - Teknik Data Mining Algoritme Apriori Rule Generation Contoh Data: Rule dan Condence TID Items 100 1, 3, 4 200 2, 3, 5 300 1, 2, 3, 5 400 2, 5 Condence = P(H|B) Rule Condence count Rule Condence count {2} ⇒ {3, 5} 2/3 = 67% {2, 3} ⇒ {5} 2/2 = 100% {3} ⇒ {2, 5} 2/3 = 67% {2, 5} ⇒ {3} 2/3 = 67% {5} ⇒ {2, 3} 2/3 = 67% {3, 5} ⇒ {2} 2/2 = 100%
  15. 15. ISD314 - Teknik Data Mining Problems Problems Multipass scanning Tidak scalable Alternatif algoritme FP-growth Vertical data format Lattice
  16. 16. ISD314 - Teknik Data Mining Problems Representasi Data Transaksi Multi-valued Sparse table (esp. ARFF format)
  17. 17. ISD314 - Teknik Data Mining Problems Daftar Pustaka

×