Data Management (Data Mining Association Rule)

Manajemen
DATA
Adam Mukharil Bachtiar, M.T.
Data Mining Association Rule

Ekstraksi pengetahuan yang menarik dalam bentuk
rule, regularities, pola, constraint, dan lain-lain dari data yang
tersimpan dalam sejumlah besar basis data

Data mining atau dikenal juga
sebagai KDD (Knowledge
Discovery in Databases)
menggunakan data historical untuk
mengekstraksi pengetahuan

Bagaimana proses untuk
melakukan Data Mining?

Fungsional data mining ada
dua, yaitu fungsi predictive
dan fungsi descriptive

Fungsi Predictive
Memprediksi nilai suatu
atribut berdasarkan
atribut-atribut lainnya

Fungsi Descriptive
Memperoleh pola yang
merangkum relasi pokok
pada data yang digunakan

What is Know Your Customer (KYC)
(https://www.youtube.com/watch?v=vLeC6khWzpM)

Business Analytics: Data Trends Let Businesses
Spot New Opportunities
(https://www.youtube.com/watch?v=HbHTvqZE3D8)

Metode data mining ada
tiga, yaitu Association Rule,
Classification, dan Clustering

Dalam bab ini akan dijelaskan
data mining menggunakan
metode Association Rule

Metode Association Rule
sering juga disebut sebagai
Market Basket Analysis

Association Rule digunakan
untuk mengekstraksi
keterhubungan asosiatif atau
korelasi yang menarik antar item

Gambaran Hubungan Asosiatif Antar Item
if then
Sebagai contoh:
if antecedent then consequent
Artinya:
1. Ada hubungan asosiatif antara roti dengan selai.
2. Jika seseorang membeli roti maka dia berkemungkinan juga sebesar n% untuk membeli selai dalam satu pembelian

Ada dua parameter yang perlu
diketahui pada metode
Association Rule, yaitu nilai
support dan nilai confidence

Nilai support:
Rasio antara jumlah transaksi yang memuat antecedent
dan consequent terhadap jumlah transaksi
Nilai confidence:
Rasio antara jumlah transaksi yang memuat antecedent
dan consequent terhadap jumlah transaksi yang meliputi
semua item dalam antecedent

IF A THEN B,C
Support = 0.5 (50%)
Confidence = 1 (100%)
IF B THEN C
Support = 1 (100%)
Confidence = 1 (100%)
IF B THEN C,A
Support = 0.5 (50%)
Confidence = 0.5 (50%)
Cara menghitung nilai support dan confidence
Terdapat dua transaksi yang terjadi:

Terdapat beberapa algoritma
yang bisa digunakan untuk
association rule di antaranya
algoritma apriori dan FP-Growth

Ide dasar:
Mengembangkan frequent itemset dan
memangkas item yang tingkat
frekuensinya di bawah minimum support
(Support >= Minimal Support)

Contoh Kasus Algoritma Apriori
Terdapat 9 transaksi yang terjadi:

Langkah 1:
Tentukan nilai minimum support dan
minimum confidence

Minimum support:
Menyatakan nilai minimum kemunculan itemset pada
suatu kumpulan transaksi
Minimum confidence:
Menyatakan nilai minimum kepercayaan terhadap rule
yang dihasilkan

Dalam kasus ini, ditentukan
nilai minimum support = 2
(22%) dan minimum
confidence = 70%

Langkah 2:
Generate frequent pattern 1-itemset

Pada iterasi pertama ini, semua itemset memenuhi aturan minimum supportnya
sehingga semua item menjadi kandidat.

Langkah 3:

1. C2 adalah hasil dari L1 join L1
2. L2 adalah itemset C2 yang memenuhi aturan minimum support
L1

Langkah 4:
Generate frequent pattern 3-itemset.
Lakukan untuk n-itemset apabila masih
mungkin terbentuk itemset.

1. Algoritma apriori mulai berjalan di langkah ini
2. Join step: {{I1, I2, I3}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}}
3. {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5} tidak dijadikan itemset karena ada
subset dari set tersebut yang tidak memenuhi minimum support (prune)

Langkah 5:
Bentuk Association Rule dari frequent
itemset yang sudah dibentuk. Rule yang
nilai confidencenya lebih dari minimum
confidence akan digunakan (Strong
Association Rule).

Itemset terpilih:
{{I1}, {I2}, {I3}, {I4}, {I5}, {I1,I2}, {I1,I3}, {I1,I5}, {I2,I3},
{I2,I4}, {I2,I5}, {I1,I2,I3}, {I1,I2,I5}}

Sebagai contoh dipilih
{I1,I2,I5} untuk mencari
Strong Association Rule

{I1,I2,I5} à Subset = {{I1,I2}, {I1,I5}, {I2,I5}, {I1}, {I2}, {I5}}
Minimum confidence: 70%
• IF {I1,I2} THEN {I5} Confidence: sc{I1,I2,I5}/sc {I1,I2} = 2/4 = 50% (Rule Rejected!)
• IF {I1,I5} THEN {I2} Confidence: sc{I1,I2,I5}/sc {I1,I5} = 2/2 = 100%(Rule Selected!)
• IF {I2,I5} THEN {I1} Confidence: sc{I1,I2,I5}/sc {I2,I5} = 2/2 = 100% (Rule Selected!)
• IF {I1} THEN {I2,I5} Confidence: sc{I1,I2,I5}/sc {I1} = 2/6 = 33% (Rule Rejected!)
• IF {I2} THEN {I1,I5} Confidence: sc{I1,I2,I5}/sc {I2} = 2/7 = 29% (Rule Rejected!)
• IF {I5} THEN {I1,I2} Confidence: sc{I1,I2,I5}/sc {I5} = 2/2 = 100% (Rule Selected!)

Setelah Strong Association Rule
terbentuk maka langkah
selanjutnya adalah
merepresentasikan pengetahuan

Bentuk representasi
pengetahuan didasarkan
pada tujuan data mining yang
dideskripsikan berdasarkan
kebutuhan pengguna

Representasi pengetahuan
No. Strong Association Rule Representasi Pengetahuan
1 if {I1,I2} then {I5} Item I1, I2, dan I5 harus ditempatkan
pada rak yang berdekatan/pada satu
lorong rak
2 if {I3} then {I1,I2} Item I3, I1, dan I2 harus ditempatkan
pada rak yang berdekatan/pada satu
lorong rak
.. .. ..
Misalkan tujuan data mining adalah penempatan item yang memiliki hubungan
asosiatif harus ditempatkan berdekatan agar keuntungan lebih optimal

Section 2:
Algoritma FP-Growth

Ide dasar:
Mengembangkan FP-Tree dan
Conditional FP-Tree sebagai pengganti
Frequent Itemset

Langkah 2:
seperti yang dilakukan pada algoritma
apriori

Langkah 3:
Urutkan tabel transaksi berdasarkan
frequent 1-itemset yang sudah diurutkan
support count-nya secara descending

Apabila ada dua item atau lebih yang memiliki support count yang sama maka urutan didasarkan
pada item mana yang ada di transaksi yang lebih awal muncul (T1 terjadi lebih dahulu dibanding T2)
Sort menurut support count (Descending):
𝐿 = { 𝐼2: 7 , 𝐼1: 6 , 𝐼3: 6 , 𝐼4: 2 , 𝐼5: 2 }
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3

Langkah 4:
Bentuk FP-Tree sesuai algoritma FP-Tree

null akan menjadi root dan child dari root dipilih berdasarkan scan List of Items
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:1
I1:1
I5:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:2
I1:1
I5:1
I4:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:3
I1:1
I5:1
I4:1 I3:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:4
I1:2
I5:1
I4:1 I3:1
I4:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:4
I1:2
I5:1
I4:1 I3:1
I4:1
I1:1
I3:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:5
I1:2
I5:1
I4:1 I3:2
I4:1
I1:1
I3:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:5
I1:2
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:6
I1:3
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:1
I5:1

TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1

Untuk membantu penelusuran
FP-Tree digunakan nodelink

null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Ilustrasi FP-Tree tanpa node-link Ilustrasi FP-Tree dengan node-link

Langkah 5:
Bentuk Conditional Pattern Base dimulai
dari item dengan support count terendah
ke item dengan support count tertinggi

Item Conditional Pattern Base
I5 {I2, I1:1}, {I2, I1, I3:1}
I4
I3
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
I2 tidak diikutsertakan karena prefixnya adalah null (root)

I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1

I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2}
I1 {I2:4}
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1

I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3 {I2, I1:2}, {I2:2}, {I1:2}
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1

Langkah 6:
Bentuk Conditional FP-Tree dimulai dari
item dengan support count terendah ke
item dengan support count tertinggi
(gunakan konsep minimum support)

null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
null
I2:2
I1:2
I5:1 I3:1
I5:1
Tahap 1: Conditional FP-Tree untuk I5 = {I2:2, I1:2}
Tidak memenuhi
minimum support

null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 2: Conditional FP-Tree untuk I4 = {I2:2}
null
I2:2
I1:1 I4:1
I4:1

null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 3: Conditional FP-Tree untuk I3 = {I2:4, I1:2}, {I1:2}
null
I2:4
I1:2 I3:2
I1:2
I3:2
I3:2

null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 4: Conditional FP-Tree untuk I1 = {I2:4}
null
I2:4
I1:4

Item Conditional Pattern Base Conditional FP-Tree
I5 {I2, I1:1}, {I2, I1, I3:1} {I2:2, I1:2}
I4 {I2, I1:1}, {I2:1} {I2:2}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2} {I2:4, I1:2}, {I1:2}
I1 {I2:4} {I2:4}

Langkah 7:
Bentuk Frequent Patterns dengan cara
menjoinkan set dan subset conditional
FP-Tree dengan item

Item
Conditional
Pattern Base
Conditional
FP-Tree
Frequent Patterns Generated
I5 {I2, I1:1}, {I2, I1, I3:1} {I2:2, I1:2} {I2, I5:2}, {I1, I5:2}, {I2, I1, I5:2}
I4 {I2, I1:1}, {I2:1} {I2:2} {I2, I4:2}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2} {I2:4, I1:2}, {I1:2} {I2, I3:4}, {I1, I3:4}, {I2, I1, I3:2}
I1 {I2:4} {I2:4} {I2, I1:4}

Langkah 8:
Cari Strong Association Rule
berdasarkan Frequent Pattern yang
terbentuk dengan cara yang sama
dengan apriori sampai terbentuk
representasi pengetahuan

Transaction ID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Terdapat 5 transaksi yang terjadi:
Kasus:
1. Tujuan data mining adalah membentuk paket ekonomis dari item yang punya hubungan asosiasi
2. Ditentukan minimum support 2 dan minimum confidence 70%

Data Management (Data Mining Association Rule)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

More from Adam Mukharil Bachtiar

More from Adam Mukharil Bachtiar (20)

Data Management (Data Mining Association Rule)