Veri Bilimi Okulu tarafından organize edilen Veri Bilimci Yetiştirme Programı kapsamında öğrendiğimiz ASSOCIATION RULE LEARNING (BİRLİKTELİK KURALI ÖĞRENİMİ) sunumumu paylaşmaktayım.
2. Bir veri öğesinin başka bir veri öğesine
bağımlılığını kontrol eden ve daha
kararlı olabilmesini sağlayan kural
tabanlı bir makine öğrenmesi tekniğidir.
Ayrıca geçmiş verilerin analizini
sağlayarak keşfettiği ilişkiler ile geleceğe
yönelik çalışmaların yapılmasını
destekler.
2
ASSOCİATİON RULES(BİRLİKTELİK KURALLARI) NEDİR?
3. ASSOCİATİON RULES(BİRLİKTELİK KURALLARI) NEDİR?
Örneğin, bir müşteri ekmek satın
alırsa, büyük bir olasılıkla süt,
tereyağı veya yumurta alabilir. Bu
sebeple bu ürünler aynı rafta ya da
çoğunlukla yakınlarda tutulur. Bu
durum Birliktelik Kuralı ile
gösterilir ve ürün önerileri
yapılmasını sağlar.
3
4. APRİORİ ALGORİTMASI NEDİR?
• Apriori algoritması, Agrawal ve Srikant tarafından 1994 yılında ortaya
çıkmıştır.
• Bu algoritmanın ismi, bilgileri bir önceki adımdan aldığından «prior»
anlamında Apriori’dir.
Öğe kümesi(itemset): Bir veya daha çok öğeden oluşan küme
K-öğe kümesi(k-itemset): k öğeden oluşan küme(Ekmek, Süt, Tereyağı)
• Apriori algoritmasına göre temel yaklaşım, eğer k-öğe kümesi minimum
destek değerini sağlıyorsa, bu kümenin alt kümeleri de minimum destek
kriterini sağlar.
4
5. APRİORİ ALGORİTMASI NEDİR?
Birliktelik kuralının ilk aşamasında
yaklaşımları gerçekleştirmek için en çok
Apriori Algoritması tercih edilir.
Sepet analiz yöntemidir.
En çok birlikte alınan ürünleri görmemizi ve
buna göre hareket etmemizi sağlar.
5
6. APRİORİ ALGORİTMASI PARAMETRELERİ
Support(X,Y) : X ve Y’nin
birlikte görülme olasılığı
Confidence(X, Y) : X satın
alındığında Y’nin satılması
olasılığı
Lift : X satın alındığında Y’nin
satın alınma olasılığı lift kat
kadar artar
6
8. Bu ürün tüm alışverişlerde %50 oranında bir gözlenme sıklığı vardır.
Bu bir öğe kümesinin ne kadar popüler olduğunu gösterir. Öğe kümeleri birden
fazla öğe içerebilir.
Elma satın alındığında biranın satın alınma olasılığı %75’tir.
Elma satın alındığında bira satın alınması 1 kat artar ve bu öğeler arasında bir
ilişki olmadığını gösterir.
8
9. APRİORİ ALGORİTMASI NASIL ÇALIŞIR?
1) Minimum destek(support) sayısı ve minimum güven(confidence) değeri
belirlenir.
2) Öğe kümeler içerisinde her bir öğenin frekans yani destek değerleri bulunur.
Minimum destek değerinden küçük olanlar elenir.
3) Eleme sonrası elde edilen tekil öğeler ile ikişerli ürün birliktelikleri
oluşturulur. Minimum destek değerinden küçük olan ikişerli öğe kümeleri de
elenir.
4) Üçlü, dörtlü vb. birliktelikler oluşturulur ve bu birlikteliklerden minimum
destek değerinin altındakiler de elenir.
5) İşlemler bittikten sonra itemsets ortaya çıkar. Verilen x adet ürün için 2^x
adet olası itemsets vardır.
6) Güven değerleri de hesaplanarak verilen güven parametresinin üstünde olan
öğeler ile kurallar oluşturulur.
9
10. N = 5, Support = % 20(0,2) Support Freq = 1
Alışveriş Kayıtları Her bir ürün için support değerlerini hesaplama
10
TID ITEMS
1001 Süt, Çay, Kek
1002 Yumurta, Çay, Kola
1003 Süt, Yumurta, Çay, Kola
1004 Yumurta, Kola
1005 Meyve Suyu
ITEMS FREQ SUPPORT
Süt 2 0,4
Yumurta 3 0,6
Çay 3 0,6
Kola 3 0,6
Meyve Suyu 1 0,2
Kek 1 0,2
Meyve Suyu ve Kek elenir.
11. Diğer adımı geçen öğeler ile
yeni liste kombinasyonları
11
Bu şekilde yeni listenin kombinasyonlarının ilk alışveriş kayıtlarına göre
support’larına bakılarak eleme işlemi gerçekleştirildi.
ITEMS
Süt, Yumurta
Süt, Çay
Süt, Kola
Yumurta, Çay
Yumurta, Kola
Çay, Kola
ITEMS FREQ SUPPORT
Süt, Yumurta 1 0,2
Süt, Çay 2 0,4
Süt, Kola 1 0,2
Yumurta, Çay 2 0,4
Yumurta, Kola 3 0,6
Çay, Kola 2 0,4
Yeni liste ve
Support’u oluşturma
12. Diğer adımı geçen öğeler ile
yeni liste kombinasyonları
12
Sadece Yumurta, Çay, Kola kümesi hariç diğerleri elenir.
ITEMS
Süt, Çay, Yumurta
Süt, Çay, Yumurta, Kola
Süt, Çay, Kola
Yumurta, Çay, Kola
ITEMS FREQ SUPPORT
Süt, Çay, Yumurta 1 0,2
Süt, Çay, Yumurta, Kola 1 0,2
Süt, Çay, Kola 1 0,2
Yumurta, Çay, Kola 2 0,4
Yeni liste ve
Support’u oluşturma
13. FİNAL TABLOSU
13
• Yumurta ve çay tüm alışverişlerin %40’ında birlikte gözlenmektedir.
• Yumurta alan müşterilerin %67’si çay da almaktadır.
• Yumurta olan alışverişlerde çay ürününün satışı 1,11 kat artmaktadır.
ITEMS FREQ SUPPORT CONFIDENCE LIFT
Süt 2 0,4 1
Yumurta 3 0,6 1
Çay 3 0,6 1
Kola 3 0,6 1
Süt, Çay 2 0,4 1 1,67
Yumurta, Çay 2 0,4 0,67 1,11
Yumurta, Kola 3 0,6 1 1,67
Çay, Kola 2 0,4 0,67 1,11
Yumurta, Çay, Kola 2 0,4 0,67 1,85
15. Online Retail II isimli veri seti İngiltere
merkezli online bir satış mağazasının
01/12/2009-09/12/2011 tarihleri
arasındaki satışları içeriyor.
Bu şirketin ürün kataloğunda hediyelik
eşyalar yer alıyor.
Promosyon ürünleri olarak da
düşünülebilir.
Çoğu müşterisinin toptancı olduğu
bilgisi de mevcuttur.
15
VERİ SETİ HİKAYESİ
16. VERİ SETİNİN DEĞİŞKENLERİNİ TANIMA
16
Değişken İsmi Açıklama Değişken Türü Eksik Gözlem
Sayısı
InvoiceNo Fatura Numarası Kategorik 0
StockCode Ürün Kodu Kategorik 0
Description Ürün İsmi Kategorik 1454
Quantity Ürün Adedi Numerik 0
InvioceDate Fatura Tarihi Tarih ve Saat 0
UnitPrice Fatura Fiyatı Numerik 0
CustomerID Eşsiz Müşteri
Numarası
Kategorik 135080
Country Ülke İsmi Kategorik 0
22. ARL VERİ YAPSINI HAZIRLAMA (INOİCE-PRODUCT MATRİX)
Elimizdeki ölçüm ihtiyacı olan bir şeyleri ölçmek için önce bunları matematiksel
forma dönüştürmek gerekmektedir.
Veri için gelmesi istenen durum:
• Bir sepette bu ürünlerden varsa 1 yoksa 0 gelmesi istenmektedir.
22
23. BİRLİKTELİK KURALININ ÇIKARILMASI
• Tüm olası ürün birlikteliklerinin olasılıkları için apriori fonksiyonunu
kullanıyoruz. Çıkan çıktı da ürünlerin tek başlarına gözükme olasılıklarıdır.
23
24. BİRLİKTELİK KURALININ ÇIKARILMASI
• Association_rules ile bütün metrikler gelecektir. Apriori fonksiyonundan
farkı budur. İlk 5 gözlem için 2 ürünün birlikte gözükme olasılıklarına göre
veri seti azalan bir şekilde sıralanmıştır.
24
25. ÇIKTININ PARAMETRELERİ
• Antecedent Support: Tek başına X olasılığı
• Consequent Support: Tek başına Y olasılığı
• Support: İkisinin birlikte görülme olasılığı
• Confidence: X alındığında Y alınma olasılığı
• Lift: X alındığında Y alınma olasılığı
• Leverage: Kaldıraç etkisi(support’u yüksek olan değerlere öncelik verme
eğilimi vardır) bu yüzden lift tercih edilir.
• Conviction: Y olmadan X’in beklenen frekansı
25