Data Mining Presentation - Presentation Transcript
Engin ÇAKIR 2008800078 Danışman: Yrd.Doç. Dr. Yılmaz GÖKŞEN
Bilginin Değeri / Verinin Önemi
Yeni ekonomide bilgi, üretimin faktörlerinden birisi
Internet küreselleşmeyi körüklüyor
Rekabet artıyor
Kar marjları düşüyor
Müşteriyi memnun etmek her geçen gün zorlaşıyor
Tüketiciler, müşteriler bilgiyle donanıyor
Sadakatleri azalıyor/azalabiliyor
Değişen koşullarla başa çıkmanın çaresi:
Bilgi ile değer yaratmak
Verileri toplamak, bilgi üretme amacına yönelik hazırlamak
Analiz etmek
Elde edilen bilgileri eyleme yönelik olarak kullanmak
Dijitalleşmenin etkisi
Bü y ü k miktarlarda verinin çok hızlı bir biçimde
toplanabilmesi
depolanabilmesi ve
analizinin m ü mk ü n olması
Bilgiye dönüştürülen verinin
doğru ve zamanında karar alabilmesi için onların kullanıcılara sunulması
Veri Madenciliği Nedir ?
Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kural ların aranmasıdır.
Veri Madenciliği Nedir ?
Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur.
Veri Madenciliği Nedir, Ne Değildir?
Ne değildir?
telefon rehberinde bir telefona ait numaranın aranması
“ Amazon” hakkında bilgi için arama motorunda sorgulama yapmak
Nedir?
Bazı isimlere bazı yörelerde diğerlerinden daha yaygın olarak rastlama durumu (O’Brien, O’Rurke, O’Reilly… gibi isimlerin Boston bölgesinde daha sık olması gibi)
Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yağmur ormanları ile, Amazon.com gibi)
Veri madenciliği, veri tabanları , istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır.
Tarihçesi
Veri madenciliğinin kökeni ilk sayısal bilgisayar olan ENIAC’a kadar dayanır.
1946 yılında geliştirilen ve bugünkü bilgisayarların atası olan ENIAC ABD’de II.Dünya savaşı sırasında ABD ordusu için geliştirildi.
30 ton ağırlığa ve 170 m³ hacme sahipti.
Yarım asırlık süre içerisinde bu devasa boyut cebimize girer duruma geldi.
Tarihçesi
ENIAC’tan günümüze kadar olan sürede bu evrimin gerçekleşmesi kullanıcı istekleri ile meydana geldi.
Kullanıcıya sunulan yazılımların her geçen gün farklı ihtiyaçlarla büyümesi sonucu, donanıma olan ihtiyaç da doğru orantılı olarak arttı.
Anlaşıldığı üzere bu döngünün anahtarı kullanıcıdır.
Tarihçesi
İlk zamanlar sadece karmaşık hesapları yapmaya yarayan bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı.
Bu sayede veri tabanları ortaya çıktı.
Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi.
Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır.
Tarihçesi
Kaybedilmek istenmeyen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklandı.
Veri tabanları büyüdü ve buradan bilgiye ulaşmak güçleşti.
Bu safhada veri modelleme kavramı ortaya çıktı.
İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaştı.
Donanımlar da bu gelişmeye ayak uydurdu.
Tarihçesi
Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.
İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda şekillendirse de bazı sorunlar da ortaya çıkmaktadır.
Verilerin saklanması, düzenlenmesi, organize edilmesi sorun gibi görünmese de bu kadar çok veri ile sonuca ulaşmak başlı başına bir sorun haline gelmiştir.
Tarihçesi
1960’lı yıllarda veri madenciliği kavram olarak kullanılmasa da o dönemlerde bilgisayar yardımıyla yeterince uzun bir tarama yapıldığında istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi.
Bu işleme o dönem veri taraması ( data dredging ), veri yakalaması ( data fishing ) gibi isimler verildi.
Tarihçesi
1990’lı yıllarda bu işleme Veri Madenciliği denildi.
Geleneksel istatistiki yöntemler yerine, veri analizi bilgisayar modülleri tarafından yapıldı.
Bu tarihten itibaren Veri Madenciliği; veri tabanları ve makine öğrenimi disiplini ile birlikte yol aldı.
Bilgisayarların spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edilmesi ile uygulamalı istatistik ve makine öğrenim kavramları veri madenciliği altında bir araya getirildi.
http://www.misjournal.com/?p=738
Bankacılık: Risk analizleri ve usulsüzlük tespiti.
Pazarlama: Çapraz satış analizleri, müşteri segmentasyonu.
Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.
Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi.
Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi.
Endüstri: Kalite kontrol, lojistik.
Yeni Müşteri ! Her ay en az 5 ke z uğrar yeni bir iş kuracak Otomatik ödeme talimatı var Vadeli ve vadesiz mevduatı var otomatik ödeme? Bi r zamanlar en iyi müşterimizdi Rakibimizle çalışıyor Kredi Kartı müşterimiz aylık ortalama harcaması su kadar Hizmetlerimizin çoğunu alıyor Daima Promosyon Kuponu kullanır Eski müşterimiz bankaya 4 aydır uğramadı inaktif Yeni bebekleri oldu Hem bireysel hem kurumsal müşterimiz Konut kredisi almış krize rağmen ödemesini aksatmamış
Veri Ambarı Standard form Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, gruplanır Amaç belirlenir, veri oluşturulur
Bilgi Keşfi: Farklı Alanların Bileşimi
Bilgi Keşfi sürecinde veri madenciliği
Bilgi Keşfinin Aşamaları
Uygulama alanını inceleme
Konuyla ilgili bilgi ve uygulama amaçları
Amaca uygun veri kümesi oluşturma: Veri seçme
Veri ayıklama ve önişleme
Veri azaltma ve veri dönüşümü
incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,
Bilgi İhtiyacı AMAÇ Veri Kaynakları Veri İnceleme Değerlendirme Modelleme Veri Hazırlama Kullanma Veri Madenciliği Standard Süreci VERİ
Veri Madenciliği Süreci
Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir.
Veri Madenciğinin Amacı
Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi (ihtiyaç duyulan bilgi)
Kampanya sırasında satış teklifini kabul etme olasılığı yüksek olan müşterileri isabetli tespit edecek modeli kurmak (veri madenciliğinin amacı)
Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
Siteden alışveriş yapan ile yapmayan uzun süre kalan ile kalmayanı ayırt edecek faktörleri belirleyecek modeli kurmak
Bilgi ihtiyacının belirlenmesi aşamasında
Personel
Veri
mevcut mu, elde edilebilir mi?
Donanım
verilerin depolandığı,
analiz için verinin seçilip yerleştirileceği donanım yeterli mi?
Yazılım
veriye erişmek, analizini yapmak,
raporlama ve sonuçları kullanıma sunmak için uygun mu?
1. Aşamada nelere dikkat edilmeli
Fayda/maliyet analizi
Başarı kriterinin belirlenmesi:
ihtiyaç duyulan bilgiyi elde etme derecesi
bu bilginin amaca ne derece hizmet ettiği
kriter sadece modelin tahmin gücünün yüksek olması değil elde edilen bilginin taşıdığı değer
Modelin tahmin gücünün yanı sıra satış başarı oranı nedir?
Sunulan teklifler hangi oranda kabul görmüştür ?
Veri kaynaklarının belirlenmesi
Veriler hangi kaynaklardan elde edileceğine karar verilmesi
İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi durumunda
hangi ortamda nasıl birleştirileceğine
aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi
VERİ KAYNAKLARI - Örnek
E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını artırmak (amaç)
Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
VERİ KAYNAKLARI
Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta görüntülediklerinin vb. verilerin tutulduğu dosyalar
Üye müşteri bilgilerinin tutulduğu dosyalar
Alışveriş işlem verilerinin tutulduğu dosyalar
Verilerin incelenmesi, anlaşılması
Veri nasıl tanımlanmış
kodlamalar
meta data: veri hakkındaki veriler
Veri kalitesinin incelenmesi
eksik veri olup olmadığına
veri girişinin hatalı olup olmadığına
kodlamalarda uyumsuzluk
meta data hataları
Verilerin incelenmesi - kavranması
Verinin keşfi ve hazırlanması
Amaç: başlangıçta veriyle ilgili fikir elde etmek
Tablolamalar Grafikler
OLAP küpleri: Çok boyutlu tablolamalar
Çeşitli kriterlere göre gruplandırmalar
Satış dağılımları
Bölgeler
Ürünler veya
Şube/mağaza bazında
Ortalamalar, toplamlar, sapmalar
2. Aşamada nelere dikkat edilmeli
Veri kalitesi
Eksik veri
Veri girişlerinde hata
Kodlamalarda uyumsuzluk
Meta data hataları
Verilerin hazırlanması
Hangi veri alanları (değişkenler, sütunlar)
Hangi kayıtlar (satırlar) kullanılacak
Örnekleme
Gözlem sayılarının fazla olması durumunda zaman kazandırır, maliyeti azaltır
Tabakalar; kampanyadan alanları ve almayanları kapsamak açısından önemli
Verilerin temizlenmesi
Verinin eksikliği ve veri kirliliğinin giderilmesi
İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi
Tahmin yöntemiyle tamamlanması
Hatalı verilerin
Veri girişi esnasında önlem alma
Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok gözüküyor
Yeni veriler oluşturmak
Verileri bazı işlemler yaparak farklı bir veri setine dönüştürmek
logaritma
toplam, bölüm, fark
yeniden kodlama
Faktör analizi ile değişkenleri daha az sayıda boyutlara indirgemek (RFM indeksi gibi)
Verileri hazırlarken nelere dikkat edilmeli
Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı
Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı
Eksik verilerin sistematik bir hataya yol açıp açmayacağı kontrol edilmeli
Birbirine eşdeğer tekrar niteliğinde olan veri alanları ayıklanmalı
Eklenecek yeni değişkenin verisini hazırlamak için gereken çabaya değer mi?
Modelin oluşturulması
Modelin amacı:
Sınıflandırma
Tahmin
Modelleme tekniği
Modelin varsayımlarının kontrol edilmesi
Algoritmaların seçilmesi
Modelin uygunluğunun test edilmesi
İsabetli tahmin oranı
Sürecin ve modelin değerlendirilmesi
Modelin bulgularının incelenmesi
Hangi gruplara ayırmış
Bu grupların özellikleri nelerdir
Model kurma ve bunun için gerekli verilerin elde edilmesi kullanıma hazırlanma sürecinin değerlendirilmesi
İhtiyaç duyulan bilgi gerçekten elde edilmiş mi?
Şu Anda!
Elde ne var biliyorsunuz
Modeliniz, modelleriniz, bulgularınız
Nasıl elde ettiğinizi biliyorsunuz
hangi verileri,
hangi aşamalardan geçirip hazırladıktan sonra
hangi modeli, tekniği kullanarak
Değerlendirme sonucu alternatifleriniz
Modeli ve bulguları kullanmak
Daha iyi, daha güçlü bir model kurma kararı
Kullanmaya değer bulmamak
Yeni bir veri madenciliği süreci başlatmak
Sonuçların Kullanıma Sunulması
Sürecin son aşaması ise sonuçların kullanıma sunulmasıdır.....
BİLGİ
Veri Madenciliği Süreci
Veri Madencililiği Sisteminin Yapısı Filtreleme Veri Filtreleme Veri Birleştirme Grafiksel Kullanıcı Arayüzü Desen Değerlendirme Veri Madenciliği Motoru Veritabanı veya Veri ambarı Sunucusu Veritabanı Veri Ambarı Bilgi Tabanı
Veri Madenciliği Uygulama Alanları
Veritabanı analizi ve karar verme desteği
Pazar araştırması
Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi
Risk analizi
Kalite kontrolü, rekabet analizi, öngörü
Sahtekarlıkların saptanması
Diğer Uygulamalar
Belgeler arası benzerlik (haber kümeleri, e-posta)
Sorgulama sonuçları
Problemler
Hangi promosyonu ne zaman uygulamalıyım?
Hangi müşteri aldığı krediyi geri ödemeyebilir?
Bir müşteriye ne kadar kredi verilebilir?
Sahtekarlık olabilecek davranışlar hangileridir?
Hangi müşteriler yakın zamanda kaybedilebilir?
Hangi müşterilere promosyon yapmalıyım?
Hangi yatırım araçlarına yatırım yapmalıyım?
Pazar Araştırması (1)
Veri madenciliği uygulamaları için veri kaynağı
Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri
Hedef pazarlar bulma
Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
Müşterilerin davranışlarında zaman içindeki değişiklik
Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik
Çapraz pazar incelemesi:
Ürün satışları arasındaki ilişkiyi bulma
Pazar Araştırması (2)
Müşteri profili
Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma)
Müşterilerin ihtiyaçlarını belirleme
Farklı müşterilerin o anki ilgisine yönelik ürünü bulma
Yeni müşterileri hangi faktörlerin etkilediğini bulma
Sahtekarlık İncelemesi
Sigorta, bankacılık, telekomünikasyon alanlarında
Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme
Örnek:
Araba sigortası
Sağlık Sigortası
Kredi kartı başvurusu
Risk Analizi
Finans planlaması ve bilanço değerlendirmesi
nakit para akışı incelemesi ve kestirimi
talep incelemesi
zaman serileri incelemesi
Kaynak planlaması
kaynakların incelenmesi ve uygun olarak dağıtılması
Rekabet
rakipleri ve pazar eğilimlerini takip etme
müşterileri sınıflara ayırma ve fiyat politikası belirleme
Örnek Uygulamalar
Bağıntı
“ Çocuk bezi alan müşterilerin 30% ’u bira da alır . ” ( Basket Analysis )
Sınıflandırma
“ Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”
Regresyon
Kredi skorlama ( Application Scoring )
Örnek Uygulamalar
Zaman içinde Sıralı Örüntüler
“ İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor . ” ( Behavioral scoring, Churning )
Benzer Zaman Sıraları
“ X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”
Örnek Uygulamalar
İstisnalar (Fark Saptanması)
“ Normalden farklı davranış gösteren müşterilerim var mı?”
Fraud detection
Döküman Madenciliği (Web Madenciliği)
“ Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”
Facebook
Adınız ve Soyadınız ile üye oluyorsunuz,
Arkadaşlarınızı listenize ekliyorsunuz,
Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli konularda hazırlanmış ufak imajlar yolluyorsunuz.
Süper markete gittiniz, tuvalet kağıdı, sigara ve bir de bira aldınız, kartınızı uzattınız kasiyer ödemeyi almak için geçirdi.
Kasa bilgisayarı son hızla bankaya ödeme bilgilerini sorarken merkez bilgisayara isim bilginizi yollar,
Facebook
Ana bilgisayar isminiz ve satın aldığınız ürünlerin bağlı olduğu ürün grupları ile, facebook da yolladığınız ve aldığınız poke`leri sıklığına göre karşılaştırır.
Elde ettiği veriyi belirli tolerans aralıklarında filtre eder,
En fazla içki veya yiyecek konusunda poke yolladığınız ve en sık iletişimde kaldığınız arkadaşınızı bulur.
Facebook
ve daha siz kasiyerin kartınızı geçirdiğini bile algılayamadan önünüzdeki LCD ekranda en yakın arkadaşınız Ahmet`in facebook resmi belirir,
Altında da şu yazar:
Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi ile Efes biralarınızı yudumlar eski günlerden konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile sadece 2 kontör
Hepsiburada.com Örneği
Hepsiburada.com’dan yapılan alışverişler ve sitede yapılan gezintiler log’larda kayıt altına alınıyor.
Ayrıca müşteri profiline bakılarak müşterinin nasıl bir karaktere sahip olduğu bilgisine de ulaşılıyor.
Satışlarını arttırmak isteyen bu portal, müşterileri kazanmak için müşteriye özel kampanyalar gönderiyor.
İşte burada Veri Madenciliği kavramı ile karşı karşıyayız.
Hepsiburada.com Veri Madenciliği ile müşterinin sitedeki gezintilerine ve profiline uygun olarak mailler gönderilmektedir.
Böylece müşteriye özel olduğu hissettirilirken; müşterinin siteden alışveriş yapması teşvik edilir.
Size Özel Fırsatlar !!!
Sn Engin Çakır,
Öncelikle Hepsiburada.com'u tercih ettiğiniz için teşekkür ederiz. Siparişlerinizde bizi tercih ettiğiniz için aşağıdaki fırsatlar size özel tanımlanmıştır.(*)
Size Özel Fırsat
HAYAT ATÖLYESİ % 10 indirim!
SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDİYE ) 85 TL indirim!
DIGIPHONE K8800 CARBON ÇİFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDİYE ) % 18 indirim!
SAMSUNG MÜZİK MASA STANDI MDS-60 % 75 indirim!
BEYAZ KAPLAN % 10 indirim!
MobiX-Blue BLUETOOTH FCT CİHAZI ( KOLAY KULLANIM ) % 10 indirim!
Size özel tüm fırsatları görmek için tıklayınız. Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriş yapıldığı takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alışverişler için geçerlidir.
Sipariş no : 63657082 Sipariş Tarihi : 27.12.2008 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 6 Taksit # Ürün Adet Gönderilen Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 1. MOBILLIFE DİJİTAL DERGİ ABONELİĞİ (3 AY)-3 Ay 1 1 0 0,00 TL 6,36 TL 6,36 TL 0,00 TL 2. GENERAL MOBILE G777 ( 1 GB HAFIZA KARTI HEDİYE ) 1 1 0 202,45 TL 202,45 TL 0,00 TL 202,45 TL Toplam İndirim : 6,36 TL Ara Toplam : 202,45 TL KDV : 36,44 TL Sipariş Toplamı : 238,89 TL Sipariş no : 68156663 Sipariş Tarihi : 19.01.2007 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 12 Taksit # Ürün Adet Gönderilen Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 1. SAMSUNG E900 ( 512 MB HAFIZA KARTI HEDİYE )-Siyah 1 1 0 496,25 TL 496,25 TL 0,00 TL 496,25 TL Ara Toplam : 496,25 TL KDV : 89,33 TL Kargo Ücreti : 1,98 TL Sipariş Toplamı : 587,56 TL
Sipariş no : 21577684 Sipariş Tarihi : 18.11.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : HSBC 8 Taksit # Ürün Adet Gönderilen Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 1. SONY DCR-HC23E VİDEO KAMERA (MİNİ DV) + SONY ÇANTA + SONY 5 ADET DVM 60 BOŞ KASET HEDİYELİ 1 1 0 500,40 TL ###### 0,00 TL 500,40 TL Ara Toplam : 500,40 TL KDV : 90,07 TL Sipariş Toplamı : 590,47 TL Sipariş no : 56932027 Sipariş Tarihi : 09.05.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 8 Taksit # Ürün Adet Gönderilen Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 1. COLD COMPRESS-2sn DE BUZ KOMPRES 571142 1 1 0 0,00 TL 6,65 TL 6,65 TL 0,00 TL 2. GUARD OTOMOBİL BRANDASI 081106-GRUP6 1 1 0 36,20 TL 36,20 TL 0,00 TL 36,20 TL 3. PIRANHA PC1211 2.0 MEGAPİKSEL AYARLANABİLEN IŞIKLI+DivX KAYIT + MİKROFONLU + 10X DİJİTAL ZOOM + TÜRK 1 1 0 25,27 TL 25,27 TL 0,00 TL 25,27 TL Toplam İndirim : 6,65 TL Ara Toplam : 61,47 TL KDV : 11,07 TL Sipariş Toplamı : 72,54 TL
Müşterinin gezindiği siteler kayıt altına alınmış.
Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş yapmamış.
Müşteri siteden daha önce cep telefonu satın almış.
Müşteri teknoloji ürünlerini siteden takip ediyor.
Amazon.com Örneği
İskandinav ülkelerinin portalı olan Jubii internet sitesi, sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize edebilmek için müşteri profillerini ve davranışlarını belirlediler. Sayfalar yeni müşteri profillerine göre çalışmaya başladığında verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve böylece reklam verenler verdikleri reklamlar sonucunda daha fazla ziyaretçi almaya başladıklarından Jubii ‘nin karı arttı. Ziyaretçi davranış modelleri Jubii’ye reklam gelirlerini artırma yönünde imkan sağladı.
Bu konuya en güzel örnek www.amazon.com ‘un kullandığı yazılımdır. Amazon.com bu sayede müşterilerinin davranışlarını, hobilerini, isteklerini anlıyor ve zaman zaman müşterilerine özel ürünler sunuyor.
Sistem Modelleme
x : Gözlenebilen değişkenler.
y = f ( x ) : f bilinmeyen ve rassal bir fonksiyon
f x y
f x y f * -
Veriden Öğrenme
Verilmiş örnek kümesi X ={ x t ,y t } t üzerinde
f ( x t ) ’ye en yakın kestirici f *( x t ) ’i oluşturuyoruz.
Uygulama Tipleri
Sınıflandırma : y in { C 1 , C 2 ,…, C K }
Regresyon : y in Re
Zaman Serisi Tahmini : x ’ler zaman içinde bağımlı
Öbekleme : x ’leri benzerliğe göre gurupla
yıllık gelir birikim OK DEFAULT
2 KURAL : EĞER y ıllık gelir > 1 VE birikim > 2 İSE OK DEĞİLSE DEFAULT OK DEFAULT x 2 : birikim x 1 : yıllık gelir 1
x 1 : yıllık gelir x 2 : birikim y = 0: DEFAULT y = 1: OK x 1 > 1 x 2 > 2 y = 0 y = 1 y = 0 evet hayır hayır evet
yıllık gelir birikim OK DEFAULT Tip 1 Tip 2 Tip 3
Veri Görselleştirme
Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.
zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Şimdi Geçmiş Gelecek ? Discovery of frequent episodes
İlk Standard Form Deneme kümesi Öğrenme kümesi Model 1 Model 2 Model L En iyiyi seç Veri azaltma : Değişken sayısı ve değer azaltma Olası modelleri öğrenme kümesi üstünde eğit Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç En iyi model Yeterince iyi ise kabul et
Kestiricileri Eğitmek için Teknikler
Parametri k Çokboyutlu İstatistik
Bellek tabanlı (Örnek tabanlı) Model ler
Karar Ağaçları
Yapay Sinir Ağları
Sınıflandırma
x : d -boyutlu değişkenler vektörü
C 1 , C 2 ,... , C K : K sınıf
Şüphe
Veriden P( C i | x ) hesaplanır ve
olasılığı en yüksek sınıf k seçilir
P( C k | x )=max j P( C j | x )
Sınıflandırma
p ( x | C j ) : Sınıf j’den bir örneğin x olma olasılığı P ( C j ) : Sınıf j’nin ilk olasılığı p ( x ) : Herhangi bir örneğin x olma olasılığı P ( C j | x ) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık)
İstatistiksel Yöntemler
Sınıf dağılımları, p( x | C j ) için parametrik (Gauss) model varsayılıyor
Tek boyutlu
Çok boyutlu
Sınıflandırıcıyı Eğitmek
Veri { x t } t ’in ait olduğu sınıf C j
Tek boyutlu: p ( x | C j )~ N ( j , j )
Çok boyutlu: p ( x | C j )~ N d ( j , j )
Davranışlar ve Riskler
i : davranış i
( i | C j ) : Sınıf C j iken i davranışını almanın getirdiği kayıp.
i davranışının riski:
R ( i | x ) = j ( i | C j ) P ( C j | x )
En az riskli davranışı seç:
R ( k | x ) = min i R ( i | x )
Regresyon
gürültü. Doğrusal regresyonda parametreler w,w 0
E w
Yüksek Dereceli Regresyon
Örneğin, ikinci dereceden
Çok Değişkenli Doğrusal Regresyon (Scoring)
d değişken sayısı
Özellik Seçme
Özellikler Altkümesi Seçimi
İleriye veya Geriye doğru seçim
Doğrusal İzdüşüm
Temel Bileşenler Analizi (PCA)
Doğrusal Ayırıcı Analizi (LDA)
( x 1 ) ( x 2 ) ( x 3 ) ( x 4 ) ( x 1 x 3 ) ( x 2 x 3 ) ( x 3 x 4 ) ( x 1 x 2 x 3 ) ( x 2 x 3 x 4 ) İleriye Doğru Seçim ( x 1 x 2 x 3 x 4 ) ( x 1 x 2 x 3 ) ( x 1 x 2 x 4 ) ( x 1 x 3 x 4 ) ( x 2 x 3 x 4 ) ( x 2 x 4 ) ( x 1 x 4 ) ( x 1 x 2 ) Geriye Doğru Seçim
z 2 x 1 z 1 x 2 z 2 z 1 Beyazlaştırma
x 1 z 1 x 2 z 1
Bellek Tabanlı Yöntemler
Örnek tabanlı karar verme
En yakın komşu algoritması
Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır.
x 1 x 2
x y Uzmanların Birleşimi
Eksik Veri
Eksik veri olan kayıtları çıkar.
Ortalama ile doldur.
Diğer değişkenler cinsinden regresyon ile doldur.
x 2 x 1 > 1 x 2 > 2 y = 0 y = 1 y = 0 evet hayır hayır evet x 1 1 2
x 1 x 1 x 2 x 2 7 0 1 9 8 5 0 4
x 1 x d x 2 x 0 =+1 w 1 w 2 w d w 0 y g Regresyon: Öz Sınıflandırma: Sigmoid (0/1)
Yapay Sinir Ağının Eğitilmesi
d değişken
X üzerindeki hatayı en aza indiren w ’yi bul Öğrenme kümesi:
W i E Eğim iniş: Tekrarlı öğrenme öğrenme hızı
K tane sınıf için o j , j =1,.., K çıktı Her o j , P ( C j | x ) ’yi kestirir
x 0 =+ 1 o K x d x 2 x 1 o 2 o 1 w Kd
Doğrusal Doğrusal olmayan
Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir.
x 0 =+1 h H x d x 2 x 1 h 2 h 1 w Kd h 0 =+1 t KH o 1 o 2 o K
Dyspnoea: Nefes Darlığı
Modelleri Değerlendirme
M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz?
M 1 , M 2 , ..., M L arasında en iyisi hangi modeldir?
1 2 3 k -1 k 1 2 3 k -1 k k kere tekrar et ve ortalama al
Modelleri Birleştirme: Neden? İlk Standard Form Geçerleme kümesi Öğrenme kümesi Model 1 Model 2 Model L En iyiyi seç En iyi model
İlk Standard Form Model 1 Model 2 Model L Oylama Öğrenme kümesi Geçerleme kümesi
0 comments
Post a comment