Data Mining Presentation

5,840 views

Published on

Veri Madenciliği Nedir?
Örneklerle anlatım...

Published in: Education, Technology
5 Comments
8 Likes
Statistics
Notes
No Downloads
Views
Total views
5,840
On SlideShare
0
From Embeds
0
Number of Embeds
194
Actions
Shares
0
Downloads
1
Comments
5
Likes
8
Embeds 0
No embeds

No notes for slide

Data Mining Presentation

  1. 1. Engin ÇAKIR
  2. 2. Bilginin Değeri / Verinin Önemi  Yeni ekonomide bilgi, üretimin faktörlerinden birisi  Internet küreselleşmeyi körüklüyor  Rekabet artıyor  Kar marjları düşüyor  Müşteriyi memnun etmek her geçen gün zorlaşıyor  Tüketiciler, müşteriler bilgiyle donanıyor  Sadakatleri azalıyor/azalabiliyor 2
  3. 3. Değişen koşullarla başa çıkmanın çaresi:  Bilgi ile değer yaratmak  Verileri toplamak, bilgi üretme amacına yönelik hazırlamak  Analiz etmek  Elde edilen bilgileri eyleme yönelik olarak kullanmak 3
  4. 4. Dijitalleşmenin etkisi  Büyük miktarlarda verinin çok hızlı bir biçimde  toplanabilmesi  depolanabilmesi ve  analizinin mümkün olması  Bilgiye dönüştürülen verinin  doğru ve zamanında karar alabilmesi için onların kullanıcılara sunulması 4
  5. 5. Veri Madenciliği Nedir?  Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. 5
  6. 6. Veri Madenciliği Nedir?  Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur. 6
  7. 7. Veri Madenciliği Nedir, Ne Değildir?  Ne değildir?  Nedir?  Bazı isimlere bazı yörelerde  telefon rehberinde bir telefona ait numaranın aranması  “Amazon” hakkında bilgi için arama motorunda sorgulama yapmak diğerlerinden daha yaygın olarak rastlama durumu (O’Brien, O’Rurke, O’Reilly… gibi isimlerin Boston bölgesinde daha sık olması gibi)  Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yağmur ormanları ile, Amazon.com gibi) 7
  8. 8. Veri Madenciliği Sihir değildir! Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. 8
  9. 9. Tarihçesi  Veri madenciliğinin kökeni ilk sayısal bilgisayar olan ENIAC’a kadar dayanır.  1946 yılında geliştirilen ve bugünkü bilgisayarların atası olan ENIAC ABD’de II.Dünya savaşı sırasında ABD ordusu için geliştirildi.  30 ton ağırlığa ve 170 m³ hacme sahipti.  Yarım asırlık süre içerisinde bu devasa boyut cebimize girer duruma geldi. 9
  10. 10. Tarihçesi  ENIAC’tan günümüze kadar olan sürede bu evrimin gerçekleşmesi kullanıcı istekleri ile meydana geldi.  Kullanıcıya sunulan yazılımların her geçen gün farklı ihtiyaçlarla büyümesi sonucu, donanıma olan ihtiyaç da doğru orantılı olarak arttı.  Anlaşıldığı üzere bu döngünün anahtarı kullanıcıdır. 10
  11. 11. Tarihçesi  İlk zamanlar sadece karmaşık hesapları yapmaya yarayan bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı.  Bu sayede veri tabanları ortaya çıktı.  Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi.  Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır. 11
  12. 12. Tarihçesi  Kaybedilmek istenmeyen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklandı.  Veri tabanları büyüdü ve buradan bilgiye ulaşmak güçleşti.  Bu safhada veri modelleme kavramı ortaya çıktı.  İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaştı.  Donanımlar da bu gelişmeye ayak uydurdu. 12
  13. 13. Tarihçesi  Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.  İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda şekillendirse de bazı sorunlar da ortaya çıkmaktadır.  Verilerin saklanması, düzenlenmesi, organize edilmesi sorun gibi görünmese de bu kadar çok veri ile sonuca ulaşmak başlı başına bir sorun haline gelmiştir. 13
  14. 14. Tarihçesi  1960’lı yıllarda veri madenciliği kavram olarak kullanılmasa da o dönemlerde bilgisayar yardımıyla yeterince uzun bir tarama yapıldığında istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi.  Bu işleme o dönem veri taraması (data dredging), veri yakalaması (data fishing) gibi isimler verildi. 14
  15. 15. Tarihçesi  1990’lı yıllarda bu işleme Veri Madenciliği denildi.  Geleneksel istatistiki yöntemler yerine, veri analizi bilgisayar modülleri tarafından yapıldı.  Bu tarihten itibaren Veri Madenciliği; veri tabanları ve makine öğrenimi disiplini ile birlikte yol aldı.  Bilgisayarların spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edilmesi ile uygulamalı istatistik ve makine öğrenim kavramları veri madenciliği altında bir araya getirildi. 15
  16. 16. http://www.misjournal.com/?p=738 16
  17. 17. Veri Madenciliği Kullanım Alanları o Bankacılık: Risk analizleri ve usulsüzlük tespiti. o Pazarlama: Çapraz satıĢ analizleri, müĢteri segmentasyonu. o Sigortacılık: MüĢteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi. o Telekomünikasyon: Hile tespiti, hatların yoğunluk o Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri. tahminleri. o Tıp: Tıbbi teĢhis, uygun tedavi sürecinin belirlenmesi. o Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi. o Endüstri: Kalite kontrol, lojistik. 17
  18. 18. Kredi Kartı müşterimiz aylık ortalama harcaması su kadar Vadeli ve vadesiz mevduatı var otomatik ödeme? Konut kredisi almış Hem bireysel hem kurumsal krize rağmen ödemesini aksatmamış müşterimiz Her ay en az Hizmetlerimizin 5 kez uğrar çoğunu yeni bir iş alıyor kuracak Yeni Müşteri! Eski müşterimiz bankaya 4 aydır uğramadı inaktif Otomatik Daima ödeme Promosyon Kuponu kullanır talimatı var Yeni bebekleri oldu Bir zamanlar en iyi müşterimizdi Rakibimizle çalışıyor
  19. 19. Ambardan Madene Veri Ambarı Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, gruplanır Standard form Amaç belirlenir, veri oluĢturulur 19
  20. 20. Bilgi Keşfi: Farklı Alanların Bileşimi Makine Öğrenmesi İstatistik Veri Madenciliği ve Bilgi Keşfi Görüntüleme Veritabanı 20
  21. 21. Bilgi Keşfi sürecinde veri madenciliği 21
  22. 22. Bilgi Keşfinin Aşamaları  Uygulama alanını inceleme  Konuyla ilgili bilgi ve uygulama amaçları  Amaca uygun veri kümesi oluşturma: Veri seçme  Veri ayıklama ve önişleme  Veri azaltma ve veri dönüşümü  incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,  Veri madenciliği tekniği seçme  Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme  Veri madenciliği algoritmasını seçme  Model değerlendirme ve bilgi sunumu  Bulunan bilginin yorumlanması 22
  23. 23. Veri Madenciliği Standard Süreci Bilgi İhtiyacı AMAÇ Veri Kaynakları Veri İnceleme Veri Hazırlama VERİ Kullanma Modelleme Değerlendirme
  24. 24. Veri Madenciliği Süreci  Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir. 24
  25. 25. Veri Madenciğinin Amacı  Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi (ihtiyaç duyulan bilgi)  Kampanya sırasında satış teklifini kabul etme olasılığı yüksek olan müşterileri isabetli tespit edecek modeli kurmak (veri madenciliğinin amacı)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)  Siteden alışveriş yapan ile yapmayan uzun süre kalan ile kalmayanı ayırt edecek faktörleri belirleyecek modeli kurmak 25
  26. 26. Bilgi ihtiyacının belirlenmesi aşamasında  Personel  Veri  mevcut mu, elde edilebilir mi?  Donanım  verilerin depolandığı,  analiz için verinin seçilip yerleştirileceği donanım yeterli mi?  Yazılım  veriye erişmek, analizini yapmak,  raporlama ve sonuçları kullanıma sunmak için uygun mu? 26
  27. 27. 1. Aşamada nelere dikkat edilmeli  Fayda/maliyet analizi  Başarı kriterinin belirlenmesi:  ihtiyaç duyulan bilgiyi elde etme derecesi  bu bilginin amaca ne derece hizmet ettiği  kriter sadece modelin tahmin gücünün yüksek olması değil elde edilen bilginin taşıdığı değer  Modelin tahmin gücünün yanı sıra satış başarı oranı nedir?  Sunulan teklifler hangi oranda kabul görmüştür? 27
  28. 28. Veri kaynaklarının belirlenmesi  Veriler hangi kaynaklardan elde edileceğine karar verilmesi  İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi durumunda  hangi ortamda nasıl birleştirileceğine  aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi 28
  29. 29. VERİ KAYNAKLARI - Örnek  E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını artırmak (amaç)  Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi) VERİ KAYNAKLARI  Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta görüntülediklerinin vb. verilerin tutulduğu dosyalar  Üye müşteri bilgilerinin tutulduğu dosyalar  Alışveriş işlem verilerinin tutulduğu dosyalar 29
  30. 30. Verilerin incelenmesi, anlaşılması  Veri nasıl tanımlanmış  kodlamalar  meta data: veri hakkındaki veriler  Veri kalitesinin incelenmesi  eksik veri olup olmadığına  veri girişinin hatalı olup olmadığına  kodlamalarda uyumsuzluk  meta data hataları 30
  31. 31. Verilerin incelenmesi - kavranması  Verinin keşfi ve hazırlanması  Amaç: başlangıçta veriyle ilgili fikir elde etmek  Tablolamalar Grafikler  OLAP küpleri: Çok boyutlu tablolamalar  Çeşitli kriterlere göre gruplandırmalar  Satış dağılımları    Bölgeler Ürünler veya Şube/mağaza bazında  Ortalamalar, toplamlar, sapmalar 31
  32. 32. 2. Aşamada nelere dikkat edilmeli Veri kalitesi  Eksik veri  Veri girişlerinde hata  Kodlamalarda uyumsuzluk  Meta data hataları 32
  33. 33. Verilerin hazırlanması  Hangi veri alanları (değişkenler, sütunlar)  Hangi kayıtlar (satırlar) kullanılacak  Örnekleme  Gözlem sayılarının fazla olması durumunda zaman kazandırır, maliyeti azaltır  Tabakalar; kampanyadan alanları ve almayanları kapsamak açısından önemli 33
  34. 34. Verilerin temizlenmesi  Verinin eksikliği ve veri kirliliğinin giderilmesi  İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi  Tahmin yöntemiyle tamamlanması  Hatalı verilerin  Veri girişi esnasında önlem alma  Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok gözüküyor 34
  35. 35. Yeni veriler oluşturmak  Verileri bazı işlemler yaparak farklı bir veri setine dönüştürmek  logaritma  toplam, bölüm, fark  yeniden kodlama  Faktör analizi ile değişkenleri daha az sayıda boyutlara indirgemek (RFM indeksi gibi) 35
  36. 36. Verileri hazırlarken nelere dikkat edilmeli  Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı  Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı  Eksik verilerin sistematik bir hataya yol açıp açmayacağı kontrol edilmeli  Birbirine eşdeğer tekrar niteliğinde olan veri alanları ayıklanmalı  Eklenecek yeni değişkenin verisini hazırlamak için gereken çabaya değer mi? 36
  37. 37. Modelin oluşturulması  Modelin amacı:  Sınıflandırma  Tahmin  Modelleme tekniği  Modelin varsayımlarının kontrol edilmesi  Algoritmaların seçilmesi  Modelin uygunluğunun test edilmesi  İsabetli tahmin oranı 37
  38. 38. Sürecin ve modelin değerlendirilmesi  Modelin bulgularının incelenmesi  Hangi gruplara ayırmış  Bu grupların özellikleri nelerdir  Model kurma ve bunun için gerekli verilerin elde edilmesi kullanıma hazırlanma sürecinin değerlendirilmesi  İhtiyaç duyulan bilgi gerçekten elde edilmiş mi? 38
  39. 39. Şu Anda!  Elde ne var biliyorsunuz  Modeliniz, modelleriniz, bulgularınız  Nasıl elde ettiğinizi biliyorsunuz  hangi verileri,  hangi aşamalardan geçirip hazırladıktan sonra  hangi modeli, tekniği kullanarak 39
  40. 40. Değerlendirme sonucu alternatifleriniz  Modeli ve bulguları kullanmak  Daha iyi, daha güçlü bir model kurma kararı  Kullanmaya değer bulmamak  Yeni bir veri madenciliği süreci başlatmak 40
  41. 41. Sonuçların Kullanıma Sunulması  Sürecin son aşaması ise sonuçların kullanıma sunulmasıdır.....  BİLGİ 41
  42. 42. Veri Madenciliği Süreci 42
  43. 43. Veri Madencililiği Sisteminin Yapısı Grafiksel Kullanıcı Arayüzü Desen Değerlendirme Veri Madenciliği Motoru Veri Filtreleme Veri BirleĢtirme Bilgi Tabanı Veritabanı veya Veri ambarı Sunucusu Filtreleme Veritabanı Veri Ambarı 43
  44. 44. Veri Madenciliği Uygulama Alanları  Veritabanı analizi ve karar verme desteği  Pazar araştırması  Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi  Risk analizi  Kalite kontrolü, rekabet analizi, öngörü  Sahtekarlıkların saptanması  Diğer Uygulamalar  Belgeler arası benzerlik (haber kümeleri, e-posta)  Sorgulama sonuçları 44
  45. 45. Problemler  Hangi promosyonu ne zaman uygulamalıyım?  Hangi müşteri aldığı krediyi geri ödemeyebilir?  Bir müşteriye ne kadar kredi verilebilir?  Sahtekarlık olabilecek davranışlar hangileridir?  Hangi müşteriler yakın zamanda kaybedilebilir?  Hangi müşterilere promosyon yapmalıyım?  Hangi yatırım araçlarına yatırım yapmalıyım? 45
  46. 46. Pazar Araştırması (1)  Veri madenciliği uygulamaları için veri kaynağı  Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri  Hedef pazarlar bulma  Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları  Müşterilerin davranışlarında zaman içindeki değişiklik  Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik  Çapraz pazar incelemesi:  Ürün satışları arasındaki ilişkiyi bulma 46
  47. 47. Pazar Araştırması (2)  Müşteri profili  Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma)  Müşterilerin ihtiyaçlarını belirleme  Farklı müşterilerin o anki ilgisine yönelik ürünü bulma  Yeni müşterileri hangi faktörlerin etkilediğini bulma 47
  48. 48. Sahtekarlık İncelemesi  Sigorta, bankacılık, telekomünikasyon alanlarında  Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme  Örnek:  Araba sigortası  Sağlık Sigortası  Kredi kartı başvurusu 48
  49. 49. Risk Analizi  Finans planlaması ve bilanço değerlendirmesi  nakit para akışı incelemesi ve kestirimi  talep incelemesi  zaman serileri incelemesi  Kaynak planlaması  kaynakların incelenmesi ve uygun olarak dağıtılması  Rekabet  rakipleri ve pazar eğilimlerini takip etme  müşterileri sınıflara ayırma ve fiyat politikası belirleme 49
  50. 50. Örnek Uygulamalar  Bağıntı “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis)  Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”  Regresyon Kredi skorlama (Application Scoring) 50
  51. 51. Örnek Uygulamalar  Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning)  Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” 51
  52. 52. Örnek Uygulamalar  İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection  Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” 52
  53. 53. Facebook Adınız ve Soyadınız ile üye oluyorsunuz, Arkadaşlarınızı listenize ekliyorsunuz, Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli konularda hazırlanmış ufak imajlar yolluyorsunuz. http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121 53
  54. 54. Facebook Süper markete gittiniz, tuvalet kağıdı, sigara ve bir de bira aldınız, kartınızı uzattınız kasiyer ödemeyi almak için geçirdi. Kasa bilgisayarı son hızla bankaya ödeme bilgilerini sorarken merkez bilgisayara isim bilginizi yollar, 54
  55. 55. Facebook  Ana bilgisayar isminiz ve satın aldığınız ürünlerin bağlı olduğu ürün grupları ile, facebook da yolladığınız ve aldığınız poke`leri sıklığına göre karşılaştırır.  Elde ettiği veriyi belirli tolerans aralıklarında filtre eder,  En fazla içki veya yiyecek konusunda poke yolladığınız ve en sık iletişimde kaldığınız arkadaşınızı bulur. 55
  56. 56. Facebook  ve daha siz kasiyerin kartınızı geçirdiğini bile algılayamadan önünüzdeki LCD ekranda en yakın arkadaşınız Ahmet`in facebook resmi belirir, Altında da şu yazar: Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi ile Efes biralarınızı yudumlar eski günlerden konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile sadece 2 kontör 56
  57. 57. Hepsiburada.com Örneği  Hepsiburada.com’dan yapılan alışverişler ve sitede yapılan gezintiler log’larda kayıt altına alınıyor.  Ayrıca müşteri profiline bakılarak müşterinin nasıl bir karaktere sahip olduğu bilgisine de ulaşılıyor.  Satışlarını arttırmak isteyen bu portal, müşterileri kazanmak için müşteriye özel kampanyalar gönderiyor.  İşte burada Veri Madenciliği kavramı ile karşı karşıyayız. 57
  58. 58.  Hepsiburada.com Veri Madenciliği ile müĢterinin sitedeki gezintilerine ve profiline uygun olarak mailler gönderilmektedir.  Böylece müĢteriye özel olduğu hissettirilirken; müĢterinin siteden alıĢveriĢ yapması teĢvik edilir. 58
  59. 59. Size Özel Fırsatlar !!! Sn Engin Çakır, Öncelikle Hepsiburada.com'u tercih ettiğiniz için teĢekkür ederiz. SipariĢlerinizde bizi tercih ettiğiniz için aĢağıdaki fırsatlar size özel tanımlanmıĢtır.(*) Size Özel Fırsat HAYAT ATÖLYESĠ % 10 indirim! SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDĠYE ) 85 TL indirim! DIGIPHONE K8800 CARBON ÇĠFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDĠYE ) % 18 indirim! SAMSUNG MÜZĠK MASA STANDI MDS-60 % 75 indirim! BEYAZ KAPLAN % 10 indirim! MobiX-Blue BLUETOOTH FCT CĠHAZI ( KOLAY KULLANIM ) % 10 indirim! AVCININ KADERĠ % 10 indirim! ĠġARET % 10 indirim! ĠNTERAKTĠF ÇĠNCE EĞĠTĠM SETĠ (8 KĠTAP, 8 CD, 8 CD–ROM) % 25 indirim! MELEKLER VE ġEYTANLAR (CEP BOY) % 10 indirim! AÇLIK OYUNLARI % 10 indirim! Size özel tüm fırsatları görmek için tıklayınız. Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriĢ yapıldığı takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alıĢveriĢler için geçerlidir. 59
  60. 60. Sipariş no : 63657082 Sipariş Tarihi : 27.12.2008 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün Adet Gönderilen 1. MOBILLIFE DĠJĠTAL DERGĠ ABONELĠĞĠ (3 AY)-3 Ay 1 1 2. GENERAL MOBILE G777 ( 1 GB HAFIZA KARTI HEDĠYE ) 1 1 Ödeme Şekli : Garanti 6 Taksit Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) 0 0,00 TL 6,36 TL 6,36 TL 0,00 TL 0 202,45 TL 202,45 TL 0,00 TL 202,45 TL Toplam İndirim : Ara Toplam : 202,45 TL KDV : 36,44 TL Sipariş Toplamı : Sipariş no : 68156663 6,36 TL 238,89 TL Sipariş Tarihi : 19.01.2007 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. # Ürün 1. SAMSUNG E900 ( 512 MB HAFIZA KARTI HEDĠYE )-Siyah Adet 1 Gönderilen 1 Ödeme Şekli : Garanti 12 Taksit Bekleyen 0 Birim Fiyat 496,25 TL Günün Fiyatı 496,25 TL İndirim 0,00 TL Toplam (TL ) 496,25 TL Ara Toplam : 496,25 TL KDV : 89,33 TL Kargo Ücreti : 1,98 TL Sipariş Toplamı : 587,56 TL 60
  61. 61. Sipariş no : 21577684 Sipariş Tarihi : 18.11.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : HSBC 8 Taksit Adet 1 1 0 Birim Fiyat 0,00 TL 500,40 TL 500,40 TL 90,07 TL Sipariş Toplamı : Sipariş no : 56932027 Bekleyen Toplam (TL ) KDV : SONY DCR-HC23E VĠDEO KAMERA (MĠNĠ DV) + SONY ÇANTA + SONY 5 ADET DVM 60 BOġ 1. KASET HEDĠYELĠ Gönderile n İndirim Ara Toplam : # Ürün Günün Fiyatı 590,47 TL 500,40 TL ###### Sipariş Tarihi : 09.05.2006 Sipariş Durumu : Siparişinizdeki tüm ürünler yollanmıştır. Ödeme Şekli : Garanti 8 Taksit Adet Gönderile n Bekleyen Birim Fiyat Günün Fiyatı İndirim Toplam (TL ) COLD COMPRESS-2sn DE BUZ KOMPRES 1. 571142 1 1 0 0,00 TL 6,65 TL 6,65 TL 0,00 TL 2. GUARD OTOMOBĠL BRANDASI 081106-GRUP6 1 1 0 36,20 TL 36,20 TL 0,00 TL 36,20 TL PIRANHA PC1211 2.0 MEGAPĠKSEL AYARLANABĠLEN IġIKLI+DivX KAYIT + 3. MĠKROFONLU + 10X DĠJĠTAL ZOOM + TÜRK 1 1 0 25,27 TL 25,27 TL 0,00 TL 25,27 TL Toplam İndirim : 6,65 TL Ara Toplam : 61,47 TL KDV : 11,07 TL Sipariş Toplamı : 72,54 TL # Ürün 61
  62. 62.  Müşterinin gezindiği siteler kayıt altına alınmış.  Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş yapmamış.  Müşteri siteden daha önce cep telefonu satın almış.  Müşteri teknoloji ürünlerini siteden takip ediyor. 62
  63. 63. Amazon.com Örneği  Ġskandinav ülkelerinin portalı olan Jubii internet sitesi, sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize edebilmek için müĢteri profillerini ve davranıĢlarını belirlediler. Sayfalar yeni müĢteri profillerine göre çalıĢmaya baĢladığında verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve böylece reklam verenler verdikleri reklamlar sonucunda daha fazla ziyaretçi almaya baĢladıklarından Jubii ‘nin karı arttı. Ziyaretçi davranıĢ modelleri Jubii’ye reklam gelirlerini artırma yönünde imkan sağladı. 63
  64. 64.  Bu konuya en güzel örnek www.amazon.com ‘un kullandığı yazılımdır. Amazon.com bu sayede müĢterilerinin davranıĢlarını, hobilerini, isteklerini anlıyor ve zaman zaman müĢterilerine özel ürünler sunuyor. 64
  65. 65. 65
  66. 66. 66
  67. 67. Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 67
  68. 68. Veri için Model Oluşturma x y f - f* 68
  69. 69. Veriden Öğrenme Verilmiş örnek kümesi X={xt,yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. E t yt f * (x t ) 2 69
  70. 70. Uygulama Tipleri  Sınıflandırma: y in {C1, C2,…,CK}  Regresyon: y in Re  Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı  Öbekleme: x ’leri benzerliğe göre gurupla 70
  71. 71. Örnek birikim OK DEFAULT yıllık gelir 71
  72. 72. Örnek Çözüm x2 : birikim OK DEFAULT 2 1 x1 : yıllık gelir KURAL: EĞER yıllık gelir> 1 VE birikim> 2 ĠSE OK DEĞĠLSE DEFAULT 72
  73. 73. Karar Ağaçları x1 > 1 evet x2 > hayır x1 : yıllık gelir x2 : birikim y = 0: DEFAULT y = 1: OK y=0 2 evet hayır y=1 y=0 73
  74. 74. Öbekleme birikim OK DEFAULT Tip 1 Tip 2 Tip 3 yıllık gelir 74
  75. 75. Veri Görselleştirme  Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.  Verinin yapısının; grupların, istisnaların gözlenmesi 75
  76. 76. Veri Görselleştirme z2 Kural Ġstisna z1 76
  77. 77. Zaman Serisi Tahmini ? zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan GeçmiĢ Discovery of frequent episodes ġimdi Gelecek 77
  78. 78. Metodoloji Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: DeğiĢken sayısı ve değer azaltma En iyi model EğitilmiĢ modelleri deneme kümesi üzerinde dene ve en baĢarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 78
  79. 79. Kestiricileri Eğitmek için Teknikler  Parametrik Çokboyutlu İstatistik  Bellek tabanlı (Örnek tabanlı) Modeller  Karar Ağaçları  Yapay Sinir Ağları 79
  80. 80. Sınıflandırma  x : d-boyutlu değişkenler vektörü  C1 , C2 ,... , CK : K sınıf  Şüphe  Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) 80
  81. 81. Sınıflandırma 81
  82. 82. Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 82
  83. 83. İstatistiksel Yöntemler  Sınıf dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor x Tek boyutlu 1 p (x | C j ) Çok boyutlu p (x | C j ) 2 2 j d 1 (2 ) )2 j 2 j x d /2 exp (x Σj exp 1 (x 2 μ j )T Σ j 1 ( x μj ) 83
  84. 84. Sınıflandırıcıyı Eğitmek  Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N ( j, xt ˆj x t Cj nj ) ˆ j )2 ( xt ˆ j2 j ˆ P (C j ) t x Cj nj nj n Çok boyutlu: p(x|Cj)~Nd ( j, j) xt ˆ μj xt C j nj ˆ ˆ (xt μ j )(xt μ j )T ˆ j2 xt C j nj 84
  85. 85. Örnek: 1 Boyutlu 85
  86. 86. Örnek: Farklı Varyanslar 86
  87. 87. Örnek: Çok Sınıf 87
  88. 88. Örnek: 2 Boyutlu 88
  89. 89. Örnek: Ortak Kovaryans 89
  90. 90. Örnek: Farklı Kovaryanslar 90
  91. 91. Davranışlar ve Riskler i: davranış i ( i|Cj) : Sınıf Cj iken kayıp. i davranışının riski: i davranışını almanın getirdiği R( i |x) = j ( i|Cj) P(Cj |x) En az riskli davranışı seç: R( k |x ) = mini R( i |x ) 91
  92. 92. Regresyon (Fonksiyon Yakınsama) 92
  93. 93. Regresyon yt f (x t | ) gürültü. Doğrusal regresyonda parametreler w,w0 f (x t | w ,w 0 ) wx t E (w ,w 0 ) (y t wx w0 t t E E w E 0, w0 w 0) 2 0 w 93
  94. 94. Doğrusal Regresyon 94
  95. 95. Yüksek Dereceli Regresyon  Örneğin, ikinci dereceden t f (x | w 2 ,w 1 ,w 0 ) w 2 x E (w 2 ,w 1 ,w 0 ) (y t t t2 w 2x w 1x t2 t w 1x t w0 w 0 )2 95
  96. 96. Yüksek Dereceli Regresyon 96
  97. 97. Çok Değişkenli Doğrusal Regresyon (Scoring)  d değişken sayısı t t t f (x 1 , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) t w 1x 1 w 2x 2 t  wd xd t w0 wT x E (w 0 ,w 1 ,w 2 ,  ,w d ) y t t t 1 t t f (x , x 2 ,  , x d | w 0 ,w 1 ,w 2 ,  ,w d ) 2 97
  98. 98. Özellik Seçme  Özellikler Altkümesi Seçimi İleriye veya Geriye doğru seçim  Doğrusal İzdüşüm Temel Bileşenler Analizi (PCA) Doğrusal Ayırıcı Analizi (LDA) 98
  99. 99. Sıralı Altküme Seçimi Ġleriye Doğru Seçim (x1) (x2) (x 1 x 3 ) (x3) (x4) (x2 x3) (x1 x2 x3) (x 3 x 4 ) (x2 x3 x4 ) Geriye Doğru Seçim (x 1 x 2 x 3 x 4 ) (x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4) (x2 x4) (x1 x4) (x1 x2) 99
  100. 100. Temel Bileşenler Analizi (PCA) x2 z2 z2 z1 x1 z1 BeyazlaĢtırma 100
  101. 101. Doğrusal Ayırıcı Analizi (LDA) x2 z1 z1 x1 101
  102. 102. Bellek Tabanlı Yöntemler  Örnek tabanlı karar verme  En yakın komşu algoritması  Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 102
  103. 103. En Yakın Komşu x2 x1 103
  104. 104. Yerel Regresyon y x Uzmanların BirleĢimi 104
  105. 105. Eksik Veri  Eksik veri olan kayıtları çıkar.  Ortalama ile doldur.  Diğer değişkenler cinsinden regresyon ile doldur. 105
  106. 106. Karar Ağaçlarının Eğitilmesi x1 > x2 1 evet x2 > hayır 2 evet hayır y=1 y=0 y=0 2 x1 1 106
  107. 107. Düzensizliğin Ölçülmesi x2 x2 x1 x1 7 0 1 9 8 5 0 4 107
  108. 108. Entropi e n left n left log n n n right n right log n n 108
  109. 109. Yapay Sinir Ağları x0=+1 x1 x2 w1 w2 g wd xd y w0 y g (x 1w 1 x 2w 2  w 0 ) g ( wT x) Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 109
  110. 110. Yapay Sinir Ağının Eğitilmesi  d değişken o g ( wT x ) g d i 0 Öğrenme kümesi: wixi X x ,y t t X üzerindeki hatayı en aza indiren w ’yi bul 2 E (w | X ) y t X t o t 2 yt t X g i wixi 110
  111. 111. Doğrusal Olmayan En İyileme E Wi wi E wi Eğim iniĢ: Tekrarlı öğrenme öğrenme hızı 111
  112. 112. Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1,..,K çıktı Her oj , P (Cj|x)’yi kestirir oj sigmoid ( wTj x ) 1 1 exp( wT x ) j 112
  113. 113. Çok Sınıflı Doğrusal Yapay Sinir Ağı o2 o1 oK wKd x0=+1 o t j x1 xd x2 T j t g (w x ) g d i 0 w ji x t i 113
  114. 114. Tekrarlı Öğrenme X xt , yt E (w | X ) y t o tj j t j o t 2 j g ( wTj x t ) w ji Doğrusal Doğrusal olmayan E w ji E oj oj w ji t y tj o tj g ' ( )x i w ji y tj o tj x i w ji y tj o tj o tj (1 o tj )x i 114
  115. 115. Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 115
  116. 116. Çok Katmanlı Yapay Sinir Ağı (MLP) o2 o1 oK tKH o h h2 h1 hH h0=+1 x0=+1 x1 x2 t j t p g H p 0 t t jp h p sigmoid d i 0 w pi x it wKd xd 116
  117. 117. Olasılık Ağları Dyspnoea: Nefes Darlığı p ( ) 0.1 p ( | ) 0.05, p ( | ) 0.1,... 117
  118. 118. Modelleri Değerlendirme 1. 2. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? M1 , M2 , ..., ML arasında en iyisi hangi modeldir? 118
  119. 119. Çapraz Geçerleme 1 1 2 3 2 k-1 k 3 k-1 k k kere tekrar et ve ortalama al 119
  120. 120. Modelleri Birleştirme: Neden? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 120
  121. 121. Modelleri Birleştirme : Nasıl? Ġlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 121
  122. 122. Kredi Skor Hesabı (Credit Scoring)  Başvuru (application) ve davranış (behavioral) skor hesabı  İstatistiksel bir model olarak skorkartı  İyi ve kötü risk müşteriler  Alanların doğrusal toplamı: Kredi kartı var mı? Evet: +50 Hayır: –20 122
  123. 123. Kredi Skor Hesabında Kullanılan Alanlar  İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl  Ev durumu: Sahip, kiracı, diğer  Postakodu: Kodlanmış  Telefon: Evet, hayır  Yıllık gelir: Kodlanmış  Kredi kartı: Evet, hayır  Yaş: 18-25, 26-40, 41-55, 55+ yıl  Meslek: Memur, işçi, serbest, işsiz, ...  Medeni hali: Evli, bekar, diğer  Bankanın müşterisi olduğu zaman: yıl  Çalıştığı kurumda çalışma zamanı: yıl 123
  124. 124. Kredi Skor Hesabının Yararları  Daha doğru karar vermeyi sağlar.  Skorkartı standardizasyon ve nesnel karar getirir.  Hızlı ve ucuzdur.  Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır.  Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir. 124
  125. 125. Sepet Analizi (Basket Analysis)  X ve Y malları arasındaki ilişki  X, Y: 0/1 Destek (Support): P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı Güven (Confidence): P(X|Y)=P(X ve Y)/P(Y) = X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı 125
  126. 126. Sepet Analizi  X, Y beğeni değerleri  Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))  Cov(X,Y)=E[(X-mX) (Y-mY)] 126
  127. 127. Sonuçlar: Verinin Önemi  Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır.  Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır.  Veri madenciliği simya değildir; taşı altına döndüremeyiz. 127
  128. 128. Sonuçlar: Uzmanın Önemi  Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır.  Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir.  Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir. 128
  129. 129. Sonuçlar: Sabrın Önemi  Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.  Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur. 129
  130. 130. Tekrar: Madencilik için Gerekenler  Çok miktarda kaliteli veri  İlgili ve bilgili uzmanlar: 1. Uygulama alanı 2. Veri Tabanları (Veri Ambarcılığı) 3. İstatistik ve Yapay Öğrenme  Zaman ve sabır 130
  131. 131. TEŞEKKÜRLER Engin ÇAKIR 131

×