Data Mining Presentation

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    1 Favorite

    Data Mining Presentation - Presentation Transcript

    1. Engin ÇAKIR 2008800078 Danışman: Yrd.Doç. Dr. Yılmaz GÖKŞEN
    2. Bilginin Değeri / Verinin Önemi
      • Yeni ekonomide bilgi, üretimin faktörlerinden birisi
      • Internet küreselleşmeyi körüklüyor
      • Rekabet artıyor
      • Kar marjları düşüyor
      • Müşteriyi memnun etmek her geçen gün zorlaşıyor
      • Tüketiciler, müşteriler bilgiyle donanıyor
      • Sadakatleri azalıyor/azalabiliyor
    3. Değişen koşullarla başa çıkmanın çaresi:
      • Bilgi ile değer yaratmak
      • Verileri toplamak, bilgi üretme amacına yönelik hazırlamak
      • Analiz etmek
      • Elde edilen bilgileri eyleme yönelik olarak kullanmak
    4. Dijitalleşmenin etkisi
      • Bü y ü k miktarlarda verinin çok hızlı bir biçimde
        • toplanabilmesi
        • depolanabilmesi ve
        • analizinin m ü mk ü n olması
      • Bilgiye dönüştürülen verinin
        • doğru ve zamanında karar alabilmesi için onların kullanıcılara sunulması
    5. Veri Madenciliği Nedir ?
      • Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kural ların aranmasıdır.
    6. Veri Madenciliği Nedir ?
      • Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur.
    7. Veri Madenciliği Nedir, Ne Değildir?
      • Ne değildir?
      • telefon rehberinde bir telefona ait numaranın aranması
      • “ Amazon” hakkında bilgi için arama motorunda sorgulama yapmak
      • Nedir?
      • Bazı isimlere bazı yörelerde diğerlerinden daha yaygın olarak rastlama durumu (O’Brien, O’Rurke, O’Reilly… gibi isimlerin Boston bölgesinde daha sık olması gibi)
      • Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yağmur ormanları ile, Amazon.com gibi)
    8. Veri madenciliği, veri tabanları , istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır.
    9. Tarihçesi
      • Veri madenciliğinin kökeni ilk sayısal bilgisayar olan ENIAC’a kadar dayanır.
      • 1946 yılında geliştirilen ve bugünkü bilgisayarların atası olan ENIAC ABD’de II.Dünya savaşı sırasında ABD ordusu için geliştirildi.
      • 30 ton ağırlığa ve 170 m³ hacme sahipti.
      • Yarım asırlık süre içerisinde bu devasa boyut cebimize girer duruma geldi.
    10. Tarihçesi
      • ENIAC’tan günümüze kadar olan sürede bu evrimin gerçekleşmesi kullanıcı istekleri ile meydana geldi.
      • Kullanıcıya sunulan yazılımların her geçen gün farklı ihtiyaçlarla büyümesi sonucu, donanıma olan ihtiyaç da doğru orantılı olarak arttı.
      • Anlaşıldığı üzere bu döngünün anahtarı kullanıcıdır.
    11. Tarihçesi
      • İlk zamanlar sadece karmaşık hesapları yapmaya yarayan bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlandı.
      • Bu sayede veri tabanları ortaya çıktı.
      • Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirdi.
      • Veri ambarı kavramının ortaya çıkışı bu dönemlere rastlamaktadır.
    12. Tarihçesi
      • Kaybedilmek istenmeyen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklandı.
      • Veri tabanları büyüdü ve buradan bilgiye ulaşmak güçleşti.
      • Bu safhada veri modelleme kavramı ortaya çıktı.
      • İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaştı.
      • Donanımlar da bu gelişmeye ayak uydurdu.
    13. Tarihçesi
      • Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.
      • İhtiyaçlar her ne kadar teknolojiyi ciddi anlamda şekillendirse de bazı sorunlar da ortaya çıkmaktadır.
      • Verilerin saklanması, düzenlenmesi, organize edilmesi sorun gibi görünmese de bu kadar çok veri ile sonuca ulaşmak başlı başına bir sorun haline gelmiştir.
    14. Tarihçesi
      • 1960’lı yıllarda veri madenciliği kavram olarak kullanılmasa da o dönemlerde bilgisayar yardımıyla yeterince uzun bir tarama yapıldığında istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenildi.
      • Bu işleme o dönem veri taraması ( data dredging ), veri yakalaması ( data fishing ) gibi isimler verildi.
    15. Tarihçesi
      • 1990’lı yıllarda bu işleme Veri Madenciliği denildi.
      • Geleneksel istatistiki yöntemler yerine, veri analizi bilgisayar modülleri tarafından yapıldı.
      • Bu tarihten itibaren Veri Madenciliği; veri tabanları ve makine öğrenimi disiplini ile birlikte yol aldı.
      • Bilgisayarların spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edilmesi ile uygulamalı istatistik ve makine öğrenim kavramları veri madenciliği altında bir araya getirildi.
      • http://www.misjournal.com/?p=738
      • Bankacılık: Risk analizleri ve usulsüzlük tespiti.
      • Pazarlama: Çapraz satış analizleri, müşteri segmentasyonu.
      • Sigortacılık: Müşteri kaybı sebeplerinin belirlenmesi, usulsüzlüklerin önlenmesi.
      • Telekomünikasyon: Hile tespiti, hatların yoğunluk tahminleri.
      • Borsa: Hisse senedi fiyat tahmini, genel piyasa analizleri.
      • Tıp: Tıbbi teşhis, uygun tedavi sürecinin belirlenmesi.
      • Bilim ve Mühendislik: Amprik veriler üzerinde modeller kurularak bilimsel ve teknik problemlerin çözümlenmesi.
      • Endüstri: Kalite kontrol, lojistik.
    16. Yeni Müşteri ! Her ay en az 5 ke z uğrar yeni bir iş kuracak Otomatik ödeme talimatı var Vadeli ve vadesiz mevduatı var otomatik ödeme? Bi r zamanlar en iyi müşterimizdi Rakibimizle çalışıyor Kredi Kartı müşterimiz aylık ortalama harcaması su kadar Hizmetlerimizin çoğunu alıyor Daima Promosyon Kuponu kullanır Eski müşterimiz bankaya 4 aydır uğramadı inaktif Yeni bebekleri oldu Hem bireysel hem kurumsal müşterimiz Konut kredisi almış krize rağmen ödemesini aksatmamış
    17. Veri Ambarı Standard form Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, gruplanır Amaç belirlenir, veri oluşturulur
    18. Bilgi Keşfi: Farklı Alanların Bileşimi
    19. Bilgi Keşfi sürecinde veri madenciliği
    20. Bilgi Keşfinin Aşamaları
      • Uygulama alanını inceleme
        • Konuyla ilgili bilgi ve uygulama amaçları
      • Amaca uygun veri kümesi oluşturma: Veri seçme
      • Veri ayıklama ve önişleme
      • Veri azaltma ve veri dönüşümü
        • incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut azaltma,
      • Veri madenciliği tekniği seçme
        • Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
      • Veri madenciliği algoritmasını seçme
      • Model değerlendirme ve bilgi sunumu
      • Bulunan bilginin yorumlanması
      işlemin %70’lik bölümünü oluşturur
    21. Bilgi İhtiyacı AMAÇ Veri Kaynakları Veri İnceleme Değerlendirme Modelleme Veri Hazırlama Kullanma Veri Madenciliği Standard Süreci VERİ
    22. Veri Madenciliği Süreci
      • Veri Madenciliği bir yöntem değildir bir süreçtir. Bu süreçte ana unsur süreci gerçekleştiren uygulamacıdır. Süreçte bulunan adımlar doğru olarak yerine getirilmediği sürece istenilen sonuca ulaşılması mümkün değildir.
    23. Veri Madenciğinin Amacı
      • Çapraz satış kampanyası için hedef müşteri kitlesi bilgisi (ihtiyaç duyulan bilgi)
        • Kampanya sırasında satış teklifini kabul etme olasılığı yüksek olan müşterileri isabetli tespit edecek modeli kurmak (veri madenciliğinin amacı)
      • Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
        • Siteden alışveriş yapan ile yapmayan uzun süre kalan ile kalmayanı ayırt edecek faktörleri belirleyecek modeli kurmak
    24. Bilgi ihtiyacının belirlenmesi aşamasında
      • Personel
      • Veri
        • mevcut mu, elde edilebilir mi?
      • Donanım
        • verilerin depolandığı,
        • analiz için verinin seçilip yerleştirileceği donanım yeterli mi?
      • Yazılım
        • veriye erişmek, analizini yapmak,
        • raporlama ve sonuçları kullanıma sunmak için uygun mu?
    25. 1. Aşamada nelere dikkat edilmeli
      • Fayda/maliyet analizi
      • Başarı kriterinin belirlenmesi:
        • ihtiyaç duyulan bilgiyi elde etme derecesi
        • bu bilginin amaca ne derece hizmet ettiği
        • kriter sadece modelin tahmin gücünün yüksek olması değil elde edilen bilginin taşıdığı değer
      • Modelin tahmin gücünün yanı sıra satış başarı oranı nedir?
      • Sunulan teklifler hangi oranda kabul görmüştür ?
    26. Veri kaynaklarının belirlenmesi
      • Veriler hangi kaynaklardan elde edileceğine karar verilmesi
      • İhtiyaç duyulan veriler farklı kaynaklardan elde edilmesi durumunda
        • hangi ortamda nasıl birleştirileceğine
        • aktarılacağı nihai ortama ve nasıl aktarılacağına karar verilmesi
    27. VERİ KAYNAKLARI - Örnek
      • E-ticaret sitesinin ziyaretçi ve alışveriş yapan müşteri sayısını artırmak (amaç)
      • Sitede uzun süre kalma ve alışveriş yapma olasılığını artıran faktörlerin neler olduğu bilgisi (ihtiyaç duyulan bilgi)
      • VERİ KAYNAKLARI
      • Web log: Ziyaretçilerin hangi sayfaları hangi sıklıkta görüntülediklerinin vb. verilerin tutulduğu dosyalar
      • Üye müşteri bilgilerinin tutulduğu dosyalar
      • Alışveriş işlem verilerinin tutulduğu dosyalar
    28. Verilerin incelenmesi, anlaşılması
      • Veri nasıl tanımlanmış
        • kodlamalar
        • meta data: veri hakkındaki veriler
      • Veri kalitesinin incelenmesi
        • eksik veri olup olmadığına
        • veri girişinin hatalı olup olmadığına
        • kodlamalarda uyumsuzluk
        • meta data hataları
    29. Verilerin incelenmesi - kavranması
      • Verinin keşfi ve hazırlanması
        • Amaç: başlangıçta veriyle ilgili fikir elde etmek
      • Tablolamalar Grafikler
        • OLAP küpleri: Çok boyutlu tablolamalar
        • Çeşitli kriterlere göre gruplandırmalar
        • Satış dağılımları
          • Bölgeler
          • Ürünler veya
          • Şube/mağaza bazında
        • Ortalamalar, toplamlar, sapmalar
    30. 2. Aşamada nelere dikkat edilmeli
        • Veri kalitesi
        • Eksik veri
        • Veri girişlerinde hata
        • Kodlamalarda uyumsuzluk
        • Meta data hataları
    31. Verilerin hazırlanması
      • Hangi veri alanları (değişkenler, sütunlar)
      • Hangi kayıtlar (satırlar) kullanılacak
      • Örnekleme
        • Gözlem sayılarının fazla olması durumunda zaman kazandırır, maliyeti azaltır
        • Tabakalar; kampanyadan alanları ve almayanları kapsamak açısından önemli
    32. Verilerin temizlenmesi
      • Verinin eksikliği ve veri kirliliğinin giderilmesi
      • İdeal olan eksik verileri zaman içinde tamamlama yoluna gidilmesi
      • Tahmin yöntemiyle tamamlanması
      • Hatalı verilerin
        • Veri girişi esnasında önlem alma
        • Otomatik kontrol yapılabilir; araba kredisi almış ama arabası yok gözüküyor
    33. Yeni veriler oluşturmak
      • Verileri bazı işlemler yaparak farklı bir veri setine dönüştürmek
        • logaritma
        • toplam, bölüm, fark
        • yeniden kodlama
      • Faktör analizi ile değişkenleri daha az sayıda boyutlara indirgemek (RFM indeksi gibi)
    34. Verileri hazırlarken nelere dikkat edilmeli
      • Amaca hizmet etmeyecek değişkenler varsa ayıklanmalı
      • Eksik, hatalı ölçülen, hatalı veri girilen alanlar ayıklanmalı
      • Eksik verilerin sistematik bir hataya yol açıp açmayacağı kontrol edilmeli
      • Birbirine eşdeğer tekrar niteliğinde olan veri alanları ayıklanmalı
      • Eklenecek yeni değişkenin verisini hazırlamak için gereken çabaya değer mi?
    35. Modelin oluşturulması
      • Modelin amacı:
        • Sınıflandırma
        • Tahmin
      • Modelleme tekniği
        • Modelin varsayımlarının kontrol edilmesi
        • Algoritmaların seçilmesi
      • Modelin uygunluğunun test edilmesi
      • İsabetli tahmin oranı
    36. Sürecin ve modelin değerlendirilmesi
      • Modelin bulgularının incelenmesi
        • Hangi gruplara ayırmış
        • Bu grupların özellikleri nelerdir
      • Model kurma ve bunun için gerekli verilerin elde edilmesi kullanıma hazırlanma sürecinin değerlendirilmesi
      • İhtiyaç duyulan bilgi gerçekten elde edilmiş mi?
    37. Şu Anda!
      • Elde ne var biliyorsunuz
        • Modeliniz, modelleriniz, bulgularınız
      • Nasıl elde ettiğinizi biliyorsunuz
        • hangi verileri,
        • hangi aşamalardan geçirip hazırladıktan sonra
        • hangi modeli, tekniği kullanarak
    38. Değerlendirme sonucu alternatifleriniz
      • Modeli ve bulguları kullanmak
      • Daha iyi, daha güçlü bir model kurma kararı
      • Kullanmaya değer bulmamak
      • Yeni bir veri madenciliği süreci başlatmak
    39. Sonuçların Kullanıma Sunulması
      • Sürecin son aşaması ise sonuçların kullanıma sunulmasıdır.....
      • BİLGİ
    40. Veri Madenciliği Süreci
    41. Veri Madencililiği Sisteminin Yapısı Filtreleme Veri Filtreleme Veri Birleştirme Grafiksel Kullanıcı Arayüzü Desen Değerlendirme Veri Madenciliği Motoru Veritabanı veya Veri ambarı Sunucusu Veritabanı Veri Ambarı Bilgi Tabanı
    42. Veri Madenciliği Uygulama Alanları
      • Veritabanı analizi ve karar verme desteği
        • Pazar araştırması
          • Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi
        • Risk analizi
          • Kalite kontrolü, rekabet analizi, öngörü
        • Sahtekarlıkların saptanması
      • Diğer Uygulamalar
        • Belgeler arası benzerlik (haber kümeleri, e-posta)
        • Sorgulama sonuçları
    43. Problemler
      • Hangi promosyonu ne zaman uygulamalıyım?
      • Hangi müşteri aldığı krediyi geri ödemeyebilir?
      • Bir müşteriye ne kadar kredi verilebilir?
      • Sahtekarlık olabilecek davranışlar hangileridir?
      • Hangi müşteriler yakın zamanda kaybedilebilir?
      • Hangi müşterilere promosyon yapmalıyım?
      • Hangi yatırım araçlarına yatırım yapmalıyım?
    44. Pazar Araştırması (1)
      • Veri madenciliği uygulamaları için veri kaynağı
        • Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları, pazar anketleri
      • Hedef pazarlar bulma
        • Benzer özellikler gösteren müşterilerin bulunması: benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
      • Müşterilerin davranışlarında zaman içindeki değişiklik
        • Tek kişilik banka hesabının ortak hesaba çevrilmesi: evlilik
      • Çapraz pazar incelemesi:
        • Ürün satışları arasındaki ilişkiyi bulma
    45. Pazar Araştırması (2)
      • Müşteri profili
        • Hangi özellikteki müşterilerin hangi ürünleri aldıkları (demetleme veya sınıflandırma)
      • Müşterilerin ihtiyaçlarını belirleme
        • Farklı müşterilerin o anki ilgisine yönelik ürünü bulma
        • Yeni müşterileri hangi faktörlerin etkilediğini bulma
    46. Sahtekarlık İncelemesi
      • Sigorta, bankacılık, telekomünikasyon alanlarında
      • Geçmiş veri kullanılarak sahtekarlık yapanlar için bir model oluşturma ve benzer davranış gösterenleri belirleme
      • Örnek:
        • Araba sigortası
        • Sağlık Sigortası
        • Kredi kartı başvurusu
    47. Risk Analizi
      • Finans planlaması ve bilanço değerlendirmesi
        • nakit para akışı incelemesi ve kestirimi
        • talep incelemesi
        • zaman serileri incelemesi
      • Kaynak planlaması
        • kaynakların incelenmesi ve uygun olarak dağıtılması
      • Rekabet
        • rakipleri ve pazar eğilimlerini takip etme
        • müşterileri sınıflara ayırma ve fiyat politikası belirleme
    48. Örnek Uygulamalar
      • Bağıntı
      • “ Çocuk bezi alan müşterilerin 30% ’u bira da alır . ” ( Basket Analysis )
      • Sınıflandırma
      • “ Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”
      • Regresyon
      • Kredi skorlama ( Application Scoring )
    49. Örnek Uygulamalar
      • Zaman içinde Sıralı Örüntüler
      • “ İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor . ” ( Behavioral scoring, Churning )
      • Benzer Zaman Sıraları
      • “ X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”
    50. Örnek Uygulamalar
      • İstisnalar (Fark Saptanması)
      • “ Normalden farklı davranış gösteren müşterilerim var mı?”
      • Fraud detection
      • Döküman Madenciliği (Web Madenciliği)
      • “ Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”
    51. Facebook
      • Adınız ve Soyadınız ile üye oluyorsunuz,
      • Arkadaşlarınızı listenize ekliyorsunuz,
      • Onlarla mesajlaşıyor ve "poke" adı verilen ve belirli konularda hazırlanmış ufak imajlar yolluyorsunuz.
      http://www.otomatikportakal.com/koseli_yazarlar.php?yazar=magic+bullet&yazi=121
    52. Facebook
      • Süper markete gittiniz, tuvalet kağıdı, sigara ve bir de bira aldınız, kartınızı uzattınız kasiyer ödemeyi almak için geçirdi.
      • Kasa bilgisayarı son hızla bankaya ödeme bilgilerini sorarken merkez bilgisayara isim bilginizi yollar,
    53. Facebook
      • Ana bilgisayar isminiz ve satın aldığınız ürünlerin bağlı olduğu ürün grupları ile, facebook da yolladığınız ve aldığınız poke`leri sıklığına göre karşılaştırır.
      • Elde ettiği veriyi belirli tolerans aralıklarında filtre eder,
      • En fazla içki veya yiyecek konusunda poke yolladığınız ve en sık iletişimde kaldığınız arkadaşınızı bulur.
    54. Facebook
      • ve daha siz kasiyerin kartınızı geçirdiğini bile algılayamadan önünüzdeki LCD ekranda en yakın arkadaşınız Ahmet`in facebook resmi belirir,
      • Altında da şu yazar: 
      • Keşke Ahmet de olsaydı, Doritos`un yeni acılı cipsi ile Efes biralarınızı yudumlar eski günlerden konuşurdunuz. Durma Ahmet`i ara, ArkadaşCell ile sadece 2 kontör
    55. Hepsiburada.com Örneği
      • Hepsiburada.com’dan yapılan alışverişler ve sitede yapılan gezintiler log’larda kayıt altına alınıyor.
      • Ayrıca müşteri profiline bakılarak müşterinin nasıl bir karaktere sahip olduğu bilgisine de ulaşılıyor.
      • Satışlarını arttırmak isteyen bu portal, müşterileri kazanmak için müşteriye özel kampanyalar gönderiyor.
      • İşte burada Veri Madenciliği kavramı ile karşı karşıyayız.
      • Hepsiburada.com Veri Madenciliği ile müşterinin sitedeki gezintilerine ve profiline uygun olarak mailler gönderilmektedir.
      • Böylece müşteriye özel olduğu hissettirilirken; müşterinin siteden alışveriş yapması teşvik edilir.
      • Size Özel Fırsatlar !!!  
      • Sn Engin Çakır,
      • Öncelikle Hepsiburada.com'u tercih ettiğiniz için teşekkür ederiz. Siparişlerinizde bizi tercih ettiğiniz için aşağıdaki fırsatlar size özel tanımlanmıştır.(*)
      •   Size Özel Fırsat
      • HAYAT ATÖLYESİ % 10 indirim!
      •   SAMSUNG i900 Omnia 8 GB ( 1 GB HAFIZA KARTI + ROUTE 66 NAV. YAZILIMI HEDİYE ) 85 TL indirim!
      • DIGIPHONE K8800 CARBON ÇİFT SIM KART + TV ( 2 GB HAFIZA KARTI HEDİYE ) % 18 indirim!
      •   SAMSUNG MÜZİK MASA STANDI MDS-60 % 75 indirim!
      •   BEYAZ KAPLAN % 10 indirim!
      •   MobiX-Blue BLUETOOTH FCT CİHAZI ( KOLAY KULLANIM ) % 10 indirim!
      •   AVCININ KADERİ % 10 indirim!
      •   İŞARET % 10 indirim!
      •   İNTERAKTİF ÇİNCE EĞİTİM SETİ (8 KİTAP, 8 CD, 8 CD–ROM) % 25 indirim!
      •   MELEKLER VE ŞEYTANLAR (CEP BOY) % 10 indirim!
      •   AÇLIK OYUNLARI % 10 indirim!
      • Size özel tüm fırsatları görmek için tıklayınız. Not: Kampanya, ilgili ürünleri sepetinize eklediğiniz anda ve sadece sizin üyeliğiniz ile giriş yapıldığı takdirde uygulanacaktır. Bu indirim bundan sonra yapacağınız alışverişler için geçerlidir.
    56. Sipariş no : 63657082       Sipariş Tarihi : 27.12.2008         Sipariş Durumu :  Siparişinizdeki tüm ürünler yollanmıştır.       Ödeme Şekli : Garanti 6 Taksit         # Ürün Adet Gönderilen Bekleyen Birim Fiyat   Günün Fiyatı   İndirim   Toplam (TL ) 1. MOBILLIFE DİJİTAL DERGİ ABONELİĞİ (3 AY)-3 Ay 1 1 0 0,00 TL 6,36 TL 6,36 TL 0,00 TL 2. GENERAL MOBILE G777 ( 1 GB HAFIZA KARTI HEDİYE ) 1 1 0 202,45 TL 202,45 TL 0,00 TL 202,45 TL Toplam İndirim : 6,36 TL Ara Toplam : 202,45 TL KDV : 36,44 TL Sipariş Toplamı : 238,89 TL Sipariş no : 68156663       Sipariş Tarihi : 19.01.2007         Sipariş Durumu :  Siparişinizdeki tüm ürünler yollanmıştır.       Ödeme Şekli : Garanti 12 Taksit         # Ürün Adet Gönderilen Bekleyen Birim Fiyat   Günün Fiyatı   İndirim   Toplam (TL ) 1. SAMSUNG E900 ( 512 MB HAFIZA KARTI HEDİYE )-Siyah 1 1 0 496,25 TL 496,25 TL 0,00 TL 496,25 TL Ara Toplam : 496,25 TL KDV : 89,33 TL Kargo Ücreti : 1,98 TL Sipariş Toplamı : 587,56 TL
    57. Sipariş no : 21577684       Sipariş Tarihi : 18.11.2006         Sipariş Durumu :  Siparişinizdeki tüm ürünler yollanmıştır.       Ödeme Şekli : HSBC 8 Taksit         # Ürün Adet Gönderilen Bekleyen Birim Fiyat   Günün Fiyatı   İndirim   Toplam (TL ) 1. SONY DCR-HC23E VİDEO KAMERA (MİNİ DV) + SONY ÇANTA + SONY 5 ADET DVM 60 BOŞ KASET HEDİYELİ 1 1 0 500,40 TL ###### 0,00 TL 500,40 TL Ara Toplam : 500,40 TL KDV : 90,07 TL Sipariş Toplamı : 590,47 TL Sipariş no : 56932027       Sipariş Tarihi : 09.05.2006         Sipariş Durumu :  Siparişinizdeki tüm ürünler yollanmıştır.       Ödeme Şekli : Garanti 8 Taksit         # Ürün Adet Gönderilen Bekleyen Birim Fiyat   Günün Fiyatı   İndirim   Toplam (TL ) 1. COLD COMPRESS-2sn DE BUZ KOMPRES 571142 1 1 0 0,00 TL 6,65 TL 6,65 TL 0,00 TL 2. GUARD OTOMOBİL BRANDASI 081106-GRUP6 1 1 0 36,20 TL 36,20 TL 0,00 TL 36,20 TL 3. PIRANHA PC1211 2.0 MEGAPİKSEL AYARLANABİLEN IŞIKLI+DivX KAYIT + MİKROFONLU + 10X DİJİTAL ZOOM + TÜRK 1 1 0 25,27 TL 25,27 TL 0,00 TL 25,27 TL Toplam İndirim : 6,65 TL Ara Toplam : 61,47 TL KDV : 11,07 TL Sipariş Toplamı : 72,54 TL
      • Müşterinin gezindiği siteler kayıt altına alınmış.
      • Müşteri kitaplarla ilgili sitede gezinmiş fakat alışveriş yapmamış.
      • Müşteri siteden daha önce cep telefonu satın almış.
      • Müşteri teknoloji ürünlerini siteden takip ediyor.
    58. Amazon.com Örneği
      • İskandinav ülkelerinin portalı olan Jubii internet sitesi, sayfalarındaki banner ‘larının yerlerini ve içeriğini optimize edebilmek için müşteri profillerini ve davranışlarını belirlediler. Sayfalar yeni müşteri profillerine göre çalışmaya başladığında verilen reklamlara tıklama oranı % 30 ‘dan % 50 ‘ye çıktı ve böylece reklam verenler verdikleri reklamlar sonucunda daha fazla ziyaretçi almaya başladıklarından Jubii ‘nin karı arttı. Ziyaretçi davranış modelleri Jubii’ye reklam gelirlerini artırma yönünde imkan sağladı.
      • Bu konuya en güzel örnek www.amazon.com ‘un kullandığı yazılımdır. Amazon.com bu sayede müşterilerinin davranışlarını, hobilerini, isteklerini anlıyor ve zaman zaman müşterilerine özel ürünler sunuyor.
    59. Sistem Modelleme
      • x : Gözlenebilen değişkenler.
      • y = f ( x ) : f bilinmeyen ve rassal bir fonksiyon
      f x y
    60. f x y f * -
    61. Veriden Öğrenme
      • Verilmiş örnek kümesi X ={ x t ,y t } t üzerinde
      • f ( x t ) ’ye en yakın kestirici f *( x t ) ’i oluşturuyoruz.
    62. Uygulama Tipleri
      • Sınıflandırma : y in { C 1 , C 2 ,…, C K }
      • Regresyon : y in Re
      • Zaman Serisi Tahmini : x ’ler zaman içinde bağımlı
      • Öbekleme : x ’leri benzerliğe göre gurupla
    63. yıllık gelir birikim OK DEFAULT
    64.  2 KURAL : EĞER y ıllık gelir >  1 VE birikim >  2 İSE OK DEĞİLSE DEFAULT OK DEFAULT x 2 : birikim x 1 : yıllık gelir  1
    65. x 1 : yıllık gelir x 2 : birikim y = 0: DEFAULT y = 1: OK x 1 >  1 x 2 >  2 y = 0 y = 1 y = 0 evet hayır hayır evet
    66. yıllık gelir birikim OK DEFAULT Tip 1 Tip 2 Tip 3
    67. Veri Görselleştirme
      • Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.
      • Verinin yapısının; grupların, istisnaların gözlenmesi
    68. Veri Görselleştirme z 1 z 2 İstisna Kural
    69. zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Şimdi Geçmiş Gelecek ? Discovery of frequent episodes
    70. İlk Standard Form Deneme kümesi Öğrenme kümesi Model 1 Model 2 Model L En iyiyi seç Veri azaltma : Değişken sayısı ve değer azaltma Olası modelleri öğrenme kümesi üstünde eğit Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç En iyi model Yeterince iyi ise kabul et
    71. Kestiricileri Eğitmek için Teknikler
      • Parametri k Çokboyutlu İstatistik
      • Bellek tabanlı (Örnek tabanlı) Model ler
      • Karar Ağaçları
      • Yapay Sinir Ağları
    72. Sınıflandırma
      • x : d -boyutlu değişkenler vektörü
      • C 1 , C 2 ,... , C K : K sınıf
      • Şüphe
      • Veriden P( C i | x ) hesaplanır ve
      • olasılığı en yüksek sınıf k seçilir
      • P( C k | x )=max j P( C j | x )
    73. Sınıflandırma
    74. p ( x | C j ) : Sınıf j’den bir örneğin x olma olasılığı P ( C j ) : Sınıf j’nin ilk olasılığı p ( x ) : Herhangi bir örneğin x olma olasılığı P ( C j | x ) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık)
    75. İstatistiksel Yöntemler
      • Sınıf dağılımları, p( x | C j ) için parametrik (Gauss) model varsayılıyor
      • Tek boyutlu
      • Çok boyutlu
    76. Sınıflandırıcıyı Eğitmek
      • Veri { x t } t ’in ait olduğu sınıf C j
      • Tek boyutlu: p ( x | C j )~ N (  j ,  j  )
      • Çok boyutlu: p ( x | C j )~ N d (  j ,  j )
    77. Davranışlar ve Riskler
      •  i : davranış i
      •  (  i | C j ) : Sınıf C j iken  i davranışını almanın getirdiği kayıp.
      •  i davranışının riski:
      • R (  i | x ) =  j  (  i | C j ) P ( C j | x )
      • En az riskli davranışı seç:
      • R (  k | x ) = min i R (  i | x )
    78. Regresyon
      • gürültü. Doğrusal regresyonda parametreler w,w 0
      E w
    79. Yüksek Dereceli Regresyon
      • Örneğin, ikinci dereceden
    80. Çok Değişkenli Doğrusal Regresyon (Scoring)
      • d değişken sayısı
    81. Özellik Seçme
      • Özellikler Altkümesi Seçimi
      • İleriye veya Geriye doğru seçim
      • Doğrusal İzdüşüm
      • Temel Bileşenler Analizi (PCA)
      • Doğrusal Ayırıcı Analizi (LDA)
    82. ( x 1 ) ( x 2 ) ( x 3 ) ( x 4 ) ( x 1 x 3 ) ( x 2 x 3 ) ( x 3 x 4 ) ( x 1 x 2 x 3 ) ( x 2 x 3 x 4 ) İleriye Doğru Seçim ( x 1 x 2 x 3 x 4 ) ( x 1 x 2 x 3 ) ( x 1 x 2 x 4 ) ( x 1 x 3 x 4 ) ( x 2 x 3 x 4 ) ( x 2 x 4 ) ( x 1 x 4 ) ( x 1 x 2 ) Geriye Doğru Seçim
    83. z 2 x 1 z 1 x 2 z 2 z 1 Beyazlaştırma
    84. x 1 z 1 x 2 z 1
    85. Bellek Tabanlı Yöntemler
      • Örnek tabanlı karar verme
      • En yakın komşu algoritması
      • Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır.
    86. x 1 x 2
    87. x y Uzmanların Birleşimi
    88. Eksik Veri
      • Eksik veri olan kayıtları çıkar.
      • Ortalama ile doldur.
      • Diğer değişkenler cinsinden regresyon ile doldur.
    89. x 2 x 1 >  1 x 2 >  2 y = 0 y = 1 y = 0 evet hayır hayır evet x 1  1  2
    90. x 1  x 1  x 2 x 2 7 0 1 9 8 5 0 4
    91. x 1 x d x 2 x 0 =+1 w 1 w 2 w d w 0 y g Regresyon: Öz Sınıflandırma: Sigmoid (0/1)
    92. Yapay Sinir Ağının Eğitilmesi
      • d değişken
      X üzerindeki hatayı en aza indiren w ’yi bul Öğrenme kümesi:
    93. W i E Eğim iniş: Tekrarlı öğrenme  öğrenme hızı
    94. K tane sınıf için o j , j =1,.., K çıktı Her o j , P ( C j | x ) ’yi kestirir
    95. x 0 =+ 1 o K x d x 2 x 1 o 2 o 1 w Kd
    96. Doğrusal Doğrusal olmayan
    97. Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir.
    98. x 0 =+1 h H x d x 2 x 1 h 2 h 1 w Kd h 0 =+1 t KH o 1 o 2 o K
    99. Dyspnoea: Nefes Darlığı
    100. Modelleri Değerlendirme
      • M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz?
      • M 1 , M 2 , ..., M L arasında en iyisi hangi modeldir?
    101. 1 2 3 k -1 k 1 2 3 k -1 k k kere tekrar et ve ortalama al
    102. Modelleri Birleştirme: Neden? İlk Standard Form Geçerleme kümesi Öğrenme kümesi Model 1 Model 2 Model L En iyiyi seç En iyi model
    103. İlk Standard Form Model 1 Model 2 Model L Oylama Öğrenme kümesi Geçerleme kümesi
    104. Kredi Skor Hesabı ( Credit Scoring )
      • Başvuru ( application ) ve davranış ( behavioral ) skor hesabı
      • İstatistiksel bir model olarak skorkartı
      • İyi ve kötü risk müşteriler
      • Alanların doğrusal toplamı:
      • Kredi kartı var mı? Evet: +50
      • Hayır: –20
    105. Kredi Skor Hesabında Kullanılan Alanlar
      • İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl
      • Ev durumu: Sahip, kiracı, diğer
      • Postakodu: Kodlanmış
      • Telefon: Evet, hayır
      • Yıllık gelir: Kodlanmış
      • Kredi kartı: Evet, hayır
      • Yaş: 18-25, 26-40, 41-55, 55+ yıl
      • Meslek: Memur, iş ç i, serbest, işsiz, ...
      • Medeni hali: Evli, bekar, diğer
      • Bankanın m ü şterisi olduğu zaman: yıl
      • Ç alıştığı kurumda ç alışma zamanı: yıl
    106. Kredi Skor Hesabının Yararları
      • Daha doğru karar vermeyi sağlar .
      • S korkartı standardizasyon ve nesnel karar getirir.
      • Hızlı ve ucuzdur.
      • Kullanılan tek skorkartının ü zerinde kurumun kontrol ü vardır.
      • Y eni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir.
    107. Sepet Analizi ( Basket Analysis )
      • X ve Y malları arasındaki ilişki
      • X, Y: 0/1
      • Destek ( Support ) :
      • P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı
      •   Güven ( Confidence ) :
      • P(X|Y)=P(X ve Y)/P(Y) =
      • X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı
    108. Sepet Analizi
      • X, Y beğeni değerleri
      • Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y))
      • Cov(X,Y)=E[(X-m X ) (Y-m Y )]
    109. Sonuçlar: Verinin Önemi
      • Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır.
      • Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır.
      • Veri madenciliği simya değildir; taşı altına döndüremeyiz.
    110. Sonuçlar: Uzmanın Önemi
      • Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır.
      • Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir.
      • Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir.
    111. Sonuçlar: Sabrın Önemi
      • Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir.
      • Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur.
    112. Tekrar: Madencilik için Gerekenler
      • Çok miktarda kaliteli veri
      • İlgili ve bilgili uzmanlar:
        • Uygulama alanı
        • Veri Tabanları (Veri Ambarcılığı)
        • İstatistik ve Yapay Öğrenme
      • Zaman ve sabır
      • TEŞEKKÜRLER
      Engin ÇAKIR 2008800078
    SlideShare Zeitgeist 2009

    + cakirengincakirengin Nominate

    custom

    587 views, 1 favs, 0 embeds more stats

    Veri Madenciliği Nedir?
    Örneklerle anlatım...

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 587
      • 587 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 1
    • Downloads 0
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories