Sıradışılık analizi
Upcoming SlideShare
Loading in...5
×
 

Sıradışılık analizi

on

  • 1,014 views

Veri Madenciliğinde Sıradışılık Analizi

Veri Madenciliğinde Sıradışılık Analizi

Statistics

Views

Total Views
1,014
Views on SlideShare
1,014
Embed Views
0

Actions

Likes
0
Downloads
7
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Sıradışılık analizi Sıradışılık analizi Presentation Transcript

    • CANAN GİRGİN
    • • Outlier/Anomaly: Aykırı, Sapan veri
    • • Aykırı, Sapan veri nedir?
    • – Verinin geri kalan kısmından oldukça farklı olan veriler
    • • Uygulamalar:
    • – Kredi kartı sahtekarlık tespiti, ağ saldırı tespiti, hata bulunması…
    • • Zorluklar
    • – Verinin içinde kaç tane sapan veri var?
    • – Unsupervised/gözetimsiz uygulama
    • • Demetlemede olduğu gibi doğruluğun ispatlanması
    • oldukça zor
    • – Samanlıkta iğne aramaya benzer
    • • Kabul:
    • – Veri içerisinde anomali veriden çok çok daha
    • fazla normal veri bulunur.
    • • Genel yaklaşım
    • – Normal davranış üzerine bir profil geliştir
    • • Desen yada veriyi özetleyen bir profil
    • – Bu normal profili kullanarak anomalileri bul
    • – Anomali veri özellikleri normal profilden çok farklı olan veridir
    • • Anomali bulma teknikleri
    • – İstatistiksel
    • – Uzaklık tabanlı
    • – Yoğunluk tabanlı
    • – Demetleme tabanlı
    • • İstatistiksel yaklaşımlar model tabanlıdır
    • • Verinin bir istatistiksel dağılıma uyduğu
    • varsayılır (e.g., normal distribution)
    • • Veriye istatistiksel testler uygulanır
    • – Veri dağılımı
    • – Dağılım parametresi (e.g., mean, variance)
    • – Beklenen outlier sayısı (confidence limit)
    • Normal (Gaussian) dağılımı N( μ,σ) ile gösteri
    • – μ: ortalama
    • – σ: standart sapma
    • Ortalama etrafında +/- 3 σ aralığındaki veriler
    • tüm verinin %97 sidir.
    • • Outlier
    • – N(0,1) dağılımı için herhangi bir eşik olasılık değeri
    • belirlenir
    • – Bu olasılığın üzerindeki veriler outlier olarak
    • tanımlanır
    • • N( μ,σ) dağılımına sahip veri setindeki x nitelik
    • değerine sahip veri için olasılık hesaplanır
    • – x in 0-1 arasına normalize edilmesi gerekir
    • – Z-score normalizasyonu z=(x- μ)/ σ
    • – Normalize edilen değer ve eşik değer karşılaştırılır
    • • Tek değişkenli normal dağılım gösteren veriye
    • benzer yaklaşım
    • • Değişkenler/nitelikler arasındaki
    • korelasyondan dolayı çok değişkenli normal
    • dağılım verinin orta noktasına göre simetrik
    • değildir
    • • Veri dağılımın şeklini de hesaba katan yeni bir
    • uzaklık metriğine ihtiyaç vardır
    • – Mahalanobis uzaklığı
    • • Sorunlar
    • – Verinin uyduğu dağılımı tanımlamak zordur. Çoğu veri
    • türü Gaussian, Poisson yada binominal dağılım
    • gösterse de bunlara uymayan bir çok veri türü vardır.
    • • Model yanlış seçilirse yanlış veriler outlier olarak etiketlenir.
    • – Parametreleri belirlemek veriyi çok iyi tanımayı
    • gerektirir
    • – Nitelik sayısı: Çoğu istatistiksel yaklaşım tek nitelik
    • üzerinde çalışır ancak bu yetersizdir.
    • – Veri içerisinde birden çok dağılım çeşiti gözlenebilir
    • • Veri nitelik vektörü olarak gösterilir
    • • 3 temel yaklaşım
    • – En yakın komşu
    • – Yoğunluk
    • – Demetleme
    • • Yaklaşım:
    • – Her veri çifti arasındaki uzaklık ölçülür
    • – Sapan veriler çeşitli şekillerde tanımlanabilir:
    • 1- D yarıçaplı komşulukta p den az sayıda komşusu olan veriler
    • 2- k ıncı komşusuna uzaklığı en büyük olan ilk n veri
    • 3- k en yakın komuşulara olan ortalama uzaklıkları en
    • büyük olan ilk n veri
    • • k çok küçük seçilirse çevredeki outlierlar düşük
    • outlier scorelarına sebep olurlar
    • • k çok büyük seçilirse küçük veri grupları outlier
    • olarak etiketlenir
    • • Bu nedenlerle k-nearest neighbor veriye olan
    • ortalama uzaklığı kullanılabilir
    • • Parametre (k) seçimi önemli
    • • Değişken yoğunluklu veri setlerinde doğru
    • sonuç vermez
    • • Her bir noktanın komşuları ile oluşturduğu yoğunluk ölçülür.
    • • Yakın komşuları ile bir yoğunluk oluşturmayan değerler sıradışı olarak tanımlanır.
    • • Aşağıdaki örnekte p2 outlier olmamasına rağmen bu yaklaşım ile hem p1 hemde p2 sıradışı olarak tanımlanır.
    • – Değişik yoğunluktaki veriler sınıflandırılır.
    • – Sınıflar içinden sıradışı olabilecek küçük noktalar seçilir.
    • – Seçilen noktalar ile seçilmeyen sınıflar arasındaki uzaklık hesaplanır
    • - Eğer seçilen noktalar seçilmeyen diğer tüm noktalardan uzaksa seçilen noktalar sıradışı olarak belirlenir.
    • Kredi Kartı Başvuru verileri
    • Aynı iş yerinden başvuran kişilerden iş yeri telefonu beklenenden farklı olanlar.
    • Aynı meslek grubu arasında maaş skalası çok yüksek olanlar.
    • Aynı posta koduna sahip ancak aynı semtte oturmayanlar.
    • Farklı kişilerin aynı cep numarasına sahip soy ismi farklı olan kişiler.
    • Bir çok kişinin iş adresi yada iş telefonu olarak beyan ettiği bilgileri ev adresi yada iş adresi olarak bildirenler.
  •