<ul><li>CANAN GİRGİN </li></ul>
<ul><li>•  Outlier/Anomaly: Aykırı, Sapan veri </li></ul><ul><li>•  Aykırı, Sapan veri nedir?  </li></ul><ul><li>–  Verini...
<ul><li>•  Zorluklar </li></ul><ul><li>–  Verinin içinde kaç tane sapan veri var? </li></ul><ul><li>–  Unsupervised/gözeti...
<ul><li>•  Genel yaklaşım </li></ul><ul><li>–  Normal davranış üzerine bir profil geliştir </li></ul><ul><li>•  Desen yada...
<ul><li>•  İstatistiksel yaklaşımlar model tabanlıdır </li></ul><ul><li>•  Verinin bir istatistiksel dağılıma uyduğu  </li...
<ul><li>Normal (Gaussian) dağılımı N( μ,σ)  ile gösteri </li></ul><ul><li>–  μ:  ortalama </li></ul><ul><li>–  σ:  standar...
<ul><li>•  Outlier </li></ul><ul><li>–  N(0,1) dağılımı için herhangi bir eşik olasılık değeri  </li></ul><ul><li>belirlen...
<ul><li>•  Tek değişkenli normal dağılım gösteren veriye  </li></ul><ul><li>benzer yaklaşım </li></ul><ul><li>•  Değişkenl...
<ul><li>•  Sorunlar </li></ul><ul><li>–  Verinin uyduğu dağılımı tanımlamak zordur. Çoğu veri  </li></ul><ul><li>türü Gaus...
<ul><li>•  Veri nitelik vektörü olarak gösterilir </li></ul><ul><li>•  3 temel yaklaşım  </li></ul><ul><li>–  En yakın kom...
<ul><li>•  Yaklaşım: </li></ul><ul><li>–  Her veri çifti arasındaki uzaklık ölçülür </li></ul><ul><li>–  Sapan veriler çeş...
<ul><li>•  k çok küçük seçilirse çevredeki outlierlar düşük  </li></ul><ul><li>outlier scorelarına sebep olurlar </li></ul...
<ul><li>•  Her bir noktanın komşuları ile oluşturduğu yoğunluk ölçülür. </li></ul><ul><li>•  Yakın komşuları ile bir yoğun...
<ul><li>–  Değişik yoğunluktaki veriler sınıflandırılır. </li></ul><ul><li>–  Sınıflar içinden sıradışı olabilecek küçük  ...
<ul><li>Kredi Kartı Başvuru verileri </li></ul><ul><li>Aynı iş yerinden başvuran kişilerden iş yeri telefonu beklenenden f...
 
Upcoming SlideShare
Loading in …5
×

Sıradışılık analizi

1,451 views

Published on

Veri Madenciliğinde Sıradışılık Analizi

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,451
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
25
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Sıradışılık analizi

  1. 1. <ul><li>CANAN GİRGİN </li></ul>
  2. 2. <ul><li>• Outlier/Anomaly: Aykırı, Sapan veri </li></ul><ul><li>• Aykırı, Sapan veri nedir? </li></ul><ul><li>– Verinin geri kalan kısmından oldukça farklı olan veriler </li></ul><ul><li>• Uygulamalar: </li></ul><ul><li>– Kredi kartı sahtekarlık tespiti, ağ saldırı tespiti, hata bulunması… </li></ul>
  3. 3. <ul><li>• Zorluklar </li></ul><ul><li>– Verinin içinde kaç tane sapan veri var? </li></ul><ul><li>– Unsupervised/gözetimsiz uygulama </li></ul><ul><li>• Demetlemede olduğu gibi doğruluğun ispatlanması </li></ul><ul><li>oldukça zor </li></ul><ul><li>– Samanlıkta iğne aramaya benzer </li></ul><ul><li>• Kabul: </li></ul><ul><li>– Veri içerisinde anomali veriden çok çok daha </li></ul><ul><li>fazla normal veri bulunur. </li></ul>
  4. 4. <ul><li>• Genel yaklaşım </li></ul><ul><li>– Normal davranış üzerine bir profil geliştir </li></ul><ul><li>• Desen yada veriyi özetleyen bir profil </li></ul><ul><li>– Bu normal profili kullanarak anomalileri bul </li></ul><ul><li>– Anomali veri özellikleri normal profilden çok farklı olan veridir </li></ul><ul><li>• Anomali bulma teknikleri </li></ul><ul><li>– İstatistiksel </li></ul><ul><li>– Uzaklık tabanlı </li></ul><ul><li>– Yoğunluk tabanlı </li></ul><ul><li>– Demetleme tabanlı </li></ul>
  5. 5. <ul><li>• İstatistiksel yaklaşımlar model tabanlıdır </li></ul><ul><li>• Verinin bir istatistiksel dağılıma uyduğu </li></ul><ul><li>varsayılır (e.g., normal distribution) </li></ul><ul><li>• Veriye istatistiksel testler uygulanır </li></ul><ul><li>– Veri dağılımı </li></ul><ul><li>– Dağılım parametresi (e.g., mean, variance) </li></ul><ul><li>– Beklenen outlier sayısı (confidence limit) </li></ul>
  6. 6. <ul><li>Normal (Gaussian) dağılımı N( μ,σ) ile gösteri </li></ul><ul><li>– μ: ortalama </li></ul><ul><li>– σ: standart sapma </li></ul><ul><li>Ortalama etrafında +/- 3 σ aralığındaki veriler </li></ul><ul><li>tüm verinin %97 sidir. </li></ul>
  7. 7. <ul><li>• Outlier </li></ul><ul><li>– N(0,1) dağılımı için herhangi bir eşik olasılık değeri </li></ul><ul><li>belirlenir </li></ul><ul><li>– Bu olasılığın üzerindeki veriler outlier olarak </li></ul><ul><li>tanımlanır </li></ul><ul><li>• N( μ,σ) dağılımına sahip veri setindeki x nitelik </li></ul><ul><li>değerine sahip veri için olasılık hesaplanır </li></ul><ul><li>– x in 0-1 arasına normalize edilmesi gerekir </li></ul><ul><li>– Z-score normalizasyonu z=(x- μ)/ σ </li></ul><ul><li>– Normalize edilen değer ve eşik değer karşılaştırılır </li></ul>
  8. 8. <ul><li>• Tek değişkenli normal dağılım gösteren veriye </li></ul><ul><li>benzer yaklaşım </li></ul><ul><li>• Değişkenler/nitelikler arasındaki </li></ul><ul><li>korelasyondan dolayı çok değişkenli normal </li></ul><ul><li>dağılım verinin orta noktasına göre simetrik </li></ul><ul><li>değildir </li></ul><ul><li>• Veri dağılımın şeklini de hesaba katan yeni bir </li></ul><ul><li>uzaklık metriğine ihtiyaç vardır </li></ul><ul><li>– Mahalanobis uzaklığı </li></ul>
  9. 9. <ul><li>• Sorunlar </li></ul><ul><li>– Verinin uyduğu dağılımı tanımlamak zordur. Çoğu veri </li></ul><ul><li>türü Gaussian, Poisson yada binominal dağılım </li></ul><ul><li>gösterse de bunlara uymayan bir çok veri türü vardır. </li></ul><ul><li>• Model yanlış seçilirse yanlış veriler outlier olarak etiketlenir. </li></ul><ul><li>– Parametreleri belirlemek veriyi çok iyi tanımayı </li></ul><ul><li>gerektirir </li></ul><ul><li>– Nitelik sayısı: Çoğu istatistiksel yaklaşım tek nitelik </li></ul><ul><li>üzerinde çalışır ancak bu yetersizdir. </li></ul><ul><li>– Veri içerisinde birden çok dağılım çeşiti gözlenebilir </li></ul>
  10. 10. <ul><li>• Veri nitelik vektörü olarak gösterilir </li></ul><ul><li>• 3 temel yaklaşım </li></ul><ul><li>– En yakın komşu </li></ul><ul><li>– Yoğunluk </li></ul><ul><li>– Demetleme </li></ul>
  11. 11. <ul><li>• Yaklaşım: </li></ul><ul><li>– Her veri çifti arasındaki uzaklık ölçülür </li></ul><ul><li>– Sapan veriler çeşitli şekillerde tanımlanabilir: </li></ul><ul><li>1- D yarıçaplı komşulukta p den az sayıda komşusu olan veriler </li></ul><ul><li>2- k ıncı komşusuna uzaklığı en büyük olan ilk n veri </li></ul><ul><li>3- k en yakın komuşulara olan ortalama uzaklıkları en </li></ul><ul><li>büyük olan ilk n veri </li></ul>
  12. 12. <ul><li>• k çok küçük seçilirse çevredeki outlierlar düşük </li></ul><ul><li>outlier scorelarına sebep olurlar </li></ul><ul><li>• k çok büyük seçilirse küçük veri grupları outlier </li></ul><ul><li>olarak etiketlenir </li></ul><ul><li>• Bu nedenlerle k-nearest neighbor veriye olan </li></ul><ul><li>ortalama uzaklığı kullanılabilir </li></ul><ul><li>• Parametre (k) seçimi önemli </li></ul><ul><li>• Değişken yoğunluklu veri setlerinde doğru </li></ul><ul><li>sonuç vermez </li></ul>
  13. 13. <ul><li>• Her bir noktanın komşuları ile oluşturduğu yoğunluk ölçülür. </li></ul><ul><li>• Yakın komşuları ile bir yoğunluk oluşturmayan değerler sıradışı olarak tanımlanır. </li></ul><ul><li>• Aşağıdaki örnekte p2 outlier olmamasına rağmen bu yaklaşım ile hem p1 hemde p2 sıradışı olarak tanımlanır. </li></ul>
  14. 14. <ul><li>– Değişik yoğunluktaki veriler sınıflandırılır. </li></ul><ul><li>– Sınıflar içinden sıradışı olabilecek küçük noktalar seçilir. </li></ul><ul><li>– Seçilen noktalar ile seçilmeyen sınıflar arasındaki uzaklık hesaplanır </li></ul><ul><li>- Eğer seçilen noktalar seçilmeyen diğer tüm noktalardan uzaksa seçilen noktalar sıradışı olarak belirlenir. </li></ul>
  15. 15. <ul><li>Kredi Kartı Başvuru verileri </li></ul><ul><li>Aynı iş yerinden başvuran kişilerden iş yeri telefonu beklenenden farklı olanlar. </li></ul><ul><li>Aynı meslek grubu arasında maaş skalası çok yüksek olanlar. </li></ul><ul><li>Aynı posta koduna sahip ancak aynı semtte oturmayanlar. </li></ul><ul><li>Farklı kişilerin aynı cep numarasına sahip soy ismi farklı olan kişiler. </li></ul><ul><li>Bir çok kişinin iş adresi yada iş telefonu olarak beyan ettiği bilgileri ev adresi yada iş adresi olarak bildirenler. </li></ul>

×