2. Konular Giriş Nitelik Seçim Algoritmaları Sezgisel Aramalar Filtreleme Algoritmaları Sarmal Algoritmalar Korelasyon Tabanlı Nitelik Seçimi Uygulama Örnekleri
12. Sezgisel Arama Algoritmaları Kullanılan Yöntemler Algoritma nitelik kümesine sadece ekleme yapıyorsa ileri yönelimli seçim(forwardselection) Algoritma nitelik kümesine sadece çıkarma yapıyorsa geri yönelimli seçim(backwardselection) Hem ekleme hem de çıkarma işlemi yapılıyorsa çift yönlü arama(stepwisebi-directionalsearch)
13. Sezgisel Arama Algoritmaları Hırslı Seçim Algoritması(GreedyHillClimbing) En iyi ilk algoritması(BestFirst) Genetik Algoritmalar(GeneticAlgorithms)
14. Sürekli Niteliklerin Ayrıklaştırılması Korelasyon tabanlı nitelik seçimi ayrık giriş değerlerine sahip nitelikler için uygulanabilir. Çeşitli Yöntemler mevcut Eğitimli-Eğitimsiz Genel-Yerel Statik-Dinamik Korelasyon Tabanlı Nitelik Seçiminde kullanılan yöntem “Minimum Entropi Sezgisi” dir.
15. Minimum Entropi Sezgisi Bir S kümesi için, A niteliği T kesim noktasında oluşan sınıf entopi değeri Kesim noktaları son bulma kriteri ise
21. RELIEF Relief algoritması veri setinde yer alan niteliklerin ağırlıklandırmasında kullanılmaktadır. En yakın k komşuluğu kullanılmaktadır. Iterasyona dayalı bir algoritmadır
22. RELIEF Denklem Wx = X niteliğinin ağırlığı Diff(X,R,H) (HIT): Veri seti kümesinde ki X örneklemine en yakın aynı sınıfta yer alan niteliklerin m ortalama uzaklığı Diff(X,R,M) (MISS): Veri seti kümesinde ki X örneklemine en yakın farklı sınıfta yer alan niteliklerin m ortalama uzaklığı m rassal olarak seçilen örneklerin sayısı
23. RELIEF set all W[A] = 0.0 for i=1 to m do begin randomlyselectinstanceRi findnearest hit H andnearestmiss M for A=1 toallattribute do W(A) = W(A) – diff(A,Ri,H) + diff(A,Ri,M) end
24. MDL(En Küçük Tanımlama Uzaklığı) Enformasyon Teorisinde Veri Sıkıştırma kullanılan kuraldır. Nitelik seçiminde nominal değişkenlerin korelasyonu için kullanılmaktadır
25. MDL(En düşük Tanımlama Uzaklığı) n eğitim verisinin sayısı, C sınıf değerlerinin sayısı, ni, Ci’ye ait olan eğitim setinin sayısı, nj j. Elemanın sahip olduğu değerin eğitim seti sayısı, nij ise Ci sınıf değerine ait olan eğitim setinin sayısı
26. Korelasyon Tabanlı Nitelik Seçimi Ana hedef, hedef nitelik ile yüksek korelasyonlu birbirleri ile düşük korelasyonlu niteliklerin seçilmesi Veri seti “MERİT” değeri Burada , k farklı nitelik içeren S nitelik alt kümesinin merit değeri, ortalama sınıf-nitelik korelasyonu, ortalama nitelik-nitelik korelasyonu
29. Örnek Uygulama UCI MachineLearningDatabase California Üniversitesi’nin Enformatik ve Bilgisayar Bilimleri bölümü tarafından yayınlanmakta Kullanılan veri setleri
32. Sonuç Her veri seti için kullanılabilecek tek bir nitelik seçim algoritması yoktur. Genellikle, KNS sınıflandırma algoritmasının performansını artırmaktadır.(zaman ve sonuç) Fakat birbiri ile yüksek ilişki bulunan niteliklerde hatalı sonuçlar üretebilir.