3. VERİ ÖN İŞLEME
1. Veri temizleme (Data cleaning)
Eksik verilerin doldurulması, Gürültülü
verinin düzeltilmesi
2. Veri birleştirme (Data integration)
Farklı veri dosyalarının birleştirilmesi
3. Veri dönüştürme (Data transformations)
Verinin uygun formata dönüştürülmesi,
Normalleştirme
4. Veri indirgeme (Data reduction)
Gereksiz verilerin ortadan kaldırılması
4. REGRESYON ANALİZİ
• Regresyon analizinde yapılan; veriden elde edilen bazı
özelliklerin girdi olarak alınması ile numerik değerlerin
tahmin edilmesidir.
• Francis Galton, 1877’ de, ilk regresyon uygulamasını, bir
bezelye tohumunun boyutunu -atalarının boyutlarını da
gözlemleyerek- hesaplamak için kullanmıştır.
5. Basit regresyon (Simple regression)
• Tek girdi ve çıktı üzerinden veri ile sadece basit bir model oluşturuyoruz.
6. Çoklu regresyon (Multiple regression) –
Birden çok özellikle lineer regresyon
• Birden çok özellik kullanılarak uygulanan lineer regresyon çeşidi çoklu
regresyondur.
• Tek girdili model iyi bir prediktif model değildir, çünkü sadece evlerin alanına
bakarak tahminde bulunmak yanıltıcı olabilir.
7. UYGULAMA
VERİTANIMI
• Ames Housing veri seti, Amerika Birleşik Devletleri'nin Iowa eyaletinde
yer alanAmes şehrinin konutlarının tanımlandığıAmes Assessor’s Office’
inden alınmış bir veri setidir.
• Bu veri setiAmes’ te 2006 yılından 2010 yılına kadar satılmış bireysel
konutların bilgilerini içermektedir.
• Buradan elde edilen veri seti Dean De Cock tarafından veri bilimi
eğitimde kullanılmak üzere derlenmiştir.
• https://www.kaggle.com/c/house-prices-advanced-regression-
techniques/data
9. Amaç
• Veri setindeki evlerin özellikleri göz önünde bulundurularak karşımıza çıkacak yeni
bir evin fiyatının ne olabileceği tahmin edilmek istenmiştir. Bunun için en uygun
lineer regresyon modeli belirlenmeye çalışılmıştır.
10. Kategorik ve Sayısal Özelliklerin Belirlenmesi
• İlk olarak veri özellikleri sayısallık ve kategoriklik açısından incelenmelidir.
• Gerçekte kategorik özellikler sayısal bir özellik olarak görülmüş ve bu durum
düzeltilmelidir.
• Son durumda 34 sayısal ve 47 kategorik
özellik elde edilmiştir.
11. Kategorik Özelliklerin Sayısal Değere Dönüştürülmesi
• Bu işlem için sklearn.preprocessing paketi kullanılmıştır. Bu sayede kategorik
değerler, ölçeklendirilmiş değerler ile belli bir sıralamaya koyularak sayısal
değerlere çevrilmiştir.
12. Özelliklerin Değerlendirilmesi
• Sadece satış durumunun normal olduğu durumlarda incelemesi yapılmıştır.
• Normal durumlar dışında ticaret ile satış, ipotekli malın haczi ile satış, aile üyeleri
arasında satış gibi durumların incelenmesi bu uygulamada gerekli görülmemiştir.
13. Özellik değerlerinin görselleştirilmesi
• Özelliklerin hangi değerlerde
yoğunlaştığının görülebilmesi için
histogramlar çizilmiş,
• Tüm özelliklerin evin fiyatları ile
ilişkisinin anlaşılabilmesi için scatter
plotlar çizilmiş ve
• Outlier’ ların belirlenebilmesi için
boxplot üzerinde veri dağılımları
gösterilmiştir.
14. • Train verisi %80
• Regresyon modeli oluşturulur.
• Test verisi %20
• Model üzerinde tahmin yapılır.
Regresyon Uygulaması
16. 5-fold CrossValidation
• Veri 5 farklı bloğa bölünür. Gözlemler her blok
içerisinde rastgele atanmıştır. Algoritmanın her bir
adımı için aynı şekilde veri ayırma işlemi
gerçekleşecektir
17. Outlier Değerlerin Elenmesi
• Veri yığılmasının oldukça dışında
olan değerler outlier olarak
adlandırılır.
• Gürültüye yol açan bu değerler
temizlenmelidir.
• Residual değerlerinin en
yükseklerinin %20 lik kısmı
seçilerek modelden atılmıştır.
19. Sonuç
Tüm train verisi üzerinde regresyon
işlemi uygulanmıştır.
o MSE: 469184621.69
o R squared: 0.89
o CrossValidation:
MSE mean: 524895858.367
R squared: 0.889
Verilerin çok fazla yoğunlaşmadığı, dışarıda kalan, veri
uç noktaları elenmiştir. Bu uç noktalar elenmiştir.
Outlier’ ların elenmesinde sonra tekrar regresyon işlemi
uygulanmıştır.
o MSE: 134879378.86
o R squared: 0.96
o CrossValidation:
MSE mean: 136011541.317
R squared: 0.958
Hatayı minimuma indiren, en uygun regresyon
modeline ulaşılmıştır.
20. KAYNAKLAR
• Fox, E. ve Guestrin,C. (2016). Machine Learning: Regression byWashington
University, https://www.coursera.org/learn/ml-regression/home/welcome
adresinden elde edilmiştir.
• Diez, David. Barr,Christopher.Cetinkaya-Rundel, Mine. OpenIntroStatisticsThird
Edition. 2016.
• Ames Housing dataset (2016). https://www.kaggle.com/c/house-prices-advanced-
regression-techniques/data adresinde mevcuttur.