SlideShare a Scribd company logo
VERİLERİ
SINIFLANDIRMA
Bu sunum, meme kanseri sınıflandırma amacı taşımaktadır. Meme
kanseri, kadınlarda en sık görülen kanser türlerinden biridir ve
erken teşhis hayat kurtarabilir. Bu nedenle, meme kanserini teşhis
etmek için etkili bir sınıflandırma modeli geliştirmek büyük bir
öneme sahiptir. Bu sunumda, K-Nearest Neighbors (K-NN)
sınıflandırıcı modeli kullanılarak meme kanseri sınıflandırma süreci
incelenecektir. Kullanılan veri setleri, sınıflandırma modeli ve
kullanilan metrikler, sonuçların değerlendirmesi ile ilgili ayrıntılı
bilgiler sunulacaktır. Ayrıca, elde edilen sonuçları literatürdeki
çalışmalarla karşılaştırarak bu çalışmanın önemini vurgulayacağız.
AMAC
VERİ SETLERİ VE ÖZELLİKLER
İD: VERİ ÖRNEKLERİNİN BENZERSİZ KİMLİKLERİ VEYA İNDEKSLERİ.
DİAGNOSİS: MEME KANSERİ TEŞHİSİ. "M" (KÖTÜ HUYLU) VEYA "B" (İYİ HUYLU)
DEĞERLERİNİ ALIR.
RADİUS_MEAN: MEME TÜMÖRÜNÜN ORTALAMA YARIÇAPI.
TEXTURE_MEAN: MEME TÜMÖRÜNÜN DOKUSU VEYA YAPISI HAKKINDA
ORTALAMA BİLGİ.
PERİMETER_MEAN: MEME TÜMÖRÜNÜN ORTALAMA ÇEVRESİ.
AREA_MEAN: MEME TÜMÖRÜNÜN ORTALAMA ALANI.
SMOOTHNESS_MEAN: YÜZEYİN ORTALAMA DÜZGÜNLÜĞÜ.
COMPACTNESS_MEAN: KOMPAKLIK ÖLÇÜSÜ, TÜMÖRÜN BOYUT VE ŞEKİL İLE
İLGİLİ.
CONCAVİTY_MEAN: TÜMÖRÜN ORTALAMA OYUKLUK (ÇUKURLUK) SEVİYESİ.
CONCAVE POİNTS_MEAN: TÜMÖRÜN ORTALAMA OYUK NOKTALARININ SAYISI.
SYMMETRY_MEAN: MEME TÜMÖRÜNÜN ORTALAMA SİMETRİSİ.
FRACTAL_DİMENSİON_MEAN: FRAKTAL BOYUTUNUN ORTALAMA DEĞERİ.
RADİUS_SE: HATA ORTALAMA YARIÇAPI.
TEXTURE_SE: HATA ORTALAMA DOKUSU.
PERİMETER_SE: HATA ORTALAMA ÇEVRESİ.
AREA_SE: HATA ORTALAMA ALANI.
SMOOTHNESS_SE: YÜZEYİN HATA DÜZGÜNLÜĞÜ.
COMPACTNESS_SE: HATA KOMPAKLIĞI.
CONCAVİTY_SE: HATA OYUKLUK (ÇUKURLUK) SEVİYESİ.
CONCAVE POİNTS_SE: HATA OYUK NOKTALARININ SAYISI.
SYMMETRY_SE: HATA SİMETRİSİ.
FRACTAL_DİMENSİON_SE: HATA FRAKTAL BOYUTU.
RADİUS_WORST: EN KÖTÜ SENARYODA ORTALAMA YARIÇAP.
TEXTURE_WORST: EN KÖTÜ SENARYODA ORTALAMA DOKU.
PERİMETER_WORST: EN KÖTÜ SENARYODA ORTALAMA ÇEVRE.
AREA_WORST: EN KÖTÜ SENARYODA ORTALAMA ALAN.
SMOOTHNESS_WORST: EN KÖTÜ SENARYODA YÜZEYİN DÜZGÜNLÜĞÜ.
COMPACTNESS_WORST: EN KÖTÜ SENARYODA KOMPAKLIK ÖLÇÜSÜ.
CONCAVİTY_WORST: EN KÖTÜ SENARYODA OYUKLUK (ÇUKURLUK) SEVİYESİ.
CONCAVE POİNTS_WORST: EN KÖTÜ SENARYODA OYUK NOKTALARININ SAYISI.
SYMMETRY_WORST: EN KÖTÜ SENARYODA SİMETRİ.
FRACTAL_DİMENSİON_WORST: EN KÖTÜ SENARYODA FRAKTAL BOYUTU.
Input
Output
veriseti adlı bir Pandas veri çerçevesi oluşturur. Veri çerçevesi, "breast-cancer.csv" adlı bir CSV
dosyasını okur ve verileri içerir.
" veriseti.head(10)" komutu, veri çerçevesinin ilk 10 satırını ekrana yazdırır. Bu, veri setinin
başlangıcını incelemek ve verilerin yapısını anlamamizayardımcı olur.
Veri okuma
Output
Input
Veri Setindeki 'diagnosis' Değişkeninin Sınıf
Dağılımıyi
Input Output count: Her bir sütunda kaç tane veri öğesi (gözlem)
olduğunu temsil eder. Bu, veri setinin boyutunu belirtir.
mean (ortalama): Her bir sütundaki veri öğelerinin
aritmetik ortalamasını ifade eder. Ortalama, veri setinin
merkezi eğilimini gösterir.
std (standart sapma): Veri öğelerinin dağılımının ne kadar
varyasyon gösterdiğini belirten bir ölçüdür. Düşük standart
sapma, verilerin ortalama etrafında yoğunlaştığını
gösterirken, yüksek standart sapma verilerin daha yaygın
olduğunu gösterir.
min (minimum): Sütundaki en küçük değeri temsil eder.
25% (çeyreklik 1): Veri setinin alt çeyreğini ifade eder.
Verilerin %25'i bu değeri veya daha düşüğünü alır.
50% (çeyreklik 2, medyan): Veri setinin ortanca değerini
ifade eder. Yani, verileri küçükten büyüğe sıraladığınızda
ortada bulunan değerdir. Medyan, veri setinin merkezsel
eğilimini gösterir.
75% (çeyreklik 3): Veri setinin üst çeyreğini ifade eder.
Verilerin %75'i bu değeri veya daha düşüğünü alır.
max (maksimum): Sütundaki en büyük değeri temsil eder.
Veri setinin temel istatistiksel özetini gösteren bir tablodur .
1.
2.
3.
4.
5.
6.
7.
8.
Veri Keşf
Veri Temizliği
Karar Verme
Veri Görselleştirme
Makine Öğrenimi ve İstatistiksel Analiz:
Sayısal Değişkenlerin İstatistiksel Özeti
Buraya kadar veri setilerın okuduk eksik değerleri kontrol
edıldı ve "diagnosis" sütununu 1 (Malignant) ve 0
(Benign) olarak dönüştürulur.
Daha sonra, "radius_mean" ve "texture_mean"
özelliklerini kullanarak bir scatter plot (dağılım grafiği)
çizer . Bu veri setimızı başlangıç veri analizi işlemleri
gerçekleştirildi.
Bu kod, K-Nearest Neighbors sınıflandırma modelinin temelini
atar ve bu modelin veri seti üzerinde nasıl uygulandığını gösterir.
Modelin başarısı, knn.score fonksiyonu tarafından hesaplanır ve
yazdırılır. Bu, veri seti üzerindeki ilk bir komşu sınıflandırma
modelini temsil eder.
K-En Yakın Komşu (k-NN) Sınıflandırma
Bu işlem, farklı komşu sayıları için çapraz doğrulama sonuçlarını elde
etmek için kullanılır. Bu sonuçlar, hangi komşu sayısının modeliniz için en
uygun olduğunu belirlemek için kullanılabilir. Bu bilgi, modelin
performansını en iyi şekilde ayarlamak icin yardımcı olacak.
10 Kat Çapraz Dogrulama
Bu kod parçası, K-En Yakın Komşu
(K-Nearest Neighbors) sınıflandırma
modeliniz için en iyi komşu sayısını
(optimal k) belirlemek için bir dizi
komşu sayısı üzerinde çapraz
doğrulama sonuçlarını kullanır
En İyi K Değerini
Belirleme ve Hata Grafiği
Oluşturma
Bir K-En Yakın Komşu (K-Nearest
Neighbors) sınıflandırma modeli oluşturur,
eğitir ve ardından modelin tahminleri
üzerinde bir hata matrisi (confusion matrix)
hesaplar ve bunu bir ısı haritası olarak çizer
Model Oluşturma ve Hata Matrisi
Bu kod modelin tahminlerini kullanarak farklı performans
metriklerini hesaplar.
Bu kod ROC (Receiver Operating
Characteristic) eğrisini oluşturarak bir
sınıflandırma modelinin performansını
görsel olarak değerlendirmek icin yardımcı
olur.
k=13 optimum oldugunda
Literatür ile karşılaştırma
BREAST CANCER CLASSIFICATION
USING K-NEAREST
NEIGHBORS ALGORITHM
Literatürde 2 tane araştırma birisi tez birisi makale olarak
karşılaştırıldı.Literatürde kullanılan K en yakın komşuluk
algoritması ve korelasyon ısı haritası kullanılarak elde edilen
sonuçlar, benim kullandıgım metot yani KNN ve metrikler ve fold
cross validationa benzer bir çalışma olarak görünüyor. Özellikle,
literatürde k=9 için %96.4 doğruluk oranı elde edilirken, k=13 için
benzer bir değere yakın sonuçlar alındı. Bu benzer sonuçlar,
kullanılan yöntemlerin güvenilirliğini ve benzerliklerini vurguluyor
diyebiliriz.
Sonuç
BREAST CANCER DATA CLASSIFICATION USING SVM, NB AND KNN
ALGORITHMS (Burcu Meral) 2019
BREAST CANCER CLASSIFICATION USING K-NEAREST NEIGHBORS
ALGORITHM (Can Eyupoglu) 2018
MAKİNE ÖGRENMESİ PYTHON UYGULAMALARI (Dr.Ögr.Üyesi Sinan Uguz)
https://dergipark.org.tr/
https://tez.yok.gov.tr/UlusalTezMerkezi/
https://archive.ics.uci.edu/dataset
Kullanılan kaynaklar:

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Makine öğrenmesi kullanarak kanser tespit etme

  • 2. Bu sunum, meme kanseri sınıflandırma amacı taşımaktadır. Meme kanseri, kadınlarda en sık görülen kanser türlerinden biridir ve erken teşhis hayat kurtarabilir. Bu nedenle, meme kanserini teşhis etmek için etkili bir sınıflandırma modeli geliştirmek büyük bir öneme sahiptir. Bu sunumda, K-Nearest Neighbors (K-NN) sınıflandırıcı modeli kullanılarak meme kanseri sınıflandırma süreci incelenecektir. Kullanılan veri setleri, sınıflandırma modeli ve kullanilan metrikler, sonuçların değerlendirmesi ile ilgili ayrıntılı bilgiler sunulacaktır. Ayrıca, elde edilen sonuçları literatürdeki çalışmalarla karşılaştırarak bu çalışmanın önemini vurgulayacağız. AMAC
  • 3. VERİ SETLERİ VE ÖZELLİKLER İD: VERİ ÖRNEKLERİNİN BENZERSİZ KİMLİKLERİ VEYA İNDEKSLERİ. DİAGNOSİS: MEME KANSERİ TEŞHİSİ. "M" (KÖTÜ HUYLU) VEYA "B" (İYİ HUYLU) DEĞERLERİNİ ALIR. RADİUS_MEAN: MEME TÜMÖRÜNÜN ORTALAMA YARIÇAPI. TEXTURE_MEAN: MEME TÜMÖRÜNÜN DOKUSU VEYA YAPISI HAKKINDA ORTALAMA BİLGİ. PERİMETER_MEAN: MEME TÜMÖRÜNÜN ORTALAMA ÇEVRESİ. AREA_MEAN: MEME TÜMÖRÜNÜN ORTALAMA ALANI. SMOOTHNESS_MEAN: YÜZEYİN ORTALAMA DÜZGÜNLÜĞÜ. COMPACTNESS_MEAN: KOMPAKLIK ÖLÇÜSÜ, TÜMÖRÜN BOYUT VE ŞEKİL İLE İLGİLİ. CONCAVİTY_MEAN: TÜMÖRÜN ORTALAMA OYUKLUK (ÇUKURLUK) SEVİYESİ. CONCAVE POİNTS_MEAN: TÜMÖRÜN ORTALAMA OYUK NOKTALARININ SAYISI. SYMMETRY_MEAN: MEME TÜMÖRÜNÜN ORTALAMA SİMETRİSİ. FRACTAL_DİMENSİON_MEAN: FRAKTAL BOYUTUNUN ORTALAMA DEĞERİ. RADİUS_SE: HATA ORTALAMA YARIÇAPI. TEXTURE_SE: HATA ORTALAMA DOKUSU. PERİMETER_SE: HATA ORTALAMA ÇEVRESİ. AREA_SE: HATA ORTALAMA ALANI. SMOOTHNESS_SE: YÜZEYİN HATA DÜZGÜNLÜĞÜ. COMPACTNESS_SE: HATA KOMPAKLIĞI. CONCAVİTY_SE: HATA OYUKLUK (ÇUKURLUK) SEVİYESİ. CONCAVE POİNTS_SE: HATA OYUK NOKTALARININ SAYISI. SYMMETRY_SE: HATA SİMETRİSİ. FRACTAL_DİMENSİON_SE: HATA FRAKTAL BOYUTU. RADİUS_WORST: EN KÖTÜ SENARYODA ORTALAMA YARIÇAP. TEXTURE_WORST: EN KÖTÜ SENARYODA ORTALAMA DOKU. PERİMETER_WORST: EN KÖTÜ SENARYODA ORTALAMA ÇEVRE. AREA_WORST: EN KÖTÜ SENARYODA ORTALAMA ALAN. SMOOTHNESS_WORST: EN KÖTÜ SENARYODA YÜZEYİN DÜZGÜNLÜĞÜ. COMPACTNESS_WORST: EN KÖTÜ SENARYODA KOMPAKLIK ÖLÇÜSÜ. CONCAVİTY_WORST: EN KÖTÜ SENARYODA OYUKLUK (ÇUKURLUK) SEVİYESİ. CONCAVE POİNTS_WORST: EN KÖTÜ SENARYODA OYUK NOKTALARININ SAYISI. SYMMETRY_WORST: EN KÖTÜ SENARYODA SİMETRİ. FRACTAL_DİMENSİON_WORST: EN KÖTÜ SENARYODA FRAKTAL BOYUTU.
  • 4. Input Output veriseti adlı bir Pandas veri çerçevesi oluşturur. Veri çerçevesi, "breast-cancer.csv" adlı bir CSV dosyasını okur ve verileri içerir. " veriseti.head(10)" komutu, veri çerçevesinin ilk 10 satırını ekrana yazdırır. Bu, veri setinin başlangıcını incelemek ve verilerin yapısını anlamamizayardımcı olur. Veri okuma
  • 5. Output Input Veri Setindeki 'diagnosis' Değişkeninin Sınıf Dağılımıyi
  • 6. Input Output count: Her bir sütunda kaç tane veri öğesi (gözlem) olduğunu temsil eder. Bu, veri setinin boyutunu belirtir. mean (ortalama): Her bir sütundaki veri öğelerinin aritmetik ortalamasını ifade eder. Ortalama, veri setinin merkezi eğilimini gösterir. std (standart sapma): Veri öğelerinin dağılımının ne kadar varyasyon gösterdiğini belirten bir ölçüdür. Düşük standart sapma, verilerin ortalama etrafında yoğunlaştığını gösterirken, yüksek standart sapma verilerin daha yaygın olduğunu gösterir. min (minimum): Sütundaki en küçük değeri temsil eder. 25% (çeyreklik 1): Veri setinin alt çeyreğini ifade eder. Verilerin %25'i bu değeri veya daha düşüğünü alır. 50% (çeyreklik 2, medyan): Veri setinin ortanca değerini ifade eder. Yani, verileri küçükten büyüğe sıraladığınızda ortada bulunan değerdir. Medyan, veri setinin merkezsel eğilimini gösterir. 75% (çeyreklik 3): Veri setinin üst çeyreğini ifade eder. Verilerin %75'i bu değeri veya daha düşüğünü alır. max (maksimum): Sütundaki en büyük değeri temsil eder. Veri setinin temel istatistiksel özetini gösteren bir tablodur . 1. 2. 3. 4. 5. 6. 7. 8. Veri Keşf Veri Temizliği Karar Verme Veri Görselleştirme Makine Öğrenimi ve İstatistiksel Analiz: Sayısal Değişkenlerin İstatistiksel Özeti
  • 7. Buraya kadar veri setilerın okuduk eksik değerleri kontrol edıldı ve "diagnosis" sütununu 1 (Malignant) ve 0 (Benign) olarak dönüştürulur. Daha sonra, "radius_mean" ve "texture_mean" özelliklerini kullanarak bir scatter plot (dağılım grafiği) çizer . Bu veri setimızı başlangıç veri analizi işlemleri gerçekleştirildi.
  • 8. Bu kod, K-Nearest Neighbors sınıflandırma modelinin temelini atar ve bu modelin veri seti üzerinde nasıl uygulandığını gösterir. Modelin başarısı, knn.score fonksiyonu tarafından hesaplanır ve yazdırılır. Bu, veri seti üzerindeki ilk bir komşu sınıflandırma modelini temsil eder. K-En Yakın Komşu (k-NN) Sınıflandırma
  • 9. Bu işlem, farklı komşu sayıları için çapraz doğrulama sonuçlarını elde etmek için kullanılır. Bu sonuçlar, hangi komşu sayısının modeliniz için en uygun olduğunu belirlemek için kullanılabilir. Bu bilgi, modelin performansını en iyi şekilde ayarlamak icin yardımcı olacak. 10 Kat Çapraz Dogrulama
  • 10. Bu kod parçası, K-En Yakın Komşu (K-Nearest Neighbors) sınıflandırma modeliniz için en iyi komşu sayısını (optimal k) belirlemek için bir dizi komşu sayısı üzerinde çapraz doğrulama sonuçlarını kullanır En İyi K Değerini Belirleme ve Hata Grafiği Oluşturma
  • 11. Bir K-En Yakın Komşu (K-Nearest Neighbors) sınıflandırma modeli oluşturur, eğitir ve ardından modelin tahminleri üzerinde bir hata matrisi (confusion matrix) hesaplar ve bunu bir ısı haritası olarak çizer Model Oluşturma ve Hata Matrisi
  • 12. Bu kod modelin tahminlerini kullanarak farklı performans metriklerini hesaplar.
  • 13. Bu kod ROC (Receiver Operating Characteristic) eğrisini oluşturarak bir sınıflandırma modelinin performansını görsel olarak değerlendirmek icin yardımcı olur.
  • 14. k=13 optimum oldugunda Literatür ile karşılaştırma
  • 15. BREAST CANCER CLASSIFICATION USING K-NEAREST NEIGHBORS ALGORITHM
  • 16. Literatürde 2 tane araştırma birisi tez birisi makale olarak karşılaştırıldı.Literatürde kullanılan K en yakın komşuluk algoritması ve korelasyon ısı haritası kullanılarak elde edilen sonuçlar, benim kullandıgım metot yani KNN ve metrikler ve fold cross validationa benzer bir çalışma olarak görünüyor. Özellikle, literatürde k=9 için %96.4 doğruluk oranı elde edilirken, k=13 için benzer bir değere yakın sonuçlar alındı. Bu benzer sonuçlar, kullanılan yöntemlerin güvenilirliğini ve benzerliklerini vurguluyor diyebiliriz. Sonuç
  • 17. BREAST CANCER DATA CLASSIFICATION USING SVM, NB AND KNN ALGORITHMS (Burcu Meral) 2019 BREAST CANCER CLASSIFICATION USING K-NEAREST NEIGHBORS ALGORITHM (Can Eyupoglu) 2018 MAKİNE ÖGRENMESİ PYTHON UYGULAMALARI (Dr.Ögr.Üyesi Sinan Uguz) https://dergipark.org.tr/ https://tez.yok.gov.tr/UlusalTezMerkezi/ https://archive.ics.uci.edu/dataset Kullanılan kaynaklar: