[PPT] Final Project Data Mining A (Maila 06211540000120)
1. Perbandingan Nilai Akurasi Algoritma
Klasifikasi Data Mining pada Mammographic
Mass Dataset UCI Machine Learning
Maila S. Baladina 06211540000120
Dosen :
Novri Suhermi, S.Si., M.Sc.
Dr. Dra. Kartika Fithriarsari, M.Si.
4. Pendahuluan
40.290 440
Tahun
2
0
1
5
meninggal karena penyakit kanker payudara
MAMOGRAFI salah satu metode yang paling efek
tif digunakan untuk mendeteksi jenis kanker payudara
Umur
Bentuk Gumpalan
Garis Tepi Gumpalan
BI-RADS
Tingkat Keparahan
Kepadatan Gumpalan
Dicari nilai akurasi terbaik
dalam memprediksi tingkat
keparahan menggunakan
metode algoritma klasifikasi
data mining
6. SUMBER DAN VARIABEL PENELITIAN
diambil dari UCI Machine Learning Repository
Mammographic Mass Data Set
diunduh hari Selasa 04 Desember 2018
Data Sekunder
BI-RADS
assessment
Umur
Bentuk
Gumpalan
Garis Pinggir
Gumpalan
Kepadatan
Gumpalan
Tingkat
Keparahan
Variabel Penelitian
7. lima
Manarik
kesimpulan
dan saran
tiga
Melakukan preprocessing
data kemudian
mengeksplor dan melihat
karakteristik data
satu
Mengumpulkan
dan merapikan
data sekunder
Menginstal package
dan mengimport
dataset ke dalam
Jupiter Notebook
dua
Menghitung nilai akurasi menggunakan
algoritma klasifikasi data mining (Knn, SVM,
random forest, naive bayes, dan regresi
logistik yang kemudian diperoleh metode
klasifikasi terbaik
empat
LANGKAH ANALISIS
9. Prepocessing Data
Add Text
Simple PowerPoint
Variabel
Persentase
Missing value
BI-RADS
assessment
0,2%
Age 0,5%
Shape 3,2%
Margin 4,5%
Density 7,9%
Severity 0%
Variabel Imputasi
Persentase
Missing value
Setelah
Imputasi
BI-RADS
assessment
Modus = 4 0%
Age Median = 57 0%
Shape Modus = 4 0%
Margin Modus =1 0%
Density Modus =3 0%
Semua variabel memiliki
missing value kecuali variabel
severity
IMPUTASI MISSING VALUE
Variabel numerik nilai median
Variabel kategorik nilai modus
11. Algoritma Klasifikasi
Metode Holdout
Metode Klasifikasi Akurasi Sensitivity Specificity
k-Nearest Neighbor 80,97% 84,81% 76,34%
Support Vector Machine 83,05% 86,08% 76,34%
Random Forest 79,58% 83,54% 74,81%
Naive Bayes 80,97% 82,91% 78,63%
Regresi Logistik 83,74% 83,54% 83,97%
kemampuan pendeteksian
gumpalan kanker payudara
menggunakan mammografi
untuk memberikan hasil
negatif bagi mereka yang
tidak menderita penyakit
kanker payudara
Akurasi
83,74%
Sensitivitas
83,74%
Spesifitas
83,97%
kemampuan pendeteksi
gumpalan kanker payudara
secara dini menggunakan
mammografi untuk
memberikan hasil positif
bagi mereka yang menderita
kanker payudara
ketepatan atau
kebenaran
mammographic
dalam menskrining
gumpalan
12. Algoritma Klasifikasi
Metode Cross Validation
k-Nearest Neighbor Support Vector Machine Random Forest
Naive Bayes Regresi Logistik
80,02% 81,06% 79,09%
80,03% 81,27%
13. 13
Satu
untuk memperoleh nilai akurasi yang tinggi dengan tu
juan ingin mengetahui seberapa akuratnya pendeteks
ian gumpalan kanker payudara menggunakan mamm
ografik langkah awalnya adalah dengan melakukan pr
eprocessing data yang meliputi deteksi dan imputasi
missing value, sebagaimana diketahui dari semua vari
abel yang digunakan kecuali variabel tingkat keparaha
n (severity) semuanya memiliki data yang missing sehi
ngga dapat diatas dengan imputasi nilai modus untuk
variabel BI-RADS assessment, shape, margin, dan den
sity. Sedangkan untuk variabel age diimputasi dengan
nilai median
Kesimpulan
Dua
dilakukan eksplorasi data guna mengetahui hubungan a
ntar variabel, pencilan data, distribusi dan sebaran data
, serta ranking kepentingan variabel berdasarkan nilai e
ntropy. Kemudian yang terakhir adalah menghitung nil
ai akurasi dengan beberapa metode klasifikasi melalui c
ara holdout dan k-fold cross validation. Pada pengguna
an cara holdout maupun cross validation diperoleh met
ode klasifikasi terbaik yaitu dengan metode klasifikasi r
egresi logistik dimana masing-masing secara urut diper
oleh sebesar 83,74 persen dan 81,27 persen, nilai akur
asi tersebut yang berarti bahwa kemampuan mammog
raphic untuk mendeteksi gumpalan kanker payudara se
cara benar seluruh subjek yang diuji yaitu sebesar 83,7
4 persen jika menggunakan cara holdout dan 81,27 per
sen jika menggunakan cara k-fold cross validation.
14. SaranSebaiknya data yang digunakan lebih banyak agar dapat dianalisis lebih dalam, se
perti misalnya jika variabel yang digunakan semakin banyak maka dapat dilakuka
n feature engeenering yang sekiranya dapat menaikkan nilai akurasi dalam ketep
atan klasifikasi model. Selain itu sebaiknya peneliti lebih berhati-hati dalam meng
hitung nilai akurasi karena jika nilai akurasi yang diperoleh kurang tepat maka has
il analisis dalam memprediksi model menjadi kurang representatif.
14