Slide Kick Off for Public - Google Cloud Arcade Facilitator 2024.pptx
Proposal Penelitian Proposal Peenelitian
1. METODE HYBRID SMOTE+TOMEK LINKS TERHADAP KLASIFIKASI NAIVE
BAYES UNTUK MENGATASI DATA TIDAK SEIMBANG PADA
DIAGNOSA PENYAKIT TUBERKULOSIS
Proposal Penelitian
Oleh
NAFLAH FAULINA
NPM 2227031011
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2024
4. Latar Belakang
Mechine
Learning
Klasifikasi
Naive
Bayes
Kasus di dunia nyata yang menjadi masalah adalah banyak data
yang ditemui memiliki distribusi tidak seimbang di setiap
kelasnya.
Imbalance data : Oversamling, Undersampling, dan Kombinasi
Over-Under sampling
Beberapa penelitian sebelumnya yang telah dilakukan terkait
mengatasi Imbalance data menggunakan teknik resampling yaitu,
penelitian yang dilakukan oleh Tyagi et al. pada tahun 2019 dan
Sastrawan et al. pada tahun 2010.
5. Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah
1. Melakukan klasifikasi naive bayes pada data tidak seimbang.
2. Melakukan menyeimbangkan data dengan
mengaplikasikan metode hybrid SMOTE+Tomek.
3. Melakukan klasifikasi naive bayes pada data seimbang.
4. Mengetahui kinerja klasifikasi naive bayes pada data tidak
seimbang dan seimbang.
Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah untuk
menambah wawasan tentang penerapan metode
SMOTE+Tomek dalam mengatasi data tidak seimbang
dan memberikan informasi tentang kinerja terbaik
klasifikasi Naive Bayes pada data tidak seimbang dan
seimbang di bidang kesehatan.
7. Tinjauan Pustaka
Machine Learning
Machine learning adalah bidang keilmuan
yang mempelajari tentang algoritma dan
model statistik yang digunakan oleh sistem
komputer untuk melakukan tugas tertentu
tanpa instruksi eksplisit (Dinata & Hasdyna,
2020).
8. Supervised Learning Unsupervised Learning Reinforcement Learning
Pembelajaran pada
tipe ini telah diketahui
apa yang akan
diprediksi atau target
variabelnya. Contoh
supervised leaning
adalah Naive Bayes.
Merupakan kebalikan
dari tipe sebelumnya
dimana tidak terdapat
target variabel pada
dataset. Contoh
unsupervised learning
adalah k-Mean
clustering.
Reinforcement learning
berasal dari teori belajar
hewan. Masalah
reinforcement learning
diselesaikan dengan
mempelajari
pengalaman baru
melalui trial-and-error.
9. Tinjauan Pustaka
Klasifikasi
Metode klasifikasi atau dapat juga disebut
metode supervised merupakan proses
memisahkan kelas data berdasarkan data
yang ada untuk menentukan kelas data
target. Klasifikasi digunakan dalam
memprediksi kategori label kelas
berdasarkan model yang telah dibangun
dengan kumpulan data latih dan label kelas
yang dapat mengklasifikasikan data
pengujian yang baru (Jadhav & Channe,
2016).
10. Naïve Bayes
Tinjauan Pustaka
Naive Bayes adalah pengklasifikasian
dengan menggunakan metode probabilitas
dan statistik yang dikemukakan oleh
ilmuwan Inggris Revered Thomas Bayes,
yaitu cara memprediksi peluang di masa
depan berdasarkan hasil pengalaman di
masa sebelumnya sehingga dikenal
sebagai teorema Bayes.
11. 𝑃 𝐴 𝐵 =
𝑃 𝐵 𝐴 . 𝑃 𝐴
𝑃 𝐵
𝑃 𝑌 𝑋1, 𝑋2, … , 𝑋𝑛 = 𝑃(𝑌). 𝑃(𝑋1|𝑌). 𝑃(𝑋2|𝑌) … 𝑃(𝑋𝑛|𝑌)
= 𝑃 𝑌
𝑖=1
𝑛
𝑃 𝑋𝑖 𝑌
dengan,
𝑃(𝐴|𝐵) ∶ peluang terjadinya A berdasarkan kondisi B
(posteriori prob).
𝑃(𝐴) ∶ peluang terjadinya A (prior prob).
𝑃 𝐵 𝐴 ∶ peluang terjadinya B berdasarkan kondisi
pada hipotesis A.
𝑃 𝐵 ∶ peluang terjadinya B.
Tinjauan Pustaka
Naïve Bayes
12. Kondisi ketidakseimbangan dalam jumlah data training antara dua
kelas yang berbeda, salah satu kelasnya merepresentasikan jumlah
data yang sangat besar (majority class) sedangkan kelas yang
lainya merepresentasikan jumlah data yang sangat kecil (minority
class) (Sastrawan et al., 2010).
Data Tidak Seimbang
Teknik resampling adalah teknik preprocessing yang menyamakan
distribusi kelas data secara algoritmik untuk meningkatkan imbalance
ratio dan mengurangi efek distribusi kelas tidak seimbang dalam
proses pembelajaran machine learning. Teknik resampling dapat
dilakukan dengan metode undersampling, oversampling, dan
gabungan keduanya (hybrid).
Teknik resampling
Tinjauan Pustaka
14. Tomek links Tomek links terbentuk jika dua buah sampel dari
kelas berbeda merupakan tetangga terdekat
satu sama lain
Misalkan terdapat 𝑎 dan 𝑏
dimana 𝛿(𝑎, 𝑏) adalah jarak
Euclidean antara 𝑎 dan 𝑏. Jika
𝑎 dan 𝑏 masuk ke dalam kelas
yang berbeda dan tidak
terdapat observasi lain
misalnya 𝑐,
maka 𝒂 dan 𝒃 disebut observasi tomek links
sedemikian rupa sehingga 𝛿(𝑎, 𝑐) < 𝛿(𝑎, 𝑏) atau
𝛿(𝑏, 𝑐) < 𝛿(𝑎, 𝑐). Dengan kata lain, 𝒂 dan 𝒃
termasuk ke dalam tomek links apabila: lingkungan
terdekat 𝒂 adalah 𝒃, lingkungan terdekat 𝒃 adalah
𝒂, 𝒂 dan 𝒃 berada pada kelas yang berbeda.
16. Ilustrasi SMOTE
SMOTE
Synthetic Minority Oversampling Technique (SMOTE)
merupakan metode yang populer diterapkan dalam
rangka menangani ketidak seimbangan kelas
Misalkan diberikan dua data dengan p dimensi yaitu:
𝑥𝑇
= [𝑥1, 𝑥2, … , 𝑥𝑝] dan 𝑦𝑇
= [𝑦1, 𝑦2, … , 𝑦𝑝] (2.18)
maka jarak euclidean 𝑑(𝑥, 𝑦) antara kedua vektor data
adalah sebagai berikut,
𝑑 𝑥, 𝑦 = (𝑥1 − 𝑦1)2+(𝑥2 − 𝑦2)2+ ⋯ + (𝑥𝑝 − 𝑦𝑝)2 ] (2.19)
sedangkan synthetic data dilakukan dengan menggunakan
persamaan berikut:
𝑥𝑠𝑦𝑛 = 𝑥𝑖 + 𝑥𝑘𝑛𝑛 − 𝑥𝑖 × 𝛽, 𝑖 = 1,2, … , 𝑛 ] (2.20)
dengan,
𝑥𝑠𝑦𝑛 ∶ data hasil replikasi.
𝑥𝑖 ∶ data yang akan direplikasi.
𝑥𝑘𝑛𝑛 ∶ data yang memiliki jarak terdekat dari data yang
akan direplikasi.
𝛽 ∶ bilangan random antara 0 sampai 1.
18. SMOTE+Tomek
SMOTE+Tomek melakukan sampling terhadap data dengan SMOTE
dan cleaning dengan tomeks link. (Batista et al., 2003). Metode ini
merupakan metode kombinasi antara SMOTE dan tomeks link
sebagai metode pembersihan data.
19. SMOTE+Tomek
Kemudian di Gambar 4(c)
memperlihatkan metode tomeks link
bekerja dengan pengecekan setiap
tetangga terdekat untuk tiap data.
Apabila ditemukan tetangga yang
memiliki kelas label berbeda, maka
kedua data itu akan dihapus dari data
training sampai menghasilkan data
training yang bersih dari noise seperti
pada Gambar 4(d).
Data contoh pada Gambar 4(a) akan di
oversampling dengan metode SMOTE
sehingga menghasilkan data dengan
karakteristik seperti Gambar 4(b).
Gambar 4. Ilustrasi Metode SMOTE+TOMEK
20. Evaluasi Kinerja (Performance) Klasifikasi
K-Fold Cross Validation
sebuah metode proses
validasi untuk
memperkirakan kinerja dari
model pembelajaran mesin
atau machine learning
23. METODOLOGI PENELITIAN
Waktu dan Tempat
Penelitian ini dilakukan
pada semester genap
tahun ajaran 2023/2024 di
Jurusan Matematika,
Fakultas Matematika dan
Ilmu Pengetahuan Alam,
Universitas Lampung.
Data Penelitian
Data yang digunakan dalam
penelitian adalah data
sekunder dari bulan januari-
desember Tahun 2023 yaitu,
data rekam medis diagnosa
penyakit tuberkulosis yang
diperoleh dari RSD. Mayjend
HM Ryacudu Kotabumi.
Metode Penelitian
Penelitian ini menggunakan
metode SMOTE+Tomek
terhadap klasifikasi naive
bayes dalam mengatasi data
tidak seimbang dengan
bantuan pemrograman
RStudio
24. 1. Melakukan visualisasi data tuberkulosis ke dalam
bentuk diagram dan analisis deskriptif.
2. Melakukan preprocessing data, yaitu :
a. Mengubah data numerik menjadi data kategorik
menjadi beberapa interval.
b. Melakukan pembagian data training dan data
testing dengan rasio 60:40, 70:30, 80:20, dan
90:10.
c. Melakukan metode gabungan oversampling dan
undersampling (SMOTE+Tomek) untuk data
tidak seimbang.
Langkah-Langkah
Penelitian
25. Langkah-Langkah
Penelitian
3. Membangun model naive bayes dengan k-fold
validation pada masingmasing data training tidak
seimbang dan seimbang.
4. Melakukan klasifikasi menggunakan data testing
pada masing-masing data tidak seimbang dan
seimbang.
5. Melakukan evaluasi model menggunakan confusion
matrix yang didapatkan dari hasil klasifikasi pada
masing-masing data testing tidak seimbang dan
seimbang.
26. Daftar Pustaka
Batista, Bazzan, A. L. C., Monard, M.-C., Batista, G. E. A. P. A., & Monard, M. C. (2003). Balancing Training Data for Automated Annotation of Keywords: a Case Study.
In: Proceedings of the Second Brazilian Workshop on Bioinformatics, 4(1), 35–43. https://www.researchgate.net/publication/221322870
Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A Study Of The Behavior Of Several Methods For Balancing Machine Learning Training Data. ACM SIGKDD
Explorations Newsletter, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735
Bustami. (2014). Penerapan Algoritma Naive Bayes untuk Mengklasifikasi Data Nasabah Asuransi. Jurnal Informatika, 8(1), 884–898.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research,
16(2), 321–357.
https://doi.org/10.1613/jair.953
Dinata, R. K., & Hasdyna, N. (2020). Machine Learning. UNIMAL PRESS.
Drummond, C., & Holte, R. C. (2003). Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling. Physical Review Letters, 91(3).
Faisal, M. R., & Nugrahadi, D. T. (2019). Belajar Data Science Klasifikasi Dengan Bahasa Pemograman R. Scripta Cendekia.
Gorunescu, F. (2011). Data Mining : Concept, Model and Techniques. Springer.
Jadhav, S. D., & Channe, H. P. (2016). Comparative Study of K-NN, Naive Bayes and Decision Tree Classification Techniques. International Journal of Science and
Research (IJSR), 5(1), 1842–1845. https://doi.org/10.21275/v5i1.nov153131
Kemenkes RI. (2011). Pedoman Nasional Pengendalian Tuberkulosis. In Chemotherapy (Vol. 52, Issue 1).
https://doi.org/10.1159/000090244
27. Kemenkes RI. (2017). Petunjuk Teknis Pemeriksaan TB Menggunakan Tes Cepat Molekuler. In Kemenkes RI.
www.tbindonesia.or.id
Krishna, & Rani. (2012). On the Classification of Imbalanced Datasets. International Journal of Computer Applications, 44(8), 1–7. https://doi.org/10.5120/6280-8449
Olson, D. L., & Delen, D. (2008). Advanced data mining techniques. In Advanced Data Mining Techniques (Issue January 2008).
https://doi.org/10.1007/978-3-540-76917-0
Pereira, R. M., Costa, Y. M. G., & Silla, C. N. (2020). MLTL: A Multi-Label Approach For The Tomek Link Undersampling Algorithm. Neurocomputing, 383, 95–105.
https://doi.org/10.1016/j.neucom.2019.11.076
Sangadji, N. W. (2020). Modul Epidemiologi Penyakit Menular (KSM242). Universitas Esa Unggul.
Saputro, I. W., & Sari, B. W. (2019). Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa. Creative Information Technology Journal, 6(1), 1.
https://doi.org/10.24076/citec.2019v6i1.178
Sastrawan, A. S., Studi, P., Informatika, T., Studi, P., Komputasi, I., Sains, F., Teknologi, I., Telekomunikasi, J., & Batu, T. B. (2010). Analisis Pengaruh Metode Combine
Sampling Dalam Churn Prediction Untuk Perusahaan Telekomunikasi. Seminar Nasional Informatika 2010 (SemnasIF 2010) UPN, 1(1), 14–22.
Siringoringo, R. (2018). Klasifikasi Data Tidak Seimbang Menggunakan Algoritma SMOTE dan K-Nearest Neighbor. Jurnal ISD, 3(1), 44–49.
Tyagi, S., & Mittal, S. (2020). Sampling Approaches For Imbalanced Data Classification Problem In Machine Learning. Lecture Notes in Electrical Engineering, 597(7),
209–221.
https://doi.org/10.1007/978-3-030-29407-6_17
Utomo, D. P., & Mesran, M. (2020). Analisis Komparasi Metode Klasifikasi Data Mining dan Reduksi Atribut Pada Data Set Penyakit Jantung. Jurnal Media Informatika
Budidarma, 4(2), 437.
https://doi.org/10.30865/mib.v4i2.2080
28. Watratan, A. F., Puspita, A., & Moeis, D. (2020). Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat Penyebaran Covid. Jural Riset
Rumpun Ilmu Teknik, 1(1), 7–14.
https://doi.org/10.55606/jurritek.v1i1.127
Wu, X., Kumar, V., Ross, Q. J., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., Ng, A., Liu, B., Yu, P. S., Zhou, Z. H., Steinbach, M., Hand, D. J., &
Steinberg, D. (2008). The Top Ten Algoritms in Data Mining. In Knowledge and Information Systems (Vol. 14, Issue 1).
https://doi.org/10.1007/s10115-007-0114-2
Yap, B. W., Rani, K. A., Abd Rahman, H. A., Fong, S., Khairudin, Z., & Abdullah, N. N. (2014). An Application of Oversampling, Undersampling,
Bagging and Boosting in Handling Imbalanced Datasets. Proceedings Data and Information Engineering, 13–22.
https://doi.org/10.1007/978-981-4585-18-7_2
Zheng, W., & Jin, M. (2020). The Effects of Class Imbalance and Training Data Size on Classifier Learning: An Empirical Study. Communications in
Computer and Information Science, 20(1), 3–17. https://doi.org/10.1007/s42979-020-0074-0