SlideShare a Scribd company logo
1 of 29
METODE HYBRID SMOTE+TOMEK LINKS TERHADAP KLASIFIKASI NAIVE
BAYES UNTUK MENGATASI DATA TIDAK SEIMBANG PADA
DIAGNOSA PENYAKIT TUBERKULOSIS
Proposal Penelitian
Oleh
NAFLAH FAULINA
NPM 2227031011
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2024
OUTLINE
TINJAUAN
PUSTAKA
METODOLOGI
PENELITIAN
DAFTAR
PUSTAKA
PENDAHULUAN
1
BAB
Pendahuluan
Latar Belakang
Mechine
Learning
Klasifikasi
Naive
Bayes
Kasus di dunia nyata yang menjadi masalah adalah banyak data
yang ditemui memiliki distribusi tidak seimbang di setiap
kelasnya.
Imbalance data : Oversamling, Undersampling, dan Kombinasi
Over-Under sampling
Beberapa penelitian sebelumnya yang telah dilakukan terkait
mengatasi Imbalance data menggunakan teknik resampling yaitu,
penelitian yang dilakukan oleh Tyagi et al. pada tahun 2019 dan
Sastrawan et al. pada tahun 2010.
Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah
1. Melakukan klasifikasi naive bayes pada data tidak seimbang.
2. Melakukan menyeimbangkan data dengan
mengaplikasikan metode hybrid SMOTE+Tomek.
3. Melakukan klasifikasi naive bayes pada data seimbang.
4. Mengetahui kinerja klasifikasi naive bayes pada data tidak
seimbang dan seimbang.
Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah untuk
menambah wawasan tentang penerapan metode
SMOTE+Tomek dalam mengatasi data tidak seimbang
dan memberikan informasi tentang kinerja terbaik
klasifikasi Naive Bayes pada data tidak seimbang dan
seimbang di bidang kesehatan.
2
BAB
Tinjauan Pustaka
Tinjauan Pustaka
Machine Learning
Machine learning adalah bidang keilmuan
yang mempelajari tentang algoritma dan
model statistik yang digunakan oleh sistem
komputer untuk melakukan tugas tertentu
tanpa instruksi eksplisit (Dinata & Hasdyna,
2020).
Supervised Learning Unsupervised Learning Reinforcement Learning
Pembelajaran pada
tipe ini telah diketahui
apa yang akan
diprediksi atau target
variabelnya. Contoh
supervised leaning
adalah Naive Bayes.
Merupakan kebalikan
dari tipe sebelumnya
dimana tidak terdapat
target variabel pada
dataset. Contoh
unsupervised learning
adalah k-Mean
clustering.
Reinforcement learning
berasal dari teori belajar
hewan. Masalah
reinforcement learning
diselesaikan dengan
mempelajari
pengalaman baru
melalui trial-and-error.
Tinjauan Pustaka
Klasifikasi
Metode klasifikasi atau dapat juga disebut
metode supervised merupakan proses
memisahkan kelas data berdasarkan data
yang ada untuk menentukan kelas data
target. Klasifikasi digunakan dalam
memprediksi kategori label kelas
berdasarkan model yang telah dibangun
dengan kumpulan data latih dan label kelas
yang dapat mengklasifikasikan data
pengujian yang baru (Jadhav & Channe,
2016).
Naïve Bayes
Tinjauan Pustaka
Naive Bayes adalah pengklasifikasian
dengan menggunakan metode probabilitas
dan statistik yang dikemukakan oleh
ilmuwan Inggris Revered Thomas Bayes,
yaitu cara memprediksi peluang di masa
depan berdasarkan hasil pengalaman di
masa sebelumnya sehingga dikenal
sebagai teorema Bayes.
𝑃 𝐴 𝐵 =
𝑃 𝐵 𝐴 . 𝑃 𝐴
𝑃 𝐵
𝑃 𝑌 𝑋1, 𝑋2, … , 𝑋𝑛 = 𝑃(𝑌). 𝑃(𝑋1|𝑌). 𝑃(𝑋2|𝑌) … 𝑃(𝑋𝑛|𝑌)
= 𝑃 𝑌
𝑖=1
𝑛
𝑃 𝑋𝑖 𝑌
dengan,
𝑃(𝐴|𝐵) ∶ peluang terjadinya A berdasarkan kondisi B
(posteriori prob).
𝑃(𝐴) ∶ peluang terjadinya A (prior prob).
𝑃 𝐵 𝐴 ∶ peluang terjadinya B berdasarkan kondisi
pada hipotesis A.
𝑃 𝐵 ∶ peluang terjadinya B.
Tinjauan Pustaka
Naïve Bayes
Kondisi ketidakseimbangan dalam jumlah data training antara dua
kelas yang berbeda, salah satu kelasnya merepresentasikan jumlah
data yang sangat besar (majority class) sedangkan kelas yang
lainya merepresentasikan jumlah data yang sangat kecil (minority
class) (Sastrawan et al., 2010).
Data Tidak Seimbang
Teknik resampling adalah teknik preprocessing yang menyamakan
distribusi kelas data secara algoritmik untuk meningkatkan imbalance
ratio dan mengurangi efek distribusi kelas tidak seimbang dalam
proses pembelajaran machine learning. Teknik resampling dapat
dilakukan dengan metode undersampling, oversampling, dan
gabungan keduanya (hybrid).
Teknik resampling
Tinjauan Pustaka
Undersampling
Undersampling mengurangi jumlah
pengamatan dari kelas mayoritas
untuk membuat kumpulan data
menjadi seimbang.
Tinjauan Pustaka
Tomek links Tomek links terbentuk jika dua buah sampel dari
kelas berbeda merupakan tetangga terdekat
satu sama lain
Misalkan terdapat 𝑎 dan 𝑏
dimana 𝛿(𝑎, 𝑏) adalah jarak
Euclidean antara 𝑎 dan 𝑏. Jika
𝑎 dan 𝑏 masuk ke dalam kelas
yang berbeda dan tidak
terdapat observasi lain
misalnya 𝑐,
maka 𝒂 dan 𝒃 disebut observasi tomek links
sedemikian rupa sehingga 𝛿(𝑎, 𝑐) < 𝛿(𝑎, 𝑏) atau
𝛿(𝑏, 𝑐) < 𝛿(𝑎, 𝑐). Dengan kata lain, 𝒂 dan 𝒃
termasuk ke dalam tomek links apabila: lingkungan
terdekat 𝒂 adalah 𝒃, lingkungan terdekat 𝒃 adalah
𝒂, 𝒂 dan 𝒃 berada pada kelas yang berbeda.
Oversampling
Ilustrasi Oversampling
Tinjauan Pustaka
Metode oversampling ini,
kelas minoritas akan direplikasi
sampai jumlah observasinya
relatif sama dengan kelas
mayoritas.
Ilustrasi SMOTE
SMOTE
Synthetic Minority Oversampling Technique (SMOTE)
merupakan metode yang populer diterapkan dalam
rangka menangani ketidak seimbangan kelas
Misalkan diberikan dua data dengan p dimensi yaitu:
𝑥𝑇
= [𝑥1, 𝑥2, … , 𝑥𝑝] dan 𝑦𝑇
= [𝑦1, 𝑦2, … , 𝑦𝑝] (2.18)
maka jarak euclidean 𝑑(𝑥, 𝑦) antara kedua vektor data
adalah sebagai berikut,
𝑑 𝑥, 𝑦 = (𝑥1 − 𝑦1)2+(𝑥2 − 𝑦2)2+ ⋯ + (𝑥𝑝 − 𝑦𝑝)2 ] (2.19)
sedangkan synthetic data dilakukan dengan menggunakan
persamaan berikut:
𝑥𝑠𝑦𝑛 = 𝑥𝑖 + 𝑥𝑘𝑛𝑛 − 𝑥𝑖 × 𝛽, 𝑖 = 1,2, … , 𝑛 ] (2.20)
dengan,
𝑥𝑠𝑦𝑛 ∶ data hasil replikasi.
𝑥𝑖 ∶ data yang akan direplikasi.
𝑥𝑘𝑛𝑛 ∶ data yang memiliki jarak terdekat dari data yang
akan direplikasi.
𝛽 ∶ bilangan random antara 0 sampai 1.
Kombinasi Oversampling dan Undersampling
SMOTE+Tomek
SMOTE+Tomek melakukan sampling terhadap data dengan SMOTE
dan cleaning dengan tomeks link. (Batista et al., 2003). Metode ini
merupakan metode kombinasi antara SMOTE dan tomeks link
sebagai metode pembersihan data.
SMOTE+Tomek
Kemudian di Gambar 4(c)
memperlihatkan metode tomeks link
bekerja dengan pengecekan setiap
tetangga terdekat untuk tiap data.
Apabila ditemukan tetangga yang
memiliki kelas label berbeda, maka
kedua data itu akan dihapus dari data
training sampai menghasilkan data
training yang bersih dari noise seperti
pada Gambar 4(d).
Data contoh pada Gambar 4(a) akan di
oversampling dengan metode SMOTE
sehingga menghasilkan data dengan
karakteristik seperti Gambar 4(b).
Gambar 4. Ilustrasi Metode SMOTE+TOMEK
Evaluasi Kinerja (Performance) Klasifikasi
K-Fold Cross Validation
sebuah metode proses
validasi untuk
memperkirakan kinerja dari
model pembelajaran mesin
atau machine learning
Evaluasi Kinerja (Performance) Klasifikasi
Confusion matrix, yang juga
dikenal sebagai matriks
kesalahan, merupakan tata
letak tabel yang spesifik dan
memungkinkan visualisasi
dari kinerja algoritma
True Condition
Predited
Condition
Positive Negative
Positive True Positive
(TP)
False Positive
(FP)
Negative False Negative
(FN)
True Negative
(TN)
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝑇𝑃 + 𝑇𝑁
TP + TN + FP + FN
× 100%
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
× 100%
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
× 100%
𝑆𝑝𝑒𝑠𝑖𝑓𝑖𝑡𝑎𝑠 =
𝑇𝑁
𝑇𝑁 + 𝐹𝑃
× 100%
3
BAB
Metodologi Penelitian
METODOLOGI PENELITIAN
Waktu dan Tempat
Penelitian ini dilakukan
pada semester genap
tahun ajaran 2023/2024 di
Jurusan Matematika,
Fakultas Matematika dan
Ilmu Pengetahuan Alam,
Universitas Lampung.
Data Penelitian
Data yang digunakan dalam
penelitian adalah data
sekunder dari bulan januari-
desember Tahun 2023 yaitu,
data rekam medis diagnosa
penyakit tuberkulosis yang
diperoleh dari RSD. Mayjend
HM Ryacudu Kotabumi.
Metode Penelitian
Penelitian ini menggunakan
metode SMOTE+Tomek
terhadap klasifikasi naive
bayes dalam mengatasi data
tidak seimbang dengan
bantuan pemrograman
RStudio
1. Melakukan visualisasi data tuberkulosis ke dalam
bentuk diagram dan analisis deskriptif.
2. Melakukan preprocessing data, yaitu :
a. Mengubah data numerik menjadi data kategorik
menjadi beberapa interval.
b. Melakukan pembagian data training dan data
testing dengan rasio 60:40, 70:30, 80:20, dan
90:10.
c. Melakukan metode gabungan oversampling dan
undersampling (SMOTE+Tomek) untuk data
tidak seimbang.
Langkah-Langkah
Penelitian
Langkah-Langkah
Penelitian
3. Membangun model naive bayes dengan k-fold
validation pada masingmasing data training tidak
seimbang dan seimbang.
4. Melakukan klasifikasi menggunakan data testing
pada masing-masing data tidak seimbang dan
seimbang.
5. Melakukan evaluasi model menggunakan confusion
matrix yang didapatkan dari hasil klasifikasi pada
masing-masing data testing tidak seimbang dan
seimbang.
Daftar Pustaka
Batista, Bazzan, A. L. C., Monard, M.-C., Batista, G. E. A. P. A., & Monard, M. C. (2003). Balancing Training Data for Automated Annotation of Keywords: a Case Study.
In: Proceedings of the Second Brazilian Workshop on Bioinformatics, 4(1), 35–43. https://www.researchgate.net/publication/221322870
Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A Study Of The Behavior Of Several Methods For Balancing Machine Learning Training Data. ACM SIGKDD
Explorations Newsletter, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735
Bustami. (2014). Penerapan Algoritma Naive Bayes untuk Mengklasifikasi Data Nasabah Asuransi. Jurnal Informatika, 8(1), 884–898.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research,
16(2), 321–357.
https://doi.org/10.1613/jair.953
Dinata, R. K., & Hasdyna, N. (2020). Machine Learning. UNIMAL PRESS.
Drummond, C., & Holte, R. C. (2003). Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling. Physical Review Letters, 91(3).
Faisal, M. R., & Nugrahadi, D. T. (2019). Belajar Data Science Klasifikasi Dengan Bahasa Pemograman R. Scripta Cendekia.
Gorunescu, F. (2011). Data Mining : Concept, Model and Techniques. Springer.
Jadhav, S. D., & Channe, H. P. (2016). Comparative Study of K-NN, Naive Bayes and Decision Tree Classification Techniques. International Journal of Science and
Research (IJSR), 5(1), 1842–1845. https://doi.org/10.21275/v5i1.nov153131
Kemenkes RI. (2011). Pedoman Nasional Pengendalian Tuberkulosis. In Chemotherapy (Vol. 52, Issue 1).
https://doi.org/10.1159/000090244
Kemenkes RI. (2017). Petunjuk Teknis Pemeriksaan TB Menggunakan Tes Cepat Molekuler. In Kemenkes RI.
www.tbindonesia.or.id
Krishna, & Rani. (2012). On the Classification of Imbalanced Datasets. International Journal of Computer Applications, 44(8), 1–7. https://doi.org/10.5120/6280-8449
Olson, D. L., & Delen, D. (2008). Advanced data mining techniques. In Advanced Data Mining Techniques (Issue January 2008).
https://doi.org/10.1007/978-3-540-76917-0
Pereira, R. M., Costa, Y. M. G., & Silla, C. N. (2020). MLTL: A Multi-Label Approach For The Tomek Link Undersampling Algorithm. Neurocomputing, 383, 95–105.
https://doi.org/10.1016/j.neucom.2019.11.076
Sangadji, N. W. (2020). Modul Epidemiologi Penyakit Menular (KSM242). Universitas Esa Unggul.
Saputro, I. W., & Sari, B. W. (2019). Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa. Creative Information Technology Journal, 6(1), 1.
https://doi.org/10.24076/citec.2019v6i1.178
Sastrawan, A. S., Studi, P., Informatika, T., Studi, P., Komputasi, I., Sains, F., Teknologi, I., Telekomunikasi, J., & Batu, T. B. (2010). Analisis Pengaruh Metode Combine
Sampling Dalam Churn Prediction Untuk Perusahaan Telekomunikasi. Seminar Nasional Informatika 2010 (SemnasIF 2010) UPN, 1(1), 14–22.
Siringoringo, R. (2018). Klasifikasi Data Tidak Seimbang Menggunakan Algoritma SMOTE dan K-Nearest Neighbor. Jurnal ISD, 3(1), 44–49.
Tyagi, S., & Mittal, S. (2020). Sampling Approaches For Imbalanced Data Classification Problem In Machine Learning. Lecture Notes in Electrical Engineering, 597(7),
209–221.
https://doi.org/10.1007/978-3-030-29407-6_17
Utomo, D. P., & Mesran, M. (2020). Analisis Komparasi Metode Klasifikasi Data Mining dan Reduksi Atribut Pada Data Set Penyakit Jantung. Jurnal Media Informatika
Budidarma, 4(2), 437.
https://doi.org/10.30865/mib.v4i2.2080
Watratan, A. F., Puspita, A., & Moeis, D. (2020). Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat Penyebaran Covid. Jural Riset
Rumpun Ilmu Teknik, 1(1), 7–14.
https://doi.org/10.55606/jurritek.v1i1.127
Wu, X., Kumar, V., Ross, Q. J., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., Ng, A., Liu, B., Yu, P. S., Zhou, Z. H., Steinbach, M., Hand, D. J., &
Steinberg, D. (2008). The Top Ten Algoritms in Data Mining. In Knowledge and Information Systems (Vol. 14, Issue 1).
https://doi.org/10.1007/s10115-007-0114-2
Yap, B. W., Rani, K. A., Abd Rahman, H. A., Fong, S., Khairudin, Z., & Abdullah, N. N. (2014). An Application of Oversampling, Undersampling,
Bagging and Boosting in Handling Imbalanced Datasets. Proceedings Data and Information Engineering, 13–22.
https://doi.org/10.1007/978-981-4585-18-7_2
Zheng, W., & Jin, M. (2020). The Effects of Class Imbalance and Training Data Size on Classifier Learning: An Empirical Study. Communications in
Computer and Information Science, 20(1), 3–17. https://doi.org/10.1007/s42979-020-0074-0
Terima

More Related Content

Similar to Proposal Penelitian Proposal Peenelitian

TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiwTM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
RahmanPrasetyo3
 
Espa4123 statistika modul 2
Espa4123 statistika   modul 2Espa4123 statistika   modul 2
Espa4123 statistika modul 2
Ratzman III
 
Artikel Final Yan Yan G
Artikel Final Yan Yan GArtikel Final Yan Yan G
Artikel Final Yan Yan G
Yan Gustiana
 

Similar to Proposal Penelitian Proposal Peenelitian (20)

Statistika
StatistikaStatistika
Statistika
 
( Putri). ukuran pemusatan data.
( Putri). ukuran pemusatan data.( Putri). ukuran pemusatan data.
( Putri). ukuran pemusatan data.
 
TM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptifTM5-statistika_5 pengenalan statistik deskriptif
TM5-statistika_5 pengenalan statistik deskriptif
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.ppt
 
bahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.pptbahan matakuliah probabilitas dan statistik.ppt
bahan matakuliah probabilitas dan statistik.ppt
 
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiwTM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
TM5-statistika_5.ppt wiwiwiwiwiiwiwwiwiwiw
 
Statistik dan probabilitas
Statistik dan probabilitasStatistik dan probabilitas
Statistik dan probabilitas
 
Resampling Methods Kelompok 4.pptx
Resampling Methods Kelompok 4.pptxResampling Methods Kelompok 4.pptx
Resampling Methods Kelompok 4.pptx
 
statistikapptx-160510132301.pdf
statistikapptx-160510132301.pdfstatistikapptx-160510132301.pdf
statistikapptx-160510132301.pdf
 
Statistika Matematika kelas X
Statistika Matematika kelas XStatistika Matematika kelas X
Statistika Matematika kelas X
 
Analisis Cluster
Analisis ClusterAnalisis Cluster
Analisis Cluster
 
Espa4123 statistika modul 2
Espa4123 statistika   modul 2Espa4123 statistika   modul 2
Espa4123 statistika modul 2
 
Artikel Final Yan Yan G
Artikel Final Yan Yan GArtikel Final Yan Yan G
Artikel Final Yan Yan G
 
TM5-statistika_5.ppt
TM5-statistika_5.pptTM5-statistika_5.ppt
TM5-statistika_5.ppt
 
Materi SMA X : Statistika (2)
Materi SMA X : Statistika (2)Materi SMA X : Statistika (2)
Materi SMA X : Statistika (2)
 
x-statistika2-160516023145.pdf
x-statistika2-160516023145.pdfx-statistika2-160516023145.pdf
x-statistika2-160516023145.pdf
 
Ukuran pemusatan
Ukuran pemusatanUkuran pemusatan
Ukuran pemusatan
 
Statistika Dasar
Statistika DasarStatistika Dasar
Statistika Dasar
 
data mining
data miningdata mining
data mining
 
BAB 2 UKURAN PEMUSATAN DAN PENYEBARAN DATA BERKELOMPOK.pptx
BAB 2 UKURAN PEMUSATAN DAN PENYEBARAN DATA BERKELOMPOK.pptxBAB 2 UKURAN PEMUSATAN DAN PENYEBARAN DATA BERKELOMPOK.pptx
BAB 2 UKURAN PEMUSATAN DAN PENYEBARAN DATA BERKELOMPOK.pptx
 

Recently uploaded

Power point materi IPA pada materi unsur
Power point materi IPA pada materi unsurPower point materi IPA pada materi unsur
Power point materi IPA pada materi unsur
DoddiKELAS7A
 
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
ErikaPutriJayantini
 
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptxperwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
Mas PauLs
 
Penjelasan Asmaul Khomsah bahasa arab nahwu
Penjelasan Asmaul Khomsah bahasa arab nahwuPenjelasan Asmaul Khomsah bahasa arab nahwu
Penjelasan Asmaul Khomsah bahasa arab nahwu
Khiyaroh1
 
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptxAksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
AgusSuarno2
 
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptxPPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
iwidyastama85
 
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptxMATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
randikaakbar11
 

Recently uploaded (20)

PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan AnakPWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
PWS KIA (Pemantauan Wilayah Setempat) Kesehatan Ibu dan Anak
 
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdfMODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
MODUL AJAR PENDIDIKAN AGAMA ISLAM & BUDI PEKERTI (PAIBP) KELAS 5.pdf
 
MODUL AJAR SENI RUPA KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI RUPA KELAS 5 KURIKULUM MERDEKA.pdfMODUL AJAR SENI RUPA KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR SENI RUPA KELAS 5 KURIKULUM MERDEKA.pdf
 
MODUL AJAR PENDIDIKAN PANCASILA KELAS 2 KURIKULUM MERDEKA.pdf
MODUL AJAR PENDIDIKAN PANCASILA KELAS 2 KURIKULUM MERDEKA.pdfMODUL AJAR PENDIDIKAN PANCASILA KELAS 2 KURIKULUM MERDEKA.pdf
MODUL AJAR PENDIDIKAN PANCASILA KELAS 2 KURIKULUM MERDEKA.pdf
 
MODUL AJAR MATEMATIKA KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR MATEMATIKA KELAS 5 KURIKULUM MERDEKA.pdfMODUL AJAR MATEMATIKA KELAS 5 KURIKULUM MERDEKA.pdf
MODUL AJAR MATEMATIKA KELAS 5 KURIKULUM MERDEKA.pdf
 
Modul Ajar Matematika Kelas 5 Fase C Kurikulum Merdeka [abdiera.com]
Modul Ajar Matematika Kelas 5 Fase C Kurikulum Merdeka [abdiera.com]Modul Ajar Matematika Kelas 5 Fase C Kurikulum Merdeka [abdiera.com]
Modul Ajar Matematika Kelas 5 Fase C Kurikulum Merdeka [abdiera.com]
 
Variasi dan Gaya Mengajar, Mata Kuliah Strategi Belajar Mengajar
Variasi dan Gaya Mengajar, Mata Kuliah Strategi Belajar MengajarVariasi dan Gaya Mengajar, Mata Kuliah Strategi Belajar Mengajar
Variasi dan Gaya Mengajar, Mata Kuliah Strategi Belajar Mengajar
 
Materi E-modul Ekosistem kelas X SMA.docx
Materi E-modul Ekosistem kelas X SMA.docxMateri E-modul Ekosistem kelas X SMA.docx
Materi E-modul Ekosistem kelas X SMA.docx
 
Power point materi IPA pada materi unsur
Power point materi IPA pada materi unsurPower point materi IPA pada materi unsur
Power point materi IPA pada materi unsur
 
Materi Penggolongan Obat Undang-Undang Kesehatan
Materi Penggolongan Obat Undang-Undang KesehatanMateri Penggolongan Obat Undang-Undang Kesehatan
Materi Penggolongan Obat Undang-Undang Kesehatan
 
Informatika Latihan Soal Kelas Tujuh.pptx
Informatika Latihan Soal Kelas Tujuh.pptxInformatika Latihan Soal Kelas Tujuh.pptx
Informatika Latihan Soal Kelas Tujuh.pptx
 
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
443016507-Sediaan-obat-PHYCOPHYTA-MYOPHYTA-dan-MYCOPHYTA-pptx.pptx
 
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptxperwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
perwalian IKLIM SEKOLAH AMAN Mencegah Intoleransi.pptx
 
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptxMETODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
METODE PENGEMBANGAN MORAL DAN NILAI-NILAI AGAMA.pptx
 
Penjelasan Asmaul Khomsah bahasa arab nahwu
Penjelasan Asmaul Khomsah bahasa arab nahwuPenjelasan Asmaul Khomsah bahasa arab nahwu
Penjelasan Asmaul Khomsah bahasa arab nahwu
 
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptxAksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
Aksi Nyata Cegah Perundungan Mulai dari Kelas [Guru].pptx
 
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptxPPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
PPt-Juknis-PPDB-2024 (TerbarU) kabupaten GIanyar.pptx
 
P5 Gaya Hidup berkelanjutan gaya hidup b
P5 Gaya Hidup berkelanjutan gaya hidup bP5 Gaya Hidup berkelanjutan gaya hidup b
P5 Gaya Hidup berkelanjutan gaya hidup b
 
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptxMATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
MATERI Projek Kreatif Kewirausahaan kelas XI SMK.pptx
 
Slide Kick Off for Public - Google Cloud Arcade Facilitator 2024.pptx
Slide Kick Off for Public - Google Cloud Arcade Facilitator 2024.pptxSlide Kick Off for Public - Google Cloud Arcade Facilitator 2024.pptx
Slide Kick Off for Public - Google Cloud Arcade Facilitator 2024.pptx
 

Proposal Penelitian Proposal Peenelitian

  • 1. METODE HYBRID SMOTE+TOMEK LINKS TERHADAP KLASIFIKASI NAIVE BAYES UNTUK MENGATASI DATA TIDAK SEIMBANG PADA DIAGNOSA PENYAKIT TUBERKULOSIS Proposal Penelitian Oleh NAFLAH FAULINA NPM 2227031011 FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2024
  • 4. Latar Belakang Mechine Learning Klasifikasi Naive Bayes Kasus di dunia nyata yang menjadi masalah adalah banyak data yang ditemui memiliki distribusi tidak seimbang di setiap kelasnya. Imbalance data : Oversamling, Undersampling, dan Kombinasi Over-Under sampling Beberapa penelitian sebelumnya yang telah dilakukan terkait mengatasi Imbalance data menggunakan teknik resampling yaitu, penelitian yang dilakukan oleh Tyagi et al. pada tahun 2019 dan Sastrawan et al. pada tahun 2010.
  • 5. Tujuan Penelitian Adapun tujuan dari penelitian ini adalah 1. Melakukan klasifikasi naive bayes pada data tidak seimbang. 2. Melakukan menyeimbangkan data dengan mengaplikasikan metode hybrid SMOTE+Tomek. 3. Melakukan klasifikasi naive bayes pada data seimbang. 4. Mengetahui kinerja klasifikasi naive bayes pada data tidak seimbang dan seimbang. Manfaat Penelitian Adapun manfaat dari penelitian ini adalah untuk menambah wawasan tentang penerapan metode SMOTE+Tomek dalam mengatasi data tidak seimbang dan memberikan informasi tentang kinerja terbaik klasifikasi Naive Bayes pada data tidak seimbang dan seimbang di bidang kesehatan.
  • 7. Tinjauan Pustaka Machine Learning Machine learning adalah bidang keilmuan yang mempelajari tentang algoritma dan model statistik yang digunakan oleh sistem komputer untuk melakukan tugas tertentu tanpa instruksi eksplisit (Dinata & Hasdyna, 2020).
  • 8. Supervised Learning Unsupervised Learning Reinforcement Learning Pembelajaran pada tipe ini telah diketahui apa yang akan diprediksi atau target variabelnya. Contoh supervised leaning adalah Naive Bayes. Merupakan kebalikan dari tipe sebelumnya dimana tidak terdapat target variabel pada dataset. Contoh unsupervised learning adalah k-Mean clustering. Reinforcement learning berasal dari teori belajar hewan. Masalah reinforcement learning diselesaikan dengan mempelajari pengalaman baru melalui trial-and-error.
  • 9. Tinjauan Pustaka Klasifikasi Metode klasifikasi atau dapat juga disebut metode supervised merupakan proses memisahkan kelas data berdasarkan data yang ada untuk menentukan kelas data target. Klasifikasi digunakan dalam memprediksi kategori label kelas berdasarkan model yang telah dibangun dengan kumpulan data latih dan label kelas yang dapat mengklasifikasikan data pengujian yang baru (Jadhav & Channe, 2016).
  • 10. Naïve Bayes Tinjauan Pustaka Naive Bayes adalah pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Revered Thomas Bayes, yaitu cara memprediksi peluang di masa depan berdasarkan hasil pengalaman di masa sebelumnya sehingga dikenal sebagai teorema Bayes.
  • 11. 𝑃 𝐴 𝐵 = 𝑃 𝐵 𝐴 . 𝑃 𝐴 𝑃 𝐵 𝑃 𝑌 𝑋1, 𝑋2, … , 𝑋𝑛 = 𝑃(𝑌). 𝑃(𝑋1|𝑌). 𝑃(𝑋2|𝑌) … 𝑃(𝑋𝑛|𝑌) = 𝑃 𝑌 𝑖=1 𝑛 𝑃 𝑋𝑖 𝑌 dengan, 𝑃(𝐴|𝐵) ∶ peluang terjadinya A berdasarkan kondisi B (posteriori prob). 𝑃(𝐴) ∶ peluang terjadinya A (prior prob). 𝑃 𝐵 𝐴 ∶ peluang terjadinya B berdasarkan kondisi pada hipotesis A. 𝑃 𝐵 ∶ peluang terjadinya B. Tinjauan Pustaka Naïve Bayes
  • 12. Kondisi ketidakseimbangan dalam jumlah data training antara dua kelas yang berbeda, salah satu kelasnya merepresentasikan jumlah data yang sangat besar (majority class) sedangkan kelas yang lainya merepresentasikan jumlah data yang sangat kecil (minority class) (Sastrawan et al., 2010). Data Tidak Seimbang Teknik resampling adalah teknik preprocessing yang menyamakan distribusi kelas data secara algoritmik untuk meningkatkan imbalance ratio dan mengurangi efek distribusi kelas tidak seimbang dalam proses pembelajaran machine learning. Teknik resampling dapat dilakukan dengan metode undersampling, oversampling, dan gabungan keduanya (hybrid). Teknik resampling Tinjauan Pustaka
  • 13. Undersampling Undersampling mengurangi jumlah pengamatan dari kelas mayoritas untuk membuat kumpulan data menjadi seimbang. Tinjauan Pustaka
  • 14. Tomek links Tomek links terbentuk jika dua buah sampel dari kelas berbeda merupakan tetangga terdekat satu sama lain Misalkan terdapat 𝑎 dan 𝑏 dimana 𝛿(𝑎, 𝑏) adalah jarak Euclidean antara 𝑎 dan 𝑏. Jika 𝑎 dan 𝑏 masuk ke dalam kelas yang berbeda dan tidak terdapat observasi lain misalnya 𝑐, maka 𝒂 dan 𝒃 disebut observasi tomek links sedemikian rupa sehingga 𝛿(𝑎, 𝑐) < 𝛿(𝑎, 𝑏) atau 𝛿(𝑏, 𝑐) < 𝛿(𝑎, 𝑐). Dengan kata lain, 𝒂 dan 𝒃 termasuk ke dalam tomek links apabila: lingkungan terdekat 𝒂 adalah 𝒃, lingkungan terdekat 𝒃 adalah 𝒂, 𝒂 dan 𝒃 berada pada kelas yang berbeda.
  • 15. Oversampling Ilustrasi Oversampling Tinjauan Pustaka Metode oversampling ini, kelas minoritas akan direplikasi sampai jumlah observasinya relatif sama dengan kelas mayoritas.
  • 16. Ilustrasi SMOTE SMOTE Synthetic Minority Oversampling Technique (SMOTE) merupakan metode yang populer diterapkan dalam rangka menangani ketidak seimbangan kelas Misalkan diberikan dua data dengan p dimensi yaitu: 𝑥𝑇 = [𝑥1, 𝑥2, … , 𝑥𝑝] dan 𝑦𝑇 = [𝑦1, 𝑦2, … , 𝑦𝑝] (2.18) maka jarak euclidean 𝑑(𝑥, 𝑦) antara kedua vektor data adalah sebagai berikut, 𝑑 𝑥, 𝑦 = (𝑥1 − 𝑦1)2+(𝑥2 − 𝑦2)2+ ⋯ + (𝑥𝑝 − 𝑦𝑝)2 ] (2.19) sedangkan synthetic data dilakukan dengan menggunakan persamaan berikut: 𝑥𝑠𝑦𝑛 = 𝑥𝑖 + 𝑥𝑘𝑛𝑛 − 𝑥𝑖 × 𝛽, 𝑖 = 1,2, … , 𝑛 ] (2.20) dengan, 𝑥𝑠𝑦𝑛 ∶ data hasil replikasi. 𝑥𝑖 ∶ data yang akan direplikasi. 𝑥𝑘𝑛𝑛 ∶ data yang memiliki jarak terdekat dari data yang akan direplikasi. 𝛽 ∶ bilangan random antara 0 sampai 1.
  • 17. Kombinasi Oversampling dan Undersampling
  • 18. SMOTE+Tomek SMOTE+Tomek melakukan sampling terhadap data dengan SMOTE dan cleaning dengan tomeks link. (Batista et al., 2003). Metode ini merupakan metode kombinasi antara SMOTE dan tomeks link sebagai metode pembersihan data.
  • 19. SMOTE+Tomek Kemudian di Gambar 4(c) memperlihatkan metode tomeks link bekerja dengan pengecekan setiap tetangga terdekat untuk tiap data. Apabila ditemukan tetangga yang memiliki kelas label berbeda, maka kedua data itu akan dihapus dari data training sampai menghasilkan data training yang bersih dari noise seperti pada Gambar 4(d). Data contoh pada Gambar 4(a) akan di oversampling dengan metode SMOTE sehingga menghasilkan data dengan karakteristik seperti Gambar 4(b). Gambar 4. Ilustrasi Metode SMOTE+TOMEK
  • 20. Evaluasi Kinerja (Performance) Klasifikasi K-Fold Cross Validation sebuah metode proses validasi untuk memperkirakan kinerja dari model pembelajaran mesin atau machine learning
  • 21. Evaluasi Kinerja (Performance) Klasifikasi Confusion matrix, yang juga dikenal sebagai matriks kesalahan, merupakan tata letak tabel yang spesifik dan memungkinkan visualisasi dari kinerja algoritma True Condition Predited Condition Positive Negative Positive True Positive (TP) False Positive (FP) Negative False Negative (FN) True Negative (TN) 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃 + 𝑇𝑁 TP + TN + FP + FN × 100% 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 × 100% 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 × 100% 𝑆𝑝𝑒𝑠𝑖𝑓𝑖𝑡𝑎𝑠 = 𝑇𝑁 𝑇𝑁 + 𝐹𝑃 × 100%
  • 23. METODOLOGI PENELITIAN Waktu dan Tempat Penelitian ini dilakukan pada semester genap tahun ajaran 2023/2024 di Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Lampung. Data Penelitian Data yang digunakan dalam penelitian adalah data sekunder dari bulan januari- desember Tahun 2023 yaitu, data rekam medis diagnosa penyakit tuberkulosis yang diperoleh dari RSD. Mayjend HM Ryacudu Kotabumi. Metode Penelitian Penelitian ini menggunakan metode SMOTE+Tomek terhadap klasifikasi naive bayes dalam mengatasi data tidak seimbang dengan bantuan pemrograman RStudio
  • 24. 1. Melakukan visualisasi data tuberkulosis ke dalam bentuk diagram dan analisis deskriptif. 2. Melakukan preprocessing data, yaitu : a. Mengubah data numerik menjadi data kategorik menjadi beberapa interval. b. Melakukan pembagian data training dan data testing dengan rasio 60:40, 70:30, 80:20, dan 90:10. c. Melakukan metode gabungan oversampling dan undersampling (SMOTE+Tomek) untuk data tidak seimbang. Langkah-Langkah Penelitian
  • 25. Langkah-Langkah Penelitian 3. Membangun model naive bayes dengan k-fold validation pada masingmasing data training tidak seimbang dan seimbang. 4. Melakukan klasifikasi menggunakan data testing pada masing-masing data tidak seimbang dan seimbang. 5. Melakukan evaluasi model menggunakan confusion matrix yang didapatkan dari hasil klasifikasi pada masing-masing data testing tidak seimbang dan seimbang.
  • 26. Daftar Pustaka Batista, Bazzan, A. L. C., Monard, M.-C., Batista, G. E. A. P. A., & Monard, M. C. (2003). Balancing Training Data for Automated Annotation of Keywords: a Case Study. In: Proceedings of the Second Brazilian Workshop on Bioinformatics, 4(1), 35–43. https://www.researchgate.net/publication/221322870 Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A Study Of The Behavior Of Several Methods For Balancing Machine Learning Training Data. ACM SIGKDD Explorations Newsletter, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735 Bustami. (2014). Penerapan Algoritma Naive Bayes untuk Mengklasifikasi Data Nasabah Asuransi. Jurnal Informatika, 8(1), 884–898. Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 16(2), 321–357. https://doi.org/10.1613/jair.953 Dinata, R. K., & Hasdyna, N. (2020). Machine Learning. UNIMAL PRESS. Drummond, C., & Holte, R. C. (2003). Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling. Physical Review Letters, 91(3). Faisal, M. R., & Nugrahadi, D. T. (2019). Belajar Data Science Klasifikasi Dengan Bahasa Pemograman R. Scripta Cendekia. Gorunescu, F. (2011). Data Mining : Concept, Model and Techniques. Springer. Jadhav, S. D., & Channe, H. P. (2016). Comparative Study of K-NN, Naive Bayes and Decision Tree Classification Techniques. International Journal of Science and Research (IJSR), 5(1), 1842–1845. https://doi.org/10.21275/v5i1.nov153131 Kemenkes RI. (2011). Pedoman Nasional Pengendalian Tuberkulosis. In Chemotherapy (Vol. 52, Issue 1). https://doi.org/10.1159/000090244
  • 27. Kemenkes RI. (2017). Petunjuk Teknis Pemeriksaan TB Menggunakan Tes Cepat Molekuler. In Kemenkes RI. www.tbindonesia.or.id Krishna, & Rani. (2012). On the Classification of Imbalanced Datasets. International Journal of Computer Applications, 44(8), 1–7. https://doi.org/10.5120/6280-8449 Olson, D. L., & Delen, D. (2008). Advanced data mining techniques. In Advanced Data Mining Techniques (Issue January 2008). https://doi.org/10.1007/978-3-540-76917-0 Pereira, R. M., Costa, Y. M. G., & Silla, C. N. (2020). MLTL: A Multi-Label Approach For The Tomek Link Undersampling Algorithm. Neurocomputing, 383, 95–105. https://doi.org/10.1016/j.neucom.2019.11.076 Sangadji, N. W. (2020). Modul Epidemiologi Penyakit Menular (KSM242). Universitas Esa Unggul. Saputro, I. W., & Sari, B. W. (2019). Uji Performa Algoritma Naïve Bayes untuk Prediksi Masa Studi Mahasiswa. Creative Information Technology Journal, 6(1), 1. https://doi.org/10.24076/citec.2019v6i1.178 Sastrawan, A. S., Studi, P., Informatika, T., Studi, P., Komputasi, I., Sains, F., Teknologi, I., Telekomunikasi, J., & Batu, T. B. (2010). Analisis Pengaruh Metode Combine Sampling Dalam Churn Prediction Untuk Perusahaan Telekomunikasi. Seminar Nasional Informatika 2010 (SemnasIF 2010) UPN, 1(1), 14–22. Siringoringo, R. (2018). Klasifikasi Data Tidak Seimbang Menggunakan Algoritma SMOTE dan K-Nearest Neighbor. Jurnal ISD, 3(1), 44–49. Tyagi, S., & Mittal, S. (2020). Sampling Approaches For Imbalanced Data Classification Problem In Machine Learning. Lecture Notes in Electrical Engineering, 597(7), 209–221. https://doi.org/10.1007/978-3-030-29407-6_17 Utomo, D. P., & Mesran, M. (2020). Analisis Komparasi Metode Klasifikasi Data Mining dan Reduksi Atribut Pada Data Set Penyakit Jantung. Jurnal Media Informatika Budidarma, 4(2), 437. https://doi.org/10.30865/mib.v4i2.2080
  • 28. Watratan, A. F., Puspita, A., & Moeis, D. (2020). Implementasi Algoritma Naive Bayes Untuk Memprediksi Tingkat Penyebaran Covid. Jural Riset Rumpun Ilmu Teknik, 1(1), 7–14. https://doi.org/10.55606/jurritek.v1i1.127 Wu, X., Kumar, V., Ross, Q. J., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G. J., Ng, A., Liu, B., Yu, P. S., Zhou, Z. H., Steinbach, M., Hand, D. J., & Steinberg, D. (2008). The Top Ten Algoritms in Data Mining. In Knowledge and Information Systems (Vol. 14, Issue 1). https://doi.org/10.1007/s10115-007-0114-2 Yap, B. W., Rani, K. A., Abd Rahman, H. A., Fong, S., Khairudin, Z., & Abdullah, N. N. (2014). An Application of Oversampling, Undersampling, Bagging and Boosting in Handling Imbalanced Datasets. Proceedings Data and Information Engineering, 13–22. https://doi.org/10.1007/978-981-4585-18-7_2 Zheng, W., & Jin, M. (2020). The Effects of Class Imbalance and Training Data Size on Classifier Learning: An Empirical Study. Communications in Computer and Information Science, 20(1), 3–17. https://doi.org/10.1007/s42979-020-0074-0