Simple Naïve Bayesian Classifier merupakan salah satu metode pengklasifikasi berpeluang sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen).
Materi Sosiologi Kelas X Bab 1. Ragam Gejala Sosial dalam Masyarakat (Kurikul...
Diskusi PPT Sistem Pakar Sesi Ke-4 Simple Naïve Bayesian Classifier .pdf
1. 1
PTT Sistem Pakar Sesi ke-4
Nama : Hendro Gunawan
NIM : 200401072103
Kelas : IT-801
Algoritma Naïve Bayes
Naïve Bayes
• Simple Naïve Bayesian Classifier merupakan salah satu metode pengklasifikasi berpeluang
sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas
saling bebas (independen).
• Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan
Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di
masa sebelumnya.
• Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research
memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter.
• Tetapi yang membuat algoritma Bayesian filtering ini populer adalah pendekatan yang dilakukan
oleh Paul Graham. Dasar dari teorema Naïve digunakan dalam pemrograman adalah rumus Bayes
berikut ini:
P (A|B) = (P|A) * P (A) / P (B)
Artinya peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B.
Naïve Bayes adalah salah satu algoritme machine learning yang digunakan
untuk klasifikasi berdasarkan probabilitas atau kemungkinan, sesuai dengan Teorema Bayes.
Mari kita bahas lebih lanjut:
1. Apa itu Naïve Bayes?
o Naïve Bayes, juga dikenal sebagai Naïve Bayes Classifier, adalah algoritme yang
digunakan dalam supervised learning.
o Algoritme ini memperkirakan probabilitas kelas berdasarkan fitur-fitur yang ada.
o Meskipun disebut “naif,” algoritme ini membuat asumsi kuat bahwa kemunculan fitur
tertentu tidak tergantung pada kemunculan fitur lainnya.
2. Contoh Implementasi Naïve Bayes:
o Klasifikasi dokumen: Misalnya, mengklasifikasikan dokumen berdasarkan frekuensi
kata-kata yang muncul di dalamnya.
o Prediksi cuaca: Menggunakan data historis untuk memprediksi kondisi cuaca.
o Deteksi spam: Memfilter email atau pesan berdasarkan kemungkinan spam.
o Sistem rekomendasi: Menyajikan rekomendasi berdasarkan preferensi pengguna.
o Analisis sentimen: Menilai sentimen dari teks atau ulasan.
2. 2
3. Tipe Naïve Bayes:
o Multinomial Naïve Bayes: Digunakan untuk mengklasifikasikan kategori dokumen
berdasarkan frekuensi kata-kata.
o Gaussian Naïve Bayes: Mendukung data kontinu (tidak terbatas) dengan asumsi
distribusi Gaussian.
o Bernoulli Naïve Bayes: Fokus pada hasil yang bernilai Boolean (benar atau salah),
seperti prediksi keberadaan kata dalam teks.
4. Rumus Naïve Bayes:
o Rumus umum Naïve Bayes: [ P(h|d) = frac{P(d|h) cdot P(h)}{P(d)} ]
▪ (P(h|d)): Probabilitas hipotesis (h) jika diberikan data (d).
▪ (P(d|h)): Probabilitas data (d) jika hipotesis (h) benar.
▪ (P(h)): Probabilitas hipotesis (h) sebelum melihat data.
▪ (P(d)): Probabilitas data (d).
Jadi, itulah penjelasan singkat tentang Naive Bayes dan cara kerjanya!
Penerapan Naïve Bayes
• Untuk klasifikasi Dokumen
• Untuk deteksi SPAM atau filtering spam
Contoh Kasus 1
• Misalnya ingin diketahui apakah suatu objek masuk dalam kategori dipilih untuk perumahan atau
tidak dengan algoritma Naïve Bayes Classifier. Untuk menetapkan suatu daerah akan dipilih
sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan.
• Ada 4 atribut yang digunakan yaitu:
• Harga tanah per meter persegi (C1).
• Jarak daerah tersebut dari pusat kota (C2).
• Ada atau tidaknya angkutan umum di daerah tersebut (C3), dan
• Keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).
Tabel 1. Apakah suatu objek masuk dalam kategori dipilih untuk perumahan atau tidak
3. 3
Tabel 2. Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1).
Tabel 3. Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2).
Tabel 4. Probabilitas kemunculan setiap nilai untuk atribut Ada Angkutan Umum (C3)’
Tabel 5. Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk Perumahan (C4).
Dipilih untuk
Perumahan
Jumlah Kejadian
“Dipilih"
Probabilitas
Ya Tidak Ya Tidak
Jumlah 5 5 5/10 5/10
Jumlah Keseluruhan 10 10 1/2 1/2
• Test Set: berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL,
jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung:
YA = P (Ya|Tanah = Mahal) . P (Ya|Jarak = SEDANG)
4. 4
YA = P (Ya|Angkutan = ADA). P(Ya)
= 1/5 x 2/5 x 1/5 x 5/10 = 0,008
YA = P (Tidak|Tanah = Mahal) . P (Tidak|Jarak = SEDANG)
YA = P (Tidak|Angkutan = ADA). P(Tidak)
= 3/5 x 1/5 x 3/5 x 5/10 = 0,036
• Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut
sehingga jumlah nilai yang diperoleh = 1
Contoh Kasus 2
Tabel 6. Untuk jenis data harga tanah dan jarak pusat kota yang kontinyu.
• Namun jika atribut ke-i bersifat kontinyu, maka P(xi|C) diestimasi dengan fungsi densitas Gauss.
• Distribusi normal adalah distribusi dari variabel acak kontinyu. Kadang-kadang distribusi normal
disebut juga dengan distribusi Gauss. Distribusi ini merupakan distribusi yang paling penting dan
paling banyak digunakan di bidang statistika
e = 2,7183
Tabel 7. Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1).
5. 5
Tabel 8. Probabilitas kemunculan setiap nilai untuk atribut Jarak dari Pusat Kota (C2).
Tabel 9. Probabilitas kemunculan setiap nilai untuk atribut Angkutan Umum (C3).
Tabel 10. Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk Perumahan (C4).
=NORMDIST(300, 212, 168.8787, 0)
• Apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:
6. 6
Likehood Ya = (0,0021) x (0,0009) x
4
5
x
5
10
= 0,000000756
Likehood Tidak = (0,0013) x (0,0633) x
2
5
x
5
10
= 0,000016458
• Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likehood tersebut
sehingga jumlah nilai yang diperoleh = 1
Referensi
[1] Cian Ramadhona Hassolthine, S. M. (2024, April 22). PPT Algoritma Naive Bayes. Diambil
kembali dari Edlink UNSIA: https://edlink.id/panel/classes/733660. Diakses pada tanggal 22
April 2024.
Link File