SlideShare a Scribd company logo
1 of 10
SISTEM PENGELOMPOKAN ENTITAS PADA
PESAN TWITTER MENGGUNAKAN EKSPRESI
REGULAR DAN NAÏVE BAYES
Oleh:
Ahmad Thoriq Abdul Aziz (G64090008)
Pembimbing:
Ahmad Ridha, SKom, MS
Departemen Ilmu Komputer
Institut Pertanian Bogor
2013
Latar Belakang
Penggunaan media sosial sebagai sarana komunikasi
yang kian meningkat.
Contoh: twitter, facebook, linked in, youtube.
Keingintahuan untuk menangkap dan
mengelompokan informasi yang beredar di media
social terutama twitter.
2
Tujuan
Ekstraksi Entitas (Mengetahui
entitas apa yang sedang
dibicarakan di media sosial).
Ex: Indosat, Telkomsel, dsb.
Analisis Sentimen (Mengetahui
persepsi dari suatu entitas di
media sosial).
3
Metode Penelitian
4
Penggantian dengan
Kata Baku.
Penghilangan
Karakter Berulang.
Step 3
Normalisasi Teks
Mengetahui entitas
yang sedang
dibicarakan di Twitter.
Menggunakan
Ekspresi Regular.
Step 2
Ekstraksi Entitas
Data berasal dari
media sosial di
internet (twitter).
Data yang sudah
terklasifikasi.
Step 1
Pengumpulan Data
Next
Metode Penelitian (lanjutan)
5
Evaluasi hasil
klasifikasi Naïve
Bayes.
Step 6
Evaluasi
Metode
klasifikasi
dokumen
berbentuk teks.
Step 5
Klasifikasi Naïve
Bayes
Evaluasi hasil
normalisasi teks.
Pengambilan
sampel.
Step 4
Evaluasi
Previous
Hasil dan Pembahasan
• Data tweet sudah terklasifikasi terdiri 56 atribut.
• Pengambilan atribut tertentu : id, tone, keyword, post_message,
author_screen_name, customer_alias, customer_name
• Pembuatan Kamus Produk (Keyword) : 131 data
• Konkatenasi antara pengguna twitter (author_screen_name) dan
tweet (post_message)
Contoh kasus
Post_message : RT @sabrinabadawi: Now singing what makes you beautiful
with Umar while Izzah tgah cerita dekat pakcik makcik fasal kahwin dia .
Author_screen_name : firdaus_yaris
6
Hasil dan Pembahasan
• Kasus 1 : agree, career, ttwa, ttng, ttd, mmg.
• Kasus 2 : prncanaan, diizinin.
• Pengambilan 1000 sampel secara acak
• Evaluasi secara manual
• Hasil akurasi : 89.9% (899 dari 1000 sampel)
Penggantian dengan Kata
Baku
Penghilangan
Karakter Berulang
Penggantian dengan Kata
Baku
7
Hasil dan Pembahasan
• Pembagian data latih dan data uji -> 3:1
• Total data latih 41 574, data uji 12 045
Model Multinomial
• Perhitungan peluang menggunakan frekuensi kemunculan kata
• Total data latih kelas positif 3795, kelas negatif 1651, kelas netral 69
004
• Total Vocab 81 111
Model Bernoulli
• Menggunakan jumlah dokumen
8
Hasil dan Pembahasan
9
Positif Negatif Netral
Positif 340 2 97
Negatif 27 17 88
Netral 113 7 11354
Positif Negatif Netral
Positif 333 106 0
Negatif 2 130 0
Netral 146 8055 3273
Dugaan
Hasil
Tabel Confusion Matrix Model Multinomial
• Total hasil klasifikasi yang salah
sebesar 334 dari 12 045
• Tingkat akurasi 97.23 %
Dugaan
Hasil
• Total hasil klasifikasi yang salah
sebesar 8309 dari 12 045
• Tingkat akurasi 31.02 %
Tabel Confusion Matrix Model Bernoulli
Simpulan & Saran
Simpulan
• Ekspresi Regular sangat cocok untuk proses ekstraksi entitas karena dapat
menangkap beragam bahasa dengan menggunakan pola.
• Proses normalisasi teks menggunakan fungsi penggantian kata baku menghasilkan
akurasi yang cukup baik, yaitu sebesar 89.9 % (899 dari 1000 sampel data). Selain
itu, proses normalisasi teks dengan penggantian kata baku ini juga membutuhkan
waktu yang lebih cepat dibandingkan dengan menggunakan fungsi jarak
levenshtein.
• Sistem pengklasifikasian tweet menggunakan Naïve Bayes model multinomial
memberikan hasil yang sangat baik pada dokumen yang pendek seperti tweet. Hal
ini terlihat dari akurasi yang didapatkan, yakni sebesar 97.23 %.
Saran
• Pada tahap normalisasi teks masih terdapat kesalahan pada beberapa kata,
sehingga patut dicoba menggunakan metode normalisasi teks yang lain.
• Proses klasifikasi tweet menggunakan Naïve Bayes tentu akan menghasilkan
tingkat akurasi yang lebih besar jika data yang digunakan semakin besar. Sebab,
kesalahan pengklasifikasian ini bisa saja terjadi akibat sedikitnya jumlah data
latih sehingga belum cukup untuk menentukan penciri dari suatu kelas.
10

More Related Content

What's hot

Metode statistika
Metode statistikaMetode statistika
Metode statistika
mus_lim
 
Teknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatifTeknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatif
Nastiti Rahajeng
 
Momen kemiringan dan_keruncingan(7)
Momen kemiringan dan_keruncingan(7)Momen kemiringan dan_keruncingan(7)
Momen kemiringan dan_keruncingan(7)
rizka_safa
 
Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda
RindyArini
 
Statistika Industri
Statistika IndustriStatistika Industri
Statistika Industri
liffi
 
Data Modelling
Data ModellingData Modelling
Data Modelling
Armina Nur
 
metode pengambilan data penelitian kuantitatif
metode pengambilan data penelitian kuantitatifmetode pengambilan data penelitian kuantitatif
metode pengambilan data penelitian kuantitatif
Nora Indrasari
 

What's hot (20)

Algoritma Apriori
Algoritma AprioriAlgoritma Apriori
Algoritma Apriori
 
Konsep dasar metode kualitatif
Konsep dasar metode kualitatifKonsep dasar metode kualitatif
Konsep dasar metode kualitatif
 
Data Mining - Naive Bayes
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayes
 
Machine learning dan data mining
Machine learning dan data miningMachine learning dan data mining
Machine learning dan data mining
 
Metode statistika
Metode statistikaMetode statistika
Metode statistika
 
Metodologi Penelitian
Metodologi PenelitianMetodologi Penelitian
Metodologi Penelitian
 
Cover essai
Cover essaiCover essai
Cover essai
 
Teknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatifTeknik analisis data kuantitatif dan kualitatif
Teknik analisis data kuantitatif dan kualitatif
 
Momen kemiringan dan_keruncingan(7)
Momen kemiringan dan_keruncingan(7)Momen kemiringan dan_keruncingan(7)
Momen kemiringan dan_keruncingan(7)
 
Populasi dan sampel
Populasi dan sampelPopulasi dan sampel
Populasi dan sampel
 
Struktur Data Tree
Struktur Data TreeStruktur Data Tree
Struktur Data Tree
 
Slide Sidang Skripsi Sistem Informasi
Slide Sidang Skripsi Sistem InformasiSlide Sidang Skripsi Sistem Informasi
Slide Sidang Skripsi Sistem Informasi
 
Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda Statistika non-parametrik dengan metode Uji Tanda
Statistika non-parametrik dengan metode Uji Tanda
 
Statistika Industri
Statistika IndustriStatistika Industri
Statistika Industri
 
Uji mann-whitney
Uji mann-whitneyUji mann-whitney
Uji mann-whitney
 
Data Modelling
Data ModellingData Modelling
Data Modelling
 
PPT Sidang Skripsi.pptx
PPT Sidang Skripsi.pptxPPT Sidang Skripsi.pptx
PPT Sidang Skripsi.pptx
 
Distribusi Sampling
Distribusi SamplingDistribusi Sampling
Distribusi Sampling
 
Proposal pembuatan aplikasi
Proposal pembuatan aplikasiProposal pembuatan aplikasi
Proposal pembuatan aplikasi
 
metode pengambilan data penelitian kuantitatif
metode pengambilan data penelitian kuantitatifmetode pengambilan data penelitian kuantitatif
metode pengambilan data penelitian kuantitatif
 

Viewers also liked (6)

seminar proposal
seminar proposalseminar proposal
seminar proposal
 
Presentation seminar proposal TA
Presentation seminar proposal TAPresentation seminar proposal TA
Presentation seminar proposal TA
 
Seminar proposal tugas akhir
Seminar proposal tugas akhirSeminar proposal tugas akhir
Seminar proposal tugas akhir
 
Ppt seminar proposal budi
Ppt seminar proposal budiPpt seminar proposal budi
Ppt seminar proposal budi
 
Contoh Ppt Seminar Proposal
Contoh Ppt Seminar ProposalContoh Ppt Seminar Proposal
Contoh Ppt Seminar Proposal
 
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSIContoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
Contoh Powerpoint ppt PRESENTASI SIDANG UJIAN SKRIPSI
 

Similar to Presentasi Seminar Tugas Akhir

01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx
melrideswina
 
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-binerA152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
Epul Logariasmoú
 

Similar to Presentasi Seminar Tugas Akhir (20)

Tugas sistem pakar
Tugas sistem pakarTugas sistem pakar
Tugas sistem pakar
 
Tugas 1 data mining publish
Tugas 1 data mining publishTugas 1 data mining publish
Tugas 1 data mining publish
 
diskusi_8.docx (2).pdf
diskusi_8.docx (2).pdfdiskusi_8.docx (2).pdf
diskusi_8.docx (2).pdf
 
01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx
 
Resampling Methods Kelompok 4.pptx
Resampling Methods Kelompok 4.pptxResampling Methods Kelompok 4.pptx
Resampling Methods Kelompok 4.pptx
 
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
 
Aminullah assagaf p1 7-metode penelitian_18 des 2021
Aminullah assagaf p1 7-metode penelitian_18 des 2021Aminullah assagaf p1 7-metode penelitian_18 des 2021
Aminullah assagaf p1 7-metode penelitian_18 des 2021
 
Aminullah assagaf p1 7-metode penelitian_18 des 2021
Aminullah assagaf p1 7-metode penelitian_18 des 2021Aminullah assagaf p1 7-metode penelitian_18 des 2021
Aminullah assagaf p1 7-metode penelitian_18 des 2021
 
Pertemuan 8 AI.pptx
Pertemuan 8 AI.pptxPertemuan 8 AI.pptx
Pertemuan 8 AI.pptx
 
04. MTE - Pemodelan Sistem.pptx
04. MTE - Pemodelan Sistem.pptx04. MTE - Pemodelan Sistem.pptx
04. MTE - Pemodelan Sistem.pptx
 
Bab vi
Bab viBab vi
Bab vi
 
Materi Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDCMateri Data Science Teknik Informatika Politeknik TEDC
Materi Data Science Teknik Informatika Politeknik TEDC
 
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-binerA152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
A152 prediksi-nasabah-potensial-menggunakan-metode-klasifikasi-pohon-biner
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
327232515
327232515327232515
327232515
 
PPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptxPPT KEL 3 DAI - 007.pptx
PPT KEL 3 DAI - 007.pptx
 
04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt04-cara-pemakaian-weka.ppt
04-cara-pemakaian-weka.ppt
 
Tutorial WEKA.ppt
Tutorial WEKA.pptTutorial WEKA.ppt
Tutorial WEKA.ppt
 
BERPIKIR KOMPUTESIONAL 3.ppt
BERPIKIR KOMPUTESIONAL 3.pptBERPIKIR KOMPUTESIONAL 3.ppt
BERPIKIR KOMPUTESIONAL 3.ppt
 
Pertemuan1.pptx
Pertemuan1.pptxPertemuan1.pptx
Pertemuan1.pptx
 

Recently uploaded

HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.pptHAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
nabilafarahdiba95
 
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.pptSEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
AlfandoWibowo2
 

Recently uploaded (20)

SOAL PUBLIC SPEAKING UNTUK PEMULA PG & ESSAY
SOAL PUBLIC SPEAKING UNTUK PEMULA PG & ESSAYSOAL PUBLIC SPEAKING UNTUK PEMULA PG & ESSAY
SOAL PUBLIC SPEAKING UNTUK PEMULA PG & ESSAY
 
HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.pptHAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
HAK DAN KEWAJIBAN WARGA NEGARA ppkn i.ppt
 
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptxDEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
DEMONSTRASI KONTEKSTUAL MODUL 1.3 CGP 10.pptx
 
Modul Projek - Batik Ecoprint - Fase B.pdf
Modul Projek  - Batik Ecoprint - Fase B.pdfModul Projek  - Batik Ecoprint - Fase B.pdf
Modul Projek - Batik Ecoprint - Fase B.pdf
 
Modul Ajar Bahasa Inggris - HOME SWEET HOME (Chapter 3) - Fase D.pdf
Modul Ajar Bahasa Inggris - HOME SWEET HOME (Chapter 3) - Fase D.pdfModul Ajar Bahasa Inggris - HOME SWEET HOME (Chapter 3) - Fase D.pdf
Modul Ajar Bahasa Inggris - HOME SWEET HOME (Chapter 3) - Fase D.pdf
 
PEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptxPEMANASAN GLOBAL - MATERI KELAS X MA.pptx
PEMANASAN GLOBAL - MATERI KELAS X MA.pptx
 
KELAS 10 PERUBAHAN LINGKUNGAN SMA KURIKULUM MERDEKA
KELAS 10 PERUBAHAN LINGKUNGAN SMA KURIKULUM MERDEKAKELAS 10 PERUBAHAN LINGKUNGAN SMA KURIKULUM MERDEKA
KELAS 10 PERUBAHAN LINGKUNGAN SMA KURIKULUM MERDEKA
 
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.pptSEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
SEJARAH PERKEMBANGAN KEPERAWATAN JIWA dan Trend Issue.ppt
 
Kanvas BAGJA prakarsa perubahan Ahyar.pdf
Kanvas BAGJA prakarsa perubahan Ahyar.pdfKanvas BAGJA prakarsa perubahan Ahyar.pdf
Kanvas BAGJA prakarsa perubahan Ahyar.pdf
 
Tim Yang Lolos Pendanaan Hibah Kepedulian pada Masyarakat UI 2024
Tim Yang Lolos Pendanaan Hibah Kepedulian pada Masyarakat  UI 2024Tim Yang Lolos Pendanaan Hibah Kepedulian pada Masyarakat  UI 2024
Tim Yang Lolos Pendanaan Hibah Kepedulian pada Masyarakat UI 2024
 
TEKNIK MENJAWAB RUMUSAN SPM 2022 - UNTUK MURID.pptx
TEKNIK MENJAWAB RUMUSAN SPM 2022 - UNTUK MURID.pptxTEKNIK MENJAWAB RUMUSAN SPM 2022 - UNTUK MURID.pptx
TEKNIK MENJAWAB RUMUSAN SPM 2022 - UNTUK MURID.pptx
 
power point bahasa indonesia "Karya Ilmiah"
power point bahasa indonesia "Karya Ilmiah"power point bahasa indonesia "Karya Ilmiah"
power point bahasa indonesia "Karya Ilmiah"
 
Intellectual Discourse Business in Islamic Perspective - Mej Dr Mohd Adib Abd...
Intellectual Discourse Business in Islamic Perspective - Mej Dr Mohd Adib Abd...Intellectual Discourse Business in Islamic Perspective - Mej Dr Mohd Adib Abd...
Intellectual Discourse Business in Islamic Perspective - Mej Dr Mohd Adib Abd...
 
Bab 4 Persatuan dan Kesatuan di Lingkup Wilayah Kabupaten dan Kota.pptx
Bab 4 Persatuan dan Kesatuan di Lingkup Wilayah Kabupaten dan Kota.pptxBab 4 Persatuan dan Kesatuan di Lingkup Wilayah Kabupaten dan Kota.pptx
Bab 4 Persatuan dan Kesatuan di Lingkup Wilayah Kabupaten dan Kota.pptx
 
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdfSalinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
Salinan dari JUrnal Refleksi Mingguan modul 1.3.pdf
 
OPTIMALISASI KOMUNITAS BELAJAR DI SEKOLAH.pptx
OPTIMALISASI KOMUNITAS BELAJAR DI SEKOLAH.pptxOPTIMALISASI KOMUNITAS BELAJAR DI SEKOLAH.pptx
OPTIMALISASI KOMUNITAS BELAJAR DI SEKOLAH.pptx
 
Pelaksana Lapangan Pekerjaan Jalan .pptx
Pelaksana Lapangan Pekerjaan Jalan .pptxPelaksana Lapangan Pekerjaan Jalan .pptx
Pelaksana Lapangan Pekerjaan Jalan .pptx
 
Prov.Jabar_1504_Pengumuman Seleksi Tahap 2_CGP A11 (2).pdf
Prov.Jabar_1504_Pengumuman Seleksi Tahap 2_CGP A11 (2).pdfProv.Jabar_1504_Pengumuman Seleksi Tahap 2_CGP A11 (2).pdf
Prov.Jabar_1504_Pengumuman Seleksi Tahap 2_CGP A11 (2).pdf
 
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptxSesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
Sesi 1_PPT Ruang Kolaborasi Modul 1.3 _ ke 1_PGP Angkatan 10.pptx
 
vIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsxvIDEO kelayakan berita untuk mahasiswa.ppsx
vIDEO kelayakan berita untuk mahasiswa.ppsx
 

Presentasi Seminar Tugas Akhir

  • 1. SISTEM PENGELOMPOKAN ENTITAS PADA PESAN TWITTER MENGGUNAKAN EKSPRESI REGULAR DAN NAÏVE BAYES Oleh: Ahmad Thoriq Abdul Aziz (G64090008) Pembimbing: Ahmad Ridha, SKom, MS Departemen Ilmu Komputer Institut Pertanian Bogor 2013
  • 2. Latar Belakang Penggunaan media sosial sebagai sarana komunikasi yang kian meningkat. Contoh: twitter, facebook, linked in, youtube. Keingintahuan untuk menangkap dan mengelompokan informasi yang beredar di media social terutama twitter. 2
  • 3. Tujuan Ekstraksi Entitas (Mengetahui entitas apa yang sedang dibicarakan di media sosial). Ex: Indosat, Telkomsel, dsb. Analisis Sentimen (Mengetahui persepsi dari suatu entitas di media sosial). 3
  • 4. Metode Penelitian 4 Penggantian dengan Kata Baku. Penghilangan Karakter Berulang. Step 3 Normalisasi Teks Mengetahui entitas yang sedang dibicarakan di Twitter. Menggunakan Ekspresi Regular. Step 2 Ekstraksi Entitas Data berasal dari media sosial di internet (twitter). Data yang sudah terklasifikasi. Step 1 Pengumpulan Data Next
  • 5. Metode Penelitian (lanjutan) 5 Evaluasi hasil klasifikasi Naïve Bayes. Step 6 Evaluasi Metode klasifikasi dokumen berbentuk teks. Step 5 Klasifikasi Naïve Bayes Evaluasi hasil normalisasi teks. Pengambilan sampel. Step 4 Evaluasi Previous
  • 6. Hasil dan Pembahasan • Data tweet sudah terklasifikasi terdiri 56 atribut. • Pengambilan atribut tertentu : id, tone, keyword, post_message, author_screen_name, customer_alias, customer_name • Pembuatan Kamus Produk (Keyword) : 131 data • Konkatenasi antara pengguna twitter (author_screen_name) dan tweet (post_message) Contoh kasus Post_message : RT @sabrinabadawi: Now singing what makes you beautiful with Umar while Izzah tgah cerita dekat pakcik makcik fasal kahwin dia . Author_screen_name : firdaus_yaris 6
  • 7. Hasil dan Pembahasan • Kasus 1 : agree, career, ttwa, ttng, ttd, mmg. • Kasus 2 : prncanaan, diizinin. • Pengambilan 1000 sampel secara acak • Evaluasi secara manual • Hasil akurasi : 89.9% (899 dari 1000 sampel) Penggantian dengan Kata Baku Penghilangan Karakter Berulang Penggantian dengan Kata Baku 7
  • 8. Hasil dan Pembahasan • Pembagian data latih dan data uji -> 3:1 • Total data latih 41 574, data uji 12 045 Model Multinomial • Perhitungan peluang menggunakan frekuensi kemunculan kata • Total data latih kelas positif 3795, kelas negatif 1651, kelas netral 69 004 • Total Vocab 81 111 Model Bernoulli • Menggunakan jumlah dokumen 8
  • 9. Hasil dan Pembahasan 9 Positif Negatif Netral Positif 340 2 97 Negatif 27 17 88 Netral 113 7 11354 Positif Negatif Netral Positif 333 106 0 Negatif 2 130 0 Netral 146 8055 3273 Dugaan Hasil Tabel Confusion Matrix Model Multinomial • Total hasil klasifikasi yang salah sebesar 334 dari 12 045 • Tingkat akurasi 97.23 % Dugaan Hasil • Total hasil klasifikasi yang salah sebesar 8309 dari 12 045 • Tingkat akurasi 31.02 % Tabel Confusion Matrix Model Bernoulli
  • 10. Simpulan & Saran Simpulan • Ekspresi Regular sangat cocok untuk proses ekstraksi entitas karena dapat menangkap beragam bahasa dengan menggunakan pola. • Proses normalisasi teks menggunakan fungsi penggantian kata baku menghasilkan akurasi yang cukup baik, yaitu sebesar 89.9 % (899 dari 1000 sampel data). Selain itu, proses normalisasi teks dengan penggantian kata baku ini juga membutuhkan waktu yang lebih cepat dibandingkan dengan menggunakan fungsi jarak levenshtein. • Sistem pengklasifikasian tweet menggunakan Naïve Bayes model multinomial memberikan hasil yang sangat baik pada dokumen yang pendek seperti tweet. Hal ini terlihat dari akurasi yang didapatkan, yakni sebesar 97.23 %. Saran • Pada tahap normalisasi teks masih terdapat kesalahan pada beberapa kata, sehingga patut dicoba menggunakan metode normalisasi teks yang lain. • Proses klasifikasi tweet menggunakan Naïve Bayes tentu akan menghasilkan tingkat akurasi yang lebih besar jika data yang digunakan semakin besar. Sebab, kesalahan pengklasifikasian ini bisa saja terjadi akibat sedikitnya jumlah data latih sehingga belum cukup untuk menentukan penciri dari suatu kelas. 10

Editor's Notes

  1. Situsjejaring social adalahpelayananberbasis web yang memungkinkanindidviduuntukmembangunprofil public atau semi public didalamsuatu system yang terbatas, menghubungkan para pengguna yang terdaftardalamhubungansalingberbagi, sertamelihatdanmelintasihubungan-hubungan yang dibuatoleh system. (Boyd dan Ellison 2007)BerdasarkanpenelitianSemiocast, lembagariset media social yang berpusat di Paris, Prancis, jumlahpemilikakun twitter yang berasaldari Indonesia sebelumtgl 1 januari 2012 menempatiurutankelima di duniadenganjumlah 19,5 juta.