SlideShare a Scribd company logo
1 of 7
Download to read offline
Mata Kuliah – Pemrosesan Bahasa Alami
Nama Kelompok :
Anggota :
202010370311067 – Naufal Raihan Ramadhany
202010370311078 – Irham Soetomo Handayanto
Tahap 1 : Original Data
Topik yang sedang dibahas dalam project ini menggunakan metode Classification.
Metode ini digunakan untuk memodelkan hubungan antara variable dependen yang berupa data
biner dengan variable independen atau variable bebas dari dataset. Dataset yang digunakan
diambil dari situs web Kaggle dengan judul “Indonesia False News(Hoax) Dataset”. Hoax
news adalah informasi palsu atau berita palsu yang tersebar melalui media sosial atau internet,
yang dapat menyebabkan kekeliruan, kesalahpahaman, kebingungan, dan ambiguitas. Hoax
news adalah informasi palsu atau berita palsu yang disebarluaskan melalui media sosial atau
internet dan dapat menyebabkan kebingungan, kesalahpahaman, kekeliruan, dan ambiguitas.
Hoax news bisa berupa gambar yang telah diedit, berita palsu, dan bentuk lainnya. Dalam mini-
proyek ini, hoax news akan diinterpretasikan menggunakan data teks dan kemudian diproses
menggunakan Pemrosesan Bahasa Alami (Natural Language Processing).
Dataset yang digunakan terdiri dari 600 baris dan 2 kolom yang merupakan data teks.
Terdapat 2 atribut dalam dataset tersebut, yaitu:
• Berita (Berita yang diambil dari sekumpulan link artikel di Internet)
• Label (Nilai penanda antara berita hoax yang diinterpretasikan dengan angka 1 atau
true fact yang diinterpretasikan dengan angka 0)
Link datasetsnya sebagai berikut:
https://www.kaggle.com/datasets/muhammadghazimuharam/indonesiafalsenews/discussion?
datasetId=1029717&sortBy=dateRun&tab=profile
Tahap 2 : Target Data
Berikut ini adalah contoh tabel yang telah diubah berdasarkan variabel dependen dan
variabel dependen.
Narasi(berita) Label
A caller to a radio talk show recently shared that
his wife was hospitalized n told she had COVID n
only a couple of days left to live . A doctor friend
1 (Hoax)
suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long . Turns out it WAS legionnaires disease
from the moisture n bacteria in her mask . She
was given antibiotics n within two days was…
Yth.Seluruh Anggota Grup Sesuai Instruksi
Gubernur Jawa Tengah Hasil Rapat Tim Gugus
Tugas Covid 19 Jateng sbb:
1 (Hoax)
Jokowi adalah presiden terbaik dlm sejarah
bangsa Indonesia. Jim Rohn, motivator terbaik
dunia
1 (Hoax)
Maaf Mas2 dan Mbak2, ini bukan politik, tapi
kenyataan Pak Jokowi berhasil memulangkan
11,000 Triliun uang negara dari Swiss. 11ribu
Triliun siap di bawa balik ke Indonesia.RUU
Treaty on Mutual Legal Assistance in Criminal
Matters between the Republic of Indonesia and
The Swiss Confederation (MLA RI-Swiss) resmi
disahkan DPR RI tanggal 3 juli 2020. Dengan
demikian proses konstitusi menarik dana di
Swiss sudah selesai. Perjuangan yang panjang
menghadapi ex koruptor yang bersenggama
dengan agama. Terimakasih para kadrun yang
terus nyinyirian kapan uang 11.000 triliun
kembali ke Indonesia. Tanpa anda nyinyir,
rasanya sulit RUU itu bisa disahkan oleh DPR.
Pemilik 84 rekening gendut siap siap gigit jari .
Mungkin tekanan ke Pak Jokowi makin kencang.
ini baca beritanya
1 (Hoax)
Kadrun kalo lihat foto ini panas dingin . . 1 (Hoax)
Tabel 1. Sampel dataset yang digunakan
Dataset yang digunakan adalah dataset dalam format .csv yang memiliki dua atribut
utama. Atribut pertama adalah "narasi" yang berisi teks dari berita yang telah tersebar di
internet dan telah diproses oleh pembuat dataset sebelumnya. Teks ini direkap dari beberapa
sumber dan dirangkum menjadi satu kesimpulan. Atribut kedua adalah "label" yang berisi
angka "1" menandakan hoax atau angka "0" menandakan true fact untuk menentukan
kebenaran berita tersebut. Atribut label ini sangat penting dalam pengolahan data, terutama
dalam pembagian data menjadi data pelatihan (data train) dan data pengujian (data test).
Tahap 3-4 : Data Pre-processing & Transformation
Dataset diproses menggunakan teknik pre-processing, yang meliputi pembersihan teks
dengan menghapus karakter khusus, tanda baca, dan simbol yang tidak relevan. Selain itu,
dilakukan juga pengubahan huruf besar menjadi huruf kecil (lowercasing) untuk menjaga
konsistensi, mengurangi variasi huruf, dan menghindari ketidakseragaman dalam teks.
Selanjutnya, digunakan teknik stemming dan lemmatization untuk mengubah kata-kata dengan
imbuhan menjadi bentuk dasarnya. Hal ini bertujuan agar teks lebih standar, jelas, dan memiliki
makna yang signifikan. Stemming dan lemmatization akan mengubah kata-kata menjadi
bentuk dasar yang sesuai.
Sebelum pre-processing Sesudah pre-processing
A caller to a radio talk show recently shared that
his wife was hospitalized n told she had COVID n
only a couple of days left to live . A doctor friend
suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long . Turns out it WAS legionnaires disease
from the moisture n bacteria in her mask . She
was given antibiotics n within two days was…
a caller to a radio talk show recently shared that
his wife was hospitalized n told she had covid n
only a couple of days left to live a doctor friend
suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long turns out it was legionnaires disease
from the moisture n bacteria in her mask she
was given antibiotics n within two days was…
Tabel 2. Contoh perbedaan kalimat sebelum dan sesudah pre-processing narasi dari dataset.
Setelah melakukan pre-processing pada dataset, langkah selanjutnya adalah
melakukan seleksi fitur. Seleksi fitur bertujuan untuk memilih variabel independen dan
dependen yang sesuai dengan kebutuhan. Fitur yang dipilih untuk variabel independen adalah
atribut narasi yang mana adalah isi konten dari berita, sementara fitur yang dipilih untuk
variabel dependen adalah atribut label yang mana angka 0 merupakan berita true fact,
sedangkan angka 1 merupakan berita hoax. Penentuan variabel independen dan dependen
hanya sebagai panduan untuk menentukan X dan y. X akan berisi atribut narasi, sedangkan y
akan berisi atribut label.
Setelah itu, dilakukan tahap transformasi data untuk visualisasi dataset secara jelas.
Transformasi data adalah proses mengubah format dataset yang berupa tabel menjadi grafik
atau mengubah data kategorikal menjadi data numerikal. Transformasi data yang dilakukan
bertujuan untuk mengetahui jumlah berita hoax dan berita valid dalam keseluruhan dataset.
Gambar 1. Grafik hasil olah dataset dengan transformasi data.
Ada total 4231 data dalam dataset. Dari jumlah tersebut, 3465 data tergolong sebagai data
Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 766 data tergolong
sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah.
Perbandingan antara jumlah data Valid dan data Hoax adalah 4.5. Jumlah perbandingan dari
total label pada data ini termasuk imbalanced, yang menunjukkan bahwa data ini tidak
seimbang secara perbandingan. Oleh karena itu, perlu dilakukan proses untuk balancing data.
Setelah melakukan balancing data dengan mengurangi data valid, maka hasil grafiknya:
Gambar 2. Grafik hasil olah dataset dengan transformasi data (balanced).
Terdapat 1640 data dalam dataset. Dari jumlah tersebut, 854 data tergolong sebagai data
Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 786 data tergolong
sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah.
Perbandingan antara jumlah data Valid dan data Hoax setelah dilakukan balancing data
adalah 1.1.
Tahap 5 : Data Mining
Berbagai algoritma yang digunakan dalam proyek ini adalah Naïve Bayes dan
Logistic Regression dengan menggunakan metode Bag of Words, N-grams, TFIDF,
Word2Vec, dan FastText. Naïve Bayes mengasumsikan bahwa setiap fitur pada data adalah
independen dan menghitung kemungkinan kelas yang paling mungkin dari setiap fitur.
Logistic Regression digunakan untuk memodelkan hubungan antara variabel input (narasi)
dan variabel output (label). Kedua algoritma ini dapat mengkategorisasi data secara langsung
saat dataset diolah. Dataset yang digunakan dalam proyek ini terdiri dari objek dengan
kategorisasi Valid dan Hoax. Dalam analisis data, ditemukan bahwa label Valid memiliki
82% dari total data, sementara label Hoax memiliki 18% dari total data. Meskipun data ini
tidak seimbang, teknik balancing data sebenarnya diperlukan karena perbedaan antara kedua
label cukup signifikan. Setelah analisis balancing data, dilakukan pemisahan data menjadi
data train dan data test. Data train digunakan untuk membangun model dan data test
digunakan untuk evaluasi. Semua data berita dan clean digunakan dalam komposisi 100%
untuk data train dan 100% untuk data test.
• Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan
pendekatan metode Bag of Words.
Setelah mengimplementasikan semua prosedur yang dijelaskan sebelumnya,
kami berhasil mencapai tingkat akurasi sebesar 93% dalam pengujian kinerja
menggunakan model Naïve Bayes dengan pendekatan Bag of Words.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.9535714285714
286
0.9379391100702
577
0.9456906729634
004
Hoax 0.93375 0.9503816793893
13
0.9419924337957
125
Total 0.943902439024
3902
Tabel 3. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Bag of Words
Berdasarkan Tabel 3 yang tercantum di atas, dapat dilihat bahwa akurasi total
setelah proses klasifikasi pada dataset mencapai 94%. Dalam memprediksi berita
hoax, model menghasilkan tingkat presisi sebesar 93%, tingkat recall sebesar 95%,
dan F1-score sebesar 94%. Sementara itu, dalam memprediksi berita valid, model
mencapai tingkat presisi sebesar 95%, tingkat recall sebesar 94%, dan F1-score
sebesar 95%.
Ini menunjukkan bahwa model yang dikembangkan mampu memberikan hasil
yang baik dalam mengklasifikasikan berita hoax dan valid. Tingkat akurasi yang
tinggi dan nilai presisi, recall, dan F1-score yang seimbang menunjukkan kemampuan
model dalam memprediksi dengan baik dan menghindari kesalahan dalam
mengklasifikasikan berita.
• Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan
pendekatan metode TF-IDF
Sebagai perbandingan antara representasi Bag of Words dan N-grams,
dilakukan uji performa menggunakan metode Naïve Bayes dengan penggunaan TF-
IDF. Dalam langkah-langkah pemrosesan dataset yang telah dilakukan sebelumnya,
ditemukan bahwa penggunaan metode TF-IDF menghasilkan skor akurasi sebesar
83%.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.7256027554535
017
0.7400468384074
942
0.7327536231884
059
Hoax 0.7113133940182
055
0.6959287531806
616
0.7035369774919
615
Total 0.740243902439
0244
Tabel 5. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode TF-IDF
Berdasarkan Tabel 5 yang disajikan, ditemukan bahwa setelah menerapkan
metode TF-IDF, akurasi keseluruhan mencapai 74%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 71%, recall sebesar 70%, dan skor F1 sebesar
70%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
73%, recall sebesar 74%, dan skor F1 sebesar 73%.
• Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan
pendekatan metode Word2Vec
Pengujian performa berikutnya melibatkan penggunaan algoritma yang
berbeda, yaitu Logistic Regression dengan penerapan metode Word2Vec. Pengujian
ini bertujuan untuk membandingkan performa antara algoritma-algoritma sebelumnya
yang telah dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan
dataset yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi
sebesar 82% dengan penggunaan metode Word2Vec.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.5479962721342
032
0.6885245901639
344
0.6102750389206
02
Hoax 0.5308641975308
642
0.3829516539440
2036
0.4449371766444
937
Total 0.542073170731
7074
Tabel 6. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Word2Vec
Berdasarkan Tabel 6 yang disajikan, ditemukan bahwa setelah menerapkan
metode Word2Vec, akurasi keseluruhan mencapai 54%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 53%, recall sebesar 38%, dan skor F1 sebesar
44%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
55%, recall sebesar 69%, dan skor F1 sebesar 61%.
• Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan
pendekatan metode FastText
Pengujian performa berikutnya melibatkan penggunaan algoritma yang sama,
yaitu Logistic Regression dengan penerapan metode FastText. Pengujian ini bertujuan
untuk membandingkan performa antara algoritma-algoritma sebelumnya yang telah
dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan dataset
yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi sebesar 82%
dengan penggunaan metode FastText.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.5535714285714
286
0.5081967213114
754
0.5299145299145
298
Hoax 0.5093457943925
234
0.5547073791348
6
0.5310596833130
328
Total 0.530487804878
0488
Tabel 7. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode FastText
Berdasarkan Tabel 7 yang disajikan, ditemukan bahwa setelah menerapkan
metode FastText, akurasi keseluruhan mencapai 53%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 51%, recall sebesar 55%, dan skor F1 sebesar
53%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
55%, recall sebesar 51%, dan skor F1 sebesar 53%.
Tahap 6 : Knowledge Interpretation
Tahap 7 : Reporting
• Simple academic Poster.

More Related Content

Similar to Laporan Progress 2_078 - 067.pdf

Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Muhammad Akbar
 
Transformasi data ordinal ke interval
Transformasi data ordinal ke intervalTransformasi data ordinal ke interval
Transformasi data ordinal ke interval
rsd kol abundjani
 
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
DewiRizki4
 
4.1. konsep informas
4.1. konsep informas4.1. konsep informas
4.1. konsep informas
Rio Nugroho
 
Bab1 statistik
Bab1 statistikBab1 statistik
Bab1 statistik
nadiahbsa
 

Similar to Laporan Progress 2_078 - 067.pdf (18)

Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
Ringkasan Penelitian Memilih Layanan Broadband Internet Jaringan Operator GSM
 
DATA MINING
DATA MININGDATA MINING
DATA MINING
 
Big data
Big dataBig data
Big data
 
15-aplikasi-spss.ppt
15-aplikasi-spss.ppt15-aplikasi-spss.ppt
15-aplikasi-spss.ppt
 
Aplikasi%20 komputer
Aplikasi%20 komputerAplikasi%20 komputer
Aplikasi%20 komputer
 
Enkripsi dan dekripsi_data_pasien_pada_s
Enkripsi dan dekripsi_data_pasien_pada_sEnkripsi dan dekripsi_data_pasien_pada_s
Enkripsi dan dekripsi_data_pasien_pada_s
 
Jurnal 17880
Jurnal 17880Jurnal 17880
Jurnal 17880
 
Laporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhanaLaporan Pratikum analisis regresi linier sederhana
Laporan Pratikum analisis regresi linier sederhana
 
Transformasi data ordinal ke interval
Transformasi data ordinal ke intervalTransformasi data ordinal ke interval
Transformasi data ordinal ke interval
 
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
Dewi rizki agustina 4520210075 kelas B_fakultas teknik_future work_interperso...
 
transfer ilmu
transfer ilmutransfer ilmu
transfer ilmu
 
Aminullah Assagaf_EVIEWS, STATA, Data Panel_6 Nop 2023.pdf
Aminullah Assagaf_EVIEWS, STATA, Data Panel_6 Nop 2023.pdfAminullah Assagaf_EVIEWS, STATA, Data Panel_6 Nop 2023.pdf
Aminullah Assagaf_EVIEWS, STATA, Data Panel_6 Nop 2023.pdf
 
4.1. konsep informas
4.1. konsep informas4.1. konsep informas
4.1. konsep informas
 
Bab1 statistik
Bab1 statistikBab1 statistik
Bab1 statistik
 
Validasi data
Validasi dataValidasi data
Validasi data
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdf
 
Aminullah Assagaf_EVIEWS, STATA, Data Panel_7 Nop 2023.pdf
Aminullah Assagaf_EVIEWS, STATA, Data Panel_7 Nop 2023.pdfAminullah Assagaf_EVIEWS, STATA, Data Panel_7 Nop 2023.pdf
Aminullah Assagaf_EVIEWS, STATA, Data Panel_7 Nop 2023.pdf
 
Menyajikan Indikator Mutu Rumah Sakit
Menyajikan Indikator Mutu Rumah SakitMenyajikan Indikator Mutu Rumah Sakit
Menyajikan Indikator Mutu Rumah Sakit
 

Laporan Progress 2_078 - 067.pdf

  • 1. Mata Kuliah – Pemrosesan Bahasa Alami Nama Kelompok : Anggota : 202010370311067 – Naufal Raihan Ramadhany 202010370311078 – Irham Soetomo Handayanto Tahap 1 : Original Data Topik yang sedang dibahas dalam project ini menggunakan metode Classification. Metode ini digunakan untuk memodelkan hubungan antara variable dependen yang berupa data biner dengan variable independen atau variable bebas dari dataset. Dataset yang digunakan diambil dari situs web Kaggle dengan judul “Indonesia False News(Hoax) Dataset”. Hoax news adalah informasi palsu atau berita palsu yang tersebar melalui media sosial atau internet, yang dapat menyebabkan kekeliruan, kesalahpahaman, kebingungan, dan ambiguitas. Hoax news adalah informasi palsu atau berita palsu yang disebarluaskan melalui media sosial atau internet dan dapat menyebabkan kebingungan, kesalahpahaman, kekeliruan, dan ambiguitas. Hoax news bisa berupa gambar yang telah diedit, berita palsu, dan bentuk lainnya. Dalam mini- proyek ini, hoax news akan diinterpretasikan menggunakan data teks dan kemudian diproses menggunakan Pemrosesan Bahasa Alami (Natural Language Processing). Dataset yang digunakan terdiri dari 600 baris dan 2 kolom yang merupakan data teks. Terdapat 2 atribut dalam dataset tersebut, yaitu: • Berita (Berita yang diambil dari sekumpulan link artikel di Internet) • Label (Nilai penanda antara berita hoax yang diinterpretasikan dengan angka 1 atau true fact yang diinterpretasikan dengan angka 0) Link datasetsnya sebagai berikut: https://www.kaggle.com/datasets/muhammadghazimuharam/indonesiafalsenews/discussion? datasetId=1029717&sortBy=dateRun&tab=profile Tahap 2 : Target Data Berikut ini adalah contoh tabel yang telah diubah berdasarkan variabel dependen dan variabel dependen. Narasi(berita) Label A caller to a radio talk show recently shared that his wife was hospitalized n told she had COVID n only a couple of days left to live . A doctor friend 1 (Hoax)
  • 2. suggested she be tested for legionnaires disease because she wore the same mask every day all day long . Turns out it WAS legionnaires disease from the moisture n bacteria in her mask . She was given antibiotics n within two days was… Yth.Seluruh Anggota Grup Sesuai Instruksi Gubernur Jawa Tengah Hasil Rapat Tim Gugus Tugas Covid 19 Jateng sbb: 1 (Hoax) Jokowi adalah presiden terbaik dlm sejarah bangsa Indonesia. Jim Rohn, motivator terbaik dunia 1 (Hoax) Maaf Mas2 dan Mbak2, ini bukan politik, tapi kenyataan Pak Jokowi berhasil memulangkan 11,000 Triliun uang negara dari Swiss. 11ribu Triliun siap di bawa balik ke Indonesia.RUU Treaty on Mutual Legal Assistance in Criminal Matters between the Republic of Indonesia and The Swiss Confederation (MLA RI-Swiss) resmi disahkan DPR RI tanggal 3 juli 2020. Dengan demikian proses konstitusi menarik dana di Swiss sudah selesai. Perjuangan yang panjang menghadapi ex koruptor yang bersenggama dengan agama. Terimakasih para kadrun yang terus nyinyirian kapan uang 11.000 triliun kembali ke Indonesia. Tanpa anda nyinyir, rasanya sulit RUU itu bisa disahkan oleh DPR. Pemilik 84 rekening gendut siap siap gigit jari . Mungkin tekanan ke Pak Jokowi makin kencang. ini baca beritanya 1 (Hoax) Kadrun kalo lihat foto ini panas dingin . . 1 (Hoax) Tabel 1. Sampel dataset yang digunakan Dataset yang digunakan adalah dataset dalam format .csv yang memiliki dua atribut utama. Atribut pertama adalah "narasi" yang berisi teks dari berita yang telah tersebar di internet dan telah diproses oleh pembuat dataset sebelumnya. Teks ini direkap dari beberapa sumber dan dirangkum menjadi satu kesimpulan. Atribut kedua adalah "label" yang berisi angka "1" menandakan hoax atau angka "0" menandakan true fact untuk menentukan kebenaran berita tersebut. Atribut label ini sangat penting dalam pengolahan data, terutama dalam pembagian data menjadi data pelatihan (data train) dan data pengujian (data test). Tahap 3-4 : Data Pre-processing & Transformation Dataset diproses menggunakan teknik pre-processing, yang meliputi pembersihan teks dengan menghapus karakter khusus, tanda baca, dan simbol yang tidak relevan. Selain itu, dilakukan juga pengubahan huruf besar menjadi huruf kecil (lowercasing) untuk menjaga konsistensi, mengurangi variasi huruf, dan menghindari ketidakseragaman dalam teks. Selanjutnya, digunakan teknik stemming dan lemmatization untuk mengubah kata-kata dengan imbuhan menjadi bentuk dasarnya. Hal ini bertujuan agar teks lebih standar, jelas, dan memiliki
  • 3. makna yang signifikan. Stemming dan lemmatization akan mengubah kata-kata menjadi bentuk dasar yang sesuai. Sebelum pre-processing Sesudah pre-processing A caller to a radio talk show recently shared that his wife was hospitalized n told she had COVID n only a couple of days left to live . A doctor friend suggested she be tested for legionnaires disease because she wore the same mask every day all day long . Turns out it WAS legionnaires disease from the moisture n bacteria in her mask . She was given antibiotics n within two days was… a caller to a radio talk show recently shared that his wife was hospitalized n told she had covid n only a couple of days left to live a doctor friend suggested she be tested for legionnaires disease because she wore the same mask every day all day long turns out it was legionnaires disease from the moisture n bacteria in her mask she was given antibiotics n within two days was… Tabel 2. Contoh perbedaan kalimat sebelum dan sesudah pre-processing narasi dari dataset. Setelah melakukan pre-processing pada dataset, langkah selanjutnya adalah melakukan seleksi fitur. Seleksi fitur bertujuan untuk memilih variabel independen dan dependen yang sesuai dengan kebutuhan. Fitur yang dipilih untuk variabel independen adalah atribut narasi yang mana adalah isi konten dari berita, sementara fitur yang dipilih untuk variabel dependen adalah atribut label yang mana angka 0 merupakan berita true fact, sedangkan angka 1 merupakan berita hoax. Penentuan variabel independen dan dependen hanya sebagai panduan untuk menentukan X dan y. X akan berisi atribut narasi, sedangkan y akan berisi atribut label. Setelah itu, dilakukan tahap transformasi data untuk visualisasi dataset secara jelas. Transformasi data adalah proses mengubah format dataset yang berupa tabel menjadi grafik atau mengubah data kategorikal menjadi data numerikal. Transformasi data yang dilakukan bertujuan untuk mengetahui jumlah berita hoax dan berita valid dalam keseluruhan dataset. Gambar 1. Grafik hasil olah dataset dengan transformasi data. Ada total 4231 data dalam dataset. Dari jumlah tersebut, 3465 data tergolong sebagai data Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 766 data tergolong sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah. Perbandingan antara jumlah data Valid dan data Hoax adalah 4.5. Jumlah perbandingan dari
  • 4. total label pada data ini termasuk imbalanced, yang menunjukkan bahwa data ini tidak seimbang secara perbandingan. Oleh karena itu, perlu dilakukan proses untuk balancing data. Setelah melakukan balancing data dengan mengurangi data valid, maka hasil grafiknya: Gambar 2. Grafik hasil olah dataset dengan transformasi data (balanced). Terdapat 1640 data dalam dataset. Dari jumlah tersebut, 854 data tergolong sebagai data Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 786 data tergolong sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah. Perbandingan antara jumlah data Valid dan data Hoax setelah dilakukan balancing data adalah 1.1. Tahap 5 : Data Mining Berbagai algoritma yang digunakan dalam proyek ini adalah Naïve Bayes dan Logistic Regression dengan menggunakan metode Bag of Words, N-grams, TFIDF, Word2Vec, dan FastText. Naïve Bayes mengasumsikan bahwa setiap fitur pada data adalah independen dan menghitung kemungkinan kelas yang paling mungkin dari setiap fitur. Logistic Regression digunakan untuk memodelkan hubungan antara variabel input (narasi) dan variabel output (label). Kedua algoritma ini dapat mengkategorisasi data secara langsung saat dataset diolah. Dataset yang digunakan dalam proyek ini terdiri dari objek dengan kategorisasi Valid dan Hoax. Dalam analisis data, ditemukan bahwa label Valid memiliki 82% dari total data, sementara label Hoax memiliki 18% dari total data. Meskipun data ini tidak seimbang, teknik balancing data sebenarnya diperlukan karena perbedaan antara kedua label cukup signifikan. Setelah analisis balancing data, dilakukan pemisahan data menjadi data train dan data test. Data train digunakan untuk membangun model dan data test digunakan untuk evaluasi. Semua data berita dan clean digunakan dalam komposisi 100% untuk data train dan 100% untuk data test. • Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan pendekatan metode Bag of Words.
  • 5. Setelah mengimplementasikan semua prosedur yang dijelaskan sebelumnya, kami berhasil mencapai tingkat akurasi sebesar 93% dalam pengujian kinerja menggunakan model Naïve Bayes dengan pendekatan Bag of Words. Label Total Accuracy Precision Score Recall Score F1 Score Valid 0.9535714285714 286 0.9379391100702 577 0.9456906729634 004 Hoax 0.93375 0.9503816793893 13 0.9419924337957 125 Total 0.943902439024 3902 Tabel 3. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Bag of Words Berdasarkan Tabel 3 yang tercantum di atas, dapat dilihat bahwa akurasi total setelah proses klasifikasi pada dataset mencapai 94%. Dalam memprediksi berita hoax, model menghasilkan tingkat presisi sebesar 93%, tingkat recall sebesar 95%, dan F1-score sebesar 94%. Sementara itu, dalam memprediksi berita valid, model mencapai tingkat presisi sebesar 95%, tingkat recall sebesar 94%, dan F1-score sebesar 95%. Ini menunjukkan bahwa model yang dikembangkan mampu memberikan hasil yang baik dalam mengklasifikasikan berita hoax dan valid. Tingkat akurasi yang tinggi dan nilai presisi, recall, dan F1-score yang seimbang menunjukkan kemampuan model dalam memprediksi dengan baik dan menghindari kesalahan dalam mengklasifikasikan berita. • Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan pendekatan metode TF-IDF Sebagai perbandingan antara representasi Bag of Words dan N-grams, dilakukan uji performa menggunakan metode Naïve Bayes dengan penggunaan TF- IDF. Dalam langkah-langkah pemrosesan dataset yang telah dilakukan sebelumnya, ditemukan bahwa penggunaan metode TF-IDF menghasilkan skor akurasi sebesar 83%. Label Total Accuracy Precision Score Recall Score F1 Score Valid 0.7256027554535 017 0.7400468384074 942 0.7327536231884 059 Hoax 0.7113133940182 055 0.6959287531806 616 0.7035369774919 615 Total 0.740243902439 0244 Tabel 5. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode TF-IDF Berdasarkan Tabel 5 yang disajikan, ditemukan bahwa setelah menerapkan metode TF-IDF, akurasi keseluruhan mencapai 74%. Pada saat memprediksi berita hoax, diperoleh nilai presisi sebesar 71%, recall sebesar 70%, dan skor F1 sebesar
  • 6. 70%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar 73%, recall sebesar 74%, dan skor F1 sebesar 73%. • Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan pendekatan metode Word2Vec Pengujian performa berikutnya melibatkan penggunaan algoritma yang berbeda, yaitu Logistic Regression dengan penerapan metode Word2Vec. Pengujian ini bertujuan untuk membandingkan performa antara algoritma-algoritma sebelumnya yang telah dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan dataset yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi sebesar 82% dengan penggunaan metode Word2Vec. Label Total Accuracy Precision Score Recall Score F1 Score Valid 0.5479962721342 032 0.6885245901639 344 0.6102750389206 02 Hoax 0.5308641975308 642 0.3829516539440 2036 0.4449371766444 937 Total 0.542073170731 7074 Tabel 6. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Word2Vec Berdasarkan Tabel 6 yang disajikan, ditemukan bahwa setelah menerapkan metode Word2Vec, akurasi keseluruhan mencapai 54%. Pada saat memprediksi berita hoax, diperoleh nilai presisi sebesar 53%, recall sebesar 38%, dan skor F1 sebesar 44%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar 55%, recall sebesar 69%, dan skor F1 sebesar 61%. • Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan pendekatan metode FastText Pengujian performa berikutnya melibatkan penggunaan algoritma yang sama, yaitu Logistic Regression dengan penerapan metode FastText. Pengujian ini bertujuan untuk membandingkan performa antara algoritma-algoritma sebelumnya yang telah dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan dataset yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi sebesar 82% dengan penggunaan metode FastText. Label Total Accuracy Precision Score Recall Score F1 Score Valid 0.5535714285714 286 0.5081967213114 754 0.5299145299145 298 Hoax 0.5093457943925 234 0.5547073791348 6 0.5310596833130 328 Total 0.530487804878 0488 Tabel 7. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode FastText
  • 7. Berdasarkan Tabel 7 yang disajikan, ditemukan bahwa setelah menerapkan metode FastText, akurasi keseluruhan mencapai 53%. Pada saat memprediksi berita hoax, diperoleh nilai presisi sebesar 51%, recall sebesar 55%, dan skor F1 sebesar 53%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar 55%, recall sebesar 51%, dan skor F1 sebesar 53%. Tahap 6 : Knowledge Interpretation Tahap 7 : Reporting • Simple academic Poster.