Proyek ini mengklasifikasi berita hoax dan valid di Indonesia menggunakan metode klasifikasi dan algoritma pembelajaran mesin seperti Naive Bayes dan Logistic Regression. Dataset berisi 600 berita dalam bahasa Indonesia dengan label hoax atau valid. Prosesnya meliputi pra-pemrosesan teks, seleksi fitur, pemodelan, dan evaluasi kinerja model. Hasil terbaik dicapai oleh Naive Bayes dengan akurasi 93% menggunakan representasi Bag of Words.
1. Mata Kuliah – Pemrosesan Bahasa Alami
Nama Kelompok :
Anggota :
202010370311067 – Naufal Raihan Ramadhany
202010370311078 – Irham Soetomo Handayanto
Tahap 1 : Original Data
Topik yang sedang dibahas dalam project ini menggunakan metode Classification.
Metode ini digunakan untuk memodelkan hubungan antara variable dependen yang berupa data
biner dengan variable independen atau variable bebas dari dataset. Dataset yang digunakan
diambil dari situs web Kaggle dengan judul “Indonesia False News(Hoax) Dataset”. Hoax
news adalah informasi palsu atau berita palsu yang tersebar melalui media sosial atau internet,
yang dapat menyebabkan kekeliruan, kesalahpahaman, kebingungan, dan ambiguitas. Hoax
news adalah informasi palsu atau berita palsu yang disebarluaskan melalui media sosial atau
internet dan dapat menyebabkan kebingungan, kesalahpahaman, kekeliruan, dan ambiguitas.
Hoax news bisa berupa gambar yang telah diedit, berita palsu, dan bentuk lainnya. Dalam mini-
proyek ini, hoax news akan diinterpretasikan menggunakan data teks dan kemudian diproses
menggunakan Pemrosesan Bahasa Alami (Natural Language Processing).
Dataset yang digunakan terdiri dari 600 baris dan 2 kolom yang merupakan data teks.
Terdapat 2 atribut dalam dataset tersebut, yaitu:
• Berita (Berita yang diambil dari sekumpulan link artikel di Internet)
• Label (Nilai penanda antara berita hoax yang diinterpretasikan dengan angka 1 atau
true fact yang diinterpretasikan dengan angka 0)
Link datasetsnya sebagai berikut:
https://www.kaggle.com/datasets/muhammadghazimuharam/indonesiafalsenews/discussion?
datasetId=1029717&sortBy=dateRun&tab=profile
Tahap 2 : Target Data
Berikut ini adalah contoh tabel yang telah diubah berdasarkan variabel dependen dan
variabel dependen.
Narasi(berita) Label
A caller to a radio talk show recently shared that
his wife was hospitalized n told she had COVID n
only a couple of days left to live . A doctor friend
1 (Hoax)
2. suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long . Turns out it WAS legionnaires disease
from the moisture n bacteria in her mask . She
was given antibiotics n within two days was…
Yth.Seluruh Anggota Grup Sesuai Instruksi
Gubernur Jawa Tengah Hasil Rapat Tim Gugus
Tugas Covid 19 Jateng sbb:
1 (Hoax)
Jokowi adalah presiden terbaik dlm sejarah
bangsa Indonesia. Jim Rohn, motivator terbaik
dunia
1 (Hoax)
Maaf Mas2 dan Mbak2, ini bukan politik, tapi
kenyataan Pak Jokowi berhasil memulangkan
11,000 Triliun uang negara dari Swiss. 11ribu
Triliun siap di bawa balik ke Indonesia.RUU
Treaty on Mutual Legal Assistance in Criminal
Matters between the Republic of Indonesia and
The Swiss Confederation (MLA RI-Swiss) resmi
disahkan DPR RI tanggal 3 juli 2020. Dengan
demikian proses konstitusi menarik dana di
Swiss sudah selesai. Perjuangan yang panjang
menghadapi ex koruptor yang bersenggama
dengan agama. Terimakasih para kadrun yang
terus nyinyirian kapan uang 11.000 triliun
kembali ke Indonesia. Tanpa anda nyinyir,
rasanya sulit RUU itu bisa disahkan oleh DPR.
Pemilik 84 rekening gendut siap siap gigit jari .
Mungkin tekanan ke Pak Jokowi makin kencang.
ini baca beritanya
1 (Hoax)
Kadrun kalo lihat foto ini panas dingin . . 1 (Hoax)
Tabel 1. Sampel dataset yang digunakan
Dataset yang digunakan adalah dataset dalam format .csv yang memiliki dua atribut
utama. Atribut pertama adalah "narasi" yang berisi teks dari berita yang telah tersebar di
internet dan telah diproses oleh pembuat dataset sebelumnya. Teks ini direkap dari beberapa
sumber dan dirangkum menjadi satu kesimpulan. Atribut kedua adalah "label" yang berisi
angka "1" menandakan hoax atau angka "0" menandakan true fact untuk menentukan
kebenaran berita tersebut. Atribut label ini sangat penting dalam pengolahan data, terutama
dalam pembagian data menjadi data pelatihan (data train) dan data pengujian (data test).
Tahap 3-4 : Data Pre-processing & Transformation
Dataset diproses menggunakan teknik pre-processing, yang meliputi pembersihan teks
dengan menghapus karakter khusus, tanda baca, dan simbol yang tidak relevan. Selain itu,
dilakukan juga pengubahan huruf besar menjadi huruf kecil (lowercasing) untuk menjaga
konsistensi, mengurangi variasi huruf, dan menghindari ketidakseragaman dalam teks.
Selanjutnya, digunakan teknik stemming dan lemmatization untuk mengubah kata-kata dengan
imbuhan menjadi bentuk dasarnya. Hal ini bertujuan agar teks lebih standar, jelas, dan memiliki
3. makna yang signifikan. Stemming dan lemmatization akan mengubah kata-kata menjadi
bentuk dasar yang sesuai.
Sebelum pre-processing Sesudah pre-processing
A caller to a radio talk show recently shared that
his wife was hospitalized n told she had COVID n
only a couple of days left to live . A doctor friend
suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long . Turns out it WAS legionnaires disease
from the moisture n bacteria in her mask . She
was given antibiotics n within two days was…
a caller to a radio talk show recently shared that
his wife was hospitalized n told she had covid n
only a couple of days left to live a doctor friend
suggested she be tested for legionnaires disease
because she wore the same mask every day all
day long turns out it was legionnaires disease
from the moisture n bacteria in her mask she
was given antibiotics n within two days was…
Tabel 2. Contoh perbedaan kalimat sebelum dan sesudah pre-processing narasi dari dataset.
Setelah melakukan pre-processing pada dataset, langkah selanjutnya adalah
melakukan seleksi fitur. Seleksi fitur bertujuan untuk memilih variabel independen dan
dependen yang sesuai dengan kebutuhan. Fitur yang dipilih untuk variabel independen adalah
atribut narasi yang mana adalah isi konten dari berita, sementara fitur yang dipilih untuk
variabel dependen adalah atribut label yang mana angka 0 merupakan berita true fact,
sedangkan angka 1 merupakan berita hoax. Penentuan variabel independen dan dependen
hanya sebagai panduan untuk menentukan X dan y. X akan berisi atribut narasi, sedangkan y
akan berisi atribut label.
Setelah itu, dilakukan tahap transformasi data untuk visualisasi dataset secara jelas.
Transformasi data adalah proses mengubah format dataset yang berupa tabel menjadi grafik
atau mengubah data kategorikal menjadi data numerikal. Transformasi data yang dilakukan
bertujuan untuk mengetahui jumlah berita hoax dan berita valid dalam keseluruhan dataset.
Gambar 1. Grafik hasil olah dataset dengan transformasi data.
Ada total 4231 data dalam dataset. Dari jumlah tersebut, 3465 data tergolong sebagai data
Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 766 data tergolong
sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah.
Perbandingan antara jumlah data Valid dan data Hoax adalah 4.5. Jumlah perbandingan dari
4. total label pada data ini termasuk imbalanced, yang menunjukkan bahwa data ini tidak
seimbang secara perbandingan. Oleh karena itu, perlu dilakukan proses untuk balancing data.
Setelah melakukan balancing data dengan mengurangi data valid, maka hasil grafiknya:
Gambar 2. Grafik hasil olah dataset dengan transformasi data (balanced).
Terdapat 1640 data dalam dataset. Dari jumlah tersebut, 854 data tergolong sebagai data
Valid dan ditampilkan dalam bar chart dengan warna biru, sementara 786 data tergolong
sebagai data yang terindikasi Hoax dan ditampilkan dalam bar chart dengan warna merah.
Perbandingan antara jumlah data Valid dan data Hoax setelah dilakukan balancing data
adalah 1.1.
Tahap 5 : Data Mining
Berbagai algoritma yang digunakan dalam proyek ini adalah Naïve Bayes dan
Logistic Regression dengan menggunakan metode Bag of Words, N-grams, TFIDF,
Word2Vec, dan FastText. Naïve Bayes mengasumsikan bahwa setiap fitur pada data adalah
independen dan menghitung kemungkinan kelas yang paling mungkin dari setiap fitur.
Logistic Regression digunakan untuk memodelkan hubungan antara variabel input (narasi)
dan variabel output (label). Kedua algoritma ini dapat mengkategorisasi data secara langsung
saat dataset diolah. Dataset yang digunakan dalam proyek ini terdiri dari objek dengan
kategorisasi Valid dan Hoax. Dalam analisis data, ditemukan bahwa label Valid memiliki
82% dari total data, sementara label Hoax memiliki 18% dari total data. Meskipun data ini
tidak seimbang, teknik balancing data sebenarnya diperlukan karena perbedaan antara kedua
label cukup signifikan. Setelah analisis balancing data, dilakukan pemisahan data menjadi
data train dan data test. Data train digunakan untuk membangun model dan data test
digunakan untuk evaluasi. Semua data berita dan clean digunakan dalam komposisi 100%
untuk data train dan 100% untuk data test.
• Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan
pendekatan metode Bag of Words.
5. Setelah mengimplementasikan semua prosedur yang dijelaskan sebelumnya,
kami berhasil mencapai tingkat akurasi sebesar 93% dalam pengujian kinerja
menggunakan model Naïve Bayes dengan pendekatan Bag of Words.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.9535714285714
286
0.9379391100702
577
0.9456906729634
004
Hoax 0.93375 0.9503816793893
13
0.9419924337957
125
Total 0.943902439024
3902
Tabel 3. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Bag of Words
Berdasarkan Tabel 3 yang tercantum di atas, dapat dilihat bahwa akurasi total
setelah proses klasifikasi pada dataset mencapai 94%. Dalam memprediksi berita
hoax, model menghasilkan tingkat presisi sebesar 93%, tingkat recall sebesar 95%,
dan F1-score sebesar 94%. Sementara itu, dalam memprediksi berita valid, model
mencapai tingkat presisi sebesar 95%, tingkat recall sebesar 94%, dan F1-score
sebesar 95%.
Ini menunjukkan bahwa model yang dikembangkan mampu memberikan hasil
yang baik dalam mengklasifikasikan berita hoax dan valid. Tingkat akurasi yang
tinggi dan nilai presisi, recall, dan F1-score yang seimbang menunjukkan kemampuan
model dalam memprediksi dengan baik dan menghindari kesalahan dalam
mengklasifikasikan berita.
• Melakukan evaluasi kinerja menggunakan algoritma Naïve Bayes dan
pendekatan metode TF-IDF
Sebagai perbandingan antara representasi Bag of Words dan N-grams,
dilakukan uji performa menggunakan metode Naïve Bayes dengan penggunaan TF-
IDF. Dalam langkah-langkah pemrosesan dataset yang telah dilakukan sebelumnya,
ditemukan bahwa penggunaan metode TF-IDF menghasilkan skor akurasi sebesar
83%.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.7256027554535
017
0.7400468384074
942
0.7327536231884
059
Hoax 0.7113133940182
055
0.6959287531806
616
0.7035369774919
615
Total 0.740243902439
0244
Tabel 5. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode TF-IDF
Berdasarkan Tabel 5 yang disajikan, ditemukan bahwa setelah menerapkan
metode TF-IDF, akurasi keseluruhan mencapai 74%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 71%, recall sebesar 70%, dan skor F1 sebesar
6. 70%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
73%, recall sebesar 74%, dan skor F1 sebesar 73%.
• Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan
pendekatan metode Word2Vec
Pengujian performa berikutnya melibatkan penggunaan algoritma yang
berbeda, yaitu Logistic Regression dengan penerapan metode Word2Vec. Pengujian
ini bertujuan untuk membandingkan performa antara algoritma-algoritma sebelumnya
yang telah dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan
dataset yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi
sebesar 82% dengan penggunaan metode Word2Vec.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.5479962721342
032
0.6885245901639
344
0.6102750389206
02
Hoax 0.5308641975308
642
0.3829516539440
2036
0.4449371766444
937
Total 0.542073170731
7074
Tabel 6. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode Word2Vec
Berdasarkan Tabel 6 yang disajikan, ditemukan bahwa setelah menerapkan
metode Word2Vec, akurasi keseluruhan mencapai 54%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 53%, recall sebesar 38%, dan skor F1 sebesar
44%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
55%, recall sebesar 69%, dan skor F1 sebesar 61%.
• Melakukan evaluasi kinerja menggunakan algoritma Logistic Regression dan
pendekatan metode FastText
Pengujian performa berikutnya melibatkan penggunaan algoritma yang sama,
yaitu Logistic Regression dengan penerapan metode FastText. Pengujian ini bertujuan
untuk membandingkan performa antara algoritma-algoritma sebelumnya yang telah
dilakukan sebelumnya. Dengan menerapkan langkah-langkah pemrosesan dataset
yang telah dilakukan sebelumnya, hasilnya menunjukkan tingkat akurasi sebesar 82%
dengan penggunaan metode FastText.
Label Total Accuracy Precision Score Recall Score F1 Score
Valid 0.5535714285714
286
0.5081967213114
754
0.5299145299145
298
Hoax 0.5093457943925
234
0.5547073791348
6
0.5310596833130
328
Total 0.530487804878
0488
Tabel 7. Hasil Pengujian Data dengan Algoritma Naïve Bayes Metode FastText
7. Berdasarkan Tabel 7 yang disajikan, ditemukan bahwa setelah menerapkan
metode FastText, akurasi keseluruhan mencapai 53%. Pada saat memprediksi berita
hoax, diperoleh nilai presisi sebesar 51%, recall sebesar 55%, dan skor F1 sebesar
53%. Sementara itu, dalam memprediksi berita valid, diperoleh nilai presisi sebesar
55%, recall sebesar 51%, dan skor F1 sebesar 53%.
Tahap 6 : Knowledge Interpretation
Tahap 7 : Reporting
• Simple academic Poster.