Dokumen ini merangkum analisis klasifikasi data email spam menggunakan pendekatan machine learning. Penelitian ini menggunakan dataset spambase UCI yang berisi 4601 baris data dan 58 kolom. Metode klasifikasi yang digunakan adalah Gradient Boosting Classifier yang mampu mengklasifikasikan data dengan akurasi 93,5%. Hasilnya mengidentifikasi 2875 email non-spam dan 1726 spam.
4. 4
Latar Belakang
(Yuda, 2016)
Spam adalah
penggunaan perangkat
elektronik untuk
mengirimkan pesan
secara bertubi-tubi
tanpa dikehendaki oleh
penerimanya.
Konsep "spam" berdasarkan data spambase UCI
adalah iklan untuk produk / situs web, membuat
skema uang cepat, surat berantai, pornografi dan
lain-lain.
(UCI Repository)
[Dampak] Ruang penyimpanan kotak masuk
tercampur dengan informasi
bersifat spam
Memberikan efek berat pada
penyimpanan pesan email
[Solusi]
7. STRUKTUR
DATA
7
Struktur data dalam penelitian ini adalah berupa kata yang
variabel berskala rasio yang disusun melalui praproses
terlebih dahulu sehingga sudah berbentuk persentase,
berikut adalah strukur data penelitian ini
No.
Word_freq
_make
Word_freq_
address
Word_freq
_all
... crl_average Class
1 0 0,64 0,64 ... 61 1
2 0,21 0,28 0,5 ... 101 1
3 0,06 0 0,71 ... 485 1
. . . . . . .
. . . . . . .
. . . . . . .
4601 0 0 0,65 .. 5 0
Y adalah kelas / Tipe email
Spam berlabel 1
NonSpam berlabel 0
8. Variabel
Penelitian
8
Variabel :
Variabel independen ( X ) terdapat 57 variabel
Variabel dependen ( Y ) terdapat 1 variabel
No Atribut Tipe data Variabel
1 %Word_freq_make Rasio X
2 %Word_freq_address Rasio X
3 %Word_freq_all Rasio X
4 %Word_freq_3d Rasio X
5 %Word_freq_our Rasio X
6 %Word_freq_remove Rasio X
7 %Word_freq_over Rasio X
... ... ...
... ... ...
57 crl_average Rasio X
58 Y(Spam = 1 dan Non Spam = 0) Nominal Y
18. 18
Saran Kesimpulan
Dari 57 variabel / feature, hanya 20 yang
signifikan terkadap pembentukan model
klasifikasi.
Metode klasifikasi terbaik dari 10 metode yang
dicobakan adalah Gradient Boosting Classifier
dengan nilai akurasi, presisi dan recall berturut-
turut 93,5%, 93,6% dan 92,8%.
Hasil klasifikasi menghasilkan prediksi yang
hampir mendekati yakni 2875 non spam, 1726
spam sedangkan data Y sebenarnya yakni 2788
non spam, 1813 spam
Saran terhadap final project ini adalah
melakukan lebih banyak metode baik
dalam preprocessing data maupun
analisis atau klasifikasi khususnya.
19. 19
Analisis Klasifikasi Data E-mail Spam
dengan Pendekatan Machine Learning
Oleh :
Anadia Rahmat Syihab Hidayatullah
06211540000001