SlideShare a Scribd company logo
1 of 19
Download to read offline
1
Analisis Klasifikasi Data E-mail Spam
dengan Pendekatan Machine Learning
Oleh :
Anadia Rahmat Syihab Hidayatullah
06211540000001
OUTLINE
2
3
2
1Pendahuluan
Metodologi Penelitian
Analisis dan Pembahasan
3
BAB I Pendahuluan
4
Latar Belakang
(Yuda, 2016)
Spam adalah
penggunaan perangkat
elektronik untuk
mengirimkan pesan
secara bertubi-tubi
tanpa dikehendaki oleh
penerimanya.
Konsep "spam" berdasarkan data spambase UCI
adalah iklan untuk produk / situs web, membuat
skema uang cepat, surat berantai, pornografi dan
lain-lain.
(UCI Repository)
[Dampak]  Ruang penyimpanan kotak masuk
tercampur dengan informasi
bersifat spam
 Memberikan efek berat pada
penyimpanan pesan email
[Solusi]
5
BAB II Metodologi
Penelitian
6
Sumber
Data
 Data Sekunder
 Berjudul “Spambase Dataset ”
 Berisi
 4601 baris data
 58 kolom data
STRUKTUR
DATA
7
Struktur data dalam penelitian ini adalah berupa kata yang
variabel berskala rasio yang disusun melalui praproses
terlebih dahulu sehingga sudah berbentuk persentase,
berikut adalah strukur data penelitian ini
No.
Word_freq
_make
Word_freq_
address
Word_freq
_all
... crl_average Class
1 0 0,64 0,64 ... 61 1
2 0,21 0,28 0,5 ... 101 1
3 0,06 0 0,71 ... 485 1
. . . . . . .
. . . . . . .
. . . . . . .
4601 0 0 0,65 .. 5 0
Y adalah kelas / Tipe email
Spam berlabel 1
NonSpam berlabel 0
Variabel
Penelitian
8
Variabel :
 Variabel independen ( X ) terdapat 57 variabel
 Variabel dependen ( Y ) terdapat 1 variabel
No Atribut Tipe data Variabel
1 %Word_freq_make Rasio X
2 %Word_freq_address Rasio X
3 %Word_freq_all Rasio X
4 %Word_freq_3d Rasio X
5 %Word_freq_our Rasio X
6 %Word_freq_remove Rasio X
7 %Word_freq_over Rasio X
... ... ...
... ... ...
57 crl_average Rasio X
58 Y(Spam = 1 dan Non Spam = 0) Nominal Y
9
Import Libraries
Preprocessing
Data
Data Exploration
Import Dataset
Feature Selection
Analisis Klasifikasi
Kesimpulan dan Saran
10
BAB III Analisis
dan
Pembahasan
11
Missing
Value
No Variabel
Missing
Value
1 %Word_freq_make 0
2 %Word_freq_address 0
3 %Word_freq_all 0
4 %Word_freq_3d 0
5 %Word_freq_our 0
6 %Word_freq_remove 0
7 %Word_freq_over 0
. . .
. . .
57 crl_average 0
58 Y 0
Tidak terdapat kasus missing value
Preprocessing
12
Boxplot Terdapat kasus outlier
Preprocessing
13
IQR
False = Bukan Outlier
Preprocessing
True = Outlier
ExtraTrees
Classifier
14
Tahapan mengeliminasi ukuran dari variabel yang
semula 57 menjadi 20 variabel yang berpengaruh
signifikan menggunakan ExtraTreesClassifier
Feature
Importances
15
16
Analisis Klasifikasi
No Metode Klasifikasi Akurasi
1 CART 0,867
2 k-Nearest Neighbour 0,793
3 Naive Bayes 0,816
4 Support Vector Machine 0,871
5 Random Forest 0,902
6 Bagging 0,890
7 Adaptive Boosting 0,901
8 Gradient Boosting 0,906
9 Logistic Regression 0,881
10 Neural Network 0,880
Non Spam Total
Non 2684 191 2875
Spam 104 1622 1726
Gradient
Boosting
Akurasi 93,5%
Presisi 93,6%
Recall 92,8%
17
BAB IV Kesimpulan
Dan
Saran
18
Saran Kesimpulan
 Dari 57 variabel / feature, hanya 20 yang
signifikan terkadap pembentukan model
klasifikasi.
 Metode klasifikasi terbaik dari 10 metode yang
dicobakan adalah Gradient Boosting Classifier
dengan nilai akurasi, presisi dan recall berturut-
turut 93,5%, 93,6% dan 92,8%.
 Hasil klasifikasi menghasilkan prediksi yang
hampir mendekati yakni 2875 non spam, 1726
spam sedangkan data Y sebenarnya yakni 2788
non spam, 1813 spam
 Saran terhadap final project ini adalah
melakukan lebih banyak metode baik
dalam preprocessing data maupun
analisis atau klasifikasi khususnya.
19
Analisis Klasifikasi Data E-mail Spam
dengan Pendekatan Machine Learning
Oleh :
Anadia Rahmat Syihab Hidayatullah
06211540000001

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Analisis Klasifikasi Data E-mail Spam dengan Pendekatan Machine Learning

  • 1. 1 Analisis Klasifikasi Data E-mail Spam dengan Pendekatan Machine Learning Oleh : Anadia Rahmat Syihab Hidayatullah 06211540000001
  • 4. 4 Latar Belakang (Yuda, 2016) Spam adalah penggunaan perangkat elektronik untuk mengirimkan pesan secara bertubi-tubi tanpa dikehendaki oleh penerimanya. Konsep "spam" berdasarkan data spambase UCI adalah iklan untuk produk / situs web, membuat skema uang cepat, surat berantai, pornografi dan lain-lain. (UCI Repository) [Dampak]  Ruang penyimpanan kotak masuk tercampur dengan informasi bersifat spam  Memberikan efek berat pada penyimpanan pesan email [Solusi]
  • 6. 6 Sumber Data  Data Sekunder  Berjudul “Spambase Dataset ”  Berisi  4601 baris data  58 kolom data
  • 7. STRUKTUR DATA 7 Struktur data dalam penelitian ini adalah berupa kata yang variabel berskala rasio yang disusun melalui praproses terlebih dahulu sehingga sudah berbentuk persentase, berikut adalah strukur data penelitian ini No. Word_freq _make Word_freq_ address Word_freq _all ... crl_average Class 1 0 0,64 0,64 ... 61 1 2 0,21 0,28 0,5 ... 101 1 3 0,06 0 0,71 ... 485 1 . . . . . . . . . . . . . . . . . . . . . 4601 0 0 0,65 .. 5 0 Y adalah kelas / Tipe email Spam berlabel 1 NonSpam berlabel 0
  • 8. Variabel Penelitian 8 Variabel :  Variabel independen ( X ) terdapat 57 variabel  Variabel dependen ( Y ) terdapat 1 variabel No Atribut Tipe data Variabel 1 %Word_freq_make Rasio X 2 %Word_freq_address Rasio X 3 %Word_freq_all Rasio X 4 %Word_freq_3d Rasio X 5 %Word_freq_our Rasio X 6 %Word_freq_remove Rasio X 7 %Word_freq_over Rasio X ... ... ... ... ... ... 57 crl_average Rasio X 58 Y(Spam = 1 dan Non Spam = 0) Nominal Y
  • 9. 9 Import Libraries Preprocessing Data Data Exploration Import Dataset Feature Selection Analisis Klasifikasi Kesimpulan dan Saran
  • 11. 11 Missing Value No Variabel Missing Value 1 %Word_freq_make 0 2 %Word_freq_address 0 3 %Word_freq_all 0 4 %Word_freq_3d 0 5 %Word_freq_our 0 6 %Word_freq_remove 0 7 %Word_freq_over 0 . . . . . . 57 crl_average 0 58 Y 0 Tidak terdapat kasus missing value Preprocessing
  • 12. 12 Boxplot Terdapat kasus outlier Preprocessing
  • 13. 13 IQR False = Bukan Outlier Preprocessing True = Outlier
  • 14. ExtraTrees Classifier 14 Tahapan mengeliminasi ukuran dari variabel yang semula 57 menjadi 20 variabel yang berpengaruh signifikan menggunakan ExtraTreesClassifier
  • 16. 16 Analisis Klasifikasi No Metode Klasifikasi Akurasi 1 CART 0,867 2 k-Nearest Neighbour 0,793 3 Naive Bayes 0,816 4 Support Vector Machine 0,871 5 Random Forest 0,902 6 Bagging 0,890 7 Adaptive Boosting 0,901 8 Gradient Boosting 0,906 9 Logistic Regression 0,881 10 Neural Network 0,880 Non Spam Total Non 2684 191 2875 Spam 104 1622 1726 Gradient Boosting Akurasi 93,5% Presisi 93,6% Recall 92,8%
  • 18. 18 Saran Kesimpulan  Dari 57 variabel / feature, hanya 20 yang signifikan terkadap pembentukan model klasifikasi.  Metode klasifikasi terbaik dari 10 metode yang dicobakan adalah Gradient Boosting Classifier dengan nilai akurasi, presisi dan recall berturut- turut 93,5%, 93,6% dan 92,8%.  Hasil klasifikasi menghasilkan prediksi yang hampir mendekati yakni 2875 non spam, 1726 spam sedangkan data Y sebenarnya yakni 2788 non spam, 1813 spam  Saran terhadap final project ini adalah melakukan lebih banyak metode baik dalam preprocessing data maupun analisis atau klasifikasi khususnya.
  • 19. 19 Analisis Klasifikasi Data E-mail Spam dengan Pendekatan Machine Learning Oleh : Anadia Rahmat Syihab Hidayatullah 06211540000001