Dokumen tersebut membahas tentang pendeteksian spam pada jejaring sosial Twitter menggunakan algoritma Naive Bayes Classifier. Penelitian ini bertujuan untuk membangun sistem deteksi spam otomatis dan memanfaatkan hasilnya untuk mendeteksi pengguna spam di Twitter. Metodologi penelitian meliputi studi literatur, analisis data, perancangan sistem, implementasi algoritma, dan pengujian.
2. Latar Belakang
Pertumbuhan pengguna Twitter meningkat
Penyalahgunaan fungsi Twitter
Penyebaran Spam
Promosi dan Penipuan
Link berbahaya
Pengelabuan hasil pencarian dengan Trending Topics
Fasilitas pelaporan Spam Twitter
Link Report as Spam
Mention akun yang dianggap spam
3. Rumusan Masalah
Berdasarkan latar belakang diatas, maka rumusan
masalah dalam penelitian ini adalah Bagaimana
mendeteksi spam pada situs jejaring sosial Twitter
4. Batasan Masalah
Algoritma Naïve Bayes Classifier dan tidak
membandingkan metode ini dengan algoritma lain.
Data Set dikumpulkan dari hasil mesin Twitter
Crawler yang dibangun dalam penelitian ini
menggunakan Twitter API
Pengolahan fitur berbasis konten dengan text mining.
Pembangunan sistem dan implementasi algoritma
dengan menggunakan bahasa pemograman PHP,
XML, JSON, dan database MySql.
5. Tujuan Penelitian
Membangun sebuah mesin Crawler untuk melakukan
mining data real terhadap Twitter untuk mendapatkan
data set.
Membangun sistem deteksi spam otomatis pada
Twitter
6. Manfaat Penelitian
Hasil penelitian ini diharapkan dapat digunakan
sebagai:
Data Set yang dikumpulkan dapat digunakan untuk
melakukan penelitian lain dengan objek penelitian
yang berbeda.
Sistem deteksi spam yang dibangun dapat mendeteksi
spam user pada Twiter secara otomatis.
Membantu pengguna Twitter dalam mendeteksi dan
mengantisipasi Spammer.
7. Metodologi Penelitian
Studi literatur
Analisis dan Pengumpulan Data Set
Analisis sistem
Perancangan dan Implementasi algoritma
Pengujian
Penyusunan laporan
8. Tinjauan Pustaka
SPAM
Spam adalah penyalahgunaan sistem pesan elektronik
untuk mengirim berita iklan dan keperluan lainnya
secara massal.
Spam pada Twitter
Spam pada Twitter merupakan perilaku yang dilarang
yang melanggar Aturan Twitter (Twitter Rules).
9. Beberapa cara spammer Twitter:
Posting link yang berbahaya
Mengikuti (following) akun secara besar-besaran
dengan jumlah pengikut yang kecil
Penyalahgunaan reply @ atau fungsi @ mentions
Membuat beberapa akun
Melakukan penyerangan spam sesuai trending topics
Berulang kali memposting update duplikat
Posting link dengan tweet yang tidak berkaitan
10. Twitter
Dioperasikan oleh Twitter Inc., memungkinkan
penggunanya untuk mengirim dan membaca pesan
yang tweets
Graf berarah
Pengumpulan Data
Twitter API
Rest API
Search API
Streaming API
Twitter Crawler
12. Fitur berbasis konten
Berdasarkan konten yang ada pada tweet, akan dilakukan
pengolahan teks (text preprocessing), transformasi teks
(text transformation/ feature generation), dan
penemuan pola (pattern discovery).
13. Naive Bayes classifier
sebuah metode machine learning yang menggunakan
pendekatan probabilistik dalam menginferensi, yakni
berbasis pada teorema
probabilitas kemunculan sebuah kata independen
terhadap posisinya di dalam teks
Independensi mengurangi kompleksitas dalam
perhitungan nilai-nilai probabilitas bersyarat pada
teorema Bayes secara umum
14. Jadwal Penelitian
Kegiatan
Tahun 2011
April Mei Juni Juli Agustus September Oktober
3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1
Seminar Proposal
Studi literatur
Analisis dan
Pengumpulan Data Set
Analisis Sistem
Perancangan dan
Implementasi
Algoritma
Pengujian
Penyusunan Laporan
dan Kesimpulan Akhir
Seminar Hasil
Sidang Meja Hijau