KLASTERISASI BUKU

JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2014
KLASTERISASI BUKU BERBAHASA INDONESIA DENGAN MENGIMPLEMENTASIKAN METODE TEXT MINING DAN ALGORITMA ARTIFICIAL BEE COLONY K-MEANS
Oleh:
Abdurrahman
201010370311397
Dosen Pembimbing:
Yufis Azhar, M.Kom
Ali S. Kholimi, S.Kom

Pendahuluan
Latar Belakang
Data Minig dibagi menjadi 3 yaitu Klasifikasi, Klasterisasi dan Asosiasi.
Clustering : pengelompokkan data kedalam beberapa klas sehingga data dalam satu klas memiliki tingkat kemiripan yang maksimum dan data antar klaster memiliki kemiripan yang minimum (Theodoridis, 2006).
K-Means (KM): salah satu meode pengelompokan data nonhierarki (sekatan) yang berusaha mempartisi data yang ada kedalam dua atau lebih kelompok(Eko Prasetyo, 2012).
Terdapat kekurangan pada K-Means, yaitu pada inisial centroid awal.
Artificial Bee Colony (ABC)  Karaboga (2005) suatu algoritma yang mengadopsi perilaku mencari makan dari koloni lebah madu.

Pendahuluan
ABC : algoritma dengan solusi global yang memiliki kualitas yang lebih baik dibandingkan dengan GA, PSO, Differential Evolution (DE), dan Evolution Strategies (ES) (Karaboga, 2009)
Dalam penelitian ini akan diusulkan sebuah algoritma baru yaitu hibridasi antara ABC dan KM.
ABC-KM ini diharapkan mampu mengoptimalkan posisi titik pusat klaster yang mengarah pada solusi global optimal.

Rumusan Masalah
Bagaimana menerapkan metode preprosesing text mining dalam kata-kata berbahasa Indonesia?
Bagaimana mentransformasi sinopsis buku menjadi sebuah data numerik?
Bagaimana menerapkan metode Term Frequency Inverse Document Frequency (TF-IDF) untuk pembobotan?
Bagaimana menerapkan aloritma Artificial Bee Colony K-Means untuk melakukan klasterisasi?
Bagaimana membandingkan hasil klaster antara algoritma Basic K-Means dengan algoritma Artificial Bee Colony K-Means?

Batasan Masalah
Kata kunci yang digunakan diambil dari beberapa kata dalam sinopsis buku yang di klaster.
Sinopsis buku menggunakan kata baku dalam bahasa Indonesia sebagai data yang akan diolah.
Sample data diambil dari sinopsis pada www.gramedia.com

Tujuan
Melakukan klasterisasi buku menggunakan algoritma Artificial Bee Colony K- Means.

K-Means (KM) Ada 2 tipe Pengklasteran data (Tan, 2006)
•Partisi : Klaster dibentuk dengan membagi objek/data kedalam non-overlapping subset (klaster).
•Hirarki : Klaster dibentuk melalui pembentukan klaster bersarang (nested cluster) yang diimplemen-tasikan dalam bentuk tree (pohon). K-Means : temasuk kedalam tipe partisi.

Artificial Bee Colony (ABC)
ABC  Dervis Karaboga (2005)
Dalam ABC, Bee Koloni dibagi 3 :
Employed bee (lebah pekerja)
Onlooker bee (lebah penunggu sarang)
Scouts (lebah penjelajah)
Posisi sumber makanan  possible solution
Nilai fitness  jumlah nektar
Jumlah employed bee = Jumlah lebah onlooker = Jumlah cluster

ABC-KM (Cont.)
Nama
Keterangan
K
Jumlah klaster
Limit
Batas jumlah iterasi untuk abandoned food source
MCN
Jumlah iterasi maksimum pada ABC
SN
Jumlah solusi pada ABC
MaxGen1
Jumlah iterasi maksimum fase lebah pada ABC-KM
MaxGen2
Jumlah iterasi maksimum fase KM pada ABC-KM
MaxGenABCKM
Jumlah iterasi maksimum metode ABC-KM
MaxPerulangan
Jumlah perulangan uji coba

Ilustrasi Menggunakan Contoh Kasus

Text Mining (Cont.)
Tokenizing

Text Mining (Cont.)
Filtering

Text Mining (Cont.)
Stemming

Pembobotan TF-IDF
Menghitung frekuensi kata dari setiap dokumen (TF)

Pembobotan TF-IDF (Cont.)
Membuat file index

Membuat model ruang vektor

Menghitung inverse document frequency (IDF)
퐼퐷퐹푤표푟푑=푙표푔 푡푑 푑푓
퐼퐷퐹푝푟푒푠푖푑푒푛=푙표푔 푡푑 푑푓 =푙표푔 51 =0.69897
퐶표푛푡표푕∶

Menghitung bobot dari setiap kata (TF*IDF)
푤푤표푟푑푖=푇퐹(푤표푟푑푖)푋(퐼퐷퐹푖)
푤푐푎푛푡푖푘=0.39794푋2 =0.79588

Normalkan semua dokumen ke panjang unit
푤푖푛푑표푛푒푠푖푎= 0.7958802+02+02+02+02+02+02+ 02+02+02+02+0.795882+ 0.698972+0.698972+02+02+02+ 02+02+0.698972+0.698972+ 0.698972+02+02+02+02+02
=0.45377
푤푤표푟푑푖= 푤(푤표푟푑푖) 푤2푤표푟푑1+푤2푤표푟푑2+⋯+푤2(푤표푟푑푛)

Hasil Normalisasi

Bobot akhir kata

ABC-KM
Tentukan jumlah klaster dan inisialisasikan populasi : Dalam percobaan ini, data akan di bagi menjadi dua klas.
Pilih titik pusat awal lebah pekerja secara random : Untuk menginisialisasikan titik pusat centroid dari dokumen, maka akan dipilih secara acak yaitu dokumen 1 dan 5.

ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pekerja).
푥푖,푗,푖=1…푆푁,푗=1…퐷
푆푁=5 퐷=27 푖=*1,2+
푘=*1,2+
푗=*1,2,3,4,5+
Dimana nilai dari 푖≠푘
푣푖푗=푥푖푗+∅푖푗(푥푖푗−푥푘푗) 푣1,1=푥1,1+∅1,1푥1,1−푥2,1 =0.33333+0.326450.33333−0 =0.44214
Contoh :

ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Penunggu).
푐푙= 푚푐푙푥푖푤(푥푖)푥푖 푛푖 =1 푚(푐푙|푥푖)푤(푥푖)푛푖 =1 푓푖= ||푥푖−푐푙||2 푛 푖=1 푓푖푡푖= 11+푓푖 푝푖= 푓푖푡푖 푓푖푡푛 푆푁 푛=1 푝1= 푓푖푡1 푓푖푡1+푓푖푡2+푓푖푡3+⋯+푓푖푡27
= 0.9142724.01966
=0.03806

ABC-KM (Cont.)
Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pengintai).
푥푖 푗=푥푚푖푛 푗+푟푎푛푑0,1푥푚푎푥 푗−푥푚푖푛 푗
푥1 푗=푥푚푖푛 푗+푟푎푛푑0,1푥푚푎푥 푗−푥푚푖푛 푗 푥1=0.03315+0.234540.04163−0.03315
=0.0362

ABC-KM (Cont.)
Tentukan titik pusat terbaik dari seluruh lebah : Jika sumber makanan baru mempunyai netkar yang sama atau lebih baik, maka sumber makanan yang lama akan di buang, jika tidak maka sumber makanan yang lama akan tetap dipertahankan (Greedy Selection).
Update titik pusat dengan tahapan K-Means : Mengambil titik pusat dari lebah untuk dijadikan titik pusat dan dilakukan peng-update-tan sampai titik pusat tidak berubah.

ABC-KM (Cont.)
Jadikan titik pusat K-Means sebagai titik pusat ABC-KM
푑푑표푘푢푚푒푛 1,2= 0.03806−02+0.03639−02+0.04102−02+ 0.03757−02+0.04163−02+0.04114−02+ 0.03315−02+0.03939−02+0.04162−02+ 0.04075−0.463832+0.04161−0.463832+ 0.04160−0.264072+0.03949−0.264072+ 0.03886−0.463832+0.03817−0.463832+ 0.04019−02+0.04019−02+0.04019−02+ 0.04019−02+0.04019−02+0.04019−02+ 0.04019−02+0.04019−02+0.04019−02+ 0.04019−02+0.04019−02+0.04019−02 푑(푥,푦)= |푦푖−푥푖|2 푛 푖=1

ABC-KM (Cont.)
Tetapkan keanggotaan tiap data
Dokumen
C1
C2
D1
1
0
D2
0
1
D3
1
0
D4
1
0
D5
0
1

Hasil Uji Coba Sistem yang Telah di Bangun
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2014
Oleh:
Abdurrahman
201010370311397
Dosen Pembimbing:
Yufis Azhar, M.Kom
Ali S. Kholimi, S.Kom

Metode Uji Coba
Precision = 푇푃 푇푃+퐹푃
Recall = 푇푃 푇푃+퐹푁
F-Measure = 2 푥 푃푟푒푐푖푠푖표푛 푥 푅푒푐푎푙푙 푃푟푒푐푖푠푖표푛+푅푒푐푎푙푙
Classterication Positive
Clasterication Negative
Actual Pisitive
TP
FN
Actual Negative
FP
TN

Hasil Uji Coba Grafik Perbandingan Precision
79.00%
80.00%
81.00%
82.00%
83.00%
84.00%
85.00%
86.00%
87.00%
88.00%
89.00%
Percobaan 1
Percobaan 2
Percobaan 3
Percobaan 4
Percobaan 5
Rata-Rata
K-Means
ABC K-Means

Hasil Uji Coba Grafik Perbandingan Recall
0%
5%
10%
15%
20%
25%
30%
35%
40%
Percobaan 1
Percobaan 2
Percobaan 3
Percobaan 4
Percobaan 5
Rata-Rata
K-Means
ABC K-Means

Hasil Uji Coba Grafik Perbandingan F-measure
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
Percobaan 1
Percobaan 2
Percobaan 3
Percobaan 4
Percobaan 5
Rata-Rata
K-Means
ABC K-Means

Kesimpulan
Artificial Bee Colony mampu mengatasi masalah local optimal pada algoritma Basic K-means sehingga algoritma Basic K-Means dapat keluar dari masalah tersebut dan menjadi global optimal.
Algoritma ABC-KM mamupu mengklaster lebih baik : precision ABC K-Means lebih baik 2.08%, recall ABC K-Means lebih baik 11.24% dan F-Measure ABC K-Means lebih baik 14.04%.

Saran
Penentuan Jumlah Klaster Masih Manual
Klasterisasi Data Masih Statis
Tidak Adanya Metode Korelasi (Similarity)

KLASTERISASI BUKU

Recommended

Recommended

More Related Content

Similar to KLASTERISASI BUKU

Similar to KLASTERISASI BUKU (16)

Recently uploaded

Recently uploaded (7)

KLASTERISASI BUKU