01 indo clust knsi 2007

Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
IndoClust: Clustering Engine Berita Berbahasa Indonesia
Didik Dwi Prasetya, Dwi Hendratmo Widiantoro
KK Informatika Sekolah Teknik Elektro dan Informatika ITB
Jln. Ganesha 10 Bandung
didikdwi@gmail.com, dwi@informatika.org
Abstrak
Dampak yang sangat terasa seiring dengan semakin meningkatnya volume berita elektronik berbahasa Indonesia
adalah sulitnya menemukan berita-berita yang relevan. Untuk mengatasi permasalahan ini, clustering merupakan
salah satu pemecahan yang bisa diimplementasikan. Makalah ini menguraikan rancang-bangun perangkat lunak
untuk clustering dokumen-dokumen berita berbahasa Indonesia yang diberi nama IndoClust. Implementasi
IndoClust dilakukan menggunakan metode frequent itemset dengan algoritma Frequent Itemset-based
Hierarchical Clustering (FIHC). Hasil implementasi memperlihatkan bahwa IndoClust mampu
mengelompokkan secara otomatis berita yang memiliki kesamaan ke dalam grup-grup dan menemukan
keterkaitan antar-berita. Dengan demikian, pengguna bisa lebih mudah melakukan navigasi, dan aktivitas
pencarian berita menjadi lebih efektif serta efisien.
Kata kunci : clustering, frequent itemset-based, berita berbahasa Indonesia
1. Pendahuluan
Dewasa ini, orang dengan mudah bisa
mendapatkan informasi berita berbahasa Indonesia
melalui komputer atau peralatan bergerak yang
terhubung ke jaringan Internet. Seiring
bertambahnya situs penyedia berita, menjadikan
volume berita dari waktu ke waktu semakin
meningkat. Walaupun kondisi ini dapat teratasi
dengan memanfaatkan layanan mesin pencari,
namun masih jarang ditemui mesin pencari yang
memiliki kemampuan untuk menganalisis serta
mengelompokkan secara otomatis dokumen-
dokumen berita yang memiliki kemiripan,
khususnya untuk berita berbahasa Indonesia.
Pada kenyataannya, dalam kasus mesin
pencari, seringkali hanya hasil-hasil awal saja yang
dianggap menarik oleh pengguna. Hal ini tentu
sangat wajar, karena mesin pencari umumnya
berusaha menampilkan hasil pencarian dengan
urutan yang paling mirip terhadap query.
Bagaimanapun juga, cara ini tidak begitu efisien
untuk mendapatkan berita yang relevan, karena
keterkaitan antar berita tidak terungkap secara jelas.
Sebagai ilustrasi, pencarian berita dengan query
“bunga” dapat menghasilkan beragam informasi
spesifik, misalnya bunga yang berhubungan dengan
tanaman atau bunga perbankan. Dari sini terlihat
bahwa penemuan berita yang relevan sangat
kompleks, dan memerlukan kecerdasan sistem.
Kata kunci dari permasalahan di atas adalah
efektivitas dan efisiensi penemuan berita yang
relevan. Adapun untuk mengatasinya, dipandang
perlu sekali adanya suatu perangkat lunak bantu
yang mampu “menghadirkan” berita dari berbagai
sumber serta mengorganisasikan dokumen-dokumen
berita sedemikian rupa ke dalam grup-grup,
sehingga dapat memudahkan navigasi. Clustering,
atau biasa disebut unsupervised learning, merupakan
salah satu pemecahan yang menarik untuk
diimplementasikan. Clustering dapat digunakan
untuk membantu menganalisis berita dari satu atau
beberapa sumber, dengan mengelompokkan secara
otomatis berita-berita yang memiliki kesamaan [8].
Pada makalah ini, metode clustering yang
digunakan adalah frequent itemset-based, dengan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC). Intuisi dari metode frequent
itemset-based adalah mengidentifikasikan tiap-tiap
cluster dengan beberapa kata umum, yang disebut
frequent itemset. Oleh karena hanya menggunakan
global frequent item, maka secara drastis FIHC
mampu mengurangi dimensionalitas himpunan
dokumen, sehingga lebih efisien dan scalable.
2. Penelitian Terkait
Metode clustering banyak diterapkan di
berbagai disiplin ilmu, diantaranya adalah bidang
bisnis, biologi, kesehatan, dan komputer. Di bidang

komputer, clustering dilakukan pada subbidang
pengolahan citra dan pengolahan dokumen,
khususnya text mining dan information retrieval.
Meskipun clustering dokumen bukan merupakan hal
baru, namun saat ini masih jarang penelitian
mengenai clustering terhadap corpus berita
berbahasa Indonesia.
Salah satu penelitian yang terkait dengan topik
makalah ini adalah penelitian Wibisono dan Khodra
[8]. Di dalam penelitiannya, Wibisono menguraikan
eksperimen clustering berita berbahasa Indonesia
dengan menggunakan algoritma K-Means. Salah
satu keunggulan utama algoritma K-Means adalah
kompleksitas waktu perhitungannya linear O(n). Di
sisi lain, algoritma ini memerlukan intervensi
pengguna untuk menetapkan parameter masukan,
sensitif terhadap inisialisasi cluster centroid, dan
menghasilkan cluster datar.
Secara khusus, makalah ini mencoba mengkaji
lebih lanjut clustering dokumen-dokumen berita
berbahasa Indonesia dari penelitian sebelumnya
dengan metode yang berbeda. Ada perbedaan
mendasar yang perlu digarisbawahi pada makalah
ini, yaitu mengimplementasikan metode clustering
yang lebih efektif dan efisien.
3. Analisis Sistem IndoClust
Perangkat lunak IndoClust adalah sebuah
perangkat lunak aplikasi yang berorientasi objek dan
dikembangkan dengan menggunakan bahasa
pemrograman berorientasi objek. Pemodelan
perangkat lunak IndoClust dilakukan dengan
menggunakan kakas UML (Unified Modelling
Language) yang mengakomodasi metodologi
pengembangan perangkat lunak berorientasi objek.
Bagian ini menguraikan analisis proses
algoritma clustering dan analisis kebutuhan sistem
yang akan dibangun. Analisis proses algoritma
clustering menguraikan algoritma FIHC untuk
clustering dokumen yang berupa berita-berita
berbahasa Indonesia. Untuk analisis kebutuhan
sistem, didasarkan pada tahap analisis dari
metodologi yang digunakan dalam membangun
perangkat lunak, yaitu metodologi Object-Oriented
Software Engineering (OOSE).
3.1 Algoritma FIHC
Algoritma ini diilhami oleh Fung [7]
berdasarkan ide frequent itemset yang dikemukakan
oleh Agrawal [1]. Ide dasarnya, frequent itemset
merepresentasikan sesuatu yang umum pada
dokumen-dokumen di dalam cluster.
FIHC menugaskan (assigning) dokumen-
dokumen ke cluster terbaik dari semua cluster yang
tersedia. FIHC menggunakan pendekatan “cluster-
centered”, dimana kohesi cluster diukur secara
langsung dengan menggunakan frequent itemset.
FIHC juga menggunakan frequent itemset untuk
membangun dan mengorganisir cluster ke dalam
hirarki topik.
Ilustrasi mengenai tahap-tahap clustering
dokumen dengan algoritma FIHC dapat
diperlihatkan seperti diagram alir pada Gambar 1.
Gambar 1. Diagram alir algoritma FIHC
Ada tiga tahap utama untuk
mengimplementasikan algoritma FIHC dalam
clustering dokumen dan menghasilkan hirarki
pohon, yaitu pemilihan frequent itemset,
pembentukan cluster, dan pembentukan pohon
cluster [4].
1. Pemilihan frequent itemset
Tujuan dari pemilihan frequent itemset adalah
untuk mendapatkan kandidat cluster. Masukan
dari tahap ini adalah vektor dokumen high-
dimensional yang diperoleh dari model
representasi dokumen. Pemilihan frequent
itemset dilakukan melalui tahap ekstraksi
frequent itemset. Ekstraksi frequent itemset
adalah langkah persiapan yang lazim dilakukan
dalam algoritma clustering, termasuk pada
algoritma FIHC.
2. Pembentukan cluster
Tahap ini meliputi pembuatan initial cluster
dan melakukan pemisahan cluster (disjointing
cluster). Pembuatan initial cluster dilakukan
pada tiap-tiap global frequent itemset yang
telah diperoleh. Pada tahap ini initial cluster
bisa overlap, karena suatu dokumen biasanya
berisi lebih dari satu global frequent itemset,
sehingga dokumen yang sama mungkin terlihat
di beberapa initial cluster. Adapun tahap
pemisahan cluster bertujuan untuk menghapus
initial cluster yang masih overlap.
3. Pembentukan pohon cluster
Tahap ini melakukan pembentukan hirarki
pohon cluster dan pemangkasan pohon (tree
pruning). Pada tahap ini, cluster yang telah
diperoleh digunakan untuk membangun pohon
cluster (topik), dan hubungan antara induk
(parent) dan anak (children) diciptakan
berdasarkan kemiripannya.

3.2 Arsitektur Sistem
Ide dasar dari clustering engine adalah
mengelompokkan dokumen-dokumen hasil
pencarian ke dalam sejumlah cluster dan kemudian
mengorganisasikan dokumen-dokumen sedemikian
rupa sehingga dapat memudahkan pengguna ketika
melakukan navigasi. Bergantung pada pendekatan
algoritma yang digunakan, proses clustering bisa
sangat berlainan. Namun secara garis besar,
clustering engine melakukan dua proses utama, yaitu
preprocessing dan processing.
Sebagaimana lazimnya clustering engine,
sistem IndoClust juga terdiri dari dua komponen
utama, yaitu preprocessing dan processing.
IndoClust berperan sebagai perangkat lunak
komplemen dalam information retrieval. Perangkat
lunak ini diintegrasikan ke mesin pencari yang sudah
disesuaikan fungsionalitasnya untuk menemukan
dokumen-dokumen berita berbahasa Indonesia.
Gambaran umum mengenai arsitektur sistem
IndoClust diperlihatkan pada Gambar 2.
Gambar 2. Arsitektur IndoClust
Tahap preprocessing melakukan pemrosesan
awal terhadap himpunan dokumen berita relevan
yang didapatkan dari mesin pencari. Pemrosesan
awal meliputi pembacaan dan penguraian (parsing)
dokumen, penghapusan stopwords, tokenization,
pembobotan term (term weighting), dan
menciptakan representasi dokumen.
Tahap pemrosesan (processing) adalah
mengimplementasikan algoritma clustering yang
digunakan untuk pengelompokan dokumen-
dokumen berita berbahasa Indonesia. Tahap ini
merupakan tahap inti dalam pembangunan perangkat
lunak IndoClust.
Proses pengelompokan berita pada IndoClust
dilakukan secara on-the-fly (saat runtime). Masukan
yang diterima oleh IndoClust adalah himpunan
berita hasil pencarian pada mesin pencari yang
relevan terhadap kata kunci pencarian. Adapun
keluaran yang dihasilkan adalah satu atau beberapa
cluster yang masing-masing terhubung ke dokumen-
dokumen berita masukan sesuai dengan
kemiripannya. Hasil keluaran ini akan disajikan
sebagai respon terhadap permintaan (request)
pengguna.
3.3 Fitur Sistem
Perangkat lunak IndoClust memiliki beberapa
fungsi utama, antara lain:
1. Menerima masukan kata pencarian dari
pengguna dan mengirimkan ke mesin pencari.
2. Memiliki kemampuan untuk menerima
masukan parameter pengaturan kesukaan dari
pengguna dan menerapkannya selama sesi
pengguna tersebut aktif.
3. Mampu menerima masukan parameter
pengaturan lanjut guna menghasilkan cluster
yang lebih spesifik atau lebih umum.
4. Melakukan pemrosesan awal (preprocessing)
terhadap himpunan dokumen berita hasil
pencarian yang dikembalikan oleh mesin
pencari.
5. Melakukan pengelompokan (clustering)
terhadap dokumen-dokumen berita hasil
pencarian berdasarkan kemiripannya.
6. Membangun struktur pohon cluster yang
masing-masing berisi satu atau beberapa
dokumen relevan.
7. Menyajikan dokumen-dokumen berita ke
pengguna dalam bentuk cluster bersarang.
Sumber-sumber berita yang ditangani
IndoClust sudah didefinisikan, sehingga ruang
lingkup pencarian dan pengelompokan terbatas pada
sumber-sumber tersebut. Adapun dokumen yang
ditangani adalah berita-berita berbahasa Indonesia
dalam format file umum, yaitu Hypertext Markup
Language (HTML).
3.4 Pemodelan Use Case
Aktor-aktor yang terlibat pada sistem dapat
didefinisikan dengan mengidentifikasi sesuatu yang
berkomunikasi dengan sistem dan merupakan bagian
eksternal. Deskripsi mengenai masing-masing aktor
diperlihatkan pada Tabel 1.
Tabel 1. Definisi aktor
No Aktor Deskripsi
A1 Pengguna Pengguna perangkat lunak
yang akan berhubungan
langsung dengan sistem.
A2 Mesin Pencari Perangkat lunak untuk
mencari dokumen berita
dan mengembalikan hasil
berupa himpunan dokumen
sebagai masukan sistem.
A3 Administrator Administrator sistem yang
melakukan pemantauan
terhadap kerja sistem
terkait dengan aktivitas
pengguna.
Pembuatan model use case bertujuan untuk
mengidentifikasi fungsionalitas perangkat lunak
secara arsitektural. Berdasarkan fungsi-fungsi utama

yang telah dideskripsikan, dapat didefinisikan use
case yang terlibat. Definisi dan deskripsi masing-
masing use case diperlihatkan pada Tabel 2.
Tabel 1. Definisi use case
No Use Case Deskripsi
U1 Search News Untuk menerima
masukan query dari
pengguna dan
melakukan pencarian
berita berdasarkan query.
U2 Preprocessing Sistem melakukan
pemrosesan awal.
U3 Relevant
Document
Mesin pencari
mengembalikan hasil
pencarian berupa
dokumen-dokumen yang
relevan.
U4 Set Parameter Pengguna menetapkan
parameter untuk
clustering berita dan
pengaturan kesukaan.
U5 Clustering Sistem menerima data
masukan dan
menerapkan algoritma
clustering dokumen.
U6 View Cluster Sistem menampilkan
hasil clustering berikut
dokumen-dokumen
relevan yang telah
dikelompokkan.
U7 Login Admin Sistem melakukan
verifikasi identitas
administrator.
U8 View Log Administrator memantau
kerja sistem.
Representasi diagram use case memperlihatkan
interaksi antara aktor dan use case. Dari perspektif
pengguna, diagram use case memberikan gambaran
mengenai perangkat lunak yang akan dibangun.
Bentuk diagram use case dari perangkat lunak
IndoClust diperlihatkan pada Gambar 3.
Clustering
Login Admin
Preprocessing
Set Parameter
View Cluster
Pengguna
Search News
<<include>>
Relevant Document
Mesin Pencari
View Log
Administrator
<<include>>
<<include>>
Gambar 3. Diagram use case
4. Perancangan Sistem
4.1 Perancangan Arsitektur
Perancangan arsitektur mendefinisikan
keterkaitan antar-komponen utama yang akan
membentuk aplikasi program. Berdasarkan analisis
proses clustering dokumen yang diuraikan pada
tahap analisis, komponen penyusun sistem IndoClust
berhubungan dengan komponen luar, yaitu mesin
pencari. Ilustrasi mengenai komponen penyusun
sistem IndoClust dan keterhubungannya dengan
komponen luar diperlihatkan pada Gambar 4.
Gambar 4. Komponen penyusun IndoClust
Komponen yang akan dirancang-bangun
diperlihatkan sebagai bidang terarsir, sedangkan
bidang tak terarsir merepresentasikan komponen
yang sudah ada.
Berdasarkan hasil analisis dan deskripsi
arsitektur, secara fungsionalitas, IndoClust hanya
bertugas mengelompokkan dokumen hasil
pencarian. Namun secara arsitektur, sistem
IndoClust terdiri dari tiga modul utama, yaitu user
interface, preprocessing, dan processing/clustering.
1. Modul user interface
Modul user interface berperan sebagai front-
end sistem, yang berhubungan langsung
dengan pengguna. Walaupun mesin pencari
sudah menyediakan antarmuka pengguna,
namun model antarmukanya berbeda dengan
clustering engine, sehingga perlu dilakukan
perancangan khusus.
2. Modul preprocessing
Modul ini menyediakan fungsionalitas
pemrosesan awal (preprocessing) terhadap
himpunan dokumen. Pemrosesan-pemrosesan
yang dilakukan meliputi stopwords,
tokenization, dan pengambilan dokumen hasil
pencarian.
3. Modul processing/clustering
Modul processing/clustering menyediakan
fungsi utama yang mencerminkan
fungsionalitas dari sistem IndoClust. Sesuai
dengan hasil tahap analisis, modul ini bertujuan
melakukan proses clustering dokumen-
dokumen berita berbahasa Indonesia dengan
mengimplementasikan algoritma FIHC.
Fungsionalitas modul processing/clustering
IndoClust

dapat diuraikan berdasarkan use case utama
yang telah diidentifikasi.
4.2 Realisasi Use Case
Realisasi use case dilakukan dengan
mengidentifikasi diagram kelas (class diagram) dan
sequence diagram. Untuk setiap fungsionalitas
utama dari sistem, yang direpresentasikan oleh use
case utama, dapat dibuat diagram kelasnya. Gambar
5 memperlihatkan diagram kelas untuk use case
View Cluster.
Gambar 5. Diagram kelas use case View Cluster
Untuk setiap use case utama, diidentifikasikan
sequence diagram yang menggambarkan interaksi
setiap objek dari kelas perancangan yang terlibat di
dalam use case tersebut. Gambar 6 memperlihatkan
sequence diagram untuk use case View Cluster.
: Pengguna : ViewClusterForm : ResultGeneration: ClusterGeneration : Parameters: Clustering : Documents: PrepareCluster : LogData
1: <<start>>
2: init()
3: init()
4: getDocument( )
5: createMatrix()
6: prepareData( )
7: init( )
8: getParameter( )
9: returnParameter
10: buildCluster( )
11: generateData( )
12: init( )
13: getData( )
14: saveLogData( )
15: getCluster( )
16: displayCluster( )
Gambar 6. Sequence diagram use case View Cluster
5. Implementasi dan Pengujian
5.1 Implementasi Kelas dan Paket
Implementasi kelas dan paket mengacu pada
deskripsi arsitektural dan kelas-kelas yang telah
diidentifikasi. Implementasi paket akan
menghasilkan sejumlah direktori sesuai dengan
nama-nama paket yang telah didefinisikan. Tiap-tiap
direktori berisi file-file yang merupakan representasi
fisik dari kelas-kelas di dalam paket terkait.
Penggunaan paket-paket ini bertujuan untuk
mengorganisir komponen-komponen perangkat
lunak IndoClust ke dalam grup-grup.
5.2 Implementasi Antarmuka
Implementasi antarmuka memiliki kaitan erat
dengan diagram use case. Acuan dasar yang
digunakan dalam tahap ini adalah menghasilkan
antarmuka pengguna untuk setiap use case yang
berhubungan langsung dengan aktor. Hasil
implementasi antarmuka utama IndoClust
diperlihatkan pada Gambar 7.
Gambar 7. Hasil implementasi IndoClust
5.3 Pengujian
Pengujian dilakukan sebagai verifikasi bahwa
perangkat lunak dapat memenuhi spesifikasi
kebutuhan dan berjalan sesuai dengan skenario yang
telah dideskripsikan. Tujuan utama dari tahap
pengujian adalah untuk menemukan kesalahan yang
belum teridentifikasi. Ada dua jenis metode
pengujian yang lazim digunakan untuk menguji
suatu perangkat lunak, yaitu white-box dan black-
box. Pengujian white-box menekankan pada proses
internal, sedangkan pengujian black-box lebih
menekankan pada fungsionalitas sistem.
Pada makalah ini, pengujian dilakukan
menggunakan metode black-box, yaitu dengan
memperhatikan hasil keluaran dari perangkat lunak
IndoClust berdasarkan masukan yang diberikan.
Prosedur pengujian adalah dengan menguji fungsi-
fungsi utama yang terdapat pada perangkat lunak
IndoClust. Fungsi-fungsi utama yang dimaksud di

sini direpresentasikan oleh use case yang telah
didefinisikan pada tahap analisis. Pada pengujian
keseluruhan use case, belum ditemukan adanya
kesalahan hasil keluaran atau tampilan yang tidak
sesuai dengan skenario.
Untuk pengujian kualitas clustering, dilakukan
berdasarkan hasil pengamatan secara manual. Dalam
beberapa kasus uji (dengan query berbeda),
himpunan cluster yang dihasilkan mampu
menemukan keterkaitan antar-berita, dan
menghasilkan topik-topik baru yang merupakan
spesialisasi dari query.
6. Kesimpulan dan Saran
6.1 Kesimpulan
Perangkat lunak document clustering engine
dapat dibangun dengan mengimplementasikan
metode frequent itemset dengan pendekatan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC).
Hasil implementasi dan pengujian
memperlihatkan bahwa IndoClust secara otomatis
dapat melakukan pengelompokan berita berdasarkan
kemiripannya. Secara intuitif, IndoClust juga
mampu mengungkap keterkaitan antar-berita,
sehingga dapat membantu pengguna ketika
melakukan navigasi.
6.2 Saran
Untuk mendapatkan cluster yang lebih
deskriptif, sebaiknya dilakukan pemrosesan awal
(preprocessing) yang lebih baik, misalnya
menambahkan proses stemming bahasa. Dengan
demikian, itemset yang merupakan noise bisa
dicegah untuk menjadi kandidat cluster. Selain itu,
langkah ini juga dapat meningkatkan efisiensi
algoritma clustering.
Secara umum, cluster yang dihasilkan oleh
algoritma FIHC sudah cukup baik. Namun untuk
mengetahui kualitas yang lebih tepat, diperlukan
adanya metode pengukuran kualitas. Selain itu,
sebaiknya dilakukan pembandingan dengan
algoritma lain, sehingga hasilnya lebih optimal.
Daftar Pustaka:
[1] Agrawal, R., Srikant, R., Fast Algorithm for
Mining Association Rules, Proc. 20th Int.
Conf. Very Large Data Bases, VLDB, 487-
499, Morgan Kaufmann, 1994.
[2] Agrawal, R., Imielinski, T., Swami, A., Mining
association rules between sets of items in large
database. In Proceeding of ACM SIGMOD
International Conference on Management of
Data, 207-216, 1993.
[3] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering,
Encyclopedia of Data Warehousing and
Mining Volume 1, Idea Group Reference,
USA, 2005.
[4] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering Using
Frequent Itemsets, SIAM International
Conference on Data Mining, SDM’03, San
Fransisco, CA, United States, 59-70.
[5] Jain, A. K., Murty, M. N., Flynn, P.J., Data
Clustering: A Review, in ACM Computing
Surveys, Vol 32, No. 3 September 1999.
[6] Pressman, R., Software Engineering A
Practitioner’s Approach Fifth Edition, The Mc
Graw Hill Compannies, Inc, 2001.
[7] Wang, K., Xu, C., Liu, B., Clustering
transactions using large items, International
Conference on Information and Knowledge
Management, CIKM’99, United States, 483-
490, 1999.
[8] Wibisono, Y., Khodra, M. L., Clustering
Berita Berbahasa Indonesia, Konferensi
Nasional Sistem Informasi, UNPAS, 2006.

01 indo clust knsi 2007

Recommended

Recommended

More Related Content

Similar to 01 indo clust knsi 2007

Similar to 01 indo clust knsi 2007 (20)

Recently uploaded

Recently uploaded (20)

01 indo clust knsi 2007