SlideShare a Scribd company logo
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
IndoClust: Clustering Engine Berita Berbahasa Indonesia
Didik Dwi Prasetya, Dwi Hendratmo Widiantoro
KK Informatika Sekolah Teknik Elektro dan Informatika ITB
Jln. Ganesha 10 Bandung
didikdwi@gmail.com, dwi@informatika.org
Abstrak
Dampak yang sangat terasa seiring dengan semakin meningkatnya volume berita elektronik berbahasa Indonesia
adalah sulitnya menemukan berita-berita yang relevan. Untuk mengatasi permasalahan ini, clustering merupakan
salah satu pemecahan yang bisa diimplementasikan. Makalah ini menguraikan rancang-bangun perangkat lunak
untuk clustering dokumen-dokumen berita berbahasa Indonesia yang diberi nama IndoClust. Implementasi
IndoClust dilakukan menggunakan metode frequent itemset dengan algoritma Frequent Itemset-based
Hierarchical Clustering (FIHC). Hasil implementasi memperlihatkan bahwa IndoClust mampu
mengelompokkan secara otomatis berita yang memiliki kesamaan ke dalam grup-grup dan menemukan
keterkaitan antar-berita. Dengan demikian, pengguna bisa lebih mudah melakukan navigasi, dan aktivitas
pencarian berita menjadi lebih efektif serta efisien.
Kata kunci : clustering, frequent itemset-based, berita berbahasa Indonesia
1. Pendahuluan
Dewasa ini, orang dengan mudah bisa
mendapatkan informasi berita berbahasa Indonesia
melalui komputer atau peralatan bergerak yang
terhubung ke jaringan Internet. Seiring
bertambahnya situs penyedia berita, menjadikan
volume berita dari waktu ke waktu semakin
meningkat. Walaupun kondisi ini dapat teratasi
dengan memanfaatkan layanan mesin pencari,
namun masih jarang ditemui mesin pencari yang
memiliki kemampuan untuk menganalisis serta
mengelompokkan secara otomatis dokumen-
dokumen berita yang memiliki kemiripan,
khususnya untuk berita berbahasa Indonesia.
Pada kenyataannya, dalam kasus mesin
pencari, seringkali hanya hasil-hasil awal saja yang
dianggap menarik oleh pengguna. Hal ini tentu
sangat wajar, karena mesin pencari umumnya
berusaha menampilkan hasil pencarian dengan
urutan yang paling mirip terhadap query.
Bagaimanapun juga, cara ini tidak begitu efisien
untuk mendapatkan berita yang relevan, karena
keterkaitan antar berita tidak terungkap secara jelas.
Sebagai ilustrasi, pencarian berita dengan query
“bunga” dapat menghasilkan beragam informasi
spesifik, misalnya bunga yang berhubungan dengan
tanaman atau bunga perbankan. Dari sini terlihat
bahwa penemuan berita yang relevan sangat
kompleks, dan memerlukan kecerdasan sistem.
Kata kunci dari permasalahan di atas adalah
efektivitas dan efisiensi penemuan berita yang
relevan. Adapun untuk mengatasinya, dipandang
perlu sekali adanya suatu perangkat lunak bantu
yang mampu “menghadirkan” berita dari berbagai
sumber serta mengorganisasikan dokumen-dokumen
berita sedemikian rupa ke dalam grup-grup,
sehingga dapat memudahkan navigasi. Clustering,
atau biasa disebut unsupervised learning, merupakan
salah satu pemecahan yang menarik untuk
diimplementasikan. Clustering dapat digunakan
untuk membantu menganalisis berita dari satu atau
beberapa sumber, dengan mengelompokkan secara
otomatis berita-berita yang memiliki kesamaan [8].
Pada makalah ini, metode clustering yang
digunakan adalah frequent itemset-based, dengan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC). Intuisi dari metode frequent
itemset-based adalah mengidentifikasikan tiap-tiap
cluster dengan beberapa kata umum, yang disebut
frequent itemset. Oleh karena hanya menggunakan
global frequent item, maka secara drastis FIHC
mampu mengurangi dimensionalitas himpunan
dokumen, sehingga lebih efisien dan scalable.
2. Penelitian Terkait
Metode clustering banyak diterapkan di
berbagai disiplin ilmu, diantaranya adalah bidang
bisnis, biologi, kesehatan, dan komputer. Di bidang
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
komputer, clustering dilakukan pada subbidang
pengolahan citra dan pengolahan dokumen,
khususnya text mining dan information retrieval.
Meskipun clustering dokumen bukan merupakan hal
baru, namun saat ini masih jarang penelitian
mengenai clustering terhadap corpus berita
berbahasa Indonesia.
Salah satu penelitian yang terkait dengan topik
makalah ini adalah penelitian Wibisono dan Khodra
[8]. Di dalam penelitiannya, Wibisono menguraikan
eksperimen clustering berita berbahasa Indonesia
dengan menggunakan algoritma K-Means. Salah
satu keunggulan utama algoritma K-Means adalah
kompleksitas waktu perhitungannya linear O(n). Di
sisi lain, algoritma ini memerlukan intervensi
pengguna untuk menetapkan parameter masukan,
sensitif terhadap inisialisasi cluster centroid, dan
menghasilkan cluster datar.
Secara khusus, makalah ini mencoba mengkaji
lebih lanjut clustering dokumen-dokumen berita
berbahasa Indonesia dari penelitian sebelumnya
dengan metode yang berbeda. Ada perbedaan
mendasar yang perlu digarisbawahi pada makalah
ini, yaitu mengimplementasikan metode clustering
yang lebih efektif dan efisien.
3. Analisis Sistem IndoClust
Perangkat lunak IndoClust adalah sebuah
perangkat lunak aplikasi yang berorientasi objek dan
dikembangkan dengan menggunakan bahasa
pemrograman berorientasi objek. Pemodelan
perangkat lunak IndoClust dilakukan dengan
menggunakan kakas UML (Unified Modelling
Language) yang mengakomodasi metodologi
pengembangan perangkat lunak berorientasi objek.
Bagian ini menguraikan analisis proses
algoritma clustering dan analisis kebutuhan sistem
yang akan dibangun. Analisis proses algoritma
clustering menguraikan algoritma FIHC untuk
clustering dokumen yang berupa berita-berita
berbahasa Indonesia. Untuk analisis kebutuhan
sistem, didasarkan pada tahap analisis dari
metodologi yang digunakan dalam membangun
perangkat lunak, yaitu metodologi Object-Oriented
Software Engineering (OOSE).
3.1 Algoritma FIHC
Algoritma ini diilhami oleh Fung [7]
berdasarkan ide frequent itemset yang dikemukakan
oleh Agrawal [1]. Ide dasarnya, frequent itemset
merepresentasikan sesuatu yang umum pada
dokumen-dokumen di dalam cluster.
FIHC menugaskan (assigning) dokumen-
dokumen ke cluster terbaik dari semua cluster yang
tersedia. FIHC menggunakan pendekatan “cluster-
centered”, dimana kohesi cluster diukur secara
langsung dengan menggunakan frequent itemset.
FIHC juga menggunakan frequent itemset untuk
membangun dan mengorganisir cluster ke dalam
hirarki topik.
Ilustrasi mengenai tahap-tahap clustering
dokumen dengan algoritma FIHC dapat
diperlihatkan seperti diagram alir pada Gambar 1.
Gambar 1. Diagram alir algoritma FIHC
Ada tiga tahap utama untuk
mengimplementasikan algoritma FIHC dalam
clustering dokumen dan menghasilkan hirarki
pohon, yaitu pemilihan frequent itemset,
pembentukan cluster, dan pembentukan pohon
cluster [4].
1. Pemilihan frequent itemset
Tujuan dari pemilihan frequent itemset adalah
untuk mendapatkan kandidat cluster. Masukan
dari tahap ini adalah vektor dokumen high-
dimensional yang diperoleh dari model
representasi dokumen. Pemilihan frequent
itemset dilakukan melalui tahap ekstraksi
frequent itemset. Ekstraksi frequent itemset
adalah langkah persiapan yang lazim dilakukan
dalam algoritma clustering, termasuk pada
algoritma FIHC.
2. Pembentukan cluster
Tahap ini meliputi pembuatan initial cluster
dan melakukan pemisahan cluster (disjointing
cluster). Pembuatan initial cluster dilakukan
pada tiap-tiap global frequent itemset yang
telah diperoleh. Pada tahap ini initial cluster
bisa overlap, karena suatu dokumen biasanya
berisi lebih dari satu global frequent itemset,
sehingga dokumen yang sama mungkin terlihat
di beberapa initial cluster. Adapun tahap
pemisahan cluster bertujuan untuk menghapus
initial cluster yang masih overlap.
3. Pembentukan pohon cluster
Tahap ini melakukan pembentukan hirarki
pohon cluster dan pemangkasan pohon (tree
pruning). Pada tahap ini, cluster yang telah
diperoleh digunakan untuk membangun pohon
cluster (topik), dan hubungan antara induk
(parent) dan anak (children) diciptakan
berdasarkan kemiripannya.
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
3.2 Arsitektur Sistem
Ide dasar dari clustering engine adalah
mengelompokkan dokumen-dokumen hasil
pencarian ke dalam sejumlah cluster dan kemudian
mengorganisasikan dokumen-dokumen sedemikian
rupa sehingga dapat memudahkan pengguna ketika
melakukan navigasi. Bergantung pada pendekatan
algoritma yang digunakan, proses clustering bisa
sangat berlainan. Namun secara garis besar,
clustering engine melakukan dua proses utama, yaitu
preprocessing dan processing.
Sebagaimana lazimnya clustering engine,
sistem IndoClust juga terdiri dari dua komponen
utama, yaitu preprocessing dan processing.
IndoClust berperan sebagai perangkat lunak
komplemen dalam information retrieval. Perangkat
lunak ini diintegrasikan ke mesin pencari yang sudah
disesuaikan fungsionalitasnya untuk menemukan
dokumen-dokumen berita berbahasa Indonesia.
Gambaran umum mengenai arsitektur sistem
IndoClust diperlihatkan pada Gambar 2.
Gambar 2. Arsitektur IndoClust
Tahap preprocessing melakukan pemrosesan
awal terhadap himpunan dokumen berita relevan
yang didapatkan dari mesin pencari. Pemrosesan
awal meliputi pembacaan dan penguraian (parsing)
dokumen, penghapusan stopwords, tokenization,
pembobotan term (term weighting), dan
menciptakan representasi dokumen.
Tahap pemrosesan (processing) adalah
mengimplementasikan algoritma clustering yang
digunakan untuk pengelompokan dokumen-
dokumen berita berbahasa Indonesia. Tahap ini
merupakan tahap inti dalam pembangunan perangkat
lunak IndoClust.
Proses pengelompokan berita pada IndoClust
dilakukan secara on-the-fly (saat runtime). Masukan
yang diterima oleh IndoClust adalah himpunan
berita hasil pencarian pada mesin pencari yang
relevan terhadap kata kunci pencarian. Adapun
keluaran yang dihasilkan adalah satu atau beberapa
cluster yang masing-masing terhubung ke dokumen-
dokumen berita masukan sesuai dengan
kemiripannya. Hasil keluaran ini akan disajikan
sebagai respon terhadap permintaan (request)
pengguna.
3.3 Fitur Sistem
Perangkat lunak IndoClust memiliki beberapa
fungsi utama, antara lain:
1. Menerima masukan kata pencarian dari
pengguna dan mengirimkan ke mesin pencari.
2. Memiliki kemampuan untuk menerima
masukan parameter pengaturan kesukaan dari
pengguna dan menerapkannya selama sesi
pengguna tersebut aktif.
3. Mampu menerima masukan parameter
pengaturan lanjut guna menghasilkan cluster
yang lebih spesifik atau lebih umum.
4. Melakukan pemrosesan awal (preprocessing)
terhadap himpunan dokumen berita hasil
pencarian yang dikembalikan oleh mesin
pencari.
5. Melakukan pengelompokan (clustering)
terhadap dokumen-dokumen berita hasil
pencarian berdasarkan kemiripannya.
6. Membangun struktur pohon cluster yang
masing-masing berisi satu atau beberapa
dokumen relevan.
7. Menyajikan dokumen-dokumen berita ke
pengguna dalam bentuk cluster bersarang.
Sumber-sumber berita yang ditangani
IndoClust sudah didefinisikan, sehingga ruang
lingkup pencarian dan pengelompokan terbatas pada
sumber-sumber tersebut. Adapun dokumen yang
ditangani adalah berita-berita berbahasa Indonesia
dalam format file umum, yaitu Hypertext Markup
Language (HTML).
3.4 Pemodelan Use Case
Aktor-aktor yang terlibat pada sistem dapat
didefinisikan dengan mengidentifikasi sesuatu yang
berkomunikasi dengan sistem dan merupakan bagian
eksternal. Deskripsi mengenai masing-masing aktor
diperlihatkan pada Tabel 1.
Tabel 1. Definisi aktor
No Aktor Deskripsi
A1 Pengguna Pengguna perangkat lunak
yang akan berhubungan
langsung dengan sistem.
A2 Mesin Pencari Perangkat lunak untuk
mencari dokumen berita
dan mengembalikan hasil
berupa himpunan dokumen
sebagai masukan sistem.
A3 Administrator Administrator sistem yang
melakukan pemantauan
terhadap kerja sistem
terkait dengan aktivitas
pengguna.
Pembuatan model use case bertujuan untuk
mengidentifikasi fungsionalitas perangkat lunak
secara arsitektural. Berdasarkan fungsi-fungsi utama
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
yang telah dideskripsikan, dapat didefinisikan use
case yang terlibat. Definisi dan deskripsi masing-
masing use case diperlihatkan pada Tabel 2.
Tabel 1. Definisi use case
No Use Case Deskripsi
U1 Search News Untuk menerima
masukan query dari
pengguna dan
melakukan pencarian
berita berdasarkan query.
U2 Preprocessing Sistem melakukan
pemrosesan awal.
U3 Relevant
Document
Mesin pencari
mengembalikan hasil
pencarian berupa
dokumen-dokumen yang
relevan.
U4 Set Parameter Pengguna menetapkan
parameter untuk
clustering berita dan
pengaturan kesukaan.
U5 Clustering Sistem menerima data
masukan dan
menerapkan algoritma
clustering dokumen.
U6 View Cluster Sistem menampilkan
hasil clustering berikut
dokumen-dokumen
relevan yang telah
dikelompokkan.
U7 Login Admin Sistem melakukan
verifikasi identitas
administrator.
U8 View Log Administrator memantau
kerja sistem.
Representasi diagram use case memperlihatkan
interaksi antara aktor dan use case. Dari perspektif
pengguna, diagram use case memberikan gambaran
mengenai perangkat lunak yang akan dibangun.
Bentuk diagram use case dari perangkat lunak
IndoClust diperlihatkan pada Gambar 3.
Clustering
Login Admin
Preprocessing
Set Parameter
View Cluster
Pengguna
Search News
<<include>>
Relevant Document
Mesin Pencari
View Log
Administrator
<<include>>
<<include>>
Gambar 3. Diagram use case
4. Perancangan Sistem
4.1 Perancangan Arsitektur
Perancangan arsitektur mendefinisikan
keterkaitan antar-komponen utama yang akan
membentuk aplikasi program. Berdasarkan analisis
proses clustering dokumen yang diuraikan pada
tahap analisis, komponen penyusun sistem IndoClust
berhubungan dengan komponen luar, yaitu mesin
pencari. Ilustrasi mengenai komponen penyusun
sistem IndoClust dan keterhubungannya dengan
komponen luar diperlihatkan pada Gambar 4.
Gambar 4. Komponen penyusun IndoClust
Komponen yang akan dirancang-bangun
diperlihatkan sebagai bidang terarsir, sedangkan
bidang tak terarsir merepresentasikan komponen
yang sudah ada.
Berdasarkan hasil analisis dan deskripsi
arsitektur, secara fungsionalitas, IndoClust hanya
bertugas mengelompokkan dokumen hasil
pencarian. Namun secara arsitektur, sistem
IndoClust terdiri dari tiga modul utama, yaitu user
interface, preprocessing, dan processing/clustering.
1. Modul user interface
Modul user interface berperan sebagai front-
end sistem, yang berhubungan langsung
dengan pengguna. Walaupun mesin pencari
sudah menyediakan antarmuka pengguna,
namun model antarmukanya berbeda dengan
clustering engine, sehingga perlu dilakukan
perancangan khusus.
2. Modul preprocessing
Modul ini menyediakan fungsionalitas
pemrosesan awal (preprocessing) terhadap
himpunan dokumen. Pemrosesan-pemrosesan
yang dilakukan meliputi stopwords,
tokenization, dan pengambilan dokumen hasil
pencarian.
3. Modul processing/clustering
Modul processing/clustering menyediakan
fungsi utama yang mencerminkan
fungsionalitas dari sistem IndoClust. Sesuai
dengan hasil tahap analisis, modul ini bertujuan
melakukan proses clustering dokumen-
dokumen berita berbahasa Indonesia dengan
mengimplementasikan algoritma FIHC.
Fungsionalitas modul processing/clustering
IndoClust
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
dapat diuraikan berdasarkan use case utama
yang telah diidentifikasi.
4.2 Realisasi Use Case
Realisasi use case dilakukan dengan
mengidentifikasi diagram kelas (class diagram) dan
sequence diagram. Untuk setiap fungsionalitas
utama dari sistem, yang direpresentasikan oleh use
case utama, dapat dibuat diagram kelasnya. Gambar
5 memperlihatkan diagram kelas untuk use case
View Cluster.
Gambar 5. Diagram kelas use case View Cluster
Untuk setiap use case utama, diidentifikasikan
sequence diagram yang menggambarkan interaksi
setiap objek dari kelas perancangan yang terlibat di
dalam use case tersebut. Gambar 6 memperlihatkan
sequence diagram untuk use case View Cluster.
: Pengguna : ViewClusterForm : ResultGeneration: ClusterGeneration : Parameters: Clustering : Documents: PrepareCluster : LogData
1: <<start>>
2: init()
3: init()
4: getDocument( )
5: createMatrix()
6: prepareData( )
7: init( )
8: getParameter( )
9: returnParameter
10: buildCluster( )
11: generateData( )
12: init( )
13: getData( )
14: saveLogData( )
15: getCluster( )
16: displayCluster( )
Gambar 6. Sequence diagram use case View Cluster
5. Implementasi dan Pengujian
5.1 Implementasi Kelas dan Paket
Implementasi kelas dan paket mengacu pada
deskripsi arsitektural dan kelas-kelas yang telah
diidentifikasi. Implementasi paket akan
menghasilkan sejumlah direktori sesuai dengan
nama-nama paket yang telah didefinisikan. Tiap-tiap
direktori berisi file-file yang merupakan representasi
fisik dari kelas-kelas di dalam paket terkait.
Penggunaan paket-paket ini bertujuan untuk
mengorganisir komponen-komponen perangkat
lunak IndoClust ke dalam grup-grup.
5.2 Implementasi Antarmuka
Implementasi antarmuka memiliki kaitan erat
dengan diagram use case. Acuan dasar yang
digunakan dalam tahap ini adalah menghasilkan
antarmuka pengguna untuk setiap use case yang
berhubungan langsung dengan aktor. Hasil
implementasi antarmuka utama IndoClust
diperlihatkan pada Gambar 7.
Gambar 7. Hasil implementasi IndoClust
5.3 Pengujian
Pengujian dilakukan sebagai verifikasi bahwa
perangkat lunak dapat memenuhi spesifikasi
kebutuhan dan berjalan sesuai dengan skenario yang
telah dideskripsikan. Tujuan utama dari tahap
pengujian adalah untuk menemukan kesalahan yang
belum teridentifikasi. Ada dua jenis metode
pengujian yang lazim digunakan untuk menguji
suatu perangkat lunak, yaitu white-box dan black-
box. Pengujian white-box menekankan pada proses
internal, sedangkan pengujian black-box lebih
menekankan pada fungsionalitas sistem.
Pada makalah ini, pengujian dilakukan
menggunakan metode black-box, yaitu dengan
memperhatikan hasil keluaran dari perangkat lunak
IndoClust berdasarkan masukan yang diberikan.
Prosedur pengujian adalah dengan menguji fungsi-
fungsi utama yang terdapat pada perangkat lunak
IndoClust. Fungsi-fungsi utama yang dimaksud di
Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
sini direpresentasikan oleh use case yang telah
didefinisikan pada tahap analisis. Pada pengujian
keseluruhan use case, belum ditemukan adanya
kesalahan hasil keluaran atau tampilan yang tidak
sesuai dengan skenario.
Untuk pengujian kualitas clustering, dilakukan
berdasarkan hasil pengamatan secara manual. Dalam
beberapa kasus uji (dengan query berbeda),
himpunan cluster yang dihasilkan mampu
menemukan keterkaitan antar-berita, dan
menghasilkan topik-topik baru yang merupakan
spesialisasi dari query.
6. Kesimpulan dan Saran
6.1 Kesimpulan
Perangkat lunak document clustering engine
dapat dibangun dengan mengimplementasikan
metode frequent itemset dengan pendekatan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC).
Hasil implementasi dan pengujian
memperlihatkan bahwa IndoClust secara otomatis
dapat melakukan pengelompokan berita berdasarkan
kemiripannya. Secara intuitif, IndoClust juga
mampu mengungkap keterkaitan antar-berita,
sehingga dapat membantu pengguna ketika
melakukan navigasi.
6.2 Saran
Untuk mendapatkan cluster yang lebih
deskriptif, sebaiknya dilakukan pemrosesan awal
(preprocessing) yang lebih baik, misalnya
menambahkan proses stemming bahasa. Dengan
demikian, itemset yang merupakan noise bisa
dicegah untuk menjadi kandidat cluster. Selain itu,
langkah ini juga dapat meningkatkan efisiensi
algoritma clustering.
Secara umum, cluster yang dihasilkan oleh
algoritma FIHC sudah cukup baik. Namun untuk
mengetahui kualitas yang lebih tepat, diperlukan
adanya metode pengukuran kualitas. Selain itu,
sebaiknya dilakukan pembandingan dengan
algoritma lain, sehingga hasilnya lebih optimal.
Daftar Pustaka:
[1] Agrawal, R., Srikant, R., Fast Algorithm for
Mining Association Rules, Proc. 20th Int.
Conf. Very Large Data Bases, VLDB, 487-
499, Morgan Kaufmann, 1994.
[2] Agrawal, R., Imielinski, T., Swami, A., Mining
association rules between sets of items in large
database. In Proceeding of ACM SIGMOD
International Conference on Management of
Data, 207-216, 1993.
[3] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering,
Encyclopedia of Data Warehousing and
Mining Volume 1, Idea Group Reference,
USA, 2005.
[4] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering Using
Frequent Itemsets, SIAM International
Conference on Data Mining, SDM’03, San
Fransisco, CA, United States, 59-70.
[5] Jain, A. K., Murty, M. N., Flynn, P.J., Data
Clustering: A Review, in ACM Computing
Surveys, Vol 32, No. 3 September 1999.
[6] Pressman, R., Software Engineering A
Practitioner’s Approach Fifth Edition, The Mc
Graw Hill Compannies, Inc, 2001.
[7] Wang, K., Xu, C., Liu, B., Clustering
transactions using large items, International
Conference on Information and Knowledge
Management, CIKM’99, United States, 483-
490, 1999.
[8] Wibisono, Y., Khodra, M. L., Clustering
Berita Berbahasa Indonesia, Konferensi
Nasional Sistem Informasi, UNPAS, 2006.

More Related Content

Similar to 01 indo clust knsi 2007

Knowledge management tools
Knowledge management toolsKnowledge management tools
Knowledge management tools
Putrinurfitriana
 
Makalah Konsep Perancangan dalam Automasi Perpustakaan
Makalah Konsep Perancangan dalam Automasi PerpustakaanMakalah Konsep Perancangan dalam Automasi Perpustakaan
Makalah Konsep Perancangan dalam Automasi PerpustakaanMateri Kuliah Online
 
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...
Tugas sim masda alif araffi ( yananto mihadi putra)   pengembangan sistem inf...Tugas sim masda alif araffi ( yananto mihadi putra)   pengembangan sistem inf...
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...
masda araffi
 
Bab 1
Bab 1Bab 1
Bab 1
mussirin
 
METODOLOGI PENGEMBANGAN SISTEM
METODOLOGI PENGEMBANGAN SISTEMMETODOLOGI PENGEMBANGAN SISTEM
METODOLOGI PENGEMBANGAN SISTEM
NutfahKamila
 
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuan
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuanmanajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuan
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuanRobin Yonathan
 
Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6
AbdulFajri2
 
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaAnalisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Maitsa Anggraini
 
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikanMakalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
Fajar Jabrik
 
Naskah publikasi 08.11.2133
Naskah publikasi 08.11.2133Naskah publikasi 08.11.2133
Naskah publikasi 08.11.2133
Fahrul Cool
 
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI BERBASIS WEB PADA TELIC ENGLIS...
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI  BERBASIS WEB PADA TELIC ENGLIS...PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI  BERBASIS WEB PADA TELIC ENGLIS...
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI BERBASIS WEB PADA TELIC ENGLIS...
Egidio A Magno Ximenes
 
Publikasi 09.22.1115
Publikasi 09.22.1115Publikasi 09.22.1115
Publikasi 09.22.1115Jamil Jamil
 
Muhammad farhan fadhlillah 43218010171 tm 9
Muhammad farhan fadhlillah 43218010171 tm 9Muhammad farhan fadhlillah 43218010171 tm 9
Muhammad farhan fadhlillah 43218010171 tm 9
FarhanFadhlillah1
 
Bab2
Bab2Bab2
Bab2
Judie4
 
Materi Permodelan Perangkat Lunak 1.pptx
Materi Permodelan Perangkat Lunak 1.pptxMateri Permodelan Perangkat Lunak 1.pptx
Materi Permodelan Perangkat Lunak 1.pptx
ardanaadam1
 
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
Ellya Yasmien
 
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESSISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
Haris Pramudia
 
Pembahasan proposal
Pembahasan proposalPembahasan proposal
Pembahasan proposal
ami helter
 

Similar to 01 indo clust knsi 2007 (20)

Knowledge management tools
Knowledge management toolsKnowledge management tools
Knowledge management tools
 
Makalah Konsep Perancangan dalam Automasi Perpustakaan
Makalah Konsep Perancangan dalam Automasi PerpustakaanMakalah Konsep Perancangan dalam Automasi Perpustakaan
Makalah Konsep Perancangan dalam Automasi Perpustakaan
 
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...
Tugas sim masda alif araffi ( yananto mihadi putra)   pengembangan sistem inf...Tugas sim masda alif araffi ( yananto mihadi putra)   pengembangan sistem inf...
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...
 
Bab 1
Bab 1Bab 1
Bab 1
 
SMSGATEWAY
SMSGATEWAYSMSGATEWAY
SMSGATEWAY
 
METODOLOGI PENGEMBANGAN SISTEM
METODOLOGI PENGEMBANGAN SISTEMMETODOLOGI PENGEMBANGAN SISTEM
METODOLOGI PENGEMBANGAN SISTEM
 
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuan
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuanmanajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuan
manajemen pengetahuan - Lecture 8 perangkat manajemen pengetahuan
 
Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6Abdul fajri 43219110268 tm6
Abdul fajri 43219110268 tm6
 
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaAnalisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
Analisis Penerapan Sistem Informasi pada PT GO-JEK Indonesia
 
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikanMakalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikan
 
Naskah publikasi 08.11.2133
Naskah publikasi 08.11.2133Naskah publikasi 08.11.2133
Naskah publikasi 08.11.2133
 
Tugas 2
Tugas 2Tugas 2
Tugas 2
 
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI BERBASIS WEB PADA TELIC ENGLIS...
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI  BERBASIS WEB PADA TELIC ENGLIS...PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI  BERBASIS WEB PADA TELIC ENGLIS...
PERANCANGAN DAN IMPLEMENTASI SISTEM INFORMASI BERBASIS WEB PADA TELIC ENGLIS...
 
Publikasi 09.22.1115
Publikasi 09.22.1115Publikasi 09.22.1115
Publikasi 09.22.1115
 
Muhammad farhan fadhlillah 43218010171 tm 9
Muhammad farhan fadhlillah 43218010171 tm 9Muhammad farhan fadhlillah 43218010171 tm 9
Muhammad farhan fadhlillah 43218010171 tm 9
 
Bab2
Bab2Bab2
Bab2
 
Materi Permodelan Perangkat Lunak 1.pptx
Materi Permodelan Perangkat Lunak 1.pptxMateri Permodelan Perangkat Lunak 1.pptx
Materi Permodelan Perangkat Lunak 1.pptx
 
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...
 
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESSISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYES
 
Pembahasan proposal
Pembahasan proposalPembahasan proposal
Pembahasan proposal
 

Recently uploaded

Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs KonsekuensiAksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
sabir51
 
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptxRPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
YongYongYong1
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
ssuser4dafea
 
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdfMakalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
Andre664723
 
Modul Ajar Statistika Data Fase F kelas
Modul Ajar Statistika Data Fase F  kelasModul Ajar Statistika Data Fase F  kelas
Modul Ajar Statistika Data Fase F kelas
ananda238570
 
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdfTugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
nurfaridah271
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
AdePutraTunggali
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
YuristaAndriyani1
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Yayasan Pusat Kajian dan Perlindungan Anak
 
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28 Juni 2024
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28  Juni 2024Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28  Juni 2024
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28 Juni 2024
Kanaidi ken
 
materi penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remajamateri penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remaja
DewiInekePuteri
 
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIANSINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
NanieIbrahim
 
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptxmodul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
IrfanAudah1
 
Tugas CGP Mulai dari diri - Modul 2.1.pdf
Tugas CGP Mulai dari diri - Modul 2.1.pdfTugas CGP Mulai dari diri - Modul 2.1.pdf
Tugas CGP Mulai dari diri - Modul 2.1.pdf
Thahir9
 
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Fathan Emran
 
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum MerdekaModul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Fathan Emran
 
Laporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docxLaporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docx
RUBEN Mbiliyora
 
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptxPembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
Sosdiklihparmassdm
 
Aksi Nyata Erliana Mudah bukan memahamii
Aksi Nyata Erliana Mudah bukan memahamiiAksi Nyata Erliana Mudah bukan memahamii
Aksi Nyata Erliana Mudah bukan memahamii
esmaducoklat
 
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata anginMedia Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
margagurifma2023
 

Recently uploaded (20)

Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs KonsekuensiAksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
Aksi Nyata Disiplin Positif: Hukuman vs Restitusi vs Konsekuensi
 
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptxRPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
RPH BAHASA MELAYU TAHUN 6 SJKC 2024.pptx
 
Pemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptxPemutakhiran Data dosen pada sister.pptx
Pemutakhiran Data dosen pada sister.pptx
 
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdfMakalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
Makalah Hukum Lingkungan Urgensi Kebijakan TAPERA .pdf
 
Modul Ajar Statistika Data Fase F kelas
Modul Ajar Statistika Data Fase F  kelasModul Ajar Statistika Data Fase F  kelas
Modul Ajar Statistika Data Fase F kelas
 
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdfTugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
Tugas_Rasianto-Refleksi - Pembelajaran Diferensiasi dalam PJOK.pdf
 
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi KomunikasiMateri Feedback (umpan balik) kelas Psikologi Komunikasi
Materi Feedback (umpan balik) kelas Psikologi Komunikasi
 
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdfMODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
MODUL P5 FASE B KELAS 4 MEMBUAT COBRICK.pdf
 
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada AnakDefenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
Defenisi Anak serta Usia Anak dan Kekerasan yang mungki terjadi pada Anak
 
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28 Juni 2024
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28  Juni 2024Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28  Juni 2024
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28 Juni 2024
 
materi penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remajamateri penyuluhan kesehatan reproduksi remaja
materi penyuluhan kesehatan reproduksi remaja
 
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIANSINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
SINOPSIS, TEMA DAN PERSOALAN NOVEL MENITI IMPIAN
 
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptxmodul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
modul 1.4 Desiminasi-Budaya-Positif.pptx.pptx
 
Tugas CGP Mulai dari diri - Modul 2.1.pdf
Tugas CGP Mulai dari diri - Modul 2.1.pdfTugas CGP Mulai dari diri - Modul 2.1.pdf
Tugas CGP Mulai dari diri - Modul 2.1.pdf
 
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaModul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
Modul Ajar Matematika Kelas 11 Fase F Kurikulum Merdeka
 
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum MerdekaModul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
Modul Ajar PAI dan Budi Pekerti Kelas 8 Fase D Kurikulum Merdeka
 
Laporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docxLaporan Pembina Pramuka sd format doc.docx
Laporan Pembina Pramuka sd format doc.docx
 
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptxPembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
Pembentukan-Pantarlih-Pilkada-Kabupaten-Tapin.pptx
 
Aksi Nyata Erliana Mudah bukan memahamii
Aksi Nyata Erliana Mudah bukan memahamiiAksi Nyata Erliana Mudah bukan memahamii
Aksi Nyata Erliana Mudah bukan memahamii
 
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata anginMedia Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
 

01 indo clust knsi 2007

  • 1. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom IndoClust: Clustering Engine Berita Berbahasa Indonesia Didik Dwi Prasetya, Dwi Hendratmo Widiantoro KK Informatika Sekolah Teknik Elektro dan Informatika ITB Jln. Ganesha 10 Bandung didikdwi@gmail.com, dwi@informatika.org Abstrak Dampak yang sangat terasa seiring dengan semakin meningkatnya volume berita elektronik berbahasa Indonesia adalah sulitnya menemukan berita-berita yang relevan. Untuk mengatasi permasalahan ini, clustering merupakan salah satu pemecahan yang bisa diimplementasikan. Makalah ini menguraikan rancang-bangun perangkat lunak untuk clustering dokumen-dokumen berita berbahasa Indonesia yang diberi nama IndoClust. Implementasi IndoClust dilakukan menggunakan metode frequent itemset dengan algoritma Frequent Itemset-based Hierarchical Clustering (FIHC). Hasil implementasi memperlihatkan bahwa IndoClust mampu mengelompokkan secara otomatis berita yang memiliki kesamaan ke dalam grup-grup dan menemukan keterkaitan antar-berita. Dengan demikian, pengguna bisa lebih mudah melakukan navigasi, dan aktivitas pencarian berita menjadi lebih efektif serta efisien. Kata kunci : clustering, frequent itemset-based, berita berbahasa Indonesia 1. Pendahuluan Dewasa ini, orang dengan mudah bisa mendapatkan informasi berita berbahasa Indonesia melalui komputer atau peralatan bergerak yang terhubung ke jaringan Internet. Seiring bertambahnya situs penyedia berita, menjadikan volume berita dari waktu ke waktu semakin meningkat. Walaupun kondisi ini dapat teratasi dengan memanfaatkan layanan mesin pencari, namun masih jarang ditemui mesin pencari yang memiliki kemampuan untuk menganalisis serta mengelompokkan secara otomatis dokumen- dokumen berita yang memiliki kemiripan, khususnya untuk berita berbahasa Indonesia. Pada kenyataannya, dalam kasus mesin pencari, seringkali hanya hasil-hasil awal saja yang dianggap menarik oleh pengguna. Hal ini tentu sangat wajar, karena mesin pencari umumnya berusaha menampilkan hasil pencarian dengan urutan yang paling mirip terhadap query. Bagaimanapun juga, cara ini tidak begitu efisien untuk mendapatkan berita yang relevan, karena keterkaitan antar berita tidak terungkap secara jelas. Sebagai ilustrasi, pencarian berita dengan query “bunga” dapat menghasilkan beragam informasi spesifik, misalnya bunga yang berhubungan dengan tanaman atau bunga perbankan. Dari sini terlihat bahwa penemuan berita yang relevan sangat kompleks, dan memerlukan kecerdasan sistem. Kata kunci dari permasalahan di atas adalah efektivitas dan efisiensi penemuan berita yang relevan. Adapun untuk mengatasinya, dipandang perlu sekali adanya suatu perangkat lunak bantu yang mampu “menghadirkan” berita dari berbagai sumber serta mengorganisasikan dokumen-dokumen berita sedemikian rupa ke dalam grup-grup, sehingga dapat memudahkan navigasi. Clustering, atau biasa disebut unsupervised learning, merupakan salah satu pemecahan yang menarik untuk diimplementasikan. Clustering dapat digunakan untuk membantu menganalisis berita dari satu atau beberapa sumber, dengan mengelompokkan secara otomatis berita-berita yang memiliki kesamaan [8]. Pada makalah ini, metode clustering yang digunakan adalah frequent itemset-based, dengan algoritma Frequent Itemset-based Hierarchical Clustering (FIHC). Intuisi dari metode frequent itemset-based adalah mengidentifikasikan tiap-tiap cluster dengan beberapa kata umum, yang disebut frequent itemset. Oleh karena hanya menggunakan global frequent item, maka secara drastis FIHC mampu mengurangi dimensionalitas himpunan dokumen, sehingga lebih efisien dan scalable. 2. Penelitian Terkait Metode clustering banyak diterapkan di berbagai disiplin ilmu, diantaranya adalah bidang bisnis, biologi, kesehatan, dan komputer. Di bidang
  • 2. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom komputer, clustering dilakukan pada subbidang pengolahan citra dan pengolahan dokumen, khususnya text mining dan information retrieval. Meskipun clustering dokumen bukan merupakan hal baru, namun saat ini masih jarang penelitian mengenai clustering terhadap corpus berita berbahasa Indonesia. Salah satu penelitian yang terkait dengan topik makalah ini adalah penelitian Wibisono dan Khodra [8]. Di dalam penelitiannya, Wibisono menguraikan eksperimen clustering berita berbahasa Indonesia dengan menggunakan algoritma K-Means. Salah satu keunggulan utama algoritma K-Means adalah kompleksitas waktu perhitungannya linear O(n). Di sisi lain, algoritma ini memerlukan intervensi pengguna untuk menetapkan parameter masukan, sensitif terhadap inisialisasi cluster centroid, dan menghasilkan cluster datar. Secara khusus, makalah ini mencoba mengkaji lebih lanjut clustering dokumen-dokumen berita berbahasa Indonesia dari penelitian sebelumnya dengan metode yang berbeda. Ada perbedaan mendasar yang perlu digarisbawahi pada makalah ini, yaitu mengimplementasikan metode clustering yang lebih efektif dan efisien. 3. Analisis Sistem IndoClust Perangkat lunak IndoClust adalah sebuah perangkat lunak aplikasi yang berorientasi objek dan dikembangkan dengan menggunakan bahasa pemrograman berorientasi objek. Pemodelan perangkat lunak IndoClust dilakukan dengan menggunakan kakas UML (Unified Modelling Language) yang mengakomodasi metodologi pengembangan perangkat lunak berorientasi objek. Bagian ini menguraikan analisis proses algoritma clustering dan analisis kebutuhan sistem yang akan dibangun. Analisis proses algoritma clustering menguraikan algoritma FIHC untuk clustering dokumen yang berupa berita-berita berbahasa Indonesia. Untuk analisis kebutuhan sistem, didasarkan pada tahap analisis dari metodologi yang digunakan dalam membangun perangkat lunak, yaitu metodologi Object-Oriented Software Engineering (OOSE). 3.1 Algoritma FIHC Algoritma ini diilhami oleh Fung [7] berdasarkan ide frequent itemset yang dikemukakan oleh Agrawal [1]. Ide dasarnya, frequent itemset merepresentasikan sesuatu yang umum pada dokumen-dokumen di dalam cluster. FIHC menugaskan (assigning) dokumen- dokumen ke cluster terbaik dari semua cluster yang tersedia. FIHC menggunakan pendekatan “cluster- centered”, dimana kohesi cluster diukur secara langsung dengan menggunakan frequent itemset. FIHC juga menggunakan frequent itemset untuk membangun dan mengorganisir cluster ke dalam hirarki topik. Ilustrasi mengenai tahap-tahap clustering dokumen dengan algoritma FIHC dapat diperlihatkan seperti diagram alir pada Gambar 1. Gambar 1. Diagram alir algoritma FIHC Ada tiga tahap utama untuk mengimplementasikan algoritma FIHC dalam clustering dokumen dan menghasilkan hirarki pohon, yaitu pemilihan frequent itemset, pembentukan cluster, dan pembentukan pohon cluster [4]. 1. Pemilihan frequent itemset Tujuan dari pemilihan frequent itemset adalah untuk mendapatkan kandidat cluster. Masukan dari tahap ini adalah vektor dokumen high- dimensional yang diperoleh dari model representasi dokumen. Pemilihan frequent itemset dilakukan melalui tahap ekstraksi frequent itemset. Ekstraksi frequent itemset adalah langkah persiapan yang lazim dilakukan dalam algoritma clustering, termasuk pada algoritma FIHC. 2. Pembentukan cluster Tahap ini meliputi pembuatan initial cluster dan melakukan pemisahan cluster (disjointing cluster). Pembuatan initial cluster dilakukan pada tiap-tiap global frequent itemset yang telah diperoleh. Pada tahap ini initial cluster bisa overlap, karena suatu dokumen biasanya berisi lebih dari satu global frequent itemset, sehingga dokumen yang sama mungkin terlihat di beberapa initial cluster. Adapun tahap pemisahan cluster bertujuan untuk menghapus initial cluster yang masih overlap. 3. Pembentukan pohon cluster Tahap ini melakukan pembentukan hirarki pohon cluster dan pemangkasan pohon (tree pruning). Pada tahap ini, cluster yang telah diperoleh digunakan untuk membangun pohon cluster (topik), dan hubungan antara induk (parent) dan anak (children) diciptakan berdasarkan kemiripannya.
  • 3. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom 3.2 Arsitektur Sistem Ide dasar dari clustering engine adalah mengelompokkan dokumen-dokumen hasil pencarian ke dalam sejumlah cluster dan kemudian mengorganisasikan dokumen-dokumen sedemikian rupa sehingga dapat memudahkan pengguna ketika melakukan navigasi. Bergantung pada pendekatan algoritma yang digunakan, proses clustering bisa sangat berlainan. Namun secara garis besar, clustering engine melakukan dua proses utama, yaitu preprocessing dan processing. Sebagaimana lazimnya clustering engine, sistem IndoClust juga terdiri dari dua komponen utama, yaitu preprocessing dan processing. IndoClust berperan sebagai perangkat lunak komplemen dalam information retrieval. Perangkat lunak ini diintegrasikan ke mesin pencari yang sudah disesuaikan fungsionalitasnya untuk menemukan dokumen-dokumen berita berbahasa Indonesia. Gambaran umum mengenai arsitektur sistem IndoClust diperlihatkan pada Gambar 2. Gambar 2. Arsitektur IndoClust Tahap preprocessing melakukan pemrosesan awal terhadap himpunan dokumen berita relevan yang didapatkan dari mesin pencari. Pemrosesan awal meliputi pembacaan dan penguraian (parsing) dokumen, penghapusan stopwords, tokenization, pembobotan term (term weighting), dan menciptakan representasi dokumen. Tahap pemrosesan (processing) adalah mengimplementasikan algoritma clustering yang digunakan untuk pengelompokan dokumen- dokumen berita berbahasa Indonesia. Tahap ini merupakan tahap inti dalam pembangunan perangkat lunak IndoClust. Proses pengelompokan berita pada IndoClust dilakukan secara on-the-fly (saat runtime). Masukan yang diterima oleh IndoClust adalah himpunan berita hasil pencarian pada mesin pencari yang relevan terhadap kata kunci pencarian. Adapun keluaran yang dihasilkan adalah satu atau beberapa cluster yang masing-masing terhubung ke dokumen- dokumen berita masukan sesuai dengan kemiripannya. Hasil keluaran ini akan disajikan sebagai respon terhadap permintaan (request) pengguna. 3.3 Fitur Sistem Perangkat lunak IndoClust memiliki beberapa fungsi utama, antara lain: 1. Menerima masukan kata pencarian dari pengguna dan mengirimkan ke mesin pencari. 2. Memiliki kemampuan untuk menerima masukan parameter pengaturan kesukaan dari pengguna dan menerapkannya selama sesi pengguna tersebut aktif. 3. Mampu menerima masukan parameter pengaturan lanjut guna menghasilkan cluster yang lebih spesifik atau lebih umum. 4. Melakukan pemrosesan awal (preprocessing) terhadap himpunan dokumen berita hasil pencarian yang dikembalikan oleh mesin pencari. 5. Melakukan pengelompokan (clustering) terhadap dokumen-dokumen berita hasil pencarian berdasarkan kemiripannya. 6. Membangun struktur pohon cluster yang masing-masing berisi satu atau beberapa dokumen relevan. 7. Menyajikan dokumen-dokumen berita ke pengguna dalam bentuk cluster bersarang. Sumber-sumber berita yang ditangani IndoClust sudah didefinisikan, sehingga ruang lingkup pencarian dan pengelompokan terbatas pada sumber-sumber tersebut. Adapun dokumen yang ditangani adalah berita-berita berbahasa Indonesia dalam format file umum, yaitu Hypertext Markup Language (HTML). 3.4 Pemodelan Use Case Aktor-aktor yang terlibat pada sistem dapat didefinisikan dengan mengidentifikasi sesuatu yang berkomunikasi dengan sistem dan merupakan bagian eksternal. Deskripsi mengenai masing-masing aktor diperlihatkan pada Tabel 1. Tabel 1. Definisi aktor No Aktor Deskripsi A1 Pengguna Pengguna perangkat lunak yang akan berhubungan langsung dengan sistem. A2 Mesin Pencari Perangkat lunak untuk mencari dokumen berita dan mengembalikan hasil berupa himpunan dokumen sebagai masukan sistem. A3 Administrator Administrator sistem yang melakukan pemantauan terhadap kerja sistem terkait dengan aktivitas pengguna. Pembuatan model use case bertujuan untuk mengidentifikasi fungsionalitas perangkat lunak secara arsitektural. Berdasarkan fungsi-fungsi utama
  • 4. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom yang telah dideskripsikan, dapat didefinisikan use case yang terlibat. Definisi dan deskripsi masing- masing use case diperlihatkan pada Tabel 2. Tabel 1. Definisi use case No Use Case Deskripsi U1 Search News Untuk menerima masukan query dari pengguna dan melakukan pencarian berita berdasarkan query. U2 Preprocessing Sistem melakukan pemrosesan awal. U3 Relevant Document Mesin pencari mengembalikan hasil pencarian berupa dokumen-dokumen yang relevan. U4 Set Parameter Pengguna menetapkan parameter untuk clustering berita dan pengaturan kesukaan. U5 Clustering Sistem menerima data masukan dan menerapkan algoritma clustering dokumen. U6 View Cluster Sistem menampilkan hasil clustering berikut dokumen-dokumen relevan yang telah dikelompokkan. U7 Login Admin Sistem melakukan verifikasi identitas administrator. U8 View Log Administrator memantau kerja sistem. Representasi diagram use case memperlihatkan interaksi antara aktor dan use case. Dari perspektif pengguna, diagram use case memberikan gambaran mengenai perangkat lunak yang akan dibangun. Bentuk diagram use case dari perangkat lunak IndoClust diperlihatkan pada Gambar 3. Clustering Login Admin Preprocessing Set Parameter View Cluster Pengguna Search News <<include>> Relevant Document Mesin Pencari View Log Administrator <<include>> <<include>> Gambar 3. Diagram use case 4. Perancangan Sistem 4.1 Perancangan Arsitektur Perancangan arsitektur mendefinisikan keterkaitan antar-komponen utama yang akan membentuk aplikasi program. Berdasarkan analisis proses clustering dokumen yang diuraikan pada tahap analisis, komponen penyusun sistem IndoClust berhubungan dengan komponen luar, yaitu mesin pencari. Ilustrasi mengenai komponen penyusun sistem IndoClust dan keterhubungannya dengan komponen luar diperlihatkan pada Gambar 4. Gambar 4. Komponen penyusun IndoClust Komponen yang akan dirancang-bangun diperlihatkan sebagai bidang terarsir, sedangkan bidang tak terarsir merepresentasikan komponen yang sudah ada. Berdasarkan hasil analisis dan deskripsi arsitektur, secara fungsionalitas, IndoClust hanya bertugas mengelompokkan dokumen hasil pencarian. Namun secara arsitektur, sistem IndoClust terdiri dari tiga modul utama, yaitu user interface, preprocessing, dan processing/clustering. 1. Modul user interface Modul user interface berperan sebagai front- end sistem, yang berhubungan langsung dengan pengguna. Walaupun mesin pencari sudah menyediakan antarmuka pengguna, namun model antarmukanya berbeda dengan clustering engine, sehingga perlu dilakukan perancangan khusus. 2. Modul preprocessing Modul ini menyediakan fungsionalitas pemrosesan awal (preprocessing) terhadap himpunan dokumen. Pemrosesan-pemrosesan yang dilakukan meliputi stopwords, tokenization, dan pengambilan dokumen hasil pencarian. 3. Modul processing/clustering Modul processing/clustering menyediakan fungsi utama yang mencerminkan fungsionalitas dari sistem IndoClust. Sesuai dengan hasil tahap analisis, modul ini bertujuan melakukan proses clustering dokumen- dokumen berita berbahasa Indonesia dengan mengimplementasikan algoritma FIHC. Fungsionalitas modul processing/clustering IndoClust
  • 5. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom dapat diuraikan berdasarkan use case utama yang telah diidentifikasi. 4.2 Realisasi Use Case Realisasi use case dilakukan dengan mengidentifikasi diagram kelas (class diagram) dan sequence diagram. Untuk setiap fungsionalitas utama dari sistem, yang direpresentasikan oleh use case utama, dapat dibuat diagram kelasnya. Gambar 5 memperlihatkan diagram kelas untuk use case View Cluster. Gambar 5. Diagram kelas use case View Cluster Untuk setiap use case utama, diidentifikasikan sequence diagram yang menggambarkan interaksi setiap objek dari kelas perancangan yang terlibat di dalam use case tersebut. Gambar 6 memperlihatkan sequence diagram untuk use case View Cluster. : Pengguna : ViewClusterForm : ResultGeneration: ClusterGeneration : Parameters: Clustering : Documents: PrepareCluster : LogData 1: <<start>> 2: init() 3: init() 4: getDocument( ) 5: createMatrix() 6: prepareData( ) 7: init( ) 8: getParameter( ) 9: returnParameter 10: buildCluster( ) 11: generateData( ) 12: init( ) 13: getData( ) 14: saveLogData( ) 15: getCluster( ) 16: displayCluster( ) Gambar 6. Sequence diagram use case View Cluster 5. Implementasi dan Pengujian 5.1 Implementasi Kelas dan Paket Implementasi kelas dan paket mengacu pada deskripsi arsitektural dan kelas-kelas yang telah diidentifikasi. Implementasi paket akan menghasilkan sejumlah direktori sesuai dengan nama-nama paket yang telah didefinisikan. Tiap-tiap direktori berisi file-file yang merupakan representasi fisik dari kelas-kelas di dalam paket terkait. Penggunaan paket-paket ini bertujuan untuk mengorganisir komponen-komponen perangkat lunak IndoClust ke dalam grup-grup. 5.2 Implementasi Antarmuka Implementasi antarmuka memiliki kaitan erat dengan diagram use case. Acuan dasar yang digunakan dalam tahap ini adalah menghasilkan antarmuka pengguna untuk setiap use case yang berhubungan langsung dengan aktor. Hasil implementasi antarmuka utama IndoClust diperlihatkan pada Gambar 7. Gambar 7. Hasil implementasi IndoClust 5.3 Pengujian Pengujian dilakukan sebagai verifikasi bahwa perangkat lunak dapat memenuhi spesifikasi kebutuhan dan berjalan sesuai dengan skenario yang telah dideskripsikan. Tujuan utama dari tahap pengujian adalah untuk menemukan kesalahan yang belum teridentifikasi. Ada dua jenis metode pengujian yang lazim digunakan untuk menguji suatu perangkat lunak, yaitu white-box dan black- box. Pengujian white-box menekankan pada proses internal, sedangkan pengujian black-box lebih menekankan pada fungsionalitas sistem. Pada makalah ini, pengujian dilakukan menggunakan metode black-box, yaitu dengan memperhatikan hasil keluaran dari perangkat lunak IndoClust berdasarkan masukan yang diberikan. Prosedur pengujian adalah dengan menguji fungsi- fungsi utama yang terdapat pada perangkat lunak IndoClust. Fungsi-fungsi utama yang dimaksud di
  • 6. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom sini direpresentasikan oleh use case yang telah didefinisikan pada tahap analisis. Pada pengujian keseluruhan use case, belum ditemukan adanya kesalahan hasil keluaran atau tampilan yang tidak sesuai dengan skenario. Untuk pengujian kualitas clustering, dilakukan berdasarkan hasil pengamatan secara manual. Dalam beberapa kasus uji (dengan query berbeda), himpunan cluster yang dihasilkan mampu menemukan keterkaitan antar-berita, dan menghasilkan topik-topik baru yang merupakan spesialisasi dari query. 6. Kesimpulan dan Saran 6.1 Kesimpulan Perangkat lunak document clustering engine dapat dibangun dengan mengimplementasikan metode frequent itemset dengan pendekatan algoritma Frequent Itemset-based Hierarchical Clustering (FIHC). Hasil implementasi dan pengujian memperlihatkan bahwa IndoClust secara otomatis dapat melakukan pengelompokan berita berdasarkan kemiripannya. Secara intuitif, IndoClust juga mampu mengungkap keterkaitan antar-berita, sehingga dapat membantu pengguna ketika melakukan navigasi. 6.2 Saran Untuk mendapatkan cluster yang lebih deskriptif, sebaiknya dilakukan pemrosesan awal (preprocessing) yang lebih baik, misalnya menambahkan proses stemming bahasa. Dengan demikian, itemset yang merupakan noise bisa dicegah untuk menjadi kandidat cluster. Selain itu, langkah ini juga dapat meningkatkan efisiensi algoritma clustering. Secara umum, cluster yang dihasilkan oleh algoritma FIHC sudah cukup baik. Namun untuk mengetahui kualitas yang lebih tepat, diperlukan adanya metode pengukuran kualitas. Selain itu, sebaiknya dilakukan pembandingan dengan algoritma lain, sehingga hasilnya lebih optimal. Daftar Pustaka: [1] Agrawal, R., Srikant, R., Fast Algorithm for Mining Association Rules, Proc. 20th Int. Conf. Very Large Data Bases, VLDB, 487- 499, Morgan Kaufmann, 1994. [2] Agrawal, R., Imielinski, T., Swami, A., Mining association rules between sets of items in large database. In Proceeding of ACM SIGMOD International Conference on Management of Data, 207-216, 1993. [3] Fung, B. C. M., Wang, K., Ester, M., Hierarchical Document Clustering, Encyclopedia of Data Warehousing and Mining Volume 1, Idea Group Reference, USA, 2005. [4] Fung, B. C. M., Wang, K., Ester, M., Hierarchical Document Clustering Using Frequent Itemsets, SIAM International Conference on Data Mining, SDM’03, San Fransisco, CA, United States, 59-70. [5] Jain, A. K., Murty, M. N., Flynn, P.J., Data Clustering: A Review, in ACM Computing Surveys, Vol 32, No. 3 September 1999. [6] Pressman, R., Software Engineering A Practitioner’s Approach Fifth Edition, The Mc Graw Hill Compannies, Inc, 2001. [7] Wang, K., Xu, C., Liu, B., Clustering transactions using large items, International Conference on Information and Knowledge Management, CIKM’99, United States, 483- 490, 1999. [8] Wibisono, Y., Khodra, M. L., Clustering Berita Berbahasa Indonesia, Konferensi Nasional Sistem Informasi, UNPAS, 2006.