Konferensi ini membahas pengembangan perangkat lunak IndoClust untuk melakukan clustering berita berbahasa Indonesia secara otomatis berdasarkan kemiripan isi berita. IndoClust diimplementasikan menggunakan algoritma Frequent Itemset-based Hierarchical Clustering (FIHC) dan mampu mengelompokkan berita ke dalam grup-grup berdasarkan kesamaan, sehingga memudahkan pengguna dalam menemukan berita yang relevan.
Dokumen tersebut membahas tentang perangkat lunak (PL), termasuk definisi, evolusi, karakteristik, rekayasa perangkat lunak, krisis perangkat lunak, dan mitos-mitos terkait perangkat lunak. PL didefinisikan sebagai kumpulan program komputer, prosedur, dokumen, dan data. Rekayasa perangkat lunak merupakan disiplin yang menerapkan pendekatan sistematis dalam pengembangan PL. Krisis perangkat lunak terjadi k
Dokumen tersebut membahas berbagai alat untuk manajemen pengetahuan yang dapat digunakan untuk menangkap, menciptakan, berbagi, dan menerapkan pengetahuan. Terdapat beberapa kategori alat seperti content creation tools, data mining, blogs, content management tools, groupware, wikis, dan teknologi jaringan yang dapat memfasilitasi penangkapan, penciptaan, penyebaran, dan penerapan pengetahuan dalam organisasi.
Sistem informasi pendataan pita produksi di LPP TVRI Stasiun NTT dirancang untuk memudahkan pendataan pita produksi secara digital. Sistem ini akan menggunakan basis data Microsoft Access untuk menyimpan dan mengolah data pita produksi, serta antarmuka Delphi untuk menampilkan dan mengolah datanya. Sistem ini diharapkan dapat mempermudah pendataan pita produksi yang sebelumnya dilakukan secara manual.
Dokumen tersebut membahas tentang sistem absensi manual yang dianggap rumit dan tidak akurat di sekolah. Ia mengusulkan pembuatan sistem informasi absensi berbasis komputer untuk mempermudah proses pengumpulan data absensi siswa dan rekapitulasinya. Sistem ini diharapkan dapat meningkatkan akurasi data dan mempermudah pekerjaan staff sekolah.
Dokumen tersebut membahas tentang perangkat lunak (PL), termasuk definisi, evolusi, karakteristik, rekayasa perangkat lunak, krisis perangkat lunak, dan mitos-mitos terkait perangkat lunak. PL didefinisikan sebagai kumpulan program komputer, prosedur, dokumen, dan data. Rekayasa perangkat lunak merupakan disiplin yang menerapkan pendekatan sistematis dalam pengembangan PL. Krisis perangkat lunak terjadi k
Dokumen tersebut membahas berbagai alat untuk manajemen pengetahuan yang dapat digunakan untuk menangkap, menciptakan, berbagi, dan menerapkan pengetahuan. Terdapat beberapa kategori alat seperti content creation tools, data mining, blogs, content management tools, groupware, wikis, dan teknologi jaringan yang dapat memfasilitasi penangkapan, penciptaan, penyebaran, dan penerapan pengetahuan dalam organisasi.
Sistem informasi pendataan pita produksi di LPP TVRI Stasiun NTT dirancang untuk memudahkan pendataan pita produksi secara digital. Sistem ini akan menggunakan basis data Microsoft Access untuk menyimpan dan mengolah data pita produksi, serta antarmuka Delphi untuk menampilkan dan mengolah datanya. Sistem ini diharapkan dapat mempermudah pendataan pita produksi yang sebelumnya dilakukan secara manual.
Dokumen tersebut membahas tentang sistem absensi manual yang dianggap rumit dan tidak akurat di sekolah. Ia mengusulkan pembuatan sistem informasi absensi berbasis komputer untuk mempermudah proses pengumpulan data absensi siswa dan rekapitulasinya. Sistem ini diharapkan dapat meningkatkan akurasi data dan mempermudah pekerjaan staff sekolah.
Dokumen ini membahas berbagai alat manajemen pengetahuan yang digunakan untuk menangkap, berbagi, dan menerapkan pengetahuan, seperti content creation tools, data mining, blog, content management tools, groupware, wiki, jaringan teknologi, sistem e-learning, intelligent filtering tools, dan teknologi adaptif. Alat-alat ini memainkan peran penting dalam memfasilitasi manajemen pengetahuan di organisasi.
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...masda araffi
Dokumen tersebut membahas tentang sistem informasi manajemen. Secara umum membahas tentang pengertian sistem informasi, sejarah pengembangan sistem informasi, faktor-faktor yang mempengaruhi pengembangan sistem informasi, serta kualitas informasi yang diperlukan dalam pengembangan sistem informasi.
Dokumen tersebut membahas tentang perancangan sistem absensi mahasiswa menggunakan sidik jari. Sistem ini dirancang untuk mengatasi masalah manipulasi absensi dan mempermudah proses absensi mahasiswa serta rekapitulasi kehadirannya. Sistem akan dikembangkan menggunakan metode waterfall dan bahasa pemrograman Visual Basic.
Dokumen tersebut membahas tentang metodologi pengembangan sistem, yang mencakup pengertian metodologi pengembangan sistem, alasan perlunya metodologi, tim pengembangan sistem, macam-macam metodologi seperti waterfall, prototyping, RAD, spiral, object oriented, dan end-user development, serta prinsip-prinsip pengembangan sistem.
Dokumen tersebut membahas tentang implementasi konsep sistem manajemen basis data. Ia menjelaskan definisi database, tujuan database, dan perangkat lunak utama yang digunakan untuk mengelola database seperti MySQL, Oracle, dan Firebird.
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaMaitsa Anggraini
PT GO-JEK Indonesia menerapkan berbagai sistem informasi untuk mendukung operasional dan pengambilan keputusan, seperti sistem pemesanan layanan, strategi pemasaran berbasis sistem informasi, dan sistem manajemen informasi. Sistem informasi tersebut didukung oleh teknologi seperti aplikasi seluler, basis data cloud, dan sistem pembayaran online.
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikanFajar Jabrik
Setelah tahap analisis sistem selesai dilakukan, maka analis sistem telah mendapatkan gambaran dengan jelas apa yang harus dikerjakan. Tiba waktunya sekarang bagi analis sistem untuk memikirkan bagaimana membentuk sistem tersebut. Tahap ini disebut dengan perancangan sistem.
Ringkasan dokumen tersebut adalah sebagai berikut:
Dokumen tersebut merupakan naskah publikasi yang membahas analisis dan perancangan sistem informasi akademik di SD Negeri 1 Purbosari Temanggung dengan menggunakan bahasa pemrograman Java dan basis data MySQL. Tujuannya adalah meningkatkan efisiensi pengolahan data guru dan siswa.
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...Ellya Yasmien
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputasi dan komunikasi, universitas mercu buana, 2017
"menganalisa system informasi serta menentukan alternative pengembangan system infomasi, sumber daya komputasi dan komunikasi, pemberdayaan data secara elektronik lebih baik dari pada manual, dan alasan software pesanan melalui konsuktan IT (outsourcing) lebih mahal dari software jadi yang ada di pasaran software aplikasi"
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESHaris Pramudia
Sistem informasi ini menggunakan metode Naïve Bayes untuk mendiagnosa kerusakan laptop berdasarkan gejala. Metode ini diharapkan dapat menentukan jenis kerusakan dan saran perbaikan dengan akurasi tinggi."
Dokumen tersebut membahas tentang latar belakang masalah yang dihadapi Posyandu Lalolae dalam mengelola data secara manual, tujuan pengembangan sistem informasi posyandu berbasis web, tinjauan pustaka mengenai konsep sistem informasi, dan manfaat penelitian.
Dokumen ini membahas berbagai alat manajemen pengetahuan yang digunakan untuk menangkap, berbagi, dan menerapkan pengetahuan, seperti content creation tools, data mining, blog, content management tools, groupware, wiki, jaringan teknologi, sistem e-learning, intelligent filtering tools, dan teknologi adaptif. Alat-alat ini memainkan peran penting dalam memfasilitasi manajemen pengetahuan di organisasi.
Tugas sim masda alif araffi ( yananto mihadi putra) pengembangan sistem inf...masda araffi
Dokumen tersebut membahas tentang sistem informasi manajemen. Secara umum membahas tentang pengertian sistem informasi, sejarah pengembangan sistem informasi, faktor-faktor yang mempengaruhi pengembangan sistem informasi, serta kualitas informasi yang diperlukan dalam pengembangan sistem informasi.
Dokumen tersebut membahas tentang perancangan sistem absensi mahasiswa menggunakan sidik jari. Sistem ini dirancang untuk mengatasi masalah manipulasi absensi dan mempermudah proses absensi mahasiswa serta rekapitulasi kehadirannya. Sistem akan dikembangkan menggunakan metode waterfall dan bahasa pemrograman Visual Basic.
Dokumen tersebut membahas tentang metodologi pengembangan sistem, yang mencakup pengertian metodologi pengembangan sistem, alasan perlunya metodologi, tim pengembangan sistem, macam-macam metodologi seperti waterfall, prototyping, RAD, spiral, object oriented, dan end-user development, serta prinsip-prinsip pengembangan sistem.
Dokumen tersebut membahas tentang implementasi konsep sistem manajemen basis data. Ia menjelaskan definisi database, tujuan database, dan perangkat lunak utama yang digunakan untuk mengelola database seperti MySQL, Oracle, dan Firebird.
Analisis Penerapan Sistem Informasi pada PT GO-JEK IndonesiaMaitsa Anggraini
PT GO-JEK Indonesia menerapkan berbagai sistem informasi untuk mendukung operasional dan pengambilan keputusan, seperti sistem pemesanan layanan, strategi pemasaran berbasis sistem informasi, dan sistem manajemen informasi. Sistem informasi tersebut didukung oleh teknologi seperti aplikasi seluler, basis data cloud, dan sistem pembayaran online.
Makalah Sistem Informasi Manajemen - Perancangan sistem informasi pendidikanFajar Jabrik
Setelah tahap analisis sistem selesai dilakukan, maka analis sistem telah mendapatkan gambaran dengan jelas apa yang harus dikerjakan. Tiba waktunya sekarang bagi analis sistem untuk memikirkan bagaimana membentuk sistem tersebut. Tahap ini disebut dengan perancangan sistem.
Ringkasan dokumen tersebut adalah sebagai berikut:
Dokumen tersebut merupakan naskah publikasi yang membahas analisis dan perancangan sistem informasi akademik di SD Negeri 1 Purbosari Temanggung dengan menggunakan bahasa pemrograman Java dan basis data MySQL. Tujuannya adalah meningkatkan efisiensi pengolahan data guru dan siswa.
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputas...Ellya Yasmien
Sim 5 - ellya yasmien, prof. dr. ir. hapzi ali mm. cma., sumber daya komputasi dan komunikasi, universitas mercu buana, 2017
"menganalisa system informasi serta menentukan alternative pengembangan system infomasi, sumber daya komputasi dan komunikasi, pemberdayaan data secara elektronik lebih baik dari pada manual, dan alasan software pesanan melalui konsuktan IT (outsourcing) lebih mahal dari software jadi yang ada di pasaran software aplikasi"
SISTEM INFORMASI KERUSAKAN LAPTOP MENGGUNAKAN METODE NAÏVE BAYESHaris Pramudia
Sistem informasi ini menggunakan metode Naïve Bayes untuk mendiagnosa kerusakan laptop berdasarkan gejala. Metode ini diharapkan dapat menentukan jenis kerusakan dan saran perbaikan dengan akurasi tinggi."
Dokumen tersebut membahas tentang latar belakang masalah yang dihadapi Posyandu Lalolae dalam mengelola data secara manual, tujuan pengembangan sistem informasi posyandu berbasis web, tinjauan pustaka mengenai konsep sistem informasi, dan manfaat penelitian.
Materi ini membahas tentang defenisi dan Usia Anak di Indonesia serta hubungannya dengan risiko terpapar kekerasan. Dalam modul ini, akan diuraikan berbagai bentuk kekerasan yang dapat dialami anak-anak, seperti kekerasan fisik, emosional, seksual, dan penelantaran.
Workshop "CSR & Community Development (ISO 26000)"_di BALI, 26-28 Juni 2024Kanaidi ken
Dlm wktu dekat, Pelatihan/WORKSHOP ”CSR/TJSL & Community Development (ISO 26000)” akn diselenggarakan di Swiss-BelHotel – BALI (26-28 Juni 2024)...
Dgn materi yg mupuni & Narasumber yg kompeten...akn banyak manfaat dan keuntungan yg didpt mengikuti Pelatihan menarik ini.
Boleh jga info ini👆 utk dishare_kan lgi kpda tmn2 lain/sanak keluarga yg sekiranya membutuhkan training tsb.
Smga Bermanfaat
Thanks Ken Kanaidi
Modul Ajar Matematika Kelas 11 Fase F Kurikulum MerdekaFathan Emran
Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka - abdiera.com. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka. Modul Ajar Matematika Kelas 11 SMA/MA Fase F Kurikulum Merdeka.
Laporan Pembina Pramuka SD dalam format doc dapat anda jadikan sebagai rujukan dalam membuat laporan. silakan download di sini https://unduhperangkatku.com/contoh-laporan-kegiatan-pramuka-format-word/
Media Pembelajaran kelas 3 SD Materi konsep 8 arah mata angin
01 indo clust knsi 2007
1. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
IndoClust: Clustering Engine Berita Berbahasa Indonesia
Didik Dwi Prasetya, Dwi Hendratmo Widiantoro
KK Informatika Sekolah Teknik Elektro dan Informatika ITB
Jln. Ganesha 10 Bandung
didikdwi@gmail.com, dwi@informatika.org
Abstrak
Dampak yang sangat terasa seiring dengan semakin meningkatnya volume berita elektronik berbahasa Indonesia
adalah sulitnya menemukan berita-berita yang relevan. Untuk mengatasi permasalahan ini, clustering merupakan
salah satu pemecahan yang bisa diimplementasikan. Makalah ini menguraikan rancang-bangun perangkat lunak
untuk clustering dokumen-dokumen berita berbahasa Indonesia yang diberi nama IndoClust. Implementasi
IndoClust dilakukan menggunakan metode frequent itemset dengan algoritma Frequent Itemset-based
Hierarchical Clustering (FIHC). Hasil implementasi memperlihatkan bahwa IndoClust mampu
mengelompokkan secara otomatis berita yang memiliki kesamaan ke dalam grup-grup dan menemukan
keterkaitan antar-berita. Dengan demikian, pengguna bisa lebih mudah melakukan navigasi, dan aktivitas
pencarian berita menjadi lebih efektif serta efisien.
Kata kunci : clustering, frequent itemset-based, berita berbahasa Indonesia
1. Pendahuluan
Dewasa ini, orang dengan mudah bisa
mendapatkan informasi berita berbahasa Indonesia
melalui komputer atau peralatan bergerak yang
terhubung ke jaringan Internet. Seiring
bertambahnya situs penyedia berita, menjadikan
volume berita dari waktu ke waktu semakin
meningkat. Walaupun kondisi ini dapat teratasi
dengan memanfaatkan layanan mesin pencari,
namun masih jarang ditemui mesin pencari yang
memiliki kemampuan untuk menganalisis serta
mengelompokkan secara otomatis dokumen-
dokumen berita yang memiliki kemiripan,
khususnya untuk berita berbahasa Indonesia.
Pada kenyataannya, dalam kasus mesin
pencari, seringkali hanya hasil-hasil awal saja yang
dianggap menarik oleh pengguna. Hal ini tentu
sangat wajar, karena mesin pencari umumnya
berusaha menampilkan hasil pencarian dengan
urutan yang paling mirip terhadap query.
Bagaimanapun juga, cara ini tidak begitu efisien
untuk mendapatkan berita yang relevan, karena
keterkaitan antar berita tidak terungkap secara jelas.
Sebagai ilustrasi, pencarian berita dengan query
“bunga” dapat menghasilkan beragam informasi
spesifik, misalnya bunga yang berhubungan dengan
tanaman atau bunga perbankan. Dari sini terlihat
bahwa penemuan berita yang relevan sangat
kompleks, dan memerlukan kecerdasan sistem.
Kata kunci dari permasalahan di atas adalah
efektivitas dan efisiensi penemuan berita yang
relevan. Adapun untuk mengatasinya, dipandang
perlu sekali adanya suatu perangkat lunak bantu
yang mampu “menghadirkan” berita dari berbagai
sumber serta mengorganisasikan dokumen-dokumen
berita sedemikian rupa ke dalam grup-grup,
sehingga dapat memudahkan navigasi. Clustering,
atau biasa disebut unsupervised learning, merupakan
salah satu pemecahan yang menarik untuk
diimplementasikan. Clustering dapat digunakan
untuk membantu menganalisis berita dari satu atau
beberapa sumber, dengan mengelompokkan secara
otomatis berita-berita yang memiliki kesamaan [8].
Pada makalah ini, metode clustering yang
digunakan adalah frequent itemset-based, dengan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC). Intuisi dari metode frequent
itemset-based adalah mengidentifikasikan tiap-tiap
cluster dengan beberapa kata umum, yang disebut
frequent itemset. Oleh karena hanya menggunakan
global frequent item, maka secara drastis FIHC
mampu mengurangi dimensionalitas himpunan
dokumen, sehingga lebih efisien dan scalable.
2. Penelitian Terkait
Metode clustering banyak diterapkan di
berbagai disiplin ilmu, diantaranya adalah bidang
bisnis, biologi, kesehatan, dan komputer. Di bidang
2. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
komputer, clustering dilakukan pada subbidang
pengolahan citra dan pengolahan dokumen,
khususnya text mining dan information retrieval.
Meskipun clustering dokumen bukan merupakan hal
baru, namun saat ini masih jarang penelitian
mengenai clustering terhadap corpus berita
berbahasa Indonesia.
Salah satu penelitian yang terkait dengan topik
makalah ini adalah penelitian Wibisono dan Khodra
[8]. Di dalam penelitiannya, Wibisono menguraikan
eksperimen clustering berita berbahasa Indonesia
dengan menggunakan algoritma K-Means. Salah
satu keunggulan utama algoritma K-Means adalah
kompleksitas waktu perhitungannya linear O(n). Di
sisi lain, algoritma ini memerlukan intervensi
pengguna untuk menetapkan parameter masukan,
sensitif terhadap inisialisasi cluster centroid, dan
menghasilkan cluster datar.
Secara khusus, makalah ini mencoba mengkaji
lebih lanjut clustering dokumen-dokumen berita
berbahasa Indonesia dari penelitian sebelumnya
dengan metode yang berbeda. Ada perbedaan
mendasar yang perlu digarisbawahi pada makalah
ini, yaitu mengimplementasikan metode clustering
yang lebih efektif dan efisien.
3. Analisis Sistem IndoClust
Perangkat lunak IndoClust adalah sebuah
perangkat lunak aplikasi yang berorientasi objek dan
dikembangkan dengan menggunakan bahasa
pemrograman berorientasi objek. Pemodelan
perangkat lunak IndoClust dilakukan dengan
menggunakan kakas UML (Unified Modelling
Language) yang mengakomodasi metodologi
pengembangan perangkat lunak berorientasi objek.
Bagian ini menguraikan analisis proses
algoritma clustering dan analisis kebutuhan sistem
yang akan dibangun. Analisis proses algoritma
clustering menguraikan algoritma FIHC untuk
clustering dokumen yang berupa berita-berita
berbahasa Indonesia. Untuk analisis kebutuhan
sistem, didasarkan pada tahap analisis dari
metodologi yang digunakan dalam membangun
perangkat lunak, yaitu metodologi Object-Oriented
Software Engineering (OOSE).
3.1 Algoritma FIHC
Algoritma ini diilhami oleh Fung [7]
berdasarkan ide frequent itemset yang dikemukakan
oleh Agrawal [1]. Ide dasarnya, frequent itemset
merepresentasikan sesuatu yang umum pada
dokumen-dokumen di dalam cluster.
FIHC menugaskan (assigning) dokumen-
dokumen ke cluster terbaik dari semua cluster yang
tersedia. FIHC menggunakan pendekatan “cluster-
centered”, dimana kohesi cluster diukur secara
langsung dengan menggunakan frequent itemset.
FIHC juga menggunakan frequent itemset untuk
membangun dan mengorganisir cluster ke dalam
hirarki topik.
Ilustrasi mengenai tahap-tahap clustering
dokumen dengan algoritma FIHC dapat
diperlihatkan seperti diagram alir pada Gambar 1.
Gambar 1. Diagram alir algoritma FIHC
Ada tiga tahap utama untuk
mengimplementasikan algoritma FIHC dalam
clustering dokumen dan menghasilkan hirarki
pohon, yaitu pemilihan frequent itemset,
pembentukan cluster, dan pembentukan pohon
cluster [4].
1. Pemilihan frequent itemset
Tujuan dari pemilihan frequent itemset adalah
untuk mendapatkan kandidat cluster. Masukan
dari tahap ini adalah vektor dokumen high-
dimensional yang diperoleh dari model
representasi dokumen. Pemilihan frequent
itemset dilakukan melalui tahap ekstraksi
frequent itemset. Ekstraksi frequent itemset
adalah langkah persiapan yang lazim dilakukan
dalam algoritma clustering, termasuk pada
algoritma FIHC.
2. Pembentukan cluster
Tahap ini meliputi pembuatan initial cluster
dan melakukan pemisahan cluster (disjointing
cluster). Pembuatan initial cluster dilakukan
pada tiap-tiap global frequent itemset yang
telah diperoleh. Pada tahap ini initial cluster
bisa overlap, karena suatu dokumen biasanya
berisi lebih dari satu global frequent itemset,
sehingga dokumen yang sama mungkin terlihat
di beberapa initial cluster. Adapun tahap
pemisahan cluster bertujuan untuk menghapus
initial cluster yang masih overlap.
3. Pembentukan pohon cluster
Tahap ini melakukan pembentukan hirarki
pohon cluster dan pemangkasan pohon (tree
pruning). Pada tahap ini, cluster yang telah
diperoleh digunakan untuk membangun pohon
cluster (topik), dan hubungan antara induk
(parent) dan anak (children) diciptakan
berdasarkan kemiripannya.
3. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
3.2 Arsitektur Sistem
Ide dasar dari clustering engine adalah
mengelompokkan dokumen-dokumen hasil
pencarian ke dalam sejumlah cluster dan kemudian
mengorganisasikan dokumen-dokumen sedemikian
rupa sehingga dapat memudahkan pengguna ketika
melakukan navigasi. Bergantung pada pendekatan
algoritma yang digunakan, proses clustering bisa
sangat berlainan. Namun secara garis besar,
clustering engine melakukan dua proses utama, yaitu
preprocessing dan processing.
Sebagaimana lazimnya clustering engine,
sistem IndoClust juga terdiri dari dua komponen
utama, yaitu preprocessing dan processing.
IndoClust berperan sebagai perangkat lunak
komplemen dalam information retrieval. Perangkat
lunak ini diintegrasikan ke mesin pencari yang sudah
disesuaikan fungsionalitasnya untuk menemukan
dokumen-dokumen berita berbahasa Indonesia.
Gambaran umum mengenai arsitektur sistem
IndoClust diperlihatkan pada Gambar 2.
Gambar 2. Arsitektur IndoClust
Tahap preprocessing melakukan pemrosesan
awal terhadap himpunan dokumen berita relevan
yang didapatkan dari mesin pencari. Pemrosesan
awal meliputi pembacaan dan penguraian (parsing)
dokumen, penghapusan stopwords, tokenization,
pembobotan term (term weighting), dan
menciptakan representasi dokumen.
Tahap pemrosesan (processing) adalah
mengimplementasikan algoritma clustering yang
digunakan untuk pengelompokan dokumen-
dokumen berita berbahasa Indonesia. Tahap ini
merupakan tahap inti dalam pembangunan perangkat
lunak IndoClust.
Proses pengelompokan berita pada IndoClust
dilakukan secara on-the-fly (saat runtime). Masukan
yang diterima oleh IndoClust adalah himpunan
berita hasil pencarian pada mesin pencari yang
relevan terhadap kata kunci pencarian. Adapun
keluaran yang dihasilkan adalah satu atau beberapa
cluster yang masing-masing terhubung ke dokumen-
dokumen berita masukan sesuai dengan
kemiripannya. Hasil keluaran ini akan disajikan
sebagai respon terhadap permintaan (request)
pengguna.
3.3 Fitur Sistem
Perangkat lunak IndoClust memiliki beberapa
fungsi utama, antara lain:
1. Menerima masukan kata pencarian dari
pengguna dan mengirimkan ke mesin pencari.
2. Memiliki kemampuan untuk menerima
masukan parameter pengaturan kesukaan dari
pengguna dan menerapkannya selama sesi
pengguna tersebut aktif.
3. Mampu menerima masukan parameter
pengaturan lanjut guna menghasilkan cluster
yang lebih spesifik atau lebih umum.
4. Melakukan pemrosesan awal (preprocessing)
terhadap himpunan dokumen berita hasil
pencarian yang dikembalikan oleh mesin
pencari.
5. Melakukan pengelompokan (clustering)
terhadap dokumen-dokumen berita hasil
pencarian berdasarkan kemiripannya.
6. Membangun struktur pohon cluster yang
masing-masing berisi satu atau beberapa
dokumen relevan.
7. Menyajikan dokumen-dokumen berita ke
pengguna dalam bentuk cluster bersarang.
Sumber-sumber berita yang ditangani
IndoClust sudah didefinisikan, sehingga ruang
lingkup pencarian dan pengelompokan terbatas pada
sumber-sumber tersebut. Adapun dokumen yang
ditangani adalah berita-berita berbahasa Indonesia
dalam format file umum, yaitu Hypertext Markup
Language (HTML).
3.4 Pemodelan Use Case
Aktor-aktor yang terlibat pada sistem dapat
didefinisikan dengan mengidentifikasi sesuatu yang
berkomunikasi dengan sistem dan merupakan bagian
eksternal. Deskripsi mengenai masing-masing aktor
diperlihatkan pada Tabel 1.
Tabel 1. Definisi aktor
No Aktor Deskripsi
A1 Pengguna Pengguna perangkat lunak
yang akan berhubungan
langsung dengan sistem.
A2 Mesin Pencari Perangkat lunak untuk
mencari dokumen berita
dan mengembalikan hasil
berupa himpunan dokumen
sebagai masukan sistem.
A3 Administrator Administrator sistem yang
melakukan pemantauan
terhadap kerja sistem
terkait dengan aktivitas
pengguna.
Pembuatan model use case bertujuan untuk
mengidentifikasi fungsionalitas perangkat lunak
secara arsitektural. Berdasarkan fungsi-fungsi utama
4. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
yang telah dideskripsikan, dapat didefinisikan use
case yang terlibat. Definisi dan deskripsi masing-
masing use case diperlihatkan pada Tabel 2.
Tabel 1. Definisi use case
No Use Case Deskripsi
U1 Search News Untuk menerima
masukan query dari
pengguna dan
melakukan pencarian
berita berdasarkan query.
U2 Preprocessing Sistem melakukan
pemrosesan awal.
U3 Relevant
Document
Mesin pencari
mengembalikan hasil
pencarian berupa
dokumen-dokumen yang
relevan.
U4 Set Parameter Pengguna menetapkan
parameter untuk
clustering berita dan
pengaturan kesukaan.
U5 Clustering Sistem menerima data
masukan dan
menerapkan algoritma
clustering dokumen.
U6 View Cluster Sistem menampilkan
hasil clustering berikut
dokumen-dokumen
relevan yang telah
dikelompokkan.
U7 Login Admin Sistem melakukan
verifikasi identitas
administrator.
U8 View Log Administrator memantau
kerja sistem.
Representasi diagram use case memperlihatkan
interaksi antara aktor dan use case. Dari perspektif
pengguna, diagram use case memberikan gambaran
mengenai perangkat lunak yang akan dibangun.
Bentuk diagram use case dari perangkat lunak
IndoClust diperlihatkan pada Gambar 3.
Clustering
Login Admin
Preprocessing
Set Parameter
View Cluster
Pengguna
Search News
<<include>>
Relevant Document
Mesin Pencari
View Log
Administrator
<<include>>
<<include>>
Gambar 3. Diagram use case
4. Perancangan Sistem
4.1 Perancangan Arsitektur
Perancangan arsitektur mendefinisikan
keterkaitan antar-komponen utama yang akan
membentuk aplikasi program. Berdasarkan analisis
proses clustering dokumen yang diuraikan pada
tahap analisis, komponen penyusun sistem IndoClust
berhubungan dengan komponen luar, yaitu mesin
pencari. Ilustrasi mengenai komponen penyusun
sistem IndoClust dan keterhubungannya dengan
komponen luar diperlihatkan pada Gambar 4.
Gambar 4. Komponen penyusun IndoClust
Komponen yang akan dirancang-bangun
diperlihatkan sebagai bidang terarsir, sedangkan
bidang tak terarsir merepresentasikan komponen
yang sudah ada.
Berdasarkan hasil analisis dan deskripsi
arsitektur, secara fungsionalitas, IndoClust hanya
bertugas mengelompokkan dokumen hasil
pencarian. Namun secara arsitektur, sistem
IndoClust terdiri dari tiga modul utama, yaitu user
interface, preprocessing, dan processing/clustering.
1. Modul user interface
Modul user interface berperan sebagai front-
end sistem, yang berhubungan langsung
dengan pengguna. Walaupun mesin pencari
sudah menyediakan antarmuka pengguna,
namun model antarmukanya berbeda dengan
clustering engine, sehingga perlu dilakukan
perancangan khusus.
2. Modul preprocessing
Modul ini menyediakan fungsionalitas
pemrosesan awal (preprocessing) terhadap
himpunan dokumen. Pemrosesan-pemrosesan
yang dilakukan meliputi stopwords,
tokenization, dan pengambilan dokumen hasil
pencarian.
3. Modul processing/clustering
Modul processing/clustering menyediakan
fungsi utama yang mencerminkan
fungsionalitas dari sistem IndoClust. Sesuai
dengan hasil tahap analisis, modul ini bertujuan
melakukan proses clustering dokumen-
dokumen berita berbahasa Indonesia dengan
mengimplementasikan algoritma FIHC.
Fungsionalitas modul processing/clustering
IndoClust
5. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
dapat diuraikan berdasarkan use case utama
yang telah diidentifikasi.
4.2 Realisasi Use Case
Realisasi use case dilakukan dengan
mengidentifikasi diagram kelas (class diagram) dan
sequence diagram. Untuk setiap fungsionalitas
utama dari sistem, yang direpresentasikan oleh use
case utama, dapat dibuat diagram kelasnya. Gambar
5 memperlihatkan diagram kelas untuk use case
View Cluster.
Gambar 5. Diagram kelas use case View Cluster
Untuk setiap use case utama, diidentifikasikan
sequence diagram yang menggambarkan interaksi
setiap objek dari kelas perancangan yang terlibat di
dalam use case tersebut. Gambar 6 memperlihatkan
sequence diagram untuk use case View Cluster.
: Pengguna : ViewClusterForm : ResultGeneration: ClusterGeneration : Parameters: Clustering : Documents: PrepareCluster : LogData
1: <<start>>
2: init()
3: init()
4: getDocument( )
5: createMatrix()
6: prepareData( )
7: init( )
8: getParameter( )
9: returnParameter
10: buildCluster( )
11: generateData( )
12: init( )
13: getData( )
14: saveLogData( )
15: getCluster( )
16: displayCluster( )
Gambar 6. Sequence diagram use case View Cluster
5. Implementasi dan Pengujian
5.1 Implementasi Kelas dan Paket
Implementasi kelas dan paket mengacu pada
deskripsi arsitektural dan kelas-kelas yang telah
diidentifikasi. Implementasi paket akan
menghasilkan sejumlah direktori sesuai dengan
nama-nama paket yang telah didefinisikan. Tiap-tiap
direktori berisi file-file yang merupakan representasi
fisik dari kelas-kelas di dalam paket terkait.
Penggunaan paket-paket ini bertujuan untuk
mengorganisir komponen-komponen perangkat
lunak IndoClust ke dalam grup-grup.
5.2 Implementasi Antarmuka
Implementasi antarmuka memiliki kaitan erat
dengan diagram use case. Acuan dasar yang
digunakan dalam tahap ini adalah menghasilkan
antarmuka pengguna untuk setiap use case yang
berhubungan langsung dengan aktor. Hasil
implementasi antarmuka utama IndoClust
diperlihatkan pada Gambar 7.
Gambar 7. Hasil implementasi IndoClust
5.3 Pengujian
Pengujian dilakukan sebagai verifikasi bahwa
perangkat lunak dapat memenuhi spesifikasi
kebutuhan dan berjalan sesuai dengan skenario yang
telah dideskripsikan. Tujuan utama dari tahap
pengujian adalah untuk menemukan kesalahan yang
belum teridentifikasi. Ada dua jenis metode
pengujian yang lazim digunakan untuk menguji
suatu perangkat lunak, yaitu white-box dan black-
box. Pengujian white-box menekankan pada proses
internal, sedangkan pengujian black-box lebih
menekankan pada fungsionalitas sistem.
Pada makalah ini, pengujian dilakukan
menggunakan metode black-box, yaitu dengan
memperhatikan hasil keluaran dari perangkat lunak
IndoClust berdasarkan masukan yang diberikan.
Prosedur pengujian adalah dengan menguji fungsi-
fungsi utama yang terdapat pada perangkat lunak
IndoClust. Fungsi-fungsi utama yang dimaksud di
6. Konferensi Nasional Sistem Informasi (KNSI) 2007 STT Telkom
sini direpresentasikan oleh use case yang telah
didefinisikan pada tahap analisis. Pada pengujian
keseluruhan use case, belum ditemukan adanya
kesalahan hasil keluaran atau tampilan yang tidak
sesuai dengan skenario.
Untuk pengujian kualitas clustering, dilakukan
berdasarkan hasil pengamatan secara manual. Dalam
beberapa kasus uji (dengan query berbeda),
himpunan cluster yang dihasilkan mampu
menemukan keterkaitan antar-berita, dan
menghasilkan topik-topik baru yang merupakan
spesialisasi dari query.
6. Kesimpulan dan Saran
6.1 Kesimpulan
Perangkat lunak document clustering engine
dapat dibangun dengan mengimplementasikan
metode frequent itemset dengan pendekatan
algoritma Frequent Itemset-based Hierarchical
Clustering (FIHC).
Hasil implementasi dan pengujian
memperlihatkan bahwa IndoClust secara otomatis
dapat melakukan pengelompokan berita berdasarkan
kemiripannya. Secara intuitif, IndoClust juga
mampu mengungkap keterkaitan antar-berita,
sehingga dapat membantu pengguna ketika
melakukan navigasi.
6.2 Saran
Untuk mendapatkan cluster yang lebih
deskriptif, sebaiknya dilakukan pemrosesan awal
(preprocessing) yang lebih baik, misalnya
menambahkan proses stemming bahasa. Dengan
demikian, itemset yang merupakan noise bisa
dicegah untuk menjadi kandidat cluster. Selain itu,
langkah ini juga dapat meningkatkan efisiensi
algoritma clustering.
Secara umum, cluster yang dihasilkan oleh
algoritma FIHC sudah cukup baik. Namun untuk
mengetahui kualitas yang lebih tepat, diperlukan
adanya metode pengukuran kualitas. Selain itu,
sebaiknya dilakukan pembandingan dengan
algoritma lain, sehingga hasilnya lebih optimal.
Daftar Pustaka:
[1] Agrawal, R., Srikant, R., Fast Algorithm for
Mining Association Rules, Proc. 20th Int.
Conf. Very Large Data Bases, VLDB, 487-
499, Morgan Kaufmann, 1994.
[2] Agrawal, R., Imielinski, T., Swami, A., Mining
association rules between sets of items in large
database. In Proceeding of ACM SIGMOD
International Conference on Management of
Data, 207-216, 1993.
[3] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering,
Encyclopedia of Data Warehousing and
Mining Volume 1, Idea Group Reference,
USA, 2005.
[4] Fung, B. C. M., Wang, K., Ester, M.,
Hierarchical Document Clustering Using
Frequent Itemsets, SIAM International
Conference on Data Mining, SDM’03, San
Fransisco, CA, United States, 59-70.
[5] Jain, A. K., Murty, M. N., Flynn, P.J., Data
Clustering: A Review, in ACM Computing
Surveys, Vol 32, No. 3 September 1999.
[6] Pressman, R., Software Engineering A
Practitioner’s Approach Fifth Edition, The Mc
Graw Hill Compannies, Inc, 2001.
[7] Wang, K., Xu, C., Liu, B., Clustering
transactions using large items, International
Conference on Information and Knowledge
Management, CIKM’99, United States, 483-
490, 1999.
[8] Wibisono, Y., Khodra, M. L., Clustering
Berita Berbahasa Indonesia, Konferensi
Nasional Sistem Informasi, UNPAS, 2006.