Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan dokumen-dokumen berita berdasarkan topik-topiknya secara otomatis, selain itu, untuk lebih memudahkan dalam menemukan informasi yang diinginkan, dibutuhkan juga pemberian deskripsi dari kelompok berita. Penelitian ini mencoba untuk mengatasi permasalahan tersebut dengan denjadikan pengelompokan topik-topik berita secara otomatis dengan algoritma Group-Average Hierarchical Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information (MI). Eksperimen implementasi dari algoritma ini terhadap 509 dokumen berita menunjukkan bahwa
GA-HAC dapat mengelompokkan dokumen-dokumen berita yang memiliki topik yang sama dengan nilai akurasi precision 84,4% dan MI dapat memberikan nilai akurasi rata-rata partial match Match@N 70,81% untuk seluruh topik dan 90% untuk 10 topik terpopuler
1. MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA
ONLINE BERBAHASA INDONESIA
Muhammad Ammar Shadiq Yudi Wibisono Jajang Kusnendar
Program Studi Ilmu Komputer Dosen Program Studi Ilmu Komputer Dosen Program Studi Ilmu Komputer
Universitas Pendidikan Indonesia Universitas Pendidikan Indonesia Universitas Pendidikan Indonesia
ammar.shadiq@gmail.com yudi@upi.edu jkusnendar@gmail.com
ABSTRAK informasi tersebut dibutuhkan oleh pengguna. Sering
kali pengguna layanan berita hanya membutuhkan
Pengelompokan dokumen-dokumen berita kedalam informasi seperti “apa yang terjadi?” atau “berita apa
topik-topik yang lebih spesifik membutuhkan waktu yang populer sekarang?” atau “bagaimana
dan sumber daya manusia yang tidak sedikit. Untuk perkembangan terbaru dari topik .....?”.
mengatasi permasalahan waktu dan sumber daya
manusia tersebut, dibutuhkan pengelompokan Untuk memudahkan pengguna dalam memenuhi
dokumen-dokumen berita berdasarkan topik-topiknya kebutuhan informasinya, situs-situs berita umumnya
secara otomatis, selain itu, untuk lebih memudahkan mengelompokkan berita-berita kedalam kelas-kelas
dalam menemukan informasi yang diinginkan, umum seperti regional, bisnis, internasional, kesehatan
dibutuhkan juga pemberian deskripsi dari kelompok dan kelas-kelas umum lainnya. Namun jumlah
berita. Penelitian ini mencoba untuk mengatasi dokumen berita pada tiap kelas-kelas tersebut masih
permasalahan tersebut dengan menjadikan sangat banyak dan berisi berita dengan berbagai topik
pengelompokan topik-topik berita secara otomatis yang lebih spesifik. Pengelompokan dokumen-
dengan algoritma Group-Average Hierarchical dokumen berita kedalam topik-topik yang lebih
Aglomerative Clustering (GA-HAC) dan pemberian spesifik membutuhkan waktu dan sumber daya
deskripsi secara otomatis dengan Mutual Information manusia yang tidak sedikit, sebagai hasilnya, hanya
(MI). Eksperimen implementasi dari algoritma ini kejadian-kejadian besar seperti “Pemilihan Presiden
terhadap 509 dokumen berita menunjukkan bahwa 2009” dan “Piala Dunia 2010” yang dipilih oleh
GA-HAC dapat mengelompokkan dokumen-dokumen redaksi berita untuk diciptakan kelompok tersendiri.
berita yang memiliki topik yang sama dengan nilai Penelitian ini mencoba mengatasi permasalahan
akurasi precision 84,4% dan MI dapat memberikan tersebut dengan mengaplikasikan metode clustering
nilai akurasi rata-rata partial match Match@N dokumen dengan Group Average - Hierarchical
70,81% untuk seluruh topik dan 90% untuk 10 topik Agglomerative Clustering (GA-HAC) untuk
terpopuler. mengotomatisasikan pengelompokan dokumen-
Kata Kunci: Clustering, Cluster Labeling, Group- dokumen berita berdasarkan topik-topiknya dan
Average Hierarchical Agglomerative Clustering, cluster labeling dengan Mutual Information (MI)
Mutual Information, News Topic Detection. untuk memberikan deskripsi dari topik tersebut. Kedua
pengaplikasian metode ini dilakukan dalam
1 PENDAHULUAN lingkungan time window yang memandang aliran
berita melalui “jendela” dengan dokumen-dokumen
1.1 Latar Belakang pada interval waktu 24 jam.
Saat ini teknologi informasi di Indonesia berkembang
dengan sangat pesat, masyarakat sudah banyak yang 2 METODOLOGI
menggunakan internet untuk berkomunikasi dan
mendapatkan informasi, salah satu informasi yang bisa 2.1 Time Window
didapatkan oleh pengguna internet adalah berita. Time window adalah suatu metode yang digunakan
untuk menangani aliran berita. Time window
Berita di internet bisa didapatkan dari banyak situs memandang sebuah aliran dokumen berita melalui
khusus berita yang selalu menyediakan dokumen- “jendela” dengan jumlah dokumen atau interval waktu
dokumen berita terbaru. Dengan banyaknya situs-situs tertentu [1] [5] [6] [15] [22].
tersebut, informasi yang bisa didapatkan oleh
pengguna sangat banyak, namun tidak semua
1
2. 3. Kelas karakter yang ketiga adalah karakter-
karakter yang berjenis non-simbol. Karakter-
karakter pada kelas ini merupakan karakter-
karakter utama dalam pembentukan sebuah term.
2.2.2 Proses Tokenizer Secara Umum
Proses tokenizer diawali membagi-bagi teks
berdasarkan karakter-karakternya, lalu dilakukan
Gambar 0.1 Ilustrasi Time Window pada Aliran
penelusuran satu persatu dari awal dokumen dan
Dokumen Berita
melakukan operasi sesuai dengan sifat tiap karakter
Konsep time window diadopsi dengan cara membagi tersebut. Contoh proses tokenizer secara umum adalah
aliran dokumen berita kedalam segmen-segmen misalkan diketahui sebuah dokumen dengan isi teks:
dimana tiap segmen berisi dokumen-dokumen pada Apakah dia sedih? "Saya lihat biasa
interval waktu 1 jam. Koleksi dokumen terbaru saja," lanjut bapak.
dibangun dengan menggunakan segmen-segmen 24
jam terakhir saja, hal ini dilakukan dengan Hasil proses tokenizer ini adalah:
menambahkan segmen terbaru dan membuang segmen Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumen
yang telah melebihi 24 jam. Proses perubahan koleksi
dokumen terbaru ini dirumuskan dengan: Token Tipe Token Tipe
w
Apakah Term biasa Term
dia Term saja Term
������i , 1≤w≤τ sedih Term , Simbol
i=1
������w = (2.1) ? Simbol ” Simbol
w
” Simbol lanjut Term
������i , w>τ Saya Term bapak Term
i=w−τ lihat Term . Simbol
dimana
w adalah waktu terakhir 2.2.3 Penanganan Simbol-Simbol Tertentu
Si adalah segmen pada waktu i Aturan pemisahan sederhana diatas akan mengalami
Kw adalah koleksi dokumen pada waktu w kendala untuk term yang seharusnya menyatu seperti
τ adalah 24 jam nama orang yang menggunakan kutip tunggal
“Safi'i”, yang akan menghasilkan token safi , ', i
2.2 Tokenization ataupun alamat email seperti “email@server” yang
Tokenization adalah proses pemotongan rangkaian akan menghasilkan token email , @, server . Untuk
kata menjadi bagian-bagian yang dinamakan token, menghindari kendala tersebut, dilakukan penyesuaian
sebuah token adalah kejadian dari urutan karakter aturan terhadap karakter-karakter simbol [.], ['], [-],
dalam dokumen tertentu yang dikelompokkan bersama [@] dan [#], yaitu:
sebagai sebuah unit pemrosesan semantik yang
berguna. Token ini umumnya disebut juga sebagai Untuk karakter simbol [.], ['] dan [-]
sebuah term [17]. Pada penelitian ini proses Aturan logika 1: Jika karakter simbol [.], ['] atau [-]
tokenization dilakukan dengan membagi-bagi teks tidak terletak pada awal dokumen dan akhir dokumen
dokumen berdasarkan karakternya. Untuk dapat dan diawali oleh karakter spasi atau (inklusif) diikuti
mendeteksi apakah suatu urutan karakter merupakan karakter spasi atau simbol, maka karakter simbol
sebuah term atau simbol, karakter-karakter tersebut bukan bagian dari token term. Aturan ini
diklasifikasikan kedalam tiga kelas karakter. dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c
˅ d) ⊕ e)) dengan proporsi-proporsi:
2.2.1 Klasifikasi Kelas Karakter
1. Kelas karakter yang pertama adalah kelas karakter a = karakter simbol [.], ['] dan [-] tersebut bukan
spasi. Karakter-karakter pada kelas ini merupakan karakter pertama.
karakter-karakter yang umumnya digunakan b = masih ada karakter selanjutnya.
sebagai pemisah kata dan paragraph.
2. Kelas karakter yang kedua adalah karakter c = karakter selanjutnya adalah spasi.
berjenis simbol. Kelas karakter ini umumnya d = karakter selanjutnya adalah simbol.
berbentuk tanda baca, seperti “;” (titik koma) dan
“?” (tanda tanya). e = karakter sebelumnya adalah spasi.
2
3. Aturan logika 2: Jika karakter simbol [.], ['] atau [-] dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄
terletak pada awal dokumen, maka karakter simbol e) dengan proporsi-proporsi:
tersebut bukan bagian dari token term. a = Karakter simbol [#] tersebut bukan karakter
Aturan logika 3: Jika aturan Logika 1 dan 2 diatas pertama.
tidak memenuhi, maka karakter simbol tersebut b = Masih ada karakter selanjutnya.
merupakan bagian dari token term.
c = Karakter selanjutnya adalah spasi.
Contoh pengaplikasian dari aturan-aturan ini adalah:
d = Karakter selanjutnya adalah simbol.
1. “www.situs.com” dianggap sebagai sebuah
token utuh: www.situs.com . e = Karakter sebelumnya adalah spasi.
2. “masih bisa. Selain itu” menjadi:
masih , bisa , ., Selain , itu . Aturan Logika 2: Jika aturan logika 1 diatas tidak
3. “safi'i” dianggap sebagai sebuah token utuh: memenuhi, maka karakter simbol tersebut adalah
bagian dari token term.
safi'i .
4. “Mike 'Leher Beton” menjadi: Mike, ', Contoh pengaplikasian dari aturan-aturan ini adalah:
Leher , Beton . 1. “topik populer #hashtag” menjadi: topik ,
5. “Leher Beton' Tyson” menjadi: Leher , populer , #hashtag .
Beton , ' , Tyson . 2. “ini# itu” menjadi: ini, #, itu.
6. “rumah-rumah” dianggap sebagai sebuah token 3. “ini#itu” menjadi: ini, #, itu .
utuh: rumah-rumah .
7. “-Polisi membekuk” menjadi: -, Polisi , 2.3 Representasi Dokumen
membekuk . Tiap dokumen berita direpresentasikan sebagai vektor
pada ruang vektor dengan jumlah komponen vektor
Untuk karakter simbol [@] sebanyak term unik yang dihasilkan pada proses
Aturan logika 1: Jika karakter simbol [@] tidak tokenization. Vektor dokumen beranggotakan bobot
terletak pada akhir dokumen dan diikuti karakter spasi tiap term yang dihitung dengan skema pembobotan
atau (inklusif) simbol, maka karakter simbol tersebut Term Frequency – Inverse Document Frequency (TF-
bukan bagian dari token term. Aturan ini dapat IDF). TF-IDF adalah skema pembobotan yang
dituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan menghitung bobot term secara relatif berdasarkan
proporsi-proporsi: jumlah kemunculannya pada suatu dokumen dan
seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF
a = masih ada karakter selanjutnya dinotasikan dengan tf-idft,d dan dihitung dengan:
b = karakter selanjutnya adalah spasi ������������
������������-������������������������,������ = ������������������,������ × log ������ (2.2)
c = karakter selanjutnya adalah simbol ������������������
dimana
Aturan logika 2: Jika aturan Logika 1 diatas tidak t adalah term
memenuhi, maka karakter simbol tersebut merupakan d adalah dokumen
bagian dari token term.
tft,d adalah frekuensi kemunculan term t pada
Contoh pengaplikasian dari aturan-aturan ini adalah: dokumen d
1. “email@server” dianggap sebagai sebuah token dft adalah jumlah dokumen yang mengandung
email@server term t pada koleksi dokumen
2. “pada twitternya @akuntwit” menjadi: nk adalah jumlah dokumen di dalam koleksi
pada , twitternya , @akuntwit .
3. “ini@ itu” menjadi: ini, @, itu . Nilai bobot hasil perhitungan TF-IDF lalu digunakan
untuk mengukur tingkat kemiripan antar dokumen
4. “ini@ itu” menjadi: ini, @, itu .
(document similarity) dengan metode Cosine
Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25]
Untuk karakter simbol [#]
[30] [31]. Nilai cos ������ sebagai kemiripan dokumen
Aturan logika 1: Jika karakter simbol [#] tidak antara dokumen di dan dj dihitung dengan:
terletak pada akhir dokumen dan diikuti karakter spasi
atau (inklusif) simbol, maka karakter simbol tersebut ������������������ ∙ ������������������
cos ������ = = ������������������(������������ , ������������ ) (2.3)
bukan bagian dari token term. Aturan ini dapat ������������ ������ ������������ ������
3
4. 2.4 Clustering dengan GA-HAC dimana
Group Average (GA) adalah suatu metode 1
������ ������������ = ������ ������ ∈������������ ������������������(������������ , ������������ ),
penggabungan yang digunakan pada proses clustering ������������ −1
1
dengan Hierarchical Agglomerative Clustering (HAC) ������ ������������ = arg min ������������ ������ ������ ∈������������ ������������������(������������ , ������������ )
������������
[10] [14] [33] [34]. Metode GA mengevaluasi
kemiripan cluster berdasarkan combination similarity. ������������������ ������������ , ������������ = 1 − cos ������ = 1 − ������������������(������������ , ������������ )
Combination similarity antara cluster Ci dan Cj Penghitungan document fitness ini dilakukan pada tiap
didapatkan dengan menghitung nilai rata-rata langkah penggabungan cluster di hierarki, dimana
document similarity antara seluruh pasangan dokumen seluruh nilai document fitness tiap dokumen pada
di di cluster Ci dan dj di cluster Cj dengan persamaan: langkah penggabungan cluster tersebut kemudian di
������������������-������������(������������ , ������������ ) rata-ratakan. Pemotongan hierarki untuk mendapatkan
1 natural clusters didapatkan dengan melakukan
= ������������������ ������������ , ������������ (2.4) pemotongan pada langkah penggabungan cluster
������������������ × ������������ ������
������ ������ ∈������������ ������ ������ ∈������������ dengan rata-rata nilai document fitness terbesar.
dimana
2.5 Cluster Labeling dengan MI
������������������ dan ������������������ adalah jumlah dokumen pada cluster Setelah pengelompokan dokumen berita dengan topik
Ci dan Cj yang sama dengan clustering, cluster label digunakan
sim (di ,dj) adalah nilai document similarity antara sebagai deskripsi topik dari dokumen-dokumen berita
dokumen di dan dj. yang terkandung didalam sebuah cluster. Proses ini
meliputi: Part-Of-Speech Tagger dengan perangkat
Algoritma metode penggabungan HAC dengan GA lunak iPOSTagger [25] yang hasilnya digunakan
adalah sebagai berikut: untuk mengidentifikasi frasa-frasa nomina, ekstraksi
1. Inisialisasi tiap dokumen sebagai sebuah cluster frasa calon cluster label dan penghitungan nilai
dengan document similarity sebagai initial deskriptif frasa-frasa calon cluster label dengan
combination similarity antar cluster. Mutual Information menggunakan Laplace
2. Hitung nilai combination similarity antar Correction. Nilai deskriptif calon cluster label
pasangan cluster dengan SIM-GA tertinggi kemudian dapat dipilih sebagai label dari
3. Gabungkan pasangan cluster dengan nilai cluster tersebut.
combination similarity yang paling besar sebagai
2.5.1 Identifikasi Frasa-Frasa Calon Cluster
cluster baru.
4. Ulangi langkah 2 dan 3 sampai keadaan seluruh Label
cluster telah digabungkan. Frasa-frasa untuk calon cluster label yang
mendeskripsikan isi inti dari suatu cerita ditentukan
2.3.1 Natural Clustering dengan mengambil bagian-bagian dokumen yang
Untuk mendapatkan hasil cluster yang terpisah seperti memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26]
pada flat clustering, dilakukan pemotongan pada [29]. Pada penelitian ini, sifat-sifat untuk menentukan
dendogram hierarki cluster hasil algoritma GA-HAC. frasa-frasa calon cluster label adalah:
Pemotongan dendogram hierarki cluster ini dilakukan
1. Tidak melewati batas klausa atau kalimat berupa
pada bagian dendogram yang menggabungkan cluster
tanda baca seperti “.”, “,”, “!” dan“?”.
dengan combination similarity terkecil, ini ditentukan
berdasarkan nilai kelayakan tiap dokumen (document 2. Tidak diawali atau diakhiri dengan stopwords.
fitness) terhadap cluster yang menampungnya [17]. Stopwords adalah kata-kata yang terlalu sering
digunakan pada seluruh dokumen.
Nilai document fitness dari dokumen di terhadap
cluster Ci dinotasikan dengan f(di ). f(di ) dihitung 3. Merupakan frasa nomina (frasa kata benda atau
dengan membandingkan nilai combination similarity noun phrase). Frasa nomina adalah frasa dengan
antara dokumen di terhadap cluster terdekat kedua Cj unsur pusat kata berupa nomina atau kata benda.
dan rata-rata document similarity di dengan dokumen- Pengidentifikasian frasa nomina dilakukan dengan
dokumen lain pada cluster Ci. Jika Ci adalah singleton mengacu pada POS Tag tiap kata dalam frasa.
cluster (cluster yang hanya berisi di), maka nilai f(di ) 4. Merupakan complete phrase, yaitu frasa lengkap
adalah 0. Sedangkan jika Ci bukan singleton cluster, yang tidak bisa diperluas lagi dengan
maka nilai f(di ) dihitung dengan persamaan: menambahkan elemen kata sesudah atau sebelum
������ ������������ − ������(������������ ) frasa tersebut.
������ ������������ = (2.5)
max ������������ , ������ ������������ }
{������
4
5. 2.5.2 Mutual Information 3 EKSPERIMEN DAN EVALUASI
Mutual Information (MI) adalah salah satu metode Eksperimen-eksperimen yang diteliti pada penelitian
yang dapat digunakan untuk menghitung nilai ini adalah:
deskriptif suatu calon cluster label. MI dihitung
1. Performa clustering GA-HAC dengan pemotongan
dengan persamaan:
natural clustering dan pengaruh penggunaan
������(������, ������) stopwords dalam proses clustering.
������������ ������, ������ = ������(������, ������) log 2 (2.6)
������∈������ ������ ∈������
������1 ������ ������2 (������) 2. Performa cluster labeling dengan algoritma Mutual
Information.
dimana 3. Performa algoritma Mutual Information dalam
p(x,y) adalah distribusi probabilitas gabungan dari pendeteksian 10 topik terpopuler dengan hanya
variable X dan Y melibatkan 10 cluster dengan jumlah dokumen
p1(x) adalah distribusi probabilitas X terbanyak pada tiap hasil clustering.
p2(y) adalah distribusi probabilitas Y
3.1 Data Eksperimen
Dalam cluster labeling, varibel X berhubungan dengan
Sumber data yang digunakan pada eksperimen ini
keanggotaan dalam sebuah cluster dan variable Y
adalah 509 dokumen yang diambil dari aliran berita
berhubungan dengan kehadiran dari sebuah term.
selama 48 jam dari tanggal 2011-04-25 jam 14:00
Kedua variable tersebut hanya dapat memiliki nilai 0
sampai dengan 2011-04-27 jam 13:00 dari situs-situs
atau 1, sehingga persamaan (2.6) dapat ditulis sebagai:
berita:
������(������������ , ������������ )
������������ ������, ������ = ������(������������ , ������������ ) log2
������ ������������ ������(������������ ) http://nasional.kompas.com/
������∈0,1 ������∈0,1
http://nasional.vivanews.com
������������ ������, ������ = ������ ������1 , ������1 log2
������ ������1 , ������1 http://www.antaranews.com/berita
������ ������1 × ������ ������1 http://www.republika.co.id/berita/nasional
������ ������1 , ������0
+������ ������1 , ������0 log2
������ ������1 × ������ ������0 Dokumen-dokumen berita tersebut telah dibersihkan
(2.7) dari artefak-artefak seperti navigasi, iklan, tautan
������ ������0 , ������1
+������ ������0 , ������1 log2 berita lain, komentar, tag html dan lain-lain. Bagian
������ ������0 × ������ ������1
dokumen berita yang digunakan hanyalah judul dan isi
+ ������ ������0 , ������0 log2
������ ������0 , ������0 berita saja, informasi-informasi lain seperti lokasi,
������ ������0 × ������ ������0 keterkaitan berita berdasarkan tautan-tautan artikel
dimana yang berhubungan, tanggal dan waktu berita tidak
digunakan.
p(C1) merepresentasikan probabilitas bahwa
sebuah dokumen adalah anggota dari suatu Karena keterbatasan sumber daya manusia untuk
cluster. melakukan cluster labeling secara manual, penelitian
p(C0) merepresentasikan probabilitas bahwa ini hanya meneliti data pada jam ke 24, 36 dan 48 saja.
sebuah dokumen bukan anggota dari suatu cluster Tabel 3.1 Data Eksperimen
p(T1) merepresentasikan probabilitas bahwa
sebuah dokumen mengandung suatu term. Jam Jumlah Dokumen
p(T0) merepresentasikan probabilitas bahwa 24 292
sebuah dokumen tidak mengandung suatu term. 36 288
48 268
2.5.3 Laplace Collection
Mutual information tidak memperbolehkan jumlah 3.2 Proses Clustering dan Cluster Labeling
dokumen pada contingency table berjumlah nol,
karena nilai nol pada salah satu elemen contingency
Secara Manual
Untuk melakukan evaluasi dan analisa, data-data
table akan menyebabkan perhitungan MI
penelitian melalui proses clustering dan cluster
menghasilkan nilai yang tidak terdefinisi.
labeling secara manual.
Laplace correction mengasumsikan bahwa ada
tambahan satu dokumen untuk tiap jumlah dokumen 3.2.1 Proses Clustering Secara Manual
pada cotingency table. Karena nilai Log2 1 = 0, maka Proses clustering secara manual dilakukan oleh 2
hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat orang evaluator yang membaca secara utuh seluruh
dihindari. 509 dokumen berita yang didapatkan pada proses
perolehan data, kemudian secara bersama-sama
menujuk tiap dokumen pada tepat satu cluster. Proses
5
6. clustering secara manual ini menghasilkan 157 cluster Ci adalah cluster otomatis dimana dokumen di
yang kemudian digunakan untuk menentukan tiap berada
cluster untuk data-data pada jam ke 24, 36 dan 48. Mi adalah cluster manual dimana dokumen di
3.2.2 Proses Cluster Labeling Secara Manual berada (dari gold standard)
Proses cluster labeling secara manual dilakukan oleh 3 Seluruh nilai precision dan recall dari tiap dokumen
orang evaluator yang secara terpisah meneliti tiap tersebut kemudian dijumlahkan dan dirata-ratakan
cluster dokumen yang dihasilkan oleh algoritma untuk mendapatkan nilai precision dan recall final.
clustering otomatis dari data-data jam ke 24, 36 dan
Nilai F1-Measure didapatkan dengan menggabungkan
48. Proses ini dilakukan dengan memberikan frasa-
precision dan recall dengan penghitungan:
frasa yang dianggap dapat mewakili topik dokumen-
dokumen berita dari tiap cluster sebagai label dari ������������������������������������������������������ × ������������������������������������
������1 = 2 × (3.4)
cluster tersebut. Frasa yang digunakan sebagai cluster ������������������������������������������������������ + ������������������������������������
label manual dapat berjumlah lebih dari satu, baik
berupa sinonim, singkatan, maupun frasa berbeda yang
secara intuitif sama-sama dapat mewakili topik dari 3.3.2 Evaluasi Hasil Cluster Labeling
cluster tersebut. Syarat dari proses cluster labeling Treeratpituk dan Callan [38] mendefinisikan cluster
manual ini adalah tiap frasa yang digunakan sebagai labeling sebagai masalah ranking deskriptor. Dalam
cluster label manual harus terkandung dalam dokumen mengevaluasi cluster labeling, Treeratpituk dan Callan
berita dari cluster tersebut, syarat ini digunakan karena menggunakan dua definisi dari sebuah label yang
sistem tidak akan bisa menghasilkan frasa yang tidak benar: exact match dan partial match dan
terkandung pada dokumen manapun didalam cluster. menggunakan empat metrik evaluasi: Match@N,
P@N, MRR dan MTRR.
3.3 Metrik-Metrik Evaluasi
Untuk mengukur hasil eksperimen, evaluasi dibagi 2.5.3.1 Definisi label yang benar
menjadi dua bagian, evaluasi clustering dan evaluasi Exact Match: Sebuah label L adalah exact match dari
cluster labeling, kedua evaluasi tersebut mengacu label yang sebenarnya S jika L sama persis atau
pada perbandingan relevansi hasil yang dihasilkan merupakan sinonim dari S. Sebagai contoh, untuk S
secara otomatis oleh algoritma dengan hasil yang “motor gede”, L seperti “motor gede” dan “motor
dilakukan secara manual oleh evaluator manusia. besar” diklasifikasikan sebagai exact match.
3.3.1 Evaluasi Hasil Clustering Partial Match: Sebuah label L adalah partial match
Untuk mengevaluasi hasil clustering, digunakan empat dari label yang sebenarnya S jika L mengandung
metrik evaluasi yaitu purity, precision, recall dan F1- paling tidak sebuah term dari S. Sebagai contoh, untuk
Measure. Perhitungan precision dan recall pada S “manajemen analisis proses bisnis”, L seperti
clustering metrik evaluasi clustering ini menggunakan “bisnis”, “proses”, “manajemen bisnis”, “analisis
metode B-Cubed metric [3]. manajemen” dan “analisis proses bisnis”
diklasifikasikan sebagai partial match.
Purity dihitung dengan:
1 2.5.3.2 Match at top N results (Match@N)
������������������������������������ = max |������������ ∩ ������������ | (3.1) Match@N mengindikasikan apakah N hasil teratas
������ ������
������ mengandung label yang benar. Indikator ini bersifat
dimana biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika
ada satu, dua ataupun tiga label pada hasil teratas
n adalah jumlah dokumen pada koleksi. merupakan label yang benar, maka nilai Match@N
k adalah cluster otomatis adalah 1, namun jika sama sekali tidak ada label yang
j adalah cluster manual (dari gold standard) benar, maka nilai Match@N adalah 0.
Ck adalah cluster otomatis ke-k
Mj adalah cluster manual ke-j (dari gold standard) 2.5.3.3 Precision at top N results (P@N)
precision dan recall dari tiap dokumen di dihitung P@N adalah jumlah label-label pada hasil N teratas
dengan: yang cocok dengan label-label yang benar dibagi
dengan N. P@N mengukur persentase dari jawaban
������������ ∩ ������������ benar yang dihasilkan pada peringkat 1 sampai dengan
������������������������������������������������������ ������������ = (3.2)
������������ N, sehingga, jika ada dua hasil dari lima hasil teratas
������������ ∩ ������������ (N = 5) yang merupakan label yang benar, maka P@N
������������������������������������ ������������ = (3.3)
������������ bernilai 2/5.
dimana
6
7. Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering
Jam Stopwords Purity Precision Recall F1
Tanpa Stopwords 0,978 0,977 0,454 0,620
24 20% Stopwords 0,975 0,974 0,461 0,626
Stopwords Umum 0,978 0,977 0,454 0,620
Tanpa Stopwords 0,943 0,924 0,634 0,752
36 20% Stopwords 0,946 0,928 0,615 0,740
Stopwords Umum 0,946 0,935 0,653 0,769
Tanpa Stopwords 0,552 0,447 0,841 0,584
48 20% Stopwords 0,718 0,628 0,810 0,708
Stopwords Umum 0,545 0,441 0,841 0,579
Rata-Rata
Tanpa Stopwords 0.825 0.783 0.643 0.652
20% Stopwords 0.88 0.844 0.629 0.691
Stopwords Umum 0.824 0.785 0.65 0.656
Berdasarkan hasil evaluasi eksperimen-eksperimen
2.5.3.4 Mean Reciprocal Rank (MRR) clustering pada tabel 3.2 diatas, dapat disimpulkan
Mean reciprocal rank adalah rata-rata dari reciprocal
bahwa:
rank (RR) dari peringkat label benar yang pertama.
Jika label benar yang pertama ada di peringkat ke tiga, 1. GA-HAC dengan menggunakan stopwords yang
maka RR bernilai 1/3. Jika N respon pertama tidak umum tidak memberikan perubahan yang signifikan
mengandung label yang benar, maka RR bernilai 0. dibandingkan dengan GA-HAC tanpa menggunakan
RR bernilai 1 label benar yang pertama ada di stopwords, ini mengindikasikan penggunaan term
peringkat ke satu. yang terlalu umum sebagai stopwords tidak
memberikan banyak perubahan terhadap
2.5.3.5 Mean Total Reciprocal Rank (MTRR) diskriminasi dokumen dibandingkan dengan tidak
Sebuah kategori dapat memiliki lebih dari satu aspek menggunakan stopwords sama sekali.
yang benar, sebagai contoh, kategori "akupuntur dan 2. GA-HAC dengan menggunakan 20% stopwords
pengobatan alternatif" memiliki dua aspek yang benar term paling sering muncul dari koleksi dokumen
yaitu "akupuntur" dan "pengobatan alternatif". Jika yang diacu dapat memberikan diskriminasi
hasil algoritma cluster labeling meranking dokumen yang lebih baik dalam proses clustering
"akupuntur" dan "pengobatan alternatif" sebagai label dibandingkan dengan menggunakan stopwords yang
ke 2 dan ke 4, maka nilai total reciprocal rank (TRR) terlalu umum dan tidak menggunakan stopwords
adalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2. sama sekali.
3. Jumlah cluster yang paling sedikit yang juga hasil
3.4 Penilaian Kinerja Hasil Clustering evaluasi yang paling kecil didapatkan pada
dengan GA-HAC clustering data jam ke 48. Hal yang menarik dari
Pengukuran kinerja hasil clustering dokumen dengan hasil clustering data jam ke 48 ini adalah bahwa
GA-HAC menggunakan metrik evaluasi Purity, penggunaan 20% stopwords menghasilkan jumlah
Precision, Recall dan F1 dengan B-Cubed Metric. cluster yang paling mendekati dibandingkan dengan
Eksperimen-eksperimen yang dilakukan pada penggunaan stopwords lain, dimana total cluster
pengukuran kinerja hasil clustering dengan GA-HAC secara manual adalah 84 dan hasil clustering
adalah: otomatis dengan 20% stopwords adalah 45, dua kali
lipat dari jumlah cluster yang dihasilkan oleh
Tidak digunakannya pembuangan stopwords dalam penggunaan stopwords yang lain, 20 cluster (tanpa
clustering (Tanpa Stopwords), stopwords) dan 22 cluster (stopwords umum).
Menggunakan daftar stopword yang digunakan pada 4. Hasil clustering dengan 20% stopwords yang
penelitian efek stemming dalam information dihasilkan oleh pemotongan dendogram natural
retrieval untuk Bahasa Indonesia [27] dengan 357 clustering memberikan nilai evaluasi F1 = 0,691
kata dari corpus Bahasa Indonesia umum dengan precision = 0,844 dan recall 0,629. Ini
(Stopwords Umum). mengindikasikan bahwa hasil clustering yang
Menggunakan daftar stopwords yang diperoleh dari dihasilkan lebih memenuhi kebutuhan informasi
koleksi seluruh dokumen penelitian dengan 20% web surfer umum daripada kebutuhan informasi
term yang paling sering muncul (20% Stopwords). intelegent analyst.
7
8. 3.5 Penilaian Kinerja Cluster Labeling Cluster labeling dengan MI untuk 10 cluster hasil
Pengukuran kinerja hasil cluster labeling GA-HAC yang memiliki jumlah dokumen
menggunakan metrik evaluasi cluster labeling terbanyak.
Treeratpituk dan Callan [28] dengan N = 5. Hasil 3.5.1 Penilaian Kinerja Cluster Labeling
clustering yang digunakan sebagai acuan dalam dengan MI untuk seluruh Cluster
cluster labeling adalah hasil clustering otomatis yang Penilaian kinerja cluster labeling dengan MI ini
dihasilkan oleh GA-HAC dengan menggunakan 20%
dilakukan untuk seluruh cluster termasuk seluruh
term yang paling sering muncul sebagai stopwords.
singleton cluster yang dihasilkan oleh algoritma
Eksperimen-eksperimen yang dilakukan pada clustering GA-HAC dengan menggunakan 20%
pengukuran kinerja hasil clustering labeling dengan stopwords. Hasil evaluasi cluster labeling dengan MI
MI adalah: jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3
Cluster labeling dengan MI untuk seluruh cluster sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat
hasil GA-HAC pada tabel 3.6.
Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48
N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5
Exact Match Exact Match
Match@N 0,019 0,038 0,050 0,063 0,076 Match@N 0,244 0,311 0,333 0,377 0,400
P@N 0,019 0,019 0,016 0,015 0,015 P@N 0,244 0,177 0,125 0,105 0,093
MRR 0,019 0,028 0,032 0,035 0,038 MRR 0,244 0,277 0,285 0,296 0,300
MTRR 0,019 0,028 0,032 0,035 0,038 MTRR 0,244 0,300 0,307 0,318 0,327
Partial Match Partial Match
Match@N 0,246 0,398 0,493 0,550 0,607 Match@N 0,511 0,644 0,688 0,688 0,777
P@N 0,246 0,243 0,223 0,216 0,215 P@N 0,511 0,422 0,363 0,311 0,306
MRR 0,246 0,322 0,354 0,368 0,380 MRR 0,511 0,577 0,592 0,592 0,610
MTRR 0,246 0,367 0,428 0,477 0,519 MTRR 0,511 0,677 0,759 0,798 0,855
Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata
N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5
Exact Match Exact Match
Match@N 0,024 0,049 0,057 0,082 0,090 Match@N 0,079 0,094 0,124 0,150 0,162
P@N 0,024 0,024 0,019 0,020 0,018 P@N 0,079 0,050 0,043 0,041 0,036
MRR 0,024 0,037 0,039 0,046 0,047 MRR 0,079 0,086 0,096 0,103 0,105
MTRR 0,024 0,037 0,039 0,046 0,047 MTRR 0,079 0,090 0,100 0,108 0,112
Partial Match Partial Match
Match@N 0,206 0,355 0,429 0,512 0,578 Match@N 0,329 0,465 0,592 0,655 0,708
P@N 0,206 0,202 0,173 0,167 0,160 P@N 0,329 0,294 0,299 0,296 0,288
MRR 0,206 0,281 0,305 0,326 0,339 MRR 0,329 0,397 0,440 0,455 0,466
MTRR 0,206 0,305 0,344 0,381 0,408 MTRR 0,329 0,459 0,562 0,634 0,685
1 N=1
0.8
N=2
0.6
0.4 N=3
0.2 N=4
0
N=5
Match@N P@N MRR MTRR Match@N P@N MRR MTRR
(Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial)
Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata
8
9. Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48
Cluster Label Cluster Label
Cluster Nomor dan Judul Dokumen Berita
Manual Otomatis
1 Penanganan Lamban, NII Berkembang
2 Pemerintah Diharapkan Tegas Atasi NII
3 Polisi Sudah Petakan Kantong-kantong NII
4 NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel 1. NII
1. NII
5 Waspadalah, Ini Kantong NII di Jakarta 2. NKRI
2. Negara
Cluster 1 6 NII Jangan Hanya Dibebankan kepada Polri 3. Kampus
Islam
... ... 4. Mahasiswa
Indonesia
28 Kementerian Agama Redam Radikalisme Agama 5. Otak
29 PMII Tolak Ideologisasi Negara Islam
30 PBNU : Radikalisme di Indonesia Sudah "Lampu Merah"
31 PBNU : Perlu UU Antiterorisme yang Lebih Tajam
1 Dulu Bertanding, Kini Bersanding.... 1. Edhie
2 'Jangan Kaitkan Besanan SBY-Hatta dengan Politik' Baskoro
3 "Pertunangan Jangan Dikaitkan Politik!" 1. Edhie Yudhoyono
4 Ibas-Aliya Bukan Perjodohan Politik Baskoro 2. Siti Rubi
Cluster 2 5 Pernikahan Ibas-Aliya Hasil Perjodohan Politik? Yudhoyono Aliya
... ... 2. Siti Ruby Rajasa
27 Pengamanan di Kediaman Hatta Diperketat Aliya Rajasa 3. Hatta
28 Acara Ibas-Aliya Bernuansa Pesta Kebun 4. Ibas
29 Saat Dirias, Aliya Degdegan 5. Pertunangan
... ... ... ... ...
1 Diknas: Tidak Ada Peserta UN Susulan Bojonegoro
2 312 Peserta UN di Jember Mengundurkan Diri 1. UN
1. UN 2. Sekolah
3 Ikut Ujian Nasional, Siswa SMP Barut Carter Kapal
Cluster 14 2. Ujian 3. Siswa
4 Disdik Bekasi Jamin Tidak Ada Kebocoran Soal
Nasional 4. SMP
5 Konflik SMA 70 Bulungan Sampai ke Pengadilan 5. Kabupaten
6 Mendiknas: 20 Daerah Belum Salurkan BOS
... ... ... ... ...
Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas match P@N untuk N = 5 adalah 0,0368 dan nilai
dapat disimpulkan bahwa: partial match P@N untuk N = 5 adalah 0,2880.
Ini artinya untuk 100 cluster, dari seluruh 500
1. Nilai rata-rata exact match Match@N untuk N = 1
adalah 0,0791 dan nilai rata-rata partial match cluster label yang dihasilkan secara otomatis oleh
Match@N untuk N = 1 adalah 0,3297. Ini artinya algoritma MI, algoritma ini secara rata-rata dapat
untuk 100 cluster, dari 100 cluster label peringkat menghasilkan 18,4 cluster label yang benar secara
pertama yang dihasilkan secara otomatis oleh exact match dan 144 cluster label yang benar
algoritma MI, algoritma ini secara rata-rata dapat secara partial match.
4. Dari perbandingan antara jumlah cluster dengan
memprediksi dengan benar label untuk 7,91
hasil yang diberikan oleh algoritma dari
cluster secara exact match dan 32,97 cluster
secara partial match. eksperimen ini, algoritma MI tidak memberikan
2. Nilai rata-rata exact match Match@N untuk N = 5 hasil yang memuaskan.
adalah 0,1620 dan nilai rata-rata partial match Adapun hal yang menarik pada eksperimen ini adalah
Match@N untuk N = 5 adalah 0,7081. Ini artinya hasil evaluasi cluster labeling pada jam ke 48, dimana
untuk 100 cluster, dari 500 cluster label peringkat hampir seluruh metrik evaluasi bernilai lebih besar
teratas yang dihasilkan secara otomatis oleh dibandingkan dengan hasil evaluasi cluster labeling
algoritma MI, algoritma ini secara rata-rata dapat pada jam ke 24 dan 36. Perbedaan yang cukup
memprediksi dengan benar label untuk 16,2 signifikan dari hasil evaluasi cluster labeling pada jam
cluster secara exact match dan 70,81 cluster ke 48 ini ditambah lagi dengan perbedaan pada hasil
secara partial match. evaluasi clustering, dimana pada hasil evaluasi
3. Kualitas label rata-rata yang dihasilkan dari hasil clustering data jam ke 48 menunjukkan nilai evaluasi
diatas dilihat dari nilai evaluasi P@N. Nilai exact
9
10. yang paling kecil dibandingkan dengan data pada jam- cluster yang hanya terdiri dari satu dokumen saja
jam lainnya. memiliki jumlah frasa utama yang sedikit, hal tersebut
Perbedaan ini juga terjadi pada jumlah cluster yang membuat penentuan frasa utama sebagai cluster label
dihasilkan, dimana pada jam tersebut, jumlah cluster secara otomatis sulit dilakukan. Untuk itu dilakukan
yang dihasilkan lebih sedikit dibandingkan dengan eksperimen lanjutan dengan meneliti kemampuan MI
data pada jam lainnya. Hal tersebut menyebabkan tiap dalam cluster labeling secara otomatis untuk hanya 10
cluster dengan jumlah dokumen terbanyak. Statistik
cluster pada jam ke 48 secara umum memiliki jumlah
jumlah dokumen untuk 10 cluster dengan jumlah
dokumen yang lebih banyak dibandingkan dengan
hasil clustering pada jam-jam lainnya, jumlah dokumen terbanyak tersebut adalah:
dokumen yang lebih banyak memungkinkan Tabel 3.8 Jumlah dokumen untuk 10 Cluster dengan
pendeteksian frasa utama dapat dilakukan dengan jumlah dokumen terbanyak
lebih baik karena jumlah frasa-frasa utama dari tiap
Jam 10 Cluster Seluruh Cluster
dokumen pada tiap cluster tersebut jumlahnya lebih
24 75 292
banyak. Untuk meneliti hal ini lebih mendalam,
dilakukan ekperimen lanjutan yang hanya 36 96 288
menggunakan 10 cluster dengan jumlah dokumen 48 175 268
terbanyak dari tiap data jam ke 24, 36 dan 48.
Eksperimen-eksperimen yang sama dilakukan seperti
3.5.2 Penilaian Kinerja Cluster Labeling pada pengukuran hasil kinerja cluster labeling untuk
dengan MI untuk 10 Cluster Teratas seluruh cluster dari hasil clustering dengan GA-HAC.
Mayoritas cluster yang dihasilkan oleh proses Hasil eksperimen cluster labeling dengan MI jam ke
clustering otomatis GA-HAC berjenis singleton 24, 36 dan 48 dapat dilihat pada tabel 3.9 sampai
cluster, yaitu cluster yang hanya terdiri dari satu dengan tabel 3.11, hasil eksperimen rata-rata dapat
dokumen berita dan umumnya merupakan dokumen dilihat pada tabel 3.12.
berita dengan topik yang tidak populer. Singleton
Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48
N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5
Exact Match Exact Match
Match@N 0,1 0,2 0,2 0,3 0,3 Match@N 0,5 0,7 0,7 0,7 0,7
P@N 0,1 0,1 0,067 0,075 0,06 P@N 0,5 0,45 0,3 0,225 0,18
MRR 0,1 0,15 0,15 0,175 0,175 MRR 0,5 0,6 0,6 0,6 0,6
MTRR 0,1 0,15 0,15 0,175 0,175 MTRR 0,5 0,7 0,7 0,7 0,7
Partial Match Partial Match
Match@N 0,5 0,8 0,9 0,9 0,9 Match@N 0,8 0,9 0,9 0,9 0,9
P@N 0,5 0,5 0,4 0,375 0,34 P@N 0,8 0,75 0,567 0,425 0,38
MRR 0,5 0,65 0,683 0,683 0,683 MRR 0,8 0,85 0,85 0,85 0,85
MTRR 0,5 0,75 0,816 0,891 0,931 MTRR 0,8 1,15 1,216 1,216 1,256
Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata
Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36
10 Cluster Teratas
N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5
Exact Match Exact Match
Match@N 0,1 0,2 0,4 0,4 0,4 Match@N 0,233 0,366 0,433 0,466 0,466
P@N 0,1 0,1 0,133 0,1 0,08 P@N 0,233 0,216 0,166 0,133 0,106
MRR 0,1 0,15 0,216 0,216 0,216 MRR 0,233 0,3 0,322 0,330 0,330
MTRR 0,1 0,15 0,216 0,216 0,216 MTRR 0,233 0,333 0,355 0,363 0,363
Partial Match Partial Match
Match@N 0,6 0,7 0,9 0,9 0,9 Match@N 0,633 0,8 0,9 0,9 0,9
P@N 0,6 0,45 0,367 0,35 0,28 P@N 0,633 0,566 0,444 0,383 0,333
MRR 0,6 0,65 0,716 0,716 0,716 MRR 0,633 0,716 0,75 0,75 0,75
MTRR 0,6 0,75 0,816 0,891 0,891 MTRR 0,633 0,883 0,95 1 1,026
10
11. 1.2 N=1
1 N=2
0.8
0.6 N=3
0.4 N=4
0.2
0 N=5
Match@N P@N MRR MTRR Match@N P@N MRR MTRR
(Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial)
Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster Teratas
Berdasarkan hasil eksperimen untuk menemukan frasa performanya lebih baik saat jumlah dokumen
utama pada 10 cluster dengan jumlah dokumen berita yang terkandung pada tiap cluster yang diproses
terbanyak dapat disimpulkan bahwa: cukup banyak.
1. Nilai rata-rata exact match Match@N untuk N = 1 4 KESIMPULAN DAN SARAN
adalah 0,2333 dan nilai rata-rata partial match
Match@N untuk N = 1 adalah 0,6333. Ini artinya 4.1 Kesimpulan
untuk 10 cluster, dari 10 cluster label peringkat Berdasarkan hasil penelitian, dapat disimpulkan
pertama yang dihasilkan secara otomatis oleh beberapa hal berikut:
algoritma MI, algoritma ini secara rata-rata dapat
memprediksi dengan benar label untuk 2,333 1. Algoritma GA-HAC dengan TF-IDF, Vector
cluster secara exact match dan 6,333 cluster Space Model, Cosine Similarity, penggunaan 20%
secara partial match. stopwords dan Natural Clustering dapat
2. Nilai rata-rata exact match Match@N untuk N = 5 menghasilkan sekumpulan cluster yang berisi
adalah 0,4667 dan nilai rata-rata partial match dokumen dengan topik berita yang sama dengan
Match@N untuk N = 5 adalah 0,9. Ini artinya rata-rata nilai evaluasi F1 = 0,691 dengan
untuk 10 cluster, dari 50 cluster label peringkat precision = 0,844 dan recall 0,629. Ini
teratas yang dihasilkan secara otomatis oleh mengindikasikan bahwa hasil clustering yang
algoritma MI, algoritma ini secara rata-rata dapat dihasilkan lebih memenuhi kebutuhan informasi
memprediksi dengan benar label untuk 23,335 web surfer umum daripada kebutuhan informasi
cluster secara exact match dan 45 cluster secara intelegent analyst.
partial match. 2. Pemilihan frasa-frasa calon cluster label dengan
3. Kualitas label rata-rata yang dihasilkan dari hasil frasa kata benda hasil Part-of-Speech Tagger dan
diatas dilihat dari nilai evaluasi P@N. Nilai exact algoritma Mutual Information yang
match P@N untuk N = 5 adalah 0,1067 dan nilai dikombinasikan dengan Laplace Correction dapat
partial match P@N untuk N = 5 adalah 0,3333. digunakan untuk menghasilkan cluster label yang
Ini artinya untuk 10 cluster, dari seluruh 50 merepresentasikan dokumen-dokumen berita dari
cluster label yang dihasilkan secara otomatis oleh tiap cluster dan bekerja paling baik saat jumlah
algoritma MI, algoritma ini secara rata-rata dapat dokumen berita yang terkandung didalamnya
menghasilkan 5,335 cluster label yang benar cukup banyak.
secara exact match dan 16,65 cluster label yang 3. Jika topik-topik terpopuler ditentukan dengan
benar secara partial match. jumlah dokumen yang terkandung pada tiap
4. Secara umum, nilai-nilai evaluasi cluster labeling cluster, maka kombinasi algoritma-algoritma yang
membaik pada eksperimen dengan 10 cluster digunakan pada penelitian ini dapat digunakan
dengan jumlah dokumen terbanyak, namun sama untuk mendefinisikan topik-topik berita
seperti pada eksperimen cluster labeling untuk terpopuler saat itu, selain itu, dengan
seluruh cluster, nilai terbesar evaluasi didapatkan digunakannya time window dan segmentasi
pada data jam ke 48 yang jumlah dokumen pada koleksi dokumen, kebutuhan dalam pendefinisian
10 cluster teratasnya rata-rata berjumlah dua kali topik-topik terpopuler dapat dilakukan secara
lipat dibandingkan data pada jam-jam lainnya. Hal dinamis baik untuk per-hari, per-minggu, per-
ini menunjukkan bahwa jumlah dokumen bulan dan lain-lain.
memiliki pengaruh dalam algoritma cluster
labeling dengan Mutual Information dan
11
12. 4.2 Saran Broadcast News Transcription and
Solusi yang dikembangkan pada penelitian masih Understanding Workshop. 194-128.
belum sempurna dan dapat dikembangkan dengan [2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007.
penelitian-penelitian lanjutan. Adapun beberapa hal Klasifikasi Dokumen Berita Kejadian
yang disarankan untuk penelitian lanjutan mengenai Berbahasa Indonesia dengan algoritma Single
hal ini adalah: Pass Clustering. Surabaya, Indonesia: Institut
1. Karena jumlah dokumen berpengaruh dalam Teknologi Sepuluh November.
menentukan hasil cluster labeling, maka [3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms
disarankan untuk menggunakan jumlah dokumen for Scoring Coreference Chains. In The First
yang lebih banyak pada penelitian lanjutan International Conference on Language
mengenai cluster labeling. Resources and Evaluation Workshop on
2. Penentuan frasa-frasa calon cluster label pada Linguistics Coreference, pp. 563-566.
penelitian ini dilakukan secara sederhana, yaitu
dengan mengikut sertakan token yang memiliki [4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman.
kelas kata NN atau NNP dari hasil Part-Of- 2005. A System for New Event Detection.
Speech Tagger Penentuan frasa-frasa calon cluster California, USA: Palo Alto Research Center.
label yang sederhana ini dapat menyebabkan [5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006.
frasa-frasa kata benda yang bukan merupakan Emerging Topic Tracking System. Japan: The
frasa penting disertakan sebagai calon cluster University of Tokyo.
label. Salah satu pengembangan yang dapat
[6] Chun, Seokkyung; Jun Jongeun; & Mc Leod,
dilakukan untuk menentukan frasa-frasa calon
Dennis. 2006. Incremental Mining for News
cluster label adalah dengan menggunakan
Stream. USA: University of Southern
algoritma Named Entity Recognizer.
California.
3. Penggunaan frasa-frasa untuk mewakili suatu
topik kadang tidak cukup untuk menjelaskan isi [7] Ernawati, Sari; Ardiyanti, Arie ST, MT; &
dokumen-dokumen berita pada suatu cluster Setiawan, Erwin Budi. 2009. Klusterisasi
kepada pembaca berita, dibutuhkan deskripsi Dokumen Berita Berbahasa Indonesia
lebih mendetail berupa sebuah kalimat singkat Menggunakan Document Index Graph.
sehingga penjelasan isi dokumen-dokumen berita Yogyakarta, Indonesia: Seminar Nasional
dapat dilakukan dengan lebih baik. Salah satu Aplikasi Teknologi Informasi 2009 (SNATI
solusi yang dapat dikembangkan untuk 2009).
permasalahan ini adalah dengan mengaplikasikan [8] Gustafsson, Johan. 2009. New Methods for
algoritma document summarizer pada tiap cluster Generation and Evaluation of Text Cluster
dokumen. Descriptions. Master’s Thesis, Royal Institute
4. Penggunaan time window yang tidak menyertakan of Technology, Stockholm, Sweeden.
dokumen-dokumen yang melebihi batas waktu
kadaluarsa menyebabkan tidak disertakannya [9] Han, Jiawei; & Kamber, Micheline. 2006. Data
dokumen-dokumen tersebut dalam hasil Mining Concept and Techniques. San
clustering. Ini menyebabkan hilangnya informasi Fransisco, USA: Morgan Kaufmann Publisher.
masa lampau mengenai topik tersebut sehingga [10] Hastie, Trevor; Tibshirani, Robert; Friedman,
penelusuran topik pada dokumen masa lampau Jerome (2010) “The Elements of Statistical
tidak dapat dilakukan. Salah satu solusi yang Learning: Data Mining, Inference and
dapat dikembangkan untuk mengatasi Prediction”. 2nd Edition, Springer.
permasalahan ini adalah dengan menggunakan
pembobotan term yang berkurang secara berkala, [11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008.
dimana dokumen-dokumen pada masa lampau Event Detection with Common User Interest.
diberikan faktor pembobotan yang lebih kecil Napa Valey, California, USA: WIDM 2008.
dibandingkan dengan dokumen-dokumen yang [12] Huang, Anna. 2008. Similarity Measures for Text
lebih baru. Document Clustering. Christchurch, New
Zealand: Departement of Computer Science,
DAFTAR PUSTAKA The University of Waikato, NZCSRSC 2008.
[1] Allan, James; Carbonell, Jaime; Doddington, [13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling,
George; Yamron, Jonathan; & Tang, Yiming. Charles X.; & Huang, Tiejun. 2006. Keyphrase
1998. Topic Detection and Tracking Pilot Study Extraction using Semantic Networks Structure
Final Report. Proceedings of the DARPA Analysis. Proceedings of the sixth IEEE
12
13. International Conference on Data Mining [25] Smet, Wim De; & Moens, Marie-Francine. 2009.
(ICDM 2006), Hong Kong, 2006., pp. 257-284, An Aspect Based Document Representation for
IEEE press. Event Clustering. Proceedings of the 19th
[14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for Meeting of Computational Linguistics in the
Clustering Data. Prentice Hall Advance Netherlands.
Reference Series. Prentice Hall. [26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis.
[15] Kontostathis, April; Galitsky, Leon M.; Yuma Pustaka, Kadipro, Surakarta.
Pottenger; William M.; Roy, Soma; & Phelps, [27] Tala, Fadilla Z. 2003. A Study of Stemming Effect
Daniel J. 1999. A Survey of Emerging Trend on Information Retrieval in Bahasa Indonesia.
Detection in Textual Data Mining. Michael Master’s thesis, University of Amsterdam.
Berry (Editor), Springer-Verlag, 2003.
[28] Treeratpituk, Pucktada; & Callan, Jamie. 2006.
[16] Leuski, Anton; & Allan, James. 2002. Improving Automatic Labeling Hierarchical Clusters.
Realism of Topic Tracking Evaluation. Proceedings of the 2006 International
Tampere, Finland: SIGIR 2002. Conference on Digital Government Research,
[17] Manning, Christopher D.; Raghavan, Prabhakar; pp. 167-176, New York, NY, USA.
& Schütze, Hinrich. 2009. An Introduction to [29] Turney, Peter D. 2001. Learning Algorithms for
Information Retrieval. Cambridge, England: Keyphrase Extraction. NRC Publication
Cambridge University Press. Archive. Published in J. Information Retrieval,
[18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo; 2(4): 303-336; 2000. NCR 44105. National
Research Council of Canada.
Freitas, Fred; Rienaldo, Guilherme; &
Prudêncio, Ricardo. 2008. Docs-Clustering: A [30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; &
System for Hierarchical Clustering and Ru, Liyun. 2008. Automatic Online News Issue
Document Labeling. Proceedings I Workshop Construction in Web Environment. Beijing,
on Web and Text Intelligence 2008. China: State Key Lab of Intelligent Technology
& Systems, Tainghua National Laboratory for
[19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss,
Information Science and Technology, CS&T
Dawid. 2004. Lingo: Search Results Clustering
Departement, Tainghua University.
Algorithm Based on Singular Value
Decomposition. Proceedings of the [31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006.
International Conference on Intelligent Clustering Berita Berbahasa Indonesia. Jurnal
Information Systems (IIPWM), 2004. FPMIPA UPI dan KK Informatika ITB.
Bandung, Indonesia.
[20] Pon, Raymond K.; Buttler, David; & Critchlow,
Terence. 2007. Tracking Multiple Topics for [32] Wicaksono, Alfan Farizki; & Purwanti, Ayu.
Finding Interesting Articles. San Jose, 2010. HMM Based Part-of-Speech Tagger for
California, USA: KDD 2007. Bahasa Indonesia. Proceedings The Forth
[21] Rijsbergen, Keith van. 2004. The Geometry of International MALINDO Workshop. Jakarta,
Indonesia.
Information Retrieval. New York, USA:
Cambridge University Press. [33] Zhao, Ying; & Karyapis, George. 2002.
Evaluation of Hierarchical Clustering
[22] Roy, Soma; Gevry, David; & Pottenger, William
M. 2006. Methodologies for Trend Detection in Algorithm for Document Datasets. McLean,
Textual Data Mining. USA: Leight University. Virginia, USA: CIKM 2002.
[23] Salton, G; Wong, A; & Yang, C.S. 1975. A [34] Zhao, Ying; & Karyapis, George. 2002. Criterion
Vector Space Model for Automatic Indexing. Functions for Document Clustering,
Experiment and Analysis. Minneapolis, USA:
Communication of the ACM, Information
Departement of Computer Science, University
Retrieval and Language Processing, C.A.
Montgomery Editor. of Minnesota / Army HPC Research Center.
[24] Salton, Gerard; & Buckley, Christopher. 1988,
Term-Weighting Aproaches in Automatic Text
Retrieval. Ithaca, USA: Departement of
Computer Science, Cornell University.
13