Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

on

  • 431 views

Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia ...

Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan dokumen-dokumen berita berdasarkan topik-topiknya secara otomatis, selain itu, untuk lebih memudahkan dalam menemukan informasi yang diinginkan, dibutuhkan juga pemberian deskripsi dari kelompok berita. Penelitian ini mencoba untuk mengatasi permasalahan tersebut dengan denjadikan pengelompokan topik-topik berita secara otomatis dengan algoritma Group-Average Hierarchical Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information (MI). Eksperimen implementasi dari algoritma ini terhadap 509 dokumen berita menunjukkan bahwa
GA-HAC dapat mengelompokkan dokumen-dokumen berita yang memiliki topik yang sama dengan nilai akurasi precision 84,4% dan MI dapat memberikan nilai akurasi rata-rata partial match Match@N 70,81% untuk seluruh topik dan 90% untuk 10 topik terpopuler

Statistics

Views

Total Views
431
Views on SlideShare
431
Embed Views
0

Actions

Likes
0
Downloads
20
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia Document Transcript

  • 1. MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA ONLINE BERBAHASA INDONESIA Muhammad Ammar Shadiq Yudi Wibisono Jajang Kusnendar Program Studi Ilmu Komputer Dosen Program Studi Ilmu Komputer Dosen Program Studi Ilmu KomputerUniversitas Pendidikan Indonesia Universitas Pendidikan Indonesia Universitas Pendidikan Indonesia ammar.shadiq@gmail.com yudi@upi.edu jkusnendar@gmail.comABSTRAK informasi tersebut dibutuhkan oleh pengguna. Sering kali pengguna layanan berita hanya membutuhkanPengelompokan dokumen-dokumen berita kedalam informasi seperti “apa yang terjadi?” atau “berita apatopik-topik yang lebih spesifik membutuhkan waktu yang populer sekarang?” atau “bagaimanadan sumber daya manusia yang tidak sedikit. Untuk perkembangan terbaru dari topik .....?”.mengatasi permasalahan waktu dan sumber dayamanusia tersebut, dibutuhkan pengelompokan Untuk memudahkan pengguna dalam memenuhidokumen-dokumen berita berdasarkan topik-topiknya kebutuhan informasinya, situs-situs berita umumnyasecara otomatis, selain itu, untuk lebih memudahkan mengelompokkan berita-berita kedalam kelas-kelasdalam menemukan informasi yang diinginkan, umum seperti regional, bisnis, internasional, kesehatandibutuhkan juga pemberian deskripsi dari kelompok dan kelas-kelas umum lainnya. Namun jumlahberita. Penelitian ini mencoba untuk mengatasi dokumen berita pada tiap kelas-kelas tersebut masihpermasalahan tersebut dengan menjadikan sangat banyak dan berisi berita dengan berbagai topikpengelompokan topik-topik berita secara otomatis yang lebih spesifik. Pengelompokan dokumen-dengan algoritma Group-Average Hierarchical dokumen berita kedalam topik-topik yang lebihAglomerative Clustering (GA-HAC) dan pemberian spesifik membutuhkan waktu dan sumber dayadeskripsi secara otomatis dengan Mutual Information manusia yang tidak sedikit, sebagai hasilnya, hanya(MI). Eksperimen implementasi dari algoritma ini kejadian-kejadian besar seperti “Pemilihan Presidenterhadap 509 dokumen berita menunjukkan bahwa 2009” dan “Piala Dunia 2010” yang dipilih olehGA-HAC dapat mengelompokkan dokumen-dokumen redaksi berita untuk diciptakan kelompok tersendiri.berita yang memiliki topik yang sama dengan nilai Penelitian ini mencoba mengatasi permasalahanakurasi precision 84,4% dan MI dapat memberikan tersebut dengan mengaplikasikan metode clusteringnilai akurasi rata-rata partial match Match@N dokumen dengan Group Average - Hierarchical70,81% untuk seluruh topik dan 90% untuk 10 topik Agglomerative Clustering (GA-HAC) untukterpopuler. mengotomatisasikan pengelompokan dokumen-Kata Kunci: Clustering, Cluster Labeling, Group- dokumen berita berdasarkan topik-topiknya danAverage Hierarchical Agglomerative Clustering, cluster labeling dengan Mutual Information (MI)Mutual Information, News Topic Detection. untuk memberikan deskripsi dari topik tersebut. Kedua pengaplikasian metode ini dilakukan dalam1 PENDAHULUAN lingkungan time window yang memandang aliran berita melalui “jendela” dengan dokumen-dokumen1.1 Latar Belakang pada interval waktu 24 jam.Saat ini teknologi informasi di Indonesia berkembangdengan sangat pesat, masyarakat sudah banyak yang 2 METODOLOGImenggunakan internet untuk berkomunikasi danmendapatkan informasi, salah satu informasi yang bisa 2.1 Time Windowdidapatkan oleh pengguna internet adalah berita. Time window adalah suatu metode yang digunakan untuk menangani aliran berita. Time windowBerita di internet bisa didapatkan dari banyak situs memandang sebuah aliran dokumen berita melaluikhusus berita yang selalu menyediakan dokumen- “jendela” dengan jumlah dokumen atau interval waktudokumen berita terbaru. Dengan banyaknya situs-situs tertentu [1] [5] [6] [15] [22].tersebut, informasi yang bisa didapatkan olehpengguna sangat banyak, namun tidak semua 1
  • 2. 3. Kelas karakter yang ketiga adalah karakter- karakter yang berjenis non-simbol. Karakter- karakter pada kelas ini merupakan karakter- karakter utama dalam pembentukan sebuah term. 2.2.2 Proses Tokenizer Secara Umum Proses tokenizer diawali membagi-bagi teks berdasarkan karakter-karakternya, lalu dilakukan Gambar 0.1 Ilustrasi Time Window pada Aliran penelusuran satu persatu dari awal dokumen dan Dokumen Berita melakukan operasi sesuai dengan sifat tiap karakterKonsep time window diadopsi dengan cara membagi tersebut. Contoh proses tokenizer secara umum adalahaliran dokumen berita kedalam segmen-segmen misalkan diketahui sebuah dokumen dengan isi teks:dimana tiap segmen berisi dokumen-dokumen pada Apakah dia sedih? "Saya lihat biasainterval waktu 1 jam. Koleksi dokumen terbaru saja," lanjut bapak.dibangun dengan menggunakan segmen-segmen 24jam terakhir saja, hal ini dilakukan dengan Hasil proses tokenizer ini adalah:menambahkan segmen terbaru dan membuang segmen Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumenyang telah melebihi 24 jam. Proses perubahan koleksidokumen terbaru ini dirumuskan dengan: Token Tipe Token Tipe w Apakah Term biasa Term dia Term saja Term i , 1≤w≤τ sedih Term , Simbol i=1 w = (2.1) ? Simbol ” Simbol w ” Simbol lanjut Term i , w>τ Saya Term bapak Term i=w−τ lihat Term . Simboldimana  w adalah waktu terakhir 2.2.3 Penanganan Simbol-Simbol Tertentu  Si adalah segmen pada waktu i Aturan pemisahan sederhana diatas akan mengalami  Kw adalah koleksi dokumen pada waktu w kendala untuk term yang seharusnya menyatu seperti  τ adalah 24 jam nama orang yang menggunakan kutip tunggal “Safii”, yang akan menghasilkan token safi , , i2.2 Tokenization ataupun alamat email seperti “email@server” yangTokenization adalah proses pemotongan rangkaian akan menghasilkan token email , @, server . Untukkata menjadi bagian-bagian yang dinamakan token, menghindari kendala tersebut, dilakukan penyesuaiansebuah token adalah kejadian dari urutan karakter aturan terhadap karakter-karakter simbol [.], [], [-],dalam dokumen tertentu yang dikelompokkan bersama [@] dan [#], yaitu:sebagai sebuah unit pemrosesan semantik yangberguna. Token ini umumnya disebut juga sebagai Untuk karakter simbol [.], [] dan [-]sebuah term [17]. Pada penelitian ini proses Aturan logika 1: Jika karakter simbol [.], [] atau [-]tokenization dilakukan dengan membagi-bagi teks tidak terletak pada awal dokumen dan akhir dokumendokumen berdasarkan karakternya. Untuk dapat dan diawali oleh karakter spasi atau (inklusif) diikutimendeteksi apakah suatu urutan karakter merupakan karakter spasi atau simbol, maka karakter simbolsebuah term atau simbol, karakter-karakter tersebut bukan bagian dari token term. Aturan inidiklasifikasikan kedalam tiga kelas karakter. dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c ˅ d) ⊕ e)) dengan proporsi-proporsi:2.2.1 Klasifikasi Kelas Karakter 1. Kelas karakter yang pertama adalah kelas karakter a = karakter simbol [.], [] dan [-] tersebut bukan spasi. Karakter-karakter pada kelas ini merupakan karakter pertama. karakter-karakter yang umumnya digunakan b = masih ada karakter selanjutnya. sebagai pemisah kata dan paragraph. 2. Kelas karakter yang kedua adalah karakter c = karakter selanjutnya adalah spasi. berjenis simbol. Kelas karakter ini umumnya d = karakter selanjutnya adalah simbol. berbentuk tanda baca, seperti “;” (titik koma) dan “?” (tanda tanya). e = karakter sebelumnya adalah spasi. 2
  • 3. Aturan logika 2: Jika karakter simbol [.], [] atau [-] dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄terletak pada awal dokumen, maka karakter simbol e) dengan proporsi-proporsi:tersebut bukan bagian dari token term. a = Karakter simbol [#] tersebut bukan karakterAturan logika 3: Jika aturan Logika 1 dan 2 diatas pertama.tidak memenuhi, maka karakter simbol tersebut b = Masih ada karakter selanjutnya.merupakan bagian dari token term. c = Karakter selanjutnya adalah spasi.Contoh pengaplikasian dari aturan-aturan ini adalah: d = Karakter selanjutnya adalah simbol. 1. “www.situs.com” dianggap sebagai sebuah token utuh: www.situs.com . e = Karakter sebelumnya adalah spasi. 2. “masih bisa. Selain itu” menjadi: masih , bisa , ., Selain , itu . Aturan Logika 2: Jika aturan logika 1 diatas tidak 3. “safii” dianggap sebagai sebuah token utuh: memenuhi, maka karakter simbol tersebut adalah bagian dari token term. safii . 4. “Mike Leher Beton” menjadi: Mike, , Contoh pengaplikasian dari aturan-aturan ini adalah: Leher , Beton . 1. “topik populer #hashtag” menjadi: topik , 5. “Leher Beton Tyson” menjadi: Leher , populer , #hashtag . Beton , , Tyson . 2. “ini# itu” menjadi: ini, #, itu. 6. “rumah-rumah” dianggap sebagai sebuah token 3. “ini#itu” menjadi: ini, #, itu . utuh: rumah-rumah . 7. “-Polisi membekuk” menjadi: -, Polisi , 2.3 Representasi Dokumen membekuk . Tiap dokumen berita direpresentasikan sebagai vektor pada ruang vektor dengan jumlah komponen vektorUntuk karakter simbol [@] sebanyak term unik yang dihasilkan pada prosesAturan logika 1: Jika karakter simbol [@] tidak tokenization. Vektor dokumen beranggotakan bobotterletak pada akhir dokumen dan diikuti karakter spasi tiap term yang dihitung dengan skema pembobotanatau (inklusif) simbol, maka karakter simbol tersebut Term Frequency – Inverse Document Frequency (TF-bukan bagian dari token term. Aturan ini dapat IDF). TF-IDF adalah skema pembobotan yangdituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan menghitung bobot term secara relatif berdasarkanproporsi-proporsi: jumlah kemunculannya pada suatu dokumen dan seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF a = masih ada karakter selanjutnya dinotasikan dengan tf-idft,d dan dihitung dengan: b = karakter selanjutnya adalah spasi -, = , × log (2.2) c = karakter selanjutnya adalah simbol dimanaAturan logika 2: Jika aturan Logika 1 diatas tidak  t adalah termmemenuhi, maka karakter simbol tersebut merupakan  d adalah dokumenbagian dari token term.  tft,d adalah frekuensi kemunculan term t padaContoh pengaplikasian dari aturan-aturan ini adalah: dokumen d 1. “email@server” dianggap sebagai sebuah token  dft adalah jumlah dokumen yang mengandung email@server term t pada koleksi dokumen 2. “pada twitternya @akuntwit” menjadi:  nk adalah jumlah dokumen di dalam koleksi pada , twitternya , @akuntwit . 3. “ini@ itu” menjadi: ini, @, itu . Nilai bobot hasil perhitungan TF-IDF lalu digunakan untuk mengukur tingkat kemiripan antar dokumen 4. “ini@ itu” menjadi: ini, @, itu . (document similarity) dengan metode Cosine Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25]Untuk karakter simbol [#] [30] [31]. Nilai cos sebagai kemiripan dokumenAturan logika 1: Jika karakter simbol [#] tidak antara dokumen di dan dj dihitung dengan:terletak pada akhir dokumen dan diikuti karakter spasiatau (inklusif) simbol, maka karakter simbol tersebut ∙ cos = = ( , ) (2.3)bukan bagian dari token term. Aturan ini dapat 3
  • 4. 2.4 Clustering dengan GA-HAC dimanaGroup Average (GA) adalah suatu metode 1  = ∈ ( , ),penggabungan yang digunakan pada proses clustering −1 1dengan Hierarchical Agglomerative Clustering (HAC)  = arg min ∈ ( , ) [10] [14] [33] [34]. Metode GA mengevaluasikemiripan cluster berdasarkan combination similarity.  , = 1 − cos = 1 − ( , )Combination similarity antara cluster Ci dan Cj Penghitungan document fitness ini dilakukan pada tiapdidapatkan dengan menghitung nilai rata-rata langkah penggabungan cluster di hierarki, dimanadocument similarity antara seluruh pasangan dokumen seluruh nilai document fitness tiap dokumen padadi di cluster Ci dan dj di cluster Cj dengan persamaan: langkah penggabungan cluster tersebut kemudian di -( , ) rata-ratakan. Pemotongan hierarki untuk mendapatkan 1 natural clusters didapatkan dengan melakukan = , (2.4) pemotongan pada langkah penggabungan cluster × ∈ ∈ dengan rata-rata nilai document fitness terbesar.dimana 2.5 Cluster Labeling dengan MI  dan adalah jumlah dokumen pada cluster Setelah pengelompokan dokumen berita dengan topik Ci dan Cj yang sama dengan clustering, cluster label digunakan  sim (di ,dj) adalah nilai document similarity antara sebagai deskripsi topik dari dokumen-dokumen berita dokumen di dan dj. yang terkandung didalam sebuah cluster. Proses ini meliputi: Part-Of-Speech Tagger dengan perangkatAlgoritma metode penggabungan HAC dengan GA lunak iPOSTagger [25] yang hasilnya digunakanadalah sebagai berikut: untuk mengidentifikasi frasa-frasa nomina, ekstraksi 1. Inisialisasi tiap dokumen sebagai sebuah cluster frasa calon cluster label dan penghitungan nilai dengan document similarity sebagai initial deskriptif frasa-frasa calon cluster label dengan combination similarity antar cluster. Mutual Information menggunakan Laplace 2. Hitung nilai combination similarity antar Correction. Nilai deskriptif calon cluster label pasangan cluster dengan SIM-GA tertinggi kemudian dapat dipilih sebagai label dari 3. Gabungkan pasangan cluster dengan nilai cluster tersebut. combination similarity yang paling besar sebagai 2.5.1 Identifikasi Frasa-Frasa Calon Cluster cluster baru. 4. Ulangi langkah 2 dan 3 sampai keadaan seluruh Label cluster telah digabungkan. Frasa-frasa untuk calon cluster label yang mendeskripsikan isi inti dari suatu cerita ditentukan2.3.1 Natural Clustering dengan mengambil bagian-bagian dokumen yangUntuk mendapatkan hasil cluster yang terpisah seperti memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26]pada flat clustering, dilakukan pemotongan pada [29]. Pada penelitian ini, sifat-sifat untuk menentukandendogram hierarki cluster hasil algoritma GA-HAC. frasa-frasa calon cluster label adalah:Pemotongan dendogram hierarki cluster ini dilakukan 1. Tidak melewati batas klausa atau kalimat berupapada bagian dendogram yang menggabungkan cluster tanda baca seperti “.”, “,”, “!” dan“?”.dengan combination similarity terkecil, ini ditentukanberdasarkan nilai kelayakan tiap dokumen (document 2. Tidak diawali atau diakhiri dengan stopwords.fitness) terhadap cluster yang menampungnya [17]. Stopwords adalah kata-kata yang terlalu sering digunakan pada seluruh dokumen.Nilai document fitness dari dokumen di terhadapcluster Ci dinotasikan dengan f(di ). f(di ) dihitung 3. Merupakan frasa nomina (frasa kata benda ataudengan membandingkan nilai combination similarity noun phrase). Frasa nomina adalah frasa denganantara dokumen di terhadap cluster terdekat kedua Cj unsur pusat kata berupa nomina atau kata benda.dan rata-rata document similarity di dengan dokumen- Pengidentifikasian frasa nomina dilakukan dengandokumen lain pada cluster Ci. Jika Ci adalah singleton mengacu pada POS Tag tiap kata dalam frasa.cluster (cluster yang hanya berisi di), maka nilai f(di ) 4. Merupakan complete phrase, yaitu frasa lengkapadalah 0. Sedangkan jika Ci bukan singleton cluster, yang tidak bisa diperluas lagi denganmaka nilai f(di ) dihitung dengan persamaan: menambahkan elemen kata sesudah atau sebelum − ( ) frasa tersebut. = (2.5) max⁡ , } { 4
  • 5. 2.5.2 Mutual Information 3 EKSPERIMEN DAN EVALUASIMutual Information (MI) adalah salah satu metode Eksperimen-eksperimen yang diteliti pada penelitianyang dapat digunakan untuk menghitung nilai ini adalah:deskriptif suatu calon cluster label. MI dihitung 1. Performa clustering GA-HAC dengan pemotongandengan persamaan: natural clustering dan pengaruh penggunaan (, ) stopwords dalam proses clustering. , = (, ) log 2 (2.6) ∈ ∈ 1 2 () 2. Performa cluster labeling dengan algoritma Mutual Information.dimana 3. Performa algoritma Mutual Information dalam  p(x,y) adalah distribusi probabilitas gabungan dari pendeteksian 10 topik terpopuler dengan hanya variable X dan Y melibatkan 10 cluster dengan jumlah dokumen  p1(x) adalah distribusi probabilitas X terbanyak pada tiap hasil clustering.  p2(y) adalah distribusi probabilitas Y 3.1 Data EksperimenDalam cluster labeling, varibel X berhubungan dengan Sumber data yang digunakan pada eksperimen inikeanggotaan dalam sebuah cluster dan variable Y adalah 509 dokumen yang diambil dari aliran beritaberhubungan dengan kehadiran dari sebuah term. selama 48 jam dari tanggal 2011-04-25 jam 14:00Kedua variable tersebut hanya dapat memiliki nilai 0 sampai dengan 2011-04-27 jam 13:00 dari situs-situsatau 1, sehingga persamaan (2.6) dapat ditulis sebagai: berita: ( , ) , = ( , ) log2 ( )  http://nasional.kompas.com/ ∈0,1 ∈0,1  http://nasional.vivanews.com , = 1 , 1 log2 1 , 1  http://www.antaranews.com/berita 1 × 1  http://www.republika.co.id/berita/nasional 1 , 0 + 1 , 0 log2 1 × 0 Dokumen-dokumen berita tersebut telah dibersihkan (2.7) dari artefak-artefak seperti navigasi, iklan, tautan 0 , 1 + 0 , 1 log2 berita lain, komentar, tag html dan lain-lain. Bagian 0 × 1 dokumen berita yang digunakan hanyalah judul dan isi + 0 , 0 log2 0 , 0 berita saja, informasi-informasi lain seperti lokasi, 0 × 0 keterkaitan berita berdasarkan tautan-tautan artikeldimana yang berhubungan, tanggal dan waktu berita tidak digunakan.  p(C1) merepresentasikan probabilitas bahwa sebuah dokumen adalah anggota dari suatu Karena keterbatasan sumber daya manusia untuk cluster. melakukan cluster labeling secara manual, penelitian  p(C0) merepresentasikan probabilitas bahwa ini hanya meneliti data pada jam ke 24, 36 dan 48 saja. sebuah dokumen bukan anggota dari suatu cluster Tabel 3.1 Data Eksperimen  p(T1) merepresentasikan probabilitas bahwa sebuah dokumen mengandung suatu term. Jam Jumlah Dokumen  p(T0) merepresentasikan probabilitas bahwa 24 292 sebuah dokumen tidak mengandung suatu term. 36 288 48 2682.5.3 Laplace CollectionMutual information tidak memperbolehkan jumlah 3.2 Proses Clustering dan Cluster Labelingdokumen pada contingency table berjumlah nol,karena nilai nol pada salah satu elemen contingency Secara Manual Untuk melakukan evaluasi dan analisa, data-datatable akan menyebabkan perhitungan MI penelitian melalui proses clustering dan clustermenghasilkan nilai yang tidak terdefinisi. labeling secara manual.Laplace correction mengasumsikan bahwa adatambahan satu dokumen untuk tiap jumlah dokumen 3.2.1 Proses Clustering Secara Manualpada cotingency table. Karena nilai Log2 1 = 0, maka Proses clustering secara manual dilakukan oleh 2hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat orang evaluator yang membaca secara utuh seluruhdihindari. 509 dokumen berita yang didapatkan pada proses perolehan data, kemudian secara bersama-sama menujuk tiap dokumen pada tepat satu cluster. Proses 5
  • 6. clustering secara manual ini menghasilkan 157 cluster  Ci adalah cluster otomatis dimana dokumen diyang kemudian digunakan untuk menentukan tiap beradacluster untuk data-data pada jam ke 24, 36 dan 48.  Mi adalah cluster manual dimana dokumen di3.2.2 Proses Cluster Labeling Secara Manual berada (dari gold standard)Proses cluster labeling secara manual dilakukan oleh 3 Seluruh nilai precision dan recall dari tiap dokumenorang evaluator yang secara terpisah meneliti tiap tersebut kemudian dijumlahkan dan dirata-ratakancluster dokumen yang dihasilkan oleh algoritma untuk mendapatkan nilai precision dan recall final.clustering otomatis dari data-data jam ke 24, 36 dan Nilai F1-Measure didapatkan dengan menggabungkan48. Proses ini dilakukan dengan memberikan frasa- precision dan recall dengan penghitungan:frasa yang dianggap dapat mewakili topik dokumen-dokumen berita dari tiap cluster sebagai label dari × 1 = 2 × (3.4)cluster tersebut. Frasa yang digunakan sebagai cluster + label manual dapat berjumlah lebih dari satu, baikberupa sinonim, singkatan, maupun frasa berbeda yangsecara intuitif sama-sama dapat mewakili topik dari 3.3.2 Evaluasi Hasil Cluster Labelingcluster tersebut. Syarat dari proses cluster labeling Treeratpituk dan Callan [38] mendefinisikan clustermanual ini adalah tiap frasa yang digunakan sebagai labeling sebagai masalah ranking deskriptor. Dalamcluster label manual harus terkandung dalam dokumen mengevaluasi cluster labeling, Treeratpituk dan Callanberita dari cluster tersebut, syarat ini digunakan karena menggunakan dua definisi dari sebuah label yangsistem tidak akan bisa menghasilkan frasa yang tidak benar: exact match dan partial match danterkandung pada dokumen manapun didalam cluster. menggunakan empat metrik evaluasi: Match@N, P@N, MRR dan MTRR.3.3 Metrik-Metrik EvaluasiUntuk mengukur hasil eksperimen, evaluasi dibagi 2.5.3.1 Definisi label yang benarmenjadi dua bagian, evaluasi clustering dan evaluasi Exact Match: Sebuah label L adalah exact match daricluster labeling, kedua evaluasi tersebut mengacu label yang sebenarnya S jika L sama persis ataupada perbandingan relevansi hasil yang dihasilkan merupakan sinonim dari S. Sebagai contoh, untuk Ssecara otomatis oleh algoritma dengan hasil yang “motor gede”, L seperti “motor gede” dan “motordilakukan secara manual oleh evaluator manusia. besar” diklasifikasikan sebagai exact match.3.3.1 Evaluasi Hasil Clustering Partial Match: Sebuah label L adalah partial matchUntuk mengevaluasi hasil clustering, digunakan empat dari label yang sebenarnya S jika L mengandungmetrik evaluasi yaitu purity, precision, recall dan F1- paling tidak sebuah term dari S. Sebagai contoh, untukMeasure. Perhitungan precision dan recall pada S “manajemen analisis proses bisnis”, L seperticlustering metrik evaluasi clustering ini menggunakan “bisnis”, “proses”, “manajemen bisnis”, “analisismetode B-Cubed metric [3]. manajemen” dan “analisis proses bisnis” diklasifikasikan sebagai partial match.Purity dihitung dengan: 1 2.5.3.2 Match at top N results (Match@N) = max | ∩ | (3.1) Match@N mengindikasikan apakah N hasil teratas mengandung label yang benar. Indikator ini bersifatdimana biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika ada satu, dua ataupun tiga label pada hasil teratas  n adalah jumlah dokumen pada koleksi. merupakan label yang benar, maka nilai Match@N  k adalah cluster otomatis adalah 1, namun jika sama sekali tidak ada label yang  j adalah cluster manual (dari gold standard) benar, maka nilai Match@N adalah 0.  Ck adalah cluster otomatis ke-k  Mj adalah cluster manual ke-j (dari gold standard) 2.5.3.3 Precision at top N results (P@N)precision dan recall dari tiap dokumen di dihitung P@N adalah jumlah label-label pada hasil N teratasdengan: yang cocok dengan label-label yang benar dibagi dengan N. P@N mengukur persentase dari jawaban ∩ benar yang dihasilkan pada peringkat 1 sampai dengan = (3.2) N, sehingga, jika ada dua hasil dari lima hasil teratas ∩ (N = 5) yang merupakan label yang benar, maka P@N = (3.3) bernilai 2/5.dimana 6
  • 7. Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering Jam Stopwords Purity Precision Recall F1 Tanpa Stopwords 0,978 0,977 0,454 0,620 24 20% Stopwords 0,975 0,974 0,461 0,626 Stopwords Umum 0,978 0,977 0,454 0,620 Tanpa Stopwords 0,943 0,924 0,634 0,752 36 20% Stopwords 0,946 0,928 0,615 0,740 Stopwords Umum 0,946 0,935 0,653 0,769 Tanpa Stopwords 0,552 0,447 0,841 0,584 48 20% Stopwords 0,718 0,628 0,810 0,708 Stopwords Umum 0,545 0,441 0,841 0,579 Rata-Rata Tanpa Stopwords 0.825 0.783 0.643 0.652 20% Stopwords 0.88 0.844 0.629 0.691 Stopwords Umum 0.824 0.785 0.65 0.656 Berdasarkan hasil evaluasi eksperimen-eksperimen2.5.3.4 Mean Reciprocal Rank (MRR) clustering pada tabel 3.2 diatas, dapat disimpulkanMean reciprocal rank adalah rata-rata dari reciprocal bahwa:rank (RR) dari peringkat label benar yang pertama.Jika label benar yang pertama ada di peringkat ke tiga, 1. GA-HAC dengan menggunakan stopwords yangmaka RR bernilai 1/3. Jika N respon pertama tidak umum tidak memberikan perubahan yang signifikanmengandung label yang benar, maka RR bernilai 0. dibandingkan dengan GA-HAC tanpa menggunakanRR bernilai 1 label benar yang pertama ada di stopwords, ini mengindikasikan penggunaan termperingkat ke satu. yang terlalu umum sebagai stopwords tidak memberikan banyak perubahan terhadap2.5.3.5 Mean Total Reciprocal Rank (MTRR) diskriminasi dokumen dibandingkan dengan tidakSebuah kategori dapat memiliki lebih dari satu aspek menggunakan stopwords sama sekali.yang benar, sebagai contoh, kategori "akupuntur dan 2. GA-HAC dengan menggunakan 20% stopwordspengobatan alternatif" memiliki dua aspek yang benar term paling sering muncul dari koleksi dokumenyaitu "akupuntur" dan "pengobatan alternatif". Jika yang diacu dapat memberikan diskriminasihasil algoritma cluster labeling meranking dokumen yang lebih baik dalam proses clustering"akupuntur" dan "pengobatan alternatif" sebagai label dibandingkan dengan menggunakan stopwords yangke 2 dan ke 4, maka nilai total reciprocal rank (TRR) terlalu umum dan tidak menggunakan stopwordsadalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2. sama sekali. 3. Jumlah cluster yang paling sedikit yang juga hasil3.4 Penilaian Kinerja Hasil Clustering evaluasi yang paling kecil didapatkan pada dengan GA-HAC clustering data jam ke 48. Hal yang menarik dariPengukuran kinerja hasil clustering dokumen dengan hasil clustering data jam ke 48 ini adalah bahwaGA-HAC menggunakan metrik evaluasi Purity, penggunaan 20% stopwords menghasilkan jumlahPrecision, Recall dan F1 dengan B-Cubed Metric. cluster yang paling mendekati dibandingkan denganEksperimen-eksperimen yang dilakukan pada penggunaan stopwords lain, dimana total clusterpengukuran kinerja hasil clustering dengan GA-HAC secara manual adalah 84 dan hasil clusteringadalah: otomatis dengan 20% stopwords adalah 45, dua kali lipat dari jumlah cluster yang dihasilkan oleh Tidak digunakannya pembuangan stopwords dalam penggunaan stopwords yang lain, 20 cluster (tanpa clustering (Tanpa Stopwords), stopwords) dan 22 cluster (stopwords umum). Menggunakan daftar stopword yang digunakan pada 4. Hasil clustering dengan 20% stopwords yang penelitian efek stemming dalam information dihasilkan oleh pemotongan dendogram natural retrieval untuk Bahasa Indonesia [27] dengan 357 clustering memberikan nilai evaluasi F1 = 0,691 kata dari corpus Bahasa Indonesia umum dengan precision = 0,844 dan recall 0,629. Ini (Stopwords Umum). mengindikasikan bahwa hasil clustering yang Menggunakan daftar stopwords yang diperoleh dari dihasilkan lebih memenuhi kebutuhan informasi koleksi seluruh dokumen penelitian dengan 20% web surfer umum daripada kebutuhan informasi term yang paling sering muncul (20% Stopwords). intelegent analyst. 7
  • 8. 3.5 Penilaian Kinerja Cluster Labeling  Cluster labeling dengan MI untuk 10 cluster hasilPengukuran kinerja hasil cluster labeling GA-HAC yang memiliki jumlah dokumenmenggunakan metrik evaluasi cluster labeling terbanyak.Treeratpituk dan Callan [28] dengan N = 5. Hasil 3.5.1 Penilaian Kinerja Cluster Labelingclustering yang digunakan sebagai acuan dalam dengan MI untuk seluruh Clustercluster labeling adalah hasil clustering otomatis yang Penilaian kinerja cluster labeling dengan MI inidihasilkan oleh GA-HAC dengan menggunakan 20% dilakukan untuk seluruh cluster termasuk seluruhterm yang paling sering muncul sebagai stopwords. singleton cluster yang dihasilkan oleh algoritmaEksperimen-eksperimen yang dilakukan pada clustering GA-HAC dengan menggunakan 20%pengukuran kinerja hasil clustering labeling dengan stopwords. Hasil evaluasi cluster labeling dengan MIMI adalah: jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3 Cluster labeling dengan MI untuk seluruh cluster sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat hasil GA-HAC pada tabel 3.6. Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48 N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,019 0,038 0,050 0,063 0,076 Match@N 0,244 0,311 0,333 0,377 0,400 P@N 0,019 0,019 0,016 0,015 0,015 P@N 0,244 0,177 0,125 0,105 0,093 MRR 0,019 0,028 0,032 0,035 0,038 MRR 0,244 0,277 0,285 0,296 0,300 MTRR 0,019 0,028 0,032 0,035 0,038 MTRR 0,244 0,300 0,307 0,318 0,327 Partial Match Partial Match Match@N 0,246 0,398 0,493 0,550 0,607 Match@N 0,511 0,644 0,688 0,688 0,777 P@N 0,246 0,243 0,223 0,216 0,215 P@N 0,511 0,422 0,363 0,311 0,306 MRR 0,246 0,322 0,354 0,368 0,380 MRR 0,511 0,577 0,592 0,592 0,610 MTRR 0,246 0,367 0,428 0,477 0,519 MTRR 0,511 0,677 0,759 0,798 0,855 Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,024 0,049 0,057 0,082 0,090 Match@N 0,079 0,094 0,124 0,150 0,162 P@N 0,024 0,024 0,019 0,020 0,018 P@N 0,079 0,050 0,043 0,041 0,036 MRR 0,024 0,037 0,039 0,046 0,047 MRR 0,079 0,086 0,096 0,103 0,105 MTRR 0,024 0,037 0,039 0,046 0,047 MTRR 0,079 0,090 0,100 0,108 0,112 Partial Match Partial Match Match@N 0,206 0,355 0,429 0,512 0,578 Match@N 0,329 0,465 0,592 0,655 0,708 P@N 0,206 0,202 0,173 0,167 0,160 P@N 0,329 0,294 0,299 0,296 0,288 MRR 0,206 0,281 0,305 0,326 0,339 MRR 0,329 0,397 0,440 0,455 0,466 MTRR 0,206 0,305 0,344 0,381 0,408 MTRR 0,329 0,459 0,562 0,634 0,685 1 N=1 0.8 N=2 0.6 0.4 N=3 0.2 N=4 0 N=5 Match@N P@N MRR MTRR Match@N P@N MRR MTRR (Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial) Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata 8
  • 9. Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48 Cluster Label Cluster Label Cluster Nomor dan Judul Dokumen Berita Manual Otomatis 1 Penanganan Lamban, NII Berkembang 2 Pemerintah Diharapkan Tegas Atasi NII 3 Polisi Sudah Petakan Kantong-kantong NII 4 NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel 1. NII 1. NII 5 Waspadalah, Ini Kantong NII di Jakarta 2. NKRI 2. NegaraCluster 1 6 NII Jangan Hanya Dibebankan kepada Polri 3. Kampus Islam ... ... 4. Mahasiswa Indonesia 28 Kementerian Agama Redam Radikalisme Agama 5. Otak 29 PMII Tolak Ideologisasi Negara Islam 30 PBNU : Radikalisme di Indonesia Sudah "Lampu Merah" 31 PBNU : Perlu UU Antiterorisme yang Lebih Tajam 1 Dulu Bertanding, Kini Bersanding.... 1. Edhie 2 Jangan Kaitkan Besanan SBY-Hatta dengan Politik Baskoro 3 "Pertunangan Jangan Dikaitkan Politik!" 1. Edhie Yudhoyono 4 Ibas-Aliya Bukan Perjodohan Politik Baskoro 2. Siti RubiCluster 2 5 Pernikahan Ibas-Aliya Hasil Perjodohan Politik? Yudhoyono Aliya ... ... 2. Siti Ruby Rajasa 27 Pengamanan di Kediaman Hatta Diperketat Aliya Rajasa 3. Hatta 28 Acara Ibas-Aliya Bernuansa Pesta Kebun 4. Ibas 29 Saat Dirias, Aliya Degdegan 5. Pertunangan... ... ... ... ... 1 Diknas: Tidak Ada Peserta UN Susulan Bojonegoro 2 312 Peserta UN di Jember Mengundurkan Diri 1. UN 1. UN 2. Sekolah 3 Ikut Ujian Nasional, Siswa SMP Barut Carter KapalCluster 14 2. Ujian 3. Siswa 4 Disdik Bekasi Jamin Tidak Ada Kebocoran Soal Nasional 4. SMP 5 Konflik SMA 70 Bulungan Sampai ke Pengadilan 5. Kabupaten 6 Mendiknas: 20 Daerah Belum Salurkan BOS... ... ... ... ...Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas match P@N untuk N = 5 adalah 0,0368 dan nilaidapat disimpulkan bahwa: partial match P@N untuk N = 5 adalah 0,2880. Ini artinya untuk 100 cluster, dari seluruh 500 1. Nilai rata-rata exact match Match@N untuk N = 1 adalah 0,0791 dan nilai rata-rata partial match cluster label yang dihasilkan secara otomatis oleh Match@N untuk N = 1 adalah 0,3297. Ini artinya algoritma MI, algoritma ini secara rata-rata dapat untuk 100 cluster, dari 100 cluster label peringkat menghasilkan 18,4 cluster label yang benar secara pertama yang dihasilkan secara otomatis oleh exact match dan 144 cluster label yang benar algoritma MI, algoritma ini secara rata-rata dapat secara partial match. 4. Dari perbandingan antara jumlah cluster dengan memprediksi dengan benar label untuk 7,91 hasil yang diberikan oleh algoritma dari cluster secara exact match dan 32,97 cluster secara partial match. eksperimen ini, algoritma MI tidak memberikan 2. Nilai rata-rata exact match Match@N untuk N = 5 hasil yang memuaskan. adalah 0,1620 dan nilai rata-rata partial match Adapun hal yang menarik pada eksperimen ini adalah Match@N untuk N = 5 adalah 0,7081. Ini artinya hasil evaluasi cluster labeling pada jam ke 48, dimana untuk 100 cluster, dari 500 cluster label peringkat hampir seluruh metrik evaluasi bernilai lebih besar teratas yang dihasilkan secara otomatis oleh dibandingkan dengan hasil evaluasi cluster labeling algoritma MI, algoritma ini secara rata-rata dapat pada jam ke 24 dan 36. Perbedaan yang cukup memprediksi dengan benar label untuk 16,2 signifikan dari hasil evaluasi cluster labeling pada jam cluster secara exact match dan 70,81 cluster ke 48 ini ditambah lagi dengan perbedaan pada hasil secara partial match. evaluasi clustering, dimana pada hasil evaluasi 3. Kualitas label rata-rata yang dihasilkan dari hasil clustering data jam ke 48 menunjukkan nilai evaluasi diatas dilihat dari nilai evaluasi P@N. Nilai exact 9
  • 10. yang paling kecil dibandingkan dengan data pada jam- cluster yang hanya terdiri dari satu dokumen sajajam lainnya. memiliki jumlah frasa utama yang sedikit, hal tersebutPerbedaan ini juga terjadi pada jumlah cluster yang membuat penentuan frasa utama sebagai cluster labeldihasilkan, dimana pada jam tersebut, jumlah cluster secara otomatis sulit dilakukan. Untuk itu dilakukanyang dihasilkan lebih sedikit dibandingkan dengan eksperimen lanjutan dengan meneliti kemampuan MIdata pada jam lainnya. Hal tersebut menyebabkan tiap dalam cluster labeling secara otomatis untuk hanya 10 cluster dengan jumlah dokumen terbanyak. Statistikcluster pada jam ke 48 secara umum memiliki jumlah jumlah dokumen untuk 10 cluster dengan jumlahdokumen yang lebih banyak dibandingkan denganhasil clustering pada jam-jam lainnya, jumlah dokumen terbanyak tersebut adalah:dokumen yang lebih banyak memungkinkan Tabel 3.8 Jumlah dokumen untuk 10 Cluster denganpendeteksian frasa utama dapat dilakukan dengan jumlah dokumen terbanyaklebih baik karena jumlah frasa-frasa utama dari tiap Jam 10 Cluster Seluruh Clusterdokumen pada tiap cluster tersebut jumlahnya lebih 24 75 292banyak. Untuk meneliti hal ini lebih mendalam,dilakukan ekperimen lanjutan yang hanya 36 96 288menggunakan 10 cluster dengan jumlah dokumen 48 175 268terbanyak dari tiap data jam ke 24, 36 dan 48. Eksperimen-eksperimen yang sama dilakukan seperti3.5.2 Penilaian Kinerja Cluster Labeling pada pengukuran hasil kinerja cluster labeling untuk dengan MI untuk 10 Cluster Teratas seluruh cluster dari hasil clustering dengan GA-HAC.Mayoritas cluster yang dihasilkan oleh proses Hasil eksperimen cluster labeling dengan MI jam keclustering otomatis GA-HAC berjenis singleton 24, 36 dan 48 dapat dilihat pada tabel 3.9 sampaicluster, yaitu cluster yang hanya terdiri dari satu dengan tabel 3.11, hasil eksperimen rata-rata dapatdokumen berita dan umumnya merupakan dokumen dilihat pada tabel 3.12.berita dengan topik yang tidak populer. Singleton Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48 N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,1 0,2 0,2 0,3 0,3 Match@N 0,5 0,7 0,7 0,7 0,7 P@N 0,1 0,1 0,067 0,075 0,06 P@N 0,5 0,45 0,3 0,225 0,18 MRR 0,1 0,15 0,15 0,175 0,175 MRR 0,5 0,6 0,6 0,6 0,6 MTRR 0,1 0,15 0,15 0,175 0,175 MTRR 0,5 0,7 0,7 0,7 0,7 Partial Match Partial Match Match@N 0,5 0,8 0,9 0,9 0,9 Match@N 0,8 0,9 0,9 0,9 0,9 P@N 0,5 0,5 0,4 0,375 0,34 P@N 0,8 0,75 0,567 0,425 0,38 MRR 0,5 0,65 0,683 0,683 0,683 MRR 0,8 0,85 0,85 0,85 0,85 MTRR 0,5 0,75 0,816 0,891 0,931 MTRR 0,8 1,15 1,216 1,216 1,256 Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36 10 Cluster Teratas N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,1 0,2 0,4 0,4 0,4 Match@N 0,233 0,366 0,433 0,466 0,466 P@N 0,1 0,1 0,133 0,1 0,08 P@N 0,233 0,216 0,166 0,133 0,106 MRR 0,1 0,15 0,216 0,216 0,216 MRR 0,233 0,3 0,322 0,330 0,330 MTRR 0,1 0,15 0,216 0,216 0,216 MTRR 0,233 0,333 0,355 0,363 0,363 Partial Match Partial Match Match@N 0,6 0,7 0,9 0,9 0,9 Match@N 0,633 0,8 0,9 0,9 0,9 P@N 0,6 0,45 0,367 0,35 0,28 P@N 0,633 0,566 0,444 0,383 0,333 MRR 0,6 0,65 0,716 0,716 0,716 MRR 0,633 0,716 0,75 0,75 0,75 MTRR 0,6 0,75 0,816 0,891 0,891 MTRR 0,633 0,883 0,95 1 1,026 10
  • 11. 1.2 N=1 1 N=2 0.8 0.6 N=3 0.4 N=4 0.2 0 N=5 Match@N P@N MRR MTRR Match@N P@N MRR MTRR (Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial) Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster TeratasBerdasarkan hasil eksperimen untuk menemukan frasa performanya lebih baik saat jumlah dokumenutama pada 10 cluster dengan jumlah dokumen berita yang terkandung pada tiap cluster yang diprosesterbanyak dapat disimpulkan bahwa: cukup banyak. 1. Nilai rata-rata exact match Match@N untuk N = 1 4 KESIMPULAN DAN SARAN adalah 0,2333 dan nilai rata-rata partial match Match@N untuk N = 1 adalah 0,6333. Ini artinya 4.1 Kesimpulan untuk 10 cluster, dari 10 cluster label peringkat Berdasarkan hasil penelitian, dapat disimpulkan pertama yang dihasilkan secara otomatis oleh beberapa hal berikut: algoritma MI, algoritma ini secara rata-rata dapat memprediksi dengan benar label untuk 2,333 1. Algoritma GA-HAC dengan TF-IDF, Vector cluster secara exact match dan 6,333 cluster Space Model, Cosine Similarity, penggunaan 20% secara partial match. stopwords dan Natural Clustering dapat 2. Nilai rata-rata exact match Match@N untuk N = 5 menghasilkan sekumpulan cluster yang berisi adalah 0,4667 dan nilai rata-rata partial match dokumen dengan topik berita yang sama dengan Match@N untuk N = 5 adalah 0,9. Ini artinya rata-rata nilai evaluasi F1 = 0,691 dengan untuk 10 cluster, dari 50 cluster label peringkat precision = 0,844 dan recall 0,629. Ini teratas yang dihasilkan secara otomatis oleh mengindikasikan bahwa hasil clustering yang algoritma MI, algoritma ini secara rata-rata dapat dihasilkan lebih memenuhi kebutuhan informasi memprediksi dengan benar label untuk 23,335 web surfer umum daripada kebutuhan informasi cluster secara exact match dan 45 cluster secara intelegent analyst. partial match. 2. Pemilihan frasa-frasa calon cluster label dengan 3. Kualitas label rata-rata yang dihasilkan dari hasil frasa kata benda hasil Part-of-Speech Tagger dan diatas dilihat dari nilai evaluasi P@N. Nilai exact algoritma Mutual Information yang match P@N untuk N = 5 adalah 0,1067 dan nilai dikombinasikan dengan Laplace Correction dapat partial match P@N untuk N = 5 adalah 0,3333. digunakan untuk menghasilkan cluster label yang Ini artinya untuk 10 cluster, dari seluruh 50 merepresentasikan dokumen-dokumen berita dari cluster label yang dihasilkan secara otomatis oleh tiap cluster dan bekerja paling baik saat jumlah algoritma MI, algoritma ini secara rata-rata dapat dokumen berita yang terkandung didalamnya menghasilkan 5,335 cluster label yang benar cukup banyak. secara exact match dan 16,65 cluster label yang 3. Jika topik-topik terpopuler ditentukan dengan benar secara partial match. jumlah dokumen yang terkandung pada tiap 4. Secara umum, nilai-nilai evaluasi cluster labeling cluster, maka kombinasi algoritma-algoritma yang membaik pada eksperimen dengan 10 cluster digunakan pada penelitian ini dapat digunakan dengan jumlah dokumen terbanyak, namun sama untuk mendefinisikan topik-topik berita seperti pada eksperimen cluster labeling untuk terpopuler saat itu, selain itu, dengan seluruh cluster, nilai terbesar evaluasi didapatkan digunakannya time window dan segmentasi pada data jam ke 48 yang jumlah dokumen pada koleksi dokumen, kebutuhan dalam pendefinisian 10 cluster teratasnya rata-rata berjumlah dua kali topik-topik terpopuler dapat dilakukan secara lipat dibandingkan data pada jam-jam lainnya. Hal dinamis baik untuk per-hari, per-minggu, per- ini menunjukkan bahwa jumlah dokumen bulan dan lain-lain. memiliki pengaruh dalam algoritma cluster labeling dengan Mutual Information dan 11
  • 12. 4.2 Saran Broadcast News Transcription andSolusi yang dikembangkan pada penelitian masih Understanding Workshop. 194-128.belum sempurna dan dapat dikembangkan dengan [2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007.penelitian-penelitian lanjutan. Adapun beberapa hal Klasifikasi Dokumen Berita Kejadianyang disarankan untuk penelitian lanjutan mengenai Berbahasa Indonesia dengan algoritma Singlehal ini adalah: Pass Clustering. Surabaya, Indonesia: Institut 1. Karena jumlah dokumen berpengaruh dalam Teknologi Sepuluh November. menentukan hasil cluster labeling, maka [3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms disarankan untuk menggunakan jumlah dokumen for Scoring Coreference Chains. In The First yang lebih banyak pada penelitian lanjutan International Conference on Language mengenai cluster labeling. Resources and Evaluation Workshop on 2. Penentuan frasa-frasa calon cluster label pada Linguistics Coreference, pp. 563-566. penelitian ini dilakukan secara sederhana, yaitu dengan mengikut sertakan token yang memiliki [4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman. kelas kata NN atau NNP dari hasil Part-Of- 2005. A System for New Event Detection. Speech Tagger Penentuan frasa-frasa calon cluster California, USA: Palo Alto Research Center. label yang sederhana ini dapat menyebabkan [5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006. frasa-frasa kata benda yang bukan merupakan Emerging Topic Tracking System. Japan: The frasa penting disertakan sebagai calon cluster University of Tokyo. label. Salah satu pengembangan yang dapat [6] Chun, Seokkyung; Jun Jongeun; & Mc Leod, dilakukan untuk menentukan frasa-frasa calon Dennis. 2006. Incremental Mining for News cluster label adalah dengan menggunakan Stream. USA: University of Southern algoritma Named Entity Recognizer. California. 3. Penggunaan frasa-frasa untuk mewakili suatu topik kadang tidak cukup untuk menjelaskan isi [7] Ernawati, Sari; Ardiyanti, Arie ST, MT; & dokumen-dokumen berita pada suatu cluster Setiawan, Erwin Budi. 2009. Klusterisasi kepada pembaca berita, dibutuhkan deskripsi Dokumen Berita Berbahasa Indonesia lebih mendetail berupa sebuah kalimat singkat Menggunakan Document Index Graph. sehingga penjelasan isi dokumen-dokumen berita Yogyakarta, Indonesia: Seminar Nasional dapat dilakukan dengan lebih baik. Salah satu Aplikasi Teknologi Informasi 2009 (SNATI solusi yang dapat dikembangkan untuk 2009). permasalahan ini adalah dengan mengaplikasikan [8] Gustafsson, Johan. 2009. New Methods for algoritma document summarizer pada tiap cluster Generation and Evaluation of Text Cluster dokumen. Descriptions. Master’s Thesis, Royal Institute 4. Penggunaan time window yang tidak menyertakan of Technology, Stockholm, Sweeden. dokumen-dokumen yang melebihi batas waktu kadaluarsa menyebabkan tidak disertakannya [9] Han, Jiawei; & Kamber, Micheline. 2006. Data dokumen-dokumen tersebut dalam hasil Mining Concept and Techniques. San clustering. Ini menyebabkan hilangnya informasi Fransisco, USA: Morgan Kaufmann Publisher. masa lampau mengenai topik tersebut sehingga [10] Hastie, Trevor; Tibshirani, Robert; Friedman, penelusuran topik pada dokumen masa lampau Jerome (2010) “The Elements of Statistical tidak dapat dilakukan. Salah satu solusi yang Learning: Data Mining, Inference and dapat dikembangkan untuk mengatasi Prediction”. 2nd Edition, Springer. permasalahan ini adalah dengan menggunakan pembobotan term yang berkurang secara berkala, [11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008. dimana dokumen-dokumen pada masa lampau Event Detection with Common User Interest. diberikan faktor pembobotan yang lebih kecil Napa Valey, California, USA: WIDM 2008. dibandingkan dengan dokumen-dokumen yang [12] Huang, Anna. 2008. Similarity Measures for Text lebih baru. Document Clustering. Christchurch, New Zealand: Departement of Computer Science,DAFTAR PUSTAKA The University of Waikato, NZCSRSC 2008.[1] Allan, James; Carbonell, Jaime; Doddington, [13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling, George; Yamron, Jonathan; & Tang, Yiming. Charles X.; & Huang, Tiejun. 2006. Keyphrase 1998. Topic Detection and Tracking Pilot Study Extraction using Semantic Networks Structure Final Report. Proceedings of the DARPA Analysis. Proceedings of the sixth IEEE 12
  • 13. International Conference on Data Mining [25] Smet, Wim De; & Moens, Marie-Francine. 2009. (ICDM 2006), Hong Kong, 2006., pp. 257-284, An Aspect Based Document Representation for IEEE press. Event Clustering. Proceedings of the 19th[14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for Meeting of Computational Linguistics in the Clustering Data. Prentice Hall Advance Netherlands. Reference Series. Prentice Hall. [26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis.[15] Kontostathis, April; Galitsky, Leon M.; Yuma Pustaka, Kadipro, Surakarta. Pottenger; William M.; Roy, Soma; & Phelps, [27] Tala, Fadilla Z. 2003. A Study of Stemming Effect Daniel J. 1999. A Survey of Emerging Trend on Information Retrieval in Bahasa Indonesia. Detection in Textual Data Mining. Michael Master’s thesis, University of Amsterdam. Berry (Editor), Springer-Verlag, 2003. [28] Treeratpituk, Pucktada; & Callan, Jamie. 2006.[16] Leuski, Anton; & Allan, James. 2002. Improving Automatic Labeling Hierarchical Clusters. Realism of Topic Tracking Evaluation. Proceedings of the 2006 International Tampere, Finland: SIGIR 2002. Conference on Digital Government Research,[17] Manning, Christopher D.; Raghavan, Prabhakar; pp. 167-176, New York, NY, USA. & Schütze, Hinrich. 2009. An Introduction to [29] Turney, Peter D. 2001. Learning Algorithms for Information Retrieval. Cambridge, England: Keyphrase Extraction. NRC Publication Cambridge University Press. Archive. Published in J. Information Retrieval,[18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo; 2(4): 303-336; 2000. NCR 44105. National Research Council of Canada. Freitas, Fred; Rienaldo, Guilherme; & Prudêncio, Ricardo. 2008. Docs-Clustering: A [30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; & System for Hierarchical Clustering and Ru, Liyun. 2008. Automatic Online News Issue Document Labeling. Proceedings I Workshop Construction in Web Environment. Beijing, on Web and Text Intelligence 2008. China: State Key Lab of Intelligent Technology & Systems, Tainghua National Laboratory for[19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss, Information Science and Technology, CS&T Dawid. 2004. Lingo: Search Results Clustering Departement, Tainghua University. Algorithm Based on Singular Value Decomposition. Proceedings of the [31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006. International Conference on Intelligent Clustering Berita Berbahasa Indonesia. Jurnal Information Systems (IIPWM), 2004. FPMIPA UPI dan KK Informatika ITB. Bandung, Indonesia.[20] Pon, Raymond K.; Buttler, David; & Critchlow, Terence. 2007. Tracking Multiple Topics for [32] Wicaksono, Alfan Farizki; & Purwanti, Ayu. Finding Interesting Articles. San Jose, 2010. HMM Based Part-of-Speech Tagger for California, USA: KDD 2007. Bahasa Indonesia. Proceedings The Forth[21] Rijsbergen, Keith van. 2004. The Geometry of International MALINDO Workshop. Jakarta, Indonesia. Information Retrieval. New York, USA: Cambridge University Press. [33] Zhao, Ying; & Karyapis, George. 2002. Evaluation of Hierarchical Clustering[22] Roy, Soma; Gevry, David; & Pottenger, William M. 2006. Methodologies for Trend Detection in Algorithm for Document Datasets. McLean, Textual Data Mining. USA: Leight University. Virginia, USA: CIKM 2002.[23] Salton, G; Wong, A; & Yang, C.S. 1975. A [34] Zhao, Ying; & Karyapis, George. 2002. Criterion Vector Space Model for Automatic Indexing. Functions for Document Clustering, Experiment and Analysis. Minneapolis, USA: Communication of the ACM, Information Departement of Computer Science, University Retrieval and Language Processing, C.A. Montgomery Editor. of Minnesota / Army HPC Research Center.[24] Salton, Gerard; & Buckley, Christopher. 1988, Term-Weighting Aproaches in Automatic Text Retrieval. Ithaca, USA: Departement of Computer Science, Cornell University. 13