SlideShare a Scribd company logo
1 of 13
Download to read offline
MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA
                        ONLINE BERBAHASA INDONESIA

 Muhammad Ammar Shadiq                       Yudi Wibisono                          Jajang Kusnendar
 Program Studi Ilmu Komputer        Dosen Program Studi Ilmu Komputer       Dosen Program Studi Ilmu Komputer
Universitas Pendidikan Indonesia     Universitas Pendidikan Indonesia        Universitas Pendidikan Indonesia
    ammar.shadiq@gmail.com                    yudi@upi.edu                       jkusnendar@gmail.com



ABSTRAK                                                     informasi tersebut dibutuhkan oleh pengguna. Sering
                                                            kali pengguna layanan berita hanya membutuhkan
Pengelompokan dokumen-dokumen berita kedalam                informasi seperti “apa yang terjadi?” atau “berita apa
topik-topik yang lebih spesifik membutuhkan waktu           yang    populer     sekarang?”     atau   “bagaimana
dan sumber daya manusia yang tidak sedikit. Untuk           perkembangan terbaru dari topik .....?”.
mengatasi permasalahan waktu dan sumber daya
manusia tersebut, dibutuhkan pengelompokan                  Untuk memudahkan pengguna dalam memenuhi
dokumen-dokumen berita berdasarkan topik-topiknya           kebutuhan informasinya, situs-situs berita umumnya
secara otomatis, selain itu, untuk lebih memudahkan         mengelompokkan berita-berita kedalam kelas-kelas
dalam menemukan informasi yang diinginkan,                  umum seperti regional, bisnis, internasional, kesehatan
dibutuhkan juga pemberian deskripsi dari kelompok           dan kelas-kelas umum lainnya. Namun jumlah
berita. Penelitian ini mencoba untuk mengatasi              dokumen berita pada tiap kelas-kelas tersebut masih
permasalahan      tersebut     dengan     menjadikan        sangat banyak dan berisi berita dengan berbagai topik
pengelompokan topik-topik berita secara otomatis            yang lebih spesifik. Pengelompokan dokumen-
dengan algoritma Group-Average Hierarchical                 dokumen berita kedalam topik-topik yang lebih
Aglomerative Clustering (GA-HAC) dan pemberian              spesifik membutuhkan waktu dan sumber daya
deskripsi secara otomatis dengan Mutual Information         manusia yang tidak sedikit, sebagai hasilnya, hanya
(MI). Eksperimen implementasi dari algoritma ini            kejadian-kejadian besar seperti “Pemilihan Presiden
terhadap 509 dokumen berita menunjukkan bahwa               2009” dan “Piala Dunia 2010” yang dipilih oleh
GA-HAC dapat mengelompokkan dokumen-dokumen                 redaksi berita untuk diciptakan kelompok tersendiri.
berita yang memiliki topik yang sama dengan nilai           Penelitian ini mencoba mengatasi permasalahan
akurasi precision 84,4% dan MI dapat memberikan             tersebut dengan mengaplikasikan metode clustering
nilai akurasi rata-rata partial match Match@N               dokumen dengan Group Average - Hierarchical
70,81% untuk seluruh topik dan 90% untuk 10 topik           Agglomerative     Clustering     (GA-HAC)       untuk
terpopuler.                                                 mengotomatisasikan       pengelompokan      dokumen-
Kata Kunci: Clustering, Cluster Labeling, Group-            dokumen berita berdasarkan topik-topiknya dan
Average Hierarchical Agglomerative Clustering,              cluster labeling dengan Mutual Information (MI)
Mutual Information, News Topic Detection.                   untuk memberikan deskripsi dari topik tersebut. Kedua
                                                            pengaplikasian metode ini dilakukan dalam
1    PENDAHULUAN                                            lingkungan time window yang memandang aliran
                                                            berita melalui “jendela” dengan dokumen-dokumen
1.1 Latar Belakang                                          pada interval waktu 24 jam.
Saat ini teknologi informasi di Indonesia berkembang
dengan sangat pesat, masyarakat sudah banyak yang           2   METODOLOGI
menggunakan internet untuk berkomunikasi dan
mendapatkan informasi, salah satu informasi yang bisa       2.1 Time Window
didapatkan oleh pengguna internet adalah berita.            Time window adalah suatu metode yang digunakan
                                                            untuk menangani aliran berita. Time window
Berita di internet bisa didapatkan dari banyak situs        memandang sebuah aliran dokumen berita melalui
khusus berita yang selalu menyediakan dokumen-              “jendela” dengan jumlah dokumen atau interval waktu
dokumen berita terbaru. Dengan banyaknya situs-situs        tertentu [1] [5] [6] [15] [22].
tersebut, informasi yang bisa didapatkan oleh
pengguna sangat banyak, namun tidak semua

                                                        1
3. Kelas karakter yang ketiga adalah karakter-
                                                                   karakter yang berjenis non-simbol. Karakter-
                                                                   karakter pada kelas ini merupakan karakter-
                                                                   karakter utama dalam pembentukan sebuah term.
                                                              2.2.2 Proses Tokenizer Secara Umum
                                                              Proses tokenizer diawali membagi-bagi teks
                                                              berdasarkan karakter-karakternya, lalu dilakukan
   Gambar 0.1 Ilustrasi Time Window pada Aliran
                                                              penelusuran satu persatu dari awal dokumen dan
                 Dokumen Berita
                                                              melakukan operasi sesuai dengan sifat tiap karakter
Konsep time window diadopsi dengan cara membagi               tersebut. Contoh proses tokenizer secara umum adalah
aliran dokumen berita kedalam segmen-segmen                   misalkan diketahui sebuah dokumen dengan isi teks:
dimana tiap segmen berisi dokumen-dokumen pada                Apakah dia sedih? "Saya                 lihat   biasa
interval waktu 1 jam. Koleksi dokumen terbaru                 saja," lanjut bapak.
dibangun dengan menggunakan segmen-segmen 24
jam terakhir saja, hal ini dilakukan dengan                   Hasil proses tokenizer ini adalah:
menambahkan segmen terbaru dan membuang segmen                 Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumen
yang telah melebihi 24 jam. Proses perubahan koleksi
dokumen terbaru ini dirumuskan dengan:                              Token       Tipe          Token        Tipe
                  w
                                                                 Apakah      Term             biasa      Term
                                                                 dia         Term             saja       Term
                       ������i ,    1≤w≤τ                            sedih       Term             ,          Simbol
                 i=1
      ������w =                                     (2.1)            ?           Simbol           ”          Simbol
                  w
                                                                 ”           Simbol           lanjut     Term
                        ������i ,   w>τ                              Saya        Term             bapak      Term
                i=w−τ                                            lihat       Term             .          Simbol
dimana
     w adalah waktu terakhir                                 2.2.3 Penanganan Simbol-Simbol Tertentu
     Si adalah segmen pada waktu i                           Aturan pemisahan sederhana diatas akan mengalami
     Kw adalah koleksi dokumen pada waktu w                  kendala untuk term yang seharusnya menyatu seperti
     τ adalah 24 jam                                         nama orang yang menggunakan kutip tunggal
                                                              “Safi'i”, yang akan menghasilkan token safi , ', i
2.2 Tokenization                                              ataupun alamat email seperti “email@server” yang
Tokenization adalah proses pemotongan rangkaian               akan menghasilkan token email , @, server . Untuk
kata menjadi bagian-bagian yang dinamakan token,              menghindari kendala tersebut, dilakukan penyesuaian
sebuah token adalah kejadian dari urutan karakter             aturan terhadap karakter-karakter simbol [.], ['], [-],
dalam dokumen tertentu yang dikelompokkan bersama             [@] dan [#], yaitu:
sebagai sebuah unit pemrosesan semantik yang
berguna. Token ini umumnya disebut juga sebagai               Untuk karakter simbol [.], ['] dan [-]
sebuah term [17]. Pada penelitian ini proses                  Aturan logika 1: Jika karakter simbol [.], ['] atau [-]
tokenization dilakukan dengan membagi-bagi teks               tidak terletak pada awal dokumen dan akhir dokumen
dokumen berdasarkan karakternya. Untuk dapat                  dan diawali oleh karakter spasi atau (inklusif) diikuti
mendeteksi apakah suatu urutan karakter merupakan             karakter spasi atau simbol, maka karakter simbol
sebuah term atau simbol, karakter-karakter                    tersebut bukan bagian dari token term. Aturan ini
diklasifikasikan kedalam tiga kelas karakter.                 dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c
                                                              ˅ d) ⊕ e)) dengan proporsi-proporsi:
2.2.1 Klasifikasi Kelas Karakter
  1. Kelas karakter yang pertama adalah kelas karakter          a = karakter simbol [.], ['] dan [-] tersebut bukan
     spasi. Karakter-karakter pada kelas ini merupakan              karakter pertama.
     karakter-karakter yang umumnya digunakan                   b = masih ada karakter selanjutnya.
     sebagai pemisah kata dan paragraph.
  2. Kelas karakter yang kedua adalah karakter                  c = karakter selanjutnya adalah spasi.
     berjenis simbol. Kelas karakter ini umumnya                d = karakter selanjutnya adalah simbol.
     berbentuk tanda baca, seperti “;” (titik koma) dan
     “?” (tanda tanya).                                         e = karakter sebelumnya adalah spasi.



                                                          2
Aturan logika 2: Jika karakter simbol [.], ['] atau [-]       dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄
terletak pada awal dokumen, maka karakter simbol              e) dengan proporsi-proporsi:
tersebut bukan bagian dari token term.                          a = Karakter simbol [#] tersebut bukan karakter
Aturan logika 3: Jika aturan Logika 1 dan 2 diatas                  pertama.
tidak memenuhi, maka karakter simbol tersebut                   b = Masih ada karakter selanjutnya.
merupakan bagian dari token term.
                                                                c = Karakter selanjutnya adalah spasi.
Contoh pengaplikasian dari aturan-aturan ini adalah:
                                                                d = Karakter selanjutnya adalah simbol.
  1. “www.situs.com” dianggap sebagai sebuah
     token utuh: www.situs.com .                                e = Karakter sebelumnya adalah spasi.
  2. “masih bisa.          Selain itu” menjadi:
     masih , bisa , ., Selain , itu .                         Aturan Logika 2: Jika aturan logika 1 diatas tidak
  3. “safi'i” dianggap sebagai sebuah token utuh:             memenuhi, maka karakter simbol tersebut adalah
                                                              bagian dari token term.
     safi'i .
  4. “Mike 'Leher Beton” menjadi: Mike, ',                    Contoh pengaplikasian dari aturan-aturan ini adalah:
     Leher , Beton .                                            1. “topik populer #hashtag” menjadi: topik ,
  5. “Leher Beton' Tyson” menjadi: Leher ,                         populer , #hashtag .
     Beton , ' , Tyson .                                        2. “ini# itu” menjadi: ini, #, itu.
  6. “rumah-rumah” dianggap sebagai sebuah token                3. “ini#itu” menjadi: ini, #, itu .
     utuh: rumah-rumah .
  7. “-Polisi membekuk” menjadi: -, Polisi ,                  2.3 Representasi Dokumen
     membekuk .                                               Tiap dokumen berita direpresentasikan sebagai vektor
                                                              pada ruang vektor dengan jumlah komponen vektor
Untuk karakter simbol [@]                                     sebanyak term unik yang dihasilkan pada proses
Aturan logika 1: Jika karakter simbol [@] tidak               tokenization. Vektor dokumen beranggotakan bobot
terletak pada akhir dokumen dan diikuti karakter spasi        tiap term yang dihitung dengan skema pembobotan
atau (inklusif) simbol, maka karakter simbol tersebut         Term Frequency – Inverse Document Frequency (TF-
bukan bagian dari token term. Aturan ini dapat                IDF). TF-IDF adalah skema pembobotan yang
dituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan       menghitung bobot term secara relatif berdasarkan
proporsi-proporsi:                                            jumlah kemunculannya pada suatu dokumen dan
                                                              seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF
  a = masih ada karakter selanjutnya                          dinotasikan dengan tf-idft,d dan dihitung dengan:
  b = karakter selanjutnya adalah spasi                                                                         ������������
                                                                          ������������-������������������������,������ = ������������������,������ × log ������        (2.2)
  c = karakter selanjutnya adalah simbol                                                                        ������������������
                                                              dimana
Aturan logika 2: Jika aturan Logika 1 diatas tidak                t adalah term
memenuhi, maka karakter simbol tersebut merupakan                 d adalah dokumen
bagian dari token term.
                                                                  tft,d adalah frekuensi kemunculan term t pada
Contoh pengaplikasian dari aturan-aturan ini adalah:               dokumen d
  1. “email@server” dianggap sebagai sebuah token                 dft adalah jumlah dokumen yang mengandung
    email@server                                                   term t pada koleksi dokumen
  2. “pada twitternya @akuntwit” menjadi:                         nk adalah jumlah dokumen di dalam koleksi
     pada , twitternya , @akuntwit .
  3. “ini@ itu” menjadi: ini, @, itu .                        Nilai bobot hasil perhitungan TF-IDF lalu digunakan
                                                              untuk mengukur tingkat kemiripan antar dokumen
  4. “ini@ itu” menjadi: ini, @, itu .
                                                              (document similarity) dengan metode Cosine
                                                              Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25]
Untuk karakter simbol [#]
                                                              [30] [31]. Nilai cos ������ sebagai kemiripan dokumen
Aturan logika 1: Jika karakter simbol [#] tidak               antara dokumen di dan dj dihitung dengan:
terletak pada akhir dokumen dan diikuti karakter spasi
atau (inklusif) simbol, maka karakter simbol tersebut                            ������������������ ∙ ������������������
                                                                    cos ������ =                         = ������������������(������������ , ������������ )   (2.3)
bukan bagian dari token term. Aturan ini dapat                                 ������������ ������     ������������ ������



                                                          3
2.4 Clustering dengan GA-HAC                                                         dimana
Group Average (GA) adalah suatu metode                                                                  1
                                                                                        ������ ������������ =              ������ ������ ∈������������   ������������������(������������ , ������������ ),
penggabungan yang digunakan pada proses clustering                                                    ������������ −1
                                                                                                                              1
dengan Hierarchical Agglomerative Clustering (HAC)                                      ������ ������������ = arg min ������������                     ������ ������ ∈������������   ������������������(������������ , ������������ )
                                                                                                                          ������������
[10] [14] [33] [34]. Metode GA mengevaluasi
kemiripan cluster berdasarkan combination similarity.                                   ������������������ ������������ , ������������ = 1 − cos ������ = 1 − ������������������(������������ , ������������ )
Combination similarity antara cluster Ci dan Cj                                      Penghitungan document fitness ini dilakukan pada tiap
didapatkan dengan menghitung nilai rata-rata                                         langkah penggabungan cluster di hierarki, dimana
document similarity antara seluruh pasangan dokumen                                  seluruh nilai document fitness tiap dokumen pada
di di cluster Ci dan dj di cluster Cj dengan persamaan:                              langkah penggabungan cluster tersebut kemudian di
      ������������������-������������(������������ , ������������ )                                                      rata-ratakan. Pemotongan hierarki untuk mendapatkan
                  1                                                                  natural clusters didapatkan dengan melakukan
      =                                             ������������������ ������������ , ������������   (2.4)       pemotongan pada langkah penggabungan cluster
           ������������������ × ������������ ������
                          ������ ������ ∈������������ ������ ������ ∈������������                                    dengan rata-rata nilai document fitness terbesar.
dimana
                                                                                     2.5 Cluster Labeling dengan MI
   ������������������ dan ������������������ adalah jumlah dokumen pada cluster                             Setelah pengelompokan dokumen berita dengan topik
    Ci dan Cj                                                                        yang sama dengan clustering, cluster label digunakan
   sim (di ,dj) adalah nilai document similarity antara                             sebagai deskripsi topik dari dokumen-dokumen berita
    dokumen di dan dj.                                                               yang terkandung didalam sebuah cluster. Proses ini
                                                                                     meliputi: Part-Of-Speech Tagger dengan perangkat
Algoritma metode penggabungan HAC dengan GA                                          lunak iPOSTagger [25] yang hasilnya digunakan
adalah sebagai berikut:                                                              untuk mengidentifikasi frasa-frasa nomina, ekstraksi
  1. Inisialisasi tiap dokumen sebagai sebuah cluster                                frasa calon cluster label dan penghitungan nilai
     dengan document similarity sebagai initial                                      deskriptif frasa-frasa calon cluster label dengan
     combination similarity antar cluster.                                           Mutual       Information    menggunakan      Laplace
  2. Hitung nilai combination similarity antar                                       Correction. Nilai deskriptif calon cluster label
     pasangan cluster dengan SIM-GA                                                  tertinggi kemudian dapat dipilih sebagai label dari
  3. Gabungkan pasangan cluster dengan nilai                                         cluster tersebut.
     combination similarity yang paling besar sebagai
                                                                                     2.5.1     Identifikasi Frasa-Frasa Calon Cluster
     cluster baru.
  4. Ulangi langkah 2 dan 3 sampai keadaan seluruh                                             Label
     cluster telah digabungkan.                                                      Frasa-frasa untuk calon cluster label yang
                                                                                     mendeskripsikan isi inti dari suatu cerita ditentukan
2.3.1 Natural Clustering                                                             dengan mengambil bagian-bagian dokumen yang
Untuk mendapatkan hasil cluster yang terpisah seperti                                memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26]
pada flat clustering, dilakukan pemotongan pada                                      [29]. Pada penelitian ini, sifat-sifat untuk menentukan
dendogram hierarki cluster hasil algoritma GA-HAC.                                   frasa-frasa calon cluster label adalah:
Pemotongan dendogram hierarki cluster ini dilakukan
                                                                                       1. Tidak melewati batas klausa atau kalimat berupa
pada bagian dendogram yang menggabungkan cluster
                                                                                          tanda baca seperti “.”, “,”, “!” dan“?”.
dengan combination similarity terkecil, ini ditentukan
berdasarkan nilai kelayakan tiap dokumen (document                                     2. Tidak diawali atau diakhiri dengan stopwords.
fitness) terhadap cluster yang menampungnya [17].                                         Stopwords adalah kata-kata yang terlalu sering
                                                                                          digunakan pada seluruh dokumen.
Nilai document fitness dari dokumen di terhadap
cluster Ci dinotasikan dengan f(di ). f(di ) dihitung                                  3. Merupakan frasa nomina (frasa kata benda atau
dengan membandingkan nilai combination similarity                                         noun phrase). Frasa nomina adalah frasa dengan
antara dokumen di terhadap cluster terdekat kedua Cj                                      unsur pusat kata berupa nomina atau kata benda.
dan rata-rata document similarity di dengan dokumen-                                      Pengidentifikasian frasa nomina dilakukan dengan
dokumen lain pada cluster Ci. Jika Ci adalah singleton                                    mengacu pada POS Tag tiap kata dalam frasa.
cluster (cluster yang hanya berisi di), maka nilai f(di )                              4. Merupakan complete phrase, yaitu frasa lengkap
adalah 0. Sedangkan jika Ci bukan singleton cluster,                                      yang tidak bisa diperluas lagi dengan
maka nilai f(di ) dihitung dengan persamaan:                                              menambahkan elemen kata sesudah atau sebelum
                          ������ ������������ − ������(������������ )                                             frasa tersebut.
          ������ ������������ =                                                      (2.5)
                         max⁡ ������������ , ������ ������������ }
                             {������


                                                                                 4
2.5.2       Mutual Information                                                              3       EKSPERIMEN DAN EVALUASI
Mutual Information (MI) adalah salah satu metode                                            Eksperimen-eksperimen yang diteliti pada penelitian
yang dapat digunakan untuk menghitung nilai                                                 ini adalah:
deskriptif suatu calon cluster label. MI dihitung
                                                                                            1. Performa clustering GA-HAC dengan pemotongan
dengan persamaan:
                                                                                               natural clustering dan pengaruh penggunaan
                                                                ������(������, ������)                     stopwords dalam proses clustering.
  ������������ ������, ������ =                      ������(������, ������) log 2                           (2.6)
                     ������∈������ ������ ∈������
                                                             ������1 ������ ������2 (������)                2. Performa cluster labeling dengan algoritma Mutual
                                                                                               Information.
dimana                                                                                      3. Performa algoritma Mutual Information dalam
   p(x,y) adalah distribusi probabilitas gabungan dari                                        pendeteksian 10 topik terpopuler dengan hanya
    variable X dan Y                                                                           melibatkan 10 cluster dengan jumlah dokumen
   p1(x) adalah distribusi probabilitas X                                                     terbanyak pada tiap hasil clustering.
   p2(y) adalah distribusi probabilitas Y
                                                                                            3.1 Data Eksperimen
Dalam cluster labeling, varibel X berhubungan dengan
                                                                                            Sumber data yang digunakan pada eksperimen ini
keanggotaan dalam sebuah cluster dan variable Y
                                                                                            adalah 509 dokumen yang diambil dari aliran berita
berhubungan dengan kehadiran dari sebuah term.
                                                                                            selama 48 jam dari tanggal 2011-04-25 jam 14:00
Kedua variable tersebut hanya dapat memiliki nilai 0
                                                                                            sampai dengan 2011-04-27 jam 13:00 dari situs-situs
atau 1, sehingga persamaan (2.6) dapat ditulis sebagai:
                                                                                            berita:
                                                            ������(������������ , ������������ )
 ������������ ������, ������ =                    ������(������������ , ������������ ) log2
                                                          ������ ������������ ������(������������ )                        http://nasional.kompas.com/
                  ������∈0,1 ������∈0,1
                                                                                                   http://nasional.vivanews.com
 ������������ ������, ������ = ������ ������1 , ������1 log2
                                             ������ ������1 , ������1                                          http://www.antaranews.com/berita
                                          ������ ������1 × ������ ������1                                          http://www.republika.co.id/berita/nasional
                                                ������ ������1 , ������0
                 +������ ������1 , ������0 log2
                                             ������ ������1 × ������ ������0                                Dokumen-dokumen berita tersebut telah dibersihkan
                                                                               (2.7)        dari artefak-artefak seperti navigasi, iklan, tautan
                                                ������ ������0 , ������1
                 +������ ������0 , ������1 log2                                                         berita lain, komentar, tag html dan lain-lain. Bagian
                                             ������ ������0 × ������ ������1
                                                                                            dokumen berita yang digunakan hanyalah judul dan isi
                 + ������ ������0 , ������0 log2
                                                 ������ ������0 , ������0                               berita saja, informasi-informasi lain seperti lokasi,
                                              ������ ������0 × ������ ������0                               keterkaitan berita berdasarkan tautan-tautan artikel
dimana                                                                                      yang berhubungan, tanggal dan waktu berita tidak
                                                                                            digunakan.
   p(C1)    merepresentasikan probabilitas bahwa
    sebuah dokumen adalah anggota dari suatu                                                Karena keterbatasan sumber daya manusia untuk
    cluster.                                                                                melakukan cluster labeling secara manual, penelitian
   p(C0) merepresentasikan probabilitas bahwa                                              ini hanya meneliti data pada jam ke 24, 36 dan 48 saja.
    sebuah dokumen bukan anggota dari suatu cluster                                                          Tabel 3.1 Data Eksperimen
   p(T1) merepresentasikan probabilitas bahwa
    sebuah dokumen mengandung suatu term.                                                                     Jam    Jumlah Dokumen
   p(T0) merepresentasikan probabilitas bahwa                                                                 24          292
    sebuah dokumen tidak mengandung suatu term.                                                                36          288
                                                                                                               48          268
2.5.3       Laplace Collection
Mutual information tidak memperbolehkan jumlah                                              3.2 Proses Clustering dan Cluster Labeling
dokumen pada contingency table berjumlah nol,
karena nilai nol pada salah satu elemen contingency
                                                                                                Secara Manual
                                                                                            Untuk melakukan evaluasi dan analisa, data-data
table   akan     menyebabkan       perhitungan  MI
                                                                                            penelitian melalui proses clustering dan cluster
menghasilkan nilai yang tidak terdefinisi.
                                                                                            labeling secara manual.
Laplace correction mengasumsikan bahwa ada
tambahan satu dokumen untuk tiap jumlah dokumen                                             3.2.1 Proses Clustering Secara Manual
pada cotingency table. Karena nilai Log2 1 = 0, maka                                        Proses clustering secara manual dilakukan oleh 2
hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat                                    orang evaluator yang membaca secara utuh seluruh
dihindari.                                                                                  509 dokumen berita yang didapatkan pada proses
                                                                                            perolehan data, kemudian secara bersama-sama
                                                                                            menujuk tiap dokumen pada tepat satu cluster. Proses


                                                                                        5
clustering secara manual ini menghasilkan 157 cluster                   Ci adalah cluster otomatis dimana dokumen di
yang kemudian digunakan untuk menentukan tiap                            berada
cluster untuk data-data pada jam ke 24, 36 dan 48.                      Mi adalah cluster manual dimana dokumen di
3.2.2 Proses Cluster Labeling Secara Manual                              berada (dari gold standard)
Proses cluster labeling secara manual dilakukan oleh 3               Seluruh nilai precision dan recall dari tiap dokumen
orang evaluator yang secara terpisah meneliti tiap                   tersebut kemudian dijumlahkan dan dirata-ratakan
cluster dokumen yang dihasilkan oleh algoritma                       untuk mendapatkan nilai precision dan recall final.
clustering otomatis dari data-data jam ke 24, 36 dan
                                                                     Nilai F1-Measure didapatkan dengan menggabungkan
48. Proses ini dilakukan dengan memberikan frasa-
                                                                     precision dan recall dengan penghitungan:
frasa yang dianggap dapat mewakili topik dokumen-
dokumen berita dari tiap cluster sebagai label dari                                     ������������������������������������������������������ × ������������������������������������
                                                                            ������1 = 2 ×                                       (3.4)
cluster tersebut. Frasa yang digunakan sebagai cluster                                  ������������������������������������������������������ + ������������������������������������
label manual dapat berjumlah lebih dari satu, baik
berupa sinonim, singkatan, maupun frasa berbeda yang
secara intuitif sama-sama dapat mewakili topik dari                  3.3.2 Evaluasi Hasil Cluster Labeling
cluster tersebut. Syarat dari proses cluster labeling                Treeratpituk dan Callan [38] mendefinisikan cluster
manual ini adalah tiap frasa yang digunakan sebagai                  labeling sebagai masalah ranking deskriptor. Dalam
cluster label manual harus terkandung dalam dokumen                  mengevaluasi cluster labeling, Treeratpituk dan Callan
berita dari cluster tersebut, syarat ini digunakan karena            menggunakan dua definisi dari sebuah label yang
sistem tidak akan bisa menghasilkan frasa yang tidak                 benar: exact match dan partial match dan
terkandung pada dokumen manapun didalam cluster.                     menggunakan empat metrik evaluasi: Match@N,
                                                                     P@N, MRR dan MTRR.
3.3 Metrik-Metrik Evaluasi
Untuk mengukur hasil eksperimen, evaluasi dibagi                     2.5.3.1 Definisi label yang benar
menjadi dua bagian, evaluasi clustering dan evaluasi                 Exact Match: Sebuah label L adalah exact match dari
cluster labeling, kedua evaluasi tersebut mengacu                    label yang sebenarnya S jika L sama persis atau
pada perbandingan relevansi hasil yang dihasilkan                    merupakan sinonim dari S. Sebagai contoh, untuk S
secara otomatis oleh algoritma dengan hasil yang                     “motor gede”, L seperti “motor gede” dan “motor
dilakukan secara manual oleh evaluator manusia.                      besar” diklasifikasikan sebagai exact match.
3.3.1 Evaluasi Hasil Clustering                                      Partial Match: Sebuah label L adalah partial match
Untuk mengevaluasi hasil clustering, digunakan empat                 dari label yang sebenarnya S jika L mengandung
metrik evaluasi yaitu purity, precision, recall dan F1-              paling tidak sebuah term dari S. Sebagai contoh, untuk
Measure. Perhitungan precision dan recall pada                       S “manajemen analisis proses bisnis”, L seperti
clustering metrik evaluasi clustering ini menggunakan                “bisnis”, “proses”, “manajemen bisnis”, “analisis
metode B-Cubed metric [3].                                           manajemen”       dan     “analisis    proses   bisnis”
                                                                     diklasifikasikan sebagai partial match.
Purity dihitung dengan:
                          1                                          2.5.3.2 Match at top N results (Match@N)
         ������������������������������������ =             max |������������ ∩ ������������ |   (3.1)       Match@N mengindikasikan apakah N hasil teratas
                          ������          ������
                               ������                                    mengandung label yang benar. Indikator ini bersifat
dimana                                                               biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika
                                                                     ada satu, dua ataupun tiga label pada hasil teratas
     n adalah jumlah dokumen pada koleksi.                          merupakan label yang benar, maka nilai Match@N
     k adalah cluster otomatis                                      adalah 1, namun jika sama sekali tidak ada label yang
     j adalah cluster manual (dari gold standard)                   benar, maka nilai Match@N adalah 0.
     Ck adalah cluster otomatis ke-k
     Mj adalah cluster manual ke-j (dari gold standard)             2.5.3.3 Precision at top N results (P@N)
precision dan recall dari tiap dokumen di dihitung                   P@N adalah jumlah label-label pada hasil N teratas
dengan:                                                              yang cocok dengan label-label yang benar dibagi
                                                                     dengan N. P@N mengukur persentase dari jawaban
                                      ������������ ∩ ������������                    benar yang dihasilkan pada peringkat 1 sampai dengan
             ������������������������������������������������������ ������������ =                   (3.2)
                                          ������������                       N, sehingga, jika ada dua hasil dari lima hasil teratas
                                    ������������ ∩ ������������                      (N = 5) yang merupakan label yang benar, maka P@N
                ������������������������������������ ������������ =                      (3.3)
                                        ������������                         bernilai 2/5.
dimana

                                                                 6
Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering
                       Jam         Stopwords          Purity Precision      Recall      F1
                               Tanpa Stopwords        0,978     0,977       0,454     0,620
                        24     20% Stopwords          0,975     0,974       0,461     0,626
                               Stopwords Umum         0,978     0,977       0,454     0,620
                               Tanpa Stopwords        0,943     0,924       0,634     0,752
                        36     20% Stopwords          0,946     0,928       0,615     0,740
                               Stopwords Umum         0,946     0,935       0,653     0,769
                               Tanpa Stopwords        0,552     0,447       0,841     0,584
                        48     20% Stopwords          0,718     0,628       0,810     0,708
                               Stopwords Umum         0,545     0,441       0,841     0,579
                                                         Rata-Rata
                               Tanpa Stopwords        0.825     0.783        0.643    0.652
                               20% Stopwords           0.88     0.844        0.629    0.691
                               Stopwords Umum         0.824     0.785        0.65     0.656

                                                              Berdasarkan hasil evaluasi eksperimen-eksperimen
2.5.3.4 Mean Reciprocal Rank (MRR)                            clustering pada tabel 3.2 diatas, dapat disimpulkan
Mean reciprocal rank adalah rata-rata dari reciprocal
                                                              bahwa:
rank (RR) dari peringkat label benar yang pertama.
Jika label benar yang pertama ada di peringkat ke tiga,       1. GA-HAC dengan menggunakan stopwords yang
maka RR bernilai 1/3. Jika N respon pertama tidak                umum tidak memberikan perubahan yang signifikan
mengandung label yang benar, maka RR bernilai 0.                 dibandingkan dengan GA-HAC tanpa menggunakan
RR bernilai 1 label benar yang pertama ada di                    stopwords, ini mengindikasikan penggunaan term
peringkat ke satu.                                               yang terlalu umum sebagai stopwords tidak
                                                                 memberikan       banyak      perubahan    terhadap
2.5.3.5 Mean Total Reciprocal Rank (MTRR)                        diskriminasi dokumen dibandingkan dengan tidak
Sebuah kategori dapat memiliki lebih dari satu aspek             menggunakan stopwords sama sekali.
yang benar, sebagai contoh, kategori "akupuntur dan           2. GA-HAC dengan menggunakan 20% stopwords
pengobatan alternatif" memiliki dua aspek yang benar             term paling sering muncul dari koleksi dokumen
yaitu "akupuntur" dan "pengobatan alternatif". Jika              yang diacu dapat memberikan diskriminasi
hasil algoritma       cluster labeling      meranking            dokumen yang lebih baik dalam proses clustering
"akupuntur" dan "pengobatan alternatif" sebagai label            dibandingkan dengan menggunakan stopwords yang
ke 2 dan ke 4, maka nilai total reciprocal rank (TRR)            terlalu umum dan tidak menggunakan stopwords
adalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2.            sama sekali.
                                                              3. Jumlah cluster yang paling sedikit yang juga hasil
3.4 Penilaian Kinerja Hasil Clustering                           evaluasi yang paling kecil didapatkan pada
    dengan GA-HAC                                                clustering data jam ke 48. Hal yang menarik dari
Pengukuran kinerja hasil clustering dokumen dengan               hasil clustering data jam ke 48 ini adalah bahwa
GA-HAC menggunakan metrik evaluasi Purity,                       penggunaan 20% stopwords menghasilkan jumlah
Precision, Recall dan F1 dengan B-Cubed Metric.                  cluster yang paling mendekati dibandingkan dengan
Eksperimen-eksperimen      yang dilakukan     pada               penggunaan stopwords lain, dimana total cluster
pengukuran kinerja hasil clustering dengan GA-HAC                secara manual adalah 84 dan hasil clustering
adalah:                                                          otomatis dengan 20% stopwords adalah 45, dua kali
                                                                 lipat dari jumlah cluster yang dihasilkan oleh
 Tidak digunakannya pembuangan stopwords dalam                  penggunaan stopwords yang lain, 20 cluster (tanpa
  clustering (Tanpa Stopwords),                                  stopwords) dan 22 cluster (stopwords umum).
 Menggunakan daftar stopword yang digunakan pada             4. Hasil clustering dengan 20% stopwords yang
  penelitian efek stemming dalam information                     dihasilkan oleh pemotongan dendogram natural
  retrieval untuk Bahasa Indonesia [27] dengan 357               clustering memberikan nilai evaluasi F1 = 0,691
  kata dari corpus Bahasa Indonesia umum                         dengan precision = 0,844 dan recall 0,629. Ini
  (Stopwords Umum).                                              mengindikasikan bahwa hasil clustering yang
 Menggunakan daftar stopwords yang diperoleh dari               dihasilkan lebih memenuhi kebutuhan informasi
  koleksi seluruh dokumen penelitian dengan 20%                  web surfer umum daripada kebutuhan informasi
  term yang paling sering muncul (20% Stopwords).                intelegent analyst.


                                                          7
3.5 Penilaian Kinerja Cluster Labeling                        Cluster labeling dengan MI untuk 10 cluster hasil
Pengukuran      kinerja   hasil     cluster   labeling         GA-HAC yang memiliki jumlah dokumen
menggunakan metrik evaluasi cluster labeling                   terbanyak.
Treeratpituk dan Callan [28] dengan N = 5. Hasil             3.5.1 Penilaian Kinerja Cluster Labeling
clustering yang digunakan sebagai acuan dalam                      dengan MI untuk seluruh Cluster
cluster labeling adalah hasil clustering otomatis yang       Penilaian kinerja cluster labeling dengan MI ini
dihasilkan oleh GA-HAC dengan menggunakan 20%
                                                             dilakukan untuk seluruh cluster termasuk seluruh
term yang paling sering muncul sebagai stopwords.
                                                             singleton cluster yang dihasilkan oleh algoritma
Eksperimen-eksperimen       yang dilakukan        pada       clustering GA-HAC dengan menggunakan 20%
pengukuran kinerja hasil clustering labeling dengan          stopwords. Hasil evaluasi cluster labeling dengan MI
MI adalah:                                                   jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3
 Cluster labeling dengan MI untuk seluruh cluster           sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat
  hasil GA-HAC                                               pada tabel 3.6.

 Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24         Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48
              N=1      N=2     N=3      N=4      N=5                      N=1      N=2        N=3      N=4     N=5
 Exact Match                                                 Exact Match
 Match@N 0,019         0,038   0,050    0,063    0,076       Match@N 0,244         0,311      0,333    0,377   0,400
 P@N          0,019    0,019   0,016    0,015    0,015       P@N          0,244    0,177      0,125    0,105   0,093
 MRR          0,019    0,028   0,032    0,035    0,038       MRR          0,244    0,277      0,285    0,296   0,300
 MTRR         0,019    0,028   0,032    0,035    0,038       MTRR         0,244    0,300      0,307    0,318   0,327
 Partial Match                                               Partial Match
 Match@N 0,246         0,398   0,493    0,550    0,607       Match@N 0,511         0,644      0,688    0,688   0,777
 P@N          0,246    0,243   0,223    0,216    0,215       P@N          0,511    0,422      0,363    0,311   0,306
 MRR          0,246    0,322   0,354    0,368    0,380       MRR          0,511    0,577      0,592    0,592   0,610
 MTRR         0,246    0,367   0,428    0,477    0,519       MTRR         0,511    0,677      0,759    0,798   0,855

 Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36         Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata
              N=1      N=2     N=3      N=4      N=5                       N=1      N=2       N=3      N=4     N=5
 Exact Match                                                 Exact Match
 Match@N 0,024         0,049   0,057    0,082    0,090       Match@N 0,079          0,094     0,124    0,150   0,162
 P@N          0,024    0,024   0,019    0,020    0,018       P@N           0,079    0,050     0,043    0,041   0,036
 MRR          0,024    0,037   0,039    0,046    0,047       MRR           0,079    0,086     0,096    0,103   0,105
 MTRR         0,024    0,037   0,039    0,046    0,047       MTRR          0,079    0,090     0,100    0,108   0,112
 Partial Match                                               Partial Match
 Match@N 0,206         0,355   0,429    0,512    0,578       Match@N 0,329          0,465     0,592    0,655   0,708
 P@N          0,206    0,202   0,173    0,167    0,160       P@N           0,329    0,294     0,299    0,296   0,288
 MRR          0,206    0,281   0,305    0,326    0,339       MRR           0,329    0,397     0,440    0,455   0,466
 MTRR         0,206    0,305   0,344    0,381    0,408       MTRR          0,329    0,459     0,562    0,634   0,685

               1                                                                                       N=1
             0.8
                                                                                                       N=2
             0.6
             0.4                                                                                       N=3
             0.2                                                                                       N=4
               0
                                                                                                       N=5
                   Match@N P@N          MRR       MTRR Match@N P@N               MRR        MTRR
                    (Exact) (Exact)    (Exact)   (Exact) (Partial) (Partial)   (Partial)   (Partial)


                          Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata

                                                         8
Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48
                                                                                      Cluster Label     Cluster Label
  Cluster                     Nomor dan Judul Dokumen Berita
                                                                                         Manual           Otomatis
                1    Penanganan Lamban, NII Berkembang
                2    Pemerintah Diharapkan Tegas Atasi NII
                3    Polisi Sudah Petakan Kantong-kantong NII
                4    NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel                                1. NII
                                                                                     1. NII
                5    Waspadalah, Ini Kantong NII di Jakarta                                             2. NKRI
                                                                                     2. Negara
Cluster 1       6    NII Jangan Hanya Dibebankan kepada Polri                                           3. Kampus
                                                                                        Islam
               ...   ...                                                                                4. Mahasiswa
                                                                                        Indonesia
               28    Kementerian Agama Redam Radikalisme Agama                                          5. Otak
               29    PMII Tolak Ideologisasi Negara Islam
               30    PBNU : Radikalisme di Indonesia Sudah "Lampu Merah"
               31    PBNU : Perlu UU Antiterorisme yang Lebih Tajam
                1    Dulu Bertanding, Kini Bersanding....                                               1. Edhie
                2    'Jangan Kaitkan Besanan SBY-Hatta dengan Politik'                                      Baskoro
                3    "Pertunangan Jangan Dikaitkan Politik!"                         1. Edhie               Yudhoyono
                4    Ibas-Aliya Bukan Perjodohan Politik                                Baskoro         2. Siti Rubi
Cluster 2       5    Pernikahan Ibas-Aliya Hasil Perjodohan Politik?                    Yudhoyono           Aliya
               ...   ...                                                             2. Siti Ruby           Rajasa
               27    Pengamanan di Kediaman Hatta Diperketat                            Aliya Rajasa    3. Hatta
               28    Acara Ibas-Aliya Bernuansa Pesta Kebun                                             4. Ibas
               29    Saat Dirias, Aliya Degdegan                                                        5. Pertunangan
...            ...   ...                                                             ...                ...
                1    Diknas: Tidak Ada Peserta UN Susulan Bojonegoro
                2    312 Peserta UN di Jember Mengundurkan Diri                                         1. UN
                                                                                     1. UN              2. Sekolah
                3    Ikut Ujian Nasional, Siswa SMP Barut Carter Kapal
Cluster 14                                                                           2. Ujian           3. Siswa
                4    Disdik Bekasi Jamin Tidak Ada Kebocoran Soal
                                                                                        Nasional        4. SMP
                5    Konflik SMA 70 Bulungan Sampai ke Pengadilan                                       5. Kabupaten
                6    Mendiknas: 20 Daerah Belum Salurkan BOS
...            ...   ...                                                             ...                ...

Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas            match P@N untuk N = 5 adalah 0,0368 dan nilai
dapat disimpulkan bahwa:                                             partial match P@N untuk N = 5 adalah 0,2880.
                                                                     Ini artinya untuk 100 cluster, dari seluruh 500
  1. Nilai rata-rata exact match Match@N untuk N = 1
     adalah 0,0791 dan nilai rata-rata partial match                 cluster label yang dihasilkan secara otomatis oleh
     Match@N untuk N = 1 adalah 0,3297. Ini artinya                  algoritma MI, algoritma ini secara rata-rata dapat
     untuk 100 cluster, dari 100 cluster label peringkat             menghasilkan 18,4 cluster label yang benar secara
     pertama yang dihasilkan secara otomatis oleh                    exact match dan 144 cluster label yang benar
     algoritma MI, algoritma ini secara rata-rata dapat              secara partial match.
                                                                  4. Dari perbandingan antara jumlah cluster dengan
     memprediksi dengan benar label untuk 7,91
                                                                     hasil yang diberikan oleh algoritma dari
     cluster secara exact match dan 32,97 cluster
     secara partial match.                                           eksperimen ini, algoritma MI tidak memberikan
  2. Nilai rata-rata exact match Match@N untuk N = 5                 hasil yang memuaskan.
     adalah 0,1620 dan nilai rata-rata partial match            Adapun hal yang menarik pada eksperimen ini adalah
     Match@N untuk N = 5 adalah 0,7081. Ini artinya             hasil evaluasi cluster labeling pada jam ke 48, dimana
     untuk 100 cluster, dari 500 cluster label peringkat        hampir seluruh metrik evaluasi bernilai lebih besar
     teratas yang dihasilkan secara otomatis oleh               dibandingkan dengan hasil evaluasi cluster labeling
     algoritma MI, algoritma ini secara rata-rata dapat         pada jam ke 24 dan 36. Perbedaan yang cukup
     memprediksi dengan benar label untuk 16,2                  signifikan dari hasil evaluasi cluster labeling pada jam
     cluster secara exact match dan 70,81 cluster               ke 48 ini ditambah lagi dengan perbedaan pada hasil
     secara partial match.                                      evaluasi clustering, dimana pada hasil evaluasi
  3. Kualitas label rata-rata yang dihasilkan dari hasil        clustering data jam ke 48 menunjukkan nilai evaluasi
     diatas dilihat dari nilai evaluasi P@N. Nilai exact

                                                            9
yang paling kecil dibandingkan dengan data pada jam-         cluster yang hanya terdiri dari satu dokumen saja
jam lainnya.                                                 memiliki jumlah frasa utama yang sedikit, hal tersebut
Perbedaan ini juga terjadi pada jumlah cluster yang          membuat penentuan frasa utama sebagai cluster label
dihasilkan, dimana pada jam tersebut, jumlah cluster         secara otomatis sulit dilakukan. Untuk itu dilakukan
yang dihasilkan lebih sedikit dibandingkan dengan            eksperimen lanjutan dengan meneliti kemampuan MI
data pada jam lainnya. Hal tersebut menyebabkan tiap         dalam cluster labeling secara otomatis untuk hanya 10
                                                             cluster dengan jumlah dokumen terbanyak. Statistik
cluster pada jam ke 48 secara umum memiliki jumlah
                                                             jumlah dokumen untuk 10 cluster dengan jumlah
dokumen yang lebih banyak dibandingkan dengan
hasil clustering pada jam-jam lainnya, jumlah                dokumen terbanyak tersebut adalah:
dokumen yang lebih banyak memungkinkan                        Tabel 3.8 Jumlah dokumen untuk 10 Cluster dengan
pendeteksian frasa utama dapat dilakukan dengan                           jumlah dokumen terbanyak
lebih baik karena jumlah frasa-frasa utama dari tiap
                                                                   Jam    10 Cluster      Seluruh Cluster
dokumen pada tiap cluster tersebut jumlahnya lebih
                                                                    24        75                 292
banyak. Untuk meneliti hal ini lebih mendalam,
dilakukan     ekperimen      lanjutan    yang  hanya                36        96                 288
menggunakan 10 cluster dengan jumlah dokumen                        48        175                268
terbanyak dari tiap data jam ke 24, 36 dan 48.
                                                             Eksperimen-eksperimen yang sama dilakukan seperti
3.5.2 Penilaian Kinerja Cluster Labeling                     pada pengukuran hasil kinerja cluster labeling untuk
      dengan MI untuk 10 Cluster Teratas                     seluruh cluster dari hasil clustering dengan GA-HAC.
Mayoritas cluster yang dihasilkan oleh proses                Hasil eksperimen cluster labeling dengan MI jam ke
clustering otomatis GA-HAC berjenis singleton                24, 36 dan 48 dapat dilihat pada tabel 3.9 sampai
cluster, yaitu cluster yang hanya terdiri dari satu          dengan tabel 3.11, hasil eksperimen rata-rata dapat
dokumen berita dan umumnya merupakan dokumen                 dilihat pada tabel 3.12.
berita dengan topik yang tidak populer. Singleton

 Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24         Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48
              N=1     N=2     N=3     N=4      N=5                        N=1     N=2      N=3     N=4      N=5
 Exact Match                                                 Exact Match
 Match@N 0,1          0,2     0,2     0,3      0,3           Match@N 0,5          0,7      0,7     0,7      0,7
 P@N          0,1     0,1     0,067   0,075    0,06          P@N          0,5     0,45     0,3     0,225    0,18
 MRR          0,1     0,15    0,15    0,175    0,175         MRR          0,5     0,6      0,6     0,6      0,6
 MTRR         0,1     0,15    0,15    0,175    0,175         MTRR         0,5     0,7      0,7     0,7      0,7
 Partial Match                                               Partial Match
 Match@N 0,5          0,8     0,9     0,9      0,9           Match@N 0,8          0,9      0,9     0,9      0,9
 P@N          0,5     0,5     0,4     0,375    0,34          P@N          0,8     0,75     0,567   0,425    0,38
 MRR          0,5     0,65    0,683   0,683    0,683         MRR          0,8     0,85     0,85    0,85     0,85
 MTRR         0,5     0,75    0,816   0,891    0,931         MTRR         0,8     1,15     1,216   1,216    1,256

                                                             Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata
 Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36
                                                                              10 Cluster Teratas
              N=1     N=2     N=3     N=4      N=5                         N=1    N=2      N=3     N=4      N=5
 Exact Match                                                 Exact Match
 Match@N 0,1          0,2     0,4     0,4     0,4            Match@N 0,233        0,366    0,433   0,466    0,466
 P@N          0,1     0,1     0,133   0,1     0,08           P@N          0,233   0,216    0,166   0,133    0,106
 MRR          0,1     0,15    0,216   0,216   0,216          MRR          0,233   0,3      0,322   0,330    0,330
 MTRR         0,1     0,15    0,216   0,216   0,216          MTRR         0,233   0,333    0,355   0,363    0,363
 Partial Match                                               Partial Match
 Match@N 0,6          0,7     0,9     0,9     0,9            Match@N 0,633        0,8      0,9     0,9      0,9
 P@N          0,6     0,45    0,367   0,35    0,28           P@N          0,633   0,566    0,444   0,383    0,333
 MRR          0,6     0,65    0,716   0,716   0,716          MRR          0,633   0,716    0,75    0,75     0,75
 MTRR         0,6     0,75    0,816   0,891   0,891          MTRR         0,633   0,883    0,95    1        1,026



                                                        10
1.2                                                                                        N=1
             1                                                                                        N=2
           0.8
           0.6                                                                                        N=3
           0.4                                                                                        N=4
           0.2
             0                                                                                        N=5
                 Match@N P@N           MRR       MTRR Match@N P@N               MRR        MTRR
                  (Exact) (Exact)     (Exact)   (Exact) (Partial) (Partial)   (Partial)   (Partial)


                 Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster Teratas
Berdasarkan hasil eksperimen untuk menemukan frasa                 performanya lebih baik saat jumlah dokumen
utama pada 10 cluster dengan jumlah dokumen berita                 yang terkandung pada tiap cluster yang diproses
terbanyak dapat disimpulkan bahwa:                                 cukup banyak.
  1. Nilai rata-rata exact match Match@N untuk N = 1            4 KESIMPULAN DAN SARAN
     adalah 0,2333 dan nilai rata-rata partial match
     Match@N untuk N = 1 adalah 0,6333. Ini artinya             4.1 Kesimpulan
     untuk 10 cluster, dari 10 cluster label peringkat          Berdasarkan hasil penelitian, dapat disimpulkan
     pertama yang dihasilkan secara otomatis oleh               beberapa hal berikut:
     algoritma MI, algoritma ini secara rata-rata dapat
     memprediksi dengan benar label untuk 2,333                  1. Algoritma GA-HAC dengan TF-IDF, Vector
     cluster secara exact match dan 6,333 cluster                   Space Model, Cosine Similarity, penggunaan 20%
     secara partial match.                                          stopwords dan Natural Clustering dapat
  2. Nilai rata-rata exact match Match@N untuk N = 5                menghasilkan sekumpulan cluster yang berisi
     adalah 0,4667 dan nilai rata-rata partial match                dokumen dengan topik berita yang sama dengan
     Match@N untuk N = 5 adalah 0,9. Ini artinya                    rata-rata nilai evaluasi F1 = 0,691 dengan
     untuk 10 cluster, dari 50 cluster label peringkat              precision = 0,844 dan recall 0,629. Ini
     teratas yang dihasilkan secara otomatis oleh                   mengindikasikan bahwa hasil clustering yang
     algoritma MI, algoritma ini secara rata-rata dapat             dihasilkan lebih memenuhi kebutuhan informasi
     memprediksi dengan benar label untuk 23,335                    web surfer umum daripada kebutuhan informasi
     cluster secara exact match dan 45 cluster secara               intelegent analyst.
     partial match.                                              2. Pemilihan frasa-frasa calon cluster label dengan
  3. Kualitas label rata-rata yang dihasilkan dari hasil            frasa kata benda hasil Part-of-Speech Tagger dan
     diatas dilihat dari nilai evaluasi P@N. Nilai exact            algoritma      Mutual       Information      yang
     match P@N untuk N = 5 adalah 0,1067 dan nilai                  dikombinasikan dengan Laplace Correction dapat
     partial match P@N untuk N = 5 adalah 0,3333.                   digunakan untuk menghasilkan cluster label yang
     Ini artinya untuk 10 cluster, dari seluruh 50                  merepresentasikan dokumen-dokumen berita dari
     cluster label yang dihasilkan secara otomatis oleh             tiap cluster dan bekerja paling baik saat jumlah
     algoritma MI, algoritma ini secara rata-rata dapat             dokumen berita yang terkandung didalamnya
     menghasilkan 5,335 cluster label yang benar                    cukup banyak.
     secara exact match dan 16,65 cluster label yang             3. Jika topik-topik terpopuler ditentukan dengan
     benar secara partial match.                                    jumlah dokumen yang terkandung pada tiap
  4. Secara umum, nilai-nilai evaluasi cluster labeling             cluster, maka kombinasi algoritma-algoritma yang
     membaik pada eksperimen dengan 10 cluster                      digunakan pada penelitian ini dapat digunakan
     dengan jumlah dokumen terbanyak, namun sama                    untuk     mendefinisikan     topik-topik    berita
     seperti pada eksperimen cluster labeling untuk                 terpopuler saat itu, selain itu, dengan
     seluruh cluster, nilai terbesar evaluasi didapatkan            digunakannya time window dan segmentasi
     pada data jam ke 48 yang jumlah dokumen pada                   koleksi dokumen, kebutuhan dalam pendefinisian
     10 cluster teratasnya rata-rata berjumlah dua kali             topik-topik terpopuler dapat dilakukan secara
     lipat dibandingkan data pada jam-jam lainnya. Hal              dinamis baik untuk per-hari, per-minggu, per-
     ini menunjukkan bahwa jumlah dokumen                           bulan dan lain-lain.
     memiliki pengaruh dalam algoritma cluster
     labeling dengan Mutual Information dan

                                                           11
4.2 Saran                                                           Broadcast     News    Transcription        and
Solusi yang dikembangkan pada penelitian masih                      Understanding Workshop. 194-128.
belum sempurna dan dapat dikembangkan dengan                  [2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007.
penelitian-penelitian lanjutan. Adapun beberapa hal                  Klasifikasi   Dokumen      Berita   Kejadian
yang disarankan untuk penelitian lanjutan mengenai                   Berbahasa Indonesia dengan algoritma Single
hal ini adalah:                                                      Pass Clustering. Surabaya, Indonesia: Institut
  1. Karena jumlah dokumen berpengaruh dalam                         Teknologi Sepuluh November.
     menentukan hasil cluster labeling, maka                  [3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms
     disarankan untuk menggunakan jumlah dokumen                    for Scoring Coreference Chains. In The First
     yang lebih banyak pada penelitian lanjutan                     International   Conference     on     Language
     mengenai cluster labeling.                                     Resources and Evaluation Workshop on
  2. Penentuan frasa-frasa calon cluster label pada                 Linguistics Coreference, pp. 563-566.
     penelitian ini dilakukan secara sederhana, yaitu
     dengan mengikut sertakan token yang memiliki             [4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman.
     kelas kata NN atau NNP dari hasil Part-Of-                      2005. A System for New Event Detection.
     Speech Tagger Penentuan frasa-frasa calon cluster               California, USA: Palo Alto Research Center.
     label yang sederhana ini dapat menyebabkan               [5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006.
     frasa-frasa kata benda yang bukan merupakan                    Emerging Topic Tracking System. Japan: The
     frasa penting disertakan sebagai calon cluster                 University of Tokyo.
     label. Salah satu pengembangan yang dapat
                                                              [6] Chun, Seokkyung; Jun Jongeun; & Mc Leod,
     dilakukan untuk menentukan frasa-frasa calon
                                                                    Dennis. 2006. Incremental Mining for News
     cluster label adalah dengan menggunakan
                                                                    Stream. USA: University of Southern
     algoritma Named Entity Recognizer.
                                                                    California.
  3. Penggunaan frasa-frasa untuk mewakili suatu
     topik kadang tidak cukup untuk menjelaskan isi           [7] Ernawati, Sari; Ardiyanti, Arie ST, MT; &
     dokumen-dokumen berita pada suatu cluster                      Setiawan, Erwin Budi. 2009. Klusterisasi
     kepada pembaca berita, dibutuhkan deskripsi                    Dokumen     Berita   Berbahasa   Indonesia
     lebih mendetail berupa sebuah kalimat singkat                  Menggunakan Document Index Graph.
     sehingga penjelasan isi dokumen-dokumen berita                 Yogyakarta, Indonesia: Seminar Nasional
     dapat dilakukan dengan lebih baik. Salah satu                  Aplikasi Teknologi Informasi 2009 (SNATI
     solusi yang dapat dikembangkan untuk                           2009).
     permasalahan ini adalah dengan mengaplikasikan           [8] Gustafsson, Johan. 2009. New Methods for
     algoritma document summarizer pada tiap cluster               Generation and Evaluation of Text Cluster
     dokumen.                                                      Descriptions. Master’s Thesis, Royal Institute
  4. Penggunaan time window yang tidak menyertakan                 of Technology, Stockholm, Sweeden.
     dokumen-dokumen yang melebihi batas waktu
     kadaluarsa menyebabkan tidak disertakannya               [9] Han, Jiawei; & Kamber, Micheline. 2006. Data
     dokumen-dokumen        tersebut    dalam    hasil              Mining Concept and Techniques. San
     clustering. Ini menyebabkan hilangnya informasi                Fransisco, USA: Morgan Kaufmann Publisher.
     masa lampau mengenai topik tersebut sehingga             [10] Hastie, Trevor; Tibshirani, Robert; Friedman,
     penelusuran topik pada dokumen masa lampau                     Jerome (2010) “The Elements of Statistical
     tidak dapat dilakukan. Salah satu solusi yang                  Learning: Data Mining, Inference and
     dapat      dikembangkan      untuk     mengatasi               Prediction”. 2nd Edition, Springer.
     permasalahan ini adalah dengan menggunakan
     pembobotan term yang berkurang secara berkala,           [11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008.
     dimana dokumen-dokumen pada masa lampau                        Event Detection with Common User Interest.
     diberikan faktor pembobotan yang lebih kecil                   Napa Valey, California, USA: WIDM 2008.
     dibandingkan dengan dokumen-dokumen yang                 [12] Huang, Anna. 2008. Similarity Measures for Text
     lebih baru.                                                    Document Clustering. Christchurch, New
                                                                    Zealand: Departement of Computer Science,
DAFTAR PUSTAKA                                                      The University of Waikato, NZCSRSC 2008.
[1] Allan, James; Carbonell, Jaime; Doddington,               [13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling,
     George; Yamron, Jonathan; & Tang, Yiming.                      Charles X.; & Huang, Tiejun. 2006. Keyphrase
     1998. Topic Detection and Tracking Pilot Study                 Extraction using Semantic Networks Structure
     Final Report. Proceedings of the DARPA                         Analysis. Proceedings of the sixth IEEE

                                                         12
International Conference on Data Mining                 [25] Smet, Wim De; & Moens, Marie-Francine. 2009.
       (ICDM 2006), Hong Kong, 2006., pp. 257-284,                   An Aspect Based Document Representation for
       IEEE press.                                                   Event Clustering. Proceedings of the 19th
[14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for                    Meeting of Computational Linguistics in the
      Clustering Data. Prentice Hall Advance                         Netherlands.
      Reference Series. Prentice Hall.                         [26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis.
[15]   Kontostathis, April; Galitsky, Leon M.;                       Yuma Pustaka, Kadipro, Surakarta.
       Pottenger; William M.; Roy, Soma; & Phelps,             [27] Tala, Fadilla Z. 2003. A Study of Stemming Effect
       Daniel J. 1999. A Survey of Emerging Trend                    on Information Retrieval in Bahasa Indonesia.
       Detection in Textual Data Mining. Michael                     Master’s thesis, University of Amsterdam.
       Berry (Editor), Springer-Verlag, 2003.
                                                               [28] Treeratpituk, Pucktada; & Callan, Jamie. 2006.
[16] Leuski, Anton; & Allan, James. 2002. Improving                  Automatic Labeling Hierarchical Clusters.
      Realism of Topic Tracking Evaluation.                          Proceedings of the 2006 International
      Tampere, Finland: SIGIR 2002.                                  Conference on Digital Government Research,
[17] Manning, Christopher D.; Raghavan, Prabhakar;                   pp. 167-176, New York, NY, USA.
      & Schütze, Hinrich. 2009. An Introduction to             [29] Turney, Peter D. 2001. Learning Algorithms for
      Information Retrieval. Cambridge, England:                     Keyphrase Extraction. NRC Publication
      Cambridge University Press.                                    Archive. Published in J. Information Retrieval,
[18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo;                 2(4): 303-336; 2000. NCR 44105. National
                                                                     Research Council of Canada.
      Freitas, Fred; Rienaldo, Guilherme; &
      Prudêncio, Ricardo. 2008. Docs-Clustering: A             [30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; &
      System for Hierarchical Clustering and                         Ru, Liyun. 2008. Automatic Online News Issue
      Document Labeling. Proceedings I Workshop                      Construction in Web Environment. Beijing,
      on Web and Text Intelligence 2008.                             China: State Key Lab of Intelligent Technology
                                                                     & Systems, Tainghua National Laboratory for
[19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss,
                                                                     Information Science and Technology, CS&T
      Dawid. 2004. Lingo: Search Results Clustering
                                                                     Departement, Tainghua University.
      Algorithm Based on Singular Value
      Decomposition.       Proceedings      of      the        [31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006.
      International Conference on           Intelligent              Clustering Berita Berbahasa Indonesia. Jurnal
      Information Systems (IIPWM), 2004.                             FPMIPA UPI dan KK Informatika ITB.
                                                                     Bandung, Indonesia.
[20] Pon, Raymond K.; Buttler, David; & Critchlow,
      Terence. 2007. Tracking Multiple Topics for              [32] Wicaksono, Alfan Farizki; & Purwanti, Ayu.
      Finding Interesting Articles. San Jose,                       2010. HMM Based Part-of-Speech Tagger for
      California, USA: KDD 2007.                                    Bahasa Indonesia. Proceedings The Forth
[21] Rijsbergen, Keith van. 2004. The Geometry of                   International MALINDO Workshop. Jakarta,
                                                                    Indonesia.
      Information Retrieval. New York, USA:
      Cambridge University Press.                              [33] Zhao, Ying; & Karyapis, George. 2002.
                                                                    Evaluation    of  Hierarchical  Clustering
[22] Roy, Soma; Gevry, David; & Pottenger, William
      M. 2006. Methodologies for Trend Detection in                 Algorithm for Document Datasets. McLean,
      Textual Data Mining. USA: Leight University.                  Virginia, USA: CIKM 2002.

[23] Salton, G; Wong, A; & Yang, C.S. 1975. A                  [34] Zhao, Ying; & Karyapis, George. 2002. Criterion
      Vector Space Model for Automatic Indexing.                     Functions     for    Document      Clustering,
                                                                     Experiment and Analysis. Minneapolis, USA:
      Communication of the ACM, Information
                                                                     Departement of Computer Science, University
      Retrieval and Language Processing, C.A.
      Montgomery Editor.                                             of Minnesota / Army HPC Research Center.

[24] Salton, Gerard; & Buckley, Christopher. 1988,
      Term-Weighting Aproaches in Automatic Text
      Retrieval. Ithaca, USA: Departement of
      Computer Science, Cornell University.




                                                          13

More Related Content

More from Ammar Shadiq

Statement of Accomplisment from Online Machine Learning Class
Statement of Accomplisment from Online Machine Learning ClassStatement of Accomplisment from Online Machine Learning Class
Statement of Accomplisment from Online Machine Learning ClassAmmar Shadiq
 
PostgreSQL Trigger
PostgreSQL TriggerPostgreSQL Trigger
PostgreSQL TriggerAmmar Shadiq
 
PostgreSQL Transaksi
PostgreSQL TransaksiPostgreSQL Transaksi
PostgreSQL TransaksiAmmar Shadiq
 
Pengenalan konsep dan komponen Oracle database recovery
Pengenalan konsep dan komponen Oracle database recoveryPengenalan konsep dan komponen Oracle database recovery
Pengenalan konsep dan komponen Oracle database recoveryAmmar Shadiq
 
Pelatihan Java - Number & String
Pelatihan Java - Number & StringPelatihan Java - Number & String
Pelatihan Java - Number & StringAmmar Shadiq
 

More from Ammar Shadiq (7)

Statement of Accomplisment from Online Machine Learning Class
Statement of Accomplisment from Online Machine Learning ClassStatement of Accomplisment from Online Machine Learning Class
Statement of Accomplisment from Online Machine Learning Class
 
PostgreSQL Trigger
PostgreSQL TriggerPostgreSQL Trigger
PostgreSQL Trigger
 
PostgreSQL Transaksi
PostgreSQL TransaksiPostgreSQL Transaksi
PostgreSQL Transaksi
 
Pengenalan konsep dan komponen Oracle database recovery
Pengenalan konsep dan komponen Oracle database recoveryPengenalan konsep dan komponen Oracle database recovery
Pengenalan konsep dan komponen Oracle database recovery
 
Oracle transaksi
Oracle transaksiOracle transaksi
Oracle transaksi
 
Java numbers
Java numbersJava numbers
Java numbers
 
Pelatihan Java - Number & String
Pelatihan Java - Number & StringPelatihan Java - Number & String
Pelatihan Java - Number & String
 

Mendeteksi Topik Berita

  • 1. MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA ONLINE BERBAHASA INDONESIA Muhammad Ammar Shadiq Yudi Wibisono Jajang Kusnendar Program Studi Ilmu Komputer Dosen Program Studi Ilmu Komputer Dosen Program Studi Ilmu Komputer Universitas Pendidikan Indonesia Universitas Pendidikan Indonesia Universitas Pendidikan Indonesia ammar.shadiq@gmail.com yudi@upi.edu jkusnendar@gmail.com ABSTRAK informasi tersebut dibutuhkan oleh pengguna. Sering kali pengguna layanan berita hanya membutuhkan Pengelompokan dokumen-dokumen berita kedalam informasi seperti “apa yang terjadi?” atau “berita apa topik-topik yang lebih spesifik membutuhkan waktu yang populer sekarang?” atau “bagaimana dan sumber daya manusia yang tidak sedikit. Untuk perkembangan terbaru dari topik .....?”. mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan Untuk memudahkan pengguna dalam memenuhi dokumen-dokumen berita berdasarkan topik-topiknya kebutuhan informasinya, situs-situs berita umumnya secara otomatis, selain itu, untuk lebih memudahkan mengelompokkan berita-berita kedalam kelas-kelas dalam menemukan informasi yang diinginkan, umum seperti regional, bisnis, internasional, kesehatan dibutuhkan juga pemberian deskripsi dari kelompok dan kelas-kelas umum lainnya. Namun jumlah berita. Penelitian ini mencoba untuk mengatasi dokumen berita pada tiap kelas-kelas tersebut masih permasalahan tersebut dengan menjadikan sangat banyak dan berisi berita dengan berbagai topik pengelompokan topik-topik berita secara otomatis yang lebih spesifik. Pengelompokan dokumen- dengan algoritma Group-Average Hierarchical dokumen berita kedalam topik-topik yang lebih Aglomerative Clustering (GA-HAC) dan pemberian spesifik membutuhkan waktu dan sumber daya deskripsi secara otomatis dengan Mutual Information manusia yang tidak sedikit, sebagai hasilnya, hanya (MI). Eksperimen implementasi dari algoritma ini kejadian-kejadian besar seperti “Pemilihan Presiden terhadap 509 dokumen berita menunjukkan bahwa 2009” dan “Piala Dunia 2010” yang dipilih oleh GA-HAC dapat mengelompokkan dokumen-dokumen redaksi berita untuk diciptakan kelompok tersendiri. berita yang memiliki topik yang sama dengan nilai Penelitian ini mencoba mengatasi permasalahan akurasi precision 84,4% dan MI dapat memberikan tersebut dengan mengaplikasikan metode clustering nilai akurasi rata-rata partial match Match@N dokumen dengan Group Average - Hierarchical 70,81% untuk seluruh topik dan 90% untuk 10 topik Agglomerative Clustering (GA-HAC) untuk terpopuler. mengotomatisasikan pengelompokan dokumen- Kata Kunci: Clustering, Cluster Labeling, Group- dokumen berita berdasarkan topik-topiknya dan Average Hierarchical Agglomerative Clustering, cluster labeling dengan Mutual Information (MI) Mutual Information, News Topic Detection. untuk memberikan deskripsi dari topik tersebut. Kedua pengaplikasian metode ini dilakukan dalam 1 PENDAHULUAN lingkungan time window yang memandang aliran berita melalui “jendela” dengan dokumen-dokumen 1.1 Latar Belakang pada interval waktu 24 jam. Saat ini teknologi informasi di Indonesia berkembang dengan sangat pesat, masyarakat sudah banyak yang 2 METODOLOGI menggunakan internet untuk berkomunikasi dan mendapatkan informasi, salah satu informasi yang bisa 2.1 Time Window didapatkan oleh pengguna internet adalah berita. Time window adalah suatu metode yang digunakan untuk menangani aliran berita. Time window Berita di internet bisa didapatkan dari banyak situs memandang sebuah aliran dokumen berita melalui khusus berita yang selalu menyediakan dokumen- “jendela” dengan jumlah dokumen atau interval waktu dokumen berita terbaru. Dengan banyaknya situs-situs tertentu [1] [5] [6] [15] [22]. tersebut, informasi yang bisa didapatkan oleh pengguna sangat banyak, namun tidak semua 1
  • 2. 3. Kelas karakter yang ketiga adalah karakter- karakter yang berjenis non-simbol. Karakter- karakter pada kelas ini merupakan karakter- karakter utama dalam pembentukan sebuah term. 2.2.2 Proses Tokenizer Secara Umum Proses tokenizer diawali membagi-bagi teks berdasarkan karakter-karakternya, lalu dilakukan Gambar 0.1 Ilustrasi Time Window pada Aliran penelusuran satu persatu dari awal dokumen dan Dokumen Berita melakukan operasi sesuai dengan sifat tiap karakter Konsep time window diadopsi dengan cara membagi tersebut. Contoh proses tokenizer secara umum adalah aliran dokumen berita kedalam segmen-segmen misalkan diketahui sebuah dokumen dengan isi teks: dimana tiap segmen berisi dokumen-dokumen pada Apakah dia sedih? "Saya lihat biasa interval waktu 1 jam. Koleksi dokumen terbaru saja," lanjut bapak. dibangun dengan menggunakan segmen-segmen 24 jam terakhir saja, hal ini dilakukan dengan Hasil proses tokenizer ini adalah: menambahkan segmen terbaru dan membuang segmen Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumen yang telah melebihi 24 jam. Proses perubahan koleksi dokumen terbaru ini dirumuskan dengan: Token Tipe Token Tipe w Apakah Term biasa Term dia Term saja Term ������i , 1≤w≤τ sedih Term , Simbol i=1 ������w = (2.1) ? Simbol ” Simbol w ” Simbol lanjut Term ������i , w>τ Saya Term bapak Term i=w−τ lihat Term . Simbol dimana  w adalah waktu terakhir 2.2.3 Penanganan Simbol-Simbol Tertentu  Si adalah segmen pada waktu i Aturan pemisahan sederhana diatas akan mengalami  Kw adalah koleksi dokumen pada waktu w kendala untuk term yang seharusnya menyatu seperti  τ adalah 24 jam nama orang yang menggunakan kutip tunggal “Safi'i”, yang akan menghasilkan token safi , ', i 2.2 Tokenization ataupun alamat email seperti “email@server” yang Tokenization adalah proses pemotongan rangkaian akan menghasilkan token email , @, server . Untuk kata menjadi bagian-bagian yang dinamakan token, menghindari kendala tersebut, dilakukan penyesuaian sebuah token adalah kejadian dari urutan karakter aturan terhadap karakter-karakter simbol [.], ['], [-], dalam dokumen tertentu yang dikelompokkan bersama [@] dan [#], yaitu: sebagai sebuah unit pemrosesan semantik yang berguna. Token ini umumnya disebut juga sebagai Untuk karakter simbol [.], ['] dan [-] sebuah term [17]. Pada penelitian ini proses Aturan logika 1: Jika karakter simbol [.], ['] atau [-] tokenization dilakukan dengan membagi-bagi teks tidak terletak pada awal dokumen dan akhir dokumen dokumen berdasarkan karakternya. Untuk dapat dan diawali oleh karakter spasi atau (inklusif) diikuti mendeteksi apakah suatu urutan karakter merupakan karakter spasi atau simbol, maka karakter simbol sebuah term atau simbol, karakter-karakter tersebut bukan bagian dari token term. Aturan ini diklasifikasikan kedalam tiga kelas karakter. dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c ˅ d) ⊕ e)) dengan proporsi-proporsi: 2.2.1 Klasifikasi Kelas Karakter 1. Kelas karakter yang pertama adalah kelas karakter a = karakter simbol [.], ['] dan [-] tersebut bukan spasi. Karakter-karakter pada kelas ini merupakan karakter pertama. karakter-karakter yang umumnya digunakan b = masih ada karakter selanjutnya. sebagai pemisah kata dan paragraph. 2. Kelas karakter yang kedua adalah karakter c = karakter selanjutnya adalah spasi. berjenis simbol. Kelas karakter ini umumnya d = karakter selanjutnya adalah simbol. berbentuk tanda baca, seperti “;” (titik koma) dan “?” (tanda tanya). e = karakter sebelumnya adalah spasi. 2
  • 3. Aturan logika 2: Jika karakter simbol [.], ['] atau [-] dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄ terletak pada awal dokumen, maka karakter simbol e) dengan proporsi-proporsi: tersebut bukan bagian dari token term. a = Karakter simbol [#] tersebut bukan karakter Aturan logika 3: Jika aturan Logika 1 dan 2 diatas pertama. tidak memenuhi, maka karakter simbol tersebut b = Masih ada karakter selanjutnya. merupakan bagian dari token term. c = Karakter selanjutnya adalah spasi. Contoh pengaplikasian dari aturan-aturan ini adalah: d = Karakter selanjutnya adalah simbol. 1. “www.situs.com” dianggap sebagai sebuah token utuh: www.situs.com . e = Karakter sebelumnya adalah spasi. 2. “masih bisa. Selain itu” menjadi: masih , bisa , ., Selain , itu . Aturan Logika 2: Jika aturan logika 1 diatas tidak 3. “safi'i” dianggap sebagai sebuah token utuh: memenuhi, maka karakter simbol tersebut adalah bagian dari token term. safi'i . 4. “Mike 'Leher Beton” menjadi: Mike, ', Contoh pengaplikasian dari aturan-aturan ini adalah: Leher , Beton . 1. “topik populer #hashtag” menjadi: topik , 5. “Leher Beton' Tyson” menjadi: Leher , populer , #hashtag . Beton , ' , Tyson . 2. “ini# itu” menjadi: ini, #, itu. 6. “rumah-rumah” dianggap sebagai sebuah token 3. “ini#itu” menjadi: ini, #, itu . utuh: rumah-rumah . 7. “-Polisi membekuk” menjadi: -, Polisi , 2.3 Representasi Dokumen membekuk . Tiap dokumen berita direpresentasikan sebagai vektor pada ruang vektor dengan jumlah komponen vektor Untuk karakter simbol [@] sebanyak term unik yang dihasilkan pada proses Aturan logika 1: Jika karakter simbol [@] tidak tokenization. Vektor dokumen beranggotakan bobot terletak pada akhir dokumen dan diikuti karakter spasi tiap term yang dihitung dengan skema pembobotan atau (inklusif) simbol, maka karakter simbol tersebut Term Frequency – Inverse Document Frequency (TF- bukan bagian dari token term. Aturan ini dapat IDF). TF-IDF adalah skema pembobotan yang dituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan menghitung bobot term secara relatif berdasarkan proporsi-proporsi: jumlah kemunculannya pada suatu dokumen dan seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF a = masih ada karakter selanjutnya dinotasikan dengan tf-idft,d dan dihitung dengan: b = karakter selanjutnya adalah spasi ������������ ������������-������������������������,������ = ������������������,������ × log ������ (2.2) c = karakter selanjutnya adalah simbol ������������������ dimana Aturan logika 2: Jika aturan Logika 1 diatas tidak  t adalah term memenuhi, maka karakter simbol tersebut merupakan  d adalah dokumen bagian dari token term.  tft,d adalah frekuensi kemunculan term t pada Contoh pengaplikasian dari aturan-aturan ini adalah: dokumen d 1. “email@server” dianggap sebagai sebuah token  dft adalah jumlah dokumen yang mengandung email@server term t pada koleksi dokumen 2. “pada twitternya @akuntwit” menjadi:  nk adalah jumlah dokumen di dalam koleksi pada , twitternya , @akuntwit . 3. “ini@ itu” menjadi: ini, @, itu . Nilai bobot hasil perhitungan TF-IDF lalu digunakan untuk mengukur tingkat kemiripan antar dokumen 4. “ini@ itu” menjadi: ini, @, itu . (document similarity) dengan metode Cosine Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25] Untuk karakter simbol [#] [30] [31]. Nilai cos ������ sebagai kemiripan dokumen Aturan logika 1: Jika karakter simbol [#] tidak antara dokumen di dan dj dihitung dengan: terletak pada akhir dokumen dan diikuti karakter spasi atau (inklusif) simbol, maka karakter simbol tersebut ������������������ ∙ ������������������ cos ������ = = ������������������(������������ , ������������ ) (2.3) bukan bagian dari token term. Aturan ini dapat ������������ ������ ������������ ������ 3
  • 4. 2.4 Clustering dengan GA-HAC dimana Group Average (GA) adalah suatu metode 1  ������ ������������ = ������ ������ ∈������������ ������������������(������������ , ������������ ), penggabungan yang digunakan pada proses clustering ������������ −1 1 dengan Hierarchical Agglomerative Clustering (HAC)  ������ ������������ = arg min ������������ ������ ������ ∈������������ ������������������(������������ , ������������ ) ������������ [10] [14] [33] [34]. Metode GA mengevaluasi kemiripan cluster berdasarkan combination similarity.  ������������������ ������������ , ������������ = 1 − cos ������ = 1 − ������������������(������������ , ������������ ) Combination similarity antara cluster Ci dan Cj Penghitungan document fitness ini dilakukan pada tiap didapatkan dengan menghitung nilai rata-rata langkah penggabungan cluster di hierarki, dimana document similarity antara seluruh pasangan dokumen seluruh nilai document fitness tiap dokumen pada di di cluster Ci dan dj di cluster Cj dengan persamaan: langkah penggabungan cluster tersebut kemudian di ������������������-������������(������������ , ������������ ) rata-ratakan. Pemotongan hierarki untuk mendapatkan 1 natural clusters didapatkan dengan melakukan = ������������������ ������������ , ������������ (2.4) pemotongan pada langkah penggabungan cluster ������������������ × ������������ ������ ������ ������ ∈������������ ������ ������ ∈������������ dengan rata-rata nilai document fitness terbesar. dimana 2.5 Cluster Labeling dengan MI  ������������������ dan ������������������ adalah jumlah dokumen pada cluster Setelah pengelompokan dokumen berita dengan topik Ci dan Cj yang sama dengan clustering, cluster label digunakan  sim (di ,dj) adalah nilai document similarity antara sebagai deskripsi topik dari dokumen-dokumen berita dokumen di dan dj. yang terkandung didalam sebuah cluster. Proses ini meliputi: Part-Of-Speech Tagger dengan perangkat Algoritma metode penggabungan HAC dengan GA lunak iPOSTagger [25] yang hasilnya digunakan adalah sebagai berikut: untuk mengidentifikasi frasa-frasa nomina, ekstraksi 1. Inisialisasi tiap dokumen sebagai sebuah cluster frasa calon cluster label dan penghitungan nilai dengan document similarity sebagai initial deskriptif frasa-frasa calon cluster label dengan combination similarity antar cluster. Mutual Information menggunakan Laplace 2. Hitung nilai combination similarity antar Correction. Nilai deskriptif calon cluster label pasangan cluster dengan SIM-GA tertinggi kemudian dapat dipilih sebagai label dari 3. Gabungkan pasangan cluster dengan nilai cluster tersebut. combination similarity yang paling besar sebagai 2.5.1 Identifikasi Frasa-Frasa Calon Cluster cluster baru. 4. Ulangi langkah 2 dan 3 sampai keadaan seluruh Label cluster telah digabungkan. Frasa-frasa untuk calon cluster label yang mendeskripsikan isi inti dari suatu cerita ditentukan 2.3.1 Natural Clustering dengan mengambil bagian-bagian dokumen yang Untuk mendapatkan hasil cluster yang terpisah seperti memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26] pada flat clustering, dilakukan pemotongan pada [29]. Pada penelitian ini, sifat-sifat untuk menentukan dendogram hierarki cluster hasil algoritma GA-HAC. frasa-frasa calon cluster label adalah: Pemotongan dendogram hierarki cluster ini dilakukan 1. Tidak melewati batas klausa atau kalimat berupa pada bagian dendogram yang menggabungkan cluster tanda baca seperti “.”, “,”, “!” dan“?”. dengan combination similarity terkecil, ini ditentukan berdasarkan nilai kelayakan tiap dokumen (document 2. Tidak diawali atau diakhiri dengan stopwords. fitness) terhadap cluster yang menampungnya [17]. Stopwords adalah kata-kata yang terlalu sering digunakan pada seluruh dokumen. Nilai document fitness dari dokumen di terhadap cluster Ci dinotasikan dengan f(di ). f(di ) dihitung 3. Merupakan frasa nomina (frasa kata benda atau dengan membandingkan nilai combination similarity noun phrase). Frasa nomina adalah frasa dengan antara dokumen di terhadap cluster terdekat kedua Cj unsur pusat kata berupa nomina atau kata benda. dan rata-rata document similarity di dengan dokumen- Pengidentifikasian frasa nomina dilakukan dengan dokumen lain pada cluster Ci. Jika Ci adalah singleton mengacu pada POS Tag tiap kata dalam frasa. cluster (cluster yang hanya berisi di), maka nilai f(di ) 4. Merupakan complete phrase, yaitu frasa lengkap adalah 0. Sedangkan jika Ci bukan singleton cluster, yang tidak bisa diperluas lagi dengan maka nilai f(di ) dihitung dengan persamaan: menambahkan elemen kata sesudah atau sebelum ������ ������������ − ������(������������ ) frasa tersebut. ������ ������������ = (2.5) max⁡ ������������ , ������ ������������ } {������ 4
  • 5. 2.5.2 Mutual Information 3 EKSPERIMEN DAN EVALUASI Mutual Information (MI) adalah salah satu metode Eksperimen-eksperimen yang diteliti pada penelitian yang dapat digunakan untuk menghitung nilai ini adalah: deskriptif suatu calon cluster label. MI dihitung 1. Performa clustering GA-HAC dengan pemotongan dengan persamaan: natural clustering dan pengaruh penggunaan ������(������, ������) stopwords dalam proses clustering. ������������ ������, ������ = ������(������, ������) log 2 (2.6) ������∈������ ������ ∈������ ������1 ������ ������2 (������) 2. Performa cluster labeling dengan algoritma Mutual Information. dimana 3. Performa algoritma Mutual Information dalam  p(x,y) adalah distribusi probabilitas gabungan dari pendeteksian 10 topik terpopuler dengan hanya variable X dan Y melibatkan 10 cluster dengan jumlah dokumen  p1(x) adalah distribusi probabilitas X terbanyak pada tiap hasil clustering.  p2(y) adalah distribusi probabilitas Y 3.1 Data Eksperimen Dalam cluster labeling, varibel X berhubungan dengan Sumber data yang digunakan pada eksperimen ini keanggotaan dalam sebuah cluster dan variable Y adalah 509 dokumen yang diambil dari aliran berita berhubungan dengan kehadiran dari sebuah term. selama 48 jam dari tanggal 2011-04-25 jam 14:00 Kedua variable tersebut hanya dapat memiliki nilai 0 sampai dengan 2011-04-27 jam 13:00 dari situs-situs atau 1, sehingga persamaan (2.6) dapat ditulis sebagai: berita: ������(������������ , ������������ ) ������������ ������, ������ = ������(������������ , ������������ ) log2 ������ ������������ ������(������������ )  http://nasional.kompas.com/ ������∈0,1 ������∈0,1  http://nasional.vivanews.com ������������ ������, ������ = ������ ������1 , ������1 log2 ������ ������1 , ������1  http://www.antaranews.com/berita ������ ������1 × ������ ������1  http://www.republika.co.id/berita/nasional ������ ������1 , ������0 +������ ������1 , ������0 log2 ������ ������1 × ������ ������0 Dokumen-dokumen berita tersebut telah dibersihkan (2.7) dari artefak-artefak seperti navigasi, iklan, tautan ������ ������0 , ������1 +������ ������0 , ������1 log2 berita lain, komentar, tag html dan lain-lain. Bagian ������ ������0 × ������ ������1 dokumen berita yang digunakan hanyalah judul dan isi + ������ ������0 , ������0 log2 ������ ������0 , ������0 berita saja, informasi-informasi lain seperti lokasi, ������ ������0 × ������ ������0 keterkaitan berita berdasarkan tautan-tautan artikel dimana yang berhubungan, tanggal dan waktu berita tidak digunakan.  p(C1) merepresentasikan probabilitas bahwa sebuah dokumen adalah anggota dari suatu Karena keterbatasan sumber daya manusia untuk cluster. melakukan cluster labeling secara manual, penelitian  p(C0) merepresentasikan probabilitas bahwa ini hanya meneliti data pada jam ke 24, 36 dan 48 saja. sebuah dokumen bukan anggota dari suatu cluster Tabel 3.1 Data Eksperimen  p(T1) merepresentasikan probabilitas bahwa sebuah dokumen mengandung suatu term. Jam Jumlah Dokumen  p(T0) merepresentasikan probabilitas bahwa 24 292 sebuah dokumen tidak mengandung suatu term. 36 288 48 268 2.5.3 Laplace Collection Mutual information tidak memperbolehkan jumlah 3.2 Proses Clustering dan Cluster Labeling dokumen pada contingency table berjumlah nol, karena nilai nol pada salah satu elemen contingency Secara Manual Untuk melakukan evaluasi dan analisa, data-data table akan menyebabkan perhitungan MI penelitian melalui proses clustering dan cluster menghasilkan nilai yang tidak terdefinisi. labeling secara manual. Laplace correction mengasumsikan bahwa ada tambahan satu dokumen untuk tiap jumlah dokumen 3.2.1 Proses Clustering Secara Manual pada cotingency table. Karena nilai Log2 1 = 0, maka Proses clustering secara manual dilakukan oleh 2 hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat orang evaluator yang membaca secara utuh seluruh dihindari. 509 dokumen berita yang didapatkan pada proses perolehan data, kemudian secara bersama-sama menujuk tiap dokumen pada tepat satu cluster. Proses 5
  • 6. clustering secara manual ini menghasilkan 157 cluster  Ci adalah cluster otomatis dimana dokumen di yang kemudian digunakan untuk menentukan tiap berada cluster untuk data-data pada jam ke 24, 36 dan 48.  Mi adalah cluster manual dimana dokumen di 3.2.2 Proses Cluster Labeling Secara Manual berada (dari gold standard) Proses cluster labeling secara manual dilakukan oleh 3 Seluruh nilai precision dan recall dari tiap dokumen orang evaluator yang secara terpisah meneliti tiap tersebut kemudian dijumlahkan dan dirata-ratakan cluster dokumen yang dihasilkan oleh algoritma untuk mendapatkan nilai precision dan recall final. clustering otomatis dari data-data jam ke 24, 36 dan Nilai F1-Measure didapatkan dengan menggabungkan 48. Proses ini dilakukan dengan memberikan frasa- precision dan recall dengan penghitungan: frasa yang dianggap dapat mewakili topik dokumen- dokumen berita dari tiap cluster sebagai label dari ������������������������������������������������������ × ������������������������������������ ������1 = 2 × (3.4) cluster tersebut. Frasa yang digunakan sebagai cluster ������������������������������������������������������ + ������������������������������������ label manual dapat berjumlah lebih dari satu, baik berupa sinonim, singkatan, maupun frasa berbeda yang secara intuitif sama-sama dapat mewakili topik dari 3.3.2 Evaluasi Hasil Cluster Labeling cluster tersebut. Syarat dari proses cluster labeling Treeratpituk dan Callan [38] mendefinisikan cluster manual ini adalah tiap frasa yang digunakan sebagai labeling sebagai masalah ranking deskriptor. Dalam cluster label manual harus terkandung dalam dokumen mengevaluasi cluster labeling, Treeratpituk dan Callan berita dari cluster tersebut, syarat ini digunakan karena menggunakan dua definisi dari sebuah label yang sistem tidak akan bisa menghasilkan frasa yang tidak benar: exact match dan partial match dan terkandung pada dokumen manapun didalam cluster. menggunakan empat metrik evaluasi: Match@N, P@N, MRR dan MTRR. 3.3 Metrik-Metrik Evaluasi Untuk mengukur hasil eksperimen, evaluasi dibagi 2.5.3.1 Definisi label yang benar menjadi dua bagian, evaluasi clustering dan evaluasi Exact Match: Sebuah label L adalah exact match dari cluster labeling, kedua evaluasi tersebut mengacu label yang sebenarnya S jika L sama persis atau pada perbandingan relevansi hasil yang dihasilkan merupakan sinonim dari S. Sebagai contoh, untuk S secara otomatis oleh algoritma dengan hasil yang “motor gede”, L seperti “motor gede” dan “motor dilakukan secara manual oleh evaluator manusia. besar” diklasifikasikan sebagai exact match. 3.3.1 Evaluasi Hasil Clustering Partial Match: Sebuah label L adalah partial match Untuk mengevaluasi hasil clustering, digunakan empat dari label yang sebenarnya S jika L mengandung metrik evaluasi yaitu purity, precision, recall dan F1- paling tidak sebuah term dari S. Sebagai contoh, untuk Measure. Perhitungan precision dan recall pada S “manajemen analisis proses bisnis”, L seperti clustering metrik evaluasi clustering ini menggunakan “bisnis”, “proses”, “manajemen bisnis”, “analisis metode B-Cubed metric [3]. manajemen” dan “analisis proses bisnis” diklasifikasikan sebagai partial match. Purity dihitung dengan: 1 2.5.3.2 Match at top N results (Match@N) ������������������������������������ = max |������������ ∩ ������������ | (3.1) Match@N mengindikasikan apakah N hasil teratas ������ ������ ������ mengandung label yang benar. Indikator ini bersifat dimana biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika ada satu, dua ataupun tiga label pada hasil teratas  n adalah jumlah dokumen pada koleksi. merupakan label yang benar, maka nilai Match@N  k adalah cluster otomatis adalah 1, namun jika sama sekali tidak ada label yang  j adalah cluster manual (dari gold standard) benar, maka nilai Match@N adalah 0.  Ck adalah cluster otomatis ke-k  Mj adalah cluster manual ke-j (dari gold standard) 2.5.3.3 Precision at top N results (P@N) precision dan recall dari tiap dokumen di dihitung P@N adalah jumlah label-label pada hasil N teratas dengan: yang cocok dengan label-label yang benar dibagi dengan N. P@N mengukur persentase dari jawaban ������������ ∩ ������������ benar yang dihasilkan pada peringkat 1 sampai dengan ������������������������������������������������������ ������������ = (3.2) ������������ N, sehingga, jika ada dua hasil dari lima hasil teratas ������������ ∩ ������������ (N = 5) yang merupakan label yang benar, maka P@N ������������������������������������ ������������ = (3.3) ������������ bernilai 2/5. dimana 6
  • 7. Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering Jam Stopwords Purity Precision Recall F1 Tanpa Stopwords 0,978 0,977 0,454 0,620 24 20% Stopwords 0,975 0,974 0,461 0,626 Stopwords Umum 0,978 0,977 0,454 0,620 Tanpa Stopwords 0,943 0,924 0,634 0,752 36 20% Stopwords 0,946 0,928 0,615 0,740 Stopwords Umum 0,946 0,935 0,653 0,769 Tanpa Stopwords 0,552 0,447 0,841 0,584 48 20% Stopwords 0,718 0,628 0,810 0,708 Stopwords Umum 0,545 0,441 0,841 0,579 Rata-Rata Tanpa Stopwords 0.825 0.783 0.643 0.652 20% Stopwords 0.88 0.844 0.629 0.691 Stopwords Umum 0.824 0.785 0.65 0.656 Berdasarkan hasil evaluasi eksperimen-eksperimen 2.5.3.4 Mean Reciprocal Rank (MRR) clustering pada tabel 3.2 diatas, dapat disimpulkan Mean reciprocal rank adalah rata-rata dari reciprocal bahwa: rank (RR) dari peringkat label benar yang pertama. Jika label benar yang pertama ada di peringkat ke tiga, 1. GA-HAC dengan menggunakan stopwords yang maka RR bernilai 1/3. Jika N respon pertama tidak umum tidak memberikan perubahan yang signifikan mengandung label yang benar, maka RR bernilai 0. dibandingkan dengan GA-HAC tanpa menggunakan RR bernilai 1 label benar yang pertama ada di stopwords, ini mengindikasikan penggunaan term peringkat ke satu. yang terlalu umum sebagai stopwords tidak memberikan banyak perubahan terhadap 2.5.3.5 Mean Total Reciprocal Rank (MTRR) diskriminasi dokumen dibandingkan dengan tidak Sebuah kategori dapat memiliki lebih dari satu aspek menggunakan stopwords sama sekali. yang benar, sebagai contoh, kategori "akupuntur dan 2. GA-HAC dengan menggunakan 20% stopwords pengobatan alternatif" memiliki dua aspek yang benar term paling sering muncul dari koleksi dokumen yaitu "akupuntur" dan "pengobatan alternatif". Jika yang diacu dapat memberikan diskriminasi hasil algoritma cluster labeling meranking dokumen yang lebih baik dalam proses clustering "akupuntur" dan "pengobatan alternatif" sebagai label dibandingkan dengan menggunakan stopwords yang ke 2 dan ke 4, maka nilai total reciprocal rank (TRR) terlalu umum dan tidak menggunakan stopwords adalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2. sama sekali. 3. Jumlah cluster yang paling sedikit yang juga hasil 3.4 Penilaian Kinerja Hasil Clustering evaluasi yang paling kecil didapatkan pada dengan GA-HAC clustering data jam ke 48. Hal yang menarik dari Pengukuran kinerja hasil clustering dokumen dengan hasil clustering data jam ke 48 ini adalah bahwa GA-HAC menggunakan metrik evaluasi Purity, penggunaan 20% stopwords menghasilkan jumlah Precision, Recall dan F1 dengan B-Cubed Metric. cluster yang paling mendekati dibandingkan dengan Eksperimen-eksperimen yang dilakukan pada penggunaan stopwords lain, dimana total cluster pengukuran kinerja hasil clustering dengan GA-HAC secara manual adalah 84 dan hasil clustering adalah: otomatis dengan 20% stopwords adalah 45, dua kali lipat dari jumlah cluster yang dihasilkan oleh  Tidak digunakannya pembuangan stopwords dalam penggunaan stopwords yang lain, 20 cluster (tanpa clustering (Tanpa Stopwords), stopwords) dan 22 cluster (stopwords umum).  Menggunakan daftar stopword yang digunakan pada 4. Hasil clustering dengan 20% stopwords yang penelitian efek stemming dalam information dihasilkan oleh pemotongan dendogram natural retrieval untuk Bahasa Indonesia [27] dengan 357 clustering memberikan nilai evaluasi F1 = 0,691 kata dari corpus Bahasa Indonesia umum dengan precision = 0,844 dan recall 0,629. Ini (Stopwords Umum). mengindikasikan bahwa hasil clustering yang  Menggunakan daftar stopwords yang diperoleh dari dihasilkan lebih memenuhi kebutuhan informasi koleksi seluruh dokumen penelitian dengan 20% web surfer umum daripada kebutuhan informasi term yang paling sering muncul (20% Stopwords). intelegent analyst. 7
  • 8. 3.5 Penilaian Kinerja Cluster Labeling  Cluster labeling dengan MI untuk 10 cluster hasil Pengukuran kinerja hasil cluster labeling GA-HAC yang memiliki jumlah dokumen menggunakan metrik evaluasi cluster labeling terbanyak. Treeratpituk dan Callan [28] dengan N = 5. Hasil 3.5.1 Penilaian Kinerja Cluster Labeling clustering yang digunakan sebagai acuan dalam dengan MI untuk seluruh Cluster cluster labeling adalah hasil clustering otomatis yang Penilaian kinerja cluster labeling dengan MI ini dihasilkan oleh GA-HAC dengan menggunakan 20% dilakukan untuk seluruh cluster termasuk seluruh term yang paling sering muncul sebagai stopwords. singleton cluster yang dihasilkan oleh algoritma Eksperimen-eksperimen yang dilakukan pada clustering GA-HAC dengan menggunakan 20% pengukuran kinerja hasil clustering labeling dengan stopwords. Hasil evaluasi cluster labeling dengan MI MI adalah: jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3  Cluster labeling dengan MI untuk seluruh cluster sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat hasil GA-HAC pada tabel 3.6. Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48 N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,019 0,038 0,050 0,063 0,076 Match@N 0,244 0,311 0,333 0,377 0,400 P@N 0,019 0,019 0,016 0,015 0,015 P@N 0,244 0,177 0,125 0,105 0,093 MRR 0,019 0,028 0,032 0,035 0,038 MRR 0,244 0,277 0,285 0,296 0,300 MTRR 0,019 0,028 0,032 0,035 0,038 MTRR 0,244 0,300 0,307 0,318 0,327 Partial Match Partial Match Match@N 0,246 0,398 0,493 0,550 0,607 Match@N 0,511 0,644 0,688 0,688 0,777 P@N 0,246 0,243 0,223 0,216 0,215 P@N 0,511 0,422 0,363 0,311 0,306 MRR 0,246 0,322 0,354 0,368 0,380 MRR 0,511 0,577 0,592 0,592 0,610 MTRR 0,246 0,367 0,428 0,477 0,519 MTRR 0,511 0,677 0,759 0,798 0,855 Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,024 0,049 0,057 0,082 0,090 Match@N 0,079 0,094 0,124 0,150 0,162 P@N 0,024 0,024 0,019 0,020 0,018 P@N 0,079 0,050 0,043 0,041 0,036 MRR 0,024 0,037 0,039 0,046 0,047 MRR 0,079 0,086 0,096 0,103 0,105 MTRR 0,024 0,037 0,039 0,046 0,047 MTRR 0,079 0,090 0,100 0,108 0,112 Partial Match Partial Match Match@N 0,206 0,355 0,429 0,512 0,578 Match@N 0,329 0,465 0,592 0,655 0,708 P@N 0,206 0,202 0,173 0,167 0,160 P@N 0,329 0,294 0,299 0,296 0,288 MRR 0,206 0,281 0,305 0,326 0,339 MRR 0,329 0,397 0,440 0,455 0,466 MTRR 0,206 0,305 0,344 0,381 0,408 MTRR 0,329 0,459 0,562 0,634 0,685 1 N=1 0.8 N=2 0.6 0.4 N=3 0.2 N=4 0 N=5 Match@N P@N MRR MTRR Match@N P@N MRR MTRR (Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial) Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata 8
  • 9. Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48 Cluster Label Cluster Label Cluster Nomor dan Judul Dokumen Berita Manual Otomatis 1 Penanganan Lamban, NII Berkembang 2 Pemerintah Diharapkan Tegas Atasi NII 3 Polisi Sudah Petakan Kantong-kantong NII 4 NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel 1. NII 1. NII 5 Waspadalah, Ini Kantong NII di Jakarta 2. NKRI 2. Negara Cluster 1 6 NII Jangan Hanya Dibebankan kepada Polri 3. Kampus Islam ... ... 4. Mahasiswa Indonesia 28 Kementerian Agama Redam Radikalisme Agama 5. Otak 29 PMII Tolak Ideologisasi Negara Islam 30 PBNU : Radikalisme di Indonesia Sudah "Lampu Merah" 31 PBNU : Perlu UU Antiterorisme yang Lebih Tajam 1 Dulu Bertanding, Kini Bersanding.... 1. Edhie 2 'Jangan Kaitkan Besanan SBY-Hatta dengan Politik' Baskoro 3 "Pertunangan Jangan Dikaitkan Politik!" 1. Edhie Yudhoyono 4 Ibas-Aliya Bukan Perjodohan Politik Baskoro 2. Siti Rubi Cluster 2 5 Pernikahan Ibas-Aliya Hasil Perjodohan Politik? Yudhoyono Aliya ... ... 2. Siti Ruby Rajasa 27 Pengamanan di Kediaman Hatta Diperketat Aliya Rajasa 3. Hatta 28 Acara Ibas-Aliya Bernuansa Pesta Kebun 4. Ibas 29 Saat Dirias, Aliya Degdegan 5. Pertunangan ... ... ... ... ... 1 Diknas: Tidak Ada Peserta UN Susulan Bojonegoro 2 312 Peserta UN di Jember Mengundurkan Diri 1. UN 1. UN 2. Sekolah 3 Ikut Ujian Nasional, Siswa SMP Barut Carter Kapal Cluster 14 2. Ujian 3. Siswa 4 Disdik Bekasi Jamin Tidak Ada Kebocoran Soal Nasional 4. SMP 5 Konflik SMA 70 Bulungan Sampai ke Pengadilan 5. Kabupaten 6 Mendiknas: 20 Daerah Belum Salurkan BOS ... ... ... ... ... Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas match P@N untuk N = 5 adalah 0,0368 dan nilai dapat disimpulkan bahwa: partial match P@N untuk N = 5 adalah 0,2880. Ini artinya untuk 100 cluster, dari seluruh 500 1. Nilai rata-rata exact match Match@N untuk N = 1 adalah 0,0791 dan nilai rata-rata partial match cluster label yang dihasilkan secara otomatis oleh Match@N untuk N = 1 adalah 0,3297. Ini artinya algoritma MI, algoritma ini secara rata-rata dapat untuk 100 cluster, dari 100 cluster label peringkat menghasilkan 18,4 cluster label yang benar secara pertama yang dihasilkan secara otomatis oleh exact match dan 144 cluster label yang benar algoritma MI, algoritma ini secara rata-rata dapat secara partial match. 4. Dari perbandingan antara jumlah cluster dengan memprediksi dengan benar label untuk 7,91 hasil yang diberikan oleh algoritma dari cluster secara exact match dan 32,97 cluster secara partial match. eksperimen ini, algoritma MI tidak memberikan 2. Nilai rata-rata exact match Match@N untuk N = 5 hasil yang memuaskan. adalah 0,1620 dan nilai rata-rata partial match Adapun hal yang menarik pada eksperimen ini adalah Match@N untuk N = 5 adalah 0,7081. Ini artinya hasil evaluasi cluster labeling pada jam ke 48, dimana untuk 100 cluster, dari 500 cluster label peringkat hampir seluruh metrik evaluasi bernilai lebih besar teratas yang dihasilkan secara otomatis oleh dibandingkan dengan hasil evaluasi cluster labeling algoritma MI, algoritma ini secara rata-rata dapat pada jam ke 24 dan 36. Perbedaan yang cukup memprediksi dengan benar label untuk 16,2 signifikan dari hasil evaluasi cluster labeling pada jam cluster secara exact match dan 70,81 cluster ke 48 ini ditambah lagi dengan perbedaan pada hasil secara partial match. evaluasi clustering, dimana pada hasil evaluasi 3. Kualitas label rata-rata yang dihasilkan dari hasil clustering data jam ke 48 menunjukkan nilai evaluasi diatas dilihat dari nilai evaluasi P@N. Nilai exact 9
  • 10. yang paling kecil dibandingkan dengan data pada jam- cluster yang hanya terdiri dari satu dokumen saja jam lainnya. memiliki jumlah frasa utama yang sedikit, hal tersebut Perbedaan ini juga terjadi pada jumlah cluster yang membuat penentuan frasa utama sebagai cluster label dihasilkan, dimana pada jam tersebut, jumlah cluster secara otomatis sulit dilakukan. Untuk itu dilakukan yang dihasilkan lebih sedikit dibandingkan dengan eksperimen lanjutan dengan meneliti kemampuan MI data pada jam lainnya. Hal tersebut menyebabkan tiap dalam cluster labeling secara otomatis untuk hanya 10 cluster dengan jumlah dokumen terbanyak. Statistik cluster pada jam ke 48 secara umum memiliki jumlah jumlah dokumen untuk 10 cluster dengan jumlah dokumen yang lebih banyak dibandingkan dengan hasil clustering pada jam-jam lainnya, jumlah dokumen terbanyak tersebut adalah: dokumen yang lebih banyak memungkinkan Tabel 3.8 Jumlah dokumen untuk 10 Cluster dengan pendeteksian frasa utama dapat dilakukan dengan jumlah dokumen terbanyak lebih baik karena jumlah frasa-frasa utama dari tiap Jam 10 Cluster Seluruh Cluster dokumen pada tiap cluster tersebut jumlahnya lebih 24 75 292 banyak. Untuk meneliti hal ini lebih mendalam, dilakukan ekperimen lanjutan yang hanya 36 96 288 menggunakan 10 cluster dengan jumlah dokumen 48 175 268 terbanyak dari tiap data jam ke 24, 36 dan 48. Eksperimen-eksperimen yang sama dilakukan seperti 3.5.2 Penilaian Kinerja Cluster Labeling pada pengukuran hasil kinerja cluster labeling untuk dengan MI untuk 10 Cluster Teratas seluruh cluster dari hasil clustering dengan GA-HAC. Mayoritas cluster yang dihasilkan oleh proses Hasil eksperimen cluster labeling dengan MI jam ke clustering otomatis GA-HAC berjenis singleton 24, 36 dan 48 dapat dilihat pada tabel 3.9 sampai cluster, yaitu cluster yang hanya terdiri dari satu dengan tabel 3.11, hasil eksperimen rata-rata dapat dokumen berita dan umumnya merupakan dokumen dilihat pada tabel 3.12. berita dengan topik yang tidak populer. Singleton Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48 N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,1 0,2 0,2 0,3 0,3 Match@N 0,5 0,7 0,7 0,7 0,7 P@N 0,1 0,1 0,067 0,075 0,06 P@N 0,5 0,45 0,3 0,225 0,18 MRR 0,1 0,15 0,15 0,175 0,175 MRR 0,5 0,6 0,6 0,6 0,6 MTRR 0,1 0,15 0,15 0,175 0,175 MTRR 0,5 0,7 0,7 0,7 0,7 Partial Match Partial Match Match@N 0,5 0,8 0,9 0,9 0,9 Match@N 0,8 0,9 0,9 0,9 0,9 P@N 0,5 0,5 0,4 0,375 0,34 P@N 0,8 0,75 0,567 0,425 0,38 MRR 0,5 0,65 0,683 0,683 0,683 MRR 0,8 0,85 0,85 0,85 0,85 MTRR 0,5 0,75 0,816 0,891 0,931 MTRR 0,8 1,15 1,216 1,216 1,256 Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36 10 Cluster Teratas N=1 N=2 N=3 N=4 N=5 N=1 N=2 N=3 N=4 N=5 Exact Match Exact Match Match@N 0,1 0,2 0,4 0,4 0,4 Match@N 0,233 0,366 0,433 0,466 0,466 P@N 0,1 0,1 0,133 0,1 0,08 P@N 0,233 0,216 0,166 0,133 0,106 MRR 0,1 0,15 0,216 0,216 0,216 MRR 0,233 0,3 0,322 0,330 0,330 MTRR 0,1 0,15 0,216 0,216 0,216 MTRR 0,233 0,333 0,355 0,363 0,363 Partial Match Partial Match Match@N 0,6 0,7 0,9 0,9 0,9 Match@N 0,633 0,8 0,9 0,9 0,9 P@N 0,6 0,45 0,367 0,35 0,28 P@N 0,633 0,566 0,444 0,383 0,333 MRR 0,6 0,65 0,716 0,716 0,716 MRR 0,633 0,716 0,75 0,75 0,75 MTRR 0,6 0,75 0,816 0,891 0,891 MTRR 0,633 0,883 0,95 1 1,026 10
  • 11. 1.2 N=1 1 N=2 0.8 0.6 N=3 0.4 N=4 0.2 0 N=5 Match@N P@N MRR MTRR Match@N P@N MRR MTRR (Exact) (Exact) (Exact) (Exact) (Partial) (Partial) (Partial) (Partial) Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster Teratas Berdasarkan hasil eksperimen untuk menemukan frasa performanya lebih baik saat jumlah dokumen utama pada 10 cluster dengan jumlah dokumen berita yang terkandung pada tiap cluster yang diproses terbanyak dapat disimpulkan bahwa: cukup banyak. 1. Nilai rata-rata exact match Match@N untuk N = 1 4 KESIMPULAN DAN SARAN adalah 0,2333 dan nilai rata-rata partial match Match@N untuk N = 1 adalah 0,6333. Ini artinya 4.1 Kesimpulan untuk 10 cluster, dari 10 cluster label peringkat Berdasarkan hasil penelitian, dapat disimpulkan pertama yang dihasilkan secara otomatis oleh beberapa hal berikut: algoritma MI, algoritma ini secara rata-rata dapat memprediksi dengan benar label untuk 2,333 1. Algoritma GA-HAC dengan TF-IDF, Vector cluster secara exact match dan 6,333 cluster Space Model, Cosine Similarity, penggunaan 20% secara partial match. stopwords dan Natural Clustering dapat 2. Nilai rata-rata exact match Match@N untuk N = 5 menghasilkan sekumpulan cluster yang berisi adalah 0,4667 dan nilai rata-rata partial match dokumen dengan topik berita yang sama dengan Match@N untuk N = 5 adalah 0,9. Ini artinya rata-rata nilai evaluasi F1 = 0,691 dengan untuk 10 cluster, dari 50 cluster label peringkat precision = 0,844 dan recall 0,629. Ini teratas yang dihasilkan secara otomatis oleh mengindikasikan bahwa hasil clustering yang algoritma MI, algoritma ini secara rata-rata dapat dihasilkan lebih memenuhi kebutuhan informasi memprediksi dengan benar label untuk 23,335 web surfer umum daripada kebutuhan informasi cluster secara exact match dan 45 cluster secara intelegent analyst. partial match. 2. Pemilihan frasa-frasa calon cluster label dengan 3. Kualitas label rata-rata yang dihasilkan dari hasil frasa kata benda hasil Part-of-Speech Tagger dan diatas dilihat dari nilai evaluasi P@N. Nilai exact algoritma Mutual Information yang match P@N untuk N = 5 adalah 0,1067 dan nilai dikombinasikan dengan Laplace Correction dapat partial match P@N untuk N = 5 adalah 0,3333. digunakan untuk menghasilkan cluster label yang Ini artinya untuk 10 cluster, dari seluruh 50 merepresentasikan dokumen-dokumen berita dari cluster label yang dihasilkan secara otomatis oleh tiap cluster dan bekerja paling baik saat jumlah algoritma MI, algoritma ini secara rata-rata dapat dokumen berita yang terkandung didalamnya menghasilkan 5,335 cluster label yang benar cukup banyak. secara exact match dan 16,65 cluster label yang 3. Jika topik-topik terpopuler ditentukan dengan benar secara partial match. jumlah dokumen yang terkandung pada tiap 4. Secara umum, nilai-nilai evaluasi cluster labeling cluster, maka kombinasi algoritma-algoritma yang membaik pada eksperimen dengan 10 cluster digunakan pada penelitian ini dapat digunakan dengan jumlah dokumen terbanyak, namun sama untuk mendefinisikan topik-topik berita seperti pada eksperimen cluster labeling untuk terpopuler saat itu, selain itu, dengan seluruh cluster, nilai terbesar evaluasi didapatkan digunakannya time window dan segmentasi pada data jam ke 48 yang jumlah dokumen pada koleksi dokumen, kebutuhan dalam pendefinisian 10 cluster teratasnya rata-rata berjumlah dua kali topik-topik terpopuler dapat dilakukan secara lipat dibandingkan data pada jam-jam lainnya. Hal dinamis baik untuk per-hari, per-minggu, per- ini menunjukkan bahwa jumlah dokumen bulan dan lain-lain. memiliki pengaruh dalam algoritma cluster labeling dengan Mutual Information dan 11
  • 12. 4.2 Saran Broadcast News Transcription and Solusi yang dikembangkan pada penelitian masih Understanding Workshop. 194-128. belum sempurna dan dapat dikembangkan dengan [2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007. penelitian-penelitian lanjutan. Adapun beberapa hal Klasifikasi Dokumen Berita Kejadian yang disarankan untuk penelitian lanjutan mengenai Berbahasa Indonesia dengan algoritma Single hal ini adalah: Pass Clustering. Surabaya, Indonesia: Institut 1. Karena jumlah dokumen berpengaruh dalam Teknologi Sepuluh November. menentukan hasil cluster labeling, maka [3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms disarankan untuk menggunakan jumlah dokumen for Scoring Coreference Chains. In The First yang lebih banyak pada penelitian lanjutan International Conference on Language mengenai cluster labeling. Resources and Evaluation Workshop on 2. Penentuan frasa-frasa calon cluster label pada Linguistics Coreference, pp. 563-566. penelitian ini dilakukan secara sederhana, yaitu dengan mengikut sertakan token yang memiliki [4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman. kelas kata NN atau NNP dari hasil Part-Of- 2005. A System for New Event Detection. Speech Tagger Penentuan frasa-frasa calon cluster California, USA: Palo Alto Research Center. label yang sederhana ini dapat menyebabkan [5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006. frasa-frasa kata benda yang bukan merupakan Emerging Topic Tracking System. Japan: The frasa penting disertakan sebagai calon cluster University of Tokyo. label. Salah satu pengembangan yang dapat [6] Chun, Seokkyung; Jun Jongeun; & Mc Leod, dilakukan untuk menentukan frasa-frasa calon Dennis. 2006. Incremental Mining for News cluster label adalah dengan menggunakan Stream. USA: University of Southern algoritma Named Entity Recognizer. California. 3. Penggunaan frasa-frasa untuk mewakili suatu topik kadang tidak cukup untuk menjelaskan isi [7] Ernawati, Sari; Ardiyanti, Arie ST, MT; & dokumen-dokumen berita pada suatu cluster Setiawan, Erwin Budi. 2009. Klusterisasi kepada pembaca berita, dibutuhkan deskripsi Dokumen Berita Berbahasa Indonesia lebih mendetail berupa sebuah kalimat singkat Menggunakan Document Index Graph. sehingga penjelasan isi dokumen-dokumen berita Yogyakarta, Indonesia: Seminar Nasional dapat dilakukan dengan lebih baik. Salah satu Aplikasi Teknologi Informasi 2009 (SNATI solusi yang dapat dikembangkan untuk 2009). permasalahan ini adalah dengan mengaplikasikan [8] Gustafsson, Johan. 2009. New Methods for algoritma document summarizer pada tiap cluster Generation and Evaluation of Text Cluster dokumen. Descriptions. Master’s Thesis, Royal Institute 4. Penggunaan time window yang tidak menyertakan of Technology, Stockholm, Sweeden. dokumen-dokumen yang melebihi batas waktu kadaluarsa menyebabkan tidak disertakannya [9] Han, Jiawei; & Kamber, Micheline. 2006. Data dokumen-dokumen tersebut dalam hasil Mining Concept and Techniques. San clustering. Ini menyebabkan hilangnya informasi Fransisco, USA: Morgan Kaufmann Publisher. masa lampau mengenai topik tersebut sehingga [10] Hastie, Trevor; Tibshirani, Robert; Friedman, penelusuran topik pada dokumen masa lampau Jerome (2010) “The Elements of Statistical tidak dapat dilakukan. Salah satu solusi yang Learning: Data Mining, Inference and dapat dikembangkan untuk mengatasi Prediction”. 2nd Edition, Springer. permasalahan ini adalah dengan menggunakan pembobotan term yang berkurang secara berkala, [11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008. dimana dokumen-dokumen pada masa lampau Event Detection with Common User Interest. diberikan faktor pembobotan yang lebih kecil Napa Valey, California, USA: WIDM 2008. dibandingkan dengan dokumen-dokumen yang [12] Huang, Anna. 2008. Similarity Measures for Text lebih baru. Document Clustering. Christchurch, New Zealand: Departement of Computer Science, DAFTAR PUSTAKA The University of Waikato, NZCSRSC 2008. [1] Allan, James; Carbonell, Jaime; Doddington, [13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling, George; Yamron, Jonathan; & Tang, Yiming. Charles X.; & Huang, Tiejun. 2006. Keyphrase 1998. Topic Detection and Tracking Pilot Study Extraction using Semantic Networks Structure Final Report. Proceedings of the DARPA Analysis. Proceedings of the sixth IEEE 12
  • 13. International Conference on Data Mining [25] Smet, Wim De; & Moens, Marie-Francine. 2009. (ICDM 2006), Hong Kong, 2006., pp. 257-284, An Aspect Based Document Representation for IEEE press. Event Clustering. Proceedings of the 19th [14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for Meeting of Computational Linguistics in the Clustering Data. Prentice Hall Advance Netherlands. Reference Series. Prentice Hall. [26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis. [15] Kontostathis, April; Galitsky, Leon M.; Yuma Pustaka, Kadipro, Surakarta. Pottenger; William M.; Roy, Soma; & Phelps, [27] Tala, Fadilla Z. 2003. A Study of Stemming Effect Daniel J. 1999. A Survey of Emerging Trend on Information Retrieval in Bahasa Indonesia. Detection in Textual Data Mining. Michael Master’s thesis, University of Amsterdam. Berry (Editor), Springer-Verlag, 2003. [28] Treeratpituk, Pucktada; & Callan, Jamie. 2006. [16] Leuski, Anton; & Allan, James. 2002. Improving Automatic Labeling Hierarchical Clusters. Realism of Topic Tracking Evaluation. Proceedings of the 2006 International Tampere, Finland: SIGIR 2002. Conference on Digital Government Research, [17] Manning, Christopher D.; Raghavan, Prabhakar; pp. 167-176, New York, NY, USA. & Schütze, Hinrich. 2009. An Introduction to [29] Turney, Peter D. 2001. Learning Algorithms for Information Retrieval. Cambridge, England: Keyphrase Extraction. NRC Publication Cambridge University Press. Archive. Published in J. Information Retrieval, [18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo; 2(4): 303-336; 2000. NCR 44105. National Research Council of Canada. Freitas, Fred; Rienaldo, Guilherme; & Prudêncio, Ricardo. 2008. Docs-Clustering: A [30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; & System for Hierarchical Clustering and Ru, Liyun. 2008. Automatic Online News Issue Document Labeling. Proceedings I Workshop Construction in Web Environment. Beijing, on Web and Text Intelligence 2008. China: State Key Lab of Intelligent Technology & Systems, Tainghua National Laboratory for [19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss, Information Science and Technology, CS&T Dawid. 2004. Lingo: Search Results Clustering Departement, Tainghua University. Algorithm Based on Singular Value Decomposition. Proceedings of the [31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006. International Conference on Intelligent Clustering Berita Berbahasa Indonesia. Jurnal Information Systems (IIPWM), 2004. FPMIPA UPI dan KK Informatika ITB. Bandung, Indonesia. [20] Pon, Raymond K.; Buttler, David; & Critchlow, Terence. 2007. Tracking Multiple Topics for [32] Wicaksono, Alfan Farizki; & Purwanti, Ayu. Finding Interesting Articles. San Jose, 2010. HMM Based Part-of-Speech Tagger for California, USA: KDD 2007. Bahasa Indonesia. Proceedings The Forth [21] Rijsbergen, Keith van. 2004. The Geometry of International MALINDO Workshop. Jakarta, Indonesia. Information Retrieval. New York, USA: Cambridge University Press. [33] Zhao, Ying; & Karyapis, George. 2002. Evaluation of Hierarchical Clustering [22] Roy, Soma; Gevry, David; & Pottenger, William M. 2006. Methodologies for Trend Detection in Algorithm for Document Datasets. McLean, Textual Data Mining. USA: Leight University. Virginia, USA: CIKM 2002. [23] Salton, G; Wong, A; & Yang, C.S. 1975. A [34] Zhao, Ying; & Karyapis, George. 2002. Criterion Vector Space Model for Automatic Indexing. Functions for Document Clustering, Experiment and Analysis. Minneapolis, USA: Communication of the ACM, Information Departement of Computer Science, University Retrieval and Language Processing, C.A. Montgomery Editor. of Minnesota / Army HPC Research Center. [24] Salton, Gerard; & Buckley, Christopher. 1988, Term-Weighting Aproaches in Automatic Text Retrieval. Ithaca, USA: Departement of Computer Science, Cornell University. 13