1. PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN
METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUK
PENCARIAN DOKUMEN BERBAHASA INDONESIA
MEISYA FITRI
(D03106038)
4 Februari 2013
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS TANJUNGPURA
2013
2. Latar Belakang
Diperlukan
Sistem Temu
Balik Informasi
(Information Retrieval)
3. Latar belakang
• Pembobotan kata diharapkan dapatjuga
Penambahan istilah pada query menemukan
kembali informasi yang paling relevan dengan
diperlukan untuk meningkatkan performa
indeks istilah terbaik.
pencarian
• Metode pembobotan kata berdasarkan
Informasi berupa dokumen teks yang
kombinasi TF-IDF memberikan bobot lebih
tersedia di internet memiliki banyak variasi.
kepada istilah yang lebih penting.
Fokus utama penelitian ini, berupa temu
Oleh karena itu diperlukan suatu sistem
dokumen hasil crawling dari situs informasi
balik informasi yang mampu mencari
berita, tanpa menutup kemungkinan untuk
berdasarkan bentuk Natural Language Processing
melakukan pencarian terhadap dokumen
(NLP) dari kata kunci pencarian
hasil crawling dari situs lain.
4. Perumusan Masalah
Bagaimana merancang sistem temu balik informasi
yang mampu mencari informasi yang dibutuhkan
secara efektif dan efisien berdasarkan bentuk Natural
Language Processing (NLP) dari kata kunci pencarian
dengan memberikan bobot pada setiap kata dengan
metode pembobotan kombinasi TF-IDF, dan
menampilkan serta mengurutkan data yang paling
relevan terhadap kata kunci pencarian.
5. Tujuan Penelitian
Menghasilkan suatu sistem temu balik informasi
khususnya berita yang didalamnya terdapat
proses pengumpulan dokumen, pembobotan
kata dan pencarian dokumen dengan
menggunakan metode pembobotan kombinasi
TF-IDF sehingga dapat ditemukan informasi
yang dibutuhkan dengan efektif dan efisien.
6. Pembatasan Masalah
Penelitian ini difokuskan pada proses
pengumpulan dokumen dan pencarian dokumen
dengan menggunakan metode pembobotan kata.
Tipe dokumen yang digunakan adalah dokumen
berita hasil crawling dari beberapa situs berita yang
telah ditentukan yaitu www.detik.com,
www.antaranews.com, pontianak.tribunnews.com.
Dokumen yang digunakan hanya dokumen yang
berbahasa Indonesia.
7. Metodologi Penelitian
Bahan Penelitian
Bahan penelitian yang digunakan
berupa berita hasil crawling website
penyedia berita yang telah ditentukan
sebelumnya yaitu www.detik.com,
www.antaranews.com,
pontianak.tribunnews.com.
8. Metodologi Penelitian
Alat Penelitian
Penelitian
Entity Relationship Diagram (ERD), untuk
Metode Crawling Dokumen, untuk menggambarkan
proses dan komponen yang digunakan dalam
menjelaskan hubungan antardata dalam basis
crawling dokumen.
data berdasarkan objek-objek dasar data yang
mempunyai hubungan antarrelasi.
Metode Indexing Dokumen, untuk menggambarkan
Data Flow komponen yang digunakan dalam
proses dan Diagram (DFD), untuk
indexing dokumen. Dalam indexing dokumen
menggambarkan pembobotan kombinasi TF-IDF
digunakan metode aliran data pada sistem yang
terdirimenghasilkan index yang akan digunakan
untuk dari dua bagian utama yaitu sistem input
data dan sistem analisis data
dalam pencarian.
Metode Searching Dokumen, untuk menggambarkan
proses dan komponen yang digunakan dalam
searching dokumen.
9. Metodologi Penelitian
Perangkat Lunak
Sistem operasi Windows 7 Professional
Apache Tomcat Version 6.0.26 sebagai
web server
Bahasa pemograman JSP
Basisdata MySQL 5.0.27
Notepad++ sebagai aplikasi untuk
source code editor
Netbean 6.9.1
10. Mulai
Diagram Studi Literartur
Alir
Penelitian Analisis Sistem
Pengembangan
Perancangan
Aplikasi
Sistem
Tahap
Pengujian Sistem
tidak
Sesuai Dengan
Perancangan
ya
Kesimpulan
Selesai
11. (1)
Tinjauan Pustaka
Sistem Temu Balik Informasi (Information
Retrieval)
digunakan untuk menemukan kembali (retrieve) secara otomatis informasi- informasi yang
relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi (Hadhiatma, 2010).
Crawler
Crawler merupakan program yang berjalan secara otomatis, berisi script program yang
melakukan crawling melalui halaman website untuk mengumpulkan data berdasarkan indeks
dari halaman web yang ditemukan (Sasongko, 2010). Tujuan dari crawler adalah dengan cepat
dan efisien mengumpulkan banyak informasi dari halaman web yang berguna, berikut dengan
struktur link yang terkoneksi dengan halaman web tersebut.
Indexing
proses membangun basis data indeks dari koleksi dokumen (Bunyamin, 2008).
TF
diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen
IDF
merupakan banyaknya istilah tertentu dalam keseluruhan dokumen
12. Arsitektur
Sistem
WEB User
Result Query
User
Query
Interface
Searcher Expansion
Crawler
Dokumen Indexed
Indexer Searcher Stemmer
Directory
Stemmer
13. Perancangan Perangkat Lunak
Diagram Konteks
Data Admin
Kata Dasar
Kata kunci pencarian Stop Word
Sistem Temu Tesaurus
User Balik Admin
Informasi
Hasil Pencarian
14. Perancangan Perangkat Lunak
Diagram Overview
Hak Akses
url
Hak Akses
Admin
2.0
Dokumen
Crawling Berita
url
Username Perintah Indexing
Username Dokumen
Password Password
1.0 nama
Admin
Login
Data Admin
Hak Akses Kata Dasar Kata Dasar 3.0
Data Admin KataDasar
Indexing
Kata Dasar
Stop Word
Tesaurus Stop Word
Stop Word
StopList
4.0
Manipulasi Tesaurus
Tesaurus
Data Data index
Sinonim
Hasil Pencarian
Stop Word
Kata Dasar
5.0
User
Searching
IndexedDirectory
Data index
Kata kunci pencarian
15. Perancangan Perangkat Lunak 2.1
Baca Daftar 1.0
Situs Hak Akses
Diagram Rinci Proses Crawling
url
url 3.0
Perintah Indexing
metadata
2.3 2.2
Ekstraksi Link Mulai Crawling
2.6
url
metadata Ekstraksi Berita
validasi
2.4 berita
Cek Link
validasi 2.7
url
Cek Berita
url
2.5
Simpan Link berita
2.8
Dokumen
berita Simpan Berita
16. Perancangan Perangkat Lunak
Dokumen
Dokumen 3.1
Membaca
Dokumen
Diagram Rinci Proses Indexing
Berita
Perintah Indexing
url
teks
1.0
Hak Akses
2.0 3.2
Tokenisasi
4.0 Kata kata
Stop word
Stop word 3.3
StopList Eliminasi Stop
Word
Kata dasar Kata kata
Kata dasar 3.4 Kata kata
KataDasar
Stemming
Kata kata dasar
3.5
Pembobotan IndexedDirectory
Kata Data index
17. Perancangan Perangkat Lunak
User
5.1
Membaca Kata
Kata kunci 5.2
Tokenisasi
Diagram Rinci pencarian
Kata kunci
Proses Searching Kunci
4.0 4.0 StopList Kata kata
Stop word
Stop word
Sinonim
Kata dasar
5.3
Hasil Pencarian
Data index Eliminasi Stop
Word
IndexedDirectory KataDasar Tesaurus
Kata kata
Kata dasar
Data index
sinonim
Kata kata dasar
sinonim 5.4
5.6 5.5
Query
Pencarian Stemming
Kata kata Expansion
sinonim
Kata kata
sinonim
18. Perancangan Perangkat Lunak
Entity Relationship Diagram (ERD)
Id_admin Hyperlink Isi Judul
M
Admin mengumpulkan Dokumen
1
1
URL Judul Isi
Index
M
Membuat Indexed Directory Mencari Pengguna
M
1
19. Hasil Perancangan
Sistem temu balik informasi yang dirancang
memiliki proses utama berupa penemuan
kembali dokumen berita dari website penyedia
berita online.
Berita yang dikenali dari judul, repoter, tanggal
dan isi berita. Berita yang telah dikenali dapat
diproses dan diindeks untuk mengenali varian
morfologik dari istilah-istilah yang terdapat
dalam berita.
Kata yang memiliki banyak varian morfologik
diproses untuk mendapatkan kata dasar tanpa
stop word.
20. Pengujian White Box
Prosedur Pembobotan kata
1
Jalur 1 : 1-7
Jalur 2 : 1-2-3-4-6-1-7
Jalur 3 : 1-2-4-6-1-7
2
Jalur 4 : 1-2-4-5-6-1-7
3 4 Cyclomatic Complexity
Region Edge– predict
5 6 node+2 node+1
7
4 9–7+2 3+1 = 4
=4
21. Indexing Mode Non Stem
Indexing Mode Stem
Pengujian Pembobotan Kata
Jumlah
Dokum Jumlah
Dokumen
Jumlah
en
Kata Kunci Recall Precision dokumen NIAP
dengan Indexing Mode Stem
Relevan
dalam
Relevan
ditemukan
ditemukan
Koleksi Non Non Non Non Non
Stem Stem Stem Stem Stem
Stem Stem Stem Stem Stem
Penculikan
anak 5 5 5 35 34 1.0000 1.0000 0.1429 0.1471 0.1868
0.2108 0.2087
0.2308
Pendidikan
SMA 5 5 5 15 15 1.0000 1.0000 0.3333 0.3333 1.0000 0.9429
Korupsi 1
1 1 1 2
1 1 2 1
1 1.0000
1.0000 1.0000
1.0000 0.5000
0.5000 1.0000
1.0000 1.0000
1.0000 1.0000
1.0000
Dahlan
Dahlan
Iskan
1
1 1 1 1
1 1 1 1
1 1.0000
1.0000 1.0000
1.0000 1.0000
1.0000 1.0000
1.0000 1.0000
1.0000 1.0000
1.0000
Iskan
Banjir
Banjir
Jakarta
15 15 15 41 41
15 15 15 41 41 1.0000
1.0000 1.0000
1.0000 0.3659
0.3659 0.3659
0.3659 0.8956
0.8956 0.7763
0.7763
Jakarta
22. Analisis Hasil Pengujian
Pengujian pada sistem temu balik informasi dengan
menggunakan metode white box berhasil dilakukan
dengan error nol, dimana setiap statement pada
program telah dieksekusi paling tidak satu kali
selama pengujian dan semua kondisi logis telah diuji
dan berhasil.
Pencarian dokumen dengan kata kunci akan
menampilkan semua dokumen yang mengandung
kata kunci dan menampilkan dokumen paling
relevan ke urutan teratas.
Sistem dapat menemukan semua dokumen relevan.
Indexing non stem lebih baik dalam ketepatan
mengurutkan dokumen relevan.
23. Kesimpulan
Sistemdapat melakukan proses pencarian dan
Proses indexing mengumpulkan dokumen
Sistem mampu dapat membantu proses
menemukan informasi crawling menjadi lebih
berita melalui proses yang relevan berdasarkan
penemuan kembali dokumen website dan
hasil pengujian yang dilakukan pencarian
memberikan bobot dengan pada 5 kata
efisien dengan dilakukannya
kunci. Data hasil pengujian menghasilkan nilai
terhadap dokumen index bahwa pembobotan
mengimplementasikan metode semua
recall 1 yang menunjukkan yang telah memiliki
bobot dokumen.
kata dengan metode kombinasi Tf-Idf secara
dokumen yang relevan dapat ditemukan sistem
lengkap precision antara 0.1429 dan 1 yang
dan nilai sehingga lebih banyak data relevan
menunjukkan terdapat dokumen lain selain
yang dapat diperhitungkan dalam pencarian.
dokumen relevan yang ikut ditemukan oleh
sistem. Nilai NIAP yang dihasilkan mencapai nilai
1 yang menunjukkan sistem dapat mengurutkan
dokumen relevan ke dalam urutan hasil
pencarian teratas.
24. Saran
Perlu tambahan extractor berita
Perlu penyempurnaan extractor berita yang sudah
ada
Dibuat suatu sistem untuk mengolah pengumpulan
dokumen dari website yang mampu menangani
dokumen dalam jumlah yang tak terbatas dengan
penggunaan perangkat keras yang terdistribusi.
Perlu penyempurnaan teknik query expansion
dengan menambahakan tesaurus yang lebih
lengkap, sehingga kata hasil dari proses ini memiliki
makna dari sebuah kata.