SlideShare a Scribd company logo
1 of 25
PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN
   METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUK
    PENCARIAN DOKUMEN BERBAHASA INDONESIA



                 MEISYA FITRI
                  (D03106038)




                  4 Februari 2013
       PROGRAM STUDI TEKNIK INFORMATIKA
               FAKULTAS TEKNIK
           UNIVERSITAS TANJUNGPURA
                       2013
Latar Belakang
      Diperlukan
  Sistem Temu
 Balik Informasi
 (Information Retrieval)
Latar belakang
• Pembobotan kata diharapkan dapatjuga
 Penambahan istilah pada query menemukan
  kembali informasi yang paling relevan dengan
  diperlukan untuk meningkatkan performa
  indeks istilah terbaik.
  pencarian
• Metode pembobotan kata berdasarkan
 Informasi berupa dokumen teks yang
  kombinasi TF-IDF memberikan bobot lebih
  tersedia di internet memiliki banyak variasi.
  kepada istilah yang lebih penting.
  Fokus utama penelitian ini, berupa temu
 Oleh karena itu diperlukan suatu sistem
  dokumen hasil crawling dari situs informasi
  balik informasi yang mampu mencari
  berita, tanpa menutup kemungkinan untuk
  berdasarkan bentuk Natural Language Processing
  melakukan pencarian terhadap dokumen
  (NLP) dari kata kunci pencarian
 hasil crawling dari situs lain.
Perumusan Masalah
 Bagaimana merancang sistem temu balik informasi
  yang mampu mencari informasi yang dibutuhkan
  secara efektif dan efisien berdasarkan bentuk Natural
  Language Processing (NLP) dari kata kunci pencarian
  dengan memberikan bobot pada setiap kata dengan
  metode pembobotan kombinasi TF-IDF, dan
  menampilkan serta mengurutkan data yang paling
  relevan terhadap kata kunci pencarian.
Tujuan Penelitian

 Menghasilkan suatu sistem temu balik informasi
 khususnya berita yang didalamnya terdapat
 proses pengumpulan dokumen, pembobotan
 kata dan pencarian dokumen dengan
 menggunakan metode pembobotan kombinasi
 TF-IDF sehingga dapat ditemukan informasi
 yang dibutuhkan dengan efektif dan efisien.
Pembatasan Masalah

 Penelitian ini difokuskan pada proses
  pengumpulan dokumen dan pencarian dokumen
  dengan menggunakan metode pembobotan kata.
 Tipe dokumen yang digunakan adalah dokumen
  berita hasil crawling dari beberapa situs berita yang
  telah ditentukan yaitu www.detik.com,
  www.antaranews.com, pontianak.tribunnews.com.
 Dokumen yang digunakan hanya dokumen yang
  berbahasa Indonesia.
Metodologi Penelitian

Bahan Penelitian
 Bahan penelitian yang digunakan
 berupa berita hasil crawling website
 penyedia berita yang telah ditentukan
 sebelumnya yaitu www.detik.com,
 www.antaranews.com,
 pontianak.tribunnews.com.
Metodologi Penelitian
Alat Penelitian
     Penelitian
 Entity Relationship Diagram (ERD), untuk
  Metode Crawling Dokumen, untuk menggambarkan
  proses dan komponen yang digunakan dalam
  menjelaskan hubungan antardata dalam basis
  crawling dokumen.
  data berdasarkan objek-objek dasar data yang
 mempunyai hubungan antarrelasi.
  Metode Indexing Dokumen, untuk menggambarkan
 Data Flow komponen yang digunakan dalam
  proses dan Diagram (DFD), untuk
  indexing dokumen. Dalam indexing dokumen
  menggambarkan pembobotan kombinasi TF-IDF
  digunakan metode aliran data pada sistem yang
  terdirimenghasilkan index yang akan digunakan
  untuk dari dua bagian utama yaitu sistem input
  data dan sistem analisis data
  dalam pencarian.
 Metode Searching Dokumen, untuk menggambarkan
  proses dan komponen yang digunakan dalam
  searching dokumen.
Metodologi Penelitian
Perangkat Lunak
 Sistem operasi Windows 7 Professional
 Apache Tomcat Version 6.0.26 sebagai
  web server
 Bahasa pemograman JSP
 Basisdata MySQL 5.0.27
 Notepad++ sebagai aplikasi untuk
  source code editor
 Netbean 6.9.1
Mulai

Diagram                     Studi Literartur

Alir
Penelitian                  Analisis Sistem




             Pengembangan
                            Perancangan
                              Aplikasi




                Sistem
                 Tahap
                            Pengujian Sistem



                                              tidak
                              Sesuai Dengan
                               Perancangan




                                      ya

                            Kesimpulan

                               Selesai
(1)
      Tinjauan Pustaka

       Sistem Temu Balik Informasi (Information
        Retrieval)
           digunakan untuk menemukan kembali (retrieve) secara otomatis informasi- informasi yang
            relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi (Hadhiatma, 2010).

       Crawler
           Crawler merupakan program yang berjalan secara otomatis, berisi script program yang
            melakukan crawling melalui halaman website untuk mengumpulkan data berdasarkan indeks
            dari halaman web yang ditemukan (Sasongko, 2010). Tujuan dari crawler adalah dengan cepat
            dan efisien mengumpulkan banyak informasi dari halaman web yang berguna, berikut dengan
            struktur link yang terkoneksi dengan halaman web tersebut.

       Indexing
           proses membangun basis data indeks dari koleksi dokumen (Bunyamin, 2008).

       TF
           diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen

       IDF
           merupakan banyaknya istilah tertentu dalam keseluruhan dokumen
Arsitektur
Sistem
 WEB                            User

               Result                Query
                           User
                                           Query
                         Interface
                         Searcher        Expansion
 Crawler


  Dokumen               Indexed
            Indexer                      Searcher    Stemmer
                        Directory


 Stemmer
Perancangan Perangkat Lunak
Diagram Konteks



                                            Data Admin
                                            Kata Dasar
       Kata kunci pencarian                 Stop Word
                              Sistem Temu   Tesaurus
User                               Balik                 Admin
                                Informasi
          Hasil Pencarian
Perancangan Perangkat Lunak
Diagram Overview
                                                                                                          Hak Akses


                                                                                    url
                                         Hak Akses
            Admin
                                                              2.0
                                                                                               Dokumen
                                                            Crawling          Berita
                                                                               url


       Username                                                            Perintah Indexing
                                      Username                                                     Dokumen
       Password                       Password
                       1.0              nama
                                                              Admin
                      Login
                                              Data Admin


                          Hak Akses        Kata Dasar                      Kata Dasar             3.0
      Data Admin                                            KataDasar
                                                                                               Indexing
      Kata Dasar
      Stop Word
      Tesaurus                               Stop Word
                                                                            Stop Word
                                                             StopList


                       4.0
                    Manipulasi                   Tesaurus
                                                             Tesaurus
                      Data                                                                           Data index


                                                             Sinonim
                                 Hasil Pencarian

                                                                        Stop Word

                                                                           Kata Dasar
                                                               5.0
                      User
                                                            Searching
                                                                                           IndexedDirectory
                                                                            Data index


                                 Kata kunci pencarian
Perancangan Perangkat Lunak                  2.1
                                         Baca Daftar                            1.0
                                            Situs                 Hak Akses
Diagram Rinci Proses Crawling
        url



                                                url                             3.0

                                                            Perintah Indexing
                         metadata
             2.3                          2.2
        Ekstraksi Link              Mulai Crawling


                                                                             2.6
                   url
                                                        metadata       Ekstraksi Berita

                         validasi
                2.4                                                              berita
              Cek Link

                                                       validasi             2.7
                   url
                                                                         Cek Berita

                         url
            2.5
        Simpan Link                                                               berita




                                                                           2.8
                               Dokumen
                                                        berita         Simpan Berita
Perancangan Perangkat Lunak
                 Dokumen
                                  Dokumen           3.1
                                                  Membaca
                                                  Dokumen
Diagram Rinci Proses Indexing
             Berita
                             Perintah Indexing
              url
                                                        teks
                                                                                     1.0
                                                                       Hak Akses

                   2.0                              3.2
                                                 Tokenisasi


                            4.0                         Kata kata
           Stop word


                                  Stop word          3.3
                 StopList                      Eliminasi Stop
                                                   Word


    Kata dasar                                          Kata kata



                                  Kata dasar         3.4                 Kata kata
             KataDasar
                                                  Stemming


                                    Kata kata dasar



                                                    3.5
                                                 Pembobotan                   IndexedDirectory
                                                    Kata        Data index
Perancangan Perangkat Lunak
   User
                                                    5.1
                                                Membaca Kata
                                                                             Kata kunci                  5.2
                                                                                                      Tokenisasi
Diagram Rinci pencarian
         Kata kunci
                    Proses Searching               Kunci




                             4.0                4.0                         StopList             Kata kata
                                                         Stop word


                                                                                         Stop word
                                                                        Sinonim
                                                  Kata dasar
                                                                                                           5.3
      Hasil Pencarian
                                   Data index                                                        Eliminasi Stop
                                                                                                         Word



               IndexedDirectory                       KataDasar                   Tesaurus
                                                                                                             Kata kata

                                                           Kata dasar
              Data index
                                                                                       sinonim
                        Kata kata dasar
                           sinonim                                                                       5.4
    5.6                                                  5.5
                                                                                                        Query
 Pencarian                                            Stemming
                                                                             Kata kata                Expansion
                                                                              sinonim
                                   Kata kata
                                    sinonim
Perancangan Perangkat Lunak
  Entity Relationship Diagram (ERD)
Id_admin                      Hyperlink        Isi            Judul


                                   M
 Admin             mengumpulkan             Dokumen
           1




 1
                        URL         Judul            Isi
           Index



                                                                                M
Membuat                                   Indexed Directory           Mencari       Pengguna
                                                               M
                   1
Hasil Perancangan

  Sistem temu balik informasi yang dirancang
   memiliki proses utama berupa penemuan
   kembali dokumen berita dari website penyedia
   berita online.
  Berita yang dikenali dari judul, repoter, tanggal
   dan isi berita. Berita yang telah dikenali dapat
   diproses dan diindeks untuk mengenali varian
   morfologik dari istilah-istilah yang terdapat
   dalam berita.
  Kata yang memiliki banyak varian morfologik
   diproses untuk mendapatkan kata dasar tanpa
   stop word.
Pengujian White Box
 Prosedur Pembobotan kata

    1
                    Jalur 1 : 1-7
                    Jalur 2 : 1-2-3-4-6-1-7
                    Jalur 3 : 1-2-4-6-1-7
        2
                    Jalur 4 : 1-2-4-5-6-1-7
    3       4        Cyclomatic Complexity
                     Region Edge– predict
        5       6           node+2 node+1
        7
                       4     9–7+2 3+1 = 4
                              =4
Indexing Mode Non Stem
                                              Indexing Mode Stem
   Pengujian Pembobotan Kata
             Jumlah
             Dokum       Jumlah
                       Dokumen
                                        Jumlah
               en
Kata Kunci          Recall Precision   dokumen                                            NIAP
   dengan Indexing Mode Stem
             Relevan
              dalam
                        Relevan
                       ditemukan
                                      ditemukan

             Koleksi          Non           Non             Non               Non               Non
                       Stem          Stem          Stem              Stem              Stem
                              Stem          Stem            Stem              Stem              Stem

Penculikan
anak           5       5 5 35 34                   1.0000   1.0000   0.1429   0.1471   0.1868
                                                                                       0.2108   0.2087
                                                                                                0.2308



Pendidikan
SMA            5       5 5 15 15                   1.0000   1.0000   0.3333   0.3333   1.0000   0.9429



Korupsi        1
               1       1 1 2
                       1 1 2                1
                                            1      1.0000
                                                   1.0000   1.0000
                                                            1.0000   0.5000
                                                                     0.5000   1.0000
                                                                              1.0000   1.0000
                                                                                       1.0000   1.0000
                                                                                                1.0000


Dahlan
Dahlan
Iskan
               1
               1       1 1 1
                       1 1 1                1
                                            1      1.0000
                                                   1.0000   1.0000
                                                            1.0000   1.0000
                                                                     1.0000   1.0000
                                                                              1.0000   1.0000
                                                                                       1.0000   1.0000
                                                                                                1.0000
Iskan
Banjir
Banjir
Jakarta
              15 15 15 41 41
              15 15 15 41 41                       1.0000
                                                   1.0000   1.0000
                                                            1.0000   0.3659
                                                                     0.3659   0.3659
                                                                              0.3659   0.8956
                                                                                       0.8956   0.7763
                                                                                                0.7763
Jakarta
Analisis Hasil Pengujian

 Pengujian pada sistem temu balik informasi dengan
  menggunakan metode white box berhasil dilakukan
  dengan error nol, dimana setiap statement pada
  program telah dieksekusi paling tidak satu kali
  selama pengujian dan semua kondisi logis telah diuji
  dan berhasil.
 Pencarian dokumen dengan kata kunci akan
  menampilkan semua dokumen yang mengandung
  kata kunci dan menampilkan dokumen paling
  relevan ke urutan teratas.
 Sistem dapat menemukan semua dokumen relevan.
 Indexing non stem lebih baik dalam ketepatan
  mengurutkan dokumen relevan.
Kesimpulan
 Sistemdapat melakukan proses pencarian dan
  Proses indexing mengumpulkan dokumen
  Sistem mampu dapat membantu proses
  menemukan informasi crawling menjadi lebih
  berita melalui proses yang relevan berdasarkan
  penemuan kembali dokumen website dan
  hasil pengujian yang dilakukan pencarian
  memberikan bobot dengan pada 5 kata
  efisien dengan dilakukannya
  kunci. Data hasil pengujian menghasilkan nilai
  terhadap dokumen index bahwa pembobotan
  mengimplementasikan metode semua
  recall 1 yang menunjukkan   yang telah memiliki
  bobot dokumen.
  kata dengan metode kombinasi Tf-Idf secara
  dokumen yang relevan dapat ditemukan sistem
  lengkap precision antara 0.1429 dan 1 yang
  dan nilai sehingga lebih banyak data relevan
  menunjukkan terdapat dokumen lain selain
  yang dapat diperhitungkan dalam pencarian.
  dokumen relevan yang ikut ditemukan oleh
  sistem. Nilai NIAP yang dihasilkan mencapai nilai
  1 yang menunjukkan sistem dapat mengurutkan
  dokumen relevan ke dalam urutan hasil
  pencarian teratas.
Saran
 Perlu tambahan extractor berita
 Perlu penyempurnaan extractor berita yang sudah
  ada
 Dibuat suatu sistem untuk mengolah pengumpulan
  dokumen dari website yang mampu menangani
  dokumen dalam jumlah yang tak terbatas dengan
  penggunaan perangkat keras yang terdistribusi.
 Perlu penyempurnaan teknik query expansion
  dengan menambahakan tesaurus yang lebih
  lengkap, sehingga kata hasil dari proses ini memiliki
  makna dari sebuah kata.
SEKIAN DAN TERIMA KASIH

 Senin, 4 Februari 2013
 18.45-Selesai

More Related Content

Viewers also liked

Presentation seminar proposal TA
Presentation seminar proposal TAPresentation seminar proposal TA
Presentation seminar proposal TAIan March
 
Seminar proposal penelitian
Seminar proposal penelitianSeminar proposal penelitian
Seminar proposal penelitianQueen Anaqi
 
Powerpoint Ujian Skripsi (www.gurupantura.com)
Powerpoint Ujian Skripsi (www.gurupantura.com)Powerpoint Ujian Skripsi (www.gurupantura.com)
Powerpoint Ujian Skripsi (www.gurupantura.com)Abdul Wahab
 
Power Point Skripsi Syahripel
Power Point Skripsi SyahripelPower Point Skripsi Syahripel
Power Point Skripsi SyahripelSyahripel Syahfez
 
Power point sidang skripsi
Power point sidang skripsiPower point sidang skripsi
Power point sidang skripsiYunitha Rahmah
 
Presentation tugas akhir
Presentation tugas akhirPresentation tugas akhir
Presentation tugas akhirSìskä Clalü
 
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIK
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIKPOWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIK
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIKIca Diennissa
 
Powerpoint sidang proposal
Powerpoint sidang proposalPowerpoint sidang proposal
Powerpoint sidang proposalRomli Muhajir
 
Contoh Presentasi Tugas Akhir
Contoh Presentasi Tugas AkhirContoh Presentasi Tugas Akhir
Contoh Presentasi Tugas AkhirAgus Nurwahyudi
 
Power point seminar proposal yunita rahmah
Power point seminar proposal yunita rahmahPower point seminar proposal yunita rahmah
Power point seminar proposal yunita rahmahYunitha Rahmah
 
Contoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang BagusContoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang BagusTrisnadi Wijaya
 
Contoh Power Point Hasil Penelitian
Contoh Power Point Hasil PenelitianContoh Power Point Hasil Penelitian
Contoh Power Point Hasil PenelitianIndra IR
 

Viewers also liked (13)

Presentation seminar proposal TA
Presentation seminar proposal TAPresentation seminar proposal TA
Presentation seminar proposal TA
 
Seminar proposal penelitian
Seminar proposal penelitianSeminar proposal penelitian
Seminar proposal penelitian
 
Powerpoint Ujian Skripsi (www.gurupantura.com)
Powerpoint Ujian Skripsi (www.gurupantura.com)Powerpoint Ujian Skripsi (www.gurupantura.com)
Powerpoint Ujian Skripsi (www.gurupantura.com)
 
Power Point Skripsi Syahripel
Power Point Skripsi SyahripelPower Point Skripsi Syahripel
Power Point Skripsi Syahripel
 
Power point sidang skripsi
Power point sidang skripsiPower point sidang skripsi
Power point sidang skripsi
 
Presentation tugas akhir
Presentation tugas akhirPresentation tugas akhir
Presentation tugas akhir
 
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIK
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIKPOWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIK
POWER POINT SIDANG SKRIPSI TENTANG PELAYANAN PUBLIK
 
Powerpoint sidang proposal
Powerpoint sidang proposalPowerpoint sidang proposal
Powerpoint sidang proposal
 
Contoh Presentasi Tugas Akhir
Contoh Presentasi Tugas AkhirContoh Presentasi Tugas Akhir
Contoh Presentasi Tugas Akhir
 
Power point seminar proposal yunita rahmah
Power point seminar proposal yunita rahmahPower point seminar proposal yunita rahmah
Power point seminar proposal yunita rahmah
 
Ppt sidang skripsi
Ppt sidang skripsiPpt sidang skripsi
Ppt sidang skripsi
 
Contoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang BagusContoh Slide Presentasi Proposal Penelitian yang Bagus
Contoh Slide Presentasi Proposal Penelitian yang Bagus
 
Contoh Power Point Hasil Penelitian
Contoh Power Point Hasil PenelitianContoh Power Point Hasil Penelitian
Contoh Power Point Hasil Penelitian
 

Similar to Presentasi sidang dream searchengine

dewi nur laili X TB.docx
dewi nur laili X TB.docxdewi nur laili X TB.docx
dewi nur laili X TB.docxKentekanKalimat
 
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...Ainul Yaqin
 
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...Ainul Yaqin
 
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxWeek 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxMuhamadGilang15
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptbukanyusup13
 
Pertemuan-3-Pengantar-Sistem-Basis-Data.ppt
Pertemuan-3-Pengantar-Sistem-Basis-Data.pptPertemuan-3-Pengantar-Sistem-Basis-Data.ppt
Pertemuan-3-Pengantar-Sistem-Basis-Data.pptwildanmoch
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptNikoEstradiyanto1
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptNikoEstradiyanto1
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptPutriDewintari1
 
Slide-INF106-INF106-Slide-01.ppt
Slide-INF106-INF106-Slide-01.pptSlide-INF106-INF106-Slide-01.ppt
Slide-INF106-INF106-Slide-01.pptafidatulmasbakhah1
 
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...yenny yoris
 
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...Achmad Lukman Harun
 
Basis data dan gudang data
Basis data dan gudang dataBasis data dan gudang data
Basis data dan gudang datalulus nugraha
 
Pengantar sistem
Pengantar sistemPengantar sistem
Pengantar sistemtasinit
 

Similar to Presentasi sidang dream searchengine (20)

dewi nur laili X TB.docx
dewi nur laili X TB.docxdewi nur laili X TB.docx
dewi nur laili X TB.docx
 
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...
Aplikasi User Interface Discovery Untuk Mengukur Akurasi Query Pada Interface...
 
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
 
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptxWeek 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
Week 10. Preprocessing Teks Temu Balik Dokumen Teks.pptx
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
 
Pertemuan-3-Pengantar-Sistem-Basis-Data.ppt
Pertemuan-3-Pengantar-Sistem-Basis-Data.pptPertemuan-3-Pengantar-Sistem-Basis-Data.ppt
Pertemuan-3-Pengantar-Sistem-Basis-Data.ppt
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
 
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.pptSlide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
Slide-INF106-Pertemuan-1-Pengantar-Sistem-Basis-Data.ppt
 
Slide-INF106-INF106-Slide-01.ppt
Slide-INF106-INF106-Slide-01.pptSlide-INF106-INF106-Slide-01.ppt
Slide-INF106-INF106-Slide-01.ppt
 
Kuliah i sbd
Kuliah i sbdKuliah i sbd
Kuliah i sbd
 
1._Pengantar_BasisData_.ppt
1._Pengantar_BasisData_.ppt1._Pengantar_BasisData_.ppt
1._Pengantar_BasisData_.ppt
 
4.basis data
4.basis data4.basis data
4.basis data
 
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...
Sipi yenny farlina yoris hapzi ali_e_dasar dasar intelijen business_universit...
 
Login.hotspot.bsi
Login.hotspot.bsiLogin.hotspot.bsi
Login.hotspot.bsi
 
Pertemuan 1
Pertemuan 1Pertemuan 1
Pertemuan 1
 
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...
SI & PI 5, Achmad Lukman Harun, Hapzi Ali,Dasar-Dasar Intelegensi Bisnis Basi...
 
Basis data dan gudang data
Basis data dan gudang dataBasis data dan gudang data
Basis data dan gudang data
 
Pengantar sistem
Pengantar sistemPengantar sistem
Pengantar sistem
 
File sistem01
File sistem01File sistem01
File sistem01
 

Presentasi sidang dream searchengine

  • 1. PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUK PENCARIAN DOKUMEN BERBAHASA INDONESIA MEISYA FITRI (D03106038) 4 Februari 2013 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS TANJUNGPURA 2013
  • 2. Latar Belakang Diperlukan Sistem Temu Balik Informasi (Information Retrieval)
  • 3. Latar belakang • Pembobotan kata diharapkan dapatjuga  Penambahan istilah pada query menemukan kembali informasi yang paling relevan dengan diperlukan untuk meningkatkan performa indeks istilah terbaik. pencarian • Metode pembobotan kata berdasarkan  Informasi berupa dokumen teks yang kombinasi TF-IDF memberikan bobot lebih tersedia di internet memiliki banyak variasi. kepada istilah yang lebih penting. Fokus utama penelitian ini, berupa temu  Oleh karena itu diperlukan suatu sistem dokumen hasil crawling dari situs informasi balik informasi yang mampu mencari berita, tanpa menutup kemungkinan untuk berdasarkan bentuk Natural Language Processing melakukan pencarian terhadap dokumen (NLP) dari kata kunci pencarian hasil crawling dari situs lain.
  • 4. Perumusan Masalah  Bagaimana merancang sistem temu balik informasi yang mampu mencari informasi yang dibutuhkan secara efektif dan efisien berdasarkan bentuk Natural Language Processing (NLP) dari kata kunci pencarian dengan memberikan bobot pada setiap kata dengan metode pembobotan kombinasi TF-IDF, dan menampilkan serta mengurutkan data yang paling relevan terhadap kata kunci pencarian.
  • 5. Tujuan Penelitian  Menghasilkan suatu sistem temu balik informasi khususnya berita yang didalamnya terdapat proses pengumpulan dokumen, pembobotan kata dan pencarian dokumen dengan menggunakan metode pembobotan kombinasi TF-IDF sehingga dapat ditemukan informasi yang dibutuhkan dengan efektif dan efisien.
  • 6. Pembatasan Masalah  Penelitian ini difokuskan pada proses pengumpulan dokumen dan pencarian dokumen dengan menggunakan metode pembobotan kata.  Tipe dokumen yang digunakan adalah dokumen berita hasil crawling dari beberapa situs berita yang telah ditentukan yaitu www.detik.com, www.antaranews.com, pontianak.tribunnews.com.  Dokumen yang digunakan hanya dokumen yang berbahasa Indonesia.
  • 7. Metodologi Penelitian Bahan Penelitian  Bahan penelitian yang digunakan berupa berita hasil crawling website penyedia berita yang telah ditentukan sebelumnya yaitu www.detik.com, www.antaranews.com, pontianak.tribunnews.com.
  • 8. Metodologi Penelitian Alat Penelitian Penelitian  Entity Relationship Diagram (ERD), untuk Metode Crawling Dokumen, untuk menggambarkan proses dan komponen yang digunakan dalam menjelaskan hubungan antardata dalam basis crawling dokumen. data berdasarkan objek-objek dasar data yang  mempunyai hubungan antarrelasi. Metode Indexing Dokumen, untuk menggambarkan  Data Flow komponen yang digunakan dalam proses dan Diagram (DFD), untuk indexing dokumen. Dalam indexing dokumen menggambarkan pembobotan kombinasi TF-IDF digunakan metode aliran data pada sistem yang terdirimenghasilkan index yang akan digunakan untuk dari dua bagian utama yaitu sistem input data dan sistem analisis data dalam pencarian.  Metode Searching Dokumen, untuk menggambarkan proses dan komponen yang digunakan dalam searching dokumen.
  • 9. Metodologi Penelitian Perangkat Lunak  Sistem operasi Windows 7 Professional  Apache Tomcat Version 6.0.26 sebagai web server  Bahasa pemograman JSP  Basisdata MySQL 5.0.27  Notepad++ sebagai aplikasi untuk source code editor  Netbean 6.9.1
  • 10. Mulai Diagram Studi Literartur Alir Penelitian Analisis Sistem Pengembangan Perancangan Aplikasi Sistem Tahap Pengujian Sistem tidak Sesuai Dengan Perancangan ya Kesimpulan Selesai
  • 11. (1) Tinjauan Pustaka  Sistem Temu Balik Informasi (Information Retrieval)  digunakan untuk menemukan kembali (retrieve) secara otomatis informasi- informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi (Hadhiatma, 2010).  Crawler  Crawler merupakan program yang berjalan secara otomatis, berisi script program yang melakukan crawling melalui halaman website untuk mengumpulkan data berdasarkan indeks dari halaman web yang ditemukan (Sasongko, 2010). Tujuan dari crawler adalah dengan cepat dan efisien mengumpulkan banyak informasi dari halaman web yang berguna, berikut dengan struktur link yang terkoneksi dengan halaman web tersebut.  Indexing  proses membangun basis data indeks dari koleksi dokumen (Bunyamin, 2008).  TF  diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen  IDF  merupakan banyaknya istilah tertentu dalam keseluruhan dokumen
  • 12. Arsitektur Sistem WEB User Result Query User Query Interface Searcher Expansion Crawler Dokumen Indexed Indexer Searcher Stemmer Directory Stemmer
  • 13. Perancangan Perangkat Lunak Diagram Konteks Data Admin Kata Dasar Kata kunci pencarian Stop Word Sistem Temu Tesaurus User Balik Admin Informasi Hasil Pencarian
  • 14. Perancangan Perangkat Lunak Diagram Overview Hak Akses url Hak Akses Admin 2.0 Dokumen Crawling Berita url Username Perintah Indexing Username Dokumen Password Password 1.0 nama Admin Login Data Admin Hak Akses Kata Dasar Kata Dasar 3.0 Data Admin KataDasar Indexing Kata Dasar Stop Word Tesaurus Stop Word Stop Word StopList 4.0 Manipulasi Tesaurus Tesaurus Data Data index Sinonim Hasil Pencarian Stop Word Kata Dasar 5.0 User Searching IndexedDirectory Data index Kata kunci pencarian
  • 15. Perancangan Perangkat Lunak 2.1 Baca Daftar 1.0 Situs Hak Akses Diagram Rinci Proses Crawling url url 3.0 Perintah Indexing metadata 2.3 2.2 Ekstraksi Link Mulai Crawling 2.6 url metadata Ekstraksi Berita validasi 2.4 berita Cek Link validasi 2.7 url Cek Berita url 2.5 Simpan Link berita 2.8 Dokumen berita Simpan Berita
  • 16. Perancangan Perangkat Lunak Dokumen Dokumen 3.1 Membaca Dokumen Diagram Rinci Proses Indexing Berita Perintah Indexing url teks 1.0 Hak Akses 2.0 3.2 Tokenisasi 4.0 Kata kata Stop word Stop word 3.3 StopList Eliminasi Stop Word Kata dasar Kata kata Kata dasar 3.4 Kata kata KataDasar Stemming Kata kata dasar 3.5 Pembobotan IndexedDirectory Kata Data index
  • 17. Perancangan Perangkat Lunak User 5.1 Membaca Kata Kata kunci 5.2 Tokenisasi Diagram Rinci pencarian Kata kunci Proses Searching Kunci 4.0 4.0 StopList Kata kata Stop word Stop word Sinonim Kata dasar 5.3 Hasil Pencarian Data index Eliminasi Stop Word IndexedDirectory KataDasar Tesaurus Kata kata Kata dasar Data index sinonim Kata kata dasar sinonim 5.4 5.6 5.5 Query Pencarian Stemming Kata kata Expansion sinonim Kata kata sinonim
  • 18. Perancangan Perangkat Lunak Entity Relationship Diagram (ERD) Id_admin Hyperlink Isi Judul M Admin mengumpulkan Dokumen 1 1 URL Judul Isi Index M Membuat Indexed Directory Mencari Pengguna M 1
  • 19. Hasil Perancangan  Sistem temu balik informasi yang dirancang memiliki proses utama berupa penemuan kembali dokumen berita dari website penyedia berita online.  Berita yang dikenali dari judul, repoter, tanggal dan isi berita. Berita yang telah dikenali dapat diproses dan diindeks untuk mengenali varian morfologik dari istilah-istilah yang terdapat dalam berita.  Kata yang memiliki banyak varian morfologik diproses untuk mendapatkan kata dasar tanpa stop word.
  • 20. Pengujian White Box  Prosedur Pembobotan kata 1 Jalur 1 : 1-7 Jalur 2 : 1-2-3-4-6-1-7 Jalur 3 : 1-2-4-6-1-7 2 Jalur 4 : 1-2-4-5-6-1-7 3 4 Cyclomatic Complexity Region Edge– predict 5 6 node+2 node+1 7 4 9–7+2 3+1 = 4 =4
  • 21. Indexing Mode Non Stem Indexing Mode Stem Pengujian Pembobotan Kata Jumlah Dokum Jumlah Dokumen Jumlah en Kata Kunci Recall Precision dokumen NIAP dengan Indexing Mode Stem Relevan dalam Relevan ditemukan ditemukan Koleksi Non Non Non Non Non Stem Stem Stem Stem Stem Stem Stem Stem Stem Stem Penculikan anak 5 5 5 35 34 1.0000 1.0000 0.1429 0.1471 0.1868 0.2108 0.2087 0.2308 Pendidikan SMA 5 5 5 15 15 1.0000 1.0000 0.3333 0.3333 1.0000 0.9429 Korupsi 1 1 1 1 2 1 1 2 1 1 1.0000 1.0000 1.0000 1.0000 0.5000 0.5000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 Dahlan Dahlan Iskan 1 1 1 1 1 1 1 1 1 1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 Iskan Banjir Banjir Jakarta 15 15 15 41 41 15 15 15 41 41 1.0000 1.0000 1.0000 1.0000 0.3659 0.3659 0.3659 0.3659 0.8956 0.8956 0.7763 0.7763 Jakarta
  • 22. Analisis Hasil Pengujian  Pengujian pada sistem temu balik informasi dengan menggunakan metode white box berhasil dilakukan dengan error nol, dimana setiap statement pada program telah dieksekusi paling tidak satu kali selama pengujian dan semua kondisi logis telah diuji dan berhasil.  Pencarian dokumen dengan kata kunci akan menampilkan semua dokumen yang mengandung kata kunci dan menampilkan dokumen paling relevan ke urutan teratas.  Sistem dapat menemukan semua dokumen relevan.  Indexing non stem lebih baik dalam ketepatan mengurutkan dokumen relevan.
  • 23. Kesimpulan  Sistemdapat melakukan proses pencarian dan Proses indexing mengumpulkan dokumen Sistem mampu dapat membantu proses menemukan informasi crawling menjadi lebih berita melalui proses yang relevan berdasarkan penemuan kembali dokumen website dan hasil pengujian yang dilakukan pencarian memberikan bobot dengan pada 5 kata efisien dengan dilakukannya kunci. Data hasil pengujian menghasilkan nilai terhadap dokumen index bahwa pembobotan mengimplementasikan metode semua recall 1 yang menunjukkan yang telah memiliki bobot dokumen. kata dengan metode kombinasi Tf-Idf secara dokumen yang relevan dapat ditemukan sistem lengkap precision antara 0.1429 dan 1 yang dan nilai sehingga lebih banyak data relevan menunjukkan terdapat dokumen lain selain yang dapat diperhitungkan dalam pencarian. dokumen relevan yang ikut ditemukan oleh sistem. Nilai NIAP yang dihasilkan mencapai nilai 1 yang menunjukkan sistem dapat mengurutkan dokumen relevan ke dalam urutan hasil pencarian teratas.
  • 24. Saran  Perlu tambahan extractor berita  Perlu penyempurnaan extractor berita yang sudah ada  Dibuat suatu sistem untuk mengolah pengumpulan dokumen dari website yang mampu menangani dokumen dalam jumlah yang tak terbatas dengan penggunaan perangkat keras yang terdistribusi.  Perlu penyempurnaan teknik query expansion dengan menambahakan tesaurus yang lebih lengkap, sehingga kata hasil dari proses ini memiliki makna dari sebuah kata.
  • 25. SEKIAN DAN TERIMA KASIH Senin, 4 Februari 2013 18.45-Selesai