SlideShare a Scribd company logo
1 of 5
Download to read offline
1
Ilustrasi Preprocessing & Searching Dalam Text Mining
Berikut ini adalah proses keseluruhan dari Text Mining, mencakup Pre-Processing dan Perhitungan
(Searching) Kemiripan antara Query dengan Daftar Dokumen.
A. Preprocessing Terhadap Daftar Dokumen
1. Langkah 1: Mengekstrak Teks
Misalnya terdapat 3 Dokumen seperti di bawah ini:
2. Langkah 2: Menghilangkan Stop Words
3. Langkah 3: Ubah semua kata ke huruf kecil
2
4. Langkah 4: Stemming
5. Langkah 5: Menghitung Frekuensi Kata dari setiap Dokumen (TF)
6. Langkah 6: Membuat File Index
3
7. Langkah 7: Membuat Model Ruang Vektor
8. Langkah 8: Menghitung Inverse Document Frequency (IDF)
9. Langkah 9: Menghitung Bobot dari Setiap Kata (TF*IDF)
4
10. Langkah 10: Normalkan Semua Dokumen ke Panjang Unit
Contoh Perhitungan Normalisasi:
B. Penanganan Query
Bagaimana Query ditangani? Hampir sama dengan preprocessing dokumen (bukan query), kemudian
hitung kemiripan antara query dengan dokumen yang telah dipreprocess juga. Berikut ini adalah
apa yang harus dilakukan jika terdapat query “interested in interesting data and text”:
Query Awal : (interested in interesting data and text)
1. Langkah 1: Hilangkan semua stop word: (interested interesting data text)
2. Langkah 2: Stemming: (interest interest data text)
3. Langkah 3: Hilangkan duplikasi: (interest data text)
4. Langkah 4: Bangun suatu model ruang vektor: (0, 1, 1, 0, 0, 0, 1)
5. Langkah 5: Hitung bobot dari setiap kata: (0, 0, 0.477, 0, 0, 0, 0.176)
6. Langkah 6: Normalkan model ruang vektor: (0, 0, 0.938, 0, 0, 0, 0.346)
Ingat tabel index dan bobot dari 3 dokumen yang telah dipreprocess?
5
7. Hitung kemiripan antara Query dan Daftar Dokumen menggunaan metode Cosine Similarity.
Kesimpulan: Mengembalikan Dokumen #3
C. Soal Latihan
Diberikan suatu query “W4 W5” dan koleksi 3 dokumen berikut:
 Dokumen 1: <W1 W2 W3 W4 W5 >
 Dokumen 2: <W6 W7 W4 W5>
 Dokumen 3: <W8 W3 W9 W4 W10>
Gunakan model ruang vektor (VSM), skema pembobotan TF/IDF, dan ukuran kemiripan vektor Cosine untuk
mendapatkan dokumen yang paling relevan terhadap query tersebut!
Sumber awal: http://itee.uq.edu.au/%7Einfs4203/Lecture/Lesson07_Text_Mining_2011.pdf

More Related Content

What's hot

Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...
Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...
Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...tsaniaardhani
 
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...Rofi Faishal
 
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...dede jumadi
 
Bab 1 abstraksi_tipe_data
Bab 1 abstraksi_tipe_dataBab 1 abstraksi_tipe_data
Bab 1 abstraksi_tipe_dataarii_manroe
 
Abstraksi tipe data
Abstraksi tipe dataAbstraksi tipe data
Abstraksi tipe dataFahuda E
 
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017Ria Andriani
 
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...febyratnasari
 

What's hot (9)

Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...
Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...
Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...
 
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...
Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...
 
Sorting insert binary
Sorting insert binarySorting insert binary
Sorting insert binary
 
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...
Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...
 
Struktur data modul_2
Struktur data modul_2Struktur data modul_2
Struktur data modul_2
 
Bab 1 abstraksi_tipe_data
Bab 1 abstraksi_tipe_dataBab 1 abstraksi_tipe_data
Bab 1 abstraksi_tipe_data
 
Abstraksi tipe data
Abstraksi tipe dataAbstraksi tipe data
Abstraksi tipe data
 
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017
Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017
 
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...
Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...
 

Similar to 25524 24 preprocessing searching dalam text mining

WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...Ainul Yaqin
 
D3 mi modul_ppbd_maret2013
D3 mi modul_ppbd_maret2013D3 mi modul_ppbd_maret2013
D3 mi modul_ppbd_maret2013Saybia Himma
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo
 
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...Lintang Kejora
 
Prak paksantolshareya
Prak paksantolshareyaPrak paksantolshareya
Prak paksantolshareyaDedi Jannery
 
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...wahyudiyanto
 
Materi 1 kelas x integrasi office all 3 pertemuan
Materi 1 kelas x integrasi office all 3 pertemuanMateri 1 kelas x integrasi office all 3 pertemuan
Materi 1 kelas x integrasi office all 3 pertemuanahdisusanto1
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptbukanyusup13
 
P.4. mengenal program spss
P.4. mengenal program spssP.4. mengenal program spss
P.4. mengenal program spssfatur12345
 
Bab 6 analisis data.pptx
Bab 6 analisis data.pptxBab 6 analisis data.pptx
Bab 6 analisis data.pptxEDR20081
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Fariszal Nova
 
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018Rahmah siti
 
Forum dan Kuis SIM Minggu ke 6
Forum dan Kuis SIM Minggu ke 6Forum dan Kuis SIM Minggu ke 6
Forum dan Kuis SIM Minggu ke 6Lidya Septiani
 
Excell dan access
Excell dan accessExcell dan access
Excell dan accessRizki Mala
 
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQLPanduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQLDoni Tobing
 

Similar to 25524 24 preprocessing searching dalam text mining (20)

WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...
 
D3 mi modul_ppbd_maret2013
D3 mi modul_ppbd_maret2013D3 mi modul_ppbd_maret2013
D3 mi modul_ppbd_maret2013
 
Forum 6
Forum 6Forum 6
Forum 6
 
Struktur data
Struktur dataStruktur data
Struktur data
 
Visualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan NetlyticsVisualisasi Data Kualitatif dengan Netlytics
Visualisasi Data Kualitatif dengan Netlytics
 
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...
Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...
 
Prak paksantolshareya
Prak paksantolshareyaPrak paksantolshareya
Prak paksantolshareya
 
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...
 
Materi 1 kelas x integrasi office all 3 pertemuan
Materi 1 kelas x integrasi office all 3 pertemuanMateri 1 kelas x integrasi office all 3 pertemuan
Materi 1 kelas x integrasi office all 3 pertemuan
 
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptPPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt
 
Modul web php
Modul web phpModul web php
Modul web php
 
P.4. mengenal program spss
P.4. mengenal program spssP.4. mengenal program spss
P.4. mengenal program spss
 
Bab 6 analisis data.pptx
Bab 6 analisis data.pptxBab 6 analisis data.pptx
Bab 6 analisis data.pptx
 
Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1Materi kuliah-sistem-basis-data1
Materi kuliah-sistem-basis-data1
 
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018
Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018
 
Forum dan Kuis SIM Minggu ke 6
Forum dan Kuis SIM Minggu ke 6Forum dan Kuis SIM Minggu ke 6
Forum dan Kuis SIM Minggu ke 6
 
Excell dan access
Excell dan accessExcell dan access
Excell dan access
 
Excell dan access
Excell dan accessExcell dan access
Excell dan access
 
Presentasi bab 5
Presentasi bab 5Presentasi bab 5
Presentasi bab 5
 
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQLPanduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL
Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL
 

More from Universitas Bina Darma Palembang

More from Universitas Bina Darma Palembang (20)

30448 pertemuan1
30448 pertemuan130448 pertemuan1
30448 pertemuan1
 
29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))29510 pertemuan18(form method-get-post-dan-session(1))
29510 pertemuan18(form method-get-post-dan-session(1))
 
28501 pertemuan14(php)
28501 pertemuan14(php)28501 pertemuan14(php)
28501 pertemuan14(php)
 
28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)28500 pertemuan22(header dokumen html dgn tag title)
28500 pertemuan22(header dokumen html dgn tag title)
 
25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)25437 pertemuan25(hitcounter)
25437 pertemuan25(hitcounter)
 
23921 pertemuan 3
23921 pertemuan 323921 pertemuan 3
23921 pertemuan 3
 
19313 pertemuan6
19313 pertemuan619313 pertemuan6
19313 pertemuan6
 
18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)18759 pertemuan20(web html editor)
18759 pertemuan20(web html editor)
 
18040 pertemuan13(css)
18040 pertemuan13(css)18040 pertemuan13(css)
18040 pertemuan13(css)
 
17945 pertemuan5
17945 pertemuan517945 pertemuan5
17945 pertemuan5
 
16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)16406 pertemuan17(konsep basis-data-di-web)
16406 pertemuan17(konsep basis-data-di-web)
 
15294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah015294 pertemuan9(eksplorasi &defenisi masalah0
15294 pertemuan9(eksplorasi &defenisi masalah0
 
13926 pertemuan4
13926 pertemuan413926 pertemuan4
13926 pertemuan4
 
12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)12738 pertemuan 15(php lanjutan)
12738 pertemuan 15(php lanjutan)
 
6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)6346 pertemuan21(web statis dengan struktur html)
6346 pertemuan21(web statis dengan struktur html)
 
5623 pertemuan11(html1)
5623 pertemuan11(html1)5623 pertemuan11(html1)
5623 pertemuan11(html1)
 
4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)4740 pertemuan8(komponen dalam web)
4740 pertemuan8(komponen dalam web)
 
4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)4075 pertemuan10 (analisa kebutuhan)
4075 pertemuan10 (analisa kebutuhan)
 
2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)2670 pertemuan12(html lanjut)
2670 pertemuan12(html lanjut)
 
2190 pertemuan24(polling)
2190 pertemuan24(polling)2190 pertemuan24(polling)
2190 pertemuan24(polling)
 

Recently uploaded

SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehBISMIAULIA
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2
 
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxmariaboisala21
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiCristianoRonaldo185977
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanBungaCitraNazwaAtin
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173
 
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsSOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsedyardy
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili
 
manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1YudiPradipta
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Surveikustiyantidew94
 

Recently uploaded (12)

SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehSKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh
 
415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok415418921-statistika- mean media modus data tunggal dan data kelompok
415418921-statistika- mean media modus data tunggal dan data kelompok
 
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptxMARIA NOVILIA BOISALA FASILITATOR PMM.pptx
MARIA NOVILIA BOISALA FASILITATOR PMM.pptx
 
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiManajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi
 
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanVULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan
 
PPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptxPPT Olah Nilai Kurikulum merdeka belajar.pptx
PPT Olah Nilai Kurikulum merdeka belajar.pptx
 
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxMATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx
 
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsSOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms
 
kesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptxkesalahan tipe 1 dan 2 pada statistik.pptx
kesalahan tipe 1 dan 2 pada statistik.pptx
 
pertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.pptpertemuan-3-distribusi pada-frekuensi.ppt
pertemuan-3-distribusi pada-frekuensi.ppt
 
manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1manajemen analisis data export data epidata 3.1
manajemen analisis data export data epidata 3.1
 
Metode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau SurveiMetode penelitian Deskriptif atau Survei
Metode penelitian Deskriptif atau Survei
 

25524 24 preprocessing searching dalam text mining

  • 1. 1 Ilustrasi Preprocessing & Searching Dalam Text Mining Berikut ini adalah proses keseluruhan dari Text Mining, mencakup Pre-Processing dan Perhitungan (Searching) Kemiripan antara Query dengan Daftar Dokumen. A. Preprocessing Terhadap Daftar Dokumen 1. Langkah 1: Mengekstrak Teks Misalnya terdapat 3 Dokumen seperti di bawah ini: 2. Langkah 2: Menghilangkan Stop Words 3. Langkah 3: Ubah semua kata ke huruf kecil
  • 2. 2 4. Langkah 4: Stemming 5. Langkah 5: Menghitung Frekuensi Kata dari setiap Dokumen (TF) 6. Langkah 6: Membuat File Index
  • 3. 3 7. Langkah 7: Membuat Model Ruang Vektor 8. Langkah 8: Menghitung Inverse Document Frequency (IDF) 9. Langkah 9: Menghitung Bobot dari Setiap Kata (TF*IDF)
  • 4. 4 10. Langkah 10: Normalkan Semua Dokumen ke Panjang Unit Contoh Perhitungan Normalisasi: B. Penanganan Query Bagaimana Query ditangani? Hampir sama dengan preprocessing dokumen (bukan query), kemudian hitung kemiripan antara query dengan dokumen yang telah dipreprocess juga. Berikut ini adalah apa yang harus dilakukan jika terdapat query “interested in interesting data and text”: Query Awal : (interested in interesting data and text) 1. Langkah 1: Hilangkan semua stop word: (interested interesting data text) 2. Langkah 2: Stemming: (interest interest data text) 3. Langkah 3: Hilangkan duplikasi: (interest data text) 4. Langkah 4: Bangun suatu model ruang vektor: (0, 1, 1, 0, 0, 0, 1) 5. Langkah 5: Hitung bobot dari setiap kata: (0, 0, 0.477, 0, 0, 0, 0.176) 6. Langkah 6: Normalkan model ruang vektor: (0, 0, 0.938, 0, 0, 0, 0.346) Ingat tabel index dan bobot dari 3 dokumen yang telah dipreprocess?
  • 5. 5 7. Hitung kemiripan antara Query dan Daftar Dokumen menggunaan metode Cosine Similarity. Kesimpulan: Mengembalikan Dokumen #3 C. Soal Latihan Diberikan suatu query “W4 W5” dan koleksi 3 dokumen berikut:  Dokumen 1: <W1 W2 W3 W4 W5 >  Dokumen 2: <W6 W7 W4 W5>  Dokumen 3: <W8 W3 W9 W4 W10> Gunakan model ruang vektor (VSM), skema pembobotan TF/IDF, dan ukuran kemiripan vektor Cosine untuk mendapatkan dokumen yang paling relevan terhadap query tersebut! Sumber awal: http://itee.uq.edu.au/%7Einfs4203/Lecture/Lesson07_Text_Mining_2011.pdf