25524 24 preprocessing searching dalam text mining

•

0 likes•794 views

Universitas Bina Darma Palembang

DATA MINING

Data & Analytics

1
Ilustrasi Preprocessing & Searching Dalam Text Mining
Berikut ini adalah proses keseluruhan dari Text Mining, mencakup Pre-Processing dan Perhitungan
(Searching) Kemiripan antara Query dengan Daftar Dokumen.
A. Preprocessing Terhadap Daftar Dokumen
1. Langkah 1: Mengekstrak Teks
Misalnya terdapat 3 Dokumen seperti di bawah ini:
2. Langkah 2: Menghilangkan Stop Words
3. Langkah 3: Ubah semua kata ke huruf kecil

2
4. Langkah 4: Stemming
5. Langkah 5: Menghitung Frekuensi Kata dari setiap Dokumen (TF)
6. Langkah 6: Membuat File Index

3
7. Langkah 7: Membuat Model Ruang Vektor
8. Langkah 8: Menghitung Inverse Document Frequency (IDF)
9. Langkah 9: Menghitung Bobot dari Setiap Kata (TF*IDF)

4
10. Langkah 10: Normalkan Semua Dokumen ke Panjang Unit
Contoh Perhitungan Normalisasi:
B. Penanganan Query
Bagaimana Query ditangani? Hampir sama dengan preprocessing dokumen (bukan query), kemudian
hitung kemiripan antara query dengan dokumen yang telah dipreprocess juga. Berikut ini adalah
apa yang harus dilakukan jika terdapat query “interested in interesting data and text”:
Query Awal : (interested in interesting data and text)
1. Langkah 1: Hilangkan semua stop word: (interested interesting data text)
2. Langkah 2: Stemming: (interest interest data text)
3. Langkah 3: Hilangkan duplikasi: (interest data text)
4. Langkah 4: Bangun suatu model ruang vektor: (0, 1, 1, 0, 0, 0, 1)
5. Langkah 5: Hitung bobot dari setiap kata: (0, 0, 0.477, 0, 0, 0, 0.176)
6. Langkah 6: Normalkan model ruang vektor: (0, 0, 0.938, 0, 0, 0, 0.346)
Ingat tabel index dan bobot dari 3 dokumen yang telah dipreprocess?

5
7. Hitung kemiripan antara Query dan Daftar Dokumen menggunaan metode Cosine Similarity.
Kesimpulan: Mengembalikan Dokumen #3
C. Soal Latihan
Diberikan suatu query “W4 W5” dan koleksi 3 dokumen berikut:
 Dokumen 1: <W1 W2 W3 W4 W5 >
 Dokumen 2: <W6 W7 W4 W5>
 Dokumen 3: <W8 W3 W9 W4 W10>
Gunakan model ruang vektor (VSM), skema pembobotan TF/IDF, dan ukuran kemiripan vektor Cosine untuk
mendapatkan dokumen yang paling relevan terhadap query tersebut!
Sumber awal: http://itee.uq.edu.au/%7Einfs4203/Lecture/Lesson07_Text_Mining_2011.pdf

What's hot

Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...tsaniaardhani

Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...Rofi Faishal

Sorting insert binaryMateri Kuliah Online

Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...dede jumadi

Struktur data modul_2Syaiful Rahman

Bab 1 abstraksi_tipe_dataarii_manroe

Abstraksi tipe dataFahuda E

Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017Ria Andriani

Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...febyratnasari

What's hot (9)

Sim, tsania ardhani, hapzi ali, sistem manajemen database, universitas mercu ...

Sim, rofi luthfia faishal, hapzi ali,sistem manajemen database, universitas m...

Sorting insert binary

Sim.dede jumadi.prof.dr.ir.hapzi ali.mm,cma.sistem manajemen database .mercub...

Struktur data modul_2

Bab 1 abstraksi_tipe_data

Abstraksi tipe data

Sim, ria andriani, prof hapzi ali,sistem manajemen database, umb, 2017

Sim, feby ratna sari, hapzi ali, sistem manajemen database, universitas mercu...

Similar to 25524 24 preprocessing searching dalam text mining

WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...Ainul Yaqin

D3 mi modul_ppbd_maret2013Saybia Himma

Forum 6JokoSupriyono7

Struktur datalukmanbooms

Visualisasi Data Kualitatif dengan NetlyticsHendro Subagyo

Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...Lintang Kejora

Prak paksantolshareyaDedi Jannery

Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...wahyudiyanto

Materi 1 kelas x integrasi office all 3 pertemuanahdisusanto1

PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.pptbukanyusup13

Modul web phpzulkifli said

P.4. mengenal program spssfatur12345

Bab 6 analisis data.pptxEDR20081

Materi kuliah-sistem-basis-data1Fariszal Nova

Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018Rahmah siti

Forum dan Kuis SIM Minggu ke 6Lidya Septiani

Excell dan accessRizki Mala

Excell dan accessWahyu Haryadi

Presentasi bab 5Sherliana Selvia Syahrayathi

Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQLDoni Tobing

Similar to 25524 24 preprocessing searching dalam text mining (20)

WEB SERVICE DISCOVERY MENGGUNAKAN COSINE SIMILARITY UNTUK MENINGKATKAN AKURAS...

D3 mi modul_ppbd_maret2013

Forum 6

Struktur data

Visualisasi Data Kualitatif dengan Netlytics

Sim, lintang kejora, hapzi ali, sistem manajemen database , universitas mercu...

Prak paksantolshareya

Sim, wahyudiyanto, hapzi ali, sim sistem manajemen database, universitas merc...

Materi 1 kelas x integrasi office all 3 pertemuan

PPT-UEU-–-Sistem-Informasi-Akuntansi-–-Pertemuan-13.ppt

Modul web php

P.4. mengenal program spss

Bab 6 analisis data.pptx

Materi kuliah-sistem-basis-data1

Sim 6, siti rahmah, hapzi ali, sistem management database, umb 2018

Forum dan Kuis SIM Minggu ke 6

Excell dan access

Presentasi bab 5

Panduan Pemrograman Berbasis Web dengan HTML, PHP, dan Database MySQL

Recently uploaded

SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS AcehBISMIAULIA

415418921-statistika- mean media modus data tunggal dan data kelompokelmalinda2

MARIA NOVILIA BOISALA FASILITATOR PMM.pptxmariaboisala21

Manajemen Lalu Lintas Baru Di Jalan Selamet RiyadiCristianoRonaldo185977

VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupanBungaCitraNazwaAtin

PPT Olah Nilai Kurikulum merdeka belajar.pptxnursariheldaseptiana

MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptxrikosyahputra0173

SOP MEDIA KOMUNIKASI DAN KOORDINASI pkmsedyardy

kesalahan tipe 1 dan 2 pada statistik.pptxAhmadSyajili

pertemuan-3-distribusi pada-frekuensi.pptAhmadSyajili

manajemen analisis data export data epidata 3.1YudiPradipta

Metode penelitian Deskriptif atau Surveikustiyantidew94

Recently uploaded (12)

SKP GURU satuan kinerja pegawai tahun 2023 untuk PNS Aceh

415418921-statistika- mean media modus data tunggal dan data kelompok

MARIA NOVILIA BOISALA FASILITATOR PMM.pptx

Manajemen Lalu Lintas Baru Di Jalan Selamet Riyadi

VULKANISME.pdf vulkanisme dan pengaruh nya terhadap kehidupan

PPT Olah Nilai Kurikulum merdeka belajar.pptx

MATERI SESI 2 KONSEP ETIKA KOMUNIKASI.pptx

SOP MEDIA KOMUNIKASI DAN KOORDINASI pkms

kesalahan tipe 1 dan 2 pada statistik.pptx

pertemuan-3-distribusi pada-frekuensi.ppt

manajemen analisis data export data epidata 3.1

Metode penelitian Deskriptif atau Survei

25524 24 preprocessing searching dalam text mining

1. 1 Ilustrasi Preprocessing & Searching Dalam Text Mining Berikut ini adalah proses keseluruhan dari Text Mining, mencakup Pre-Processing dan Perhitungan (Searching) Kemiripan antara Query dengan Daftar Dokumen. A. Preprocessing Terhadap Daftar Dokumen 1. Langkah 1: Mengekstrak Teks Misalnya terdapat 3 Dokumen seperti di bawah ini: 2. Langkah 2: Menghilangkan Stop Words 3. Langkah 3: Ubah semua kata ke huruf kecil

2. 2 4. Langkah 4: Stemming 5. Langkah 5: Menghitung Frekuensi Kata dari setiap Dokumen (TF) 6. Langkah 6: Membuat File Index

3. 3 7. Langkah 7: Membuat Model Ruang Vektor 8. Langkah 8: Menghitung Inverse Document Frequency (IDF) 9. Langkah 9: Menghitung Bobot dari Setiap Kata (TF*IDF)

4. 4 10. Langkah 10: Normalkan Semua Dokumen ke Panjang Unit Contoh Perhitungan Normalisasi: B. Penanganan Query Bagaimana Query ditangani? Hampir sama dengan preprocessing dokumen (bukan query), kemudian hitung kemiripan antara query dengan dokumen yang telah dipreprocess juga. Berikut ini adalah apa yang harus dilakukan jika terdapat query “interested in interesting data and text”: Query Awal : (interested in interesting data and text) 1. Langkah 1: Hilangkan semua stop word: (interested interesting data text) 2. Langkah 2: Stemming: (interest interest data text) 3. Langkah 3: Hilangkan duplikasi: (interest data text) 4. Langkah 4: Bangun suatu model ruang vektor: (0, 1, 1, 0, 0, 0, 1) 5. Langkah 5: Hitung bobot dari setiap kata: (0, 0, 0.477, 0, 0, 0, 0.176) 6. Langkah 6: Normalkan model ruang vektor: (0, 0, 0.938, 0, 0, 0, 0.346) Ingat tabel index dan bobot dari 3 dokumen yang telah dipreprocess?

5. 5 7. Hitung kemiripan antara Query dan Daftar Dokumen menggunaan metode Cosine Similarity. Kesimpulan: Mengembalikan Dokumen #3 C. Soal Latihan Diberikan suatu query “W4 W5” dan koleksi 3 dokumen berikut:  Dokumen 1: <W1 W2 W3 W4 W5 >  Dokumen 2: <W6 W7 W4 W5>  Dokumen 3: <W8 W3 W9 W4 W10> Gunakan model ruang vektor (VSM), skema pembobotan TF/IDF, dan ukuran kemiripan vektor Cosine untuk mendapatkan dokumen yang paling relevan terhadap query tersebut! Sumber awal: http://itee.uq.edu.au/%7Einfs4203/Lecture/Lesson07_Text_Mining_2011.pdf

25524 24 preprocessing searching dalam text mining

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

Similar to 25524 24 preprocessing searching dalam text mining

Similar to 25524 24 preprocessing searching dalam text mining (20)

More from Universitas Bina Darma Palembang

More from Universitas Bina Darma Palembang (20)

Recently uploaded

Recently uploaded (12)

25524 24 preprocessing searching dalam text mining