Text mining

Text Mining
Oleh: Ike Kurniati

KonseptualTextMining
Goals:
Audiece mengerti & memahami konseptualText mining

Statistic
Artificial
Intelligence
Pattern
Recognition
Basis
Data
Akar Ilmu

• Komputational
• Visualisasi
Statistika
• Machine
Learning
Artificial
Intelleigence
• Asosiasi
• Sekuensial
Pattern
Recognition
• BasisData
BasisData
Definisi Text Mining
Text mining mengacupada pencarian
informasi,pertambangandata, mesin-
learning, statistik, dan komputasi
linguistic terhadap informasiyang
disimpansebagaiteks(Bridge, C 2011).

Bagaimana
Text Mining
Bekerja?
Kotu –Predictive &Analytic
Using RapidMiner 2015
(page:288)
– Melakukankonversidata text ke bentuk semi-
structured data
– Memodelkandata dengan menerapkansalahsatu
teknik-teknik clustering,klasifikasidanprediksi.
– Menemukan“Pattern”

High Level
Text Mining
Kotu– Predictive &Analytic
(page:288)
Text Processing

1. Himpunan
Data
(Pemahaman dan
Pengolahan Data)
2. Metode
Data Mining
(Pilih Metode
Sesuai Karakter
Data)
3. Pengetahuan
(Pola/Model/Rumus/
Tree/Rule/Cluster)
4.
Evaluation
(Akurasi, AUC,
RMSE, Lift
Ratio,…)
Proses Data Mining
DATA PRE-PROCESSING
Data Cleaning
Data Integration
Data Reduction
Data Transformation
Text Processing
Estimation
Prediction
Classification
Clustering
Association
ProsesText Mining

Word, Token &
Tokenization
– Kata dipisahkan oleh karakter khusus: “spasi” kata
disebut token.
– Proses diskretisasi kata dalam dokumen disebut
tokenization.
– Setiap kalimat dapat dianggap sebagai dokumen
terpisah,
– Dokumen adalahkoleksiberurutan token

Matrix of
Terms
Kotu– Predictive &Analytic
(page:288)
• We can impose some form of structure on
this raw data by creatinga matrix, where:
• the columns consist of all the tokens
found in the two documents
• the cells of the matrix are the counts of
the number of times a token appears
• Each token is now an attribute in standard
data mining parlance and each document is
an example

Term
Document
Matrix (TDM)
Kotu – Predictive &Analytic
(page:288)
– Basically, unstructured raw data is now transformed into a format
that is recognized, not only by the human users as a data table,
but more importantly by all the machine learning algorithms
which require such tablesfor training
– This table is called a document vector or term document matrix
(TDM) and is the cornerstone of the preprocessing required for
text mining

Term Frequency–
Inverse Document
Frequency (TF–IDF)
Kotu– Predictive &
Analytic Using
RapidMiner 2015
(page:288)
– We could have also chosen to use theTF–IDF scores for each term to
create the document vector
– N is the number of documentsthat we are trying to mine
– Nk is the number of documentsthat contain the keyword,k

Stop words
– Stop words adalah kata umum (common words) yang
biasanya muncul dalam jumlah besar dan dianggap
tidak memiliki makna. Stop words umumnya
dimanfaatkan dalam task information retrieval,
termasuk oleh Google (penjelasannya di sini). Contoh
stop words untuk bahasa Inggris diantaranya “of”,
“the”.23 Jul 2008

Stemming
Stemming (ataumungkin lebih tepatnya lemmatization?)adalah
prosesmengubah kata berimbuhan menjadi kata dasar.Aturan-
aturan bahasa diterapkan untuk menanggalkanimbuhan-imbuhan
itu.Contohnya:
– membetulkan ->betul
– berpegangan ->pegang
– Ada banyak persoalan yang dihadapipada prosesstemming
Bahasa Indonesia,di antaranya yaitu:
– Imbuhan pada Bahasa Indonesia cukup kompleks,terdiridari:
– Prefiks, imbuhan di depan kata:ber-tiga
– Suffiks, imbuhan di akhir kata:makan-an
– Konfiks,imbuhan di depan dan di akhir kata:per-ubah-an
– Infiks, imbuhan di tengah kata:kemilau.
– Imbuhan dari bahasa asing:final-isasi,sosial-isasi
– Aturan perubahan prefiks,seperti (me-)menjadi (meng-,mem-,
men-,meny-)

N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining
(pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan
kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya
dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam
prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata).
Sebagai contoh terdapat sebuah kaliman “The cow jumps over the moon”. Jika N=2
makan dikenaldengan bigram. Dimana ngram menjadi :
– The cow
– Cow jumps
– Jumps over
– Over the
– The moon
Bisa dilihat daricontoh diatas,dimana kitamemiliki 5 n-gram dalam kasus tersebut.
Perhatikan bahwaterjadi pergerakan katatiap dua katayaitudari the-> cow ke cow
–> jumps ke jumps -> over dst. Dimana kejadiannyaterjadi secara berurutan dengan
cara tiap kata berpindah maju satu kata kedepan untuk membangkitkan n-gram
selanjutnya.
– Jika terdapat N=3 maka n-gram menjadi sebagai berikut :
– The cow jumps
– Cow jumps over
– Jumps over the
– Over themoon

N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka
bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu
kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan
trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five
gram dan seterusnya.
Berapa banyak N-gram dalam sebuah kalimat?
– Jika dimisalkan X adalah jumlah kata dalam suatu kalimat K, maka jumlah
n-gram dari kalimat K adalah :
– NgramsK = X – (N – 1)
Digunakan untuk apa itu N-gram?
N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n-
gram yang digunakan tidak hanya menggunakan unigram tapi model
bigram dan trigram juga digunakan. Microsoft dan Google menggunakan
model ini untuk pengembangan web mereka beberapa diantaranya
digunakan untuk beberapa tugas seperti spelling correction, word breaking
dan text summarization dalam web mereka. Bisa dilihat di link berikut
tentang pembahasan n-gram pada Microsoft link 1 dan ini merupakan salah
satu paper yang berkaitan dengann-gram link 2.
Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga
digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan
Naïve Bayes danlain-lain.

Langkah
Preprocessing
–Text Mining
Tokenize
Stopword
Removal
Filtering Stemming N-Gram

CaseStudy
Goal:
• Audience dapat mengidentifikasi permasalahan pada Textminig (CRIPS-DM
Prosedur)
• Audience mengerti setiap langkah yang dilakukan pada prosesText mining
• Audience dapat mengimplementasikan Text Mining di beberapa case

Lakukaneksperimenmengikutibuku
MatthewNorth (DataMining forthe Masses)
Chapter12(TextMining),p 189-215.

Business
Understanding
– Gillian is a historian and archivist, and she has recently curated an exhibit on
the Federalist Papers, the essays that were written and published in the late
1700’s
– The essays werepublished anonymously under the author name ‘Publius’,and
no one really knew at thetime if ‘Publius’was one individual or many
– Years later, after Alexander Hamilton died in the year 1804, some notes were
discovered that revealed that he (Hamilton), James Madison and John Jay had
been theauthors of the papers
– The notes indicated specific authors for some papers, but not for others.
Specifically, John Jay was revealed to be the author for papers 3, 4 and 5;
Madison for paper 14; and Hamilton for paper 17. Paper 18 had no author
named, but there was evidence that Hamilton and Madison worked on that
one together
– Gillian would like to analyze paper 18’s content in the context of the other
papers with known authors, to seeif she can generate some evidence that the
suspected collaboration between Hamilton and Madison is in fact a likely
scenario
– Having studied all of the Federalist Papers and other writings by the three
statesmen who wrote them, Gillian feels confident that paper 18 is a
collaboration that John Jay did not contribute to—his vocabulary and
grammatical structure was quite different from those of Hamilton and
Madison

Data
Understanding
– Gillian’s data set is simple: we will include the full text of Federalist
Papers number 5 (Jay), 14 (Madison), 17 (Hamilton), and 18
(suspected collaboration between Madison and Hamilton). The
Federalist Papers are available through a number of sources: they
have been re-published in book form, they are available on a
number of different web sites, and their text is archived in many
libraries throughout the world. For this chapter’s exercise, the text
of these four papers has been added to the book’s companion web
site.There are four files for you to download:
– Chapter12_Federalist05_Jay.txt
– Chapter12_Federalist14_Madison.txt
– Chapter12_Federalist17_Hamilton.txt
– Chapter12_Federalist18_Collaboration.txt.

Adding/
updating the
Rapid Miner
Text
Processing
add-in.

Adding a Read
Document
operator to our
model.

All four
Federalist
Paper text files
are now
connected in
Rapid Miner

Reviewing the
suspected
collaboration
paper (no. 18)
in results
perspective

Double click on
the Process
Documents
operator. This
will take us
into a sub-
process
window.

Adding
tokenization to
the text
mining
model’s sub-
process.

Removing stop
words such as
‘and’, ‘or’, ‘the’,
etc. from our
model.

Setting all
tokens (word
attributes)
from our text
to be
lowercase.

Process documents:
1.Tokenize
2. Filter Stop words
3.Transform Cases
4.Stem (porter)

Word list/ Daftar kata
menunjukan frekuensi
penggunaan kata pada
dokumen. Contoh:Kata
”state” digunakan pada 4
dokumen dengan total
penggunaan sebanyak 35
kali

Hasil Clustering: Ada 2
cluster yaitu cluster 0dan 1.
1.Paper 5 danpaper 18
adalah cluster 0.
2. Paper 14dan 17termasuk
cluster 1.
Untuk melihat detail
documen dengan cara klik
icon page.

Create documents à
Rename (“paper3”) -à Klik
editText
Buka paper 3pada data set
kemudian copydan paste
ke dalamedit parameter à
apply

Hasil Clustering:
Paper 3 masuk dalam
kelompok cluster 1.Akan
tetapi, documen dengan ID
=1 author= Jay, Dokumen
ID= 3, Hamilton
Model inibelum tepat
karena CLUSTERING yang
dilakukan, menghasilkan
pengelompokan yang salah.

Untuk menghasilkan
CLUSTERING yang benar,
maka diperlukan
penambahan data training.
“paper4Jay”

Final cluster results
after training our
text mining model
torecognize John
Jay’s writing style.
Hasil CLUSTERING,
Documen berhasil
dikelopokkan berdasarkan
Author Madison Hamilton
danJay

SentimentAnalisis
Goals:Audience memahami arti, kebutuhan,tujuan dan
ruang lingkup dari SentimentAnalysis

1. Kebutuhan Sentiment Analysis
2. Text Mining untuk Sentiment Analysis
3. Pengolahan kataText Mining menggunakan Machine Learning
4. Studi Kasus Sentiment Analysis
Overview

Social Media
Berbagi
Informasi
Opini Publik
Peran
Pengawasan
• Meningkatnya penggunaan social
media di masyarakat, berdampak pada
bertambahnya peran berbagi infromasi
di ruang public, yang selanjutnya
menyebabkanberkembangnya opini
publik.
• Kemudian hal tersebut dimanfaatkan
menggunakan metoda tertentu untuk
tujuan pengawasan terhadap suatu
objek.
Kebutuhan
Sentiment
Analysis

SentimenAnalisis adalah jenis natural language yaitu
pengolahan kata untuk melacak mood masyarakat tentang
produk atau topik tertentu.Analisis sentimen, disebut opinion
mining.
(G.Vinodhini, M.Chandrasekaran 2012)
Definisi
Sentiment
Analysis

Keyword
Text
Mining
Visual
Text sebagaiObjek
yangdi proses
menggunakanMetoda
Text Mining dan
hasilnya dalam
representasiVisual.
Ruang Lingkup

Menemukan
Kata kunci 10 DestinasiWisata yang
diprioritaskan oleh Kemenpar
Pilkada DKI Jakarta
Jadwal Ganjil Genap
Pemilihan Key
Word

Pemilihah Sumber data Untuk
sentiment. Pemilihan harus
berdasar pada kegunaan
sosmed.
•Ada fasilitas Repost yang memiliki
istilah Reshared, jadi kita langsung
bisa mengutip sebuah status dari
teman yang ada pada circle kita. Ini
mirip seperti Retweet di Twitter
•-Atur status Status yang kita buat
bisa diatur apakah itu tidak boleh
dishare kembali atau tidak boleh
dikomentari.
G+
• media bisnis online melalui jaringan
pertemanan yang telah dimiliki.
• -Upload gambar mudah, dan bisa dibuat
album foto.
• -Terdapat aplikasi chat yang membuat
pangguna yang sedang online bisa chat
dengan temannya yang sedang online juga.
• -Pengguna bisa membuat/bergabung dengan
group kesukaan/hobi/bisnis/pertemanan
yang memungkinkan pembagian informasi
lebih spesifik, mudah, dan tepat sasaran.
Facebook
• Menjangkau tidak hanya antara teman,
tetapi komunikasi antara artis dengan fans-
nya juga menjadi lebih mudah.
• -Komunikasi di twitter terjadi sangat cepat.
Sering terjadi berita-berita terupdate, seperti
terjadinya suatu bencana misalnya, lebih
dahulu didapatkan infonya melalui twitter.
• -Terdapat fitur trending topic yang
memungkinkan kita untuk mengetahui apa
saja yang sedang in atau happening
dibicarakan oleh para pengguna twitter.
• -Dapat memasarkan produk secara geratis.
Twitter
•Memperindah foto kita
•bisa menshare video
•memasarkan produk atau berjualan
online
Instagram
•sharing apa saja yang kita mau,
maupun itu lagu, curhatan, foto,
tempat/lokasi kita berada.
•Path bersifat privasi, tidak seperti
facebook dan twitter
•Path memiliki 8 Free Filter Lenses
utk mempercantik foto/video
Path
http://suckrockers.blogspot.co.id/2013/12
/sosial-media-beserta-kelebihan-
dan.html
Pemilihan Sumber
Data (Sosmed)

Text MininguntukSentiment Analysis
ImplementasiTextMininguntuk sentimentanalysis
menggunakanAYLIEN
CaseStudy

Setting
Parameter
Analyze
Sentiment
with Aylien
AYLIEN Text Analysis API is a package of
Natural Language Processing and Machine
Learning-powered tools for analyzing and
extracting various kinds of information from
text and images.

Get AYLIEN
API KEY
https://developer.aylien.co
m/admin Menubarà Connection à
ManageConncetion

Text mining

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Recently uploaded

Recently uploaded (7)

Text mining