SlideShare a Scribd company logo
Text Mining
Oleh: Ike Kurniati
KonseptualTextMining
Goals:
Audiece mengerti & memahami konseptualText mining
Statistic
Artificial
Intelligence
Pattern
Recognition
Basis
Data
Akar Ilmu
• Komputational
• Visualisasi
Statistika
• Machine
Learning
Artificial
Intelleigence
• Asosiasi
• Sekuensial
Pattern
Recognition
• BasisData
BasisData
Definisi Text Mining
Text mining mengacupada pencarian
informasi,pertambangandata, mesin-
learning, statistik, dan komputasi
linguistic terhadap informasiyang
disimpansebagaiteks(Bridge, C 2011).
Bagaimana
Text Mining
Bekerja?
Kotu –Predictive &Analytic
Using RapidMiner 2015
(page:288)
– Melakukankonversidata text ke bentuk semi-
structured data
– Memodelkandata dengan menerapkansalahsatu
teknik-teknik clustering,klasifikasidanprediksi.
– Menemukan“Pattern”
High Level
Text Mining
Kotu– Predictive &Analytic
Using RapidMiner 2015
(page:288)
Text Processing
1.	Himpunan
Data
(Pemahaman dan
Pengolahan Data)
2.	Metode
Data	Mining
(Pilih Metode
Sesuai Karakter
Data)
3.	Pengetahuan
(Pola/Model/Rumus/
Tree/Rule/Cluster)
4.	
Evaluation
(Akurasi,	AUC,
RMSE,	Lift	
Ratio,…)
Proses Data Mining
DATA	PRE-PROCESSING
Data	Cleaning
Data	Integration
Data	Reduction
Data	Transformation
Text	Processing
Estimation
Prediction
Classification
Clustering
Association
ProsesText Mining
Word, Token &
Tokenization
– Kata dipisahkan oleh karakter khusus: “spasi” kata
disebut token.
– Proses diskretisasi kata dalam dokumen disebut
tokenization.
– Setiap kalimat dapat dianggap sebagai dokumen
terpisah,
– Dokumen adalahkoleksiberurutan token
Matrix of
Terms
Kotu– Predictive &Analytic
Using RapidMiner 2015
(page:288)
• We can impose some form of structure on
this raw data by creatinga matrix, where:
• the columns consist of all the tokens
found in the two documents
• the cells of the matrix are the counts of
the number of times a token appears
• Each token is now an attribute in standard
data mining parlance and each document is
an example
Term
Document
Matrix (TDM)
Kotu – Predictive &Analytic
Using RapidMiner 2015
(page:288)
– Basically, unstructured raw data is now transformed into a format
that is recognized, not only by the human users as a data table,
but more importantly by all the machine learning algorithms
which require such tablesfor training
– This table is called a document vector or term document matrix
(TDM) and is the cornerstone of the preprocessing required for
text mining
Term Frequency–
Inverse Document
Frequency (TF–IDF)
Kotu– Predictive &
Analytic Using
RapidMiner 2015
(page:288)
– We could have also chosen to use theTF–IDF scores for each term to
create the document vector
– N is the number of documentsthat we are trying to mine
– Nk is the number of documentsthat contain the keyword,k
Stop words
– Stop words adalah kata umum (common words) yang
biasanya muncul dalam jumlah besar dan dianggap
tidak memiliki makna. Stop words umumnya
dimanfaatkan dalam task information retrieval,
termasuk oleh Google (penjelasannya di sini). Contoh
stop words untuk bahasa Inggris diantaranya “of”,
“the”.23 Jul 2008
Stemming
Stemming (ataumungkin lebih tepatnya lemmatization?)adalah
prosesmengubah kata berimbuhan menjadi kata dasar.Aturan-
aturan bahasa diterapkan untuk menanggalkanimbuhan-imbuhan
itu.Contohnya:
– membetulkan ->betul
– berpegangan ->pegang
– Ada banyak persoalan yang dihadapipada prosesstemming
Bahasa Indonesia,di antaranya yaitu:
– Imbuhan pada Bahasa Indonesia cukup kompleks,terdiridari:
– Prefiks, imbuhan di depan kata:ber-tiga
– Suffiks, imbuhan di akhir kata:makan-an
– Konfiks,imbuhan di depan dan di akhir kata:per-ubah-an
– Infiks, imbuhan di tengah kata:kemilau.
– Imbuhan dari bahasa asing:final-isasi,sosial-isasi
– Aturan perubahan prefiks,seperti (me-)menjadi (meng-,mem-,
men-,meny-)
N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining
(pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan
kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya
dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam
prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata).
Sebagai contoh terdapat sebuah kaliman “The cow jumps over the moon”. Jika N=2
makan dikenaldengan bigram. Dimana ngram menjadi :
– The cow
– Cow jumps
– Jumps over
– Over the
– The moon
Bisa dilihat daricontoh diatas,dimana kitamemiliki 5 n-gram dalam kasus tersebut.
Perhatikan bahwaterjadi pergerakan katatiap dua katayaitudari the-> cow ke cow
–> jumps ke jumps -> over dst. Dimana kejadiannyaterjadi secara berurutan dengan
cara tiap kata berpindah maju satu kata kedepan untuk membangkitkan n-gram
selanjutnya.
– Jika terdapat N=3 maka n-gram menjadi sebagai berikut :
– The cow jumps
– Cow jumps over
– Jumps over the
– Over themoon
N-Gram
http://text-
analytics101.rxnlp.com/2014/11
/what-are-n-grams.html
Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka
bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu
kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan
trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five
gram dan seterusnya.
Berapa banyak N-gram dalam sebuah kalimat?
– Jika dimisalkan X adalah jumlah kata dalam suatu kalimat K, maka jumlah
n-gram dari kalimat K adalah :
– NgramsK = X – (N – 1)
Digunakan untuk apa itu N-gram?
N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n-
gram yang digunakan tidak hanya menggunakan unigram tapi model
bigram dan trigram juga digunakan. Microsoft dan Google menggunakan
model ini untuk pengembangan web mereka beberapa diantaranya
digunakan untuk beberapa tugas seperti spelling correction, word breaking
dan text summarization dalam web mereka. Bisa dilihat di link berikut
tentang pembahasan n-gram pada Microsoft link 1 dan ini merupakan salah
satu paper yang berkaitan dengann-gram link 2.
Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga
digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan
Naïve Bayes danlain-lain.
Langkah
Preprocessing
–Text Mining
Tokenize
Stopword
Removal
Filtering Stemming N-Gram
CaseStudy
Goal:
• Audience dapat mengidentifikasi permasalahan pada Textminig (CRIPS-DM
Prosedur)
• Audience mengerti setiap langkah yang dilakukan pada prosesText mining
• Audience dapat mengimplementasikan Text Mining di beberapa case
CRISP-DM
Lakukaneksperimenmengikutibuku
MatthewNorth (DataMining forthe Masses)
Chapter12(TextMining),p 189-215.
Business
Understanding
– Gillian is a historian and archivist, and she has recently curated an exhibit on
the Federalist Papers, the essays that were written and published in the late
1700’s
– The essays werepublished anonymously under the author name ‘Publius’,and
no one really knew at thetime if ‘Publius’was one individual or many
– Years later, after Alexander Hamilton died in the year 1804, some notes were
discovered that revealed that he (Hamilton), James Madison and John Jay had
been theauthors of the papers
– The notes indicated specific authors for some papers, but not for others.
Specifically, John Jay was revealed to be the author for papers 3, 4 and 5;
Madison for paper 14; and Hamilton for paper 17. Paper 18 had no author
named, but there was evidence that Hamilton and Madison worked on that
one together
– Gillian would like to analyze paper 18’s content in the context of the other
papers with known authors, to seeif she can generate some evidence that the
suspected collaboration between Hamilton and Madison is in fact a likely
scenario
– Having studied all of the Federalist Papers and other writings by the three
statesmen who wrote them, Gillian feels confident that paper 18 is a
collaboration that John Jay did not contribute to—his vocabulary and
grammatical structure was quite different from those of Hamilton and
Madison
Data
Understanding
– Gillian’s data set is simple: we will include the full text of Federalist
Papers number 5 (Jay), 14 (Madison), 17 (Hamilton), and 18
(suspected collaboration between Madison and Hamilton). The
Federalist Papers are available through a number of sources: they
have been re-published in book form, they are available on a
number of different web sites, and their text is archived in many
libraries throughout the world. For this chapter’s exercise, the text
of these four papers has been added to the book’s companion web
site.There are four files for you to download:
– Chapter12_Federalist05_Jay.txt
– Chapter12_Federalist14_Madison.txt
– Chapter12_Federalist17_Hamilton.txt
– Chapter12_Federalist18_Collaboration.txt.
Updating
Rapid Miner
add-ins.
Adding/
updating the
Rapid Miner
Text
Processing
add-in.
Adding a Read
Document
operator to our
model.
Setting
properties
All four
Federalist
Paper text files
are now
connected in
Rapid Miner
Reviewing the
suspected
collaboration
paper (no. 18)
in results
perspective
Process
Document
Parameters
Document
Process
Double click on
the Process
Documents
operator. This
will take us
into a sub-
process
window.
Adding
tokenization to
the text
mining
model’s sub-
process.
Removing stop
words such as
‘and’, ‘or’, ‘the’,
etc. from our
model.
Setting all
tokens (word
attributes)
from our text
to be
lowercase.
Process documents:
1.Tokenize
2. Filter Stop words
3.Transform Cases
4.Stem (porter)
Word list/ Daftar kata
menunjukan frekuensi
penggunaan kata pada
dokumen. Contoh:Kata
”state” digunakan pada 4
dokumen dengan total
penggunaan sebanyak 35
kali
Clustering
Model.
Hasil Clustering: Ada 2
cluster yaitu cluster 0dan 1.
1.Paper 5 danpaper 18
adalah cluster 0.
2. Paper 14dan 17termasuk
cluster 1.
Untuk melihat detail
documen dengan cara klik
icon page.
Create documents à
Rename (“paper3”) -à Klik
editText
Buka paper 3pada data set
kemudian copydan paste
ke dalamedit parameter à
apply
Hasil Clustering:
Paper 3 masuk dalam
kelompok cluster 1.Akan
tetapi, documen dengan ID
=1 author= Jay, Dokumen
ID= 3, Hamilton
Model inibelum tepat
karena CLUSTERING yang
dilakukan, menghasilkan
pengelompokan yang salah.
Untuk menghasilkan
CLUSTERING yang benar,
maka diperlukan
penambahan data training.
“paper4Jay”
Final cluster results
after training our
text mining model
torecognize John
Jay’s writing style.
Hasil CLUSTERING,
Documen berhasil
dikelopokkan berdasarkan
Author Madison Hamilton
danJay
SentimentAnalisis
Goals:Audience memahami arti, kebutuhan,tujuan dan
ruang lingkup dari SentimentAnalysis
1. Kebutuhan Sentiment Analysis
2. Text Mining untuk Sentiment Analysis
3. Pengolahan kataText Mining menggunakan Machine Learning
4. Studi Kasus Sentiment Analysis
Overview
Social Media
Berbagi
Informasi
Opini Publik
Peran
Pengawasan
• Meningkatnya penggunaan social
media di masyarakat, berdampak pada
bertambahnya peran berbagi infromasi
di ruang public, yang selanjutnya
menyebabkanberkembangnya opini
publik.
• Kemudian hal tersebut dimanfaatkan
menggunakan metoda tertentu untuk
tujuan pengawasan terhadap suatu
objek.
Kebutuhan
Sentiment
Analysis
SentimenAnalisis adalah jenis natural language yaitu
pengolahan kata untuk melacak mood masyarakat tentang
produk atau topik tertentu.Analisis sentimen, disebut opinion
mining.
(G.Vinodhini, M.Chandrasekaran 2012)
Definisi
Sentiment
Analysis
Keyword
Text
Mining
Visual
Text sebagaiObjek
yangdi proses
menggunakanMetoda
Text Mining dan
hasilnya dalam
representasiVisual.
Ruang Lingkup
Menemukan
Kata kunci 10 DestinasiWisata yang
diprioritaskan oleh Kemenpar
Pilkada DKI Jakarta
Jadwal Ganjil Genap
Pemilihan Key
Word
Pemilihah Sumber data Untuk
sentiment. Pemilihan harus
berdasar pada kegunaan
sosmed.
•Ada fasilitas Repost yang memiliki
istilah Reshared, jadi kita langsung
bisa mengutip sebuah status dari
teman yang ada pada circle kita. Ini
mirip seperti Retweet di Twitter
•-Atur status Status yang kita buat
bisa diatur apakah itu tidak boleh
dishare kembali atau tidak boleh
dikomentari.
G+
• media bisnis online melalui jaringan
pertemanan yang telah dimiliki.
• -Upload gambar mudah, dan bisa dibuat
album foto.
• -Terdapat aplikasi chat yang membuat
pangguna yang sedang online bisa chat
dengan temannya yang sedang online juga.
• -Pengguna bisa membuat/bergabung dengan
group kesukaan/hobi/bisnis/pertemanan
yang memungkinkan pembagian informasi
lebih spesifik, mudah, dan tepat sasaran.
Facebook
• Menjangkau tidak hanya antara teman,
tetapi komunikasi antara artis dengan fans-
nya juga menjadi lebih mudah.
• -Komunikasi di twitter terjadi sangat cepat.
Sering terjadi berita-berita terupdate, seperti
terjadinya suatu bencana misalnya, lebih
dahulu didapatkan infonya melalui twitter.
• -Terdapat fitur trending topic yang
memungkinkan kita untuk mengetahui apa
saja yang sedang in atau happening
dibicarakan oleh para pengguna twitter.
• -Dapat memasarkan produk secara geratis.
Twitter
•Memperindah foto kita
•bisa menshare video
•memasarkan produk atau berjualan
online
Instagram
•sharing apa saja yang kita mau,
maupun itu lagu, curhatan, foto,
tempat/lokasi kita berada.
•Path bersifat privasi, tidak seperti
facebook dan twitter
•Path memiliki 8 Free Filter Lenses
utk mempercantik foto/video
Path
http://suckrockers.blogspot.co.id/2013/12
/sosial-media-beserta-kelebihan-
dan.html
Pemilihan Sumber
Data (Sosmed)
Text MininguntukSentiment Analysis
ImplementasiTextMininguntuk sentimentanalysis
menggunakanAYLIEN
CaseStudy
Process
Twitter Oauth
get AccessToken
SearchTwitter
Result
Setting
Parameter
Analyze
Sentiment
with Aylien
AYLIEN Text Analysis API is a package of
Natural Language Processing and Machine
Learning-powered tools for analyzing and
extracting various kinds of information from
text and images.
AYLIENText
Analysis API
Get AYLIEN
API KEY
https://developer.aylien.co
m/admin Menubarà Connection à
ManageConncetion
Sentiment
Sekian

More Related Content

What's hot

Error Handling - P 7 Teknik Kompilasi
Error Handling - P 7 Teknik Kompilasi Error Handling - P 7 Teknik Kompilasi
Error Handling - P 7 Teknik Kompilasi
ahmad haidaroh
 
Contoh soal Teori antrian khusus Poisson
Contoh soal Teori antrian khusus PoissonContoh soal Teori antrian khusus Poisson
Contoh soal Teori antrian khusus PoissonLilies DLiestyowati
 
Algoritma penjadwalan proses
Algoritma penjadwalan prosesAlgoritma penjadwalan proses
Algoritma penjadwalan proses
Rakhmi Khalida, M.M.S.I
 
05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf
Elvi Rahmi
 
Pertemuan 11-12 Ketidakpastian (Uncertainty)
Pertemuan 11-12 Ketidakpastian (Uncertainty)Pertemuan 11-12 Ketidakpastian (Uncertainty)
Pertemuan 11-12 Ketidakpastian (Uncertainty)
Endang Retnoningsih
 
Kriptografi - Algoritma RSA
Kriptografi - Algoritma RSAKriptografi - Algoritma RSA
Kriptografi - Algoritma RSA
KuliahKita
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
Lucha Kamala Putri
 
Data Mining - Naive Bayes
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayes
dedidarwis
 
Analisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic ProgrammingAnalisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic Programming
Adam Mukharil Bachtiar
 
Analisis pada e-commerce dan website Tokopedia.com
Analisis pada e-commerce dan website Tokopedia.comAnalisis pada e-commerce dan website Tokopedia.com
Analisis pada e-commerce dan website Tokopedia.com
Cllszhr
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
ArdianDwiPraba
 
Pertemuan 04 Teknik Pencarian (Search)
Pertemuan 04 Teknik Pencarian (Search)Pertemuan 04 Teknik Pencarian (Search)
Pertemuan 04 Teknik Pencarian (Search)
Endang Retnoningsih
 
isu sosial dan etika dalam sistem informasi
isu sosial dan etika dalam sistem informasiisu sosial dan etika dalam sistem informasi
isu sosial dan etika dalam sistem informasi
Kasi Irawati
 
01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx
melrideswina
 
Pemodelan sistem (DFD)
Pemodelan sistem (DFD)Pemodelan sistem (DFD)
Pemodelan sistem (DFD)
Fahmi Hakam
 
Pertemuan 1 Data dan Struktur Data
Pertemuan 1 Data dan Struktur DataPertemuan 1 Data dan Struktur Data
Pertemuan 1 Data dan Struktur Data
Endang Retnoningsih
 
Pushdown Automata
Pushdown Automata Pushdown Automata
Pushdown Automata
Frestiany Regina Putri
 
Pengujian Perangkat Lunak
Pengujian Perangkat LunakPengujian Perangkat Lunak
Pengujian Perangkat Lunak
Adam Mukharil Bachtiar
 

What's hot (20)

Error Handling - P 7 Teknik Kompilasi
Error Handling - P 7 Teknik Kompilasi Error Handling - P 7 Teknik Kompilasi
Error Handling - P 7 Teknik Kompilasi
 
Contoh soal Teori antrian khusus Poisson
Contoh soal Teori antrian khusus PoissonContoh soal Teori antrian khusus Poisson
Contoh soal Teori antrian khusus Poisson
 
Algoritma penjadwalan proses
Algoritma penjadwalan prosesAlgoritma penjadwalan proses
Algoritma penjadwalan proses
 
05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf05 - Teknik Dasar AI - Planning.pdf
05 - Teknik Dasar AI - Planning.pdf
 
Pertemuan 11-12 Ketidakpastian (Uncertainty)
Pertemuan 11-12 Ketidakpastian (Uncertainty)Pertemuan 11-12 Ketidakpastian (Uncertainty)
Pertemuan 11-12 Ketidakpastian (Uncertainty)
 
Kriptografi - Algoritma RSA
Kriptografi - Algoritma RSAKriptografi - Algoritma RSA
Kriptografi - Algoritma RSA
 
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop OnlineERD Sistem Informasi Pemesanan Tiket Bioskop Online
ERD Sistem Informasi Pemesanan Tiket Bioskop Online
 
Data Mining - Naive Bayes
Data Mining - Naive BayesData Mining - Naive Bayes
Data Mining - Naive Bayes
 
Analisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic ProgrammingAnalisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic Programming
 
Analisis pada e-commerce dan website Tokopedia.com
Analisis pada e-commerce dan website Tokopedia.comAnalisis pada e-commerce dan website Tokopedia.com
Analisis pada e-commerce dan website Tokopedia.com
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
 
Pertemuan 04 Teknik Pencarian (Search)
Pertemuan 04 Teknik Pencarian (Search)Pertemuan 04 Teknik Pencarian (Search)
Pertemuan 04 Teknik Pencarian (Search)
 
isu sosial dan etika dalam sistem informasi
isu sosial dan etika dalam sistem informasiisu sosial dan etika dalam sistem informasi
isu sosial dan etika dalam sistem informasi
 
01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx01_PENGANTAR DATA DATA SCIENCE.pptx
01_PENGANTAR DATA DATA SCIENCE.pptx
 
Pemodelan sistem (DFD)
Pemodelan sistem (DFD)Pemodelan sistem (DFD)
Pemodelan sistem (DFD)
 
Pertemuan 1 Data dan Struktur Data
Pertemuan 1 Data dan Struktur DataPertemuan 1 Data dan Struktur Data
Pertemuan 1 Data dan Struktur Data
 
Pushdown Automata
Pushdown Automata Pushdown Automata
Pushdown Automata
 
Disk forensik
Disk forensikDisk forensik
Disk forensik
 
Pengujian Perangkat Lunak
Pengujian Perangkat LunakPengujian Perangkat Lunak
Pengujian Perangkat Lunak
 
Erp pertemuan-5
Erp pertemuan-5Erp pertemuan-5
Erp pertemuan-5
 

Viewers also liked

Text mining, By Hadi Mohammadzadeh
Text mining, By Hadi MohammadzadehText mining, By Hadi Mohammadzadeh
Text mining, By Hadi Mohammadzadeh
Hadi Mohammadzadeh
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
Datamining Tools
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
Michel Bruley
 
32296 23 algoritma tf idf
32296 23 algoritma tf idf32296 23 algoritma tf idf
32296 23 algoritma tf idf
Universitas Bina Darma Palembang
 
Text mining by examples, By Hadi Mohammadzadeh
Text mining by examples, By Hadi MohammadzadehText mining by examples, By Hadi Mohammadzadeh
Text mining by examples, By Hadi Mohammadzadeh
Hadi Mohammadzadeh
 
Text MIning
Text MIningText MIning
Text MIning
Prakhyath Rai
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
Minha Hwang
 
Sentiment analysis
Sentiment analysisSentiment analysis
Sentiment analysis
ike kurniati
 
Machine Learning and Data Mining: 19 Mining Text And Web Data
Machine Learning and Data Mining: 19 Mining Text And Web DataMachine Learning and Data Mining: 19 Mining Text And Web Data
Machine Learning and Data Mining: 19 Mining Text And Web Data
Pier Luca Lanzi
 
Text Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter DataText Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter Data
Yanchang Zhao
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data miningLye Lazar
 
Text Mining Using JBoss Rules
Text Mining Using JBoss RulesText Mining Using JBoss Rules
Text Mining Using JBoss Rules
Mark Maslyn
 
Text Mining with RapidMiner
Text Mining with RapidMinerText Mining with RapidMiner
Text Mining with RapidMiner
ertekg
 
Data Mining: Text and web mining
Data Mining: Text and web miningData Mining: Text and web mining
Data Mining: Text and web mining
Datamining Tools
 
Text Mining Analytics 101
Text Mining Analytics 101Text Mining Analytics 101
Text Mining Analytics 101
Manohar Swamynathan
 
Textmining Information Extraction
Textmining Information ExtractionTextmining Information Extraction
Textmining Information Extraction
guest0edcaf
 
European Transport Networks
European Transport NetworksEuropean Transport Networks
European Transport Networks
caglarozpinar
 
Information Extraction
Information ExtractionInformation Extraction
Information Extraction
Rubén Izquierdo Beviá
 
Text Mining Infrastructure in R
Text Mining Infrastructure in RText Mining Infrastructure in R
Text Mining Infrastructure in R
Ashraf Uddin
 
Unmanned railway tracking and anti collision system using gsm
Unmanned railway tracking and anti collision  system  using gsmUnmanned railway tracking and anti collision  system  using gsm
Unmanned railway tracking and anti collision system using gsm
vmohankumar5
 

Viewers also liked (20)

Text mining, By Hadi Mohammadzadeh
Text mining, By Hadi MohammadzadehText mining, By Hadi Mohammadzadeh
Text mining, By Hadi Mohammadzadeh
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
32296 23 algoritma tf idf
32296 23 algoritma tf idf32296 23 algoritma tf idf
32296 23 algoritma tf idf
 
Text mining by examples, By Hadi Mohammadzadeh
Text mining by examples, By Hadi MohammadzadehText mining by examples, By Hadi Mohammadzadeh
Text mining by examples, By Hadi Mohammadzadeh
 
Text MIning
Text MIningText MIning
Text MIning
 
Introduction to Text Mining
Introduction to Text MiningIntroduction to Text Mining
Introduction to Text Mining
 
Sentiment analysis
Sentiment analysisSentiment analysis
Sentiment analysis
 
Machine Learning and Data Mining: 19 Mining Text And Web Data
Machine Learning and Data Mining: 19 Mining Text And Web DataMachine Learning and Data Mining: 19 Mining Text And Web Data
Machine Learning and Data Mining: 19 Mining Text And Web Data
 
Text Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter DataText Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter Data
 
Data mining week 1 - pengantar data mining
Data mining   week 1 - pengantar data miningData mining   week 1 - pengantar data mining
Data mining week 1 - pengantar data mining
 
Text Mining Using JBoss Rules
Text Mining Using JBoss RulesText Mining Using JBoss Rules
Text Mining Using JBoss Rules
 
Text Mining with RapidMiner
Text Mining with RapidMinerText Mining with RapidMiner
Text Mining with RapidMiner
 
Data Mining: Text and web mining
Data Mining: Text and web miningData Mining: Text and web mining
Data Mining: Text and web mining
 
Text Mining Analytics 101
Text Mining Analytics 101Text Mining Analytics 101
Text Mining Analytics 101
 
Textmining Information Extraction
Textmining Information ExtractionTextmining Information Extraction
Textmining Information Extraction
 
European Transport Networks
European Transport NetworksEuropean Transport Networks
European Transport Networks
 
Information Extraction
Information ExtractionInformation Extraction
Information Extraction
 
Text Mining Infrastructure in R
Text Mining Infrastructure in RText Mining Infrastructure in R
Text Mining Infrastructure in R
 
Unmanned railway tracking and anti collision system using gsm
Unmanned railway tracking and anti collision  system  using gsmUnmanned railway tracking and anti collision  system  using gsm
Unmanned railway tracking and anti collision system using gsm
 

Recently uploaded

Surat tugas media dayli Batam wartawan Batam
Surat tugas media dayli Batam wartawan BatamSurat tugas media dayli Batam wartawan Batam
Surat tugas media dayli Batam wartawan Batam
TaufikTito
 
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptxMateri Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
syahrulilmi
 
Slide lomba inovas sekolah kabupaten tahun 2024
Slide lomba inovas sekolah kabupaten tahun 2024Slide lomba inovas sekolah kabupaten tahun 2024
Slide lomba inovas sekolah kabupaten tahun 2024
DwihenriSetiawan1
 
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdfMateri Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
ssuser3378b5
 
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
obeyohanes04
 
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi” Oleh : B. HERRY PR...
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi”  Oleh : B. HERRY PR...Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi”  Oleh : B. HERRY PR...
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi” Oleh : B. HERRY PR...
attikahgzl
 
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
MSahrul7
 

Recently uploaded (7)

Surat tugas media dayli Batam wartawan Batam
Surat tugas media dayli Batam wartawan BatamSurat tugas media dayli Batam wartawan Batam
Surat tugas media dayli Batam wartawan Batam
 
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptxMateri Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
Materi Clapeyron-Portal Tak Bergoyang dan Portal Bergoyang.pptx
 
Slide lomba inovas sekolah kabupaten tahun 2024
Slide lomba inovas sekolah kabupaten tahun 2024Slide lomba inovas sekolah kabupaten tahun 2024
Slide lomba inovas sekolah kabupaten tahun 2024
 
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdfMateri Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
Materi Sosialisasi SPI Pendidikan 2024_Wilayah 2.pdf
 
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
MATERI SIAGA PENGAWASAN 24 MEI 2024 MENJELANG PEMILIHAN SERENTAK 2024 YANG BE...
 
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi” Oleh : B. HERRY PR...
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi”  Oleh : B. HERRY PR...Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi”  Oleh : B. HERRY PR...
Rangkuman Buku “KORUPSI Melacak Arti, Menyimak Implikasi” Oleh : B. HERRY PR...
 
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
13-14. P ORTOGONAL_13-30_5_2024 (#5).pptx
 

Text mining

  • 2. KonseptualTextMining Goals: Audiece mengerti & memahami konseptualText mining
  • 4. • Komputational • Visualisasi Statistika • Machine Learning Artificial Intelleigence • Asosiasi • Sekuensial Pattern Recognition • BasisData BasisData Definisi Text Mining Text mining mengacupada pencarian informasi,pertambangandata, mesin- learning, statistik, dan komputasi linguistic terhadap informasiyang disimpansebagaiteks(Bridge, C 2011).
  • 5. Bagaimana Text Mining Bekerja? Kotu –Predictive &Analytic Using RapidMiner 2015 (page:288) – Melakukankonversidata text ke bentuk semi- structured data – Memodelkandata dengan menerapkansalahsatu teknik-teknik clustering,klasifikasidanprediksi. – Menemukan“Pattern”
  • 6. High Level Text Mining Kotu– Predictive &Analytic Using RapidMiner 2015 (page:288) Text Processing
  • 7. 1. Himpunan Data (Pemahaman dan Pengolahan Data) 2. Metode Data Mining (Pilih Metode Sesuai Karakter Data) 3. Pengetahuan (Pola/Model/Rumus/ Tree/Rule/Cluster) 4. Evaluation (Akurasi, AUC, RMSE, Lift Ratio,…) Proses Data Mining DATA PRE-PROCESSING Data Cleaning Data Integration Data Reduction Data Transformation Text Processing Estimation Prediction Classification Clustering Association ProsesText Mining
  • 8. Word, Token & Tokenization – Kata dipisahkan oleh karakter khusus: “spasi” kata disebut token. – Proses diskretisasi kata dalam dokumen disebut tokenization. – Setiap kalimat dapat dianggap sebagai dokumen terpisah, – Dokumen adalahkoleksiberurutan token
  • 9. Matrix of Terms Kotu– Predictive &Analytic Using RapidMiner 2015 (page:288) • We can impose some form of structure on this raw data by creatinga matrix, where: • the columns consist of all the tokens found in the two documents • the cells of the matrix are the counts of the number of times a token appears • Each token is now an attribute in standard data mining parlance and each document is an example
  • 10. Term Document Matrix (TDM) Kotu – Predictive &Analytic Using RapidMiner 2015 (page:288) – Basically, unstructured raw data is now transformed into a format that is recognized, not only by the human users as a data table, but more importantly by all the machine learning algorithms which require such tablesfor training – This table is called a document vector or term document matrix (TDM) and is the cornerstone of the preprocessing required for text mining
  • 11. Term Frequency– Inverse Document Frequency (TF–IDF) Kotu– Predictive & Analytic Using RapidMiner 2015 (page:288) – We could have also chosen to use theTF–IDF scores for each term to create the document vector – N is the number of documentsthat we are trying to mine – Nk is the number of documentsthat contain the keyword,k
  • 12. Stop words – Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini). Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.23 Jul 2008
  • 13. Stemming Stemming (ataumungkin lebih tepatnya lemmatization?)adalah prosesmengubah kata berimbuhan menjadi kata dasar.Aturan- aturan bahasa diterapkan untuk menanggalkanimbuhan-imbuhan itu.Contohnya: – membetulkan ->betul – berpegangan ->pegang – Ada banyak persoalan yang dihadapipada prosesstemming Bahasa Indonesia,di antaranya yaitu: – Imbuhan pada Bahasa Indonesia cukup kompleks,terdiridari: – Prefiks, imbuhan di depan kata:ber-tiga – Suffiks, imbuhan di akhir kata:makan-an – Konfiks,imbuhan di depan dan di akhir kata:per-ubah-an – Infiks, imbuhan di tengah kata:kemilau. – Imbuhan dari bahasa asing:final-isasi,sosial-isasi – Aturan perubahan prefiks,seperti (me-)menjadi (meng-,mem-, men-,meny-)
  • 14. N-Gram http://text- analytics101.rxnlp.com/2014/11 /what-are-n-grams.html N-gram merupakan salah satu proses yang secara luas digunakan dalam text mining (pengolahan teks) dan pengolahan bahasa. Secara N-gram merupakan sekumpulan kata yang diberikan dalam sebuah paragraf dan ketika menghitung n-gram biasanya dilakukan dengan menggerakkan satu kata maju ke depan (Meskipun dalam prosesnya terdapat suatu proses dimana kata yang dimajukan sejumlah X kata). Sebagai contoh terdapat sebuah kaliman “The cow jumps over the moon”. Jika N=2 makan dikenaldengan bigram. Dimana ngram menjadi : – The cow – Cow jumps – Jumps over – Over the – The moon Bisa dilihat daricontoh diatas,dimana kitamemiliki 5 n-gram dalam kasus tersebut. Perhatikan bahwaterjadi pergerakan katatiap dua katayaitudari the-> cow ke cow –> jumps ke jumps -> over dst. Dimana kejadiannyaterjadi secara berurutan dengan cara tiap kata berpindah maju satu kata kedepan untuk membangkitkan n-gram selanjutnya. – Jika terdapat N=3 maka n-gram menjadi sebagai berikut : – The cow jumps – Cow jumps over – Jumps over the – Over themoon
  • 15. N-Gram http://text- analytics101.rxnlp.com/2014/11 /what-are-n-grams.html Berdasarkan kasus di atas terdapat 4 n-gram. Sedangkan jika N=1 maka bisa disebut dengan unigram yang pada dasarnya hanya terdiri dari satu kata dalam sebuah kalimat. Ketika terdiri dari N=2 maka disebut dengan trigram , dan ketika terdir dari N>1 bisa disebut dengan four gram, five gram dan seterusnya. Berapa banyak N-gram dalam sebuah kalimat? – Jika dimisalkan X adalah jumlah kata dalam suatu kalimat K, maka jumlah n-gram dari kalimat K adalah : – NgramsK = X – (N – 1) Digunakan untuk apa itu N-gram? N-gram digunakan dalam berbagai macam proses pengolahan bahasa, n- gram yang digunakan tidak hanya menggunakan unigram tapi model bigram dan trigram juga digunakan. Microsoft dan Google menggunakan model ini untuk pengembangan web mereka beberapa diantaranya digunakan untuk beberapa tugas seperti spelling correction, word breaking dan text summarization dalam web mereka. Bisa dilihat di link berikut tentang pembahasan n-gram pada Microsoft link 1 dan ini merupakan salah satu paper yang berkaitan dengann-gram link 2. Namun tidak hanya dalam hal itu saja n-gram digunakan tapi juga digunakan dalam proses Supervised Mechine Learning seperti MaxEnt , dan Naïve Bayes danlain-lain.
  • 17. CaseStudy Goal: • Audience dapat mengidentifikasi permasalahan pada Textminig (CRIPS-DM Prosedur) • Audience mengerti setiap langkah yang dilakukan pada prosesText mining • Audience dapat mengimplementasikan Text Mining di beberapa case
  • 19. Lakukaneksperimenmengikutibuku MatthewNorth (DataMining forthe Masses) Chapter12(TextMining),p 189-215.
  • 20. Business Understanding – Gillian is a historian and archivist, and she has recently curated an exhibit on the Federalist Papers, the essays that were written and published in the late 1700’s – The essays werepublished anonymously under the author name ‘Publius’,and no one really knew at thetime if ‘Publius’was one individual or many – Years later, after Alexander Hamilton died in the year 1804, some notes were discovered that revealed that he (Hamilton), James Madison and John Jay had been theauthors of the papers – The notes indicated specific authors for some papers, but not for others. Specifically, John Jay was revealed to be the author for papers 3, 4 and 5; Madison for paper 14; and Hamilton for paper 17. Paper 18 had no author named, but there was evidence that Hamilton and Madison worked on that one together – Gillian would like to analyze paper 18’s content in the context of the other papers with known authors, to seeif she can generate some evidence that the suspected collaboration between Hamilton and Madison is in fact a likely scenario – Having studied all of the Federalist Papers and other writings by the three statesmen who wrote them, Gillian feels confident that paper 18 is a collaboration that John Jay did not contribute to—his vocabulary and grammatical structure was quite different from those of Hamilton and Madison
  • 21. Data Understanding – Gillian’s data set is simple: we will include the full text of Federalist Papers number 5 (Jay), 14 (Madison), 17 (Hamilton), and 18 (suspected collaboration between Madison and Hamilton). The Federalist Papers are available through a number of sources: they have been re-published in book form, they are available on a number of different web sites, and their text is archived in many libraries throughout the world. For this chapter’s exercise, the text of these four papers has been added to the book’s companion web site.There are four files for you to download: – Chapter12_Federalist05_Jay.txt – Chapter12_Federalist14_Madison.txt – Chapter12_Federalist17_Hamilton.txt – Chapter12_Federalist18_Collaboration.txt.
  • 26.
  • 27. All four Federalist Paper text files are now connected in Rapid Miner
  • 31. Double click on the Process Documents operator. This will take us into a sub- process window.
  • 33. Removing stop words such as ‘and’, ‘or’, ‘the’, etc. from our model.
  • 34. Setting all tokens (word attributes) from our text to be lowercase.
  • 35. Process documents: 1.Tokenize 2. Filter Stop words 3.Transform Cases 4.Stem (porter)
  • 36. Word list/ Daftar kata menunjukan frekuensi penggunaan kata pada dokumen. Contoh:Kata ”state” digunakan pada 4 dokumen dengan total penggunaan sebanyak 35 kali
  • 38. Hasil Clustering: Ada 2 cluster yaitu cluster 0dan 1. 1.Paper 5 danpaper 18 adalah cluster 0. 2. Paper 14dan 17termasuk cluster 1. Untuk melihat detail documen dengan cara klik icon page.
  • 39. Create documents à Rename (“paper3”) -à Klik editText Buka paper 3pada data set kemudian copydan paste ke dalamedit parameter à apply
  • 40. Hasil Clustering: Paper 3 masuk dalam kelompok cluster 1.Akan tetapi, documen dengan ID =1 author= Jay, Dokumen ID= 3, Hamilton Model inibelum tepat karena CLUSTERING yang dilakukan, menghasilkan pengelompokan yang salah.
  • 41. Untuk menghasilkan CLUSTERING yang benar, maka diperlukan penambahan data training. “paper4Jay”
  • 42. Final cluster results after training our text mining model torecognize John Jay’s writing style. Hasil CLUSTERING, Documen berhasil dikelopokkan berdasarkan Author Madison Hamilton danJay
  • 43. SentimentAnalisis Goals:Audience memahami arti, kebutuhan,tujuan dan ruang lingkup dari SentimentAnalysis
  • 44. 1. Kebutuhan Sentiment Analysis 2. Text Mining untuk Sentiment Analysis 3. Pengolahan kataText Mining menggunakan Machine Learning 4. Studi Kasus Sentiment Analysis Overview
  • 45. Social Media Berbagi Informasi Opini Publik Peran Pengawasan • Meningkatnya penggunaan social media di masyarakat, berdampak pada bertambahnya peran berbagi infromasi di ruang public, yang selanjutnya menyebabkanberkembangnya opini publik. • Kemudian hal tersebut dimanfaatkan menggunakan metoda tertentu untuk tujuan pengawasan terhadap suatu objek. Kebutuhan Sentiment Analysis
  • 46. SentimenAnalisis adalah jenis natural language yaitu pengolahan kata untuk melacak mood masyarakat tentang produk atau topik tertentu.Analisis sentimen, disebut opinion mining. (G.Vinodhini, M.Chandrasekaran 2012) Definisi Sentiment Analysis
  • 47. Keyword Text Mining Visual Text sebagaiObjek yangdi proses menggunakanMetoda Text Mining dan hasilnya dalam representasiVisual. Ruang Lingkup
  • 48. Menemukan Kata kunci 10 DestinasiWisata yang diprioritaskan oleh Kemenpar Pilkada DKI Jakarta Jadwal Ganjil Genap Pemilihan Key Word
  • 49. Pemilihah Sumber data Untuk sentiment. Pemilihan harus berdasar pada kegunaan sosmed. •Ada fasilitas Repost yang memiliki istilah Reshared, jadi kita langsung bisa mengutip sebuah status dari teman yang ada pada circle kita. Ini mirip seperti Retweet di Twitter •-Atur status Status yang kita buat bisa diatur apakah itu tidak boleh dishare kembali atau tidak boleh dikomentari. G+ • media bisnis online melalui jaringan pertemanan yang telah dimiliki. • -Upload gambar mudah, dan bisa dibuat album foto. • -Terdapat aplikasi chat yang membuat pangguna yang sedang online bisa chat dengan temannya yang sedang online juga. • -Pengguna bisa membuat/bergabung dengan group kesukaan/hobi/bisnis/pertemanan yang memungkinkan pembagian informasi lebih spesifik, mudah, dan tepat sasaran. Facebook • Menjangkau tidak hanya antara teman, tetapi komunikasi antara artis dengan fans- nya juga menjadi lebih mudah. • -Komunikasi di twitter terjadi sangat cepat. Sering terjadi berita-berita terupdate, seperti terjadinya suatu bencana misalnya, lebih dahulu didapatkan infonya melalui twitter. • -Terdapat fitur trending topic yang memungkinkan kita untuk mengetahui apa saja yang sedang in atau happening dibicarakan oleh para pengguna twitter. • -Dapat memasarkan produk secara geratis. Twitter •Memperindah foto kita •bisa menshare video •memasarkan produk atau berjualan online Instagram •sharing apa saja yang kita mau, maupun itu lagu, curhatan, foto, tempat/lokasi kita berada. •Path bersifat privasi, tidak seperti facebook dan twitter •Path memiliki 8 Free Filter Lenses utk mempercantik foto/video Path http://suckrockers.blogspot.co.id/2013/12 /sosial-media-beserta-kelebihan- dan.html Pemilihan Sumber Data (Sosmed)
  • 50. Text MininguntukSentiment Analysis ImplementasiTextMininguntuk sentimentanalysis menggunakanAYLIEN CaseStudy
  • 54. Setting Parameter Analyze Sentiment with Aylien AYLIEN Text Analysis API is a package of Natural Language Processing and Machine Learning-powered tools for analyzing and extracting various kinds of information from text and images.
  • 56. Get AYLIEN API KEY https://developer.aylien.co m/admin Menubarà Connection à ManageConncetion