SlideShare a Scribd company logo
1 of 120
Download to read offline
MACHINE LEARNING
DAN TEXT MINING
DEFINISI, PROSES, TOOLS, TOPIK RISET,
DAN IMPLEMENTASI
Ismail Fahmi, Ph.D.
Director Media Kernels Indonesia (Drone Emprit)
Lecturer at the University of Islam Indonesia
Ismail.fahmi@gmail.com
WEBINAR NASIONAL HMTI UBL
16 NOVEMBER 2020
2
1992 – 1997 S1, Teknik Elektro, ITB
2003 – 2004 S2, Information Science, Universitas Groningen, Belanda
2004 – 2009 S3, Information Science, Universitas Groningen, Belanda
2000 – 2003 Inisiator IndonesiaDLN (Digital Library Network pertama di Indonesia)
Mengembangkan Ganesha Digital Library (GDL)
Mendirikan Knowledge Management Research Group (KMRG) ITB
Membangun Digital Library ITB
2009 – Sekarang Engineer di Weborama, Perusahaan berbasis big data (Paris/Amsterdam)
2014 – Sekarang Founder PT. Media Kernels Indonesia, a Drone Emprit Company
2015 – Sekarang Konsultan Perpustakaan Nasional, Inisiator Indonesia OneSearch
2017 – Sekarang Dosen Tetap Magister Teknik Informatika Universitas Islam Indonesia
Ismail Fahmi, Ph.D.
Ismail.fahmi@gmail.com
Lahir: Bojonegoro, 1974
Founder Media Kernels Indonesia
AGENDA
• Machine Learning dan Text Mining
• Arsitektur sistem
• Topik penelitian
• Tools
• Tahapan dalam pengembangan sistem
• Bidang pekerjaan
• Implementasi dalam Drone Emprit
3
UNSTRUCTURED TEXT, GOLD, AND JOBS
DATA GROWTH: UNSTRUCTURED DATA
5
BIG DATA – BIG GROWTH
6
DATA IS THE NEW GOLD
• Ini benar kalau kita bisa
mengolahnya menjadi insight.
• Ini salah kalau kita “mati gaya”
di depan data, tidak punya ide
bagaimana memanfaatkannya.
• Jadi selain data itu sendiri, kita
perlu seorang “Alchemist”
yang bisa mengubahnya
menjadi “emas.”
• Dia adalah: data scientist.
7
8
RECOMMENDED BOOK
9
10
GAJI DATA SCIENTIST
11
MACHINE LEARNING
APA ITU “MACHINE LEARNING”?
13
ARTI “LEARNING”
Learning = Improving with experience at
some task
• Improve over task T ,
• with respect to performance measure P ,
• based on experience E.
E.g., Learn to play checkers
• T : Play checkers
• P : % of games won in world tournament
• E: opportunity to play against self
14
PLAY CHECKERS
• T : Play checkers
• P : Percent of games won in world
tournament
• What experience?
• What exactly should be learned?
• How shall it be represented?
• What specific algorithm to learn it?
15
LEARNED FUNCTION
w0+w1 ! bp(b)+w2 ! rp(b)+w3 !
bk(b)+w4 ! rk(b)+w5 ! bt(b)+w6 ! rt(b)
• bp(b): number of black pieces on
board b
• rp(b): number of red pieces on b
• bk(b): number of black kings on b
• rk(b): number of red kings on b
• bt(b): number of red pieces
threatened by black (i.e., which can
be taken on black's next turn)
• rt(b): number of black pieces
threatened by red
16
b
BEBERAPA ISU DALAM MACHINE LEARNING
• What algorithms can approximate functions well
(and when)?
• How do learning system design factors influence
accuracy?
• number of training examples
• complexity of hypothesis representation
• How does noisy data influence accuracy?
• What are the theoretical limits of learnability?
• How can prior knowledge of learner help?
• What clues can we get from biological learning
systems?
• How can systems alter their own representations?
17
REFERENSI BUKU (RECOMMENDED)
Author – Tom M. Mitchell
Latest Edition – First
Publisher – McGraw Hill Education
Format – Paperback
Machine Learning by Tom M. Mitchell is a fitting book for getting
started with machine learning. It offers a comprehensive overview
of machine learning theorems with pseudocode summaries of the
respective algorithms. The Machine Learning book is full of
examples and case studies to ease a reader’s effort for learning and
grasping ml algorithms.
If you wish to start your career in machine learning, then this book
is a must-have. Thanks to a well-explained narrative, a thorough
explanation of ml basics, and project-oriented homework
assignments, the book on machine learning is a suitable candidate
to be included in any machine learning course or program.
Topics covered
• Genetic algorithms
• Inductive logic programming
• Introduction to primary approaches to machine learning
• Machine learning concepts and techniques
• Re-enforcement learning
18
REFERENSI ONLINE
ONLINE: http://www.cs.cmu.edu/~tom/mlbook-chapter-slides.html
19
TIPE PROBLEM DAN TAHAPAN DALAM
MACHINE LEARNING
TIPE PROBLEM DALAM MACHINE LEARNING
21
SUPERVISED UNSUPERVISED REINFORCEMENT
SUPERVISED LEARNING
22
SUPERVISED LEARNING
23
UNSUPERVISED LEARNING
24
UNSUPERVISED LEARNING
25
REINFORCED LEARNING
26
LANGKAH MEMECAHKAN MASALAH DENGAN
MACHINE LEARNING
27
DATA PREPROCESSING
28
FEATURE SELECTION
29
ALGORITHM SELECTION
30
TRAINING
31
TRAINING DAN PREDIKSI
32
MACHINE LEARNING TRADISIONAL VS DEEP
LEARNING
33
TEXT MINING VS TEXT ANALYTICS
APA ITU “TEXT MINING”?
Text mining is an artificial
intelligence (AI) technology that
uses natural language
processing (NLP) to transform
the free (unstructured) text in
documents and databases into
normalized, structured data
suitable for analysis or to drive
machine learning (ML)
algorithms (text analytics).
35
TEXT MINING TEXT ANALYTICS
DEFINISI
36
FRAMEWORK
37
LANGUAGE
38
CONTOH PROSES
39
TAHAPAN: TEXT MINING VS TEXT ANALYTICS
TEXT MINING
• Information Retrieval
• Data Preparation and Cleaning
• Segmentation
• Tokenization
• Stop-word numbers and
punctuation removal
• Stemming
• Convert to lowercase
• POS tagging
• Create text corpus
• Term-Document matrix
TEXT ANALYTICS
• Modelling (this may include inferential
models, predictive models or
prescriptive models)
• Training and evaluation of models
• Application of these Models
• Visualizing the Models
40
TEXT PROCESSING
RECOMMENDED BOOK
Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics
and Speech Recognition
by Dan Jurafsky and James H. Martin
This book offers a unified vision of speech and language
processing covering statistical and symbolic approaches to
language processing, and presents algorithms and
techniques for speech recognition, spelling and grammar
correction, information extraction, search engines,
machine translation, and the creation of spoken-language
dialog agents.
Target readers:
• Beginners in natural language and speech processing
Why it is good:
• The book provides a solid foundational knowledge as it
introduces linguistics, computer science and statistics at
comprehensive depth.
42
TAHAPAN DALAM NLP
43
BASIC TEXT PROCESSING
• Regular Expressions
• Word Tokenization
• Word Normalization and Stemming
• Sentence Segmentation and Decision Trees
44
45
46
47
48
49
50
51
TEXT PROCESSING (MORE)
• Part-of-speech tagging (POS Tagging)
• Named Entity Recognition (NER)
• Dependency Parser
• Spell Checker
• Sentiment Analysis
52
TOOLS TEXT MINING
LIBRARY ARTIFICIAL INTELLIGENCE
54
AKURASI SPARK NLP (UNTUK NER)
55
KEMAMPUAN SPARK NLP DALAM TEXT
PROCESSING
56
SPARK NLP DAN SPARK ML
57
FITUR SPARK NLP
58
CONTOH: NAMED ENTITY RECOGNITION
59
Inisiasi
Input Text
Anotasi (processing)
Tipe output
NER output
CONTOH: ANNOTATION
60
CONTOH: ANNOTATION (2)
61
SENTIMENT ANALYSIS
62
NAMED ENTITY RECOGNITION
63
FUNGSI YANG SUDAH TERSEDIA
64
NLP DI DRONE EMPRIT / MEDIA KERNELS
ARSITEKTUR SISTEM
Ini adalah gambaran
sistem yang digunakan
untuk membangun
Knowledge Explorer
Indonesia OneSearch
(IOS). Khusus untuk IOS,
sumber datanya adalah
fullteks dalam bentuk
teks abstrak dan file PDF
dari artikel jurnal, tesis,
disertasi, dll.
66
TEKNOLOGI NLP
Teknologi yang digunakan untuk mengekstrak
fakta dari teks menggunakan NLP (Natural
Language Processing), yang meliputi proses-
proses berikut:
• Segmentation
• Part-Of-Speech (POS) Tagging
• Automatic Term Recognition (ATR)
• Named Entity Recognition (NER)
• Term Relationship Extraction
• Syntax Analysis (S-P-O)
67
CONTOH: UNSTRUCTURED TEXT
68
KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201
KEWALIAN DALAM TASAWUF NUSANTARA
Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat
dalam al-Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi
yang kompleks.
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal
bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian,
wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari
kekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dan
cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabian
dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material
yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat dunia metafi
sik yang belum banyak diketahui manusia dan dari sanalah dunia fisik ini dikendalikan.
Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali
Fakultas Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com
SEGMENTATION: PARAGRAPH
69
=====page1=====
-----------par----------
KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201
-----------par----------
KEWALIAN DALAM TASAWUF NUSANTARA
-----------par----------
Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat dalam al-
Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi yang kompleks.
-----------par----------
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaan
dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang
yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagai
penguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang
sesungguhnya tidak lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan
bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi
di balik dunia fi sik terdapat dunia metafi sik yang belum banyak diketahui manusia dan dari
sanalah dunia fi sik ini dikendalikan.
-----------par----------
Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali 1 Fakultas
Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com
SEGMENTATION: SENTENCE
70
-----------par----------
Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal
bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua
pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai
implikasi dari kekeramatan dan wali sebagai penguasa wilayah tertentu.
Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak
lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia
manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi
di balik dunia fisik terdapat dunia metafi sik yang belum banyak diketahui manusia dan
dari sanalah dunia fisik ini dikendalikan.
PART-OF-SPEECH TAGGING
71
----------- par ----------
Sementara_SC dalam_IN kajian_NN tasawuf_VB di_IN Nusantara_NNP ,_Z sebutan_NN
wali_NN ini_PR sudah_MD mulai_VB dikenal_VB bersamaan_VB dengan_IN masuknya_X
Islam_NNP ke_IN negeri_NN ini_PR yang_SC mengacu_VB kepada_IN dua_CD
pengertian_NN ,_Z wali_NN sebagai_IN orang_NN yang_SC memiliki_VB kesaktian-
kesaktian_NN -LRB-_-LRB- occulties_FW -RRB-_-RRB- sebagai_IN implikasi_NN dari_IN
kekeramatan_NN dan_CC wali_NN sebagai_IN penguasa_NN wilayah_NN tertentu_PR ._Z
Terlepas_VB dari_IN pengertian_NN dan_CC cakupannya_NN ,_Z ajaran_NN kewalian_NN
yang_SC sesungguhnya_RB tidak_NEG lepas_VB dari_IN ajaran_NN tentang_IN
kenabian_NN dan_CC kerasulan_NN yang_SC menyiratkan_VB pesan_NN bahwa_SC
dunia_NN manusia_NN bukan_NEG hanya_RB dunia_NN material_NN yang_SC identik_JJ
dengan_SC kenikmatan_NN hedonis_JJ ,_Z tetapi_CC di_IN balik_NN dunia_NN fi_X sik_X
terdapat_VB dunia_NN metafi_VB sik_X yang_SC belum_NEG banyak_CD diketahui_VB
manusia_NN dan_CC dari_IN sanalah_NN dunia_NN fi_X sik_X ini_PR dikendalikan_VB ._Z
S-P-O TRIPLE
Grafik di kanan ini adalah tree-map, dari
relasi subyek, predikat, dan obyek yang
berhasil diekstrak dari fullteks.
Manfaat dari tree map ini adalah
pengguna bisa mendapat insight
dengan cepat tentang:
• Aktor person, organisasi, konsep
(subyek)
• Aktifitas terkait dengan aktor
• Obyek atau related entitis terkait
aktivitas subyek.
72
S
P
O
CO-OCCURRENCE ANTAR KONSEP
• Menampilkan aktor, lokasi, dan istilah
penting yang sering muncul
bersamaan (dalam kalimat atau
paragraph yang sama).
• Co-occurrence menjadi indikasi
adanya korelasi yang kuat antar pelaku
dan istilah.
• Namun, jenis korelasinya apa, belum
bisa dilihat di sini.
73
DIRECTED GRAPH
Grafik ini menghubungkan
Subyek dan Obyek yang
saling berhubungan
melalui predikat. Dalam
grafik, predikat
ditampilkan sebagai garis
yang memiliki anak panah,
dari subyek ke obyek.
Relasi antar S dan O
dalam sebuah knowledge
base yang besar bisa
memperlihatkan relasi
dalam lingkup yang lebih
besar.
74
FACTMINER DRONE EMPRIT
DIAGRAM SISTEM
76
Berita Online
Natural
Language
Processing
Engine
Person, Organization,
Location, Time,
S-P-O Relationship
Laporan Internal
Dokumen Lainnya
Semantic
Search
Engine
Visualization
CONTOH PENCARIAN: DEMO, UNJUK RASA
77
Tren “demo atau unjuk rasa” selama tahun 2020 hingga hari ini. Kecenderungan naik mulai bulan Mei 2020.
Siapa tokoh dalam berita dan organisasi diekstrak dari dokumen.
ENTITAS PERISTIWA, WAKTU, DAN LOKASI
78
Selain tokoh dan organisasi, FactMiner juga mengekstrak peristiwa dalam berita, waktu, dan lokasi.
CONTOH FAKTA DARI ARTIKEL
79Dalam kalimat mana di dokumen sumber terdapat kata kunci yang dicari.
EKSPLORASI PERISTIWA DALAM DOKUMEN
80
Subyek
Predikat
Obyek
Contoh:
Subyek = buruh
Predikat = menolak
Obyek = sebagian
besar tentang
Omnibus Law, UU
Cilaka, Kenaikan
BPJS
CONTOH: MAHASISWA MENOLAK
81
Subyek
Predikat
Obyek
SEBARAN PERISTIWA DEMO DI INDONESIA
82
CONTOH DETAIL BERITA DI “MALUKU UTARA”
83
CONTOH DETAIL BERITA DI “PAPUA BARAT”
84
MELIHAT CO-OCCURRENCE ANTARA SUBYEK-
OBYEK
85
EKSPLORASI GRAPH DARI RELASI S-P-O
86
ZOOM “FERDINAND”, LALU “EXPAND”
87
SENTIMENT ANALYSIS
SENTIMENT ANALYSIS
89
Positif
Negatif
Netral
?
MENTIONS
SENTIMENT ANALYSIS
90
Positif
?
MENTIONS
Untuk Setya Novanto
SENTIMENT ANALYSIS
91
Negatif?
MENTIONS
Untuk KPK
SENTIMENT ANALYSIS
92
Netral
?
MENTIONS
Untuk Hakim Cepi Iskandar
EVALUASI
93
http://www.sciencedirect.com/science/article/pii/S2090447914000550
”one model for all” tidak bisa
memberi label yang tepat untuk
setiap subyek.
Lexicon base tergantung dari
keberadaan kata dalam kamus sentimen,
tidak bisa memberi label yang tepat
untuk subyek yang berbeda.
SENTIMENT ANALYSIS TOOLS
94
https://breakthroughanalysis.com/2012/01/08/what-are-
the-most-powerful-open-source-sentiment-analysis-tools/
Text Mining
Module
SENTIMENT ANALYSIS: DRONE EMPRIT
95
Adaptive Multiple Models
DEMOGRAPHY ANALYSIS
97
Features
98
GITHUB LIBRARY
99
https://github.com/euagendas/m3inference
BOT ANALYSIS
BOTOMETER
Botometer adalah tools yang dibuat Indiana University untuk mengecek aktivitas sebuah akun di Twitter dan
memberi score seberapa besar probabilitas akun itu merupakan bot. Semakin besar scorenya, semakin tinggi
kemungkinan itu bot.
101
DRONE EMPRIT + BOTOMETER
Untuk menentukan score bot dari akun-akun yang muncul dalam percakapan, Drone Emprit menggunakan layanan Botometer
API. Setiap akun diambil profilenya, plus 200 cuitan terakhir, lalu dikirim ke server API Botometer. Response dari API adalah
score bot dari akun tersebut. Ini dilakukan untuk setiap akun, sehingga butuh waktu lama untuk menyelesaikan identifikasi bot
dari semua akun.
102
Botometer
Profile + 200 twits
Bot scores
https://rapidapi.com/OSoMe/api/botometer
API
HOW IT WORKS
• Botometer is a machine learning algorithm trained to classify an
account as bot or human based on tens of thousands of labeled
examples.
• When you check an account, you fetches its public profile and
hundreds of its public tweets and mentions using the Twitter API.
• This data is passed to the Botometer API, which extracts about
1,200 features to characterize the account's profile, friends, social
network structure, temporal activity patterns, language, and
sentiment.
• Finally, the features are used by various machine learning models
to compute the bot scores.
103
VISUALISASI HASIL BOT ANALYSIS
104
HUMAN
CYBORG
ROBOT
AI UNTUK MENDETEKSI ROBOT DI TWITTER
TiLiK
HUMAN ROBOT
HUMAN ROBOT
HUMAN ROBOT
HUMAN ROBOT
PETA PERCAKAPAN “JEJAK KHILAFAH”
106
Pro Pemerintah
Pro Oposisi
Pro Khilafah (HTI)
robot
robot
CONTOH AKUN ROBOT
107
AKSI ROBOT-ROBOT DI TWITTER
REGEX: EMOTION ANALYSIS
MENGGALI LEBIH DALAM EMOSI PUBLIK DALAM
PERCAKAPAN
• Secara kolosal, dari semua perakapan, kita bisa melihat tren emosi
publik terhadap sebuah isu tertentu.
• Dengan analisis emosi ini, kita bisa tahu:
• Apakah publik cenderung: percaya, tidak percaya, takut, senang, sedih,
marah, jijik, terkejut, atau penuh harapan?
• Apa yang membuat publik merasa percaya, takut, atau marah?
• Bagaimana tren emosi tertentu, dihubungkan dengan peristiwa yang
tengah terjadi?
• Untuk mengetahui emosi publik kita bisa menggunakan:
110
PLUTCHIK’S WHEEL OF EMOTIONS
111
https://www.6seconds.org/2017/04/27/plu
tchiks-model-of-emotions/
LEXICON BASED ANALYSIS
• JOY
• senang, bahagia, suka, seneng, hepi, menyenangkan, happy,
menggembirakan, gembira, fun, sukacita, riang, ceria, …
• TRUST
• FEAR
• SURPRISE
• SADNESS
• DISGUST
• ANGER
• ANTICIPATION
112
EMOSI: TIDAK YAKIN DENGAN KESIAPAN SARANA &
LAYANAN KESEHATAN, KURVA BELUM TURUN
113
Tidak yakin, karena:
• Kasus korona masih tinggi
(misal Surabaya).
• Negara lain mulai saat kurva
melandai, Indonesia masih naik.
• Potensi gelombang ke-2
corona.
• Jumlah test masih kecil.
• Seperti perang tanpa senjata.
Kasus korona masih
tinggi
Kurva masih naik
Potensi gelombang
kedua
Test masih kecil
Perang tanpa
senjata
TREN EMOSI
114
Tidak disiplin
Perlu sosialisasi dulu Kurva masih naik
Selamatkan Ekonomi
Kesiapan BUMN
TOPIK PENELITIAN
SOME TOPICS
• Question Answering System
• Extracting Terms from Text
• Extracting Term Variation
• Extracting Synonyms
• Extracting Abbreviations
• Learning and Extracting Relations
• Identifying Definitional Sentences Using Machine Learning
• Hoax Detection
• Sentiment Analysis
• Emotion Analysis
• Named Entity Recognition
• Etc
116
MY DISSERTATION
117
SITASI DRONE EMPRIT
HOW TO CITE DRONE EMPRIT?
For Drone Emprit Academic
If you use data directly from Drone Emprit Academic dashboard
(academic.droneemprit.id), use this citation:
Fahmi, I. (2018). Drone Emprit Academic: Software for social media monitoring and
analytics. Available at http://dea.uii.ac.id.
For Drone Emprit
If you use data from Ismail Fahmi's analyses shared on the Internet
(Twitter, Facebook, or Slideshare), use this citation:
Fahmi, I. (2016). Drone Emprit: Software for media monitoring and analytics.
Available at http://pers.droneemprit.id.
119
Source:
https://pers.droneemprit.id/how-to-cite-drone-emprit/
THANK YOU
Ismail Fahmi, PhD.

More Related Content

What's hot

5 Macam Metode Dasar Kriptografi
5 Macam Metode Dasar Kriptografi5 Macam Metode Dasar Kriptografi
5 Macam Metode Dasar Kriptografi
Roziq Bahtiar
 
Bab 2 Aljabar Relasional
Bab 2   Aljabar RelasionalBab 2   Aljabar Relasional
Bab 2 Aljabar Relasional
Ratzman III
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
ArdianDwiPraba
 

What's hot (20)

Data mining
Data miningData mining
Data mining
 
Service oriented architecture
Service oriented architectureService oriented architecture
Service oriented architecture
 
01 Pengatantar Basis Data
01 Pengatantar Basis Data01 Pengatantar Basis Data
01 Pengatantar Basis Data
 
Data mining 2 exploratory data analysis
Data mining 2   exploratory data analysisData mining 2   exploratory data analysis
Data mining 2 exploratory data analysis
 
Strategi Testing System
Strategi Testing SystemStrategi Testing System
Strategi Testing System
 
Social Media Analytics dengan Drone Emprit
Social Media Analytics dengan Drone EmpritSocial Media Analytics dengan Drone Emprit
Social Media Analytics dengan Drone Emprit
 
Materi 7 Context Free Grammar
Materi 7   Context Free Grammar Materi 7   Context Free Grammar
Materi 7 Context Free Grammar
 
Jeroan Drone Emprit: NLP, Sentiment, Emotion, Bot, dan Demography Analysis
Jeroan Drone Emprit: NLP, Sentiment, Emotion, Bot, dan Demography AnalysisJeroan Drone Emprit: NLP, Sentiment, Emotion, Bot, dan Demography Analysis
Jeroan Drone Emprit: NLP, Sentiment, Emotion, Bot, dan Demography Analysis
 
Data mining 8 estimasi linear regression
Data mining 8   estimasi linear regressionData mining 8   estimasi linear regression
Data mining 8 estimasi linear regression
 
Project Charter Sistem Informasi Posko Keamanan
Project Charter Sistem Informasi Posko KeamananProject Charter Sistem Informasi Posko Keamanan
Project Charter Sistem Informasi Posko Keamanan
 
Drone Emprit: Konsep dan Teknologi
Drone Emprit: Konsep dan TeknologiDrone Emprit: Konsep dan Teknologi
Drone Emprit: Konsep dan Teknologi
 
5 Macam Metode Dasar Kriptografi
5 Macam Metode Dasar Kriptografi5 Macam Metode Dasar Kriptografi
5 Macam Metode Dasar Kriptografi
 
Bab 2 Aljabar Relasional
Bab 2   Aljabar RelasionalBab 2   Aljabar Relasional
Bab 2 Aljabar Relasional
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)
 
Teknik Enkripsi dan Dekripsi Playfair Cipher
Teknik Enkripsi dan Dekripsi Playfair CipherTeknik Enkripsi dan Dekripsi Playfair Cipher
Teknik Enkripsi dan Dekripsi Playfair Cipher
 
Presentasi Kriptografi dan LCG (Sistem Pembangkit Bilangan Acak)
Presentasi Kriptografi dan LCG (Sistem Pembangkit Bilangan Acak)Presentasi Kriptografi dan LCG (Sistem Pembangkit Bilangan Acak)
Presentasi Kriptografi dan LCG (Sistem Pembangkit Bilangan Acak)
 
Sistem berbasis pengetahuan
Sistem berbasis pengetahuanSistem berbasis pengetahuan
Sistem berbasis pengetahuan
 
Uji kruskal wallis
Uji kruskal wallisUji kruskal wallis
Uji kruskal wallis
 
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v27. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
7. ta 2021-07-visualisasi-modul-ariw-2021-07-17-v2
 
Data mining 7 klasifikasi k nearest neighbor and pseudo k nn
Data mining 7   klasifikasi k nearest neighbor and pseudo k nnData mining 7   klasifikasi k nearest neighbor and pseudo k nn
Data mining 7 klasifikasi k nearest neighbor and pseudo k nn
 

Similar to Machine Learning, Text Mining, dan Text Analytics

Silabus pemrograman dasar sugiarto smkn2 depok
Silabus  pemrograman dasar sugiarto smkn2 depok Silabus  pemrograman dasar sugiarto smkn2 depok
Silabus pemrograman dasar sugiarto smkn2 depok
Anny Rohyani
 
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docxpdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
ilyasfatma
 
Penyusunan kurikulum informatika itb 2013
Penyusunan kurikulum informatika itb 2013Penyusunan kurikulum informatika itb 2013
Penyusunan kurikulum informatika itb 2013
Yudi Herdiana
 

Similar to Machine Learning, Text Mining, dan Text Analytics (20)

Linguistik Komputasi
Linguistik KomputasiLinguistik Komputasi
Linguistik Komputasi
 
Silabus mata pelajaran simkomdig 2018
Silabus mata pelajaran simkomdig 2018Silabus mata pelajaran simkomdig 2018
Silabus mata pelajaran simkomdig 2018
 
Silabus smk-2017-terbaru simdig-kimia-fsk
Silabus smk-2017-terbaru simdig-kimia-fskSilabus smk-2017-terbaru simdig-kimia-fsk
Silabus smk-2017-terbaru simdig-kimia-fsk
 
Silabus pemrograman dasar sugiarto smkn2 depok
Silabus  pemrograman dasar sugiarto smkn2 depok Silabus  pemrograman dasar sugiarto smkn2 depok
Silabus pemrograman dasar sugiarto smkn2 depok
 
RPS Alih Teknologi Pemberdayaan Masyarakat.pdf
RPS Alih Teknologi Pemberdayaan Masyarakat.pdfRPS Alih Teknologi Pemberdayaan Masyarakat.pdf
RPS Alih Teknologi Pemberdayaan Masyarakat.pdf
 
Seminar virtual reality
Seminar virtual realitySeminar virtual reality
Seminar virtual reality
 
KISI-KISI DAN KARTU SOAL INFORMATIKA PAKET A.docx
KISI-KISI DAN KARTU SOAL INFORMATIKA PAKET A.docxKISI-KISI DAN KARTU SOAL INFORMATIKA PAKET A.docx
KISI-KISI DAN KARTU SOAL INFORMATIKA PAKET A.docx
 
Ki kd tkj kelas x xi dan xii
Ki kd tkj kelas x xi dan xiiKi kd tkj kelas x xi dan xii
Ki kd tkj kelas x xi dan xii
 
Memulai Karir sebagai Machine Learning Developer - Tia Dwi Setiani
Memulai Karir sebagai Machine Learning Developer - Tia Dwi SetianiMemulai Karir sebagai Machine Learning Developer - Tia Dwi Setiani
Memulai Karir sebagai Machine Learning Developer - Tia Dwi Setiani
 
SEMINAR: PARADIGMA PEMBELAJARAN ONLINE
SEMINAR: PARADIGMA PEMBELAJARAN ONLINESEMINAR: PARADIGMA PEMBELAJARAN ONLINE
SEMINAR: PARADIGMA PEMBELAJARAN ONLINE
 
Intro-NLP.pdf
Intro-NLP.pdfIntro-NLP.pdf
Intro-NLP.pdf
 
ChatGPT-Nizar.pdf
ChatGPT-Nizar.pdfChatGPT-Nizar.pdf
ChatGPT-Nizar.pdf
 
RPS OOP
RPS OOPRPS OOP
RPS OOP
 
Silabus simdig smk
Silabus simdig smkSilabus simdig smk
Silabus simdig smk
 
ARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptxARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptx
 
16 silabus t-mikroprosesor
16 silabus t-mikroprosesor16 silabus t-mikroprosesor
16 silabus t-mikroprosesor
 
algoritma dan pemrograman part 1
 algoritma dan pemrograman part 1 algoritma dan pemrograman part 1
algoritma dan pemrograman part 1
 
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docxpdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
pdf-format-kisi-soal-kelas-x-1718-pemograman-dasar (1).docx
 
Penyusunan kurikulum informatika itb 2013
Penyusunan kurikulum informatika itb 2013Penyusunan kurikulum informatika itb 2013
Penyusunan kurikulum informatika itb 2013
 
Rpp pemrograman dasar kelas 10 semester ganjil
Rpp pemrograman dasar kelas 10 semester ganjilRpp pemrograman dasar kelas 10 semester ganjil
Rpp pemrograman dasar kelas 10 semester ganjil
 

More from Ismail Fahmi

ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS - TWITTER 3 – 4 Februari 2024
ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS  - TWITTER 3 – 4 Februari 2024ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS  - TWITTER 3 – 4 Februari 2024
ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS - TWITTER 3 – 4 Februari 2024
Ismail Fahmi
 

More from Ismail Fahmi (20)

HARNESSING AI FOR ENHANCED MEDIA ANALYSIS A CASE STUDY ON CHATGPT AT DRONE EM...
HARNESSING AI FOR ENHANCED MEDIA ANALYSIS A CASE STUDY ON CHATGPT AT DRONE EM...HARNESSING AI FOR ENHANCED MEDIA ANALYSIS A CASE STUDY ON CHATGPT AT DRONE EM...
HARNESSING AI FOR ENHANCED MEDIA ANALYSIS A CASE STUDY ON CHATGPT AT DRONE EM...
 
RESPONSE NETIZEN ATAS SIDANG PUTUSAN PHPU MK 2024
RESPONSE NETIZEN ATAS SIDANG PUTUSAN PHPU MK 2024RESPONSE NETIZEN ATAS SIDANG PUTUSAN PHPU MK 2024
RESPONSE NETIZEN ATAS SIDANG PUTUSAN PHPU MK 2024
 
Different Frontiers of Social Media War in Indonesia Elections 2024
Different Frontiers of Social Media War in Indonesia Elections 2024Different Frontiers of Social Media War in Indonesia Elections 2024
Different Frontiers of Social Media War in Indonesia Elections 2024
 
ANALISIS ISU KECURANGAN PEMILU DI MEDIA SOSIAL & ONLINE
ANALISIS ISU KECURANGAN PEMILU DI MEDIA SOSIAL & ONLINEANALISIS ISU KECURANGAN PEMILU DI MEDIA SOSIAL & ONLINE
ANALISIS ISU KECURANGAN PEMILU DI MEDIA SOSIAL & ONLINE
 
ANALISIS SIREKAP DI MEDIA SOSIAL TWITTER, TIKTOK, YOUTUBE 14-15 FEBRUARI 2024
ANALISIS SIREKAP DI MEDIA SOSIAL TWITTER, TIKTOK, YOUTUBE 14-15 FEBRUARI 2024ANALISIS SIREKAP DI MEDIA SOSIAL TWITTER, TIKTOK, YOUTUBE 14-15 FEBRUARI 2024
ANALISIS SIREKAP DI MEDIA SOSIAL TWITTER, TIKTOK, YOUTUBE 14-15 FEBRUARI 2024
 
SUARA NETIZEN HARI PENCOBLOSAN PEMILU 2024
SUARA NETIZEN HARI PENCOBLOSAN PEMILU 2024SUARA NETIZEN HARI PENCOBLOSAN PEMILU 2024
SUARA NETIZEN HARI PENCOBLOSAN PEMILU 2024
 
TIGA CAPRES DI DALAM PLATFORM SNACK VIDEO 5-12 FEBRUARI 2024
TIGA CAPRES DI DALAM PLATFORM SNACK VIDEO  5-12 FEBRUARI 2024TIGA CAPRES DI DALAM PLATFORM SNACK VIDEO  5-12 FEBRUARI 2024
TIGA CAPRES DI DALAM PLATFORM SNACK VIDEO 5-12 FEBRUARI 2024
 
DIRTY VOTE TWITTER, NEWS, TIKTOK 10-12 Februari 2024
DIRTY VOTE TWITTER, NEWS, TIKTOK 10-12 Februari 2024DIRTY VOTE TWITTER, NEWS, TIKTOK 10-12 Februari 2024
DIRTY VOTE TWITTER, NEWS, TIKTOK 10-12 Februari 2024
 
UPDATE JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
UPDATE JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024UPDATE JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
UPDATE JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
 
JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
JIS VS GBK DALAM KAMPANYE TERAKHIR PILPRES 2024
 
PERBANDINGAN KETIGA PASLON PASCA DEBAT DI YOUTUBE 4 - 6 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON PASCA DEBAT DI YOUTUBE 4 - 6 FEBRUARI 2024PERBANDINGAN KETIGA PASLON PASCA DEBAT DI YOUTUBE 4 - 6 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON PASCA DEBAT DI YOUTUBE 4 - 6 FEBRUARI 2024
 
TREN JUMLAH VIDEO PER JAM DI TIKTOK 1 – 5 FEBRUARI 2024
TREN JUMLAH VIDEO PER JAM DI TIKTOK 1 – 5 FEBRUARI 2024TREN JUMLAH VIDEO PER JAM DI TIKTOK 1 – 5 FEBRUARI 2024
TREN JUMLAH VIDEO PER JAM DI TIKTOK 1 – 5 FEBRUARI 2024
 
ANALISIS DEBAT KELIMA CAPRES PEMILU 2024 - 4 FEBRUARI 2024
ANALISIS DEBAT KELIMA CAPRES PEMILU 2024 - 4 FEBRUARI 2024ANALISIS DEBAT KELIMA CAPRES PEMILU 2024 - 4 FEBRUARI 2024
ANALISIS DEBAT KELIMA CAPRES PEMILU 2024 - 4 FEBRUARI 2024
 
ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS - TWITTER 3 – 4 Februari 2024
ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS  - TWITTER 3 – 4 Februari 2024ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS  - TWITTER 3 – 4 Februari 2024
ANALISIS PRA DEBAT KELIMA CAPRES PEMILU 2024 NEWS - TWITTER 3 – 4 Februari 2024
 
PERBANDINGAN KETIGA PASLON DI YOUTUBE - 25 JANUARI - 3 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON DI YOUTUBE - 25 JANUARI - 3 FEBRUARI 2024PERBANDINGAN KETIGA PASLON DI YOUTUBE - 25 JANUARI - 3 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON DI YOUTUBE - 25 JANUARI - 3 FEBRUARI 2024
 
ANALISIS KONTEN DAN INTERAKSI KETIGA PASLON DI TIKTOK 1-3 FEBRUARI 2024
ANALISIS KONTEN DAN INTERAKSI KETIGA PASLON DI TIKTOK 1-3 FEBRUARI 2024ANALISIS KONTEN DAN INTERAKSI KETIGA PASLON DI TIKTOK 1-3 FEBRUARI 2024
ANALISIS KONTEN DAN INTERAKSI KETIGA PASLON DI TIKTOK 1-3 FEBRUARI 2024
 
PERBANDINGAN KETIGA PASLON DI TIKTOK - 21 JANUARI - 3 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON DI TIKTOK - 21 JANUARI - 3 FEBRUARI 2024PERBANDINGAN KETIGA PASLON DI TIKTOK - 21 JANUARI - 3 FEBRUARI 2024
PERBANDINGAN KETIGA PASLON DI TIKTOK - 21 JANUARI - 3 FEBRUARI 2024
 
PERBANDINGAN KETIGA PASLON DI INSTAGRAM DARI 21 JAN-3 FEB 2024
PERBANDINGAN KETIGA PASLON DI INSTAGRAM DARI 21 JAN-3 FEB 2024PERBANDINGAN KETIGA PASLON DI INSTAGRAM DARI 21 JAN-3 FEB 2024
PERBANDINGAN KETIGA PASLON DI INSTAGRAM DARI 21 JAN-3 FEB 2024
 
MUNDURNYA MAHFUD MD SEBAGAI MENKOPOLHUKAM
MUNDURNYA MAHFUD MD SEBAGAI MENKOPOLHUKAMMUNDURNYA MAHFUD MD SEBAGAI MENKOPOLHUKAM
MUNDURNYA MAHFUD MD SEBAGAI MENKOPOLHUKAM
 
ANALISIS TRENDING TOPIC HARIAN INDONESIA DAN CAPRES 02
ANALISIS TRENDING TOPIC HARIAN INDONESIA DAN CAPRES 02ANALISIS TRENDING TOPIC HARIAN INDONESIA DAN CAPRES 02
ANALISIS TRENDING TOPIC HARIAN INDONESIA DAN CAPRES 02
 

Machine Learning, Text Mining, dan Text Analytics

  • 1. MACHINE LEARNING DAN TEXT MINING DEFINISI, PROSES, TOOLS, TOPIK RISET, DAN IMPLEMENTASI Ismail Fahmi, Ph.D. Director Media Kernels Indonesia (Drone Emprit) Lecturer at the University of Islam Indonesia Ismail.fahmi@gmail.com WEBINAR NASIONAL HMTI UBL 16 NOVEMBER 2020
  • 2. 2 1992 – 1997 S1, Teknik Elektro, ITB 2003 – 2004 S2, Information Science, Universitas Groningen, Belanda 2004 – 2009 S3, Information Science, Universitas Groningen, Belanda 2000 – 2003 Inisiator IndonesiaDLN (Digital Library Network pertama di Indonesia) Mengembangkan Ganesha Digital Library (GDL) Mendirikan Knowledge Management Research Group (KMRG) ITB Membangun Digital Library ITB 2009 – Sekarang Engineer di Weborama, Perusahaan berbasis big data (Paris/Amsterdam) 2014 – Sekarang Founder PT. Media Kernels Indonesia, a Drone Emprit Company 2015 – Sekarang Konsultan Perpustakaan Nasional, Inisiator Indonesia OneSearch 2017 – Sekarang Dosen Tetap Magister Teknik Informatika Universitas Islam Indonesia Ismail Fahmi, Ph.D. Ismail.fahmi@gmail.com Lahir: Bojonegoro, 1974 Founder Media Kernels Indonesia
  • 3. AGENDA • Machine Learning dan Text Mining • Arsitektur sistem • Topik penelitian • Tools • Tahapan dalam pengembangan sistem • Bidang pekerjaan • Implementasi dalam Drone Emprit 3
  • 6. BIG DATA – BIG GROWTH 6
  • 7. DATA IS THE NEW GOLD • Ini benar kalau kita bisa mengolahnya menjadi insight. • Ini salah kalau kita “mati gaya” di depan data, tidak punya ide bagaimana memanfaatkannya. • Jadi selain data itu sendiri, kita perlu seorang “Alchemist” yang bisa mengubahnya menjadi “emas.” • Dia adalah: data scientist. 7
  • 8. 8
  • 10. 10
  • 13. APA ITU “MACHINE LEARNING”? 13
  • 14. ARTI “LEARNING” Learning = Improving with experience at some task • Improve over task T , • with respect to performance measure P , • based on experience E. E.g., Learn to play checkers • T : Play checkers • P : % of games won in world tournament • E: opportunity to play against self 14
  • 15. PLAY CHECKERS • T : Play checkers • P : Percent of games won in world tournament • What experience? • What exactly should be learned? • How shall it be represented? • What specific algorithm to learn it? 15
  • 16. LEARNED FUNCTION w0+w1 ! bp(b)+w2 ! rp(b)+w3 ! bk(b)+w4 ! rk(b)+w5 ! bt(b)+w6 ! rt(b) • bp(b): number of black pieces on board b • rp(b): number of red pieces on b • bk(b): number of black kings on b • rk(b): number of red kings on b • bt(b): number of red pieces threatened by black (i.e., which can be taken on black's next turn) • rt(b): number of black pieces threatened by red 16 b
  • 17. BEBERAPA ISU DALAM MACHINE LEARNING • What algorithms can approximate functions well (and when)? • How do learning system design factors influence accuracy? • number of training examples • complexity of hypothesis representation • How does noisy data influence accuracy? • What are the theoretical limits of learnability? • How can prior knowledge of learner help? • What clues can we get from biological learning systems? • How can systems alter their own representations? 17
  • 18. REFERENSI BUKU (RECOMMENDED) Author – Tom M. Mitchell Latest Edition – First Publisher – McGraw Hill Education Format – Paperback Machine Learning by Tom M. Mitchell is a fitting book for getting started with machine learning. It offers a comprehensive overview of machine learning theorems with pseudocode summaries of the respective algorithms. The Machine Learning book is full of examples and case studies to ease a reader’s effort for learning and grasping ml algorithms. If you wish to start your career in machine learning, then this book is a must-have. Thanks to a well-explained narrative, a thorough explanation of ml basics, and project-oriented homework assignments, the book on machine learning is a suitable candidate to be included in any machine learning course or program. Topics covered • Genetic algorithms • Inductive logic programming • Introduction to primary approaches to machine learning • Machine learning concepts and techniques • Re-enforcement learning 18
  • 20. TIPE PROBLEM DAN TAHAPAN DALAM MACHINE LEARNING
  • 21. TIPE PROBLEM DALAM MACHINE LEARNING 21 SUPERVISED UNSUPERVISED REINFORCEMENT
  • 27. LANGKAH MEMECAHKAN MASALAH DENGAN MACHINE LEARNING 27
  • 33. MACHINE LEARNING TRADISIONAL VS DEEP LEARNING 33
  • 34. TEXT MINING VS TEXT ANALYTICS
  • 35. APA ITU “TEXT MINING”? Text mining is an artificial intelligence (AI) technology that uses natural language processing (NLP) to transform the free (unstructured) text in documents and databases into normalized, structured data suitable for analysis or to drive machine learning (ML) algorithms (text analytics). 35 TEXT MINING TEXT ANALYTICS
  • 40. TAHAPAN: TEXT MINING VS TEXT ANALYTICS TEXT MINING • Information Retrieval • Data Preparation and Cleaning • Segmentation • Tokenization • Stop-word numbers and punctuation removal • Stemming • Convert to lowercase • POS tagging • Create text corpus • Term-Document matrix TEXT ANALYTICS • Modelling (this may include inferential models, predictive models or prescriptive models) • Training and evaluation of models • Application of these Models • Visualizing the Models 40
  • 42. RECOMMENDED BOOK Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition by Dan Jurafsky and James H. Martin This book offers a unified vision of speech and language processing covering statistical and symbolic approaches to language processing, and presents algorithms and techniques for speech recognition, spelling and grammar correction, information extraction, search engines, machine translation, and the creation of spoken-language dialog agents. Target readers: • Beginners in natural language and speech processing Why it is good: • The book provides a solid foundational knowledge as it introduces linguistics, computer science and statistics at comprehensive depth. 42
  • 44. BASIC TEXT PROCESSING • Regular Expressions • Word Tokenization • Word Normalization and Stemming • Sentence Segmentation and Decision Trees 44
  • 45. 45
  • 46. 46
  • 47. 47
  • 48. 48
  • 49. 49
  • 50. 50
  • 51. 51
  • 52. TEXT PROCESSING (MORE) • Part-of-speech tagging (POS Tagging) • Named Entity Recognition (NER) • Dependency Parser • Spell Checker • Sentiment Analysis 52
  • 55. AKURASI SPARK NLP (UNTUK NER) 55
  • 56. KEMAMPUAN SPARK NLP DALAM TEXT PROCESSING 56
  • 57. SPARK NLP DAN SPARK ML 57
  • 59. CONTOH: NAMED ENTITY RECOGNITION 59 Inisiasi Input Text Anotasi (processing) Tipe output NER output
  • 64. FUNGSI YANG SUDAH TERSEDIA 64
  • 65. NLP DI DRONE EMPRIT / MEDIA KERNELS
  • 66. ARSITEKTUR SISTEM Ini adalah gambaran sistem yang digunakan untuk membangun Knowledge Explorer Indonesia OneSearch (IOS). Khusus untuk IOS, sumber datanya adalah fullteks dalam bentuk teks abstrak dan file PDF dari artikel jurnal, tesis, disertasi, dll. 66
  • 67. TEKNOLOGI NLP Teknologi yang digunakan untuk mengekstrak fakta dari teks menggunakan NLP (Natural Language Processing), yang meliputi proses- proses berikut: • Segmentation • Part-Of-Speech (POS) Tagging • Automatic Term Recognition (ATR) • Named Entity Recognition (NER) • Term Relationship Extraction • Syntax Analysis (S-P-O) 67
  • 68. CONTOH: UNSTRUCTURED TEXT 68 KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201 KEWALIAN DALAM TASAWUF NUSANTARA Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat dalam al-Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi yang kompleks. Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat dunia metafi sik yang belum banyak diketahui manusia dan dari sanalah dunia fisik ini dikendalikan. Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali Fakultas Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com
  • 69. SEGMENTATION: PARAGRAPH 69 =====page1===== -----------par---------- KANZ PHILOSOPHIA, Volume 3, Number 2, December 2013 201 -----------par---------- KEWALIAN DALAM TASAWUF NUSANTARA -----------par---------- Artikel ini mendiskusikan dokrin Kewalian (al-walāyah) yang mempunyai basis yang kuat dalam al- Qur’an dan hadis dan isu ini secara sistematis dibahas melalui ajaran Ibn ‘Arabi yang kompleks. -----------par---------- Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi di balik dunia fi sik terdapat dunia metafi sik yang belum banyak diketahui manusia dan dari sanalah dunia fi sik ini dikendalikan. -----------par---------- Kata-kata Kunci : wali, karamah, Nur Muhammad, kewalian, kenabian, penutup para wali 1 Fakultas Ushuluddin, UIN Syarif Hidayatullah. E-mail : yunasrilali@ymail.com
  • 70. SEGMENTATION: SENTENCE 70 -----------par---------- Sementara dalam kajian tasawuf di Nusantara, sebutan wali ini sudah mulai dikenal bersamaan dengan masuknya Islam ke negeri ini yang mengacu kepada dua pengertian, wali sebagai orang yang memiliki kesaktian-kesaktian (occulties) sebagai implikasi dari kekeramatan dan wali sebagai penguasa wilayah tertentu. Terlepas dari pengertian dan cakupannya, ajaran kewalian yang sesungguhnya tidak lepas dari ajaran tentang kenabian dan kerasulan yang menyiratkan pesan bahwa dunia manusia bukan hanya dunia material yang identik dengan kenikmatan hedonis, tetapi di balik dunia fisik terdapat dunia metafi sik yang belum banyak diketahui manusia dan dari sanalah dunia fisik ini dikendalikan.
  • 71. PART-OF-SPEECH TAGGING 71 ----------- par ---------- Sementara_SC dalam_IN kajian_NN tasawuf_VB di_IN Nusantara_NNP ,_Z sebutan_NN wali_NN ini_PR sudah_MD mulai_VB dikenal_VB bersamaan_VB dengan_IN masuknya_X Islam_NNP ke_IN negeri_NN ini_PR yang_SC mengacu_VB kepada_IN dua_CD pengertian_NN ,_Z wali_NN sebagai_IN orang_NN yang_SC memiliki_VB kesaktian- kesaktian_NN -LRB-_-LRB- occulties_FW -RRB-_-RRB- sebagai_IN implikasi_NN dari_IN kekeramatan_NN dan_CC wali_NN sebagai_IN penguasa_NN wilayah_NN tertentu_PR ._Z Terlepas_VB dari_IN pengertian_NN dan_CC cakupannya_NN ,_Z ajaran_NN kewalian_NN yang_SC sesungguhnya_RB tidak_NEG lepas_VB dari_IN ajaran_NN tentang_IN kenabian_NN dan_CC kerasulan_NN yang_SC menyiratkan_VB pesan_NN bahwa_SC dunia_NN manusia_NN bukan_NEG hanya_RB dunia_NN material_NN yang_SC identik_JJ dengan_SC kenikmatan_NN hedonis_JJ ,_Z tetapi_CC di_IN balik_NN dunia_NN fi_X sik_X terdapat_VB dunia_NN metafi_VB sik_X yang_SC belum_NEG banyak_CD diketahui_VB manusia_NN dan_CC dari_IN sanalah_NN dunia_NN fi_X sik_X ini_PR dikendalikan_VB ._Z
  • 72. S-P-O TRIPLE Grafik di kanan ini adalah tree-map, dari relasi subyek, predikat, dan obyek yang berhasil diekstrak dari fullteks. Manfaat dari tree map ini adalah pengguna bisa mendapat insight dengan cepat tentang: • Aktor person, organisasi, konsep (subyek) • Aktifitas terkait dengan aktor • Obyek atau related entitis terkait aktivitas subyek. 72 S P O
  • 73. CO-OCCURRENCE ANTAR KONSEP • Menampilkan aktor, lokasi, dan istilah penting yang sering muncul bersamaan (dalam kalimat atau paragraph yang sama). • Co-occurrence menjadi indikasi adanya korelasi yang kuat antar pelaku dan istilah. • Namun, jenis korelasinya apa, belum bisa dilihat di sini. 73
  • 74. DIRECTED GRAPH Grafik ini menghubungkan Subyek dan Obyek yang saling berhubungan melalui predikat. Dalam grafik, predikat ditampilkan sebagai garis yang memiliki anak panah, dari subyek ke obyek. Relasi antar S dan O dalam sebuah knowledge base yang besar bisa memperlihatkan relasi dalam lingkup yang lebih besar. 74
  • 76. DIAGRAM SISTEM 76 Berita Online Natural Language Processing Engine Person, Organization, Location, Time, S-P-O Relationship Laporan Internal Dokumen Lainnya Semantic Search Engine Visualization
  • 77. CONTOH PENCARIAN: DEMO, UNJUK RASA 77 Tren “demo atau unjuk rasa” selama tahun 2020 hingga hari ini. Kecenderungan naik mulai bulan Mei 2020. Siapa tokoh dalam berita dan organisasi diekstrak dari dokumen.
  • 78. ENTITAS PERISTIWA, WAKTU, DAN LOKASI 78 Selain tokoh dan organisasi, FactMiner juga mengekstrak peristiwa dalam berita, waktu, dan lokasi.
  • 79. CONTOH FAKTA DARI ARTIKEL 79Dalam kalimat mana di dokumen sumber terdapat kata kunci yang dicari.
  • 80. EKSPLORASI PERISTIWA DALAM DOKUMEN 80 Subyek Predikat Obyek Contoh: Subyek = buruh Predikat = menolak Obyek = sebagian besar tentang Omnibus Law, UU Cilaka, Kenaikan BPJS
  • 82. SEBARAN PERISTIWA DEMO DI INDONESIA 82
  • 83. CONTOH DETAIL BERITA DI “MALUKU UTARA” 83
  • 84. CONTOH DETAIL BERITA DI “PAPUA BARAT” 84
  • 85. MELIHAT CO-OCCURRENCE ANTARA SUBYEK- OBYEK 85
  • 86. EKSPLORASI GRAPH DARI RELASI S-P-O 86
  • 87. ZOOM “FERDINAND”, LALU “EXPAND” 87
  • 93. EVALUASI 93 http://www.sciencedirect.com/science/article/pii/S2090447914000550 ”one model for all” tidak bisa memberi label yang tepat untuk setiap subyek. Lexicon base tergantung dari keberadaan kata dalam kamus sentimen, tidak bisa memberi label yang tepat untuk subyek yang berbeda.
  • 95. SENTIMENT ANALYSIS: DRONE EMPRIT 95 Adaptive Multiple Models
  • 98. 98
  • 101. BOTOMETER Botometer adalah tools yang dibuat Indiana University untuk mengecek aktivitas sebuah akun di Twitter dan memberi score seberapa besar probabilitas akun itu merupakan bot. Semakin besar scorenya, semakin tinggi kemungkinan itu bot. 101
  • 102. DRONE EMPRIT + BOTOMETER Untuk menentukan score bot dari akun-akun yang muncul dalam percakapan, Drone Emprit menggunakan layanan Botometer API. Setiap akun diambil profilenya, plus 200 cuitan terakhir, lalu dikirim ke server API Botometer. Response dari API adalah score bot dari akun tersebut. Ini dilakukan untuk setiap akun, sehingga butuh waktu lama untuk menyelesaikan identifikasi bot dari semua akun. 102 Botometer Profile + 200 twits Bot scores https://rapidapi.com/OSoMe/api/botometer API
  • 103. HOW IT WORKS • Botometer is a machine learning algorithm trained to classify an account as bot or human based on tens of thousands of labeled examples. • When you check an account, you fetches its public profile and hundreds of its public tweets and mentions using the Twitter API. • This data is passed to the Botometer API, which extracts about 1,200 features to characterize the account's profile, friends, social network structure, temporal activity patterns, language, and sentiment. • Finally, the features are used by various machine learning models to compute the bot scores. 103
  • 104. VISUALISASI HASIL BOT ANALYSIS 104 HUMAN CYBORG ROBOT
  • 105. AI UNTUK MENDETEKSI ROBOT DI TWITTER TiLiK HUMAN ROBOT HUMAN ROBOT HUMAN ROBOT HUMAN ROBOT
  • 106. PETA PERCAKAPAN “JEJAK KHILAFAH” 106 Pro Pemerintah Pro Oposisi Pro Khilafah (HTI) robot robot
  • 110. MENGGALI LEBIH DALAM EMOSI PUBLIK DALAM PERCAKAPAN • Secara kolosal, dari semua perakapan, kita bisa melihat tren emosi publik terhadap sebuah isu tertentu. • Dengan analisis emosi ini, kita bisa tahu: • Apakah publik cenderung: percaya, tidak percaya, takut, senang, sedih, marah, jijik, terkejut, atau penuh harapan? • Apa yang membuat publik merasa percaya, takut, atau marah? • Bagaimana tren emosi tertentu, dihubungkan dengan peristiwa yang tengah terjadi? • Untuk mengetahui emosi publik kita bisa menggunakan: 110
  • 111. PLUTCHIK’S WHEEL OF EMOTIONS 111 https://www.6seconds.org/2017/04/27/plu tchiks-model-of-emotions/
  • 112. LEXICON BASED ANALYSIS • JOY • senang, bahagia, suka, seneng, hepi, menyenangkan, happy, menggembirakan, gembira, fun, sukacita, riang, ceria, … • TRUST • FEAR • SURPRISE • SADNESS • DISGUST • ANGER • ANTICIPATION 112
  • 113. EMOSI: TIDAK YAKIN DENGAN KESIAPAN SARANA & LAYANAN KESEHATAN, KURVA BELUM TURUN 113 Tidak yakin, karena: • Kasus korona masih tinggi (misal Surabaya). • Negara lain mulai saat kurva melandai, Indonesia masih naik. • Potensi gelombang ke-2 corona. • Jumlah test masih kecil. • Seperti perang tanpa senjata. Kasus korona masih tinggi Kurva masih naik Potensi gelombang kedua Test masih kecil Perang tanpa senjata
  • 114. TREN EMOSI 114 Tidak disiplin Perlu sosialisasi dulu Kurva masih naik Selamatkan Ekonomi Kesiapan BUMN
  • 116. SOME TOPICS • Question Answering System • Extracting Terms from Text • Extracting Term Variation • Extracting Synonyms • Extracting Abbreviations • Learning and Extracting Relations • Identifying Definitional Sentences Using Machine Learning • Hoax Detection • Sentiment Analysis • Emotion Analysis • Named Entity Recognition • Etc 116
  • 119. HOW TO CITE DRONE EMPRIT? For Drone Emprit Academic If you use data directly from Drone Emprit Academic dashboard (academic.droneemprit.id), use this citation: Fahmi, I. (2018). Drone Emprit Academic: Software for social media monitoring and analytics. Available at http://dea.uii.ac.id. For Drone Emprit If you use data from Ismail Fahmi's analyses shared on the Internet (Twitter, Facebook, or Slideshare), use this citation: Fahmi, I. (2016). Drone Emprit: Software for media monitoring and analytics. Available at http://pers.droneemprit.id. 119 Source: https://pers.droneemprit.id/how-to-cite-drone-emprit/