2. Content
● Pengenalan Text Mining
● Bekerja dengan Regular Expression
● Dasar - dasar Natural Language Processing
● Text Classification
● Topic Modeling
5. Hal yang bisa dilakukan dengan teks
● Menguraikan teks
● Ekstrak informasi dari teks
● Mengklasifikasi dokumen teks
● Mencari teks dokumen yang relevan
● Analisis sentimen
11. Regular Expression
. : match any char
^: start of a string
$: end of string
[]: matches one of the set of char within []
[a-z]: matches one of the range of chars a,b,c,d, …, z
13. Definisi
● Kemampuan untuk memahami bahasa manusia
● Memahami bahasa manusia untuk mendapatkan informasi tentang kata-kata dan bagaimana
memahami struktur bahasa manusia
14. NLP Goals
● Menghitung kata
● Menemukan batas kalimat
● POS Tagging
● Menguraikan struktur kalimat (S + P + O + K)
● Mengidentifikasi sematic roles
● Mengidentifikasi entitas dalam kalimat
● Menemukan kata kepunyaan mana yang dimaksudkan ke entitas
15. NLTK
● Toolkit
● Open source
● Wrapper of scikit learn for NLP
● Terdapat beberapa korpus populer
23. Kategori mana yang tepat untuk teks dibawah ini?
http://ekonomi.kompas.com/read/2017/10/25/102555326/apbn-2018-diharapkan-bisa-menjadi-sentimen-positif
● Pembangunan
● Keuangan
● Politik
24. Penggunaan Text Classification
● Analisis Sentimen: apakah review film ini negatif atau positif
● Deteksi Spam: apakah email ini spam atau bukan?
● Identifikasi Topik: apakah berita ini topik teknologi, olahraga atau kesehatan?
● Spelling correction: bener atau benar?
26. Hal mendasar dalam klasifikasi
● Binary Classification
● Multi-class Classification
● Multi-label Classification
27. Text Features
● Kata
○ Most common words
○ Stop words
○ Normalization
○ Stemming / Lemmatization
● Kalimat
○ Pos Tagging
○ Struktur grammar
○ Kata yang similar
38. Penggunaan Semantic Similarity
● Semantic similarity is the practical, widely used approach to address
the natural language understanding issue in many core NLP tasks such
as paraphrase identification, Question Answering, Natural Language
Generation, and Intelligent Tutoring Systems
42. Topic Modeling
● Discovering hidden topical patterns that are present across the
collection
● Annotating documents according to these topics
● Using these annotations to organize, search and summarize texts