SlideShare a Scribd company logo
NATURAL LANGUANGE PROCESSING
What is NLP??
 Wiki: Natural language processing (NLP) is a field of
computer science, artificial intelligence, and computational
linguistics concerned with the interactions between
computers and human (natural) languages.
ML in NLP 2
Go beyond the keyword matching
 Identify the structure and meaning of words, sentences,
texts and conversations
 Deep understanding of broad language
 NLP is all around us
ML in NLP 3
Tujuan dari NLP :
Membuat System yang dapat Memahami bahasa alami (natural languange)
Example: Siri
 Siri contains
 Speech recognition
 Language analysis
 Dialog processing
 Text to speech
Image: Wikipedia
Sentiment/Opinion Analysis
ML in NLP 8
how?
NLP’s practical applications
●
●
●
Machine translation Sentiment
Analysis Automatic speech recognition
○ Personalized assistants
○ Auto customer service
● Information Retrieval
○
○
Web Search Question
Answering
● Computational Social Science
● Growing day by day
● Machine learning:
○ Logistic regression
○ Probabilistic modeling
○ Recurrent Neural Networks
○ Transformers
● Algorithms, e.g.:
○ Graph analytics
○ Dynamic programming
● Data science
○ Hypothesis testing
Challenge of NLP
Challenges: Ambiguity
Credit: Mark Liberman, http://languagelog.ldc.upenn.edu/nll/?p=17711
12
Challenges: Language is dynamic
18
KOMPONEN NLP
Sintaksis
• Pengetahuan tentang urutan kata dalam pembentukan kalimat.
• Contoh:
Kalimat  Subyek, Predikat
Subyek  Determinan, KataBenda
Predikat  KataKerja, KataBenda
Semantik
• Mempelajari arti suatu kata pada kalimat yang utuh.
• Contoh:
– Ayahku datang membawa buah tangan
– Saya mau tahu. (tahu = mengerti)- saya mau tahu. (tahu = makanan)
Part of speech tagging (POS-
Tagging)
ML in NLP 23
Kategori Kata
NOUN Kata benda Bangku, awan, tetikus
VERB Kata kerja Belajar, lari, makan
ADJ Kata sifat Ungu, tinggi, lucu
ADV Kata keterangan Yang biru / dengan lincah
DETERMINER Kata penentu Itu, ini
PUNCT Tanda baca (.) / (,) / (?) / (!) dll
PRONOUN Kata ganti Dia, kamu, mereka
ADP Preposisi Di atas, di bawah
SYM Simbol $ / @ /
NUM Angka 1 / 3 / 45 / 1975
X Lain-lain
Penn Treebank Tagset
Parsing
• Suatu proses menganalisa suatu kumpulan kata dengan
memisahkan kata-kata itu dan menentukan struktur sintaktis
dari tiap kata tersebut.
• Mempunyai 2 pendekatan:
– Top-down parsing
– Bottom-up parsing
Contoh
kucing makan
kucing makan
KataBenda KataKerja
Kalimat
Bottom-up
parsing
Syntactic (Constituency) parsing
29
Syntactic structure => meaning
30
Parsing Resources
• SpaCy
 Python, high accuracy, fast
 https://spacy.io/
• NLTK
 Python, low accuracy, fast
 https://www.nltk.org/
Masalah pada POS Tagger
• Polysemi (ambigu)
– Sebuah kata dapat memiliki lebih dari 1 jenis kata, tergantung dari kalimat
tempat kata tersebut berada atau disebut juga konteks
– Contoh :
• Bisa ular bisa mematikan (Bisa: sebagai kata benda dan kata kerja bantu)
• Bagus memakai baju baru yang bagus (Bagus: sebagai kata benda dan kata sifat
• OOV
– Terdapat kata-kata baru misalnya berupa kata serapan atau named entity
baru
Penandaan (Tagging) Otomatis
• Contoh: menggunakan Penn Tagger
Input: Some scorpions are able to survive 6 to 12 months of
starvation
Output: Some/DT scorpions/NNS are/VBP able/JJ to/TO
survive/VB 6/CD to/TO 12/CD months/NNS of/IN
starvation/NN
• Misalnya:
– http://nlp.stanford.edu:8080/parser/
– GATE – General Architecture for Text Engineering
(http://www.gate.ac.uk)
Metode pada POS Tagger
• Rule based tagger
– Top down
– Pendefinisian aturan yang biasa digunakan manusia
• Statistical tagger
– bottom up
– Menggunakan corpus sebagai training data dimana aturan ditetapkan secara
otomatis
– Pendekatan probabilistik tag terbaik untuk sebuah kata dalam konteks kalimat
tertentu  machine learning
– Perlu menentukan ciri atau fitur sebagai masukan kedalam machine learning
– Transformation based tagger  menggunakan corpus sebagai training data
untuk mengmbil rule atau aturan pendefinisian POS tag sebuah kata
Rule-based POS Tagger
Langkah
• Menggunakan kamus untuk
menentukan tag ke setiap kata
• Menggunakan aturan (rule) untuk
menghilangkan kemungkinan POS
tagging yang salah  rule
mempertimbangkan konteks kalimat
(beberapa kata tetangga
Contoh
• Punya  VB
• Kemarin  NN
• Wabah  NN
• Virus  X
• Membahayakan  VB
• Semua  CD
• Manusia  NN
Statistical based POS Tagger
• Rule/aturan klasifikasi POS dilakukan secara otomatis melalui
corpus yang sudah dilabeli
• Tahap:
– Pembuatan corpus (daftar kalimat dimana setiap katanya diberi label POS)
– Contoh : “Bisa/NN ular/NN bisa/MD mematikan/VB”
– Keterangan : NN = noun, MD = Modality, VB = verb
• Pelatihan dengan algoritma
– HMM: hasil pelatihan berupa nilai probabilitas
– Decision Tree: hasil pelatihan berupa pohon keputusan
– Neural Network: hasil pelatihan berupa fungsi pembeda
Transformation Based Tagger
• Ide
– Meng-assign tag dengan nilai probabilitas terbesar
– Perbaiki kesalahan dengan melihat rule yang dipelajari dari data
• Contoh
– P(NN|race) = 0.98
– P(VB|race) = 0.02
– Maka pertama kali race di-tag sebagai NN
– Ubah tag jika memenuhi rule tertentu, cth: change NN to VB when
the previous tag is TO
So what about ML and Deep Learning?
Penggunaan Machine Learning (ML) dan Deep Learning (DL) untuk
menyelesaikan banyak tugas NLP tingkat tinggi
Intro-NLP.pdf

More Related Content

Similar to Intro-NLP.pdf

P4 - Introduction to Machine Learning id.pdf
P4 - Introduction to Machine Learning id.pdfP4 - Introduction to Machine Learning id.pdf
P4 - Introduction to Machine Learning id.pdf
MuhammadRuslanMaulan
 
Topic 10 qualitative data analysis
Topic 10 qualitative data analysisTopic 10 qualitative data analysis
Topic 10 qualitative data analysiszytemys
 
Pengantar Kuliah Computational Linguistic
Pengantar Kuliah Computational LinguisticPengantar Kuliah Computational Linguistic
Pengantar Kuliah Computational Linguistic
Ayu Purwarianti
 
Pengantar Pemrograman Berorientasi Objek
Pengantar Pemrograman Berorientasi ObjekPengantar Pemrograman Berorientasi Objek
Pengantar Pemrograman Berorientasi Objek
wawanext01
 
11.tik c1-silb-x-pemrograman dasar
11.tik c1-silb-x-pemrograman dasar11.tik c1-silb-x-pemrograman dasar
11.tik c1-silb-x-pemrograman dasar
Saciqu Nara
 
Machine Learning, Text Mining, dan Text Analytics
Machine Learning, Text Mining, dan Text AnalyticsMachine Learning, Text Mining, dan Text Analytics
Machine Learning, Text Mining, dan Text Analytics
Ismail Fahmi
 
ARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptxARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptx
yudis4ntoso
 
Practical Deep Learning for Natural Language Processing
Practical Deep Learning for Natural Language ProcessingPractical Deep Learning for Natural Language Processing
Practical Deep Learning for Natural Language Processing
Ainul Yaqin
 
ChatGPT-Nizar.pdf
ChatGPT-Nizar.pdfChatGPT-Nizar.pdf
ChatGPT-Nizar.pdf
AchmadNizarHidayanto
 
algoritma dan pemrograman part 1
 algoritma dan pemrograman part 1 algoritma dan pemrograman part 1
algoritma dan pemrograman part 1
Tony Hidayat
 
Data mining
Data miningData mining
Data mining
Agung Apriyadi
 
Tugas 1
Tugas 1Tugas 1
Tugas 1
Andy Syaputra
 
Materi 3 - Perumusan Masalah.pdf
Materi 3 - Perumusan Masalah.pdfMateri 3 - Perumusan Masalah.pdf
Materi 3 - Perumusan Masalah.pdf
MahesaRioAditya
 
Materi Bab 6 Algoritma dan bahasa Pemrograman
Materi Bab 6 Algoritma dan bahasa  PemrogramanMateri Bab 6 Algoritma dan bahasa  Pemrograman
Materi Bab 6 Algoritma dan bahasa Pemrograman
SaeranSaeran1
 
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptxSlide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
ssuser637fdc
 
SBP PENDAHULUAN.pdf
SBP PENDAHULUAN.pdfSBP PENDAHULUAN.pdf
SBP PENDAHULUAN.pdf
ssuserbcb591
 
Sap
SapSap
materi-ppt-algortima-dan-stuktur-data.pptx
materi-ppt-algortima-dan-stuktur-data.pptxmateri-ppt-algortima-dan-stuktur-data.pptx
materi-ppt-algortima-dan-stuktur-data.pptx
BudiHsnDaulay
 
Artificial intelligence
Artificial intelligenceArtificial intelligence
Artificial intelligence
Nico Nandika
 
Sie01 introduction
Sie01 introductionSie01 introduction
Sie01 introduction
Arif Rahman
 

Similar to Intro-NLP.pdf (20)

P4 - Introduction to Machine Learning id.pdf
P4 - Introduction to Machine Learning id.pdfP4 - Introduction to Machine Learning id.pdf
P4 - Introduction to Machine Learning id.pdf
 
Topic 10 qualitative data analysis
Topic 10 qualitative data analysisTopic 10 qualitative data analysis
Topic 10 qualitative data analysis
 
Pengantar Kuliah Computational Linguistic
Pengantar Kuliah Computational LinguisticPengantar Kuliah Computational Linguistic
Pengantar Kuliah Computational Linguistic
 
Pengantar Pemrograman Berorientasi Objek
Pengantar Pemrograman Berorientasi ObjekPengantar Pemrograman Berorientasi Objek
Pengantar Pemrograman Berorientasi Objek
 
11.tik c1-silb-x-pemrograman dasar
11.tik c1-silb-x-pemrograman dasar11.tik c1-silb-x-pemrograman dasar
11.tik c1-silb-x-pemrograman dasar
 
Machine Learning, Text Mining, dan Text Analytics
Machine Learning, Text Mining, dan Text AnalyticsMachine Learning, Text Mining, dan Text Analytics
Machine Learning, Text Mining, dan Text Analytics
 
ARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptxARTIFICAL INTELLIGENCE.pptx
ARTIFICAL INTELLIGENCE.pptx
 
Practical Deep Learning for Natural Language Processing
Practical Deep Learning for Natural Language ProcessingPractical Deep Learning for Natural Language Processing
Practical Deep Learning for Natural Language Processing
 
ChatGPT-Nizar.pdf
ChatGPT-Nizar.pdfChatGPT-Nizar.pdf
ChatGPT-Nizar.pdf
 
algoritma dan pemrograman part 1
 algoritma dan pemrograman part 1 algoritma dan pemrograman part 1
algoritma dan pemrograman part 1
 
Data mining
Data miningData mining
Data mining
 
Tugas 1
Tugas 1Tugas 1
Tugas 1
 
Materi 3 - Perumusan Masalah.pdf
Materi 3 - Perumusan Masalah.pdfMateri 3 - Perumusan Masalah.pdf
Materi 3 - Perumusan Masalah.pdf
 
Materi Bab 6 Algoritma dan bahasa Pemrograman
Materi Bab 6 Algoritma dan bahasa  PemrogramanMateri Bab 6 Algoritma dan bahasa  Pemrograman
Materi Bab 6 Algoritma dan bahasa Pemrograman
 
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptxSlide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
Slide-INF401-KECERDASAN-BUATAN-PERTEMUAN-1.pptx
 
SBP PENDAHULUAN.pdf
SBP PENDAHULUAN.pdfSBP PENDAHULUAN.pdf
SBP PENDAHULUAN.pdf
 
Sap
SapSap
Sap
 
materi-ppt-algortima-dan-stuktur-data.pptx
materi-ppt-algortima-dan-stuktur-data.pptxmateri-ppt-algortima-dan-stuktur-data.pptx
materi-ppt-algortima-dan-stuktur-data.pptx
 
Artificial intelligence
Artificial intelligenceArtificial intelligence
Artificial intelligence
 
Sie01 introduction
Sie01 introductionSie01 introduction
Sie01 introduction
 

More from nurnur469094

Introduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdfIntroduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdf
nurnur469094
 
Install-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptxInstall-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptx
nurnur469094
 
SQL.pdf
SQL.pdfSQL.pdf
SQL.pdf
nurnur469094
 
EFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptxEFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptx
nurnur469094
 
Pertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptxPertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptx
nurnur469094
 
Pertemuan-12.pptx
Pertemuan-12.pptxPertemuan-12.pptx
Pertemuan-12.pptx
nurnur469094
 
Pertemuan-11.pptx
Pertemuan-11.pptxPertemuan-11.pptx
Pertemuan-11.pptx
nurnur469094
 
Pertemuan-10.pptx
Pertemuan-10.pptxPertemuan-10.pptx
Pertemuan-10.pptx
nurnur469094
 
Pertemuan-9.pptx
Pertemuan-9.pptxPertemuan-9.pptx
Pertemuan-9.pptx
nurnur469094
 
Pertemuan-7.pptx
Pertemuan-7.pptxPertemuan-7.pptx
Pertemuan-7.pptx
nurnur469094
 
Pertemuan-6.pptx
Pertemuan-6.pptxPertemuan-6.pptx
Pertemuan-6.pptx
nurnur469094
 
Pertemuan-5.pptx
Pertemuan-5.pptxPertemuan-5.pptx
Pertemuan-5.pptx
nurnur469094
 
Pertemuan-MPD.pdf
Pertemuan-MPD.pdfPertemuan-MPD.pdf
Pertemuan-MPD.pdf
nurnur469094
 
Pertemuan-4.pptx
Pertemuan-4.pptxPertemuan-4.pptx
Pertemuan-4.pptx
nurnur469094
 
Pertemuan-3.pptx
Pertemuan-3.pptxPertemuan-3.pptx
Pertemuan-3.pptx
nurnur469094
 
MPD.pptx
MPD.pptxMPD.pptx
MPD.pptx
nurnur469094
 

More from nurnur469094 (16)

Introduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdfIntroduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdf
 
Install-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptxInstall-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptx
 
SQL.pdf
SQL.pdfSQL.pdf
SQL.pdf
 
EFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptxEFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptx
 
Pertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptxPertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptx
 
Pertemuan-12.pptx
Pertemuan-12.pptxPertemuan-12.pptx
Pertemuan-12.pptx
 
Pertemuan-11.pptx
Pertemuan-11.pptxPertemuan-11.pptx
Pertemuan-11.pptx
 
Pertemuan-10.pptx
Pertemuan-10.pptxPertemuan-10.pptx
Pertemuan-10.pptx
 
Pertemuan-9.pptx
Pertemuan-9.pptxPertemuan-9.pptx
Pertemuan-9.pptx
 
Pertemuan-7.pptx
Pertemuan-7.pptxPertemuan-7.pptx
Pertemuan-7.pptx
 
Pertemuan-6.pptx
Pertemuan-6.pptxPertemuan-6.pptx
Pertemuan-6.pptx
 
Pertemuan-5.pptx
Pertemuan-5.pptxPertemuan-5.pptx
Pertemuan-5.pptx
 
Pertemuan-MPD.pdf
Pertemuan-MPD.pdfPertemuan-MPD.pdf
Pertemuan-MPD.pdf
 
Pertemuan-4.pptx
Pertemuan-4.pptxPertemuan-4.pptx
Pertemuan-4.pptx
 
Pertemuan-3.pptx
Pertemuan-3.pptxPertemuan-3.pptx
Pertemuan-3.pptx
 
MPD.pptx
MPD.pptxMPD.pptx
MPD.pptx
 

Intro-NLP.pdf

  • 2. What is NLP??  Wiki: Natural language processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human (natural) languages. ML in NLP 2
  • 3. Go beyond the keyword matching  Identify the structure and meaning of words, sentences, texts and conversations  Deep understanding of broad language  NLP is all around us ML in NLP 3
  • 4. Tujuan dari NLP : Membuat System yang dapat Memahami bahasa alami (natural languange)
  • 5.
  • 6.
  • 7. Example: Siri  Siri contains  Speech recognition  Language analysis  Dialog processing  Text to speech Image: Wikipedia
  • 9. how? NLP’s practical applications ● ● ● Machine translation Sentiment Analysis Automatic speech recognition ○ Personalized assistants ○ Auto customer service ● Information Retrieval ○ ○ Web Search Question Answering ● Computational Social Science ● Growing day by day ● Machine learning: ○ Logistic regression ○ Probabilistic modeling ○ Recurrent Neural Networks ○ Transformers ● Algorithms, e.g.: ○ Graph analytics ○ Dynamic programming ● Data science ○ Hypothesis testing
  • 11.
  • 12. Challenges: Ambiguity Credit: Mark Liberman, http://languagelog.ldc.upenn.edu/nll/?p=17711 12
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 19.
  • 21. Sintaksis • Pengetahuan tentang urutan kata dalam pembentukan kalimat. • Contoh: Kalimat  Subyek, Predikat Subyek  Determinan, KataBenda Predikat  KataKerja, KataBenda
  • 22. Semantik • Mempelajari arti suatu kata pada kalimat yang utuh. • Contoh: – Ayahku datang membawa buah tangan – Saya mau tahu. (tahu = mengerti)- saya mau tahu. (tahu = makanan)
  • 23. Part of speech tagging (POS- Tagging) ML in NLP 23
  • 24. Kategori Kata NOUN Kata benda Bangku, awan, tetikus VERB Kata kerja Belajar, lari, makan ADJ Kata sifat Ungu, tinggi, lucu ADV Kata keterangan Yang biru / dengan lincah DETERMINER Kata penentu Itu, ini PUNCT Tanda baca (.) / (,) / (?) / (!) dll PRONOUN Kata ganti Dia, kamu, mereka ADP Preposisi Di atas, di bawah SYM Simbol $ / @ / NUM Angka 1 / 3 / 45 / 1975 X Lain-lain
  • 25.
  • 27. Parsing • Suatu proses menganalisa suatu kumpulan kata dengan memisahkan kata-kata itu dan menentukan struktur sintaktis dari tiap kata tersebut. • Mempunyai 2 pendekatan: – Top-down parsing – Bottom-up parsing
  • 28. Contoh kucing makan kucing makan KataBenda KataKerja Kalimat Bottom-up parsing
  • 31. Parsing Resources • SpaCy  Python, high accuracy, fast  https://spacy.io/ • NLTK  Python, low accuracy, fast  https://www.nltk.org/
  • 32. Masalah pada POS Tagger • Polysemi (ambigu) – Sebuah kata dapat memiliki lebih dari 1 jenis kata, tergantung dari kalimat tempat kata tersebut berada atau disebut juga konteks – Contoh : • Bisa ular bisa mematikan (Bisa: sebagai kata benda dan kata kerja bantu) • Bagus memakai baju baru yang bagus (Bagus: sebagai kata benda dan kata sifat • OOV – Terdapat kata-kata baru misalnya berupa kata serapan atau named entity baru
  • 33. Penandaan (Tagging) Otomatis • Contoh: menggunakan Penn Tagger Input: Some scorpions are able to survive 6 to 12 months of starvation Output: Some/DT scorpions/NNS are/VBP able/JJ to/TO survive/VB 6/CD to/TO 12/CD months/NNS of/IN starvation/NN • Misalnya: – http://nlp.stanford.edu:8080/parser/ – GATE – General Architecture for Text Engineering (http://www.gate.ac.uk)
  • 34. Metode pada POS Tagger • Rule based tagger – Top down – Pendefinisian aturan yang biasa digunakan manusia • Statistical tagger – bottom up – Menggunakan corpus sebagai training data dimana aturan ditetapkan secara otomatis – Pendekatan probabilistik tag terbaik untuk sebuah kata dalam konteks kalimat tertentu  machine learning – Perlu menentukan ciri atau fitur sebagai masukan kedalam machine learning – Transformation based tagger  menggunakan corpus sebagai training data untuk mengmbil rule atau aturan pendefinisian POS tag sebuah kata
  • 35. Rule-based POS Tagger Langkah • Menggunakan kamus untuk menentukan tag ke setiap kata • Menggunakan aturan (rule) untuk menghilangkan kemungkinan POS tagging yang salah  rule mempertimbangkan konteks kalimat (beberapa kata tetangga Contoh • Punya  VB • Kemarin  NN • Wabah  NN • Virus  X • Membahayakan  VB • Semua  CD • Manusia  NN
  • 36. Statistical based POS Tagger • Rule/aturan klasifikasi POS dilakukan secara otomatis melalui corpus yang sudah dilabeli • Tahap: – Pembuatan corpus (daftar kalimat dimana setiap katanya diberi label POS) – Contoh : “Bisa/NN ular/NN bisa/MD mematikan/VB” – Keterangan : NN = noun, MD = Modality, VB = verb • Pelatihan dengan algoritma – HMM: hasil pelatihan berupa nilai probabilitas – Decision Tree: hasil pelatihan berupa pohon keputusan – Neural Network: hasil pelatihan berupa fungsi pembeda
  • 37. Transformation Based Tagger • Ide – Meng-assign tag dengan nilai probabilitas terbesar – Perbaiki kesalahan dengan melihat rule yang dipelajari dari data • Contoh – P(NN|race) = 0.98 – P(VB|race) = 0.02 – Maka pertama kali race di-tag sebagai NN – Ubah tag jika memenuhi rule tertentu, cth: change NN to VB when the previous tag is TO
  • 38. So what about ML and Deep Learning? Penggunaan Machine Learning (ML) dan Deep Learning (DL) untuk menyelesaikan banyak tugas NLP tingkat tinggi