SlideShare a Scribd company logo
1 of 29
Download to read offline
LANGUANGE MODELING
NATURAL LANGUAGE PROCESSING
how?
Task
● Language Modeling
(i.e. auto-complete)
● Probabilistic Modeling
○ Probability Theory
○ Logistic Regression
○ Sequence Modeling
● Eventually: Deep Learning
○ Recurrent Neural Nets
○ Transformer Networks
Language Model (LM)
• Language model adalah model machine learning
(ML) yang dapat memprediksi kata selanjutnya
berdasarkan kata-kata yang telah dilihat.
Language model standar ini disebut juga causal
language model (CLM).
• Cara kerja dari CLM ini adalah dengan
memprediksi probabilitas kata tertentu dalam
suatu urutan kata.
Language
Modeling
-- assigning a probability to sequences of words.
Version 1: Compute P(w1, w2, w3, w4, w5) = P(W)
:probability of a sequence of words
Version 2: Compute P(w5| w1, w2, w3, w4)
= P(wn| w1, w2, …, wn-1)
:probability of a next word given history
Language
Modeling
Version 1: Compute P(w1, w2, w3, w4, w5) = P(W)
:probability of a sequence of words
P(He ate the cake with the fork) = ?
Version 2: Compute P(w5| w1, w2, w3, w4)
= P(wn| w1, w2, …, wn-1)
:probability of a next word given history
P(fork | He ate the cake with the) = ?
Solution: Estimate from shorter sequences, use more
sophisticated probability theory.
Problem: even the Web isn’t large enough to enable
good estimates of most phrases.
P(B|A) = P(B, A) / P(A) ⇔ P(A)P(B|A) = P(B,A) = P(A,B)
P(A, B, C) = P(A)P(B|A)P(C| A, B)
The Chain Rule:
Markov Assumption:
P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n
P(X1, X2,…, Xn) = P(X1)P(X2|X1)P(X3|X1, X2)...P(Xn|X1, ..., Xn-1)
Unigram Model: k = 0;
Problem: even the Web isn’t large enough to enable
good estimates of most phrases.
P(B|A) = P(B, A) / P(A) ⇔ P(A)P(B|A) = P(B,A) = P(A,B)
P(A, B, C) = P(A)P(B|A)P(C| A, B)
The Chain Rule:
Markov Assumption:
P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n
P(X1, X2,…, Xn) = P(X1)P(X2|X1)P(X3|X1, X2)...P(Xn|X1, ..., Xn-1)
Bigram Model: k = 1;
Problem: even the Web isn’t large enough to enable
good estimates of most phrases.
Markov Assumption:
P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n
Example generated sentence:
outside, new, car, parking, lot, of, the, agreement, reached
P(X1 = “outside”, X2=”new”, X3 = “car”, ....)
≈ P(X1=“outside”) * P(X2=”new”|X1 = “outside) * P(X3=”car” | X2=”new”) * ...
Example from (Jurafsky, 2017)
N-gram models
• We can extend to trigrams, 4-grams, 5-grams
• In general this is an insufficient model of language
– because language has long-distance dependencies:
“The computer which I had just put into the machine
room on the fifth floor crashed.”
• But we can often get away with N-gram models
Estimating bigram probabilities
• The Maximum Likelihood Estimate
P(wi |wi-1) =
count(wi-1,wi)
count(wi-1)
P(wi |wi-1) =
c(wi-1,wi)
c(wi-1)
PRE-TRAINED LANGUAGE MODEL
• Agar model ML bisa memprediksi kata secara
benar dan digunakan pada task lain, maka model
perlu dilatih berulang-ulang dengan data yang
besar. Untuk dapat melakukan training language
model, diperlukan suatu task tertentu. Pada ML
biasanya task yang digunakan adalah task untuk
memprediksi kata selanjutnya.
Transformer-based Language Model
(TLM)
• Saat ini di Natural Language Processing (NLP)
sedang booming model Transformer. Transformer
awalnya digunakan untuk task machine
translation. Namun, model ini telah terbukti
mumpuni untuk digunakan di berbagai macam
task lain, seperti sequence classification,
question-answering, dan language modeling.
Secara umum transformer terdiri atas dua bagian
utama, yaitu encoder dan decoder.
• Beberapa TLM yang saat ini tren, yaitu OpenAI GPT dan
BERT
• GPT dan BERT tidak menggunakan keseluruhan bagian
transformer, tetapi hanya bagian encoder saja atau decoder
saja.
• Masalah dari language model standar adalah jika
menggunakan transformer sebagai language model, maka
dengan adanya self-attention mechanism, model bisa
curang dengan melihat semua kata di dalam kalimat input.
Artinya, supaya bisa digunakan di dalam language model,
maka self-attention perlu dibatasi dengan hanya belajar dari
kata-kata sebelumnya.
OpenAI GPT
• Definisi
• GPT adalah singkatan dari Generative Pre-
Training. Model GPT hanya menggunakan
decoder block dari transformer.
• GPT-2 dan GPT-3 adalah pengembangan lanjutan
dari GPT. Pengembangan yang dimaksud adalah
training dengan dataset yang lebih besar dan
parameter yang lebih banyak.
OpenAI GPT
• Perbedaan dengan transformer
• GPT tidak memiliki encoder, dan hanya menggunakan
bagian decoder yang ditumpuk lebih banyak. Ukurannya
bermacam-macam mulai dari 12–48 block decoder.
• Decoder block dari GPT hampir sama dengan transformer,
namun GPT hanya menggunakan masked self-attention dan
feed forward neural network. GPT tidak menggunakan self-
attention layer yang kedua (encoder-decoder attention).
Hal ini disesuaikan dengan task yang digunakan untuk
melatih LM pada GPT yaitu CLM.
OpenAI GPT
BERT
• Definisi
• BERT adalah singkatan dari
for Bidirectional Encoder Representations
from Transformers. Dari kepanjangannya ada dua
hal yang dapat digaris bawahi.
• BERT menggunakan salah satu bagian dari
transformer, yaitu encoder.
• BERT itu bidirectional, artinya dilatih dari dua
arah (kiri-kanan dan kanan-kiri).
BERT
• Perbedaan dengan transformer
• BERT tidak memiliki decoder, tetapi hanya
menggunakan encoder dengan jumlah yang lebih
banyak.
• Transformer encoder memiliki 8 heads dengan
panjang embedding 64 (dimensi input 512).
Sedangkan BERT memiliki 12 head dengan
masing-masing panjang embedding 64 (dimensi
input 768).
Perbedaan GPT dan BERT
• Learning objective
• Perbedaan selanjutnya adalah learning objective
yang digunakan saat pre-training language model.
Sama seperti model ML lain, GPT menggunakan
language model standar (CLM), yaitu
memprediksi kalimat yang muncul selanjutnya.
Sedangkan BERT menggunakan language
modeling dua arah atau ‘masked’ language
model.
LANGUANGE MODELING.pdf

More Related Content

Similar to LANGUANGE MODELING.pdf

Module algoritma
Module algoritma Module algoritma
Module algoritma Rony BolaNk
 
01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.pptJournalJPMN
 
Pengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptPengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptNoerisEkaBudiarti
 
Tutorialmatlab bahasa indonesia
Tutorialmatlab bahasa indonesiaTutorialmatlab bahasa indonesia
Tutorialmatlab bahasa indonesiazn Yedhi
 
Tutorial matlab libre
Tutorial matlab libreTutorial matlab libre
Tutorial matlab libreDoni Rahman
 
Tutorial matlab
Tutorial matlabTutorial matlab
Tutorial matlabNur Lely
 
Modul Logika dan algoritma
Modul Logika dan algoritmaModul Logika dan algoritma
Modul Logika dan algoritmalinda_rosalina
 
Cepat mahir dengan matlab
Cepat mahir dengan matlabCepat mahir dengan matlab
Cepat mahir dengan matlabNur Hy
 
Algoritma pertemuan 1
Algoritma pertemuan 1Algoritma pertemuan 1
Algoritma pertemuan 1ysvcyber
 
Dasar control system dengan matlab
Dasar control system dengan matlabDasar control system dengan matlab
Dasar control system dengan matlabMuhammad Arifin
 
Algoritma pemrograman terstruktur
Algoritma pemrograman terstrukturAlgoritma pemrograman terstruktur
Algoritma pemrograman terstrukturRaden Maulana
 

Similar to LANGUANGE MODELING.pdf (20)

Tistrukdat9
Tistrukdat9Tistrukdat9
Tistrukdat9
 
Pemrograman1 01
Pemrograman1 01Pemrograman1 01
Pemrograman1 01
 
Module algoritma
Module algoritma Module algoritma
Module algoritma
 
Review jurnal
Review jurnalReview jurnal
Review jurnal
 
Bahan 2.pptx
Bahan 2.pptxBahan 2.pptx
Bahan 2.pptx
 
01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt01_Pengenalan_Algoritma_ppt.ppt
01_Pengenalan_Algoritma_ppt.ppt
 
Pengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.pptPengenalan_Algoritma_ppt.ppt
Pengenalan_Algoritma_ppt.ppt
 
Tutorialmatlab bahasa indonesia
Tutorialmatlab bahasa indonesiaTutorialmatlab bahasa indonesia
Tutorialmatlab bahasa indonesia
 
Tutorial matlab .pdf
Tutorial matlab .pdfTutorial matlab .pdf
Tutorial matlab .pdf
 
Tutorial matlab libre
Tutorial matlab libreTutorial matlab libre
Tutorial matlab libre
 
Matlab Tutorial
Matlab TutorialMatlab Tutorial
Matlab Tutorial
 
Tutorial matlab
Tutorial matlabTutorial matlab
Tutorial matlab
 
Modul Logika dan algoritma
Modul Logika dan algoritmaModul Logika dan algoritma
Modul Logika dan algoritma
 
ikp213-01-pendahuluan
ikp213-01-pendahuluanikp213-01-pendahuluan
ikp213-01-pendahuluan
 
Cepat mahir dengan matlab
Cepat mahir dengan matlabCepat mahir dengan matlab
Cepat mahir dengan matlab
 
Algoritma pertemuan 1
Algoritma pertemuan 1Algoritma pertemuan 1
Algoritma pertemuan 1
 
Algo 1 2
Algo 1 2Algo 1 2
Algo 1 2
 
Dasar control system dengan matlab
Dasar control system dengan matlabDasar control system dengan matlab
Dasar control system dengan matlab
 
Algoritma pemrograman terstruktur
Algoritma pemrograman terstrukturAlgoritma pemrograman terstruktur
Algoritma pemrograman terstruktur
 
Chapter 2 - Konsep Dasar Algoritma.pptx
Chapter 2 - Konsep Dasar Algoritma.pptxChapter 2 - Konsep Dasar Algoritma.pptx
Chapter 2 - Konsep Dasar Algoritma.pptx
 

More from nurnur469094

Introduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdfIntroduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdfnurnur469094
 
Install-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptxInstall-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptxnurnur469094
 
EFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptxEFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptxnurnur469094
 
Pertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptxPertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptxnurnur469094
 

More from nurnur469094 (16)

Introduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdfIntroduction to Flutter(lanjutan).pdf
Introduction to Flutter(lanjutan).pdf
 
Install-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptxInstall-flutter-Mobile Application.pptx
Install-flutter-Mobile Application.pptx
 
SQL.pdf
SQL.pdfSQL.pdf
SQL.pdf
 
EFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptxEFFICIENCY & Complexity.pptx
EFFICIENCY & Complexity.pptx
 
Pertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptxPertemuan-12-normalisasi.pptx
Pertemuan-12-normalisasi.pptx
 
Pertemuan-12.pptx
Pertemuan-12.pptxPertemuan-12.pptx
Pertemuan-12.pptx
 
Pertemuan-11.pptx
Pertemuan-11.pptxPertemuan-11.pptx
Pertemuan-11.pptx
 
Pertemuan-10.pptx
Pertemuan-10.pptxPertemuan-10.pptx
Pertemuan-10.pptx
 
Pertemuan-9.pptx
Pertemuan-9.pptxPertemuan-9.pptx
Pertemuan-9.pptx
 
Pertemuan-7.pptx
Pertemuan-7.pptxPertemuan-7.pptx
Pertemuan-7.pptx
 
Pertemuan-6.pptx
Pertemuan-6.pptxPertemuan-6.pptx
Pertemuan-6.pptx
 
Pertemuan-5.pptx
Pertemuan-5.pptxPertemuan-5.pptx
Pertemuan-5.pptx
 
Pertemuan-MPD.pdf
Pertemuan-MPD.pdfPertemuan-MPD.pdf
Pertemuan-MPD.pdf
 
Pertemuan-4.pptx
Pertemuan-4.pptxPertemuan-4.pptx
Pertemuan-4.pptx
 
Pertemuan-3.pptx
Pertemuan-3.pptxPertemuan-3.pptx
Pertemuan-3.pptx
 
MPD.pptx
MPD.pptxMPD.pptx
MPD.pptx
 

Recently uploaded

tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docx
tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docxtugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docx
tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docxmawan5982
 
PELAKSANAAN + Link2 Materi TRAINING "Effective SUPERVISORY & LEADERSHIP Sk...
PELAKSANAAN  + Link2 Materi TRAINING "Effective  SUPERVISORY &  LEADERSHIP Sk...PELAKSANAAN  + Link2 Materi TRAINING "Effective  SUPERVISORY &  LEADERSHIP Sk...
PELAKSANAAN + Link2 Materi TRAINING "Effective SUPERVISORY & LEADERSHIP Sk...Kanaidi ken
 
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATAS
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATASMATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATAS
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATASKurniawan Dirham
 
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdfContoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdfCandraMegawati
 
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPAS
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPASaku-dan-kebutuhanku-Kelas 4 SD Mapel IPAS
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPASreskosatrio1
 
Kelompok 1_Karakteristik negara jepang.pdf
Kelompok 1_Karakteristik negara jepang.pdfKelompok 1_Karakteristik negara jepang.pdf
Kelompok 1_Karakteristik negara jepang.pdfCloverash1
 
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptx
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptxKesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptx
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptxDwiYuniarti14
 
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfREFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfirwanabidin08
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxWirionSembiring2
 
Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)3HerisaSintia
 
442539315-ppt-modul-6-pend-seni-pptx.pptx
442539315-ppt-modul-6-pend-seni-pptx.pptx442539315-ppt-modul-6-pend-seni-pptx.pptx
442539315-ppt-modul-6-pend-seni-pptx.pptxHendryJulistiyanto
 
04-Gemelli.- kehamilan ganda- duo atau triplet
04-Gemelli.- kehamilan ganda- duo atau triplet04-Gemelli.- kehamilan ganda- duo atau triplet
04-Gemelli.- kehamilan ganda- duo atau tripletMelianaJayasaputra
 
Lembar Catatan Percakapan Pasca observasidocx
Lembar Catatan Percakapan Pasca observasidocxLembar Catatan Percakapan Pasca observasidocx
Lembar Catatan Percakapan Pasca observasidocxbkandrisaputra
 
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BModul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BAbdiera
 
Dinamika Hidrosfer geografi kelas X genap
Dinamika Hidrosfer geografi kelas X genapDinamika Hidrosfer geografi kelas X genap
Dinamika Hidrosfer geografi kelas X genapsefrida3
 
PPT Integrasi Islam & Ilmu Pengetahuan.pptx
PPT Integrasi Islam & Ilmu Pengetahuan.pptxPPT Integrasi Islam & Ilmu Pengetahuan.pptx
PPT Integrasi Islam & Ilmu Pengetahuan.pptxnerow98
 
421783639-ppt-overdosis-dan-keracunan-pptx.pptx
421783639-ppt-overdosis-dan-keracunan-pptx.pptx421783639-ppt-overdosis-dan-keracunan-pptx.pptx
421783639-ppt-overdosis-dan-keracunan-pptx.pptxGiftaJewela
 
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdf
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdfTUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdf
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdfElaAditya
 
Aksi Nyata Modul 1.1 Calon Guru Penggerak
Aksi Nyata Modul 1.1 Calon Guru PenggerakAksi Nyata Modul 1.1 Calon Guru Penggerak
Aksi Nyata Modul 1.1 Calon Guru Penggeraksupriadi611
 
ppt-modul-6-pend-seni-di sd kelompok 2 ppt
ppt-modul-6-pend-seni-di sd kelompok 2 pptppt-modul-6-pend-seni-di sd kelompok 2 ppt
ppt-modul-6-pend-seni-di sd kelompok 2 pptArkhaRega1
 

Recently uploaded (20)

tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docx
tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docxtugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docx
tugas 1 anak berkebutihan khusus pelajaran semester 6 jawaban tuton 1.docx
 
PELAKSANAAN + Link2 Materi TRAINING "Effective SUPERVISORY & LEADERSHIP Sk...
PELAKSANAAN  + Link2 Materi TRAINING "Effective  SUPERVISORY &  LEADERSHIP Sk...PELAKSANAAN  + Link2 Materi TRAINING "Effective  SUPERVISORY &  LEADERSHIP Sk...
PELAKSANAAN + Link2 Materi TRAINING "Effective SUPERVISORY & LEADERSHIP Sk...
 
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATAS
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATASMATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATAS
MATERI EKOSISTEM UNTUK SEKOLAH MENENGAH ATAS
 
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdfContoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
Contoh Laporan Observasi Pembelajaran Rekan Sejawat.pdf
 
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPAS
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPASaku-dan-kebutuhanku-Kelas 4 SD Mapel IPAS
aku-dan-kebutuhanku-Kelas 4 SD Mapel IPAS
 
Kelompok 1_Karakteristik negara jepang.pdf
Kelompok 1_Karakteristik negara jepang.pdfKelompok 1_Karakteristik negara jepang.pdf
Kelompok 1_Karakteristik negara jepang.pdf
 
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptx
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptxKesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptx
Kesebangunan Segitiga matematika kelas 7 kurikulum merdeka.pptx
 
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdfREFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
REFLEKSI MANDIRI_Prakarsa Perubahan BAGJA Modul 1.3.pdf
 
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptxAKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
AKSI NYATA MODUL 1.2-1 untuk pendidikan guru penggerak.pptx
 
Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)Karakteristik Negara Mesir (Geografi Regional Dunia)
Karakteristik Negara Mesir (Geografi Regional Dunia)
 
442539315-ppt-modul-6-pend-seni-pptx.pptx
442539315-ppt-modul-6-pend-seni-pptx.pptx442539315-ppt-modul-6-pend-seni-pptx.pptx
442539315-ppt-modul-6-pend-seni-pptx.pptx
 
04-Gemelli.- kehamilan ganda- duo atau triplet
04-Gemelli.- kehamilan ganda- duo atau triplet04-Gemelli.- kehamilan ganda- duo atau triplet
04-Gemelli.- kehamilan ganda- duo atau triplet
 
Lembar Catatan Percakapan Pasca observasidocx
Lembar Catatan Percakapan Pasca observasidocxLembar Catatan Percakapan Pasca observasidocx
Lembar Catatan Percakapan Pasca observasidocx
 
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase BModul Ajar Bahasa Indonesia Kelas 4 Fase B
Modul Ajar Bahasa Indonesia Kelas 4 Fase B
 
Dinamika Hidrosfer geografi kelas X genap
Dinamika Hidrosfer geografi kelas X genapDinamika Hidrosfer geografi kelas X genap
Dinamika Hidrosfer geografi kelas X genap
 
PPT Integrasi Islam & Ilmu Pengetahuan.pptx
PPT Integrasi Islam & Ilmu Pengetahuan.pptxPPT Integrasi Islam & Ilmu Pengetahuan.pptx
PPT Integrasi Islam & Ilmu Pengetahuan.pptx
 
421783639-ppt-overdosis-dan-keracunan-pptx.pptx
421783639-ppt-overdosis-dan-keracunan-pptx.pptx421783639-ppt-overdosis-dan-keracunan-pptx.pptx
421783639-ppt-overdosis-dan-keracunan-pptx.pptx
 
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdf
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdfTUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdf
TUGAS GURU PENGGERAK Aksi Nyata Modul 1.1.pdf
 
Aksi Nyata Modul 1.1 Calon Guru Penggerak
Aksi Nyata Modul 1.1 Calon Guru PenggerakAksi Nyata Modul 1.1 Calon Guru Penggerak
Aksi Nyata Modul 1.1 Calon Guru Penggerak
 
ppt-modul-6-pend-seni-di sd kelompok 2 ppt
ppt-modul-6-pend-seni-di sd kelompok 2 pptppt-modul-6-pend-seni-di sd kelompok 2 ppt
ppt-modul-6-pend-seni-di sd kelompok 2 ppt
 

LANGUANGE MODELING.pdf

  • 2. how? Task ● Language Modeling (i.e. auto-complete) ● Probabilistic Modeling ○ Probability Theory ○ Logistic Regression ○ Sequence Modeling ● Eventually: Deep Learning ○ Recurrent Neural Nets ○ Transformer Networks
  • 3. Language Model (LM) • Language model adalah model machine learning (ML) yang dapat memprediksi kata selanjutnya berdasarkan kata-kata yang telah dilihat. Language model standar ini disebut juga causal language model (CLM). • Cara kerja dari CLM ini adalah dengan memprediksi probabilitas kata tertentu dalam suatu urutan kata.
  • 4.
  • 5. Language Modeling -- assigning a probability to sequences of words. Version 1: Compute P(w1, w2, w3, w4, w5) = P(W) :probability of a sequence of words Version 2: Compute P(w5| w1, w2, w3, w4) = P(wn| w1, w2, …, wn-1) :probability of a next word given history
  • 6. Language Modeling Version 1: Compute P(w1, w2, w3, w4, w5) = P(W) :probability of a sequence of words P(He ate the cake with the fork) = ? Version 2: Compute P(w5| w1, w2, w3, w4) = P(wn| w1, w2, …, wn-1) :probability of a next word given history P(fork | He ate the cake with the) = ?
  • 7.
  • 8. Solution: Estimate from shorter sequences, use more sophisticated probability theory. Problem: even the Web isn’t large enough to enable good estimates of most phrases. P(B|A) = P(B, A) / P(A) ⇔ P(A)P(B|A) = P(B,A) = P(A,B) P(A, B, C) = P(A)P(B|A)P(C| A, B) The Chain Rule: Markov Assumption: P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n P(X1, X2,…, Xn) = P(X1)P(X2|X1)P(X3|X1, X2)...P(Xn|X1, ..., Xn-1)
  • 9. Unigram Model: k = 0; Problem: even the Web isn’t large enough to enable good estimates of most phrases. P(B|A) = P(B, A) / P(A) ⇔ P(A)P(B|A) = P(B,A) = P(A,B) P(A, B, C) = P(A)P(B|A)P(C| A, B) The Chain Rule: Markov Assumption: P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n P(X1, X2,…, Xn) = P(X1)P(X2|X1)P(X3|X1, X2)...P(Xn|X1, ..., Xn-1)
  • 10. Bigram Model: k = 1; Problem: even the Web isn’t large enough to enable good estimates of most phrases. Markov Assumption: P(Xn| X1…, Xn-1) ≈ P(Xn| Xn-k, …, Xn-1) where k < n Example generated sentence: outside, new, car, parking, lot, of, the, agreement, reached P(X1 = “outside”, X2=”new”, X3 = “car”, ....) ≈ P(X1=“outside”) * P(X2=”new”|X1 = “outside) * P(X3=”car” | X2=”new”) * ... Example from (Jurafsky, 2017)
  • 11. N-gram models • We can extend to trigrams, 4-grams, 5-grams • In general this is an insufficient model of language – because language has long-distance dependencies: “The computer which I had just put into the machine room on the fifth floor crashed.” • But we can often get away with N-gram models
  • 12. Estimating bigram probabilities • The Maximum Likelihood Estimate P(wi |wi-1) = count(wi-1,wi) count(wi-1) P(wi |wi-1) = c(wi-1,wi) c(wi-1)
  • 13.
  • 14.
  • 15. PRE-TRAINED LANGUAGE MODEL • Agar model ML bisa memprediksi kata secara benar dan digunakan pada task lain, maka model perlu dilatih berulang-ulang dengan data yang besar. Untuk dapat melakukan training language model, diperlukan suatu task tertentu. Pada ML biasanya task yang digunakan adalah task untuk memprediksi kata selanjutnya.
  • 16.
  • 17.
  • 18. Transformer-based Language Model (TLM) • Saat ini di Natural Language Processing (NLP) sedang booming model Transformer. Transformer awalnya digunakan untuk task machine translation. Namun, model ini telah terbukti mumpuni untuk digunakan di berbagai macam task lain, seperti sequence classification, question-answering, dan language modeling. Secara umum transformer terdiri atas dua bagian utama, yaitu encoder dan decoder.
  • 19.
  • 20. • Beberapa TLM yang saat ini tren, yaitu OpenAI GPT dan BERT • GPT dan BERT tidak menggunakan keseluruhan bagian transformer, tetapi hanya bagian encoder saja atau decoder saja. • Masalah dari language model standar adalah jika menggunakan transformer sebagai language model, maka dengan adanya self-attention mechanism, model bisa curang dengan melihat semua kata di dalam kalimat input. Artinya, supaya bisa digunakan di dalam language model, maka self-attention perlu dibatasi dengan hanya belajar dari kata-kata sebelumnya.
  • 21. OpenAI GPT • Definisi • GPT adalah singkatan dari Generative Pre- Training. Model GPT hanya menggunakan decoder block dari transformer. • GPT-2 dan GPT-3 adalah pengembangan lanjutan dari GPT. Pengembangan yang dimaksud adalah training dengan dataset yang lebih besar dan parameter yang lebih banyak.
  • 22. OpenAI GPT • Perbedaan dengan transformer • GPT tidak memiliki encoder, dan hanya menggunakan bagian decoder yang ditumpuk lebih banyak. Ukurannya bermacam-macam mulai dari 12–48 block decoder. • Decoder block dari GPT hampir sama dengan transformer, namun GPT hanya menggunakan masked self-attention dan feed forward neural network. GPT tidak menggunakan self- attention layer yang kedua (encoder-decoder attention). Hal ini disesuaikan dengan task yang digunakan untuk melatih LM pada GPT yaitu CLM.
  • 24.
  • 25. BERT • Definisi • BERT adalah singkatan dari for Bidirectional Encoder Representations from Transformers. Dari kepanjangannya ada dua hal yang dapat digaris bawahi. • BERT menggunakan salah satu bagian dari transformer, yaitu encoder. • BERT itu bidirectional, artinya dilatih dari dua arah (kiri-kanan dan kanan-kiri).
  • 26. BERT • Perbedaan dengan transformer • BERT tidak memiliki decoder, tetapi hanya menggunakan encoder dengan jumlah yang lebih banyak. • Transformer encoder memiliki 8 heads dengan panjang embedding 64 (dimensi input 512). Sedangkan BERT memiliki 12 head dengan masing-masing panjang embedding 64 (dimensi input 768).
  • 27.
  • 28. Perbedaan GPT dan BERT • Learning objective • Perbedaan selanjutnya adalah learning objective yang digunakan saat pre-training language model. Sama seperti model ML lain, GPT menggunakan language model standar (CLM), yaitu memprediksi kalimat yang muncul selanjutnya. Sedangkan BERT menggunakan language modeling dua arah atau ‘masked’ language model.