SlideShare a Scribd company logo
Deep Contextualized
Word Representations
Peters et al., 2018 (NAACL)
Người trình bày
Phạm Quang Nhật Minh
Nghiên cứu viên NLP
Alt Việt Nam
al+ AI Seminar số 4
Ngày 12/10/2018
Nội dung trình bày
• Ngữ cảnh của nghiên cứu
• Ý tưởng chính của nghiên cứu
• Mô hình ngôn ngữ (Language Models)
• Mô hình ELMo (Embeddings from Language Models)
• Thực nghiệm và đánh giá
• Kết luận
10/12/18 al+ AI Seminar No.4 2
Ngữ cảnh nghiên cứu
• Biểu diễn của từ (pre-trained word representations) là một thành
phần quan trọng trong các mô hình mạng neural cho NLP
Ma and Hovy, 2016
10/12/18
al+ AI Seminar No.4
3
Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ
10/12/18 al+ AI Seminar No.4 4
Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ
Ngữ cảnh cần thiết trong việc hiểu ngôn ngữ!
10/12/18 al+ AI Seminar No.4 5
Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
• context2vec (Melamud et al., 2016)
• LSTM hai chiều (bidirectional LSTMs)
• CoVe (McCann et al., 2017. Learned in Translation:
ContextualizedWord Vectors)
• Dùng đầu ra của encoder trong mô hình encoder-decoder
• Bị giới hạn bởi kích thức của corpus son ngữ
• Unsupervised Language Models (Peters et al., 2017)
• Chỉ dùng đầu ra của layer cao nhất trong mô hình biLM (bidirectional
language models)
10/12/18 al+ AI Seminar No.4 6
Ví dụ
Biểu diễn từ bằng biLM có thể phân biệt được các từ loại và nghĩa của từ “play” dựa trên ngữ cảnh
10/12/18 al+ AI Seminar No.4 7
Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
(Peters et al., 2017) Mô hình TagLM, embeddings sinh ra ở layer cao nhất trong
mô hình ngôn ngữ biLM được đưa vào mô hình sequence tagging dùng RNN
10/12/18 al+ AI Seminar No.4 8
ELMo: Embeddings from Language Models
10/12/18 al+ AI Seminar No.4 9
Khái yếu về bài báo
• Đề xuất một biểu diễn từ dựa trên ngữ cảnh (ELMo) có thể mô hình
hóa được các hiện tượng:
• Tính chất về cú pháp (syntax), ngữ nghĩa (semantic) trong việc sử dụng từ
• Tính đa nghĩa (polysemy) của từ trong các ngữ cảnh khác nhau
• Phương pháp (ELMo)
• Học trước một mô hình ngôn ngữ bằng mạng LSTM hai chiều và nhiều tầng
• Sinh ra biểu diễn của từ (ELMo vec-tơ) bằng cách lấy tổng có trọng số của các
trạng thái ở các tầng trong mô hình ngôn ngữ
• Sử dụng ELMo cho kết quả tốt nhất trong một số bài toán
• SLI, NER, SQuAD, Coreference Resolution (Coref), Semantic Role Labeling
(SRL), Sentiment Analysis (trong Stanford Sentiment Treebank – SST)
10/12/18 al+ AI Seminar No.4 10
88.6
88.0
SLI NER SQuAD Coref SRL SST-5
Kết quả tốt nhất trước đó Kết quả baseline
88.7
+ 5.8%
91.93
90.15
92.22
+ 21%
84.4
81.1
85.8
+ 25%
67.2 67.2
70.4
+ 9.8%
81.7 81.4
84.6
+ 17.2%
53.7
51.4
54.7
+ 6.8%
10/12/18 al+ AI Seminar No.4 11
Tính vector của từ phụ thuộc ngữ cảnh:
!" = $ %" %&, … , %) ∈ ℝ,
f(play|Elmo and Cookie Monster play a game .)
f(play|The Broadway play premiered yesterday .)
≠
Ý tưởng: Sử dụng mô hình ngôn ngữ hai chiều
(bidirectional language model) để nhúng context ở bên
phải và bên trái của một từ
10/12/18 al+ AI Seminar No.4 12
Mô hình ngôn ngữ (Language Models)
• Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một
ngôn ngữ
! " = !(%&, %(, … , w+)
• Mô hình ngôn ngữ truyền thống (n-gram language model)
! %&, %(, … , %- ≈ /
0
!(%0|%023 … %02&)
• Mô hình ngôn ngữ với mạng neural
• Feed-forward neural networks (Bengio, 2003)
• Recurrent neural network language model (Mikolov, 2011)
• LSTM language model (Graves, 2013)
10/12/18 al+ AI Seminar No.4 13
Mô hình ngôn ngữ (Language Models)
• Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một
ngôn ngữ
! " = !(%&, %(, … , w+)
• Mô hình ngôn ngữ truyền thống (n-gram language model)
! %&, %(, … , %- ≈ /
0
!(%0|%023 … %02&)
• Mô hình ngôn ngữ với mạng neural
• Feed-forward neural networks (Bengio, 2003)
• Recurrent neural network language model (Mikolov, 2011)
• LSTM language model (Graves, 2013)
10/12/18 al+ AI Seminar No.4 14
Feed-Forward Neural Network Language Model
10/12/18 al+ AI Seminar No.4 15
Bengio et al., 2003
LSTM Language Model
10/12/18 al+ AI Seminar No.4 16
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
Softmax
The Broadway play premiered yesterday .
Bidirectional Language Models (biLMs)
10/12/18 al+ AI Seminar No.4 17
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.
Bidirectional Language Models (biLMs)
• biLMs kết hợp forward và backward LMs
• Forward:
• Backward
• ELMo sử dụng hai bộ tham số (parameters) riêng biệt cho mỗi chiều
10/12/18 al+ AI Seminar No.4 18
! "#, "%, … , "' = )
*+#
,
!("*|"#, "%, … , "*/#)
! "#, "%, … , "' = )
*+#
,
!("*|"*1#, "*1%, … , ",)
Bidirectional Language Models (biLMs)
• biLMs kết hợp forward và backward LMs. Học mô hình bằng cách tối
ưu hàm log likelihood trên tập training:
• Trong đó:
• Θ" Tham số của biểu diễn từ (dùng chung cho 2 chiều)
• Θ# Tham số của tầng softmax (dùng chung cho 2 chiều)
• Θ$%&', Θ$%&' Tham số của forward LSTM và backward LSTM
10/12/18 al+ AI Seminar No.4 19
Mô hình ELMo
10/12/18 al+ AI Seminar No.4 20
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.
ELMo
= !"( +!$() ) +!&( )
Mô hình ELMo
• Với mỗi từ !", một mô hình biLM với L tầng sẽ tính 2L+1 biểu diễn cho
từ đó
#" = %"
&'
, ℎ",*
&'
, ℎ",*
&'
+ = 1, … , . = {ℎ",*
&'
|+ = 0, … , .}
• Trong đó
• ℎ",3
&'
là tầng token (word embedding)
• ℎ",*
&'
=[ℎ",*
&'
, ℎ",*
&'
]
10/12/18 al+ AI Seminar No.4 21
Mô hình ELMo
• ELMo biểu diễn một từ !" bằng tổ hợp tuyến tính của biểu diễn từ
sinh ra ở các tầng ẩn
#$%&"
'()"
= # +"; Θ'()"
= .'()"
/
012
3
40
'()"
ℎ",0
37
40
'()"
là các trọng số được normalized bằng hàm softmax
.'()" là scaling parameter
• Các trọng số được học trong theo từng task (downstream task)
• Vì thế ELMo là biểu diễn đặc thù theo từng task
10/12/18 al+ AI Seminar No.4 22
Cách áp dụng ELMo trong các mô hình NLP
10/12/18 al+ AI Seminar No.4 23
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
ELMo
ELMo Word Embedding
RNN
ELMo Hidden Layer Output
RNN
Cố định tham số của mô hình ngôn ngữ biLMs Đưa biểu diễn ELMo vào mô hình và học các trọng số
của tổ hợp tuyến tính tùy theo từng bài toán
Kiến trúc mô hình ngôn ngữ hai chiều (1)
• Tương tự như các mô hình trong
• Jozefowicz et al. (2016)
• Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. 2015. An empirical exploration of
recurrent network architectures. In ICML
• Kim et al., 2016
• Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush.2015. Character-aware
neural language models. In AAAI 2016.
• Biểu diễn input hoàn toàn dựa trên character
• Thay đổi để có thể học đồng thời cả hai chiều
• Thêm residual connection giữa hai các tầng trong mạng LSTM
10/12/18 al+ AI Seminar No.4 24
Kiến trúc mô hình ngôn ngữ hai chiều (2)
• 2-layer biLSTM
• 4096 units
• Residual connection từ layer 1 đến layer 2
• Biểu diễn không “nhạy” với ngữ cảnh
• 2048 character n-gram convolutional filters
• Hai tầng highway (Srivastava et al., 2015)
• Linear projection với 512 chiều
10/12/18 al+ AI Seminar No.4 25
He et al., Deep Residual Learning
for Image Recognition
Kiến trúc mô hình ngôn ngữ hai chiều (3)
• Huấn luyện trên dữ liệu benchmark 1 tỷ từ
• 1B Word Benchmark (Chelba et al., 2014)
• Perplexity trung bình của forward và backward LM: 39.7
• Fine tune biLM trên từng loại dữ liệu theo domain sẽ giảm perplexity
và tăng độ chính xác trên task cuối
• Trong hầu hết các thí nghiệm, tác giả fine tune biLM trên dữ liệu của
các task cuối
• Sau khi fine-tune, các tham số mô hình của biLM được giữ cố định
10/12/18 al+ AI Seminar No.4 26
Thực nghiệm
• Thực nghiệm trên 6 bài toán NLP
• Question answering: Stanford Question Answering Dataset (SQuAD)
• Textual entailment: Stanford Natural Language Inference (SNLI)
• Semantic role labeling: OntoNotes (SRL)
• Coreference resolution: OntoNotes coreference annotations (Coref)
• Named entity extraction: CoNLL NER (NER)
• Sentiment analysis: Stanford Sentiment Tree-bank (SST-5)
• Trong cả 6 bài toán, chỉ cần bổ sung ELMo vào các mô hình cơ sở sẽ
cho kết quả tốt nhất (“new state-of-the-art”)
10/12/18 al+ AI Seminar No.4 27
Mô hình cơ sở của 6 bài toán
Bài toán Mô hình baseline
SQuAD Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph
reading comprehension. CoRR abs/1710.10723.
Textual
entailment (SNLI)
ESIM sequence model (Chen et al., 2017. Enhanced lstm for natural language inference)
SRL He et al. (2017). Mô hình hóa bài toán dưới dạng BIO tagging. Dùng 8-layer deep biLSTM
Coref Lee et al. (2017). LSTM với kỹ thuật attention
NER CNN-biLSTM-CRF với 2 layers biLSTM
SST-5 biattentive classification network (BCN) (McCann et al., 2017)
10/12/18 al+ AI Seminar No.4 28
Kết quả đánh giá
10/12/18 al+ AI Seminar No.4 29
Tại sao biểu diễn bằng ELMo lại hiệu quả
• Hàm mục tiêu của mô hình ngôn ngữ (biLM) cho phép mạng neural
học được cách cú pháp và ngữ nghĩa thay đổi theo các ngữ cảnh khác
nhau
• Các mô hình NLP sẽ sử dụng biểu diễn ELMo một cách thích hợp theo
bài toán
10/12/18 al+ AI Seminar No.4 30
Đặc điểm của biểu diễn ELMo
Nguồn: https://allennlp.org/elmo
• Contextual: The representation for each word depends on the entire
context in which it is used.
• Deep: The word representations combine all layers of a deep pre-
trained neural network.
• Character based: ELMo representations are purely character based,
allowing the network to use morphological clues to form robust
representations for out-of-vocabulary tokens unseen in training.
10/12/18 al+ AI Seminar No.4 31
Phân tích 1: So sánh với pp. chỉ dùng tầng
cuối của biLM
10/12/18 al+ AI Seminar No.4 32
Phân tích 2: Dùng ELMo ở đâu trong
mô hình NLP?
10/12/18 al+ AI Seminar No.4 33
Phân tích 3: biLM học được những thông tin
nào?
• Thực hiện “intrinsic evaluation” đối với 2 bài toán
• fine grained word sense disambiguation (WSD)
• POS tagging
• WSD:
• Tính biểu diễn vector với biLM cho tất cả các từ trong tập huấn luyện
• Lấy trung bình cho từng nghĩa
• Dùng thuật toán nearest neighbor để xác định nghĩa của từ trong tập test
• POS:
• Dùng vec-tơ biểu diễn của từ sinh ra bằng biLM để đưa vào bộ phân lớp tuyến
tính (e.g., logistic regression)
10/12/18 al+ AI Seminar No.4 34
Phân tích 3: biLM học được những thông tin
nào?
• Các tầng cao hơn học được thông tin về ngữ nghĩa
• Các tầng thấp hơn học được thông tin về cú pháp
10/12/18 al+ AI Seminar No.4 35
Word sense disambiguation (WSD) POS Tagging
Phân tích 4: Hiệu quả về dữ liệu
(Sample efficiency)
• Các mô hình có bổ sung ELMo có thể tận dụng tốt hơn các tập dữ liệu
nhỏ so với mô hình không có ELMo
10/12/18 al+ AI Seminar No.4 36
Phân tích 5: Trực quan hóa trọng số mô hình
• Trọng số ở tầng input ”ưu tiên” LSTM ở layer 1 (trong biLM)
• Trọng số ở tầng output cân bằng hơn, ưu tiên một chút các tầng thấp của biLM
10/12/18 al+ AI Seminar No.4 37
Trực quan hóa trọng số (chuẩn hóa bằng softmax) của biLM trong các task và các vị
trí của ELMo. Các trọng số nhỏ hơn 1/3 được đánh bóng bằng những đường kẻ
ngang, các trọng số lớn hơn 2/3 là các ô có dấu chấm
Kết luận
• Mô hình ngôn ngữ dùng mạng neural hiệu quả trong việc sinh biểu
diễn của từ mang tính ngữ cảnh (contextualized representation)
• Đầu ra của tất cả các tầng trong mô hình ngôn ngữ biLM hữu ích
trong sinh biểu diễn từ
• biLM mã hóa một cách hiệu quả các thông tin khác nhau về cú pháp
và ngữ nghĩa
10/12/18 al+ AI Seminar No.4 38
Thông tin thêm
• Mô hình pre-trained ELMo có thể lấy được tại
https://allennlp.org/elmo
• AllenNLP là một thư viện NLP dùng Deep Learning
• Viết trên Pytorch framework
• Được phát triển bởi viện AI2 (Allen Institute for Artificial Intelligence)
• ELMo có thể xử lý các input ở mức character
• Có thể áp dụng cho các ngôn ngữ khác tiếng Anh nếu có mô hình
ngôn ngữ đủ lớn
• Ví dụ: tiếng Nhật, Hàn, Việt,…
10/12/18 al+ AI Seminar No.4 39

More Related Content

What's hot

Natural language processing and transformer models
Natural language processing and transformer modelsNatural language processing and transformer models
Natural language processing and transformer models
Ding Li
 
[Paper review] BERT
[Paper review] BERT[Paper review] BERT
[Paper review] BERT
JEE HYUN PARK
 
Natural Language processing Parts of speech tagging, its classes, and how to ...
Natural Language processing Parts of speech tagging, its classes, and how to ...Natural Language processing Parts of speech tagging, its classes, and how to ...
Natural Language processing Parts of speech tagging, its classes, and how to ...
Rajnish Raj
 
BERT introduction
BERT introductionBERT introduction
BERT introduction
Hanwha System / ICT
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기
찬희 이
 
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
Grammarly
 
Word2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad MahdaviWord2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad Mahdavi
irpycon
 
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
찬희 이
 
Comparative Analysis of Transformer Based Pre-Trained NLP Models
Comparative Analysis of Transformer Based Pre-Trained NLP ModelsComparative Analysis of Transformer Based Pre-Trained NLP Models
Comparative Analysis of Transformer Based Pre-Trained NLP Models
saurav singla
 
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshopورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
iwan_rg
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
LGCNSairesearch
 
Neural Architectures for Named Entity Recognition
Neural Architectures for Named Entity RecognitionNeural Architectures for Named Entity Recognition
Neural Architectures for Named Entity Recognition
Rrubaa Panchendrarajan
 
word level analysis
word level analysis word level analysis
word level analysis
tjs1
 
Deep Learning for Natural Language Processing: Word Embeddings
Deep Learning for Natural Language Processing: Word EmbeddingsDeep Learning for Natural Language Processing: Word Embeddings
Deep Learning for Natural Language Processing: Word Embeddings
Roelof Pieters
 
Distributed Transaction in Microservice
Distributed Transaction in MicroserviceDistributed Transaction in Microservice
Distributed Transaction in Microservice
Nghia Minh
 
Natural Language Processing with Python
Natural Language Processing with PythonNatural Language Processing with Python
Natural Language Processing with Python
Benjamin Bengfort
 
Thiết kế hệ thống E-Commerce yêu cầu mở rộng
Thiết kế hệ thống E-Commerce yêu cầu mở rộngThiết kế hệ thống E-Commerce yêu cầu mở rộng
Thiết kế hệ thống E-Commerce yêu cầu mở rộng
Nguyen Minh Quang
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - Introduction
Christian Perone
 
Glove global vectors for word representation
Glove global vectors for word representationGlove global vectors for word representation
Glove global vectors for word representation
hyunyoung Lee
 
Textrank algorithm
Textrank algorithmTextrank algorithm
Textrank algorithm
Andrew Koo
 

What's hot (20)

Natural language processing and transformer models
Natural language processing and transformer modelsNatural language processing and transformer models
Natural language processing and transformer models
 
[Paper review] BERT
[Paper review] BERT[Paper review] BERT
[Paper review] BERT
 
Natural Language processing Parts of speech tagging, its classes, and how to ...
Natural Language processing Parts of speech tagging, its classes, and how to ...Natural Language processing Parts of speech tagging, its classes, and how to ...
Natural Language processing Parts of speech tagging, its classes, and how to ...
 
BERT introduction
BERT introductionBERT introduction
BERT introduction
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기
 
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...
 
Word2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad MahdaviWord2Vec: Vector presentation of words - Mohammad Mahdavi
Word2Vec: Vector presentation of words - Mohammad Mahdavi
 
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense DisambiguationContext2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
 
Comparative Analysis of Transformer Based Pre-Trained NLP Models
Comparative Analysis of Transformer Based Pre-Trained NLP ModelsComparative Analysis of Transformer Based Pre-Trained NLP Models
Comparative Analysis of Transformer Based Pre-Trained NLP Models
 
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshopورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
ورشة تضمين الكلمات في التعلم العميق Word embeddings workshop
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
Neural Architectures for Named Entity Recognition
Neural Architectures for Named Entity RecognitionNeural Architectures for Named Entity Recognition
Neural Architectures for Named Entity Recognition
 
word level analysis
word level analysis word level analysis
word level analysis
 
Deep Learning for Natural Language Processing: Word Embeddings
Deep Learning for Natural Language Processing: Word EmbeddingsDeep Learning for Natural Language Processing: Word Embeddings
Deep Learning for Natural Language Processing: Word Embeddings
 
Distributed Transaction in Microservice
Distributed Transaction in MicroserviceDistributed Transaction in Microservice
Distributed Transaction in Microservice
 
Natural Language Processing with Python
Natural Language Processing with PythonNatural Language Processing with Python
Natural Language Processing with Python
 
Thiết kế hệ thống E-Commerce yêu cầu mở rộng
Thiết kế hệ thống E-Commerce yêu cầu mở rộngThiết kế hệ thống E-Commerce yêu cầu mở rộng
Thiết kế hệ thống E-Commerce yêu cầu mở rộng
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - Introduction
 
Glove global vectors for word representation
Glove global vectors for word representationGlove global vectors for word representation
Glove global vectors for word representation
 
Textrank algorithm
Textrank algorithmTextrank algorithm
Textrank algorithm
 

Similar to Deep Contexualized Representation

Deep learning for specific information extraction from unstructured texts
Deep learning for specific information extraction from unstructured textsDeep learning for specific information extraction from unstructured texts
Deep learning for specific information extraction from unstructured texts
datalab-vietnam
 
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryGiải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Ho Quang Thanh
 
Coding Standard (Chuẩn Mã Nguồn)
Coding Standard (Chuẩn Mã Nguồn)Coding Standard (Chuẩn Mã Nguồn)
Coding Standard (Chuẩn Mã Nguồn)
Hong Le Van
 
Chuanmanguon 151124092923-lva1-app6892
Chuanmanguon 151124092923-lva1-app6892Chuanmanguon 151124092923-lva1-app6892
Chuanmanguon 151124092923-lva1-app6892
HaiNguyen870
 
Bai11 tinhoc11
Bai11 tinhoc11Bai11 tinhoc11
Bai11 tinhoc11tin_k36
 
45128de03569526f74ab41afe7186aef
45128de03569526f74ab41afe7186aef45128de03569526f74ab41afe7186aef
45128de03569526f74ab41afe7186aef
Phi Phi
 
Bài Tập lập trình Lí thuyết thông tin 3
Bài Tập lập trình Lí thuyết thông tin 3Bài Tập lập trình Lí thuyết thông tin 3
Bài Tập lập trình Lí thuyết thông tin 3
vanphong20082002
 
Bert for question answering on SQuAD 2.0
Bert for question answering on SQuAD 2.0Bert for question answering on SQuAD 2.0
Bert for question answering on SQuAD 2.0
Hoangtrungchinh Ttnct
 
chương1.pdf
chương1.pdfchương1.pdf
chương1.pdf
DiemTran75
 
Hoatdongbaiday-HaNgoc
Hoatdongbaiday-HaNgocHoatdongbaiday-HaNgoc
Hoatdongbaiday-HaNgoc
SP Tin K34
 
Print_to_OOP.pdf
Print_to_OOP.pdfPrint_to_OOP.pdf
Print_to_OOP.pdf
cLong52
 
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
jackjohn45
 
Bai01 oop overview
Bai01 oop overviewBai01 oop overview
Bai01 oop overview
Nhuận Lê Văn
 
Sáng tạo trong thuật toán và lập trình Pascal và C#
Sáng tạo trong thuật toán và lập trình Pascal và C#Sáng tạo trong thuật toán và lập trình Pascal và C#
Sáng tạo trong thuật toán và lập trình Pascal và C#Dương Tuấn
 
Kỹ năng trình bày
Kỹ năng trình bàyKỹ năng trình bày
Kỹ năng trình bày
LamQuangVu1
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
GMO-Z.com Vietnam Lab Center
 
005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf
VietNguyen622816
 
005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf
VietNguyen622816
 

Similar to Deep Contexualized Representation (20)

Deep learning for specific information extraction from unstructured texts
Deep learning for specific information extraction from unstructured textsDeep learning for specific information extraction from unstructured texts
Deep learning for specific information extraction from unstructured texts
 
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryGiải quyết bài toán Speech-2-Text bằng Long Short-term Memory
Giải quyết bài toán Speech-2-Text bằng Long Short-term Memory
 
Coding Standard (Chuẩn Mã Nguồn)
Coding Standard (Chuẩn Mã Nguồn)Coding Standard (Chuẩn Mã Nguồn)
Coding Standard (Chuẩn Mã Nguồn)
 
Chuanmanguon 151124092923-lva1-app6892
Chuanmanguon 151124092923-lva1-app6892Chuanmanguon 151124092923-lva1-app6892
Chuanmanguon 151124092923-lva1-app6892
 
Bai11 tinhoc11
Bai11 tinhoc11Bai11 tinhoc11
Bai11 tinhoc11
 
Bai11
Bai11Bai11
Bai11
 
45128de03569526f74ab41afe7186aef
45128de03569526f74ab41afe7186aef45128de03569526f74ab41afe7186aef
45128de03569526f74ab41afe7186aef
 
Bài Tập lập trình Lí thuyết thông tin 3
Bài Tập lập trình Lí thuyết thông tin 3Bài Tập lập trình Lí thuyết thông tin 3
Bài Tập lập trình Lí thuyết thông tin 3
 
Bert for question answering on SQuAD 2.0
Bert for question answering on SQuAD 2.0Bert for question answering on SQuAD 2.0
Bert for question answering on SQuAD 2.0
 
chương1.pdf
chương1.pdfchương1.pdf
chương1.pdf
 
Hoatdongbaiday-HaNgoc
Hoatdongbaiday-HaNgocHoatdongbaiday-HaNgoc
Hoatdongbaiday-HaNgoc
 
SE
SE SE
SE
 
Print_to_OOP.pdf
Print_to_OOP.pdfPrint_to_OOP.pdf
Print_to_OOP.pdf
 
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...Tiểu luận  cơ sở ngành kỹ thuật phần mềm. phần mềm  mô phỏng các thuật toán s...
Tiểu luận cơ sở ngành kỹ thuật phần mềm. phần mềm mô phỏng các thuật toán s...
 
Bai01 oop overview
Bai01 oop overviewBai01 oop overview
Bai01 oop overview
 
Sáng tạo trong thuật toán và lập trình Pascal và C#
Sáng tạo trong thuật toán và lập trình Pascal và C#Sáng tạo trong thuật toán và lập trình Pascal và C#
Sáng tạo trong thuật toán và lập trình Pascal và C#
 
Kỹ năng trình bày
Kỹ năng trình bàyKỹ năng trình bày
Kỹ năng trình bày
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
 
005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf
 
005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf005. LAP TRINH C#.pdf
005. LAP TRINH C#.pdf
 

More from Minh Pham

Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPTPrompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
Minh Pham
 
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
Minh Pham
 
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
Minh Pham
 
Research methods for engineering students (v.2020)
Research methods for engineering students (v.2020)Research methods for engineering students (v.2020)
Research methods for engineering students (v.2020)
Minh Pham
 
Giới thiệu về AIML
Giới thiệu về AIMLGiới thiệu về AIML
Giới thiệu về AIML
Minh Pham
 
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Minh Pham
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Minh Pham
 
Research Methods in Natural Language Processing (2018 version)
Research Methods in Natural Language Processing (2018 version)Research Methods in Natural Language Processing (2018 version)
Research Methods in Natural Language Processing (2018 version)
Minh Pham
 
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
Minh Pham
 
Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017
Về kỹ thuật Attention trong mô hình sequence-to-sequence  tại hội nghị ACL 2017Về kỹ thuật Attention trong mô hình sequence-to-sequence  tại hội nghị ACL 2017
Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017
Minh Pham
 
Research Methods in Natural Language Processing
Research Methods in Natural Language ProcessingResearch Methods in Natural Language Processing
Research Methods in Natural Language Processing
Minh Pham
 
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbotCác bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
Minh Pham
 
Introduction to natural language processing
Introduction to natural language processingIntroduction to natural language processing
Introduction to natural language processing
Minh Pham
 

More from Minh Pham (13)

Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPTPrompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPT
 
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...
 
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
A Multimodal Ensemble Model for Detecting Unreliable Information on Vietnames...
 
Research methods for engineering students (v.2020)
Research methods for engineering students (v.2020)Research methods for engineering students (v.2020)
Research methods for engineering students (v.2020)
 
Giới thiệu về AIML
Giới thiệu về AIMLGiới thiệu về AIML
Giới thiệu về AIML
 
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 
Research Methods in Natural Language Processing (2018 version)
Research Methods in Natural Language Processing (2018 version)Research Methods in Natural Language Processing (2018 version)
Research Methods in Natural Language Processing (2018 version)
 
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...
 
Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017
Về kỹ thuật Attention trong mô hình sequence-to-sequence  tại hội nghị ACL 2017Về kỹ thuật Attention trong mô hình sequence-to-sequence  tại hội nghị ACL 2017
Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017
 
Research Methods in Natural Language Processing
Research Methods in Natural Language ProcessingResearch Methods in Natural Language Processing
Research Methods in Natural Language Processing
 
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbotCác bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot
 
Introduction to natural language processing
Introduction to natural language processingIntroduction to natural language processing
Introduction to natural language processing
 

Deep Contexualized Representation

  • 1. Deep Contextualized Word Representations Peters et al., 2018 (NAACL) Người trình bày Phạm Quang Nhật Minh Nghiên cứu viên NLP Alt Việt Nam al+ AI Seminar số 4 Ngày 12/10/2018
  • 2. Nội dung trình bày • Ngữ cảnh của nghiên cứu • Ý tưởng chính của nghiên cứu • Mô hình ngôn ngữ (Language Models) • Mô hình ELMo (Embeddings from Language Models) • Thực nghiệm và đánh giá • Kết luận 10/12/18 al+ AI Seminar No.4 2
  • 3. Ngữ cảnh nghiên cứu • Biểu diễn của từ (pre-trained word representations) là một thành phần quan trọng trong các mô hình mạng neural cho NLP Ma and Hovy, 2016 10/12/18 al+ AI Seminar No.4 3
  • 4. Các mô hình biểu diễn từ • Vec-tơ từ (như word2vec hay glove) • Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn • Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất • Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ 10/12/18 al+ AI Seminar No.4 4
  • 5. Các mô hình biểu diễn từ • Vec-tơ từ (như word2vec hay glove) • Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn • Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất • Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ Ngữ cảnh cần thiết trong việc hiểu ngôn ngữ! 10/12/18 al+ AI Seminar No.4 5
  • 6. Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh • context2vec (Melamud et al., 2016) • LSTM hai chiều (bidirectional LSTMs) • CoVe (McCann et al., 2017. Learned in Translation: ContextualizedWord Vectors) • Dùng đầu ra của encoder trong mô hình encoder-decoder • Bị giới hạn bởi kích thức của corpus son ngữ • Unsupervised Language Models (Peters et al., 2017) • Chỉ dùng đầu ra của layer cao nhất trong mô hình biLM (bidirectional language models) 10/12/18 al+ AI Seminar No.4 6
  • 7. Ví dụ Biểu diễn từ bằng biLM có thể phân biệt được các từ loại và nghĩa của từ “play” dựa trên ngữ cảnh 10/12/18 al+ AI Seminar No.4 7
  • 8. Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh (Peters et al., 2017) Mô hình TagLM, embeddings sinh ra ở layer cao nhất trong mô hình ngôn ngữ biLM được đưa vào mô hình sequence tagging dùng RNN 10/12/18 al+ AI Seminar No.4 8
  • 9. ELMo: Embeddings from Language Models 10/12/18 al+ AI Seminar No.4 9
  • 10. Khái yếu về bài báo • Đề xuất một biểu diễn từ dựa trên ngữ cảnh (ELMo) có thể mô hình hóa được các hiện tượng: • Tính chất về cú pháp (syntax), ngữ nghĩa (semantic) trong việc sử dụng từ • Tính đa nghĩa (polysemy) của từ trong các ngữ cảnh khác nhau • Phương pháp (ELMo) • Học trước một mô hình ngôn ngữ bằng mạng LSTM hai chiều và nhiều tầng • Sinh ra biểu diễn của từ (ELMo vec-tơ) bằng cách lấy tổng có trọng số của các trạng thái ở các tầng trong mô hình ngôn ngữ • Sử dụng ELMo cho kết quả tốt nhất trong một số bài toán • SLI, NER, SQuAD, Coreference Resolution (Coref), Semantic Role Labeling (SRL), Sentiment Analysis (trong Stanford Sentiment Treebank – SST) 10/12/18 al+ AI Seminar No.4 10
  • 11. 88.6 88.0 SLI NER SQuAD Coref SRL SST-5 Kết quả tốt nhất trước đó Kết quả baseline 88.7 + 5.8% 91.93 90.15 92.22 + 21% 84.4 81.1 85.8 + 25% 67.2 67.2 70.4 + 9.8% 81.7 81.4 84.6 + 17.2% 53.7 51.4 54.7 + 6.8% 10/12/18 al+ AI Seminar No.4 11
  • 12. Tính vector của từ phụ thuộc ngữ cảnh: !" = $ %" %&, … , %) ∈ ℝ, f(play|Elmo and Cookie Monster play a game .) f(play|The Broadway play premiered yesterday .) ≠ Ý tưởng: Sử dụng mô hình ngôn ngữ hai chiều (bidirectional language model) để nhúng context ở bên phải và bên trái của một từ 10/12/18 al+ AI Seminar No.4 12
  • 13. Mô hình ngôn ngữ (Language Models) • Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một ngôn ngữ ! " = !(%&, %(, … , w+) • Mô hình ngôn ngữ truyền thống (n-gram language model) ! %&, %(, … , %- ≈ / 0 !(%0|%023 … %02&) • Mô hình ngôn ngữ với mạng neural • Feed-forward neural networks (Bengio, 2003) • Recurrent neural network language model (Mikolov, 2011) • LSTM language model (Graves, 2013) 10/12/18 al+ AI Seminar No.4 13
  • 14. Mô hình ngôn ngữ (Language Models) • Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một ngôn ngữ ! " = !(%&, %(, … , w+) • Mô hình ngôn ngữ truyền thống (n-gram language model) ! %&, %(, … , %- ≈ / 0 !(%0|%023 … %02&) • Mô hình ngôn ngữ với mạng neural • Feed-forward neural networks (Bengio, 2003) • Recurrent neural network language model (Mikolov, 2011) • LSTM language model (Graves, 2013) 10/12/18 al+ AI Seminar No.4 14
  • 15. Feed-Forward Neural Network Language Model 10/12/18 al+ AI Seminar No.4 15 Bengio et al., 2003
  • 16. LSTM Language Model 10/12/18 al+ AI Seminar No.4 16 LSTM LSTM LSTM LSTM LSTM LSTM Softmax The Broadway play premiered yesterday .
  • 17. Bidirectional Language Models (biLMs) 10/12/18 al+ AI Seminar No.4 17 LSTM LSTM LSTM LSTM LSTM LSTM The Broadway play premiered yesterday LSTM LSTM LSTM LSTM LSTM LSTM .
  • 18. Bidirectional Language Models (biLMs) • biLMs kết hợp forward và backward LMs • Forward: • Backward • ELMo sử dụng hai bộ tham số (parameters) riêng biệt cho mỗi chiều 10/12/18 al+ AI Seminar No.4 18 ! "#, "%, … , "' = ) *+# , !("*|"#, "%, … , "*/#) ! "#, "%, … , "' = ) *+# , !("*|"*1#, "*1%, … , ",)
  • 19. Bidirectional Language Models (biLMs) • biLMs kết hợp forward và backward LMs. Học mô hình bằng cách tối ưu hàm log likelihood trên tập training: • Trong đó: • Θ" Tham số của biểu diễn từ (dùng chung cho 2 chiều) • Θ# Tham số của tầng softmax (dùng chung cho 2 chiều) • Θ$%&', Θ$%&' Tham số của forward LSTM và backward LSTM 10/12/18 al+ AI Seminar No.4 19
  • 20. Mô hình ELMo 10/12/18 al+ AI Seminar No.4 20 LSTM LSTM LSTM LSTM LSTM LSTM The Broadway play premiered yesterday LSTM LSTM LSTM LSTM LSTM LSTM . ELMo = !"( +!$() ) +!&( )
  • 21. Mô hình ELMo • Với mỗi từ !", một mô hình biLM với L tầng sẽ tính 2L+1 biểu diễn cho từ đó #" = %" &' , ℎ",* &' , ℎ",* &' + = 1, … , . = {ℎ",* &' |+ = 0, … , .} • Trong đó • ℎ",3 &' là tầng token (word embedding) • ℎ",* &' =[ℎ",* &' , ℎ",* &' ] 10/12/18 al+ AI Seminar No.4 21
  • 22. Mô hình ELMo • ELMo biểu diễn một từ !" bằng tổ hợp tuyến tính của biểu diễn từ sinh ra ở các tầng ẩn #$%&" '()" = # +"; Θ'()" = .'()" / 012 3 40 '()" ℎ",0 37 40 '()" là các trọng số được normalized bằng hàm softmax .'()" là scaling parameter • Các trọng số được học trong theo từng task (downstream task) • Vì thế ELMo là biểu diễn đặc thù theo từng task 10/12/18 al+ AI Seminar No.4 22
  • 23. Cách áp dụng ELMo trong các mô hình NLP 10/12/18 al+ AI Seminar No.4 23 LSTM LSTM LSTM LSTM LSTM LSTM ELMo ELMo Word Embedding RNN ELMo Hidden Layer Output RNN Cố định tham số của mô hình ngôn ngữ biLMs Đưa biểu diễn ELMo vào mô hình và học các trọng số của tổ hợp tuyến tính tùy theo từng bài toán
  • 24. Kiến trúc mô hình ngôn ngữ hai chiều (1) • Tương tự như các mô hình trong • Jozefowicz et al. (2016) • Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. 2015. An empirical exploration of recurrent network architectures. In ICML • Kim et al., 2016 • Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush.2015. Character-aware neural language models. In AAAI 2016. • Biểu diễn input hoàn toàn dựa trên character • Thay đổi để có thể học đồng thời cả hai chiều • Thêm residual connection giữa hai các tầng trong mạng LSTM 10/12/18 al+ AI Seminar No.4 24
  • 25. Kiến trúc mô hình ngôn ngữ hai chiều (2) • 2-layer biLSTM • 4096 units • Residual connection từ layer 1 đến layer 2 • Biểu diễn không “nhạy” với ngữ cảnh • 2048 character n-gram convolutional filters • Hai tầng highway (Srivastava et al., 2015) • Linear projection với 512 chiều 10/12/18 al+ AI Seminar No.4 25 He et al., Deep Residual Learning for Image Recognition
  • 26. Kiến trúc mô hình ngôn ngữ hai chiều (3) • Huấn luyện trên dữ liệu benchmark 1 tỷ từ • 1B Word Benchmark (Chelba et al., 2014) • Perplexity trung bình của forward và backward LM: 39.7 • Fine tune biLM trên từng loại dữ liệu theo domain sẽ giảm perplexity và tăng độ chính xác trên task cuối • Trong hầu hết các thí nghiệm, tác giả fine tune biLM trên dữ liệu của các task cuối • Sau khi fine-tune, các tham số mô hình của biLM được giữ cố định 10/12/18 al+ AI Seminar No.4 26
  • 27. Thực nghiệm • Thực nghiệm trên 6 bài toán NLP • Question answering: Stanford Question Answering Dataset (SQuAD) • Textual entailment: Stanford Natural Language Inference (SNLI) • Semantic role labeling: OntoNotes (SRL) • Coreference resolution: OntoNotes coreference annotations (Coref) • Named entity extraction: CoNLL NER (NER) • Sentiment analysis: Stanford Sentiment Tree-bank (SST-5) • Trong cả 6 bài toán, chỉ cần bổ sung ELMo vào các mô hình cơ sở sẽ cho kết quả tốt nhất (“new state-of-the-art”) 10/12/18 al+ AI Seminar No.4 27
  • 28. Mô hình cơ sở của 6 bài toán Bài toán Mô hình baseline SQuAD Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph reading comprehension. CoRR abs/1710.10723. Textual entailment (SNLI) ESIM sequence model (Chen et al., 2017. Enhanced lstm for natural language inference) SRL He et al. (2017). Mô hình hóa bài toán dưới dạng BIO tagging. Dùng 8-layer deep biLSTM Coref Lee et al. (2017). LSTM với kỹ thuật attention NER CNN-biLSTM-CRF với 2 layers biLSTM SST-5 biattentive classification network (BCN) (McCann et al., 2017) 10/12/18 al+ AI Seminar No.4 28
  • 29. Kết quả đánh giá 10/12/18 al+ AI Seminar No.4 29
  • 30. Tại sao biểu diễn bằng ELMo lại hiệu quả • Hàm mục tiêu của mô hình ngôn ngữ (biLM) cho phép mạng neural học được cách cú pháp và ngữ nghĩa thay đổi theo các ngữ cảnh khác nhau • Các mô hình NLP sẽ sử dụng biểu diễn ELMo một cách thích hợp theo bài toán 10/12/18 al+ AI Seminar No.4 30
  • 31. Đặc điểm của biểu diễn ELMo Nguồn: https://allennlp.org/elmo • Contextual: The representation for each word depends on the entire context in which it is used. • Deep: The word representations combine all layers of a deep pre- trained neural network. • Character based: ELMo representations are purely character based, allowing the network to use morphological clues to form robust representations for out-of-vocabulary tokens unseen in training. 10/12/18 al+ AI Seminar No.4 31
  • 32. Phân tích 1: So sánh với pp. chỉ dùng tầng cuối của biLM 10/12/18 al+ AI Seminar No.4 32
  • 33. Phân tích 2: Dùng ELMo ở đâu trong mô hình NLP? 10/12/18 al+ AI Seminar No.4 33
  • 34. Phân tích 3: biLM học được những thông tin nào? • Thực hiện “intrinsic evaluation” đối với 2 bài toán • fine grained word sense disambiguation (WSD) • POS tagging • WSD: • Tính biểu diễn vector với biLM cho tất cả các từ trong tập huấn luyện • Lấy trung bình cho từng nghĩa • Dùng thuật toán nearest neighbor để xác định nghĩa của từ trong tập test • POS: • Dùng vec-tơ biểu diễn của từ sinh ra bằng biLM để đưa vào bộ phân lớp tuyến tính (e.g., logistic regression) 10/12/18 al+ AI Seminar No.4 34
  • 35. Phân tích 3: biLM học được những thông tin nào? • Các tầng cao hơn học được thông tin về ngữ nghĩa • Các tầng thấp hơn học được thông tin về cú pháp 10/12/18 al+ AI Seminar No.4 35 Word sense disambiguation (WSD) POS Tagging
  • 36. Phân tích 4: Hiệu quả về dữ liệu (Sample efficiency) • Các mô hình có bổ sung ELMo có thể tận dụng tốt hơn các tập dữ liệu nhỏ so với mô hình không có ELMo 10/12/18 al+ AI Seminar No.4 36
  • 37. Phân tích 5: Trực quan hóa trọng số mô hình • Trọng số ở tầng input ”ưu tiên” LSTM ở layer 1 (trong biLM) • Trọng số ở tầng output cân bằng hơn, ưu tiên một chút các tầng thấp của biLM 10/12/18 al+ AI Seminar No.4 37 Trực quan hóa trọng số (chuẩn hóa bằng softmax) của biLM trong các task và các vị trí của ELMo. Các trọng số nhỏ hơn 1/3 được đánh bóng bằng những đường kẻ ngang, các trọng số lớn hơn 2/3 là các ô có dấu chấm
  • 38. Kết luận • Mô hình ngôn ngữ dùng mạng neural hiệu quả trong việc sinh biểu diễn của từ mang tính ngữ cảnh (contextualized representation) • Đầu ra của tất cả các tầng trong mô hình ngôn ngữ biLM hữu ích trong sinh biểu diễn từ • biLM mã hóa một cách hiệu quả các thông tin khác nhau về cú pháp và ngữ nghĩa 10/12/18 al+ AI Seminar No.4 38
  • 39. Thông tin thêm • Mô hình pre-trained ELMo có thể lấy được tại https://allennlp.org/elmo • AllenNLP là một thư viện NLP dùng Deep Learning • Viết trên Pytorch framework • Được phát triển bởi viện AI2 (Allen Institute for Artificial Intelligence) • ELMo có thể xử lý các input ở mức character • Có thể áp dụng cho các ngôn ngữ khác tiếng Anh nếu có mô hình ngôn ngữ đủ lớn • Ví dụ: tiếng Nhật, Hàn, Việt,… 10/12/18 al+ AI Seminar No.4 39