Deep Contexualized Representation

Deep Contextualized
Word Representations
Peters et al., 2018 (NAACL)
Người trình bày
Phạm Quang Nhật Minh
Nghiên cứu viên NLP
Alt Việt Nam
al+ AI Seminar số 4
Ngày 12/10/2018

Nội dung trình bày
• Ngữ cảnh của nghiên cứu
• Ý tưởng chính của nghiên cứu
• Mô hình ngôn ngữ (Language Models)
• Mô hình ELMo (Embeddings from Language Models)
• Thực nghiệm và đánh giá
• Kết luận
10/12/18 al+ AI Seminar No.4 2

Ngữ cảnh nghiên cứu
• Biểu diễn của từ (pre-trained word representations) là một thành
phần quan trọng trong các mô hình mạng neural cho NLP
Ma and Hovy, 2016
10/12/18
al+ AI Seminar No.4
3

Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ

Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ
Ngữ cảnh cần thiết trong việc hiểu ngôn ngữ!

Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
• context2vec (Melamud et al., 2016)
• LSTM hai chiều (bidirectional LSTMs)
• CoVe (McCann et al., 2017. Learned in Translation:
ContextualizedWord Vectors)
• Dùng đầu ra của encoder trong mô hình encoder-decoder
• Bị giới hạn bởi kích thức của corpus son ngữ
• Unsupervised Language Models (Peters et al., 2017)
• Chỉ dùng đầu ra của layer cao nhất trong mô hình biLM (bidirectional
language models)

Ví dụ
Biểu diễn từ bằng biLM có thể phân biệt được các từ loại và nghĩa của từ “play” dựa trên ngữ cảnh

Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
(Peters et al., 2017) Mô hình TagLM, embeddings sinh ra ở layer cao nhất trong
mô hình ngôn ngữ biLM được đưa vào mô hình sequence tagging dùng RNN

ELMo: Embeddings from Language Models

Khái yếu về bài báo
• Đề xuất một biểu diễn từ dựa trên ngữ cảnh (ELMo) có thể mô hình
hóa được các hiện tượng:
• Tính chất về cú pháp (syntax), ngữ nghĩa (semantic) trong việc sử dụng từ
• Tính đa nghĩa (polysemy) của từ trong các ngữ cảnh khác nhau
• Phương pháp (ELMo)
• Học trước một mô hình ngôn ngữ bằng mạng LSTM hai chiều và nhiều tầng
• Sinh ra biểu diễn của từ (ELMo vec-tơ) bằng cách lấy tổng có trọng số của các
trạng thái ở các tầng trong mô hình ngôn ngữ
• Sử dụng ELMo cho kết quả tốt nhất trong một số bài toán
• SLI, NER, SQuAD, Coreference Resolution (Coref), Semantic Role Labeling
(SRL), Sentiment Analysis (trong Stanford Sentiment Treebank – SST)

88.6
88.0
SLI NER SQuAD Coref SRL SST-5
Kết quả tốt nhất trước đó Kết quả baseline
88.7
+ 5.8%
91.93
90.15
92.22
+ 21%
84.4
81.1
85.8
+ 25%
67.2 67.2
70.4
+ 9.8%
81.7 81.4
84.6
+ 17.2%
53.7
51.4
54.7
+ 6.8%

Tính vector của từ phụ thuộc ngữ cảnh:
!" = $ %" %&, … , %) ∈ ℝ,
f(play|Elmo and Cookie Monster play a game .)
f(play|The Broadway play premiered yesterday .)
≠
Ý tưởng: Sử dụng mô hình ngôn ngữ hai chiều
(bidirectional language model) để nhúng context ở bên
phải và bên trái của một từ

Mô hình ngôn ngữ (Language Models)
• Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một
ngôn ngữ
! " = !(%&, %(, … , w+)
• Mô hình ngôn ngữ truyền thống (n-gram language model)
! %&, %(, … , %- ≈ /
0
!(%0|%023 … %02&)
• Mô hình ngôn ngữ với mạng neural
• Feed-forward neural networks (Bengio, 2003)
• Recurrent neural network language model (Mikolov, 2011)
• LSTM language model (Graves, 2013)

Feed-Forward Neural Network Language Model
Bengio et al., 2003

LSTM Language Model
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
Softmax
The Broadway play premiered yesterday .

Bidirectional Language Models (biLMs)
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.

• biLMs kết hợp forward và backward LMs
• Forward:
• Backward
• ELMo sử dụng hai bộ tham số (parameters) riêng biệt cho mỗi chiều
! "#, "%, … , "' = )
*+#
,
!("*|"#, "%, … , "*/#)
! "#, "%, … , "' = )
*+#
,
!("*|"*1#, "*1%, … , ",)

• biLMs kết hợp forward và backward LMs. Học mô hình bằng cách tối
ưu hàm log likelihood trên tập training:
• Trong đó:
• Θ" Tham số của biểu diễn từ (dùng chung cho 2 chiều)
• Θ# Tham số của tầng softmax (dùng chung cho 2 chiều)
• Θ$%&', Θ$%&' Tham số của forward LSTM và backward LSTM

Mô hình ELMo
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.
ELMo
= !"( +!$() ) +!&( )

Mô hình ELMo
• Với mỗi từ !", một mô hình biLM với L tầng sẽ tính 2L+1 biểu diễn cho
từ đó
#" = %"
&'
, ℎ",*
&'
, ℎ",*
&'
+ = 1, … , . = {ℎ",*
&'
|+ = 0, … , .}
• Trong đó
• ℎ",3
&'
là tầng token (word embedding)
• ℎ",*
&'
=[ℎ",*
&'
, ℎ",*
&'
]

Mô hình ELMo
• ELMo biểu diễn một từ !" bằng tổ hợp tuyến tính của biểu diễn từ
sinh ra ở các tầng ẩn
#$%&"
'()"
= # +"; Θ'()"
= .'()"
/
012
3
40
'()"
ℎ",0
37
40
'()"
là các trọng số được normalized bằng hàm softmax
.'()" là scaling parameter
• Các trọng số được học trong theo từng task (downstream task)
• Vì thế ELMo là biểu diễn đặc thù theo từng task

Cách áp dụng ELMo trong các mô hình NLP
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
ELMo
ELMo Word Embedding
RNN
ELMo Hidden Layer Output
RNN
Cố định tham số của mô hình ngôn ngữ biLMs Đưa biểu diễn ELMo vào mô hình và học các trọng số
của tổ hợp tuyến tính tùy theo từng bài toán

Kiến trúc mô hình ngôn ngữ hai chiều (1)
• Tương tự như các mô hình trong
• Jozefowicz et al. (2016)
• Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. 2015. An empirical exploration of
recurrent network architectures. In ICML
• Kim et al., 2016
• Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush.2015. Character-aware
neural language models. In AAAI 2016.
• Biểu diễn input hoàn toàn dựa trên character
• Thay đổi để có thể học đồng thời cả hai chiều
• Thêm residual connection giữa hai các tầng trong mạng LSTM

• 2-layer biLSTM
• 4096 units
• Residual connection từ layer 1 đến layer 2
• Biểu diễn không “nhạy” với ngữ cảnh
• 2048 character n-gram convolutional filters
• Hai tầng highway (Srivastava et al., 2015)
• Linear projection với 512 chiều
He et al., Deep Residual Learning
for Image Recognition

• Huấn luyện trên dữ liệu benchmark 1 tỷ từ
• 1B Word Benchmark (Chelba et al., 2014)
• Perplexity trung bình của forward và backward LM: 39.7
• Fine tune biLM trên từng loại dữ liệu theo domain sẽ giảm perplexity
và tăng độ chính xác trên task cuối
• Trong hầu hết các thí nghiệm, tác giả fine tune biLM trên dữ liệu của
các task cuối
• Sau khi fine-tune, các tham số mô hình của biLM được giữ cố định

Thực nghiệm
• Thực nghiệm trên 6 bài toán NLP
• Question answering: Stanford Question Answering Dataset (SQuAD)
• Textual entailment: Stanford Natural Language Inference (SNLI)
• Semantic role labeling: OntoNotes (SRL)
• Coreference resolution: OntoNotes coreference annotations (Coref)
• Named entity extraction: CoNLL NER (NER)
• Sentiment analysis: Stanford Sentiment Tree-bank (SST-5)
• Trong cả 6 bài toán, chỉ cần bổ sung ELMo vào các mô hình cơ sở sẽ
cho kết quả tốt nhất (“new state-of-the-art”)

Mô hình cơ sở của 6 bài toán
Bài toán Mô hình baseline
SQuAD Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph
reading comprehension. CoRR abs/1710.10723.
Textual
entailment (SNLI)
ESIM sequence model (Chen et al., 2017. Enhanced lstm for natural language inference)
SRL He et al. (2017). Mô hình hóa bài toán dưới dạng BIO tagging. Dùng 8-layer deep biLSTM
Coref Lee et al. (2017). LSTM với kỹ thuật attention
NER CNN-biLSTM-CRF với 2 layers biLSTM
SST-5 biattentive classification network (BCN) (McCann et al., 2017)

Kết quả đánh giá

Tại sao biểu diễn bằng ELMo lại hiệu quả
• Hàm mục tiêu của mô hình ngôn ngữ (biLM) cho phép mạng neural
học được cách cú pháp và ngữ nghĩa thay đổi theo các ngữ cảnh khác
nhau
• Các mô hình NLP sẽ sử dụng biểu diễn ELMo một cách thích hợp theo
bài toán

Đặc điểm của biểu diễn ELMo
Nguồn: https://allennlp.org/elmo
• Contextual: The representation for each word depends on the entire
context in which it is used.
• Deep: The word representations combine all layers of a deep pre-
trained neural network.
• Character based: ELMo representations are purely character based,
allowing the network to use morphological clues to form robust
representations for out-of-vocabulary tokens unseen in training.

Phân tích 1: So sánh với pp. chỉ dùng tầng
cuối của biLM

Phân tích 2: Dùng ELMo ở đâu trong
mô hình NLP?

Phân tích 3: biLM học được những thông tin
nào?
• Thực hiện “intrinsic evaluation” đối với 2 bài toán
• fine grained word sense disambiguation (WSD)
• POS tagging
• WSD:
• Tính biểu diễn vector với biLM cho tất cả các từ trong tập huấn luyện
• Lấy trung bình cho từng nghĩa
• Dùng thuật toán nearest neighbor để xác định nghĩa của từ trong tập test
• POS:
• Dùng vec-tơ biểu diễn của từ sinh ra bằng biLM để đưa vào bộ phân lớp tuyến
tính (e.g., logistic regression)

Phân tích 3: biLM học được những thông tin
nào?
• Các tầng cao hơn học được thông tin về ngữ nghĩa
• Các tầng thấp hơn học được thông tin về cú pháp
Word sense disambiguation (WSD) POS Tagging

Phân tích 4: Hiệu quả về dữ liệu
(Sample efficiency)
• Các mô hình có bổ sung ELMo có thể tận dụng tốt hơn các tập dữ liệu
nhỏ so với mô hình không có ELMo

Phân tích 5: Trực quan hóa trọng số mô hình
• Trọng số ở tầng input ”ưu tiên” LSTM ở layer 1 (trong biLM)
• Trọng số ở tầng output cân bằng hơn, ưu tiên một chút các tầng thấp của biLM
Trực quan hóa trọng số (chuẩn hóa bằng softmax) của biLM trong các task và các vị
trí của ELMo. Các trọng số nhỏ hơn 1/3 được đánh bóng bằng những đường kẻ
ngang, các trọng số lớn hơn 2/3 là các ô có dấu chấm

Kết luận
• Mô hình ngôn ngữ dùng mạng neural hiệu quả trong việc sinh biểu
diễn của từ mang tính ngữ cảnh (contextualized representation)
• Đầu ra của tất cả các tầng trong mô hình ngôn ngữ biLM hữu ích
trong sinh biểu diễn từ
• biLM mã hóa một cách hiệu quả các thông tin khác nhau về cú pháp
và ngữ nghĩa

Thông tin thêm
• Mô hình pre-trained ELMo có thể lấy được tại
https://allennlp.org/elmo
• AllenNLP là một thư viện NLP dùng Deep Learning
• Viết trên Pytorch framework
• Được phát triển bởi viện AI2 (Allen Institute for Artificial Intelligence)
• ELMo có thể xử lý các input ở mức character
• Có thể áp dụng cho các ngôn ngữ khác tiếng Anh nếu có mô hình
ngôn ngữ đủ lớn
• Ví dụ: tiếng Nhật, Hàn, Việt,…

Deep Contexualized Representation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Deep Contexualized Representation

Similar to Deep Contexualized Representation (20)

More from Minh Pham

More from Minh Pham (13)

Deep Contexualized Representation