Slide của bài trình bày tại al+ AI Seminar số 4 về báo bài báo được giải thưởng best paper award tại hội nghị NAACL 2018
Peters et al., 2018. Deep Contextualized Word Representations. In NAACL.
Bài báo gốc: http://aclweb.org/anthology/N18-1202
Mô hình ELMo là mô hình biểu diễn từ phụ thuộc ngữ cảnh học từ mô hình ngôn ngữ hai chiều. ELMo được áp dụng cho nhiều bài toán khác nhau và đạt kết quả tốt nhất trên nhiều tập dữ liệu.
General background and conceptual explanation of word embeddings (word2vec in particular). Mostly aimed at linguists, but also understandable for non-linguists.
Leiden University, 23 March 2018
Key Performance Indicators for Managing MongoDB and Recommended Production Co...MongoDB
Speaker: Dwayne McNab, Database Architect, Vonage
Level: 300 (Advanced)
Track: Operations
This session will focus on using Ops Manager for performance monitoring and profiling. We will share how we streamline configurations, automate complex tasks, and configure alerts from multiple sources at Vonage. We'll also discuss general infrastructure management, including automated upgrades, version control, backup and restore and alerting. Finally, we will discuss specific KPIs to measure and recommendations for production configurations.
What You Will Learn:
- Key performance indicators (KPIs) for managing MongoDB.
- Performance monitoring considerations.
- Ops manager best practices.
General background and conceptual explanation of word embeddings (word2vec in particular). Mostly aimed at linguists, but also understandable for non-linguists.
Leiden University, 23 March 2018
Key Performance Indicators for Managing MongoDB and Recommended Production Co...MongoDB
Speaker: Dwayne McNab, Database Architect, Vonage
Level: 300 (Advanced)
Track: Operations
This session will focus on using Ops Manager for performance monitoring and profiling. We will share how we streamline configurations, automate complex tasks, and configure alerts from multiple sources at Vonage. We'll also discuss general infrastructure management, including automated upgrades, version control, backup and restore and alerting. Finally, we will discuss specific KPIs to measure and recommendations for production configurations.
What You Will Learn:
- Key performance indicators (KPIs) for managing MongoDB.
- Performance monitoring considerations.
- Ops manager best practices.
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...Grammarly
Speaker: Nizar Habash is an Associate Professor of Computer Science at New York University Abu Dhabi (NYUAD). Professor Habash’s research includes extensive work on machine translation, morphological analysis, and computational modeling of Arabic and its dialects. Professor Habash has been a principal investigator or co-investigator on over 20 grants. He has over 200 publications including a book titled “Introduction to Arabic Natural Language Processing.” His website is www.nizarhabash.com. He is the director of the NYUAD Computational Approaches to Modeling Language (CAMeL) Lab (www.camel-lab.com).
Summary: The Arabic language presents a number of challenges to researchers and developers of language technologies. Arabic is both morphologically rich and highly ambiguous; and it has a number of dialects that vary widely amongst themselves and with Standard Arabic. The dialects have no official spelling standards, and spelling and grammar errors are common in unedited Standard Arabic. In this talk, we present some of these challenges in detail and cover some of the ongoing efforts to address them with creative language technologies.
Natural Language Processing (NLP) is often taught at the academic level from the perspective of computational linguists. However, as data scientists, we have a richer view of the world of natural language - unstructured data that by its very nature has important latent information for humans. NLP practitioners have benefitted from machine learning techniques to unlock meaning from large corpora, and in this class we’ll explore how to do that particularly with Python, the Natural Language Toolkit (NLTK), and to a lesser extent, the Gensim Library.
NLTK is an excellent library for machine learning-based NLP, written in Python by experts from both academia and industry. Python allows you to create rich data applications rapidly, iterating on hypotheses. Gensim provides vector-based topic modeling, which is currently absent in both NLTK and Scikit-Learn. The combination of Python + NLTK means that you can easily add language-aware data products to your larger analytical workflows and applications.
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryHo Quang Thanh
Mục tiêu của bài toán Speech-2-text đó là nhận ra dữ liệu đầu vào và có thể học nó liên tục, Mô hình Long Short-term Memory phù hợp với dạng bài toán học Hồi quy
Grammarly AI-NLP Club #8 - Arabic Natural Language Processing: Challenges and...Grammarly
Speaker: Nizar Habash is an Associate Professor of Computer Science at New York University Abu Dhabi (NYUAD). Professor Habash’s research includes extensive work on machine translation, morphological analysis, and computational modeling of Arabic and its dialects. Professor Habash has been a principal investigator or co-investigator on over 20 grants. He has over 200 publications including a book titled “Introduction to Arabic Natural Language Processing.” His website is www.nizarhabash.com. He is the director of the NYUAD Computational Approaches to Modeling Language (CAMeL) Lab (www.camel-lab.com).
Summary: The Arabic language presents a number of challenges to researchers and developers of language technologies. Arabic is both morphologically rich and highly ambiguous; and it has a number of dialects that vary widely amongst themselves and with Standard Arabic. The dialects have no official spelling standards, and spelling and grammar errors are common in unedited Standard Arabic. In this talk, we present some of these challenges in detail and cover some of the ongoing efforts to address them with creative language technologies.
Natural Language Processing (NLP) is often taught at the academic level from the perspective of computational linguists. However, as data scientists, we have a richer view of the world of natural language - unstructured data that by its very nature has important latent information for humans. NLP practitioners have benefitted from machine learning techniques to unlock meaning from large corpora, and in this class we’ll explore how to do that particularly with Python, the Natural Language Toolkit (NLTK), and to a lesser extent, the Gensim Library.
NLTK is an excellent library for machine learning-based NLP, written in Python by experts from both academia and industry. Python allows you to create rich data applications rapidly, iterating on hypotheses. Gensim provides vector-based topic modeling, which is currently absent in both NLTK and Scikit-Learn. The combination of Python + NLTK means that you can easily add language-aware data products to your larger analytical workflows and applications.
Giải quyết bài toán Speech-2-Text bằng Long Short-term MemoryHo Quang Thanh
Mục tiêu của bài toán Speech-2-text đó là nhận ra dữ liệu đầu vào và có thể học nó liên tục, Mô hình Long Short-term Memory phù hợp với dạng bài toán học Hồi quy
Nghiên cứu quý 3 của công ty GMO-Z.com VietnamLab.
Chủ đề: Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗi chính tả trong tiếng Việt (Spell Correction)
Prompt Engineering Tutorial: Cách viết prompt hiệu quả với ChatGPTMinh Pham
Bài giảng về cách sử dụng prompt engineering hiệu quả với ChatGPT. Sau khi học xong bài giảng, người dùng hiểu về cấu trúc cơ bản của prompt, biết cách thiết kế prompt một cách hiệu quả, tiết kiệm
AimeLaw at ALQAC 2021: Enriching Neural Network Models with Legal-Domain Know...Minh Pham
Our presentation slide at the 13th IEEE International Conference on Knowledge and Systems Engineering (KSE 2021).
In this paper, we present our participated systems for three Vietnamese legal text processing tasks at Automated Legal Question Answering Competition (ALQAC 2021). In our systems, we leverage the strength of traditional information retrieval methods (BM25), pre-trained masked language models (BERT), and legal domain knowledge. Our proposed methods help to overcome the shortage of training data. Especially, in the legal textual entailment task, we propose a novel data augmentation
method that is based on legal domain knowledge. Evaluation
results show the effectiveness of our proposed methods.
Research methods for engineering students (v.2020)Minh Pham
Beginning students who start doing research may face to many difficulties from choosing a good research topic to start, how to develop new ideas to how to implement models to test their ideas and write papers. Research skill is a craft skill. You only learn it by doing. However, it is good to learn know-how in doing research. In this lecture, I share information of how-to-do research for engineering students with the hope that it will help students to save time at the beginning state of doing research.
Tài liệu giới thiệu kiến thức cơ bản về AIML và cách sử dụng khi phát triển chatbot. Để áp dụng được tốt hơn, độc giả cần tìm hiểu các tài liệu chi tiết hơn.
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMinh Pham
Slide bài thuyết trình tại sự kiện của của công ty rubikAI. Nội dung của bài trình bày là kiến thức cơ bản về mạng neural và ứng dụng trong xử lý ngôn ngữ tự nhiên.
Research Methods in Natural Language Processing (2018 version)Minh Pham
Updated version of my lecture slide about "Research Methods in Natural Language Processing" for the course RAW-501 in Master program of FPT University.
A Feature-Based Model for Nested Named-Entity Recognition at VLSP-2018 NER Ev...Minh Pham
The presentation of a feature-based model for nested named-entity recognition at VLSP 2018. Our system obtained the first rank among participant systems. There is still a gap between the accuracy on the development set and the test set.
Về kỹ thuật Attention trong mô hình sequence-to-sequence tại hội nghị ACL 2017Minh Pham
Trình bày về kỹ thuật attention trong mô hình sequence-to-sequence và ứng dụng trong các nghiên cứu NLP tại ACL 2017. Ngoài ra chúng tôi cũng tóm tắt một số các nghiên cứu thú vị khác tại hội nghị.
Các bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbotMinh Pham
Trình bày về những bài toán xử lý ngôn ngữ tự nhiên trong phát triển hệ thống chatbot theo mô hình truy xuất thông tin. Ngoài ra mô hình sinh hội thoại sử dụng mạng Neural cũng được đề cập (neural chatbot)
2. Nội dung trình bày
• Ngữ cảnh của nghiên cứu
• Ý tưởng chính của nghiên cứu
• Mô hình ngôn ngữ (Language Models)
• Mô hình ELMo (Embeddings from Language Models)
• Thực nghiệm và đánh giá
• Kết luận
10/12/18 al+ AI Seminar No.4 2
3. Ngữ cảnh nghiên cứu
• Biểu diễn của từ (pre-trained word representations) là một thành
phần quan trọng trong các mô hình mạng neural cho NLP
Ma and Hovy, 2016
10/12/18
al+ AI Seminar No.4
3
4. Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ
10/12/18 al+ AI Seminar No.4 4
5. Các mô hình biểu diễn từ
• Vec-tơ từ (như word2vec hay glove)
• Học biểu diễn vec-tơ của từ từ một tập dữ lieu text rất lớn
• Nén toàn bộ các ngữ cảnh mà một từ xuất hiện thành một vec-tơ duy nhất
• Nhược điểm: Chỉ cho phép một biểu diễn độc lập ngữ cảnh cho mỗi từ
Ngữ cảnh cần thiết trong việc hiểu ngôn ngữ!
10/12/18 al+ AI Seminar No.4 5
6. Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
• context2vec (Melamud et al., 2016)
• LSTM hai chiều (bidirectional LSTMs)
• CoVe (McCann et al., 2017. Learned in Translation:
ContextualizedWord Vectors)
• Dùng đầu ra của encoder trong mô hình encoder-decoder
• Bị giới hạn bởi kích thức của corpus son ngữ
• Unsupervised Language Models (Peters et al., 2017)
• Chỉ dùng đầu ra của layer cao nhất trong mô hình biLM (bidirectional
language models)
10/12/18 al+ AI Seminar No.4 6
7. Ví dụ
Biểu diễn từ bằng biLM có thể phân biệt được các từ loại và nghĩa của từ “play” dựa trên ngữ cảnh
10/12/18 al+ AI Seminar No.4 7
8. Các biểu diễn ngôn ngữ phụ thuộc ngữ cảnh
(Peters et al., 2017) Mô hình TagLM, embeddings sinh ra ở layer cao nhất trong
mô hình ngôn ngữ biLM được đưa vào mô hình sequence tagging dùng RNN
10/12/18 al+ AI Seminar No.4 8
10. Khái yếu về bài báo
• Đề xuất một biểu diễn từ dựa trên ngữ cảnh (ELMo) có thể mô hình
hóa được các hiện tượng:
• Tính chất về cú pháp (syntax), ngữ nghĩa (semantic) trong việc sử dụng từ
• Tính đa nghĩa (polysemy) của từ trong các ngữ cảnh khác nhau
• Phương pháp (ELMo)
• Học trước một mô hình ngôn ngữ bằng mạng LSTM hai chiều và nhiều tầng
• Sinh ra biểu diễn của từ (ELMo vec-tơ) bằng cách lấy tổng có trọng số của các
trạng thái ở các tầng trong mô hình ngôn ngữ
• Sử dụng ELMo cho kết quả tốt nhất trong một số bài toán
• SLI, NER, SQuAD, Coreference Resolution (Coref), Semantic Role Labeling
(SRL), Sentiment Analysis (trong Stanford Sentiment Treebank – SST)
10/12/18 al+ AI Seminar No.4 10
11. 88.6
88.0
SLI NER SQuAD Coref SRL SST-5
Kết quả tốt nhất trước đó Kết quả baseline
88.7
+ 5.8%
91.93
90.15
92.22
+ 21%
84.4
81.1
85.8
+ 25%
67.2 67.2
70.4
+ 9.8%
81.7 81.4
84.6
+ 17.2%
53.7
51.4
54.7
+ 6.8%
10/12/18 al+ AI Seminar No.4 11
12. Tính vector của từ phụ thuộc ngữ cảnh:
!" = $ %" %&, … , %) ∈ ℝ,
f(play|Elmo and Cookie Monster play a game .)
f(play|The Broadway play premiered yesterday .)
≠
Ý tưởng: Sử dụng mô hình ngôn ngữ hai chiều
(bidirectional language model) để nhúng context ở bên
phải và bên trái của một từ
10/12/18 al+ AI Seminar No.4 12
13. Mô hình ngôn ngữ (Language Models)
• Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một
ngôn ngữ
! " = !(%&, %(, … , w+)
• Mô hình ngôn ngữ truyền thống (n-gram language model)
! %&, %(, … , %- ≈ /
0
!(%0|%023 … %02&)
• Mô hình ngôn ngữ với mạng neural
• Feed-forward neural networks (Bengio, 2003)
• Recurrent neural network language model (Mikolov, 2011)
• LSTM language model (Graves, 2013)
10/12/18 al+ AI Seminar No.4 13
14. Mô hình ngôn ngữ (Language Models)
• Mô hình hóa xác suất của một câu hoặc một chuỗi các từ trong một
ngôn ngữ
! " = !(%&, %(, … , w+)
• Mô hình ngôn ngữ truyền thống (n-gram language model)
! %&, %(, … , %- ≈ /
0
!(%0|%023 … %02&)
• Mô hình ngôn ngữ với mạng neural
• Feed-forward neural networks (Bengio, 2003)
• Recurrent neural network language model (Mikolov, 2011)
• LSTM language model (Graves, 2013)
10/12/18 al+ AI Seminar No.4 14
16. LSTM Language Model
10/12/18 al+ AI Seminar No.4 16
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
Softmax
The Broadway play premiered yesterday .
17. Bidirectional Language Models (biLMs)
10/12/18 al+ AI Seminar No.4 17
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.
18. Bidirectional Language Models (biLMs)
• biLMs kết hợp forward và backward LMs
• Forward:
• Backward
• ELMo sử dụng hai bộ tham số (parameters) riêng biệt cho mỗi chiều
10/12/18 al+ AI Seminar No.4 18
! "#, "%, … , "' = )
*+#
,
!("*|"#, "%, … , "*/#)
! "#, "%, … , "' = )
*+#
,
!("*|"*1#, "*1%, … , ",)
19. Bidirectional Language Models (biLMs)
• biLMs kết hợp forward và backward LMs. Học mô hình bằng cách tối
ưu hàm log likelihood trên tập training:
• Trong đó:
• Θ" Tham số của biểu diễn từ (dùng chung cho 2 chiều)
• Θ# Tham số của tầng softmax (dùng chung cho 2 chiều)
• Θ$%&', Θ$%&' Tham số của forward LSTM và backward LSTM
10/12/18 al+ AI Seminar No.4 19
20. Mô hình ELMo
10/12/18 al+ AI Seminar No.4 20
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
The Broadway play premiered yesterday
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
.
ELMo
= !"( +!$() ) +!&( )
21. Mô hình ELMo
• Với mỗi từ !", một mô hình biLM với L tầng sẽ tính 2L+1 biểu diễn cho
từ đó
#" = %"
&'
, ℎ",*
&'
, ℎ",*
&'
+ = 1, … , . = {ℎ",*
&'
|+ = 0, … , .}
• Trong đó
• ℎ",3
&'
là tầng token (word embedding)
• ℎ",*
&'
=[ℎ",*
&'
, ℎ",*
&'
]
10/12/18 al+ AI Seminar No.4 21
22. Mô hình ELMo
• ELMo biểu diễn một từ !" bằng tổ hợp tuyến tính của biểu diễn từ
sinh ra ở các tầng ẩn
#$%&"
'()"
= # +"; Θ'()"
= .'()"
/
012
3
40
'()"
ℎ",0
37
40
'()"
là các trọng số được normalized bằng hàm softmax
.'()" là scaling parameter
• Các trọng số được học trong theo từng task (downstream task)
• Vì thế ELMo là biểu diễn đặc thù theo từng task
10/12/18 al+ AI Seminar No.4 22
23. Cách áp dụng ELMo trong các mô hình NLP
10/12/18 al+ AI Seminar No.4 23
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
ELMo
ELMo Word Embedding
RNN
ELMo Hidden Layer Output
RNN
Cố định tham số của mô hình ngôn ngữ biLMs Đưa biểu diễn ELMo vào mô hình và học các trọng số
của tổ hợp tuyến tính tùy theo từng bài toán
24. Kiến trúc mô hình ngôn ngữ hai chiều (1)
• Tương tự như các mô hình trong
• Jozefowicz et al. (2016)
• Rafal Jozefowicz, Wojciech Zaremba, and Ilya Sutskever. 2015. An empirical exploration of
recurrent network architectures. In ICML
• Kim et al., 2016
• Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush.2015. Character-aware
neural language models. In AAAI 2016.
• Biểu diễn input hoàn toàn dựa trên character
• Thay đổi để có thể học đồng thời cả hai chiều
• Thêm residual connection giữa hai các tầng trong mạng LSTM
10/12/18 al+ AI Seminar No.4 24
25. Kiến trúc mô hình ngôn ngữ hai chiều (2)
• 2-layer biLSTM
• 4096 units
• Residual connection từ layer 1 đến layer 2
• Biểu diễn không “nhạy” với ngữ cảnh
• 2048 character n-gram convolutional filters
• Hai tầng highway (Srivastava et al., 2015)
• Linear projection với 512 chiều
10/12/18 al+ AI Seminar No.4 25
He et al., Deep Residual Learning
for Image Recognition
26. Kiến trúc mô hình ngôn ngữ hai chiều (3)
• Huấn luyện trên dữ liệu benchmark 1 tỷ từ
• 1B Word Benchmark (Chelba et al., 2014)
• Perplexity trung bình của forward và backward LM: 39.7
• Fine tune biLM trên từng loại dữ liệu theo domain sẽ giảm perplexity
và tăng độ chính xác trên task cuối
• Trong hầu hết các thí nghiệm, tác giả fine tune biLM trên dữ liệu của
các task cuối
• Sau khi fine-tune, các tham số mô hình của biLM được giữ cố định
10/12/18 al+ AI Seminar No.4 26
27. Thực nghiệm
• Thực nghiệm trên 6 bài toán NLP
• Question answering: Stanford Question Answering Dataset (SQuAD)
• Textual entailment: Stanford Natural Language Inference (SNLI)
• Semantic role labeling: OntoNotes (SRL)
• Coreference resolution: OntoNotes coreference annotations (Coref)
• Named entity extraction: CoNLL NER (NER)
• Sentiment analysis: Stanford Sentiment Tree-bank (SST-5)
• Trong cả 6 bài toán, chỉ cần bổ sung ELMo vào các mô hình cơ sở sẽ
cho kết quả tốt nhất (“new state-of-the-art”)
10/12/18 al+ AI Seminar No.4 27
28. Mô hình cơ sở của 6 bài toán
Bài toán Mô hình baseline
SQuAD Christopher Clark and Matthew Gardner. 2017. Simple and effective multi-paragraph
reading comprehension. CoRR abs/1710.10723.
Textual
entailment (SNLI)
ESIM sequence model (Chen et al., 2017. Enhanced lstm for natural language inference)
SRL He et al. (2017). Mô hình hóa bài toán dưới dạng BIO tagging. Dùng 8-layer deep biLSTM
Coref Lee et al. (2017). LSTM với kỹ thuật attention
NER CNN-biLSTM-CRF với 2 layers biLSTM
SST-5 biattentive classification network (BCN) (McCann et al., 2017)
10/12/18 al+ AI Seminar No.4 28
29. Kết quả đánh giá
10/12/18 al+ AI Seminar No.4 29
30. Tại sao biểu diễn bằng ELMo lại hiệu quả
• Hàm mục tiêu của mô hình ngôn ngữ (biLM) cho phép mạng neural
học được cách cú pháp và ngữ nghĩa thay đổi theo các ngữ cảnh khác
nhau
• Các mô hình NLP sẽ sử dụng biểu diễn ELMo một cách thích hợp theo
bài toán
10/12/18 al+ AI Seminar No.4 30
31. Đặc điểm của biểu diễn ELMo
Nguồn: https://allennlp.org/elmo
• Contextual: The representation for each word depends on the entire
context in which it is used.
• Deep: The word representations combine all layers of a deep pre-
trained neural network.
• Character based: ELMo representations are purely character based,
allowing the network to use morphological clues to form robust
representations for out-of-vocabulary tokens unseen in training.
10/12/18 al+ AI Seminar No.4 31
32. Phân tích 1: So sánh với pp. chỉ dùng tầng
cuối của biLM
10/12/18 al+ AI Seminar No.4 32
33. Phân tích 2: Dùng ELMo ở đâu trong
mô hình NLP?
10/12/18 al+ AI Seminar No.4 33
34. Phân tích 3: biLM học được những thông tin
nào?
• Thực hiện “intrinsic evaluation” đối với 2 bài toán
• fine grained word sense disambiguation (WSD)
• POS tagging
• WSD:
• Tính biểu diễn vector với biLM cho tất cả các từ trong tập huấn luyện
• Lấy trung bình cho từng nghĩa
• Dùng thuật toán nearest neighbor để xác định nghĩa của từ trong tập test
• POS:
• Dùng vec-tơ biểu diễn của từ sinh ra bằng biLM để đưa vào bộ phân lớp tuyến
tính (e.g., logistic regression)
10/12/18 al+ AI Seminar No.4 34
35. Phân tích 3: biLM học được những thông tin
nào?
• Các tầng cao hơn học được thông tin về ngữ nghĩa
• Các tầng thấp hơn học được thông tin về cú pháp
10/12/18 al+ AI Seminar No.4 35
Word sense disambiguation (WSD) POS Tagging
36. Phân tích 4: Hiệu quả về dữ liệu
(Sample efficiency)
• Các mô hình có bổ sung ELMo có thể tận dụng tốt hơn các tập dữ liệu
nhỏ so với mô hình không có ELMo
10/12/18 al+ AI Seminar No.4 36
37. Phân tích 5: Trực quan hóa trọng số mô hình
• Trọng số ở tầng input ”ưu tiên” LSTM ở layer 1 (trong biLM)
• Trọng số ở tầng output cân bằng hơn, ưu tiên một chút các tầng thấp của biLM
10/12/18 al+ AI Seminar No.4 37
Trực quan hóa trọng số (chuẩn hóa bằng softmax) của biLM trong các task và các vị
trí của ELMo. Các trọng số nhỏ hơn 1/3 được đánh bóng bằng những đường kẻ
ngang, các trọng số lớn hơn 2/3 là các ô có dấu chấm
38. Kết luận
• Mô hình ngôn ngữ dùng mạng neural hiệu quả trong việc sinh biểu
diễn của từ mang tính ngữ cảnh (contextualized representation)
• Đầu ra của tất cả các tầng trong mô hình ngôn ngữ biLM hữu ích
trong sinh biểu diễn từ
• biLM mã hóa một cách hiệu quả các thông tin khác nhau về cú pháp
và ngữ nghĩa
10/12/18 al+ AI Seminar No.4 38
39. Thông tin thêm
• Mô hình pre-trained ELMo có thể lấy được tại
https://allennlp.org/elmo
• AllenNLP là một thư viện NLP dùng Deep Learning
• Viết trên Pytorch framework
• Được phát triển bởi viện AI2 (Allen Institute for Artificial Intelligence)
• ELMo có thể xử lý các input ở mức character
• Có thể áp dụng cho các ngôn ngữ khác tiếng Anh nếu có mô hình
ngôn ngữ đủ lớn
• Ví dụ: tiếng Nhật, Hàn, Việt,…
10/12/18 al+ AI Seminar No.4 39