Nghiên cứu quý 3 của công ty GMO-Z.com VietnamLab.
Chủ đề: Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗi chính tả trong tiếng Việt (Spell Correction)
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp với đề tài: Nghiên cứu thuật toán K-nearest neighbor và sử dụng iris flowers dataset đánh giá hiệu quả thuật toán, cho các bạn làm luận văn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu, cho các bạn làm luận văn tham khảo
Nghiên cứu quý 3 của công ty GMO-Z.com VietnamLab.
Chủ đề: Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗi chính tả trong tiếng Việt (Spell Correction)
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp với đề tài: Nghiên cứu thuật toán K-nearest neighbor và sử dụng iris flowers dataset đánh giá hiệu quả thuật toán, cho các bạn làm luận văn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Áp dụng các kỹ thuật trong Big data vào lưu trữ dữ liệu, cho các bạn làm luận văn tham khảo
Đồ án tốt nghiệp đại học về quản lý điểm trường trung học phổ thông.
Để có bản full thì các bạn hãy liên hệ với mình nhé
yahoo: phamtoan1804
facebook: https://www.facebook.com/phamtoan1804
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnTrieu Nguyen
1. Các ứng dụng Big Data thực tiễn trên thế giới
2. Các lĩnh vực đang ứng dụng Big Data ở Việt
Nam
3. Các bài toán Big Data tiêu biểu ở Vietnam
a. Quản lý chăm sóc khách hàng (CRM)
b. Tối ưu hoá trải nghiệm truyền hình Internet
c. Quảng cáo trực tuyến AdsPlay.net
4. Giới thiệu về công việc và thị trường việc làm
Big Data ở Việt Nam
5. Kiến thức nền tảng cho các bạn sinh viên
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTMasterCode.vn
Tìm hiểu các bước thiết kế CSDL quan hệ
Tìm hiểu các khái niệm trong thiết kế CSDL quan hệ:
Các khái niệm trong thiết kế CSDL mức khái niệm
Các khái niệm trong thiết kế CSDL mức vật lý
Làm quen với hệ quản trị CSDL Microsoft Access
Tạo các bảng và truy vấn trong Microsoft Access.
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Học lập trình cơ bản - Giới thiệu các thuật ngữ trong lập trìnhCodeGym Đà Nẵng
Lập trình là một trong những kỹ năng đang được nhiều người quan tâm và tìm hiểu. Tuy nhiên, nếu bạn mới bắt đầu học lập trình, có thể sẽ gặp khó khăn trong việc chọn ngôn ngữ lập trình và cài đặt môi trường để học. Trong bài viết này, chúng ta sẽ giới thiệu về các ngôn ngữ lập trình phổ biến, cách cài đặt môi trường để học lập trình, và các thuật ngữ cơ bản trong lập trình.
[Livestream dạy IT - Tự học thợ làm web chưa bao giờ là khó]
Các bạn có thể xem thêm video tại đây:
https://www.youtube.com/watch?v=ewGJMsUxFg0
Lập trình viên hay vẫn được người trong ngành gọi vui là thợ làm web là nghề nghiệp hấp dẫn và được nhiều bạn trẻ cũng nhưng nhiều người quan tâm cũng như mong muốn theo đuổi. Tuy nhiên việc tự chuyển nghề Lập trình không hề dễ dàng nếu như không có sự định hướng và chỉ dạy rõ ràng.
Nhằm giúp đỡ các bạn đang muốn theo đuổi ngành lập trình và chuyển nghề sang lập trình, CodeGym Đà Nẵng sẽ giúp đỡ các bạn định hướng con đường chuyển nghề của mình thông qua buổi Livestream với sự tham gia của Đội ngũ Giảng viên và Tư vấn tuyển sinh giàu kinh nghiệm.
Buổi Livestream sẽ giải đáp tất cả các câu hỏi thường gặp về chuyển nghề lập trình và chia sẻ những kiến thức lập trình bổ ích để giúp các bạn vững bước hơn trên con đường theo đuổi nghề lập trình viên.
------------------------------------
CODEGYM ĐÀ NẴNG – HỆ THỐNG ĐÀO TẠO LẬP TRÌNH HIỆN ĐẠI
📍Địa chỉ: Số 280 đường Trần Hưng Đạo, P. An Hải Tây, Q. Sơn Trà, TP. Đà Nẵng.
📍Hotline: 0236 651 702.
📍Facebook: https://www.facebook.com/codegymdanang
📍Website: https://danang.codegym.vn/
📍Tiktok: https://www.tiktok.com/@codegymdanang
Đồ án tốt nghiệp đại học về quản lý điểm trường trung học phổ thông.
Để có bản full thì các bạn hãy liên hệ với mình nhé
yahoo: phamtoan1804
facebook: https://www.facebook.com/phamtoan1804
Giới thiệu cơ bản về Big Data và các ứng dụng thực tiễnTrieu Nguyen
1. Các ứng dụng Big Data thực tiễn trên thế giới
2. Các lĩnh vực đang ứng dụng Big Data ở Việt
Nam
3. Các bài toán Big Data tiêu biểu ở Vietnam
a. Quản lý chăm sóc khách hàng (CRM)
b. Tối ưu hoá trải nghiệm truyền hình Internet
c. Quảng cáo trực tuyến AdsPlay.net
4. Giới thiệu về công việc và thị trường việc làm
Big Data ở Việt Nam
5. Kiến thức nền tảng cho các bạn sinh viên
Bài 2: Các khái niệm trong CSDL quan hệ - Giáo trình FPTMasterCode.vn
Tìm hiểu các bước thiết kế CSDL quan hệ
Tìm hiểu các khái niệm trong thiết kế CSDL quan hệ:
Các khái niệm trong thiết kế CSDL mức khái niệm
Các khái niệm trong thiết kế CSDL mức vật lý
Làm quen với hệ quản trị CSDL Microsoft Access
Tạo các bảng và truy vấn trong Microsoft Access.
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Học lập trình cơ bản - Giới thiệu các thuật ngữ trong lập trìnhCodeGym Đà Nẵng
Lập trình là một trong những kỹ năng đang được nhiều người quan tâm và tìm hiểu. Tuy nhiên, nếu bạn mới bắt đầu học lập trình, có thể sẽ gặp khó khăn trong việc chọn ngôn ngữ lập trình và cài đặt môi trường để học. Trong bài viết này, chúng ta sẽ giới thiệu về các ngôn ngữ lập trình phổ biến, cách cài đặt môi trường để học lập trình, và các thuật ngữ cơ bản trong lập trình.
[Livestream dạy IT - Tự học thợ làm web chưa bao giờ là khó]
Các bạn có thể xem thêm video tại đây:
https://www.youtube.com/watch?v=ewGJMsUxFg0
Lập trình viên hay vẫn được người trong ngành gọi vui là thợ làm web là nghề nghiệp hấp dẫn và được nhiều bạn trẻ cũng nhưng nhiều người quan tâm cũng như mong muốn theo đuổi. Tuy nhiên việc tự chuyển nghề Lập trình không hề dễ dàng nếu như không có sự định hướng và chỉ dạy rõ ràng.
Nhằm giúp đỡ các bạn đang muốn theo đuổi ngành lập trình và chuyển nghề sang lập trình, CodeGym Đà Nẵng sẽ giúp đỡ các bạn định hướng con đường chuyển nghề của mình thông qua buổi Livestream với sự tham gia của Đội ngũ Giảng viên và Tư vấn tuyển sinh giàu kinh nghiệm.
Buổi Livestream sẽ giải đáp tất cả các câu hỏi thường gặp về chuyển nghề lập trình và chia sẻ những kiến thức lập trình bổ ích để giúp các bạn vững bước hơn trên con đường theo đuổi nghề lập trình viên.
------------------------------------
CODEGYM ĐÀ NẴNG – HỆ THỐNG ĐÀO TẠO LẬP TRÌNH HIỆN ĐẠI
📍Địa chỉ: Số 280 đường Trần Hưng Đạo, P. An Hải Tây, Q. Sơn Trà, TP. Đà Nẵng.
📍Hotline: 0236 651 702.
📍Facebook: https://www.facebook.com/codegymdanang
📍Website: https://danang.codegym.vn/
📍Tiktok: https://www.tiktok.com/@codegymdanang
Giới thiệu, tập huấn GV về iQB, Cùng học và iCloudTest.Bùi Việt Hà
Đây là Slide đầy đủ cho buối tập huấn GV sáng thứ 7, 3/10/2015 tại HCM. Nội dung chính:
- Giới thiệu Bộ phần mềm iQB 8.0.
- Giới thiệu các sản phẩm chính của iQB 8.0.
- Giới thiệu trang phần mềm giáo dục trực tuyến Cùng học (cunghoc.vn)
- Giới thiệu iQB.net trên Cùng học.
- Giới thiệu iCloudTest.
- Các thao tác với iCloudTest trên Cùng học.
- Các thao tác với iCloudTest dành cho nhà trường, cơ quan, doanh nghiệp
3. Question Answering (QA)
• Là một trong những nhiệm vụ lâu đời nhất của NLP (1961)
• Liên quan đến việc xây dựng các hệ thống tự động trả lời các câu
hỏi do con người đặt ra bằng ngôn ngữ tự nhiên.
3
4. Types of Questions in Modern Systems
• Câu hỏi sự thật (Factoid questions)
• Thủ đô của Việt Nam là gì?
• Khoảng cách từ mặt trăng đến trái đất bao nhiêu?
• Mèo thích bắt chuột không?
• Câu hỏi phức tạp (Complex questions)
• Trẻ em cần được chăm sóc thế nào để phát triển
toàn diện?
• Người dân Việt Nam nghĩ gì về việc đi du lịch?
4
5. Paradigms for QA
• IR-based approaches
• TREC; IBM Watson; Google
• Knowledge-based and Hybrid approaches
• IBM Watson; Apple Siri; Wolfram Alpha; True Knowledge Evi
5
7. Knowledge-based approaches (Siri)
• Xây dựng semantic representation cho việc truy vấn
• Giờ, Ngày, Vi trí, Thực thể, Số lượng…
• Ánh xạ từ ngữ nghĩa này để truy vấn dữ liệu hoặc tài
nguyên có cấu trúc
• Geospatial databases
• Ontologies (Wikipedia infoboxes, dbPedia, WordNet, Yago)
• Restaurant review sources and reservation services
• Scientific databases
7
8. Hybrid approaches (IBM Watson)
• Xây dựng shallow semantic representation cho việc
truy vấn
• Sử dụng các phương thức của IR để tạo ra các câu trả
lời ứng viên
• Chấm điểm mỗi câu trả lời ứng viên dựa vào các
nguồn kiến thức phong phú hơn
• Geospatial databases
• Temporal reasoning
• Taxonomical classification
8
10. SQuAD
• Stanford Question Answering Dataset (SQuAD)
• Là bộ gồm nhiều câu hỏi và câu trả lời dựa trên các bài viết trên
Wikipedia
• Câu trả lời cho một câu hỏi có thể là 1 đoạn văn bản, 1 khoảng văn
bản hoăc câu hỏi không trả lời được
10
11. SQuAD 2.0
• SQuAD2.0 Kết hợp 100,000 câu hỏi trong SQuAD1.1 và trên 50,000
câu hỏi mới, những câu hỏi không có câu trả lời.
11
13. {
"version": "v2.0",
"data": [
{
"title": "Normans",
"paragraphs": [
{
"qas": [
{
"question": "In what country is Normandy located?",
"id": "56ddde6b9a695914005b9628",
"answers": [
{
"text": "France",
"answer_start": 159
}
],
"is_impossible": false
}
],
"context": "The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the
people who in the 10th and 11th centuries gave their name to Normandy, a region in France.
They were descended from Norse ("Norman" comes from "Norseman") raiders and pirates from
Denmark, Iceland and Norway who, under their leader Rollo, agreed to swear fealty to King
Charles III of West Francia. Through generations of assimilation and mixing with the native
Frankish and Roman-Gaulish populations, their descendants would gradually merge with the
Carolingian-based cultures of West Francia. The distinct cultural and ethnic identity of the
Normans emerged initially in the first half of the 10th century, and it continued to evolve
over the succeeding centuries."
}
]
}
]
}
JSON Structure
13
15. BERT, OpenAI GPT, and ELMo
15
• Các model trước đây thường chỉ dùng ngữ cảnh trái (left context)
hoặc ngữ cảnh phải (right context), nhưng ngôn ngữ cần cả 2 ngữ
cảnh.
• => BERT ra đời
16. Model architecture
• Gồm nhiều lớp bidirectional Transformer encoder
• 2 Model cơ bản
• BERTBASE: L=12, H=768, A=12, Total Parameters=110M
• BERTLARGE: L=24, H=1024, A=16, Total Parameters=340M
• L: Số layers (Transformer blocks)
• H: Kích thước lớp ẩn
• A: Số lượng self-attention heads
16
17. Pre-training BERT
• Masked Language Model (MLM)
• Input:
my dog is hairy
• sẽ được chuyển thành
my dog is [MASK]
• sau đó [MASK] sẽ được thay thế bằng một từ ngẫu nhiên, ví dụ
my dog is apple
• Giữ lại câu gốc và tính độ lệch so với từ dự đoán thông qua hàm mất
mát cross entropy
17
18. Pre-training BERT
• Next Sentence Prediction (NSP)
Input = [CLS] the man went to [MASK] store [SEP]
he bought a gallon [MASK] milk SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP]
penguin [MASK] are flight ##less birds [SEP]
Label = NotNext
18
19. Fine-tuning BERT
• Câu A - B từ quá trình tiền huấn luyện
được trở thành:
• Những cặp câu trong paraphrasing task
• Những cặp giả thiết – tiền đề trong
entailment task
• Những cặp câu hỏi – đoạn văn trong
question answering task
• Một cặp degenerate text - <rỗng> trong
text classicfication hoặc sequence
tagging task
19
20. Input Representation
• Token Embeddings: sử dụng pretrained WordPiece embeddings
• Position Embeddings: sử dụng learned Position Embeddings
• Sử dụng [SEP] để phân tách các câu
• Sử dụng [CLS] để phân tách các lớp (gồm nhiều câu)
20
21. Transformer Encoders
• Transformer là một kiến trúc dựa vào
Attention trong NLP
• BERT là một bidirectional Transformer
encoder nhiều lớp
• BERT không sử dụng lớp decoder như
các kiến trúc Transformer khác.
21
30. nbest_predictions.json{
"56ddde6b9a695914005b9628": [
{
"text": "mands; French: Normands; Latin: Normanni) were the
people who in the 10th and 11th centuries gave their",
"probability": 0.05308649383291742,
"start_logit": 0.36476194858551025,
"end_logit": 0.7789570689201355
},
{
"text": "based",
"probability": 0.05172724203669382,
"start_logit": 0.4540586471557617,
"end_logit": 0.6637223958969116
}
]
}
30
31. References
• Slide “Question Answering” of Standford university
• BERT for Question Answering on SQuAD 2.0, Yuwen Zhang, Zhaozhuo
Xu
• BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding, Google AI Language
• Attention Is All You Need, Ashish Vaswani
31
Editor's Notes
Các hệ thống hiện tại chủ yếu giải quyết Factoid questions
IR: Information Retrieval: Truy xuất thông itin
QUESTION PROCESSING:
Xác định loại câu hỏi, loại câu trả lời, chủ đề, mối quan hệ
Công thức hóa truy vấn (Formulate queries) và gởi đến search engine
PASSAGE RETRIEVAL
Retrieve ranked documents
Break into suitable passages and rerank
ANSWER PROCESSING
Xuất ra và xếp hạng các câu trả lời ứng viên
Semantic representation is an abstract (formal) language in which meanings can be represented.
BERT uses a bidirectional Transformer.
OpenAI GPT uses a left-to-right Transformer.
ELMo uses the concatenation of independently trained left-to-right and right-toleft LSTMs to generate features for downstream tasks.
Among the three, only BERT representations are jointly conditioned on both left and right context in all layers. In addition to the architecture differences, BERT and OpenAI GPT are fine-tuning approaches, while ELMo is a feature-based approach
Downstream tasks is what the field calls those supervised-learning tasks that utilize a pre-trained model or component
Token Embeddings: sử dụng pretrained WordPiece embeddings
* bài báo: Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
Position Embeddings: sử dụng learned Position Embeddings
bài báo Convolutional Sequence to Sequence Learning