SlideShare a Scribd company logo
1 of 26
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----------------------------------
NGUYỄN TOÀN ANH
NGHIÊN CỨU CÁC GIẢI PHÁP
TẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚN
PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
Khoá: K30
TÓM TẮT LUẬN VĂN THẠC SĨ
Đà Nẵng, tháng 12 năm 2016
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp
Phản biện 1: TS. Nguyễn Văn Hiệu
Đại học Bách khoa - Đại học Đà Nẵng
Phản biện 2: PGS.TS. Lê Văn Sơn
Đại học Sư phạm - Đại học Đà Nẵng
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học
máy tính họp tại Trường Đại học Bách khoa Đà Nẵng vào ngày 8 tháng 1 năm 2017.
Có thể tìm hiểu luận văn tại:
- Trung tâm học liệu, Đại học Đà Nẵng tại trường Đại học Bách Khoa
- Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
1
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, bên cạnh sự hội nhập với Quốc tế của đất nước chúng ta, thì Công
nghệ thông tin cũng đang không ngừng phát triển. Với sự ra đời của máy tính điện tử
cũng như sự kết nối toàn cầu thông qua Internet đã tạo ra một lượng thông tin khổng lồ
với nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Anh. Tuy nhiên, sự rào cản về mặt
ngôn ngữ thì khối lượng lớn thông tin này cũng chưa được xử lý triệt để, chưa được
cấu trúc lại, hệ thống lại để tạo thành một nguồn tài nguyên dữ liệu về ngôn ngữ tự
nhiên nhằm phục vụ cho việc đào tạo, dạy và học, nghiên cứu và xỷ lý ngôn ngữ.
Xử lý ngôn ngữ tự nhiên là một kĩ thuật quan trọng nhằm giúp máy tính hiểu
được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con
người trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ
liệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử lý ngôn
ngữ tự nhiên đóng một vai trò quan trọng trong việc đẩy mạnh sự phát triển của Công
Nghệ Thông Tin Việt Nam.
Tuy nhiên, xử lý ngôn ngữ tự nhiên cũng vấp phải vô vàn khó khăn, mà khó
khăn lớn nhất phải nói đến là nguồn tài nguyên dữ liệu về ngôn ngữ, đặc biệt là nguồn
tài nguyên song ngữ. Các nguồn tài nguyên này thường không đủ lớn hoặc mang tính
cục bộ, chỉ sử dụng trong một lĩnh vực hay một nơi nào đó. Chưa kể đến nguồn tài
nguyên tồn tại dưới dạng các website song ngữ, các website này chỉ phục vụ cho mục
đích đọc của người dùng, chưa được sử dụng và khai thác để xử lý ngôn ngữ tự nhiên.
Ngoài ra còn có nhiều nguyên nhân khác như: Hệ thống dịch kém chất lượng, kích
thước từ điển còn hạn chế. Hiện nay tồn tại nhiều từ điển Tiếng Việt nhưng vẫn chưa
đặt được hiệu quả trong việc xử lý ngôn ngữ, cùng một từ mà mỗi từ điển lại có một
cách hiểu khác nhau. Hệ thống dịch có những câu dịch được, có những câu dịch không
đúng cho dù có hay không có dữ liệu.
Chính vì chất lượng của các hệ thống trên nên mục tiêu của đề tài này là xây dựng
nguồn tài nguyên dữ liệu lớn, phục vụ cho việc phát triển các hệ thống xử lý ngôn ngữ tự
nhiên đạt được chất lượng và hiệu quả hơn. Đề tài tập trung vào đề xuất các giải pháp xây
dựng nguồn tài nguyên dữ liệu lớn từ các nguồn tài nguyên đang tồn tại như các kho ngữ
liệu hay từ những dữ liệu thô chưa khai thác như các website song ngữ.
Để góp phần giải quyết vấn đề trên, tôi xin chọn đề tài: “Nghiên cứu các giải
pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
2
2. Mục đích và ý nghĩa đề tài
a. Mục đích
Đề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữ
liệu lớn, nhằm phục vụ, chia sẽ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìm
kiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập.
b. Ý nghĩa khoa học
- Nắm vững và vận dụng tốt các kỹ thuật lấy dữ liệu từ văn bản, website…
- Nắm vững các thành phần và cú pháp của câu tiếng Việt, tiếng Anh.
- Nắm vững các giải pháp tạo nguồn tài nguyên dữ liệu.
- Kết quả có thể phục vụ cho việc xử lý ngôn ngữ tự
nhiên. c. Ý nghĩa thực tiễn
Đề xuất được một số giải pháp có thể áp dụng trong thực tiễn để tạo nguồn dữ
tài nguyên dữ liệu lớn phục vụ cho việc xử lý ngôn ngữ tự nhiên.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
Mục tiêu chính mà đề tài hướng đến là nghiên cứu và xây dựng hệ thống tạo
nguồn tài nguyên dữ liệu chứa các cặp từ, các cặp câu Anh – Việt từ các nguồn tài liệu
thô chưa được khai thác như: trang web song ngữ, sách, báo,… dưới nhiều định dạng
khác nhau như: XML, TXT, DOC,…
b. Nhiệm vụ
Để đặt được mục tiêu trên thì nhiệm vụ đặt ra của đề tài là:
- Nghiên cứu thành phần, cú pháp, trật tự từ trong câu tiếng Việt và tiếng Anh.
- Nghiên cứu ánh xạ gióng hàng văn bản song ngữ Anh-Việt.
- Nghiên cứu kỹ thuật lấy dữ liệu từ các văn bản dưới nhiều định dạng khác nhau.
- Phát biếu, phân tích và cài đặt hệ thống đã được đặt ra.
4. Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới
hạn nghiên cứu các vấn đề sau:
- Thành phần, cú pháp câu tiếng Việt và tiếng Anh.
- Tạo nguồn tài nguyên dữ liệu lớn bằng giải pháp xây dựng nguồn tài nguyên dữ
liệu từ các tài liệu thô song song.
- Ánh xạ gióng hàng văn bản song ngữ Anh-Việt.
- Hợp nhất các kho ngữ liệu song ngữ Anh-Việt.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
3
5. Phương pháp nghiên cứu
- Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.
- Nghiên cứu lý thuyết về ngôn ngữ tự nhiên nói chung và song ngữ Anh – Việt
nói riêng.
- Nghiên cứu về các giải pháp tạo nguồn tài nguyên dữ liệu.
- Nhận xét và đánh giá kết quả đạt được.
6. Phương tiện, công cụ triễn khai
- Môi trường Microsoft Visual C#
- Môi trường Microsoft SQL Server
- Công cụ Stanford POS tagger
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
4
CHƯƠNG I: NGHIÊN CỨU TỔNG QUAN
1.1. CƠ SỞ LÝ THUYẾT
1.1.1. Nguồn tài nguyên dữ liệu
Nguồn tài nguyên dữ liệu là một thành phần của cơ sở hạ tầng công nghệ thông
tin, đại diện cho tất cả các dữ liệu có sẵn của một lĩnh vực nào đó.
Để phục vụ cho việc xử lý ngôn ngữ tự nhiên, cần phải có nguồn tài nguyên dữ
liệu về mặt ngôn ngữ. Nguồn tài nguyên đó gồm: Kho ngữ liệu, từ điển, treebank.
1.1.1.1. Kho ngữ liệu
Ngữ liệu (Corpus) là một dữ liệu tập hợp các văn bản, ngôn ngữ đã được số
hóa, thường gọi là kho ngữ liệu. Chúng được sử dụng để phân tích, thống kê và kiểm
tra các quy tắc ngôn ngữ trong một ngôn ngữ cụ thể nào đó.
1.1.1.2. Dữ liệu từ điển
Từ điển là một thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vào
một từ, một cụm từ đơn giản, ta có thể tìm được nghĩa giải thích, các thông tin liên
quan một các nhanh chóng.
1.1.1.3. Tree bank
Treebank là một tập hợp các câu ngữ liệu đã được phân tích và chú thích cú
pháp, thường được biểu diễn dưới dạng cấu trúc cây
1.1.2. Cấu trúc, định dạng, kích thước
1.1.2.1. Kho ngữ liệu
Chuẩn CES và TEI dựa trên SGML(Standard Generalized Markup Language).
1.1.2.2. Dữ liệu từ điển
Đối với dữ liệu từ điển, có 2 định dạng phổ biến là: dict.tab và dict.ord.
1.1.2.3. Treebank
Treebank thường được biễu diễn dưới dạng cấu trúc cây, có chú thích cú
pháp, đôi khi còn bổ sung thêm nhãn từ loại.
1.1.3. Các vấn đề còn tồn tại của nguồn tài nguyên dữ liệu
1.1.3.1. Số lượng vốn từ còn ít
1.1.3.2. Chưa thuận tiện đối với người dùng
1.1.3.3. Nguồn tài nguyên dữ liệu nằm rải rác
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
5
1.1.4. Ứng dụng của tài nguyên dữ liệu
1.1.4.1. Ứng dụng trong ngôn ngữ học – thống kê
1.1.4.2. Ứng dụng trong ngôn ngữ học so sánh
1.1.4.3. Ứng dụng trong giảng dạy ngoại ngữ
1.1.4.4. Ứng dụng trong việc nghiên cứu dịch thuật
1.2. CÁC PHƯƠNG PHÁP, GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN
DỮ LIỆU
1.2.1. Giải pháp thu thập từ các nguồn dữ liệu thô
Hình 1.4: Các bước thực hiện của giải pháp thu thập từ nguồn dữ liệu thô
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
6
1.2.2. Giải pháp trích từ các từ điển điện tử
Hình 1.5: Các bước thực hiện của giải pháp trích từ các từ điển điện tử
1.2.3. Giải pháp hợp nhất các kho ngữ liệu
Hình 1.6: Các bước thực hiện của giải pháp hợp nhất các kho ngữ liệu
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
7
1.3. CÁC CÔNG TRÌNH NGHIÊN CỨU TƯƠNG TỰ
1.3.1. Các công trình nghiên cứu trên thế giới
1.3.2. Các công trình nghiên cứu trong nước
CHƯƠNG II: ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG
NGUỒN TÀI NGUYÊN DỮ LIỆU
2.1. ĐẶT VẤN ĐỀ
2.2. MÔ HÌNH TỔNG QUÁT CỦA GIẢI PHÁP
Hình 2.1: Mô hình tổng quát của giải pháp.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
8
2.3. THU THẬP DỮ LIỆU
2.4. TIỀN XỬ LÝ DỮ LIỆU
Hình 2.2: Sơ đồ đồng nhất dữ liệu đầu vào.
2.5. GIẢI PHÁP THU THẬP CÁC NGUỒN DỮ LIỆU THÔ SONG SONG
2.5.1. Các bước thực hiện
Hình 2.3: Các bước thực hiện giải pháp thu thập từ các nguồn dữ liệu thô song ngữ
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
9
2.5.2. Tách đoạn, tách câu, tách từ
2.5.3. Chú thích từ loại cho các từ trong câu tiếng Anh
2.5.3.1. Nhãn từ loại
2.5.3.2. Một số khó khăn của việc gán nhãn từ loại
2.5.3.3. Phương pháp gán nhãn Stanford POS tagger
Ví dụ một số luật của Stanford POS tagger và mô hình Penn Treebank
Bảng 2.2: Luật các từ loại đứng sau từ loại Giới từ (IN)
IN|JJ IN|PP IN|RB IN|RP
Bảng 2.3: Luật các từ loại đứng sau từ loại Tính từ (JJ)
JJ|CC JJ|IN JJ|JJR JJ|NN
JJRN JJ|VBG JJ|VBN
Về thực chất, phương pháp này thực hiện hai bước sau:
Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó.
Ví dụ: Để gán nhãn từ loại cho câu “The race was finished”, danh sách tất cả các nhãn
có thể cho từng từ như sau:
Bảng 2.4: Tập nhãn cho từng từ trong câu “The race was finished”.
Từ Tập nhãn
The DT
race NN,VB,VBP
was VBD
finished VBD,VBN
Bước 2: Sử dụng một danh sách luật ràng buộc không có nhập nhằng, sử dụng thông
tin về ngữ cảnh và vị trí để chọn ra một nhãn thích hợp nhất trong số các nhãn có thể.
Có thể nói các luật ràng buộc ở đây là các bộ lọc. Như ví dụ dưới đây sử dụng danh
sách luật ràng buộc của Penn Treebank cho câu “The race was finished.”
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
10
Bảng 2.5: Các luật ràng buộc của Penn Treebank cho câu “The race was finished”.
Từ Tập nhãn Các luật ràng buộc liên quan
The|race DT | NN,VB,VBP DT|NN
race|was NN,VB,VBP | VBD NN|VBD, VBP|VBD
was|finished VBD | VBD,VBN VBD|VBN
Kết quả của việc gán nhãn vừa rồi là:
The/DT race/NN was/VBD finished/VBN
2.5.4. Phân tách từ có nghĩa trong câu tiếng Việt Giả
sử câu ban đầu là một dãy gồm n chữ c1,c2,…,cn.
Bước 1: Duyệt các từ được tạo thành từ các dãy chữ từ c1 đến ck với k chạy từ
1..n. Sau đó kiểm tra các từ được tạo có tồn tại, có nghĩa trong kho ngữ liệu tiếng Việt
không.
 Nếu tồn tại ít nhất một từ được tạo, lưu lại giá trị k cao nhất.

 Nếu không tồn tại bất kì từ nào, lưu giá trị k = 1.
Bước 2: Căn cứ vào giá trị k, ta phân tách được từ c1…ck có nghĩa trong ngôn
ngữ tiếng Việt. Tách từ đó với phần còn lại của câu và quai lại thực hiện Bước 1 với
phần còn lại của câu đó gồm n-k chữ c1,…,cn-k.
Quá trình phân tách từ kết thúc khi phần còn lại của câu tiếng Việt không còn
chữ nào.
Bảng 2.6: Ví dụ minh hoạ phân tách từ có nghĩa trong câu tiếng Việt.
Lần Câu đã cho Giá trị k Kết quả
1 Những cuốn sách đó là của ông 1 Những |
nội em.
2 cuốn sách đó là của ông nội em. 2 Những | cuốn_sách
3 đó là của ông nội em. 1 Những | cuốn_sách | đó
4 là của ông nội em. 1 Những | cuốn_sách | đó | là
5 của ông nội em. 1 Những | cuốn_sách | đó | là | của
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
11
6 ông nội em. 2 Những | cuốn_sách | đó | là | của
| ông_nội
7 em. 1 Những | cuốn_sách | đó | là | của
| ông_nội | em.
8 Kết thúc
Với cách tiếp cân như trên, vấn đề phân tách từ vựng trong câu tiếng Việt về cơ
bản đã được giải quyết.
2.5.5. Xây dựng ánh xạ gióng hàng song ngữ Anh-Việt
2.5.5.1. Sự khác biệt về ranh giới từ
2.5.5.2. Hình thức từ tiếng Anh và tiếng Việt
Bảng 2.7: Luật hậu tố biến cách
Tiếng Anh Tiếng Việt
Ngữ pháp
Phụ tố Ví dụ Từ hư Ví dụ
1 Danh từ số nhiều N-s books, những, những/các cuốn sách
teachers các những/các giáo viên
2 Động từ ngôi 3 số ít V-s He sleeps, Ø anh ấy ngủ
It runs nó chạy
3 Sở hữu cách X’s Y teacher’s của các cuốn sách của
books giáo viên
4 Hiện phân từ V-ing sleeping đang đang ngủ
5 Quá khứ, quá khứ V-ed worked đã, đã làm việc
phân từ được
6 So sánh hơn Adj-er shorter hơn ngắn hơn
Adv-er slower chậm hơn
7 So sánh nhất Adj-est shortest nhất ngắn nhất
Adv-est slowest chậm nhất
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
12
Bảng 2.8: Luật hậu tố dẫn xuất trong tiếng Anh
Hậu tố Loại từ Nghĩa tiếng việt Ví dụ
1 -able Adj có thể …… được readable
2 -al Adj (thuộc về) …… national
3 -ate V làm cho …… fascinate
4 -ed Adj,V2,V3 (đã được / bị) …… closed door
5 -en Adj làm bằng …… golden
6 -er N người / máy teacher, printer
7 -ing V-Ger (đang) …… running car
8 -ise/-ize V …… hóa normalise
9 -ity N sự …… activity
10 -less Adj không có …… careless
11 -like Adj giống như …… humanlike
12 -ly Adv (một cách) …… strongly
13 -ness N sự …… brightness
14 -tion N sự …… solution
Bảng 2.9: Luật tiền tố dẫn xuất trong tiếng Anh
Tiền tố Loại từ Nghĩa tiếng Việt Ví dụ
1 anti N chống…… / kháng…… antivirus
2 co N đồng…… / liên…… coworker
3 dis V khử…… discharge
4 in, il, im, ir Adj không…… / bất…… / vô …… illegal, impartient
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
13
5 re V ……lại recalculate
6 un Adj,V không…… unhappy
2.5.5.3. Sự khác biệt về trật tự từ trong tiếng Anh và tiếng Việt
a) Cụm danh từ
Hình 2.4: Chuyển đổi trật tự từ trong cụm danh từ
(a) Trước khi đổi (b) Sau khi đổi
Hình 2.5: Chuyển đổi trật tự từ giữa các danh từ.
Hình 2.6: Chuyển đổi trật tự từ giữa các tính từ.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
14
Hình 2.7: Chuyển đổi trật tự từ giữa danh từ và đại từ sở hữu.
b) Cụm tính từ
Hình 2.8: Ví dụ chuyển đổi trật tự từ trong cụm tính từ
c) Cụm động từ
Hình 2.9: Một số ví dụ về luật trong cụm động từ
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
15
2.5.5.4. Các luật xây dựng ánh xạ gióng hàng
- Luật hậu tố biến cách
- Luật tiền tố và hậu tố dẫn xuất
- Luật chuyển đổi trật tự từ trong các cụm từ
Hình 2.10: Ví dụ ánh xạ gióng hàng song ngữ Anh-Việt.
2.6. GIẢI PHÁP HỢP NHẤT CÁC KHO NGỮ LIỆU SONG NGỮ
Hình 2.11: Hợp nhất các kho ngữ liệu song ngữ.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
16
2.6.1. Tồn tại các cặp ngữ liệu ở cả hai kho ngữ liệu
Hình 2.12: Các cặp ngữ liệu tồn tại ở hai kho ngữ liệu.
2.6.1.1. Giống nhau hoàn toàn
Trong quá trình hợp nhất khi mà cả hai kho ngữ liệu đều có các cặp từ mà ngữ
nghĩa của chúng là giống nhau hoàn toàn thì trong trường hợp này việc hợp nhất có thể
lấy ngữ liệu từ bất kì kho ngữ liệu nào để bổ sung vào nguồn tài nguyên dữ liệu.
2.6.1.2. Khác nhau về ngữ nghĩa
Hình 2.13: Cặp ngữ liệu khác nhau về ngữ nghĩa
Giải pháp để hợp nhất trong trường hợp này như sau:
- Giữ nguyên lại những ngữ nghĩa mà cả hai kho ngữ liệu đều mô tả.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
17
- Đối với các ngữ nghĩa chỉ tồn tại duy nhất ở một trong hai kho ngữ liệu, lấy
tất cả các ngữ nghĩa này để làm ngữ nghĩa mô tả cho ngữ liệu đó trong
nguồn tài nguôn dữ liệu chung.
2.6.2. Cặp ngữ liệu chỉ tồn tại ở một trong hai kho ngữ liệu
Hình 2.14: Cặp ngữ liệu tồn tại ở một trong hai kho ngữ liệu
Khi thu thập dữ liệu từ nhiều nguồn khác nhau, như phân tích ban đầu thì mỗi
nguồn dữ liệu sẽ có một số lượng vốn ngữ liệu nhất định. Vì vậy, giữa các kho ngữ
liệu chắc chắn sẽ tồn tại những cặp ngữ liệu mà chỉ ở kho ngữ liệu này có mà kho ngữ
liệu kia không có hoặc ngược lại. Nhiệm vụ của việc hợp nhất ở trường hợp này là sẽ
phải lấy tất cả ngữ liệu tồn tại duy nhất ở hai kho ngữ liệu để bổ sung vào nguồn tài
nguyên dữ liệu chung. Qua đó làm cho số lượng vốn ngữ liệu của nguồn tài nguyên dữ
liệu chung trở nên nhiều hơn và chất lượng hơn.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
18
2.6.3. Thuật toán hợp nhất các kho ngữ liệu song ngữ
Hình 2.15: Lưu đồ thuật toán hợp nhất các kho ngữ liệu song ngữ.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
19
2.7. KẾT LUẬN
Ở trên chỉ là quá trình phân tích và các giải pháp đã đưa ra, chúng ta hoàn toàn
có thể mở rộng để xây dựng hệ thống tạo nguồn tài nguyên dữ liệu lớn để phù hợp với
các ứng dụng trong thực tiễn.
Qua quá trình phân tích, hầu hết các dữ liệu thô thực tế cũng như các kho ngữ
liệu đều có thể phân tích và tổ chức lại nhằm tạo ra nguồn tài nguyên dữ liệu lớn. Tuy
nhiên, việc nhận định các nguồn dữ liệu thô khác nhau thì hiện tại chỉ con mới có thể
làm được. Qua đây ta thấy rằng việc xây dựng nguồn tài nguyên dữ liệu lớn là một quá
trình bán tự động và con người là trung tâm của quá trình này.
Trong chương này chúng ta đã cùng nhau đi phân tích qui trình của việc xây
dựng nguồn tài nguyên dữ liệu là như thế nào. Bên cạnh đó luận văn cũng đã đi sâu
vào việc phân tích và đưa ra các giải pháp cho từng trường hợp cụ thể trong quá trình
xây dựng. Qua đó chúng ta đã hiểu rõ hơn các vấn đề sẽ gặp phải khi đi vào thực hiện
thực tế. Chính những cơ sở phân tích này sẽ làm tiền đề để chúng ta có thể đi xây dựng
được một hệ thống tạo nguồn tài nguyên dữ liệu lớn hoàn chỉnh.
CHƯƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM
3.1. TỔNG QUAN VỀ HỆ THỐNG
Hình 3.1: Tổng quan hệ thống thử nghiệm.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
20
3.2. MỘT SỐ CÔNG CỤ CẦN THIẾT
3.2.1. Tổng quan về SQL Server
3.2.1.1. Một số đặt tính của SQL Server
3.2.1.2. Một số khái niệm trong SQL Server
3.2.2. Tổng quan về Microsoft Visual Studio
3.2.2.1. Các ngôn ngữ lập trình trong Visual Studio
3.2.2.2. Các tính năng của Visual Studio
3.3. PHÂN TÍCH THIẾT KẾ
3.3.1. Biểu đồ Usecase
Hình 3.2: Biểu đồ Usecase
3.3.2. Đặc tả Usecase
3.4. XÂY DỰNG HỆ THỐNG
3.4.1. Môi trường cài đặt
3.4.2. Thiết kế cơ sở dữ liệu
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
21
Hình 3.3: Mối quan hệ giữa các bảng.
3.5. RÚT TRÍCH XỬ LÝ NỘI DUNG TỪ CÁC NGUỒN DỮ LIỆU THÔ
3.5.1. Rút trích từ các website sử dụng HTML Agility Pack
3.5.2. Rút trích từ các văn bản sử dụng Word Application
3.5.3. Tách đoạn, tách câu
3.6. THỰC NGHIỆM
3.6.1. Chuẩn bị dữ liệu
Thử nghiệm lần đầu được thực hiện với tập dữ liệu thực nghiệm gồm 150 cặp
câu song song. Nguồn dữ liệu thử nghiệm được rút trích từ khoảng 10 trang tin tức của
trung tâm anh ngữ CEP[14] và một số văn bản song ngữ thu thập được.
3.6.2. Một số hình ảnh thực nghiệm
3.6.3. Kết quả thực nghiệm
Với dữ liệu thử nghiệm trên, áp dụng phương pháp ánh xạ gióng hàng song ngữ
Anh-Việt đã trình bày ở chương 2 đã thu được kết quả như sau:
Bảng 3.6: Kết quả thực nghiệm gióng hàng mức câu, mức từ
Tổng số cặp Số cặp gióng hàng đúng Tỉ lệ
Mức câu 150 143 95,3%
Mức từ 2000 1824 91.2%
Độ chính xác 86,9%
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
22
Độ chính xác được đánh giá bằng:
[tỉ lệ mức câu] * [tỉ lệ mức từ].
Trong đó:
 [tỉ lệ mức câu] được tính bằng [số cặp câu gióng hàng đúng] / [tổng số cặp câu].

 [tỉ lệ mức từ] được tính băng [số cặp từ gióng hàng đúng] / [tổng số cặp từ].
Ngoài ra, tôi còn kiểm tra thời gian chạy của tập dữ liệu thử nghiệm trên hệ
thống với 150 câu song ngữ trên. Tập dữ liệu thử nghiệm được chia ra làm 3 phần 30
câu, 50 câu và 70 câu.
Bảng 3.7: Kết quả thực nghiệm thời gian chạy(đơn vị giây/câu)
Phần Số câu Thời gian mỗi câu
1 30 28.48
2 50 29.94
3 70 31.08
Thời gian trung bình 29.83
3.6.4. Nhận xét
Theo học máy thống kê thì số lượng dữ liệu thực nghiệm càng nhiều thì độ
chính xác của giải pháp càng chính xác. Từ bảng 3.6 có thể thấy rằng, độ chính xác
86.9% cho thấy rằng, độ chính xác ở đây không chỉ phụ thuộc vào giải pháp mà còn
phụ thuộc vào nguồn dữ liệu thô thu thập được. Cụ thể, tỉ lệ gióng hàng mức câu
không được gióng hoàn toàn là vì các cặp câu song ngữ không phải là bản dịch 1-1 của
nhau. Hay tỉ lệ gióng hàng mức từ cũng vậy, vì các cặp câu song ngữ dịch bị thoát ý,
dịch tóm lượt hoặc dịch diễn dãi.
Kết quả thực nghiệm trên được đánh giá theo hướng chủ quan cá nhân. Nghĩa
là, sau khi thực hiện gióng hàng cho một trang tin tức hay một văn bản bất kì thì tôi
trực tiếp xem kết quả hiển thị và xem cặp câu, cặp từ nào đúng hoặc sai. Sau đó thống
kê lại và đưa ra kết quả.
Mặt khác, kết quả thực nghiệm trên chỉ sử dụng giải pháp thu thập từ các nguồn
dữ liệu thô song ngữ. Do tính chất chia sẻ của các kho ngữ liệu gần như là chưa có nên
giải phải hợp nhất các kho ngữ liệu song ngữ chỉ dừng lại là một đề xuất.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
23
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong luận văn này, tôi đã trình bày về thực trạng nguồn tài nguyên dữ liệu hiện
nay, qua đó thấy được các vấn đề và sự cần thiết mà nguồn tài nguyên dữ liệu hiện nay
mạng lại cho người sử dụng. Từ đó, tôi đã đề xuất một số giải pháp nhằm để nâng cao
hơn nữa chất lượng nguồn tài nguyên dữ liệu hiện nay cũng như để tiết kiếm thời gian
và công sức trong quá trình xây dựng nguồn tài nguyên dữ liệu. Qua đề xuất, tôi đã
phân tích và trình bày các giải pháp tạo nguồn tài nguyên dữ liệu lớn từ các nguồn dữ
liệu thô khác nhau. Thông qua các giải pháp này, tôi thấy được rằng việc xây dựng hệ
thống tạo nguồn tài nguyên dữ liệu không chỉ nâng cao chất lượng nguồn tài nguyên
dữ liệu của một cặp ngôn ngữ nào đó, ngoài ra nó cũng có thể áp dụng để tạo thêm
nguồn tài nguyên dữ liệu cho một cặp ngôn ngữ hoàn toàn mới, hay còn có thể nói
rằng nó cũng có thể áp dụng để tích hợp thêm nhiều ngôn ngữ khác vào nguồn tài
nguyên dữ liệu lớn. Để kiểm chứng cho các giải pháp đưa ra, tôi đã xây dựng một hệ
thống để kiếm chứng cho tính khả thi của nó. Kết quả chỉ ra rằng, chúng ta hoàn toàn
có thể tạo ra một hệ thống tạo nguồn tài nguyên dữ liệu lớn để phục vụ cho xử lý ngôn
ngữ tự nhiên cũng như trong học tập và nghiên cứu.
Việc thực nghiệm đã cho kết quả đúng như mong đợi tuy nhiên thực nghiệm chỉ
mới dừng ở việc kiểm nghiệm một số giải pháp để nâng cao chất lượng cho nguồn tài
nguyên dữ liệu mà chưa chú trọng đến việc phục vụ cho người sử dụng. Bên cạnh đó,
việc kiểm nghiệm cũng chỉ dừng ở việc thu thập từ các nguồn dữ liệu thô ở trên các
website và các văn bản Microsoft Word.
Hướng phát triển tiếp theo của đề tài là nghiên cứu thêm nhiều nguồn dữ liệu
thô dưới nhiều định dạng khác, cũng như đi hoàn thiện phần website để đáp ứng cho
nhu cầu của người sử dụng. Ngoài ra cũng nên tạo thêm các dịch vụ để chia sẽ nguồn
dữ liệu mình xây dựng được cho các tổ chức, các cá nhân cần sử dung để phục vụ cho
công việc học tập và nghiên cứu.
Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149

More Related Content

Similar to Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn Ngữ Tự Nhiên.doc

Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
https://www.facebook.com/garmentspace
 
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
https://www.facebook.com/garmentspace
 

Similar to Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn Ngữ Tự Nhiên.doc (20)

Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAYLuận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
 
Giải pháp toàn diện cho Multi Language
Giải pháp toàn diện cho Multi Language Giải pháp toàn diện cho Multi Language
Giải pháp toàn diện cho Multi Language
 
Từ Ngữ Nghề Biển Của Ngư Dân Đà Nẵng.doc
Từ Ngữ Nghề Biển Của Ngư Dân Đà Nẵng.docTừ Ngữ Nghề Biển Của Ngư Dân Đà Nẵng.doc
Từ Ngữ Nghề Biển Của Ngư Dân Đà Nẵng.doc
 
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
 
Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
Th s31 081_xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sin...
 
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
Xây dựng hệ thống bài tập mở rộng vốn từ theo chủ điểm cho học sinh lớp 3
 
Giáo án tin học 11 c++ theo 5 hoạt động (khởi động, hình thành kiến thức, luy...
Giáo án tin học 11 c++ theo 5 hoạt động (khởi động, hình thành kiến thức, luy...Giáo án tin học 11 c++ theo 5 hoạt động (khởi động, hình thành kiến thức, luy...
Giáo án tin học 11 c++ theo 5 hoạt động (khởi động, hình thành kiến thức, luy...
 
Luận án: Sử dụng ngôn ngữ trục trong dịch đa ngữ, HAY
Luận án: Sử dụng ngôn ngữ trục trong dịch đa ngữ, HAYLuận án: Sử dụng ngôn ngữ trục trong dịch đa ngữ, HAY
Luận án: Sử dụng ngôn ngữ trục trong dịch đa ngữ, HAY
 
Ngữ nghĩa của danh từ đơn vị tiếng việt nhìn từ góc độ ngôn ngữ học tri nhận.doc
Ngữ nghĩa của danh từ đơn vị tiếng việt nhìn từ góc độ ngôn ngữ học tri nhận.docNgữ nghĩa của danh từ đơn vị tiếng việt nhìn từ góc độ ngôn ngữ học tri nhận.doc
Ngữ nghĩa của danh từ đơn vị tiếng việt nhìn từ góc độ ngôn ngữ học tri nhận.doc
 
Luận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.doc
Luận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.docLuận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.doc
Luận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.doc
 
Luận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.doc
Luận Văn Thạc Sĩ  Tích Hợp Csdl Quan Hệ Xml.docLuận Văn Thạc Sĩ  Tích Hợp Csdl Quan Hệ Xml.doc
Luận Văn Thạc Sĩ Tích Hợp Csdl Quan Hệ Xml.doc
 
Nguyen dinhnghi do-an
Nguyen dinhnghi do-anNguyen dinhnghi do-an
Nguyen dinhnghi do-an
 
Công Cụ Dữ Liệu
Công Cụ Dữ LiệuCông Cụ Dữ Liệu
Công Cụ Dữ Liệu
 
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.docLuận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
 
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuậtLuận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
 
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdfDCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
 
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.docỨng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
Ứng Dụng Mô Hình Mapreduce Xây Dựng Hệ Thống Đánh Giá Độ Tƣơng Đồng Văn Bản.doc
 
Lecture01b
Lecture01bLecture01b
Lecture01b
 
Đặc Điểm Tu Từ Cú Pháp Trong Tiểu Thuyết Hồ Anh Thái.doc
Đặc Điểm Tu Từ Cú Pháp Trong Tiểu Thuyết Hồ Anh Thái.docĐặc Điểm Tu Từ Cú Pháp Trong Tiểu Thuyết Hồ Anh Thái.doc
Đặc Điểm Tu Từ Cú Pháp Trong Tiểu Thuyết Hồ Anh Thái.doc
 
Luận Văn Xây Dựng Ontology Từ Kho Ngữ Liệu Dạng Văn Bản.doc
Luận Văn Xây Dựng Ontology Từ Kho Ngữ Liệu Dạng Văn Bản.docLuận Văn Xây Dựng Ontology Từ Kho Ngữ Liệu Dạng Văn Bản.doc
Luận Văn Xây Dựng Ontology Từ Kho Ngữ Liệu Dạng Văn Bản.doc
 

More from Dịch vụ viết đề tài trọn gói 0934.573.149

More from Dịch vụ viết đề tài trọn gói 0934.573.149 (20)

Luận Văn Một Số Biện Pháp Nhằm Quản Lý Hàng Hóa Tốt Hơn Tại Công Ty Tnhh.doc
Luận Văn Một Số Biện Pháp Nhằm Quản Lý Hàng Hóa Tốt Hơn Tại Công Ty Tnhh.docLuận Văn Một Số Biện Pháp Nhằm Quản Lý Hàng Hóa Tốt Hơn Tại Công Ty Tnhh.doc
Luận Văn Một Số Biện Pháp Nhằm Quản Lý Hàng Hóa Tốt Hơn Tại Công Ty Tnhh.doc
 
Luận Văn Một Số Biện Pháp Nâng Cao Hiệu Quả Sử Dụng Nguồn Nhân Lực Tại Công T...
Luận Văn Một Số Biện Pháp Nâng Cao Hiệu Quả Sử Dụng Nguồn Nhân Lực Tại Công T...Luận Văn Một Số Biện Pháp Nâng Cao Hiệu Quả Sử Dụng Nguồn Nhân Lực Tại Công T...
Luận Văn Một Số Biện Pháp Nâng Cao Hiệu Quả Sử Dụng Nguồn Nhân Lực Tại Công T...
 
Luận Văn Một Số Biện Pháp Maketing Nhằm Nâng Cao Hiệu Quả Kinh Doanh Tại Công...
Luận Văn Một Số Biện Pháp Maketing Nhằm Nâng Cao Hiệu Quả Kinh Doanh Tại Công...Luận Văn Một Số Biện Pháp Maketing Nhằm Nâng Cao Hiệu Quả Kinh Doanh Tại Công...
Luận Văn Một Số Biện Pháp Maketing Nhằm Nâng Cao Hiệu Quả Kinh Doanh Tại Công...
 
Luận Văn Lý Luận Chung Về Doanh Thu, Chi Phí, Kết Quả Kinh Doanh Và Kế Toán D...
Luận Văn Lý Luận Chung Về Doanh Thu, Chi Phí, Kết Quả Kinh Doanh Và Kế Toán D...Luận Văn Lý Luận Chung Về Doanh Thu, Chi Phí, Kết Quả Kinh Doanh Và Kế Toán D...
Luận Văn Lý Luận Chung Về Doanh Thu, Chi Phí, Kết Quả Kinh Doanh Và Kế Toán D...
 
Luận Văn Lễ Hội Hoa Phượng Đỏ Hải Phòng Và Thực Trạng Tổ Chức Lễ Hội Lần Thứ ...
Luận Văn Lễ Hội Hoa Phượng Đỏ Hải Phòng Và Thực Trạng Tổ Chức Lễ Hội Lần Thứ ...Luận Văn Lễ Hội Hoa Phượng Đỏ Hải Phòng Và Thực Trạng Tổ Chức Lễ Hội Lần Thứ ...
Luận Văn Lễ Hội Hoa Phượng Đỏ Hải Phòng Và Thực Trạng Tổ Chức Lễ Hội Lần Thứ ...
 
Luận Văn Lễ Hội Báo Slao Xã Quốc Khánh Với Phát Triển Du Lịch Văn Hóa Ở Tràng...
Luận Văn Lễ Hội Báo Slao Xã Quốc Khánh Với Phát Triển Du Lịch Văn Hóa Ở Tràng...Luận Văn Lễ Hội Báo Slao Xã Quốc Khánh Với Phát Triển Du Lịch Văn Hóa Ở Tràng...
Luận Văn Lễ Hội Báo Slao Xã Quốc Khánh Với Phát Triển Du Lịch Văn Hóa Ở Tràng...
 
Luận Văn Kỹ Thuật Giấu Tin Thuận Nghịch Trong Ảnh Bằng Hiệu Chỉnh Hệ Số Wavel...
Luận Văn Kỹ Thuật Giấu Tin Thuận Nghịch Trong Ảnh Bằng Hiệu Chỉnh Hệ Số Wavel...Luận Văn Kỹ Thuật Giấu Tin Thuận Nghịch Trong Ảnh Bằng Hiệu Chỉnh Hệ Số Wavel...
Luận Văn Kỹ Thuật Giấu Tin Thuận Nghịch Trong Ảnh Bằng Hiệu Chỉnh Hệ Số Wavel...
 
Luận Văn Khu Đô Thị Dành Cho Ngƣời Thu Nhập Trung Bình Tại Kiến An Hải Phõng.doc
Luận Văn Khu Đô Thị Dành Cho Ngƣời Thu Nhập Trung Bình Tại Kiến An Hải Phõng.docLuận Văn Khu Đô Thị Dành Cho Ngƣời Thu Nhập Trung Bình Tại Kiến An Hải Phõng.doc
Luận Văn Khu Đô Thị Dành Cho Ngƣời Thu Nhập Trung Bình Tại Kiến An Hải Phõng.doc
 
Luận Văn Khai Thác Tiềm Năng Phát Triển Du Lịch Ven Biển Tiền Hải - Thái Binh...
Luận Văn Khai Thác Tiềm Năng Phát Triển Du Lịch Ven Biển Tiền Hải - Thái Binh...Luận Văn Khai Thác Tiềm Năng Phát Triển Du Lịch Ven Biển Tiền Hải - Thái Binh...
Luận Văn Khai Thác Tiềm Năng Phát Triển Du Lịch Ven Biển Tiền Hải - Thái Binh...
 
Luận Văn Khai Thác Giá Trị Hệ Thống Chùa Tại Thủy Nguyên Phục Vụ Phát Triển D...
Luận Văn Khai Thác Giá Trị Hệ Thống Chùa Tại Thủy Nguyên Phục Vụ Phát Triển D...Luận Văn Khai Thác Giá Trị Hệ Thống Chùa Tại Thủy Nguyên Phục Vụ Phát Triển D...
Luận Văn Khai Thác Giá Trị Hệ Thống Chùa Tại Thủy Nguyên Phục Vụ Phát Triển D...
 
Luận Văn Khai thác các giá trị lịch sử - văn hóa làng cổ loa, xã cổ loa, huyệ...
Luận Văn Khai thác các giá trị lịch sử - văn hóa làng cổ loa, xã cổ loa, huyệ...Luận Văn Khai thác các giá trị lịch sử - văn hóa làng cổ loa, xã cổ loa, huyệ...
Luận Văn Khai thác các giá trị lịch sử - văn hóa làng cổ loa, xã cổ loa, huyệ...
 
Luận Văn Khách Sạn Hòn Dáu.doc
Luận Văn Khách Sạn Hòn Dáu.docLuận Văn Khách Sạn Hòn Dáu.doc
Luận Văn Khách Sạn Hòn Dáu.doc
 
Luận Văn Khách Sạn Hoàng Anh.doc
Luận Văn Khách Sạn Hoàng Anh.docLuận Văn Khách Sạn Hoàng Anh.doc
Luận Văn Khách Sạn Hoàng Anh.doc
 
Luận Văn Khách Sạn Hoa Phuợng Đồ Sơn.doc
Luận Văn Khách Sạn Hoa Phuợng Đồ Sơn.docLuận Văn Khách Sạn Hoa Phuợng Đồ Sơn.doc
Luận Văn Khách Sạn Hoa Phuợng Đồ Sơn.doc
 
Luận Văn Khách Sạn Đồ Sơn.doc
Luận Văn Khách Sạn Đồ Sơn.docLuận Văn Khách Sạn Đồ Sơn.doc
Luận Văn Khách Sạn Đồ Sơn.doc
 
Luận Văn Học Viện Văn Hóa Nghệ Thuật Dân Tộc Việt Bắc.doc
Luận Văn Học Viện Văn Hóa Nghệ Thuật Dân Tộc Việt Bắc.docLuận Văn Học Viện Văn Hóa Nghệ Thuật Dân Tộc Việt Bắc.doc
Luận Văn Học Viện Văn Hóa Nghệ Thuật Dân Tộc Việt Bắc.doc
 
Luận Văn Hoàn Thiện Tổ Chức Kế Toán Hàng Hóa Tại Công Ty Tnhh An Phöc Thịnh.doc
Luận Văn Hoàn Thiện Tổ Chức Kế Toán Hàng Hóa Tại Công Ty Tnhh An Phöc Thịnh.docLuận Văn Hoàn Thiện Tổ Chức Kế Toán Hàng Hóa Tại Công Ty Tnhh An Phöc Thịnh.doc
Luận Văn Hoàn Thiện Tổ Chức Kế Toán Hàng Hóa Tại Công Ty Tnhh An Phöc Thịnh.doc
 
Luận Văn Hoàn Thiện Tổ Chức Công Tác Kế Toán Doanh Thu, Chi Phí Bán Hàng Và X...
Luận Văn Hoàn Thiện Tổ Chức Công Tác Kế Toán Doanh Thu, Chi Phí Bán Hàng Và X...Luận Văn Hoàn Thiện Tổ Chức Công Tác Kế Toán Doanh Thu, Chi Phí Bán Hàng Và X...
Luận Văn Hoàn Thiện Tổ Chức Công Tác Kế Toán Doanh Thu, Chi Phí Bán Hàng Và X...
 
Luận Văn Hoàn Thiện Tổ Chức Công Tác Hạch Toán Kế Toán Tiền Lương Và Các Khoả...
Luận Văn Hoàn Thiện Tổ Chức Công Tác Hạch Toán Kế Toán Tiền Lương Và Các Khoả...Luận Văn Hoàn Thiện Tổ Chức Công Tác Hạch Toán Kế Toán Tiền Lương Và Các Khoả...
Luận Văn Hoàn Thiện Tổ Chức Công Tác Hạch Toán Kế Toán Tiền Lương Và Các Khoả...
 
Luận Văn Hoàn Thiện Công Tác Kế Toán Vốn Bằng Tiền Tại Công Ty Cổ Phần Bao Bì...
Luận Văn Hoàn Thiện Công Tác Kế Toán Vốn Bằng Tiền Tại Công Ty Cổ Phần Bao Bì...Luận Văn Hoàn Thiện Công Tác Kế Toán Vốn Bằng Tiền Tại Công Ty Cổ Phần Bao Bì...
Luận Văn Hoàn Thiện Công Tác Kế Toán Vốn Bằng Tiền Tại Công Ty Cổ Phần Bao Bì...
 

Recently uploaded

26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
ltbdieu
 
Everybody Up 1 - Unit 5 - worksheet grade 1
Everybody Up 1 - Unit 5 - worksheet grade 1Everybody Up 1 - Unit 5 - worksheet grade 1
Everybody Up 1 - Unit 5 - worksheet grade 1
mskellyworkmail
 

Recently uploaded (20)

Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhàBài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
 
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
 
PHIẾU KHẢO SÁT MỨC ĐỘ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ VẬN CHUYỂN HÀNG KHÁCH BẰ...
PHIẾU KHẢO SÁT MỨC ĐỘ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ VẬN CHUYỂN HÀNG KHÁCH BẰ...PHIẾU KHẢO SÁT MỨC ĐỘ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ VẬN CHUYỂN HÀNG KHÁCH BẰ...
PHIẾU KHẢO SÁT MỨC ĐỘ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ VẬN CHUYỂN HÀNG KHÁCH BẰ...
 
Quản trị cơ sở Giáo dục nghề nghiệp
Quản trị cơ sở Giáo dục nghề nghiệpQuản trị cơ sở Giáo dục nghề nghiệp
Quản trị cơ sở Giáo dục nghề nghiệp
 
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 11 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 11 - CÁN...ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 11 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 11 - CÁN...
 
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
ĐỀ KIỂM TRA CUỐI KÌ 2 BIÊN SOẠN THEO ĐỊNH HƯỚNG ĐỀ BGD 2025 MÔN TOÁN 10 - CÁN...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Luận văn 2024 Tuyển dụng nhân lực tại Công ty cổ phần in Hồng Hà
Luận văn 2024 Tuyển dụng nhân lực tại Công ty cổ phần in Hồng HàLuận văn 2024 Tuyển dụng nhân lực tại Công ty cổ phần in Hồng Hà
Luận văn 2024 Tuyển dụng nhân lực tại Công ty cổ phần in Hồng Hà
 
XÂY DỰNG KẾ HOẠCH KINH DOANH CHO CÔNG TY KHÁCH SẠN SÀI GÒN CENTER ĐẾN NĂM 2025
XÂY DỰNG KẾ HOẠCH KINH DOANH CHO CÔNG TY KHÁCH SẠN SÀI GÒN CENTER ĐẾN NĂM 2025XÂY DỰNG KẾ HOẠCH KINH DOANH CHO CÔNG TY KHÁCH SẠN SÀI GÒN CENTER ĐẾN NĂM 2025
XÂY DỰNG KẾ HOẠCH KINH DOANH CHO CÔNG TY KHÁCH SẠN SÀI GÒN CENTER ĐẾN NĂM 2025
 
Hoàn thiện công tác kiểm soát chi NSNN qua Kho bạc Nhà nước huyện Tri Tôn – t...
Hoàn thiện công tác kiểm soát chi NSNN qua Kho bạc Nhà nước huyện Tri Tôn – t...Hoàn thiện công tác kiểm soát chi NSNN qua Kho bạc Nhà nước huyện Tri Tôn – t...
Hoàn thiện công tác kiểm soát chi NSNN qua Kho bạc Nhà nước huyện Tri Tôn – t...
 
Luận Văn: HOÀNG TỬ BÉ TỪ GÓC NHÌN CẢI BIÊN HỌC
Luận Văn: HOÀNG TỬ BÉ TỪ GÓC NHÌN CẢI BIÊN HỌCLuận Văn: HOÀNG TỬ BÉ TỪ GÓC NHÌN CẢI BIÊN HỌC
Luận Văn: HOÀNG TỬ BÉ TỪ GÓC NHÌN CẢI BIÊN HỌC
 
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
 
NHẬN XÉT LUẬN VĂN THẠC SĨ: Các nhân tố ảnh hưởng đến hiệu quả hoạt động của n...
NHẬN XÉT LUẬN VĂN THẠC SĨ: Các nhân tố ảnh hưởng đến hiệu quả hoạt động của n...NHẬN XÉT LUẬN VĂN THẠC SĨ: Các nhân tố ảnh hưởng đến hiệu quả hoạt động của n...
NHẬN XÉT LUẬN VĂN THẠC SĨ: Các nhân tố ảnh hưởng đến hiệu quả hoạt động của n...
 
Hoàn thiện hoạt động kiểm soát rủi ro tín dụng trong cho vay doanh nghiệp tại...
Hoàn thiện hoạt động kiểm soát rủi ro tín dụng trong cho vay doanh nghiệp tại...Hoàn thiện hoạt động kiểm soát rủi ro tín dụng trong cho vay doanh nghiệp tại...
Hoàn thiện hoạt động kiểm soát rủi ro tín dụng trong cho vay doanh nghiệp tại...
 
Đề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
Đề thi tin học HK2 lớp 3 Chân Trời Sáng TạoĐề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
Đề thi tin học HK2 lớp 3 Chân Trời Sáng Tạo
 
Everybody Up 1 - Unit 5 - worksheet grade 1
Everybody Up 1 - Unit 5 - worksheet grade 1Everybody Up 1 - Unit 5 - worksheet grade 1
Everybody Up 1 - Unit 5 - worksheet grade 1
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Trích dẫn theo Harvard với Microsoft Word
Trích dẫn theo Harvard với Microsoft WordTrích dẫn theo Harvard với Microsoft Word
Trích dẫn theo Harvard với Microsoft Word
 
Hướng dẫn viết tiểu luận cuối khóa lớp bồi dưỡng chức danh biên tập viên hạng 3
Hướng dẫn viết tiểu luận cuối khóa lớp bồi dưỡng chức danh biên tập viên hạng 3Hướng dẫn viết tiểu luận cuối khóa lớp bồi dưỡng chức danh biên tập viên hạng 3
Hướng dẫn viết tiểu luận cuối khóa lớp bồi dưỡng chức danh biên tập viên hạng 3
 
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
TỔNG HỢP HƠN 100 ĐỀ THI THỬ TỐT NGHIỆP THPT TOÁN 2024 - TỪ CÁC TRƯỜNG, TRƯỜNG...
 

Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn Ngữ Tự Nhiên.doc

  • 1. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA ----------------------------------- NGUYỄN TOÀN ANH NGHIÊN CỨU CÁC GIẢI PHÁP TẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚN PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 Khoá: K30 TÓM TẮT LUẬN VĂN THẠC SĨ Đà Nẵng, tháng 12 năm 2016
  • 2. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: PGS.TS Huỳnh Công Pháp Phản biện 1: TS. Nguyễn Văn Hiệu Đại học Bách khoa - Đại học Đà Nẵng Phản biện 2: PGS.TS. Lê Văn Sơn Đại học Sư phạm - Đại học Đà Nẵng Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa học máy tính họp tại Trường Đại học Bách khoa Đà Nẵng vào ngày 8 tháng 1 năm 2017. Có thể tìm hiểu luận văn tại: - Trung tâm học liệu, Đại học Đà Nẵng tại trường Đại học Bách Khoa - Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN
  • 3. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 1 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, bên cạnh sự hội nhập với Quốc tế của đất nước chúng ta, thì Công nghệ thông tin cũng đang không ngừng phát triển. Với sự ra đời của máy tính điện tử cũng như sự kết nối toàn cầu thông qua Internet đã tạo ra một lượng thông tin khổng lồ với nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Anh. Tuy nhiên, sự rào cản về mặt ngôn ngữ thì khối lượng lớn thông tin này cũng chưa được xử lý triệt để, chưa được cấu trúc lại, hệ thống lại để tạo thành một nguồn tài nguyên dữ liệu về ngôn ngữ tự nhiên nhằm phục vụ cho việc đào tạo, dạy và học, nghiên cứu và xỷ lý ngôn ngữ. Xử lý ngôn ngữ tự nhiên là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ liệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử lý ngôn ngữ tự nhiên đóng một vai trò quan trọng trong việc đẩy mạnh sự phát triển của Công Nghệ Thông Tin Việt Nam. Tuy nhiên, xử lý ngôn ngữ tự nhiên cũng vấp phải vô vàn khó khăn, mà khó khăn lớn nhất phải nói đến là nguồn tài nguyên dữ liệu về ngôn ngữ, đặc biệt là nguồn tài nguyên song ngữ. Các nguồn tài nguyên này thường không đủ lớn hoặc mang tính cục bộ, chỉ sử dụng trong một lĩnh vực hay một nơi nào đó. Chưa kể đến nguồn tài nguyên tồn tại dưới dạng các website song ngữ, các website này chỉ phục vụ cho mục đích đọc của người dùng, chưa được sử dụng và khai thác để xử lý ngôn ngữ tự nhiên. Ngoài ra còn có nhiều nguyên nhân khác như: Hệ thống dịch kém chất lượng, kích thước từ điển còn hạn chế. Hiện nay tồn tại nhiều từ điển Tiếng Việt nhưng vẫn chưa đặt được hiệu quả trong việc xử lý ngôn ngữ, cùng một từ mà mỗi từ điển lại có một cách hiểu khác nhau. Hệ thống dịch có những câu dịch được, có những câu dịch không đúng cho dù có hay không có dữ liệu. Chính vì chất lượng của các hệ thống trên nên mục tiêu của đề tài này là xây dựng nguồn tài nguyên dữ liệu lớn, phục vụ cho việc phát triển các hệ thống xử lý ngôn ngữ tự nhiên đạt được chất lượng và hiệu quả hơn. Đề tài tập trung vào đề xuất các giải pháp xây dựng nguồn tài nguyên dữ liệu lớn từ các nguồn tài nguyên đang tồn tại như các kho ngữ liệu hay từ những dữ liệu thô chưa khai thác như các website song ngữ. Để góp phần giải quyết vấn đề trên, tôi xin chọn đề tài: “Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”.
  • 4. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 2 2. Mục đích và ý nghĩa đề tài a. Mục đích Đề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữ liệu lớn, nhằm phục vụ, chia sẽ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìm kiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập. b. Ý nghĩa khoa học - Nắm vững và vận dụng tốt các kỹ thuật lấy dữ liệu từ văn bản, website… - Nắm vững các thành phần và cú pháp của câu tiếng Việt, tiếng Anh. - Nắm vững các giải pháp tạo nguồn tài nguyên dữ liệu. - Kết quả có thể phục vụ cho việc xử lý ngôn ngữ tự nhiên. c. Ý nghĩa thực tiễn Đề xuất được một số giải pháp có thể áp dụng trong thực tiễn để tạo nguồn dữ tài nguyên dữ liệu lớn phục vụ cho việc xử lý ngôn ngữ tự nhiên. 3. Mục tiêu và nhiệm vụ a. Mục tiêu Mục tiêu chính mà đề tài hướng đến là nghiên cứu và xây dựng hệ thống tạo nguồn tài nguyên dữ liệu chứa các cặp từ, các cặp câu Anh – Việt từ các nguồn tài liệu thô chưa được khai thác như: trang web song ngữ, sách, báo,… dưới nhiều định dạng khác nhau như: XML, TXT, DOC,… b. Nhiệm vụ Để đặt được mục tiêu trên thì nhiệm vụ đặt ra của đề tài là: - Nghiên cứu thành phần, cú pháp, trật tự từ trong câu tiếng Việt và tiếng Anh. - Nghiên cứu ánh xạ gióng hàng văn bản song ngữ Anh-Việt. - Nghiên cứu kỹ thuật lấy dữ liệu từ các văn bản dưới nhiều định dạng khác nhau. - Phát biếu, phân tích và cài đặt hệ thống đã được đặt ra. 4. Đối tượng và phạm vi nghiên cứu Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới hạn nghiên cứu các vấn đề sau: - Thành phần, cú pháp câu tiếng Việt và tiếng Anh. - Tạo nguồn tài nguyên dữ liệu lớn bằng giải pháp xây dựng nguồn tài nguyên dữ liệu từ các tài liệu thô song song. - Ánh xạ gióng hàng văn bản song ngữ Anh-Việt. - Hợp nhất các kho ngữ liệu song ngữ Anh-Việt.
  • 5. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 3 5. Phương pháp nghiên cứu - Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài. - Nghiên cứu lý thuyết về ngôn ngữ tự nhiên nói chung và song ngữ Anh – Việt nói riêng. - Nghiên cứu về các giải pháp tạo nguồn tài nguyên dữ liệu. - Nhận xét và đánh giá kết quả đạt được. 6. Phương tiện, công cụ triễn khai - Môi trường Microsoft Visual C# - Môi trường Microsoft SQL Server - Công cụ Stanford POS tagger
  • 6. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 4 CHƯƠNG I: NGHIÊN CỨU TỔNG QUAN 1.1. CƠ SỞ LÝ THUYẾT 1.1.1. Nguồn tài nguyên dữ liệu Nguồn tài nguyên dữ liệu là một thành phần của cơ sở hạ tầng công nghệ thông tin, đại diện cho tất cả các dữ liệu có sẵn của một lĩnh vực nào đó. Để phục vụ cho việc xử lý ngôn ngữ tự nhiên, cần phải có nguồn tài nguyên dữ liệu về mặt ngôn ngữ. Nguồn tài nguyên đó gồm: Kho ngữ liệu, từ điển, treebank. 1.1.1.1. Kho ngữ liệu Ngữ liệu (Corpus) là một dữ liệu tập hợp các văn bản, ngôn ngữ đã được số hóa, thường gọi là kho ngữ liệu. Chúng được sử dụng để phân tích, thống kê và kiểm tra các quy tắc ngôn ngữ trong một ngôn ngữ cụ thể nào đó. 1.1.1.2. Dữ liệu từ điển Từ điển là một thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vào một từ, một cụm từ đơn giản, ta có thể tìm được nghĩa giải thích, các thông tin liên quan một các nhanh chóng. 1.1.1.3. Tree bank Treebank là một tập hợp các câu ngữ liệu đã được phân tích và chú thích cú pháp, thường được biểu diễn dưới dạng cấu trúc cây 1.1.2. Cấu trúc, định dạng, kích thước 1.1.2.1. Kho ngữ liệu Chuẩn CES và TEI dựa trên SGML(Standard Generalized Markup Language). 1.1.2.2. Dữ liệu từ điển Đối với dữ liệu từ điển, có 2 định dạng phổ biến là: dict.tab và dict.ord. 1.1.2.3. Treebank Treebank thường được biễu diễn dưới dạng cấu trúc cây, có chú thích cú pháp, đôi khi còn bổ sung thêm nhãn từ loại. 1.1.3. Các vấn đề còn tồn tại của nguồn tài nguyên dữ liệu 1.1.3.1. Số lượng vốn từ còn ít 1.1.3.2. Chưa thuận tiện đối với người dùng 1.1.3.3. Nguồn tài nguyên dữ liệu nằm rải rác
  • 7. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 5 1.1.4. Ứng dụng của tài nguyên dữ liệu 1.1.4.1. Ứng dụng trong ngôn ngữ học – thống kê 1.1.4.2. Ứng dụng trong ngôn ngữ học so sánh 1.1.4.3. Ứng dụng trong giảng dạy ngoại ngữ 1.1.4.4. Ứng dụng trong việc nghiên cứu dịch thuật 1.2. CÁC PHƯƠNG PHÁP, GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU 1.2.1. Giải pháp thu thập từ các nguồn dữ liệu thô Hình 1.4: Các bước thực hiện của giải pháp thu thập từ nguồn dữ liệu thô
  • 8. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 6 1.2.2. Giải pháp trích từ các từ điển điện tử Hình 1.5: Các bước thực hiện của giải pháp trích từ các từ điển điện tử 1.2.3. Giải pháp hợp nhất các kho ngữ liệu Hình 1.6: Các bước thực hiện của giải pháp hợp nhất các kho ngữ liệu
  • 9. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 7 1.3. CÁC CÔNG TRÌNH NGHIÊN CỨU TƯƠNG TỰ 1.3.1. Các công trình nghiên cứu trên thế giới 1.3.2. Các công trình nghiên cứu trong nước CHƯƠNG II: ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU 2.1. ĐẶT VẤN ĐỀ 2.2. MÔ HÌNH TỔNG QUÁT CỦA GIẢI PHÁP Hình 2.1: Mô hình tổng quát của giải pháp.
  • 10. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 8 2.3. THU THẬP DỮ LIỆU 2.4. TIỀN XỬ LÝ DỮ LIỆU Hình 2.2: Sơ đồ đồng nhất dữ liệu đầu vào. 2.5. GIẢI PHÁP THU THẬP CÁC NGUỒN DỮ LIỆU THÔ SONG SONG 2.5.1. Các bước thực hiện Hình 2.3: Các bước thực hiện giải pháp thu thập từ các nguồn dữ liệu thô song ngữ
  • 11. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 9 2.5.2. Tách đoạn, tách câu, tách từ 2.5.3. Chú thích từ loại cho các từ trong câu tiếng Anh 2.5.3.1. Nhãn từ loại 2.5.3.2. Một số khó khăn của việc gán nhãn từ loại 2.5.3.3. Phương pháp gán nhãn Stanford POS tagger Ví dụ một số luật của Stanford POS tagger và mô hình Penn Treebank Bảng 2.2: Luật các từ loại đứng sau từ loại Giới từ (IN) IN|JJ IN|PP IN|RB IN|RP Bảng 2.3: Luật các từ loại đứng sau từ loại Tính từ (JJ) JJ|CC JJ|IN JJ|JJR JJ|NN JJRN JJ|VBG JJ|VBN Về thực chất, phương pháp này thực hiện hai bước sau: Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó. Ví dụ: Để gán nhãn từ loại cho câu “The race was finished”, danh sách tất cả các nhãn có thể cho từng từ như sau: Bảng 2.4: Tập nhãn cho từng từ trong câu “The race was finished”. Từ Tập nhãn The DT race NN,VB,VBP was VBD finished VBD,VBN Bước 2: Sử dụng một danh sách luật ràng buộc không có nhập nhằng, sử dụng thông tin về ngữ cảnh và vị trí để chọn ra một nhãn thích hợp nhất trong số các nhãn có thể. Có thể nói các luật ràng buộc ở đây là các bộ lọc. Như ví dụ dưới đây sử dụng danh sách luật ràng buộc của Penn Treebank cho câu “The race was finished.”
  • 12. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 10 Bảng 2.5: Các luật ràng buộc của Penn Treebank cho câu “The race was finished”. Từ Tập nhãn Các luật ràng buộc liên quan The|race DT | NN,VB,VBP DT|NN race|was NN,VB,VBP | VBD NN|VBD, VBP|VBD was|finished VBD | VBD,VBN VBD|VBN Kết quả của việc gán nhãn vừa rồi là: The/DT race/NN was/VBD finished/VBN 2.5.4. Phân tách từ có nghĩa trong câu tiếng Việt Giả sử câu ban đầu là một dãy gồm n chữ c1,c2,…,cn. Bước 1: Duyệt các từ được tạo thành từ các dãy chữ từ c1 đến ck với k chạy từ 1..n. Sau đó kiểm tra các từ được tạo có tồn tại, có nghĩa trong kho ngữ liệu tiếng Việt không.  Nếu tồn tại ít nhất một từ được tạo, lưu lại giá trị k cao nhất.   Nếu không tồn tại bất kì từ nào, lưu giá trị k = 1. Bước 2: Căn cứ vào giá trị k, ta phân tách được từ c1…ck có nghĩa trong ngôn ngữ tiếng Việt. Tách từ đó với phần còn lại của câu và quai lại thực hiện Bước 1 với phần còn lại của câu đó gồm n-k chữ c1,…,cn-k. Quá trình phân tách từ kết thúc khi phần còn lại của câu tiếng Việt không còn chữ nào. Bảng 2.6: Ví dụ minh hoạ phân tách từ có nghĩa trong câu tiếng Việt. Lần Câu đã cho Giá trị k Kết quả 1 Những cuốn sách đó là của ông 1 Những | nội em. 2 cuốn sách đó là của ông nội em. 2 Những | cuốn_sách 3 đó là của ông nội em. 1 Những | cuốn_sách | đó 4 là của ông nội em. 1 Những | cuốn_sách | đó | là 5 của ông nội em. 1 Những | cuốn_sách | đó | là | của
  • 13. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 11 6 ông nội em. 2 Những | cuốn_sách | đó | là | của | ông_nội 7 em. 1 Những | cuốn_sách | đó | là | của | ông_nội | em. 8 Kết thúc Với cách tiếp cân như trên, vấn đề phân tách từ vựng trong câu tiếng Việt về cơ bản đã được giải quyết. 2.5.5. Xây dựng ánh xạ gióng hàng song ngữ Anh-Việt 2.5.5.1. Sự khác biệt về ranh giới từ 2.5.5.2. Hình thức từ tiếng Anh và tiếng Việt Bảng 2.7: Luật hậu tố biến cách Tiếng Anh Tiếng Việt Ngữ pháp Phụ tố Ví dụ Từ hư Ví dụ 1 Danh từ số nhiều N-s books, những, những/các cuốn sách teachers các những/các giáo viên 2 Động từ ngôi 3 số ít V-s He sleeps, Ø anh ấy ngủ It runs nó chạy 3 Sở hữu cách X’s Y teacher’s của các cuốn sách của books giáo viên 4 Hiện phân từ V-ing sleeping đang đang ngủ 5 Quá khứ, quá khứ V-ed worked đã, đã làm việc phân từ được 6 So sánh hơn Adj-er shorter hơn ngắn hơn Adv-er slower chậm hơn 7 So sánh nhất Adj-est shortest nhất ngắn nhất Adv-est slowest chậm nhất
  • 14. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 12 Bảng 2.8: Luật hậu tố dẫn xuất trong tiếng Anh Hậu tố Loại từ Nghĩa tiếng việt Ví dụ 1 -able Adj có thể …… được readable 2 -al Adj (thuộc về) …… national 3 -ate V làm cho …… fascinate 4 -ed Adj,V2,V3 (đã được / bị) …… closed door 5 -en Adj làm bằng …… golden 6 -er N người / máy teacher, printer 7 -ing V-Ger (đang) …… running car 8 -ise/-ize V …… hóa normalise 9 -ity N sự …… activity 10 -less Adj không có …… careless 11 -like Adj giống như …… humanlike 12 -ly Adv (một cách) …… strongly 13 -ness N sự …… brightness 14 -tion N sự …… solution Bảng 2.9: Luật tiền tố dẫn xuất trong tiếng Anh Tiền tố Loại từ Nghĩa tiếng Việt Ví dụ 1 anti N chống…… / kháng…… antivirus 2 co N đồng…… / liên…… coworker 3 dis V khử…… discharge 4 in, il, im, ir Adj không…… / bất…… / vô …… illegal, impartient
  • 15. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 13 5 re V ……lại recalculate 6 un Adj,V không…… unhappy 2.5.5.3. Sự khác biệt về trật tự từ trong tiếng Anh và tiếng Việt a) Cụm danh từ Hình 2.4: Chuyển đổi trật tự từ trong cụm danh từ (a) Trước khi đổi (b) Sau khi đổi Hình 2.5: Chuyển đổi trật tự từ giữa các danh từ. Hình 2.6: Chuyển đổi trật tự từ giữa các tính từ.
  • 16. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 14 Hình 2.7: Chuyển đổi trật tự từ giữa danh từ và đại từ sở hữu. b) Cụm tính từ Hình 2.8: Ví dụ chuyển đổi trật tự từ trong cụm tính từ c) Cụm động từ Hình 2.9: Một số ví dụ về luật trong cụm động từ
  • 17. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 15 2.5.5.4. Các luật xây dựng ánh xạ gióng hàng - Luật hậu tố biến cách - Luật tiền tố và hậu tố dẫn xuất - Luật chuyển đổi trật tự từ trong các cụm từ Hình 2.10: Ví dụ ánh xạ gióng hàng song ngữ Anh-Việt. 2.6. GIẢI PHÁP HỢP NHẤT CÁC KHO NGỮ LIỆU SONG NGỮ Hình 2.11: Hợp nhất các kho ngữ liệu song ngữ.
  • 18. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 16 2.6.1. Tồn tại các cặp ngữ liệu ở cả hai kho ngữ liệu Hình 2.12: Các cặp ngữ liệu tồn tại ở hai kho ngữ liệu. 2.6.1.1. Giống nhau hoàn toàn Trong quá trình hợp nhất khi mà cả hai kho ngữ liệu đều có các cặp từ mà ngữ nghĩa của chúng là giống nhau hoàn toàn thì trong trường hợp này việc hợp nhất có thể lấy ngữ liệu từ bất kì kho ngữ liệu nào để bổ sung vào nguồn tài nguyên dữ liệu. 2.6.1.2. Khác nhau về ngữ nghĩa Hình 2.13: Cặp ngữ liệu khác nhau về ngữ nghĩa Giải pháp để hợp nhất trong trường hợp này như sau: - Giữ nguyên lại những ngữ nghĩa mà cả hai kho ngữ liệu đều mô tả.
  • 19. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 17 - Đối với các ngữ nghĩa chỉ tồn tại duy nhất ở một trong hai kho ngữ liệu, lấy tất cả các ngữ nghĩa này để làm ngữ nghĩa mô tả cho ngữ liệu đó trong nguồn tài nguôn dữ liệu chung. 2.6.2. Cặp ngữ liệu chỉ tồn tại ở một trong hai kho ngữ liệu Hình 2.14: Cặp ngữ liệu tồn tại ở một trong hai kho ngữ liệu Khi thu thập dữ liệu từ nhiều nguồn khác nhau, như phân tích ban đầu thì mỗi nguồn dữ liệu sẽ có một số lượng vốn ngữ liệu nhất định. Vì vậy, giữa các kho ngữ liệu chắc chắn sẽ tồn tại những cặp ngữ liệu mà chỉ ở kho ngữ liệu này có mà kho ngữ liệu kia không có hoặc ngược lại. Nhiệm vụ của việc hợp nhất ở trường hợp này là sẽ phải lấy tất cả ngữ liệu tồn tại duy nhất ở hai kho ngữ liệu để bổ sung vào nguồn tài nguyên dữ liệu chung. Qua đó làm cho số lượng vốn ngữ liệu của nguồn tài nguyên dữ liệu chung trở nên nhiều hơn và chất lượng hơn.
  • 20. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 18 2.6.3. Thuật toán hợp nhất các kho ngữ liệu song ngữ Hình 2.15: Lưu đồ thuật toán hợp nhất các kho ngữ liệu song ngữ.
  • 21. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 19 2.7. KẾT LUẬN Ở trên chỉ là quá trình phân tích và các giải pháp đã đưa ra, chúng ta hoàn toàn có thể mở rộng để xây dựng hệ thống tạo nguồn tài nguyên dữ liệu lớn để phù hợp với các ứng dụng trong thực tiễn. Qua quá trình phân tích, hầu hết các dữ liệu thô thực tế cũng như các kho ngữ liệu đều có thể phân tích và tổ chức lại nhằm tạo ra nguồn tài nguyên dữ liệu lớn. Tuy nhiên, việc nhận định các nguồn dữ liệu thô khác nhau thì hiện tại chỉ con mới có thể làm được. Qua đây ta thấy rằng việc xây dựng nguồn tài nguyên dữ liệu lớn là một quá trình bán tự động và con người là trung tâm của quá trình này. Trong chương này chúng ta đã cùng nhau đi phân tích qui trình của việc xây dựng nguồn tài nguyên dữ liệu là như thế nào. Bên cạnh đó luận văn cũng đã đi sâu vào việc phân tích và đưa ra các giải pháp cho từng trường hợp cụ thể trong quá trình xây dựng. Qua đó chúng ta đã hiểu rõ hơn các vấn đề sẽ gặp phải khi đi vào thực hiện thực tế. Chính những cơ sở phân tích này sẽ làm tiền đề để chúng ta có thể đi xây dựng được một hệ thống tạo nguồn tài nguyên dữ liệu lớn hoàn chỉnh. CHƯƠNG III: CÀI ĐẶT VÀ THỬ NGHIỆM 3.1. TỔNG QUAN VỀ HỆ THỐNG Hình 3.1: Tổng quan hệ thống thử nghiệm.
  • 22. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 20 3.2. MỘT SỐ CÔNG CỤ CẦN THIẾT 3.2.1. Tổng quan về SQL Server 3.2.1.1. Một số đặt tính của SQL Server 3.2.1.2. Một số khái niệm trong SQL Server 3.2.2. Tổng quan về Microsoft Visual Studio 3.2.2.1. Các ngôn ngữ lập trình trong Visual Studio 3.2.2.2. Các tính năng của Visual Studio 3.3. PHÂN TÍCH THIẾT KẾ 3.3.1. Biểu đồ Usecase Hình 3.2: Biểu đồ Usecase 3.3.2. Đặc tả Usecase 3.4. XÂY DỰNG HỆ THỐNG 3.4.1. Môi trường cài đặt 3.4.2. Thiết kế cơ sở dữ liệu
  • 23. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 21 Hình 3.3: Mối quan hệ giữa các bảng. 3.5. RÚT TRÍCH XỬ LÝ NỘI DUNG TỪ CÁC NGUỒN DỮ LIỆU THÔ 3.5.1. Rút trích từ các website sử dụng HTML Agility Pack 3.5.2. Rút trích từ các văn bản sử dụng Word Application 3.5.3. Tách đoạn, tách câu 3.6. THỰC NGHIỆM 3.6.1. Chuẩn bị dữ liệu Thử nghiệm lần đầu được thực hiện với tập dữ liệu thực nghiệm gồm 150 cặp câu song song. Nguồn dữ liệu thử nghiệm được rút trích từ khoảng 10 trang tin tức của trung tâm anh ngữ CEP[14] và một số văn bản song ngữ thu thập được. 3.6.2. Một số hình ảnh thực nghiệm 3.6.3. Kết quả thực nghiệm Với dữ liệu thử nghiệm trên, áp dụng phương pháp ánh xạ gióng hàng song ngữ Anh-Việt đã trình bày ở chương 2 đã thu được kết quả như sau: Bảng 3.6: Kết quả thực nghiệm gióng hàng mức câu, mức từ Tổng số cặp Số cặp gióng hàng đúng Tỉ lệ Mức câu 150 143 95,3% Mức từ 2000 1824 91.2% Độ chính xác 86,9%
  • 24. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 22 Độ chính xác được đánh giá bằng: [tỉ lệ mức câu] * [tỉ lệ mức từ]. Trong đó:  [tỉ lệ mức câu] được tính bằng [số cặp câu gióng hàng đúng] / [tổng số cặp câu].   [tỉ lệ mức từ] được tính băng [số cặp từ gióng hàng đúng] / [tổng số cặp từ]. Ngoài ra, tôi còn kiểm tra thời gian chạy của tập dữ liệu thử nghiệm trên hệ thống với 150 câu song ngữ trên. Tập dữ liệu thử nghiệm được chia ra làm 3 phần 30 câu, 50 câu và 70 câu. Bảng 3.7: Kết quả thực nghiệm thời gian chạy(đơn vị giây/câu) Phần Số câu Thời gian mỗi câu 1 30 28.48 2 50 29.94 3 70 31.08 Thời gian trung bình 29.83 3.6.4. Nhận xét Theo học máy thống kê thì số lượng dữ liệu thực nghiệm càng nhiều thì độ chính xác của giải pháp càng chính xác. Từ bảng 3.6 có thể thấy rằng, độ chính xác 86.9% cho thấy rằng, độ chính xác ở đây không chỉ phụ thuộc vào giải pháp mà còn phụ thuộc vào nguồn dữ liệu thô thu thập được. Cụ thể, tỉ lệ gióng hàng mức câu không được gióng hoàn toàn là vì các cặp câu song ngữ không phải là bản dịch 1-1 của nhau. Hay tỉ lệ gióng hàng mức từ cũng vậy, vì các cặp câu song ngữ dịch bị thoát ý, dịch tóm lượt hoặc dịch diễn dãi. Kết quả thực nghiệm trên được đánh giá theo hướng chủ quan cá nhân. Nghĩa là, sau khi thực hiện gióng hàng cho một trang tin tức hay một văn bản bất kì thì tôi trực tiếp xem kết quả hiển thị và xem cặp câu, cặp từ nào đúng hoặc sai. Sau đó thống kê lại và đưa ra kết quả. Mặt khác, kết quả thực nghiệm trên chỉ sử dụng giải pháp thu thập từ các nguồn dữ liệu thô song ngữ. Do tính chất chia sẻ của các kho ngữ liệu gần như là chưa có nên giải phải hợp nhất các kho ngữ liệu song ngữ chỉ dừng lại là một đề xuất.
  • 25. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 23 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn này, tôi đã trình bày về thực trạng nguồn tài nguyên dữ liệu hiện nay, qua đó thấy được các vấn đề và sự cần thiết mà nguồn tài nguyên dữ liệu hiện nay mạng lại cho người sử dụng. Từ đó, tôi đã đề xuất một số giải pháp nhằm để nâng cao hơn nữa chất lượng nguồn tài nguyên dữ liệu hiện nay cũng như để tiết kiếm thời gian và công sức trong quá trình xây dựng nguồn tài nguyên dữ liệu. Qua đề xuất, tôi đã phân tích và trình bày các giải pháp tạo nguồn tài nguyên dữ liệu lớn từ các nguồn dữ liệu thô khác nhau. Thông qua các giải pháp này, tôi thấy được rằng việc xây dựng hệ thống tạo nguồn tài nguyên dữ liệu không chỉ nâng cao chất lượng nguồn tài nguyên dữ liệu của một cặp ngôn ngữ nào đó, ngoài ra nó cũng có thể áp dụng để tạo thêm nguồn tài nguyên dữ liệu cho một cặp ngôn ngữ hoàn toàn mới, hay còn có thể nói rằng nó cũng có thể áp dụng để tích hợp thêm nhiều ngôn ngữ khác vào nguồn tài nguyên dữ liệu lớn. Để kiểm chứng cho các giải pháp đưa ra, tôi đã xây dựng một hệ thống để kiếm chứng cho tính khả thi của nó. Kết quả chỉ ra rằng, chúng ta hoàn toàn có thể tạo ra một hệ thống tạo nguồn tài nguyên dữ liệu lớn để phục vụ cho xử lý ngôn ngữ tự nhiên cũng như trong học tập và nghiên cứu. Việc thực nghiệm đã cho kết quả đúng như mong đợi tuy nhiên thực nghiệm chỉ mới dừng ở việc kiểm nghiệm một số giải pháp để nâng cao chất lượng cho nguồn tài nguyên dữ liệu mà chưa chú trọng đến việc phục vụ cho người sử dụng. Bên cạnh đó, việc kiểm nghiệm cũng chỉ dừng ở việc thu thập từ các nguồn dữ liệu thô ở trên các website và các văn bản Microsoft Word. Hướng phát triển tiếp theo của đề tài là nghiên cứu thêm nhiều nguồn dữ liệu thô dưới nhiều định dạng khác, cũng như đi hoàn thiện phần website để đáp ứng cho nhu cầu của người sử dụng. Ngoài ra cũng nên tạo thêm các dịch vụ để chia sẽ nguồn dữ liệu mình xây dựng được cho các tổ chức, các cá nhân cần sử dung để phục vụ cho công việc học tập và nghiên cứu.
  • 26. Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149