SlideShare a Scribd company logo
1 of 48
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
KIM PI SÍCH
XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER
TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI
CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh
Đà Nẵng - Năm 2014
i
LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới
sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ
ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay
gian trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Kim Pi Sích
ii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................i
MỤC LỤC........................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT...............................................................vi
DANH MỤC BẢNG......................................................................................vii
DANH MỤC HÌNH.......................................................................................vii
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT................................................................ 6
1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG ......................... 6
1.1.1. Lịch sử dịch máy.................................................................. 7
1.1.2. Vấn đề dịch tự động trong tiếng Việt................................... 9
1.1.3. Một số phương pháp dịch máy............................................. 9
1.1.4. Một số dịch vụ dịch máy đã có ..........................................12
1.2. XỬ LÝ CÂU TIẾNG VIỆT ..........................................................13
1.2.1. Tách câu .............................................................................13
1.2.2.Tách từ.................................................................................15
1.3. TÌM HIỂU TIẾNG KHMER.........................................................21
1.3.1. Giới thiệu dân tộc Khmer...................................................21
1.3.2. Lịch sử hình thành tiếng Khmer.........................................23
iii
1.3.3. Chữ viết Khmer..................................................................24
1.3.4. Đặc điểm ngữ âm tiếng Khmer..........................................28
1.3.5. Đặc điểm từ vựng tiếng Khmer..........................................30
1.3.6. Đặc điểm ngữ pháp tiếng Khmer .......................................31
1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER....................31
1.4.1. Những đặc điểm tương đồng..............................................31
1.4.2. Những nét dị biệt................................................................32
1.4.3. Khả năng xây dựng một hệ thống dịch tự động.................34
1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY...................34
1.5.1. Hiện trạng...........................................................................34
1.5.2. Một số kết quả hiện có .......................................................35
1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer................................36
1.6. NGỮ LIỆU SONG NGỮ...............................................................37
1.6.1. Khái niệm...........................................................................37
1.6.2. Vấn đề thu thập dữ liệu song ngữ ......................................37
1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ .........................38
1.6.4. Một số dữ liệu song ngữ Việt – Khmer .............................38
CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG
VIỆT KHMER...............................................................................................40
2.1. PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT ............................40
2.1.1. Phân loại các bản tin dự báo thời tiết.................................40
2.1.2. Phân tích các bản tin dự báo thời tiết.................................41
iv
2.1.3. Phân tích các mẫu câu dự báo thời tiết ..............................52
2.2. MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER...53
2.2.1. Mô hình kiến trúc hệ thống................................................53
2.2.2. Phương pháp dịch...............................................................54
2.2.3. Phương tách từ ...................................................................55
2.2.4. Dịch bản tin........................................................................57
2.2.5. Dịch số và dấu câu .............................................................58
2.2.6. Dịch giờ, ngày tháng ..........................................................60
2.3. XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ.........63
2.3.1. Tổng quan về quá trình xây dựng kho ngữ liệu.................63
2.2. 2. Cấu trúc kho ngữ liệu........................................................64
2.2.3. Kỹ thuật chuyển đổi dữ liệu...............................................66
CHƯƠNG 3 TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT –
KHMER .........................................................................................................68
3.1. CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG .68
3.2. THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG
NGỮ......................................................................................................68
3.2.1. Chọn nguồn dữ liệu............................................................68
3.2.2. Thu thập dữ liệu .................................................................69
3.2.3. Cập nhật dữ liệu cho kho ngữ liệu song ngữ .....................69
3.3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ................................87
3.3.1. Giao diện hệ thống .............................................................87
v
3.3.2. Kịch bản sử dụng hệ thống và thử nghiệm ........................88
3.3.3. Phương pháp đánh giá chất lượng hệ dịch.........................89
3.3.4. So sánh bản dịch thủ công và đánh giá kết quả .................92
KẾT LUẬN....................................................................................................97
TÀI LIỆU THAM KHẢO ............................................................................98
PHỤ LỤC
vi
DANH MỤC CÁC TỪ VIẾT TẮT
XLNNTN Xử lý ngôn ngữ tự nhiên.
CSDL Cơ sở dữ liệu
CN Chủ Ngữ
VN Vị Ngữ
BN Bổ Ngữ
DN
ĐN
Danh Ngữ
Động Ngữ
TT Tính Từ
DT Danh Từ
TN
ĐT
Trạng Từ
Động Từ
ALPAC Automatic Language Processing Advisory Committee
EBMT Example-Based Machine Translation
SMT Statistical-Based Machine Translation
CBMT Corpus-Based Machine Translation
BLEU Bilingual Evaluation Understudy
NIST National Institute of Standards and Technology
UNL Universal Networking Language
MM Maximum Matching
FMM Forward Maximum Matching
BMM Backward Maximum Matching
WFST Weighted Finit State Transducer
TBL Transformation based Learning
XML Extensible Markup Language
HTTP Hypertext Transfer Protocol
HTML HyperText Markup Language
vii
DANH MỤC CÁC BẢNG
Bảng 1.1 Bảng con chữ Phụ âm giọng O........................................................24
Bảng 1.2 Bảng chân Phụ âm giọng O.............................................................24
Bảng 1.3 Bảng con chữ Phụ âm giọng Ô.......................................................25
Bảng 1.4 Bảng chân Phụ âm giọng Ô..............................................................25
Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O ..................25
Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O..........................26
Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô..........................26
Bảng 1.8 Bảng Nguyên âm độc lập................................................................26
Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer ......................................28
Bảng 2.1 Bản tin dự báo thời tiết hằng ngày Việt – Khmer. ..........................41
Bảng 2.2 Bản tin dự báo thời tiết về bão Việt – Khmer. ................................43
Bảng 2.3 Bản tin dự báo thời tiết về lũ Việt – Khmer....................................45
Bảng 3.1 Các tháng trong tiếng Khmer...........................................................63
viii
DANH MỤC HÌNH
Hình 1.1 Giao diện dịch máy Google Translate .............................................12
Hình 1.2 Giao diện dịch máy Systran .............................................................13
Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA..........36
Hình 2.1 Mô hình kiến trúc hệ thống..............................................................54
Hình 2.2 Mô hình tổng quát xây dựng kho ngữ liệu.......................................64
Hình 2.3 Sơ đồ chuyển đổi kho ngữ liệu Word thành kho ngữ liệu XML.....66
Hình 2.4 Kho ngữ liệu VietKhmer.xls............................................................67
Hình 2.5 Kho ngữ liệu VietKhmer.xml ..........................................................67
Hình 3.1 Giao diện hệ thống dịch Việt - Khmer...........................................87
Hình 3.2 Kịch bản sử dụng hệ thống dịch......................................................88
1
MỞ ĐẦU
1. Lý do chọn đề tài.
Việt Nam là một quốc gia của 54 dân tộc cùng chung sống hòa thuận,
mỗi dân tộc điều có một nền văn hóa mang đặc sắc riêng gắn liền với truyền
thống và phong tục riêng của dân tộc đó, các nền văn hóa tương đối thống
nhất và hài hòa với nhau tạo nên sự phong phú, đa dạng trong thể thống nhất
của nền văn hóa các dân tộc Việt Nam.
Dân tộc Khmer có dân số khoảng 1382 ngàn người (năm 2009) tập trung
ở các tỉnh, thành phố thuộc Đồng bằng Sông Cửu Long và một số ở thành phố
Hồ Chí Minh và miền Đông Nam bộ[12], là dân tộc thiểu số có số dân đông
nhất trong cộng đồng dân tộc thuộc nhóm ngữ hệ Môn - Khmer ở Việt Nam.
Đa phần đời sống kinh tế của đồng bào dân tộc Khmer phụ thuộc chủ yếu vào
nông nghiệp, cuộc sống đồng bào còn gặp rất nhiều khó khăn, các biến động
của thời tiết như sương mù, sương muối, lũ lụt, mưa bão, triều cường nếu
không phát hiện sớm và có các biện pháp để phòng tránh, ứng phó kịp thời,
các biến động thời tiết này sẽ gây ảnh hưởng rất lớn đến đời sống sinh hoạt
của người dân, hoa màu, cây trồng bị phá hoại, năng suất, chất lượng sản
phẩm nông sản sẽ bị giảm làm cho cuộc sống đồng bào khó khăn nay còn khó
khăn hơn.
Chủ trương của Đảng và Nhà nước là tăng cường đẩy mạnh thực hiện
tuyên truyền sâu rộng hơn nữa về công tác văn hóa – thông tin [25], để đưa
thông tin hữu ích về khoa học kỹ thuật, dự báo thời tiết, chăm sóc sức khoẻ,
bảo tồn và phát huy các giá trị văn hoá đặc sắc của các dân tộc, tuyên truyền
đường lối, chủ trương, chính sách của Đảng và Nhà nước nhằm giúp đồng bào
nâng cao tay nghề, ứng dụng tiến bộ khoa học - kỹ thuật vào sản xuất, thích
ứng với cơ chế thị trường, giữ vững an ninh trật tự xã hội...
2
Một số địa phương đã có các ấn phẩm báo, tạp chí, sản xuất và phát sóng
các chương trình phát thanh, truyền hình dành cho đồng bào dân tộc Khmer.
Tuy nhiên, phần lớn các đài phát thanh truyền hình phát sóng bằng tiếng
Khmer chưa có chương trình thông tin về thời tiết đến với người dân. Vì vậy,
cần có chương trình thông tin dự báo thời tiết bằng tiếng Khmer, việc này sẽ
bổ sung thêm kênh thông tin, giúp thông tin về thời tiết chính xác, kịp thời
đến đồng bào. Hiện nay, để sản xuất một chương trình phát thanh, truyền hình
về dự báo thời tiết bằng tiếng Khmer cần nhiều thời gian và công sức.
Xuất phát từ thực tế trên, một giải pháp đưa thông tin dự báo thời tiết kịp
thời và chính xác đến với đồng bào là vấn đề cần thiết, giúp đồng bào có cách
ứng phó kịp thời với diễn biến phức tạp của thời tiết, để làm giảm tối đa sự
thiệt hại do thời tiết gây ra.
Từ các thực tế đó, tôi đề xuất đề tài: “Xây dựng hệ thống dịch tự
động Việt – Khmer trợ giúp dự báo thời tiết tại các đài phát thanh truyền
hình”
2. Mục tiêu của đề tài
Mục tiêu chính mà đề tài hướng đến là nghiên cứu các vấn đề về xử lý
ngôn ngữ tiếng Việt như phương pháp dịch máy, kỹ thuật tách từ tiếng Việt,
kho ngữ liệu song ngữ,..
Xây dựng kho ngữ liệu song ngữ Việt - Khmer có cấu trúc mở và dễ kế
thừa để phục vụ cho các chương trình XLNNTN Việt – Khmer khác.
Khai thác kho ngữ liệu, xây dựng hệ thống dịch tự động Việt - Khmer
trong lĩnh vực dự báo thời tiết, nhằm trợ giúp cho các ban biên tập báo, phát
thanh truyền hình trong việc biên tập các tin dự báo thời tiết bằng tiếng
Khmer được dễ dàng, chính xác và nhanh chóng hơn.
3. Đối tượng và phạm vi nghiên cứu
3
Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyết những vấn đề chính
sau:
Tìm hiểu lý thuyết
Tìm hiểu các đặc trưng, bản chất ngôn ngữ, chủ yếu ngôn ngữ viết của
tiếng Khmer trong sự so sánh qua lại với tiếng Việt.
Nghiên cứu lý thuyết và tìm hiểu các ứng dụng XLNNTN, các phương
pháp dịch máy, chủ yếu phương pháp dịch máy thống kê, xây dựng kho ngữ
liệu song ngữ
Phân tích cấu trúc câu về dự báo thời tiết
Tài liệu Việt - Khmer thu thập được từ các chuyên gia và từ Internet
Sách, giáo trình, từ điển song ngữ Việt-Khmer
Tập hợp các bản tin dự báo thời tiết Việt, Khmer của đài phát thanh,
truyền hình.
Các CSDL song ngữ Việt - Khmer thu thập được liên quan đến bài toán
dự báo thời tiết
Phân tích mẫu câu trong bản tin và đưa ra cấu trúc câu Việt - Khmer
tương ứng cho các mẫu tin.
Cập nhật kho ngữ liệu song ngữ Việt - Khmer
Thu thập dữ liệu từ các mẫu câu, trích rút từ vựng từ những bản tin dự
báo thời tiết để xây dựng kho ngữ liệu Việt - Khmer phục vụ cho hệ thống
dịch.
Xây dựng ứng dụng
Xây dựng hệ thống dịch Việt – Khmer phục vụ dịch bản tin về dự báo
thời tiết hỗ trợ cho các ban biên tập đài phát thanh, truyền hình trong việc
biên tập chương trình dự báo thời tiết bằng tiếng Khmer.
4. Phương pháp nghiên cứu
4
Thu thập dữ liệu từ các bản tin dự báo thời tiết.
Phân tích từ vựng và mẫu câu Việt - Khmer tương ứng.
Xây dựng kho ngữ liệu dễ dàng truy xuất, mở rộng, chuyển đổi các định
dạng dữ liệu.
Tìm hiểu các công cụ phù hợp để phục vụ cho công việc lập trình.
Khai thác kho ngữ liệu để xây dựng ứng dụng dịch tương tác.
Kiểm thử chương trình, nhận xét và đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn của đề tài:
Ý nghĩa khoa học: Nắm bắt được các vấn đề cơ bản trong xử lý tiếng
Việt. Đây là tiền đề, nền tảng phát triển các ứng dụng XLNNTN cho tiếng
Khmer (như dịch, từ điển, phần mềm học tập, website đa ngữ…).
Ý nghĩa thực tiễn: Trợ giúp cho công tác truyền thông của các đài phát
thanh truyền hình, nhằm thông tin dự báo thời tiết chính xác và kịp thời cho
đồng bào dân tộc Khmer, giúp đồng bào giảm tối đa những thiệt hại do thời
tiết gây ra.
6. Bố cục của luận văn
Báo cáo của luận văn được tổ chức thành 3 chương.
Chương 1. Cơ sở lý thuyết
Tìm hiểu về các bài toán dịch tự động, các vấn đề trong quá trình xây
dựng kho ngữ liệu song ngữ, tìm hiểu tiếng Khmer, phân biệt giống nhau và
khác nhau giữa hai ngôn ngữ tiếng Việt, tiếng Khmer, hiện trạng ứng dụng tin
học trong tiếng Khmer hiện nay.
Chương 2. Giải pháp xây dựng hệ thống dịch tự động Việt - Khmer
Chương này phân tích các bản tin dự báo thời tiết tiếng Việt, tiếng
Khmer, đưa giải pháp xây dựng hệ thống dịch tự động Việt - Khmer.
5
Chương 3. Triển khai thử nghiệm hệ thống dịch Việt - Khmer
Chọn môi trường công cụ xây dựng hệ thống, thu thập dữ liệu và cập
nhật kho ngữ liệu song. Xây dựng, cài đặt, thử nghiệm chương trình và đánh
giá kết quả.
6
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG
Dịch tự động hay còn gọi là dịch máy (Machine Translation) là một
nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự
kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự
động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một
hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có
sự can thiệp của con người trong quá trình dịch.
Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử
nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không
rõ ràng của ngôn ngữ. Trong tiếng Việt có các hiện tượng nhập nhằng như
nhập nhằng đồng âm (hoặc đồng tự), nhập nhằng từ loại, nhập nhằng từ đa
nghĩa. Khi dịch tự động tiếng việt, khó khăn đầu tiên là xác định ranh giới từ,
không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ mang trọn vẹn
một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn
ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất
hiện kiểu dịch từng từ rồi ghép lại với nhau. Còn về từ đa nghĩa tiếng Anh
cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp,
muốn xác định nghĩa chính xác phải thực hiện phân tích văn cảnh.
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để
tạo thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao
nhiêu công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau
như tiếng Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng
Pháp và tiếng Trung thì rất khó khăn. Để sắp xếp người ta đưa vào các cấu
trúc ngữ pháp hết sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực
tế cho thấy hiệu quả của chúng vẫn không được tốt.[16]
Một cách tiếp cận khác là dự vào tư liệu đã dịch sẵn của con người, điển
hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các
7
thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động
sau này, kiểu dịch rất gần với thao tác tìm kiếm – lĩnh vực đặc biệt mạnh của
Google.[5]
1.1.1. Lịch sử dịch máy
Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học
Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối
liên hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở
mức lý thuyết mà không có một ứng dụng thực tế nào.
Sáng chế đầu tiên cho một "chương trình dịch tự động" được thực hiện
vào khoảng giữa thập niên 1930. Vào thời điểm này Georges Artsruni đã tạo
ra một bộ từ điển song ngữ với chức năng tra từ tự động bằng các băng giấy,
tiếp theo một người Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi
tiết hơn. Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy
tắc ngữ pháp cơ bản dựa trên quốc tế ngữ (Esperanto).
Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950
mặc dù như trên trình bày trước đó một số công việc ở dạng manh nha đã
được thực hiện. Vào năm 1954, thực nghiệm Georgetown-IBM đã thực hiện
thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sang
tiếng Anh. Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ
đầu tư có giá trị cho các nghiên cứu. Các tác giả (tại thời điểm đó) tuyên bố
rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết.
Nhưng thực tế kết quả chậm hơn nhiều, báo cáo ALPAC vào năm 1966
cho thấy sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ
đáng kể và hệ quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập
niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì
người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả
năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các
nguyên nhân kỹ thuật cũng như kinh tế.
8
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có
rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay
có một số công ty xây dựng chương trình dựa trên thống kê như Language
Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến
dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ
giữ bản quyền. Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp
với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và
hình thái học vào trong các hệ thống thống kê.
Với tiếng Việt, từ năm 1960 vấn đề dịch tự động cho tiếng Việt đã bắt
đầu được nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự.
Các tài liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ,
Bernard E. Scott thành lập công ty Logos vào năm 1969 với mục đích tiếp tục
nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt.
Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa
xuân năm 1965 tại Viện công nghệ máy tính tại New York, Mỹ. Vào khoảng
tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời với từ điển tự
động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này là
Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N. Nhưng hệ thống này
không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973.
Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ thống
dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên
1970 tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được
xây dựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo
nguyên tắc hoạt động tương tự như của hệ thống Logos. Tuy nhiên, hệ dịch
máy Anh-Việt được sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN -
1997. Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và cụm từ. Từ năm
2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản hai chiều
Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).[7]
9
1.1.2. Vấn đề dịch tự động trong tiếng Việt
Mặc dù dịch tự động ở Việt Nam đã được nghiên cứu và phát triển hơn
20 năm qua, song vẫn tồn tại rất nhiều vấn đề để nghiên cứu. Các công trình
nghiên cứu hiện nay đang tập trung chủ yếu vào xử lý giữa tiếng Việt và ngôn
ngữ của các nước khác như tiếng Anh, Pháp, Nhật, Hoa,.. Tuy nhiên chưa có
sản phẩm dịch máy nào được hoàn thiện, chất lượng dịch còn nhiều hạn chế.
Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều
chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có
thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá
trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng
đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch
nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất
người". So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động
dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài
liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc,
đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa,
nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng. [2]
1.1.3. Một số phương pháp dịch máy
1.1.3.1. Dịch máy dựa trên ví dụ (EBMT: Example-based MT)
Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine
Translation) sử dụng các mẫu câu hay còn gọi là các câu ví dụ. Các câu này
được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các
liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ.
Phương pháp dịch máy dựa trên ví dụ dựa trên ngân hàng mẫu câu ví dụ,
không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi
câu dịch đều dựa vào việc “so khớp” mẫu. Câu nguồn chỉ cần so khớp từng
phần với mẫu câu ví dụ bằng các giải thuật phù hợp. Nó gần như kiểu dịch
trực tiếp bằng cách thay thế theo kiểu 1-1 mà không cần hiểu biết gì nhiều về
10
ngôn ngữ. Độ chính xác của phương pháp này phụ thuộc vào số mẫu được lưu
trong kho ngữ liệu song ngữ. Một khi kho dữ liệu càng lớn thì chi phi tìm
kiếm, xử lý thông tin để so trùng mẫu cũng rất lớn.
Như vậy, theo phương pháp này ta cần xây dựng một kho ngữ liệu song
ngữ rất lớn thì chất lượng của bản dịch sẽ được nâng cao. Trong thực tế thật
khó để chúng ta có thể lưu trữ tất cả các mẫu câu của ngôn ngữ tự nhiên mà
chúng ta có thể gặp trên cơ sở dữ liệu. Tuy nhiên, với sự phát triển của công
nghệ máy tính với bộ lưu trữ ngày càng được gia tăng về dung lượng và tốc
độ truy xuất cũng có thể cho phép chúng ta lưu trữ một kho dữ liệu khổng lồ
cho hệ dịch.
Phương pháp dịch dựa trên cơ sở ví dụ này đơn giản về mặt mô hình lý
thuyết và trong một số trường hợp (như dịch các văn bản gần giống nhau và
hay lặp đi lặp lại) thì lại cho ra kết quả cao bất ngờ.[2]
1.1.3.2. Dịch máy dựa trên thống kê (SMT: Statistical-based MT)
Dịch máy dựa trên thống kê SMT: Statistical-Based Machine
Translation) là cách tiếp cận dịch máy dựa trên thống kê để xây dựng từ điển
và các quy luật dịch một cách tự động, thay vì xây dựng các từ điển, các quy
luật dịch bằng tay như trong hệ dịch RBMT. Để thực hiện được điều này, cần
có một kho dữ liệu song ngữ rất lớn. hệ thống sẽ thống kê và đưa ra các xác
suất dịch tương ứng về từ/ngữ, cấu trúc hay xác suất chuyển dịch vị trí giữa
hai ngôn ngữ và xác suất xuất hiện các từ/ngữ trong một ngữ cảnh nhất định
nào đó.
Cách tiếp cận SMT này không đòi hỏi sự phân tích sâu về ngôn ngữ,
chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyển đổi, tạo
câu bằng cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn
luyện. Ngày nay, với sự phát triển về bộ nhớ và tốc độ tính toán đã cho phép
cách dịch ngày nay ngày càng hiệu quả. Mặt khác, tính vận động và biến đổi
của ngôn ngữ nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đổi theo.
11
Chính vì vậy cách tiếp cận này có lợi thế hơn so với cách tiếp cận dựa vào từ
vựng hay dựa vào luật ngôn ngữ, ngày nay nó là phương pháp dịch được
nghiên cứu nhiều nhất. [5]
1.1.3.3. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-based MT)
Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based Machine
Translation) đang được áp dụng vào nhiều hệ thống dịch tự động trong những
năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động
là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu.
Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ
không được rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay
dựa trên ví dụ nói trên đều dựa trên ngữ liệu. Những điểm đặc biệt của cách
tiếp cận này là dựa trên cơ sở ngôn ngữ học và dùng công nghệ máy học để
các quy luật của ngôn ngữ từ ngữ liệu. Hệ thống học dựa trên cấu trúc của
ngôn ngữ chứ không phải học trên bề mặt của ngôn ngữ như trong SMT.
Để thực hiện được điều này, máy cần có ngữ liệu rất lớn (corpus), dạng
đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các
kho ngữ liệu này. Đặc điểm của cách tiếp cận này là khả năng tự rút ra các
quy luật của ngôn ngữ. Nó có những ưu điểm của cách tiếp cận dựa trên luật
(vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng khắc phục được khuyết
điểm của việc xây dựng luật thủ công bởi các chuyên gia. Các luật được rút ra
lại được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật
(dựa trên ngữ liệu huấn luyện), chính vì vậy, các luật rút ra được đảm bảo là
chính xác, bao quát, không mâu thuẫn và không thừa.
Cách tiếp cận dựa trên ngữ liệu là cách tiếp cận tiên tiến gần đây, khi mà
kho ngữ liệu đơn ngữ hay đa ngữ dạng điện tử ngày càng có nhiều. Cách tiếp
cận này dựa trên công nghệ máy học để rút ra các quy luật ngôn ngữ một cách
tự động. Ngoài ra, với sự biến đổi của ngôn ngữ hay chuyển đổi lĩnh vực dịch,
thì cách tiếp cận này tỏ ra hiệu quả trong việc cập nhật bộ luật của nó. [6]
12
1.1.4. Một số dịch vụ dịch máy đã có
1.1.4.1. Google
Google Dịch (lúc đầu gọi là Google Thông dịch, tên tiếng Anh là
Google Translate) là một công cụ dịch trực tuyến được Google cung cấp. Nó
dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn
ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu
để dịch. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch
khác khi thấy kết quả không được tốt, hỗ trợ này có thể được sử dụng trong
các lần dịch sau.
Google Dịch dựa trên nền tảng gọi là dịch máy theo nguyên tắc dịch
máy thống kê. Người đứng đầu chương trình dịch máy của Google là Franz-
Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense
Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách
nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động
vào năm 2003.
Hình 1.1 Giao diện dịch máy Google Translate
Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử
dụng SYSTRAN, Google Dịch sử dụng phần mềm của riêng họ, chương trình
này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng
phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ
được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực
hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của
người dùng rồi trả về kết quả. Chất lượng dịch được tăng lên theo thời gian
13
khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ
cảnh ngày càng đa dạng. [7]
1.1.4.2. Systran
Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịch khá
tốt. Systran có thể sử dụng được trên môi trường Internet, máy đơn hoặc trên
các hệ thống mạng cục bộ. Phiên bản mới nhất hiện này của Systran là phiên
bản 7. Systran hỗ trợ dịch tự động nhiều thứ tiếng như Đức, Tây Ban Nha,
Thuỵ Điển, Anh, Pháp, Ý, Hàn Quốc, Nhật, Hà Lan, Ba Lan, Bồ Đào Nha,
Nga, Trung Quốc, Ả Rập và Hy Lạp. Phần mềm này có thể dùng độc lập và
có sự tích hợp với Microsoft Office để thuận lợi hơn cho quá trình sử dụng.
Tuy nhiên Systran chưa thấy hỗ trợ ngôn ngữ tiếng Việt. Các nhà khai thác
ngôn ngữ sử dụng nguồn dữ liệu Anh – Việt bắt cầu để khai thác các nguồn
dữ liệu khác từ Systran bằng các cặp song ngữ như Anh – Nhật, Anh- Pháp,...
để được nguồn dữ liệu Nhật – Anh – Việt, Pháp – Anh – Việt,... [2]
Hình 1.2 Giao diện dịch máy Systran
1.2. XỬ LÝ CÂU TIẾNG VIỆT
1.2.1. Tách câu
1.2.1.1. Xử lý đầu vào
Xóa các khoảng trắng thừa như hai hay nhiều khoảng trắng cùng một vị
trí “ ” hoặc khoảng trắng trước dấu “,” ; dấu “.”,... Thực hiện các công việc
chuẩn hóa dữ liệu nhập vào. Thay thế các ký tự tương tự.
14
1.2.1.2. Tách câu
Trong văn bản tiếng tiếng Việt hay một số ngôn ngữ khác người ta cũng
dùng các dấu như dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu
chấm câu khác để nhận biết kết thúc câu. Những dấu này thường được gọi là
dấu chấm câu. Tuy nhiên do tính nhập nhằng của các dấu báo hiệu kết thúc
câu, vẫn có những câu tiếng Việt mà các dấu hiệu kết thúc câu đó vẫn chưa
kết thúc câu, nên việc phân định ranh giới câu không đơn giản.
Ví dụ:
Dấu chấm “.”: là dấu có nhiều trường hợp mơ hồ nhất. Nó có thể biểu thị
như một dấu chấm kết thúc câu, dấu chấm thập phân trong chữ số (8,220.78),
dấu chấm trong chữ viết tắt (GS., PGS., TS., TP.,...), dấu chấm trong các
trường hợp khác như địa chỉ email, website (pisich@gmail.com,
www.udn.vn).
Dấu chấm hỏi, dấu chấm than có thể xuất hiện ở cuối câu hay trong dấu
ngoặc đơn, ngoặc kép...
Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các
mô hình học phức tạp hơn, như : mạng neural, TBL, Maximum Entropy.
Sau khi nhận đoạn văn bản đã được lọc các ký tự dư thừa, bộ phận tách
câu bắt đầu phân tích dựa trên cách chấm câu và ngữ nghĩa một số từ để tách
ra các câu riêng biệt. [2]
a. Xử lý dấu chấm
Để có thể phân biệt được các trường hợp trên, dựa vào một số đặc trưng
riêng trong cách trình bày của từng trường hợp:
Trường hợp là dấu chấm kết thúc câu thì dấu hiệu nhận biết kết thúc câu
sẽ là: Luôn luôn có ít nhất một khoảng trắng sau dấu chấm và ký tự tiếp theo
sẽ là chữ cái viết hoa.
15
Trường hợp là dấu chấm thập phân thì có thể nhận biết bằng cách đọc
toàn bộ phần liền trước và liền sau dấu chấm để phát hiện số có dấu chấm
thập phân.
Trường hợp là dấu chấm sau từ viết tắt thì có thể nhận biết bằng cách
xây dựng một danh sách các từ viết tắt để tra cứu khi cần.
Trường hợp dấu chấm trong các địa chỉ email, website thì dấu chấm luôn
nằm giữa hai ký tự nào đó mà không có khoảng trắng nằm sau, dấu chấm
trong trường hợp này không bao giờ nằm ở cuối từ nên cũng có thể dễ nhận
biết được.
Trong văn bản về dự báo thời tiết thì chủ yếu là dấu chấm là dấu kết thúc
câu, dấu thập phân trong cách chữ số là dấu chấm hoặc dấu phẩy và trường
hợp dấu chấm sau từ viết tắt.
b. Xử lý dấu chấm trong ngoặc
Khi bộ tách câu gặp dấu mở ngoặc đơn, hoặc ngoặc kép, thì nó sẽ quét
trong đoạn văn đang xét để tìm dấu đóng tương ứng. Nếu tìm thấy, toàn bộ
phần trong ngoặc sẽ được giữ nguyên và tìm dấu kết thúc câu tiếp theo ngoài
dấu ngoặc. Nếu không tìm thấy dấu đóng tương ứng, dấu mở sẽ bị bỏ qua và
xử lý tiếp ký tự sau dấu mở như bình thường.
1.2.2.Tách từ
1.2.2.1. Các vấn đề trong bài toán tách từ
a. Xử lý nhập nhằng
Nhập nhằng trong tách từ được phân thành 2 loại: Nhập nhằng chồng
(Overlapping Ambiguity) và nhập nhằng hợp (Combination Ambiguity).
Ta gọi V là tập hợp các từ Tiếng Việt (từ điển tiếng Việt). Các trường
hợp nhập nhằng trên được mô tả hình thức như sau:
Chuỗi abc được gọi là nhập nhằng chồng nếu {ab, bc}  V.
16
Ví dụ: thuộc địa & địa bàn
quan tài & tài giỏi
Chuỗi ab được gọi là nhập nhằng hợp nếu { a,b, ab}  V.
Ví dụ: “học”, “sinh” là từ đơn có nghĩa, nhưng “học sinh” cũng là một
từ ghép.
Trong thực tế, loại nhập nhằng chồng xảy ra thường xuyên hơn loại nhập
nhằng hợp, bởi vì hầu hết các tiếng của tiếng Việt đề có thể đóng vai trò là
một từ đơn độc lập. Do đó, hầu hết các từ ghép đề có thể bị nhập nhằng hợp.
Tuy nhiên, hầu như mọi trường hợp này đề được giải quyết tốt bằng giải thuật
Maximum Matching. Vì thế, mọi hệ thống nhận diện nhập nhằng hiện tại đều
chỉ chú ý đến việc giải quyết loại nhập nhằng đầu tiên là nhập nhằng chồng.
[7]
b. Nhận diện từ chưa biết
Trong văn bản không chỉ có sự tồn tại của từ thuần túy có trong từ điển,
mà còn có các đơn vị thông tin khác nữa. Do không nắm được các thông tin
này, nên việc tách từ sẽ bị ảnh hưởng.
Từ chưa biết bao gồm các từ tên riêng tiếng Việt hoặc tiếng nước ngoài
và các factoids (theo định nghĩa của wordNet thì factoids là một đối tượng
biểu diễn những thông tin đặc biệt như: ngày tháng, thời gian, phần trăm, địa
chỉ email, tiền tệ, số, độ đo, số điện thoại, địa chỉ web). [7]
1.2.2.2. Các hướng tiếp cận chính cho bài toán tách từ
a. Hướng tiếp cận dựa trên thống kê
Dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện
ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện, nhờ
vậy nên hướng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực
khác nhau.[2]
17
b. Hướng tiếp cận dựa trên từ điển
Ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản
phải được so khớp với các từ trong từ điển. Do đó trong hướng tiếp cận này
đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hướng tiếp cận “full word /
phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách được đầy đủ các từ
hoặc ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần “component”
lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các thành phần
của từ và ngữ như hình vị và các từ đơn giản.
Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì
thực hiện hoàn toàn dựa vào từ điển. Nếu như thực hiện thao tác tách từ bằng
cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ
điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu
tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó
khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các
từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh. [2]
c. Hướng tiếp cận theo Hybrid
Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng
được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm
nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng dựa trên
thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương
pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý,
không gian đĩa và đòi hỏi nhiều chi phí.[2]
1.2.2.3. Một số phương pháp tách từ tiếng việt hiện nay
a. Phương pháp khớp cực đại (MM: Maximum Matching)
Phương pháp khớp tối đa (MM - Maximum Matching) hay còn gọi là
LRMM - Left Right Maximum Matching được xem như là phương pháp tách
từ dựa trên từ điển đơn giản nhất. MM cố gắng so khớp với từ dài nhất có thể
18
có trong từ điển. Thuật toán này đạt được độ chính xác khá cao (>90%) nếu từ
điển đủ lớn. Tuy nhiên, nó không thể giải quyết vấn đề nhập nhằng và không
thể nhận diện được các từ chưa biết bởi vì chỉ những từ tồn tại trong từ điển
mới được phân đoạn đúng.[24]
Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang
phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp
lại như vậy cho đến hết câu
Giải quyết MM gồm hai giải thuật con:[9]
- FMM (Forward Maximum Matching: so khớp cực đại theo chiều tiến)
- BMM (Backward Maximum Matching: so khớp cực đại theo chiều
lùi)
Nếu chúng ta nhìn vào kết quả của FMM và BMM thì sự khác biệt này
cho chúng ta biết nơi nào nhập nhằng xảy ra.
Ngoài ra, MM là phương pháp tách từ hoàn toàn phụ thuộc vào từ điển,
từ điển phải đủ lớn, đủ chính xác và độ tin cậy phải cao thì mới cho kết quả
tách từ chấp nhận được. Đây cũng là nhược điểm rất lớn của phương pháp
này.
Ví dụ:
Một ông quan tài giỏi
Đầu ra FMM:
Một|ông|quan|tài giỏi|.
Đầu ra BMM:
Một|ông|quan tài|giỏi|.
Ưu điểm:
- Đơn giản, nhanh, chỉ cần dựa vào từ điển.
19
- Trong tiếng Việt, cách này đạt độ chính xác đến >90%.
Hạn chế:
- Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đầy đủ
và tính chính xác của từ điển.
- Phương pháp này sẽ tách từ sai trong các trường hợp: “học sinh#học
sinh#học”…
Các biến thể của thuật toán MM
Dạng đơn giản: là dùng để giải quyết nhập nhằng từ đơn. Giả sử chúng
ta có một chuỗi ký tự W1, W2,… Wn. Chúng ta sẽ áp dụng phương pháp từ
đầu chuỗi. Đầu tiên kiểm tra xem W1 có phải là từ hay không, sau đó kiểm tra
xem W1W2 có phải là từ hay không. Tiếp tục thực hiện như thế cho đến khi
tìm được từ dài nhất.
Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thông thường
người ta chọn phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng
đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở
ví dụ trên, giả sử W1 là từ và W1W2 cũng là một từ, khi đó chúng ta kiểm tra
ký tự kế tiếp trong chuỗi W1, W2, …..,Wn để tìm tất cả các đoạn ba từ có bắt
đầu với W1 hoặc W1W2.
Ví dụ : Giả sử chúng ta có được các đoạn sau :
- W1 W2 W3 W4
- W1W2 W3W4 W5
- W1W2 W3W4 W5W6
Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba. Do đó từ đầu tiên của chuỗi thứ
ba sẽ được chọn. Thực hiện các bước cho đến khi được chuỗi từ hoành chỉnh.
Nhận xét:
20
Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào
từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng
chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn
toàn vào tính đủ, tính chính xác của từ điển.[2]
b. Phương pháp giải thuật học cải tiến (Transformation – based
Learning – TBL)
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu. Theo cách
tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể
tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã
được đánh dấu ranh giới giữa các từ đúng. Rõ ràng chúng ta thấy phương
pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ
tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những
câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn toàn
chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt
thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.[2]
c. Maximum Entropy
Mô hình tách từ bằng phương pháp Maximum Entropy dựa trên ý tưởng
của mô hình gán nhãn từ loại (POS Tagger) dùng phương pháp Maximum
Entropy cho tiếng Anh của Adwait Ratnaparkhi. các tác giả của công trình đã
cài đặt thành công mô hình này cho tiếng Việt. Tuy nhiên phương pháp này
cũng có các ưu điểm và nhược điểm riêng. [7]
Ưu điểm: Đây là một hướng mới cho các phương pháp tách từ hiện nay.
Nếu kho gán nhãn đầy đủ thì các nhập nhằng có thể được khử.
Nhược điểm: Chưa có một quy luật chuẩn nào cho việc gán nhãn cho
tiếng Việt. Vẫn chưa có một công trình nào thống kê được mức độ chính của
phương pháp này.
c. Kết luận
21
Như vậy, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng,
nhưng tất cả đều cần có một kho ngữ liệu đủ lớn để kết quả tách từ đạt được
độ chính xác cao.
1.3. TÌM HIỂU TIẾNG KHMER
1.3.1. Giới thiệu dân tộc Khmer
Dân tộc Khmer là một bộ phận không thể tách rời trong cộng đồng 54 dân
tộc Việt Nam, với số dân 1.381.986 người (năm 2009), tập trung ở các tỉnh,
thành phố thuộc khu vực Đồng bằng sông Cửu Long như: Sóc Trăng (454.000
người), Trà Vinh (315.797 người), Kiên Giang (252.225 người), An Giang
(114.600 người), Bạc liêu (89.348 người), Cà Mau (51.225 người), Cần Thơ
(38.110 người), Hậu Giang (35.268 người), Vĩnh Long (31.413 người) và
một số ở Thành phố Hồ Chí Minh và miền Đông Nam Bộ.[12]
Người Khmer sống chủ yếu bằng nghề ruộng rẫy, một số ít theo ngành
nghề thủ công, buôn bán hoặc làm các nghề khác. Người Khmer có tôn giáo
chính là Phật giáo theo phái Nam tông Tiểu thừa, số người theo đạo chiếm
99,7%. Tiếng mẹ đẻ và ngôn ngữ sinh hoạt thường nhật của người Khmer là
tiếng Khmer thuộc nhóm ngôn ngữ Môn – Khmer. Ngoài ra, do sống xen kẽ
với người Kinh, người Hoa, người Khmer còn sử dụng tiếng Việt và tiếng
Hoa để giao tiếp. Có hiện tượng dùng chung từ ngữ của người Hoa, người
Kinh, người Khmer trong quá trình giao tiếp với nhau giữa ba dân tộc ở mức
độ một số từ thông dụng.
Đặc trưng chủng tộc dễ nhận biết ở người Khmer là da màu đen xám. Tỷ
lệ người tóc quăn nhiều hơn người Kinh. Trong dòng tộc Khmer có những họ
lớn như: Thạch, Sơn, Kim, Châu, Lâm… Ngoài ra, người Khmer còn lấy họ
thường từ chữ đầu vùng đất mà dòng họ mình sinh sống như: ở Kiên Giang có
họ Dương ở làng Dương Hòa, họ Trà ở làng Trà Tiên, họ Thuận ở làng Thuận
Yên, họ Lộc họ Kỳ ở làng Lộc Trĩ và Kỳ Lộ thuộc tỉnh Kiên Giang … Trong
quan hệ hôn nhân với người Kinh, người Hoa, người Khmer cũng có họ khác
22
nhau như người Kinh, người Hoa. … Nhìn chung, người Khmer hiền lành,
thật thà, rất tôn trọng đạo lý. Hầu hết thanh niên lớn lên điều vào chùa đi tu để
rèn luyện đạo đức, tri thức, nhân cách trước khi vào đời.[12]
Ngoài ra, người Khmer còn lưu giữ một số hình thức lễ hội truyền thống
như: tết Chôl Chnăm Thmây, lễ Sen Đôn Ta, lễ Óoc Om bóc…
- Tết Chôl Chnăm Thmây như tết Nguyên đán của người Kinh, diễn ra và
khoảng 13, 14, 15 tháng 4 dương lịch. Thường có 3 ngày tết nhưng năm
nhuận thì tết 4 ngày. Ngày đầu tiên của năm mới gọi là Châul Săng Kran
Thmây tức là ngày thay năm cũ vào năm mới, ngày giữa gọi là ngày Vonbât
(năm nhuần Vonbât hai ngày, năm thường thì một ngày), ngày cuối là ngày
Lơng Sak.[13]
- Lễ Sen Đôn Ta hay còn gọi là lễ Cúng ông bà là một lễ hội lớn của
đồng bào Khmer, được tổ chức vào ba ngày mỗi năm từ ngày 29-8 đến ngày
1-9 âm lịch để nhớ đến công ơn ông bà cha mẹ và dòng họ, tạ ơn những người
còn sống và cầu phước cho những người đã mất; tạo tình đoàn kết trong xóm
làng, bạn bè thân thích.[12]
- Lễ Óoc-Om-bóc (lễ đút cốm dẹp) hay còn gọi lễ cúng trăng được tổ
chức vào ngày 15-10 âm lịch là ngày kết thúc một chu kỳ của mặt trăng xoay
quanh trái đất, thời điểm chia ra hai mùa trong năm để làm ruộng: mùa mưa
từ 16-4 đến 15-10; mùa khô từ 16-10 đến 15-4 âm lịch (hai mùa được tính
theo vòng quay của mặt trăng quanh trái đất). Lễ Óoc Ombóc được tổ chức để
tưởng nhớ đến công ơn của mặt trăng, coi như vị thần điều tiết mùa màng, đã
giúp cho đồng bào Khmer làm ăn khá giả trong năm. Thức cúng đặc biệt
trong lễ này là cốm dẹp, nên người ta còn gọi là lễ đút cốm dẹp, và sôi nổi
nhất là vào dịp ngày lễ cúng trăng, đồng bào Khmer tổ chức cuộc đua ghe
Ngo rất vui tươi hào hứng.[13]
23
1.3.2. Lịch sử hình thành tiếng Khmer
Tiếng Khmer ngôn ngữ dân tộc của Campuchia theo thuật ngữ ngôn ngữ
học và dân tộc học được gọi là tiếng Khmer. Tiếng Khmer thuộc họ ngôn ngữ
Môn-Khmer bao gồm hơn 100 ngôn ngữ ở Đông Nam Á. Họ ngôn ngữ này
cùng với các ngôn ngữ Munda của Ấn Độ làm thành một hệ lớn được gọi là
ngữ hệ Austro-aisatic. Trong họ ngôn ngữ Môn-Khmer, tiếng Khmer tạo
thành một nhánh riêng gọi là nhánh Khmeric, không có các ngôn ngữ họ hàng
gần.
Khmer là một trong những ngôn ngữ đầu tiên ở Đông Nam Á cùng với
tiếng Chăm và Môn được tiếp nhận một hệ thống chữ viết dựa trên cơ sở âm
vị học, những bi ký Khmer cổ nhất có ghi niên đại (năm 553 Sara Era tức là
611 công nguyên) sử dụng một dạng của chữ viết Pallava, thời đó đang tồn tại
ở vùng Ấn độ. Pallava thuộc vào một hệ chữ viết phổ biến rộng của Ấn độ về
cơ bản xuất phát từ chữ viết trên các bi ký Ashokan (thế kỷ thứ 3 trước công
nguyên). Chữ viết Pallava dùng cho tiếng Khmer cổ được tiến hóa dần ở các
địa phương qua các thế kỷ cho đến hệ thống chữ viết Campuchia ngày nay.
Khoảng hơn 120 bi ký tiếng Khmer cổ được viết trước khi thành lập
Angkor (năm 802 công nguyên) còn được bảo quản, được dịch và in ấn. Nó là
chứng tích của một thời kỳ khác biệt của ngôn ngữ được gọi là tiếng Khmer
cổ “tiền Angkor”. Khoảng hơn 500 bi ký tiếng Khmer cổ có niên đại từ thời
Angkor (năm 802 -1431 công nguyên). Chúng ta đã tìm thấy trong thời gian
gần đây ở Campuchia và một phần của Việt Nam, Lào và Thái Lan. Giai đoạn
này được gọi là tiếng Khmer cổ “thời Angkor”.
Tiếng Khmer trung đại được thể hiện bởi những cái được gọi là những bi
ký Angkor “mới”, những văn bản văn học trên các lá buôn và bản sao chép
tay bao gồm sử thi Ramakeri (được phát âm là [reəmke:]), một bản phóng tác
tiếng Khmer của trường ca Ramayana Ấn Độ. Tiếng Khmer trung đại tiếng
24
hóa dần đến tiếng Khmer hiện đại trong thế kỷ 18 mà không có thời điểm
phân cách rõ rệt.[22]
1.3.3. Chữ viết Khmer
1.3.3.1. Bảng chữ cái trong tiếng Khmer
Bảng chữ cái tiếng Khmer gồm:
- Phụ âm: có 33 con chữ và 32 chân được chia làm 2 giọng O và giọng
Ô [1]
+ Phụ âm giọng O có 15 con chữ và 14 chân
Con chữ
Khmer
ក ខ ច ធ ដ ឋ ណ ត ថ
Phiên âm Co Kho Cho Chho Đo Tho No To Tho
Con chữ
Khmer
ប ផ ស ហ ឡ អ
Phiên âm Bo Pho So Ho Lo O
Bảng 1.1 Bảng con chữ Phụ âm giọng O
Chân phụ
âm
Khmer
្ក ្ខ ្ច ្ឆ ្ដ ្ឋ ្ណ ្ត ្ថ
Phiên âm
Châ
n
Co
Chân
Kho
Chân
Cho
Chân
Chho
Châ
n
Đo
Chân
Tho
Châ
n
No
Châ
n
To
Chân
Tho
Chân phụ
âm
Khmer
្្ប ្ផ ្្ស ្ហ ្អ
Phiên âm
Châ
n
Bo
Chân
Pho
Chân
So
Chân
Ho
Chân
O
Bảng 1.2 Bảng chân Phụ âm giọng O
+ Phụ âm giọng Ô: có 18 con chữ và 18 chân
Con chữ
Khmer
គ ឃ ង ជ ឈ ញ ឌ ឍ ទ
Phiên âm Cô Khô Ngô Chô Chhô Nhô Đô Thô Tô
Con chữ
Khmer
ធ ន ព ភ ម យ រ ល វ
25
Phiên âm Thô Nô Pô Phô Mô Dô Rô Lô Vô
Bảng 1.3 Bảng con chữ Phụ âm giọng Ô
Chân phụ
âm Khmer
្គ ្្ឃ ្ង ្ជ ្ឈ ្ញ ្ឌ ្ឍ ្ទ
Phiên âm
Chân
Cô
Chân
Khô
Chân
Ngô
Chân
Chô
Chân
Chhô
Chân
Nhô
Châ
nĐô
Chân
Thô
Châ
n Tô
Chân phụ
âm Khmer
្ធ ្ន ្ព ្ភ ្ម ្យ ្្ ្ល ្វ
Phiên âm
Chân
Thô
Chân
Nô
Chân
Pô
Chân
Phô
Chân
Mô
Chân
Dô
Châ
nRô
Chân
Lô
Châ
n Vô
Bảng 1.4 Bảng chân Phụ âm giọng Ô
+ Ngoài 33 phụ âm kể trên còn có các phụ âm bổ sung
Dùng dấu ្ (răng chuột) để trên 6 phụ âm giọng Ô để biến thành phụ âm
giọng O
Phụ âm giọng
Ô
ង ញ ម យ រ វ
Phụ âm giọng
Ô
biến thành
Phụ âm giọng
O
ង ញ ម យ រ៉ វ៉
Phiên âm phụ
âm giọng O
Ngo Nho Mo Do Ro Vo
Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O
Còn một phụ âm khi bỏ dấu្ không đổi giọng ប (Bo) thành ប (Po)
Dùng dấu ្ để trên phụ âm giọng O để biến thành phụ âm giọng Ô
Phụ âm giọng O ប ស ហ អ
Phụ âm giọng O
biến thành
Phụ âm giọng Ô
ប ស ហ អ
Phiên âm phụ âm
giọng Ô
Bô Sô Hô Ô
- Nguyên âm: có 2 loại là nguyên âm thường, nguyên âm độc lập.
+ Nguyên âm thường: là nguyên âm phải ráp với phụ âm mới có
nghĩa, gồm 24 con chữ. Nhưng khi phát âm mỗi con chữ có 2 giọng âm
26
khác nhau. Tức là khi ráp vần với phụ âm O thì đọc khác, khi ráp vần
với phụ âm giọng Ô thì đọc khác.
Nguyên âm
Khmer
្ ្ ្ ្ ្ ្ ្ ្ ើ្
Phiên âm a ế ây ấ ơ ố ô ua ờ
Nguyên âm
Khmer
ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ ្
Phiên âm ưa Ia ê e ay ao au um om
Nguyên âm
Khmer
្
Phiên âm ăm ắs ếs és ốs ós
Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O
Nguyên âm
Khmer
្ ្ ្ ្ ្ ្ ្ ្ ើ្
Phiên âm Ia Í i ứ ư ú u ua ơ
Nguyên âm
Khmer
ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ ្្ ្
Phiên âm Ưa Ia ê ê ây ô âu um um
Nguyên âm
Khmer
្
Phiên âm Oăm Iás ís ếs ús uás
Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô
+ Nguyên âm độc lập: là nguyên âm không ráp vần với phụ âm cũng
có nghĩa (vì ngay chính bản thân nó cũng có nghĩa), gồm 13 con chữ.
Nguyên
âm
Khmer
ឥ ឦ ឩ ឳ ឫ ឬ ឭ ឮ
Phiên âm ế ây ú u âu rứ rư lứ lư
Nguyên
âm
Khmer
ឯ ឰ ឱ ឳ
Phiên âm e ay ao au
Bảng 1.8 Bảng Nguyên âm độc lập
27
1.3.3.2. Số và cách đếm trong tiếng Khmer
Số tiếng Khmer Chữ viết Cách đọc Số tiếng Việt
០ សនយ Sôn 0
១ មយ Mui 1
២ ពរ Pi 2
៣ ប Bây 3
៤ បន Buôn 4
៥ ្រ Po-răm 5
៦ ្រមយ Prăm mui 6
៧ ្រពរ Prăm pi 7
៨ ្រប Prăm bây 8
៩ ្របន Prăm buôn 9
១០ ដប់ Đóp 10
១១ ដប់មយ Đóp mui 11
១២ ដប់ពរ Đóp pi 12
១៣ ដប់ប Đóp bây 13
១៤ ដប់បន Đóp buôn 14
១៥ ដប់្រ Đóp po-răm 15
១៦ ដប់្រមយ Đóp po-răm mui 16
១៧ ដប់្រងពរ Đóp po-răm pi 17
១៨ ដប់្រងប Đóp po-răm bây 18
១៩ ដប់្របន Đóp po-răm buôn 19
២០ ៃមភ Mô-phây 20
៣០ សាមសប Sam sấp 30
៤០ ែសសប Se sấp 40
៥០ ហាសប Ha sấp 50
៦០ ហកសប Hốc sấp 60
28
៧០ ចតសប Chất sấp 70
៨០ ែបតសប Pet sấp 80
៩០ ើៅសប Cau sấp 90
១០០ មយរយ Mui rôi 100
១០១ មយរយមយ Mui rôi mui 101
១,០០០ មយពន់ Mui poon 1.000
១០,០០០ មយើមន Mui mơn 10.000
១០០,០០០ មយែសន Mui sen 100.000
១,០០០,០០០ មយលាន Mui liên 1.000.000
១០,០០០,០០០ មយើោដ Mui côt 10.000.000
១,០០០,០០០,០០០ មយពន់ើោដ Mui poon liên 1.000.000.000
Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer
1.3.4. Đặc điểm ngữ âm tiếng Khmer
Trong tiếng Khmer, âm tiết là đơn vị phát âm nhỏ nhất trong chuỗi lời nói.
Âm tiết tiếng Khmer không thuần túy là đơn vị trống nghĩa, Âm tiết tiếng
Khmer không chỉ có vỏ ngữ âm mà còn có ý nghĩa cụ thể. Ví dụ: ពនយល់ (pôon
dôol) =giải thích, âm tiết thứ nhất là ពន (pôon), âm tiết thứ hai là យល់ (dôol).
Theo quan niệm truyền thống âm tiết thứ nhất được xem như không có nghĩa,
nhưng thực ra nó vẫn có nghĩa, đó là nghĩa tiềm tàng, nghĩa khu biệt. Khi nó
kết hợp với âm tiết thứ hai để tạo thành tổ hợp ពនយល់ (pôon dôol) thì nghĩa của
nó đã được thể hiện.
Trong tiếng Khmer một từ đơn có thể có hai hình thức ngữ âm thể hiện nó:
từ đơn đơn tiết và từ đơn song tiết. Một từ đơn song tiết gồm hai âm tiết: âm
tiết mạnh (main-syllable) có người còn gọi đó là âm tiết chính, âm tiết tỏ, …
và âm tiết yếu (pre-syllable) có người còn gọi là tiền âm tiết, âm tiết phụ, âm
tiết mờ, ...
29
Âm tiết mạnh tiếng Khmer là âm tiết mang trọng âm có khả năng đứng
một mình để cấu tạo từ, có thể tồn tại độc lập với chức năng làm hình thức
ngữ âm của từ.
Âm tiết yếu là âm tiết không mang trọng âm, luôn đi kèm với âm tiết mạnh
(không có khả năng đứng một mình để cấu tạo từ), bản thân âm tiết yếu không
mang nghĩa. Trong nhiều trường hợp phát âm, sự vắng mặt của âm tiết yếu
không làm thay đổi nghĩa của từ. Đó là xu hướng giản lượt hóa âm tiết - một
xu hướng phổ biến và tích cực trong phát âm hiện nay.
Về cấu tạo âm tiết:
+ Âm tiết đơn:
Âm tiết đơn trong tiếng Khmer cũng gồm có hai loại: âm tiết đơn mở và
âm tiết đơn khép. Về cấu tạo của âm tiết đơn là âm đầu cộng vần mở; cấu tạo
âm tiết khép là âm đầu cộng vần. Xét cấu tạo âm vị phụ âm và nguyên âm
trong âm tiết đơn chúng ta có mô hình âm tiết như sau:
Cấu tạo âm tiết mở = CV hoặc CCV (trong đó, C là phụ âm, V là nguyên
âm). Ví dụ: តា (ta) = ông, ែកក (chke) = con chó, ផារ (phxa) = chợ, ខល (khlây) =
ngắn, ផ្កក (phka) = hoa, ែខស (khxe) = dây.
Cấu tạo âm tiết khép = CVC. Ví dụ: ើកណឌ (ken) = tập hợp, ងក់ (ngook)=ngủ
gật, ខយង (khjoong) = con ốc, ើោល (chool) = bỏ, ដង (đooong) = múc, ណាយ (nai) =
chán, តម (tom) = kiêng, …
+ Âm tiết ghép:
Âm tiết ghép của tiếng Khmer được cấu tạo bởi âm tiết đơn mang trọng
âm cộng với một CV hoặc VC không mang trọng âm trước đó mà chỉ có thể
30
là phụ âm đơn, và V luôn là nguyên âm trung hòa /Ơ/. Mô hình âm tiết khép
có các dạng như sau: COWCV, ƠCCƠV hoặc COWCVC. [14]
Ví dụ:
Âm tiết ghép mở: រងារ (rơnghia) = lạnh, ្កប (krơbây) = con trâu, ទទល
(towtuôl) = đón,…
Âm tiết ghép khép: ្បសប់ (prơxop) = rành), ្បោន់ (prơkăn) = chấp, ្បើៅ
(prơđau) = dạy, ្តជាក់ (trơchat) = lạnh, សមបក (xơmbok) = vỏ, …
1.3.5. Đặc điểm từ vựng tiếng Khmer
Trong tiếng Khmer, một số từ được thành lập được một âm tiết, một số từ
được thành lập do sự lưỡng vần. Thông thường, từ được thành lập được bởi
hai âm tiết. Âm tiết thứ nhất với âm tiết sau tạo thành từ có nghĩa và khi tách
hai âm tiết này ra, thì từng âm tiết sẽ không mang nghĩa.
Từ tiếng Khmer cũng được tạo thành theo phương thức ghép và phương
thức láy. Các từ ghép được tạo thành nhờ sự kết hợp giữa các từ với nhau
hoặc bằng cách láy toàn bộ hay bộ phận hình vị gốc.
Phần lớn tiếng Khmer là từ đơn âm tiết hoặc sesquisyllabic (từ có một âm
tiết yếu và có một âm tiết mạnh) mặc dù các từ vay mượn Sanskrit và Paly có
thể có nhiều âm tiết. Cấu trúc sesquisyllabic gồm một tiền âm tiết không có
trọng âm với nguyên âm bị nhượt hóa là âm tiết yếu hay âm tiết phụ; âm tiết
này đi trước một âm tiết chính có trọng âm và có nguyên âm đầy đủ. Vì hình
thái tiếng Khmer còn có tiền tố và trung tố, không tồn tại hậu tố, trừ các từ
ngữ có nguồn gốc Indic, âm tiết chính là bộ phận bền vững nhất của từ. Âm
tiết yếu có thể chứa đựng những hình vị đã hóa thạch với những chức năng
không rõ ràng, và thường nhược hóa trong lời nói nhanh, vì thế nó thường
không bền vững.
31
Từ tiếng Khmer thường có nhiều tổ hợp phụ âm đầu từ, không có tổ hợp
phụ âm ở cuối từ. Âm tiết chính ở cuối từ được kết thúc hoặc bằng nguyên âm
hoặc bằng phụ âm đơn.[14]
1.3.6. Đặc điểm ngữ pháp tiếng Khmer
Từ tiếng Khmer không biến đổi hình thái. Từ tiếng Khmer luôn có hình
thức ổn định khi đảm nhiệm các chức năng ngữ pháp, quan hệ ngữ pháp khác
nhau hay phục thuộc các từ loại khác nhau.
Vì từ tiếng Khmer không biến đổi hình thái nên chức năng ngữ pháp và
quan hệ ngữ pháp của từ không được biểu hiện trong bản thân cảu từ. Phương
thức ngữ pháp chủ yếu của tiếng Khmer là phương thức trật tự từ và phương
thức hư từ. Ngoài ra ngữ pháp tiếng Khmer cũng sử dụng ngữ điệu như một
phương thức ngữ pháp.[19]
Trật tự từ cơ sở của tiếng Khmer là S – V – O (Subject Verb Object).
Trong ngữ danh ngữ (danh ngữ), danh từ chính đi trước, và từ phụ đi sau (kể
cả số từ), những yếu tố phụ khác như tính từ, từ sở hữu và những mệnh đề
quan hệ thường đứng giữa. Ngoại lệ duy nhất là số từ thường đi trước danh từ.
Một cấu trúc khác: danh từ + số từ + loại từ chỉ lượng, theo trật tự thường
gặp của ngữ danh từ, nhưng việc sử dụng cấu trúc này không bao giờ bị bắt
buộc, và loại từ chỉ lượng không đóng vai trò quan trọng trong tiếng Khmer
như trong các ngôn ngữ Đông Nam Á khác.[22]
1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER
1.4.1. Những đặc điểm tương đồng
Tiếng Việt và tiếng Khmer, về nguồn gốc, có quan hệ họ hàng như đã
trình bày ở trên. Vì thế, hai ngôn ngữ tất nhiên có những điểm giống nhau
nhất định trên cả ba bình diện ngôn ngữ của chúng.
Thứ nhất, hệ thống âm vị của hai ngôn ngữ có nhiều âm vị tương ứng nhau.
Cụ thể như:
32
Về phụ âm đầu: / k, χ, ŋ, c, ɲ, đ, th
, n, b, f, m, d, ʐ, l, S, h/.
Về âm cuối: gồm một số phụ âm và hai bán âm
+ Các phụ âm cuối, cả tiếng Việt và tiếng Khmer cùng có các âm vị âm
cuối là các phụ âm: /c, ŋ, c, ɲ, n, t, m/.
+ Bán nguyên âm / -w/, / -j/
Thứ hai, tiếng Việt và tiếng Khmer điều thuộc điều thuộc loại hình
ngôn ngữ đơn lập, không biến đổi hình thái. Từ luôn ổn định về mặt hình
thức.
Thứ ba, cũng như âm tiết tiếng Việt, âm tiết tiếng Khmer không thuần
túy là đơn vị trống nghĩa. Đa số các từ trong tiếng Việt và tiếng Khmer được
cấu tạo từ một âm tiết, tức đa số từ tiếng Việt và tiếng Khmer là từ đơn tiết và
cũng có từ đa tiết. Các từ được tạo ra chủ yếu nhờ phương thức ghép và
phương thức láy.
Thứ tư, về mặt ngữ pháp, cả hai ngôn ngữ điều có trật tự ngữ pháp cơ
sở là S-V-O (Subject Verb Object), với phương thức ngữ pháp chủ yếu là
phương thức trật tự từ và phương thức hư từ.[14]
1.4.2. Những nét dị biệt
Bên cạnh những nét tương đồng, hai ngôn ngữ có những nét khác biệt,
những nét riêng, chỉ có ngôn ngữ này mà không có trong ngôn ngữ kia, và
ngược lại.
Thứ nhất, hệ thống âm vị phụ âm của tiếng Khmer còn có điểm khác
với tiếng Việt ở chỗ, trong tiếng Việt, tất cả các phụ âm điều được phát âm
theo vần /ơ/, còn trong tiếng Khmer, một số phụ âm được phát âm với vần /o/,
một số âm được phát âm với vần /ô/. Sự khác nhau giữa phụ âm mang vần /o/
và phu âm mang vần /ô/ thể hiện trong sự tạo âm khi kết hợp với nguyên âm
để tạo tiếng.
33
Thứ hai, tiếng Khmer có một số âm cuối mà tiếng Việt không có như:
/d, ʐ, w, χ/. Tiếng Khmer không có âm cuối /p/ mà chỉ có âm cuối /f/.
Thứ ba, trong khi tiếng Việt thể hiển rõ đặc điểm loại hình là tính phân
tiết tính, mỗi âm tiết là đơn vị phát âm tự nhiên nhỏ nhất, có cấu tạo và phân
giới rạch ròi với các âm tiết trước và sau nó. Tiếng Khmer chưa phải là một
ngôn ngữ đơn âm tiết triệt để là là một ngôn ngữ cận âm tiết tính. Bởi lẽ trong
tiếng Khmer vẫn còn hiện tượng giữa các âm tiết chưa có sự phân ranh giới rõ
ràng. Đó là trường hợp các âm tiết ghép của tiếng Khmer. Các âm tiết ghép
này được cấu tạo bởi âm tiết đơn mang trọng âm, cộng với một CV hay VC
(trong đó, C là phụ âm, V là nguyên âm) không mang trọng âm phía trước.
Thứ tư, tiếng Việt có thanh điệu với 6 thanh, còn tiếng Khmer là một
ngôn ngữ không có thanh điệu, và âm tiết tiếng Khmer còn hiện tượng có tổ
hợp các phụ âm đầu.
Thứ năm, trong cấu tạo của âm tiết tiếng Việt, nguyên âm là thành tố
chính tạo nên âm tiết, nghĩa là, âm tiết nhất thiết phải có nguyên âm, thậm chí
một mình âm tiết chính nguyên âm cũng có thể làm thành âm tiết. Các mô
hình cấu tạo âm tiết tiếng Việt có thể: CVVC, CVC, CV, VC, V (trong đó, C
là phụ âm, V là nguyên âm – có thể là nguyên âm đơn hoặc nguyên âm đôi).
Còn trong tiếng Khmer âm tiết có thể được tạo nên chỉ có các phụ âm mà
không nhất thiết phải có nguyên âm. Như vậy, đảm nhiệm âm chính trong
tiếng Khmer không chỉ là các nguyên âm mà còn là các phụ âm.
Thứ sáu, trên phương diện ngữ pháp tiếng Việt và tiếng Khmer về cơ
bản là giống nhau, từ từ loại đến cấu trúc ngữ pháp. Tuy nhiên cần lưu ý các
đặc điểm khác biệt sau:
Cấu tạo cụm danh từ trong tiếng Việt gồm thành tố chính, ba thành tố
phụ trước và hai thành tố phụ sau. Cụ thể: Đại từ chỉ tổng lượng + Định từ +
Định từ “cái” + Danh từ + Định ngữ miêu tả + Định ngữ chỉ xuất
Ví dụ: Tất cả những cái tên đẹp đẽ ấy
34
Như vậy trong cấu tạo cụm danh từ tiếng Việt, ta thấy phụ từ chỉ số
lượng đứng trước danh từ làm thành tố chính.
Cụm danh từ tiếng Khmer có cấu tạo: danh từ chính đi trước, và từ phụ
đi sau (kể cả số từ), những yếu tộ phụ khách như tính từ, từ sở hữu và những
mệnh đề quan hệ thường đứng giữa, Một cấu trúc khác: Danh từ + Định từ +
Đại từ chỉ số lượng, theo trật tự thường gặp của ngữ danh từ.[14]
Vídụ:
1.4.3. Khả năng xây dựng một hệ thống dịch tự động
Dựa vào phân tích những đặc điểm tương đồng và những nét dị biệt
giữa hai ngôn ngữ tiếng Việt và tiếng Khmer, ta thấy tiếng Việt và tiếng
Khmer có nguồn gốc quan hệ họ hàng với nhau, cả hai điều thuộc điều thuộc
loại hình ngôn ngữ đơn lập, không biến đổi hình thái, từ luôn ổn định về mặt
hình thức, đa số từ là từ đơn tiết và cũng có từ đa tiết, các từ được tạo ra chủ
yếu nhờ phương thức ghép và phương thức láy, về mặt ngữ pháp, cả hai ngôn
ngữ điều có trật tự ngữ pháp cơ sở là S-V-O (Subject Verb Object).
Về nét dị biệt giữa hai ngôn ngữ chủ yếu về âm vị, thanh điệu các khác
biệt khác không lớn. Từ những đặc điểm trên, việc xây dựng hệ dịch tự động
giữa hai ngôn ngữ tiếng Việt – tiếng Khmer hoàn toàn thực hiện được.
1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY
1.5.1. Hiện trạng
Tiếng Khmer được đưa vào giảng dạy tại các trường tiểu học, trường
Trung học cơ sở và dạy trường Trung học phổ thông tại các trường dân tộc
Tiếng Việt Tiếng Khmer
Tất cả ba con bò bò ba tất cả
35
nội trú nhằm giúp học sinh dân tộc Khmer hình thành và phát triển các kỹ
năng giao tiếp bằng tiếng mẹ đẻ. Hiện nay, tại các tỉnh có đông đồng bào dân
tộc Khmer sinh sống đã có các chương trình phát thanh, truyền hình, báo, các
ấn phẩm bằng tiếng Khmer, tin học đã được đưa vào ứng dụng trong việc
biên soạn sách giáo khoa, tài liệu, biên soạn các ấn phẩm báo chí, sản xuất các
chương trình phát thanh truyền hình phục vụ cho đồng bào dân tộc Khmer.
1.5.2. Một số kết quả hiện có
Đã có một số kết quả ứng dụng tin học vào phục vụ đời sống đồng bào
Khmer
- Font tiếng Khmer, có nhiều loại font Unicode hỗ trợ tiếng Khmer
như: Khmer OS, Khmer Limon, NiDA, Zero-Space, itCity, … những bộ font
này không được tích hợp sẵn trong hệ điều hành Windows, khi muốn sử dụng
phải cài đặt. Nếu không muốn cài đặt các bộ font này người dùng có thể sử
dụng font “DaunPenh” là font Unicode hỗ trợ tiếng Khmer do Microsoft đã
cài đặt sẵn trong hệ điều hành: Windows Vista, Windows 7, Windows 8,
Windows Server 2008. Có rất nhiều bộ gõ hỗ trợ font Unicode như: Khmer
Unicode của NiDA, Khmer Limon, Khmer Unicode của Microsoft,… mỗi bộ
gõ điều có cách gõ khác nhau, không thống nhất với nhau, tùy theo thói quen
mà người sử dụng chọn bộ gõ phù hợp.
36
Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA
- Website tiếng Khmer, hiện nay đã có các website hỗ trợ tiếng Khmer
nhằm đưa thông tin tới đồng bào:
website báo cần thơ (http://www.baocantho.com.vn/khmer/), website cổng
thông tin điện tử Trà Vinh (http://www.travinh.gov.vn/wps/portal/khmer),
website trường Đại học Trà Vinh (http://kh.tvu.edu.vn/).
1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer
Hiện nay, nhu cầu việc xử lý ngôn ngữ tiếng Khmer là rất lớn. Việc xử
lý ngôn ngữ sẽ giúp xây dựng được nhiều ứng dụng phục vụ mục đích học
tập, nghiên cứu và bảo tồn chữ viết Khmer như từ điển đa ngữ, các giáo trình
điện tử hỗ trợ dạy học tiếng Khmer, các chương trình dịch tự động Việt -
Khmer phục vụ cho các đài phát thanh, truyền hình nhằm giúp đồng bào có
nhiều thông tin hữu ích, nhận thức đầy đủ hơn các chủ trương của Đảng,
chính sách của Nhà nước.
37
1.6. NGỮ LIỆU SONG NGỮ
1.6.1. Khái niệm
Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus”, có
nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt, ĐH
Ngoại ngữ, NXB GD-2000 trang 368). “Ngữ liệu” ở đây có thể xem là những
“dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn
ngữ. Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ
và ngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ.
Ngữ liệu song ngữ là ngữ liệu tồn tại dưới 2 ngôn ngữ và chúng là bản
dịch của nhau.[2]
1.6.2. Vấn đề thu thập dữ liệu song ngữ
Trong các nghiên cứu về dịch máy, ngữ liệu song ngữ là một thành phần
thiết yếu quan trọng không thể thiếu. Chất lượng của ngữ liệu song ngữ đóng
vai trò quyết định đến chất lượng đầu ra của hệ dịch. Hệ dịch sẽ không thể
cho kết quả tốt nếu ngữ liệu song ngữ sử dụng trong quá trình huấn luyện có
chất lượng không tốt cho dù được áp dụng các phương pháp học máy tiên tiến
nhất.
Ngữ liệu song ngữ có thể được thu thập từ nhiều nguồn bao gồm. Tổng
quát, có thể chia các nguồn này thành hai loại, nguồn ngữ liệu ở dạng giấy
viết và nguồn ngữ liệu dạng điện tử.
Ngữ liệu song ngữ ở dạng giấy viết có thể được tìm thấy dễ dàng trong
các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song
ngữ. Việc tìm kiếm loại ngữ liệu này đơn giản, tuy nhiên quá trình nhập liệu
vào máy tính tốn nhiều thời gian và công sức.
Với phát triển bùng nổ của công nghệ thông tin và Internet, các ngữ liệu
song ngữ dưới dạng điện tử hiện đang tồn tại khá phong phú ở nhiều dạng.
Một nguồn ngữ liệu thường được khai thác để xây dựng ngữ liệu song ngữ là
38
các trang web song ngữ. Với sự phát triển bùng nổ của Internet, số lượng các
trang web song ngữ ngày càng lớn và việc sử dụng kĩ thuật web-mining để
trích rút các ngữ liệu song ngữ từ các trang web song ngữ đã được khá nhiều
nhóm nghiên cứu trên thế giới quan tâm. [19]
1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ
Hiện nay có rất nhiều công cụ cho phép lưu trữ và khai thác dữ liệu để
xây dựng các kho dữ liệu song ngữ như XML, HTML, các hệ quản trị như
MS Access, SQL Server, MS Word, Oracle,... Theo khuyến cáo của các nhà
tin học và các công ty phần mềm hàng đầu hiện nay thì XML được xem là
một chuẩn rất tốt dành cho các dữ liệu đa ngữ. Đặc điểm của XML là có cấu
trúc mềm dẻo, dễ sử dụng và khai thác được trên nhiều hệ thống máy tính
khác nhau (nó được lưu trữ dưới dạng tập tin dữ liệu dạng text), dung lượng
nhỏ và dễ chuyển đổi sang các dạng thức khác.[2]
Vì vậy, XML rất phù hợp để xây dựng kho ngữ vựng Việt – Khmer phục
vụ cho hệ thống dịch của đề tài.
1.6.4. Một số dữ liệu song ngữ Việt – Khmer
Kho dữ liệu song ngữ hay đa ngữ thường được sử dụng với nhiều mục
đích khác nhau như: từ điển, dịch tự động, tìm kiếm thông tin xuyên ngôn
ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ,...
Hiện nay, việc nghiên cứu trên thế giới đã được thực hiện với các cặp
ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa,..
Về tiếng Việt, các kho dữ liệu cũng được xây dựng với đa số ngôn ngữ
của các nước khác như Việt – Anh, Việt – Pháp, Việt – Hoa, hay Việt – Anh –
Pháp, Nhật – Anh – Việt, Hàn – Anh – Việt…
Vấn đề số hóa cho tiếng dân tộc thiểu số ở Việt Nam đang chỉ mới bắt
đầu trong những năm gần đây, số lượng các công trình cũng rất ít. Đa số các
bộ từ điển được nghiên cứu và thực hiện biên soạn trên từ điển giấy.
39
Hiện nay, có từ điển song ngữ tiếng Khmer được biên soạn chủ yếu là từ
điển giấy, như quyển từ vựng Việt – Khmer khoảng 16.000 từ và quyển
Khmer – Việt khoảng 15.000 từ của tác giả Ngô Chân Lý do nhà xuất bản
Thông Tấn xuất bản, về từ điện điện tử có từ điển trực tuyến đa ngôn ngữ tại
địa chỉ (http://vi.glosbe.com) hiện tại từ điển có khoảng 3.697 từ, chưa có từ
điển điện tử khác được công nhận, nếu có chỉ là một số một số nghiên cứu
thuộc về các luận văn kỹ sư, thạc sĩ mang tính nghiên cứu, chưa được nghiệm
thu và công nhận áp dụng thực tế.

More Related Content

What's hot

Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISC
Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISCLuận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISC
Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISCLe Duy
 
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...https://www.facebook.com/garmentspace
 
Huong dan do an chi tiet may sao đỏ
Huong dan do an chi tiet may sao đỏHuong dan do an chi tiet may sao đỏ
Huong dan do an chi tiet may sao đỏMạc Văn Giang
 
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...Man_Ebook
 
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...Man_Ebook
 
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​Man_Ebook
 
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"Thuyết minh hiếu "đồ án công nghệ chế tạo máy"
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"Hiếu Ckm Spkt
 
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...Man_Ebook
 
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...https://www.facebook.com/garmentspace
 
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...Man_Ebook
 
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức ThắngĐồ án Xây Dựng
 
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...Man_Ebook
 
Robot tu hanh 4 banh da huong
Robot tu hanh 4 banh da huongRobot tu hanh 4 banh da huong
Robot tu hanh 4 banh da huongLhthang Ktv
 
Bài thuyết minh hoàn chỉnh môn thiết kế ngược
Bài thuyết minh hoàn chỉnh môn thiết kế ngượcBài thuyết minh hoàn chỉnh môn thiết kế ngược
Bài thuyết minh hoàn chỉnh môn thiết kế ngượcAN VIỆT SEO
 
bài giảng lập trình hướng đối tượng
bài giảng lập trình hướng đối tượngbài giảng lập trình hướng đối tượng
bài giảng lập trình hướng đối tượngMountain Nguyen
 
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162nataliej4
 

What's hot (19)

Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISC
Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISCLuận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISC
Luận Văn Tính Toán Dầm Thép Tiết Diện Dạng Chữ I Chịu Xoắn Theo AISC
 
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...
La42.018 nghiên cứu thành phần, tính chất cơ học bê tông cường độ siêu cao và...
 
Huong dan do an chi tiet may sao đỏ
Huong dan do an chi tiet may sao đỏHuong dan do an chi tiet may sao đỏ
Huong dan do an chi tiet may sao đỏ
 
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...
Thiết kế mạch đo nhiệt độ sử dụng board arduino, hiển thị trên 4 led 7 thanh ...
 
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...
Nghiên cứu, xây dựng và tích hợp hệ thống nâng và hút chân không trong dây ch...
 
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​
Nghiên cứu điều chỉnh khoảng giãn cách sản phẩm trong các băng chuyền​
 
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"Thuyết minh hiếu "đồ án công nghệ chế tạo máy"
Thuyết minh hiếu "đồ án công nghệ chế tạo máy"
 
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...
Nghiên cứu, thiết kế, chế tạo mobile robot tự hành tích hợp một số công nghệ ...
 
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...
Luận án tiến sĩ phân tích thủy động lực học và thiết kế hệ thống điều khiển t...
 
Yếu tố tác động đến các hộ nuôi tôm khi mua sản phẩm Combax-L
Yếu tố tác động đến các hộ nuôi tôm khi mua sản phẩm Combax-LYếu tố tác động đến các hộ nuôi tôm khi mua sản phẩm Combax-L
Yếu tố tác động đến các hộ nuôi tôm khi mua sản phẩm Combax-L
 
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...
Pháp luật quốc tế trong hợp tác đấu tranh, phòng chống tội phạm công nghệ cao...
 
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng
1 tầng trệt, 17 tầng lầu, 1 sân thượng, 1 tầng mái. Đại học Tôn Đức Thắng
 
Luận văn: Kết hợp mô hình khí hậu toàn cầu CAM và khu vực RegCM
Luận văn: Kết hợp mô hình khí hậu toàn cầu CAM và khu vực RegCMLuận văn: Kết hợp mô hình khí hậu toàn cầu CAM và khu vực RegCM
Luận văn: Kết hợp mô hình khí hậu toàn cầu CAM và khu vực RegCM
 
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...
Xây dựng giải thuật thích nghi điều khiển tối ưu máy phát điện đồng bộ trên c...
 
Tin hoc ung dung
Tin hoc ung dungTin hoc ung dung
Tin hoc ung dung
 
Robot tu hanh 4 banh da huong
Robot tu hanh 4 banh da huongRobot tu hanh 4 banh da huong
Robot tu hanh 4 banh da huong
 
Bài thuyết minh hoàn chỉnh môn thiết kế ngược
Bài thuyết minh hoàn chỉnh môn thiết kế ngượcBài thuyết minh hoàn chỉnh môn thiết kế ngược
Bài thuyết minh hoàn chỉnh môn thiết kế ngược
 
bài giảng lập trình hướng đối tượng
bài giảng lập trình hướng đối tượngbài giảng lập trình hướng đối tượng
bài giảng lập trình hướng đối tượng
 
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162
Nghiên cứu công nghệ sản xuất chè xanh chất lượng cao 7540162
 

Similar to Luận văn: Xây dựng hệ thống dịch tự động giúp dự báo thời tiết, HAY

Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdf
Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdfNghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdf
Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdfMan_Ebook
 
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdf
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdfCá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdf
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdfHanaTiti
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHanaTiti
 
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...Man_Ebook
 
Phan tich-thiet-ke-he-thong-tin
Phan tich-thiet-ke-he-thong-tinPhan tich-thiet-ke-he-thong-tin
Phan tich-thiet-ke-he-thong-tinxxxabcyyy
 
2516102 phan-tich-thiet-ke-he-thong-thong-tin
2516102 phan-tich-thiet-ke-he-thong-thong-tin2516102 phan-tich-thiet-ke-he-thong-thong-tin
2516102 phan-tich-thiet-ke-he-thong-thong-tinTruong Tuyen
 
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...Man_Ebook
 
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...Viết Thuê Luận Văn Luanvanpanda.com
 
Kiểm chứng dịch vụ Web với logic thời gian.pdf
Kiểm chứng dịch vụ Web với logic thời gian.pdfKiểm chứng dịch vụ Web với logic thời gian.pdf
Kiểm chứng dịch vụ Web với logic thời gian.pdfNuioKila
 
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...Viết Thuê Luận Văn Luanvanpanda.com
 
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Ltnc giao trinh 2017
Ltnc giao trinh 2017Ltnc giao trinh 2017
Ltnc giao trinh 2017TaiTranQuang
 

Similar to Luận văn: Xây dựng hệ thống dịch tự động giúp dự báo thời tiết, HAY (20)

Luận án: Nghiên cứu hệ thống thông tin chuyển tiếp sử dụng đa truy nhập không...
Luận án: Nghiên cứu hệ thống thông tin chuyển tiếp sử dụng đa truy nhập không...Luận án: Nghiên cứu hệ thống thông tin chuyển tiếp sử dụng đa truy nhập không...
Luận án: Nghiên cứu hệ thống thông tin chuyển tiếp sử dụng đa truy nhập không...
 
Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdf
Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdfNghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdf
Nghiên cứu mạng nơ ron nhân tạo và ứng dụng vào dự báo lạm phát.pdf
 
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOTĐề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
Đề tài: Mô hình hóa và khảo sát sai số của robot công nghiệp, HOT
 
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdf
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdfCá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdf
Cá nhân hóa ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng.pdf
 
Ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng, HAY
Ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng, HAYỨng dụng và dịch vụ di động hướng ngữ cảnh người dùng, HAY
Ứng dụng và dịch vụ di động hướng ngữ cảnh người dùng, HAY
 
Luận án: Phát triển một số phương pháp xây dựng hệ tư vấn
Luận án: Phát triển một số phương pháp xây dựng hệ tư vấnLuận án: Phát triển một số phương pháp xây dựng hệ tư vấn
Luận án: Phát triển một số phương pháp xây dựng hệ tư vấn
 
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdfHệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
Hệ thống xử lý tín hiệu điện não tự động phát hiện gai động kinh.pdf
 
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...
Nghiên cứu thiết kế bộ quan sát và điều khiển nhiệt độ trong phôi theo mô hìn...
 
Phan tich-thiet-ke-he-thong-tin
Phan tich-thiet-ke-he-thong-tinPhan tich-thiet-ke-he-thong-tin
Phan tich-thiet-ke-he-thong-tin
 
2516102 phan-tich-thiet-ke-he-thong-thong-tin
2516102 phan-tich-thiet-ke-he-thong-thong-tin2516102 phan-tich-thiet-ke-he-thong-thong-tin
2516102 phan-tich-thiet-ke-he-thong-thong-tin
 
Pttkhttt
PttkhtttPttkhttt
Pttkhttt
 
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...
Sử dụng kỹ thuật điều khiển dự báo để cải thiện chất lượng bộ điều khiển pid ...
 
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...
Các Nhân Tố Tác Động Đến Sự Vận Dụng Hệ Thống Kế Toán Chi Phí Dựa Trên Cơ Sở ...
 
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
Các Mô Hình Học Sâu Tiên Tiến Và Ứng Dụng Trong Phân Tích Chuỗi Thời Gian Lâm...
 
Luận văn: Thiết kế tối ưu cửa van cung bằng phần mềm SAP2000
Luận văn: Thiết kế tối ưu cửa van cung bằng phần mềm SAP2000Luận văn: Thiết kế tối ưu cửa van cung bằng phần mềm SAP2000
Luận văn: Thiết kế tối ưu cửa van cung bằng phần mềm SAP2000
 
Kiểm chứng dịch vụ Web với logic thời gian.pdf
Kiểm chứng dịch vụ Web với logic thời gian.pdfKiểm chứng dịch vụ Web với logic thời gian.pdf
Kiểm chứng dịch vụ Web với logic thời gian.pdf
 
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Ý Định Mua Thiết Bị Gia Dụng Tiết Kiệm Năng...
 
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...
Luận văn: Đề xuất một số giải pháp xây dựng các hoạt động kiểm soát trong môi...
 
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...
Luận án: Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu ...
 
Ltnc giao trinh 2017
Ltnc giao trinh 2017Ltnc giao trinh 2017
Ltnc giao trinh 2017
 

More from Dịch vụ viết bài trọn gói ZALO 0917193864

Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏi
Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏiDanh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏi
Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏiDịch vụ viết bài trọn gói ZALO 0917193864
 

More from Dịch vụ viết bài trọn gói ZALO 0917193864 (20)

200 de tai khoa luạn tot nghiep nganh tam ly hoc
200 de tai khoa luạn tot nghiep nganh tam ly hoc200 de tai khoa luạn tot nghiep nganh tam ly hoc
200 de tai khoa luạn tot nghiep nganh tam ly hoc
 
Danh sách 200 đề tài luận văn tốt nghiệp ngành khách sạn,10 điểm
Danh sách 200 đề tài luận văn tốt nghiệp ngành khách sạn,10 điểmDanh sách 200 đề tài luận văn tốt nghiệp ngành khách sạn,10 điểm
Danh sách 200 đề tài luận văn tốt nghiệp ngành khách sạn,10 điểm
 
Danh sách 200 đề tài luận văn thạc sĩ ngân hàng, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ ngân hàng, hay nhấtDanh sách 200 đề tài luận văn thạc sĩ ngân hàng, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ ngân hàng, hay nhất
 
Danh sách 200 đề tài luận văn thạc sĩ ngữ văn, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ ngữ văn, hay nhấtDanh sách 200 đề tài luận văn thạc sĩ ngữ văn, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ ngữ văn, hay nhất
 
Danh sách 200 đề tài luận văn thạc sĩ ô tô, 10 điểm
Danh sách 200 đề tài luận văn thạc sĩ ô tô, 10 điểmDanh sách 200 đề tài luận văn thạc sĩ ô tô, 10 điểm
Danh sách 200 đề tài luận văn thạc sĩ ô tô, 10 điểm
 
Danh sách 200 đề tài luận văn thạc sĩ quản lý giáo dục mầm non, mới nhất
Danh sách 200 đề tài luận văn thạc sĩ quản lý giáo dục mầm non, mới nhấtDanh sách 200 đề tài luận văn thạc sĩ quản lý giáo dục mầm non, mới nhất
Danh sách 200 đề tài luận văn thạc sĩ quản lý giáo dục mầm non, mới nhất
 
Danh sách 200 đề tài luận văn thạc sĩ quản trị rủi ro, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ quản trị rủi ro, hay nhấtDanh sách 200 đề tài luận văn thạc sĩ quản trị rủi ro, hay nhất
Danh sách 200 đề tài luận văn thạc sĩ quản trị rủi ro, hay nhất
 
Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏi
Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏiDanh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏi
Danh sách 200 đề tài luận văn thạc sĩ tài chính ngân hàng, từ sinh viên giỏi
 
Danh sách 200 đề tài luận văn thạc sĩ tiêm chủng mở rộng, 10 điểm
Danh sách 200 đề tài luận văn thạc sĩ tiêm chủng mở rộng, 10 điểmDanh sách 200 đề tài luận văn thạc sĩ tiêm chủng mở rộng, 10 điểm
Danh sách 200 đề tài luận văn thạc sĩ tiêm chủng mở rộng, 10 điểm
 
danh sach 200 de tai luan van thac si ve rac nhua
danh sach 200 de tai luan van thac si ve rac nhuadanh sach 200 de tai luan van thac si ve rac nhua
danh sach 200 de tai luan van thac si ve rac nhua
 
Kinh Nghiệm Chọn 200 Đề Tài Tiểu Luận Chuyên Viên Chính Trị Hay Nhất
Kinh Nghiệm Chọn 200 Đề Tài Tiểu Luận Chuyên Viên Chính Trị Hay NhấtKinh Nghiệm Chọn 200 Đề Tài Tiểu Luận Chuyên Viên Chính Trị Hay Nhất
Kinh Nghiệm Chọn 200 Đề Tài Tiểu Luận Chuyên Viên Chính Trị Hay Nhất
 
Kho 200 Đề Tài Bài Luận Văn Tốt Nghiệp Ngành Kế Toán, 9 điểm
Kho 200 Đề Tài Bài Luận Văn Tốt Nghiệp Ngành Kế Toán, 9 điểmKho 200 Đề Tài Bài Luận Văn Tốt Nghiệp Ngành Kế Toán, 9 điểm
Kho 200 Đề Tài Bài Luận Văn Tốt Nghiệp Ngành Kế Toán, 9 điểm
 
Kho 200 Đề Tài Luận Văn Ngành Thủy Sản, từ các trường đại học
Kho 200 Đề Tài Luận Văn Ngành Thủy Sản, từ các trường đại họcKho 200 Đề Tài Luận Văn Ngành Thủy Sản, từ các trường đại học
Kho 200 Đề Tài Luận Văn Ngành Thủy Sản, từ các trường đại học
 
Kho 200 đề tài luận văn ngành thương mại điện tử
Kho 200 đề tài luận văn ngành thương mại điện tửKho 200 đề tài luận văn ngành thương mại điện tử
Kho 200 đề tài luận văn ngành thương mại điện tử
 
Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểmKho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
 
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Giáo Dục Tiểu Học
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Giáo Dục Tiểu HọcKho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Giáo Dục Tiểu Học
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Giáo Dục Tiểu Học
 
Kho 200 đề tài luận văn tốt nghiệp ngành luật, hay nhất
Kho 200 đề tài luận văn tốt nghiệp ngành luật, hay nhấtKho 200 đề tài luận văn tốt nghiệp ngành luật, hay nhất
Kho 200 đề tài luận văn tốt nghiệp ngành luật, hay nhất
 
Kho 200 đề tài luận văn tốt nghiệp ngành quản trị văn phòng, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành quản trị văn phòng, 9 điểmKho 200 đề tài luận văn tốt nghiệp ngành quản trị văn phòng, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành quản trị văn phòng, 9 điểm
 
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Sư Phạm Tin Học
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Sư Phạm Tin HọcKho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Sư Phạm Tin Học
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Sư Phạm Tin Học
 
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Xuất Nhập Khẩu
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Xuất Nhập KhẩuKho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Xuất Nhập Khẩu
Kho 200 Đề Tài Luận Văn Tốt Nghiệp Ngành Xuất Nhập Khẩu
 

Recently uploaded

Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoámyvh40253
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGhoinnhgtctat
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxAnAn97022
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIĐiện Lạnh Bách Khoa Hà Nội
 
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfVyTng986513
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................TrnHoa46
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docxTHAO316680
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdfTrnHoa46
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...Nguyen Thanh Tu Collection
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...Nguyen Thanh Tu Collection
 
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfCampbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfTrnHoa46
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 

Recently uploaded (20)

Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoáCác điều kiện bảo hiểm trong bảo hiểm hàng hoá
Các điều kiện bảo hiểm trong bảo hiểm hàng hoá
 
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
3-BẢNG MÃ LỖI CỦA CÁC HÃNG ĐIỀU HÒA .pdf - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANGPHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
PHÁT TRIỂN DU LỊCH BỀN VỮNG Ở TUYÊN QUANG
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
powerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptxpowerpoint lịch sử đảng cộng sản việt nam.pptx
powerpoint lịch sử đảng cộng sản việt nam.pptx
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘIGIÁO TRÌNH  KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
GIÁO TRÌNH KHỐI NGUỒN CÁC LOẠI - ĐIỆN LẠNH BÁCH KHOA HÀ NỘI
 
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdfchuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
chuong-7-van-de-gia-dinh-trong-thoi-ky-qua-do-len-cnxh.pdf
 
Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................Đề cương môn giải phẫu......................
Đề cương môn giải phẫu......................
 
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
1.DOANNGOCPHUONGTHAO-APDUNGSTEMTHIETKEBTHHHGIUPHSHOCHIEUQUA (1).docx
 
sách sinh học đại cương - Textbook.pdf
sách sinh học đại cương   -   Textbook.pdfsách sinh học đại cương   -   Textbook.pdf
sách sinh học đại cương - Textbook.pdf
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
SÁNG KIẾN ÁP DỤNG CLT (COMMUNICATIVE LANGUAGE TEACHING) VÀO QUÁ TRÌNH DẠY - H...
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
TÀI LIỆU BỒI DƯỠNG HỌC SINH GIỎI LÝ LUẬN VĂN HỌC NĂM HỌC 2023-2024 - MÔN NGỮ ...
 
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdfCampbell _2011_ - Sinh học - Tế bào - Ref.pdf
Campbell _2011_ - Sinh học - Tế bào - Ref.pdf
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
1 - MÃ LỖI SỬA CHỮA BOARD MẠCH BẾP TỪ.pdf
 

Luận văn: Xây dựng hệ thống dịch tự động giúp dự báo thời tiết, HAY

  • 1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG KIM PI SÍCH XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS. Phan Huy Khánh Đà Nẵng - Năm 2014
  • 2. i LỜI CAM ĐOAN Tôi xin cam đoan: 1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh. 2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố. 3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Tác giả Kim Pi Sích
  • 3. ii MỤC LỤC LỜI CAM ĐOAN .............................................................................................i MỤC LỤC........................................................................................................ii DANH MỤC CÁC TỪ VIẾT TẮT...............................................................vi DANH MỤC BẢNG......................................................................................vii DANH MỤC HÌNH.......................................................................................vii MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG 1 CƠ SỞ LÝ THUYẾT................................................................ 6 1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG ......................... 6 1.1.1. Lịch sử dịch máy.................................................................. 7 1.1.2. Vấn đề dịch tự động trong tiếng Việt................................... 9 1.1.3. Một số phương pháp dịch máy............................................. 9 1.1.4. Một số dịch vụ dịch máy đã có ..........................................12 1.2. XỬ LÝ CÂU TIẾNG VIỆT ..........................................................13 1.2.1. Tách câu .............................................................................13 1.2.2.Tách từ.................................................................................15 1.3. TÌM HIỂU TIẾNG KHMER.........................................................21 1.3.1. Giới thiệu dân tộc Khmer...................................................21 1.3.2. Lịch sử hình thành tiếng Khmer.........................................23
  • 4. iii 1.3.3. Chữ viết Khmer..................................................................24 1.3.4. Đặc điểm ngữ âm tiếng Khmer..........................................28 1.3.5. Đặc điểm từ vựng tiếng Khmer..........................................30 1.3.6. Đặc điểm ngữ pháp tiếng Khmer .......................................31 1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER....................31 1.4.1. Những đặc điểm tương đồng..............................................31 1.4.2. Những nét dị biệt................................................................32 1.4.3. Khả năng xây dựng một hệ thống dịch tự động.................34 1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY...................34 1.5.1. Hiện trạng...........................................................................34 1.5.2. Một số kết quả hiện có .......................................................35 1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer................................36 1.6. NGỮ LIỆU SONG NGỮ...............................................................37 1.6.1. Khái niệm...........................................................................37 1.6.2. Vấn đề thu thập dữ liệu song ngữ ......................................37 1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ .........................38 1.6.4. Một số dữ liệu song ngữ Việt – Khmer .............................38 CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT KHMER...............................................................................................40 2.1. PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT ............................40 2.1.1. Phân loại các bản tin dự báo thời tiết.................................40 2.1.2. Phân tích các bản tin dự báo thời tiết.................................41
  • 5. iv 2.1.3. Phân tích các mẫu câu dự báo thời tiết ..............................52 2.2. MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER...53 2.2.1. Mô hình kiến trúc hệ thống................................................53 2.2.2. Phương pháp dịch...............................................................54 2.2.3. Phương tách từ ...................................................................55 2.2.4. Dịch bản tin........................................................................57 2.2.5. Dịch số và dấu câu .............................................................58 2.2.6. Dịch giờ, ngày tháng ..........................................................60 2.3. XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ.........63 2.3.1. Tổng quan về quá trình xây dựng kho ngữ liệu.................63 2.2. 2. Cấu trúc kho ngữ liệu........................................................64 2.2.3. Kỹ thuật chuyển đổi dữ liệu...............................................66 CHƯƠNG 3 TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT – KHMER .........................................................................................................68 3.1. CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG .68 3.2. THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG NGỮ......................................................................................................68 3.2.1. Chọn nguồn dữ liệu............................................................68 3.2.2. Thu thập dữ liệu .................................................................69 3.2.3. Cập nhật dữ liệu cho kho ngữ liệu song ngữ .....................69 3.3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ................................87 3.3.1. Giao diện hệ thống .............................................................87
  • 6. v 3.3.2. Kịch bản sử dụng hệ thống và thử nghiệm ........................88 3.3.3. Phương pháp đánh giá chất lượng hệ dịch.........................89 3.3.4. So sánh bản dịch thủ công và đánh giá kết quả .................92 KẾT LUẬN....................................................................................................97 TÀI LIỆU THAM KHẢO ............................................................................98 PHỤ LỤC
  • 7. vi DANH MỤC CÁC TỪ VIẾT TẮT XLNNTN Xử lý ngôn ngữ tự nhiên. CSDL Cơ sở dữ liệu CN Chủ Ngữ VN Vị Ngữ BN Bổ Ngữ DN ĐN Danh Ngữ Động Ngữ TT Tính Từ DT Danh Từ TN ĐT Trạng Từ Động Từ ALPAC Automatic Language Processing Advisory Committee EBMT Example-Based Machine Translation SMT Statistical-Based Machine Translation CBMT Corpus-Based Machine Translation BLEU Bilingual Evaluation Understudy NIST National Institute of Standards and Technology UNL Universal Networking Language MM Maximum Matching FMM Forward Maximum Matching BMM Backward Maximum Matching WFST Weighted Finit State Transducer TBL Transformation based Learning XML Extensible Markup Language HTTP Hypertext Transfer Protocol HTML HyperText Markup Language
  • 8. vii DANH MỤC CÁC BẢNG Bảng 1.1 Bảng con chữ Phụ âm giọng O........................................................24 Bảng 1.2 Bảng chân Phụ âm giọng O.............................................................24 Bảng 1.3 Bảng con chữ Phụ âm giọng Ô.......................................................25 Bảng 1.4 Bảng chân Phụ âm giọng Ô..............................................................25 Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O ..................25 Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O..........................26 Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô..........................26 Bảng 1.8 Bảng Nguyên âm độc lập................................................................26 Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer ......................................28 Bảng 2.1 Bản tin dự báo thời tiết hằng ngày Việt – Khmer. ..........................41 Bảng 2.2 Bản tin dự báo thời tiết về bão Việt – Khmer. ................................43 Bảng 2.3 Bản tin dự báo thời tiết về lũ Việt – Khmer....................................45 Bảng 3.1 Các tháng trong tiếng Khmer...........................................................63
  • 9. viii DANH MỤC HÌNH Hình 1.1 Giao diện dịch máy Google Translate .............................................12 Hình 1.2 Giao diện dịch máy Systran .............................................................13 Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA..........36 Hình 2.1 Mô hình kiến trúc hệ thống..............................................................54 Hình 2.2 Mô hình tổng quát xây dựng kho ngữ liệu.......................................64 Hình 2.3 Sơ đồ chuyển đổi kho ngữ liệu Word thành kho ngữ liệu XML.....66 Hình 2.4 Kho ngữ liệu VietKhmer.xls............................................................67 Hình 2.5 Kho ngữ liệu VietKhmer.xml ..........................................................67 Hình 3.1 Giao diện hệ thống dịch Việt - Khmer...........................................87 Hình 3.2 Kịch bản sử dụng hệ thống dịch......................................................88
  • 10. 1 MỞ ĐẦU 1. Lý do chọn đề tài. Việt Nam là một quốc gia của 54 dân tộc cùng chung sống hòa thuận, mỗi dân tộc điều có một nền văn hóa mang đặc sắc riêng gắn liền với truyền thống và phong tục riêng của dân tộc đó, các nền văn hóa tương đối thống nhất và hài hòa với nhau tạo nên sự phong phú, đa dạng trong thể thống nhất của nền văn hóa các dân tộc Việt Nam. Dân tộc Khmer có dân số khoảng 1382 ngàn người (năm 2009) tập trung ở các tỉnh, thành phố thuộc Đồng bằng Sông Cửu Long và một số ở thành phố Hồ Chí Minh và miền Đông Nam bộ[12], là dân tộc thiểu số có số dân đông nhất trong cộng đồng dân tộc thuộc nhóm ngữ hệ Môn - Khmer ở Việt Nam. Đa phần đời sống kinh tế của đồng bào dân tộc Khmer phụ thuộc chủ yếu vào nông nghiệp, cuộc sống đồng bào còn gặp rất nhiều khó khăn, các biến động của thời tiết như sương mù, sương muối, lũ lụt, mưa bão, triều cường nếu không phát hiện sớm và có các biện pháp để phòng tránh, ứng phó kịp thời, các biến động thời tiết này sẽ gây ảnh hưởng rất lớn đến đời sống sinh hoạt của người dân, hoa màu, cây trồng bị phá hoại, năng suất, chất lượng sản phẩm nông sản sẽ bị giảm làm cho cuộc sống đồng bào khó khăn nay còn khó khăn hơn. Chủ trương của Đảng và Nhà nước là tăng cường đẩy mạnh thực hiện tuyên truyền sâu rộng hơn nữa về công tác văn hóa – thông tin [25], để đưa thông tin hữu ích về khoa học kỹ thuật, dự báo thời tiết, chăm sóc sức khoẻ, bảo tồn và phát huy các giá trị văn hoá đặc sắc của các dân tộc, tuyên truyền đường lối, chủ trương, chính sách của Đảng và Nhà nước nhằm giúp đồng bào nâng cao tay nghề, ứng dụng tiến bộ khoa học - kỹ thuật vào sản xuất, thích ứng với cơ chế thị trường, giữ vững an ninh trật tự xã hội...
  • 11. 2 Một số địa phương đã có các ấn phẩm báo, tạp chí, sản xuất và phát sóng các chương trình phát thanh, truyền hình dành cho đồng bào dân tộc Khmer. Tuy nhiên, phần lớn các đài phát thanh truyền hình phát sóng bằng tiếng Khmer chưa có chương trình thông tin về thời tiết đến với người dân. Vì vậy, cần có chương trình thông tin dự báo thời tiết bằng tiếng Khmer, việc này sẽ bổ sung thêm kênh thông tin, giúp thông tin về thời tiết chính xác, kịp thời đến đồng bào. Hiện nay, để sản xuất một chương trình phát thanh, truyền hình về dự báo thời tiết bằng tiếng Khmer cần nhiều thời gian và công sức. Xuất phát từ thực tế trên, một giải pháp đưa thông tin dự báo thời tiết kịp thời và chính xác đến với đồng bào là vấn đề cần thiết, giúp đồng bào có cách ứng phó kịp thời với diễn biến phức tạp của thời tiết, để làm giảm tối đa sự thiệt hại do thời tiết gây ra. Từ các thực tế đó, tôi đề xuất đề tài: “Xây dựng hệ thống dịch tự động Việt – Khmer trợ giúp dự báo thời tiết tại các đài phát thanh truyền hình” 2. Mục tiêu của đề tài Mục tiêu chính mà đề tài hướng đến là nghiên cứu các vấn đề về xử lý ngôn ngữ tiếng Việt như phương pháp dịch máy, kỹ thuật tách từ tiếng Việt, kho ngữ liệu song ngữ,.. Xây dựng kho ngữ liệu song ngữ Việt - Khmer có cấu trúc mở và dễ kế thừa để phục vụ cho các chương trình XLNNTN Việt – Khmer khác. Khai thác kho ngữ liệu, xây dựng hệ thống dịch tự động Việt - Khmer trong lĩnh vực dự báo thời tiết, nhằm trợ giúp cho các ban biên tập báo, phát thanh truyền hình trong việc biên tập các tin dự báo thời tiết bằng tiếng Khmer được dễ dàng, chính xác và nhanh chóng hơn. 3. Đối tượng và phạm vi nghiên cứu
  • 12. 3 Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyết những vấn đề chính sau: Tìm hiểu lý thuyết Tìm hiểu các đặc trưng, bản chất ngôn ngữ, chủ yếu ngôn ngữ viết của tiếng Khmer trong sự so sánh qua lại với tiếng Việt. Nghiên cứu lý thuyết và tìm hiểu các ứng dụng XLNNTN, các phương pháp dịch máy, chủ yếu phương pháp dịch máy thống kê, xây dựng kho ngữ liệu song ngữ Phân tích cấu trúc câu về dự báo thời tiết Tài liệu Việt - Khmer thu thập được từ các chuyên gia và từ Internet Sách, giáo trình, từ điển song ngữ Việt-Khmer Tập hợp các bản tin dự báo thời tiết Việt, Khmer của đài phát thanh, truyền hình. Các CSDL song ngữ Việt - Khmer thu thập được liên quan đến bài toán dự báo thời tiết Phân tích mẫu câu trong bản tin và đưa ra cấu trúc câu Việt - Khmer tương ứng cho các mẫu tin. Cập nhật kho ngữ liệu song ngữ Việt - Khmer Thu thập dữ liệu từ các mẫu câu, trích rút từ vựng từ những bản tin dự báo thời tiết để xây dựng kho ngữ liệu Việt - Khmer phục vụ cho hệ thống dịch. Xây dựng ứng dụng Xây dựng hệ thống dịch Việt – Khmer phục vụ dịch bản tin về dự báo thời tiết hỗ trợ cho các ban biên tập đài phát thanh, truyền hình trong việc biên tập chương trình dự báo thời tiết bằng tiếng Khmer. 4. Phương pháp nghiên cứu
  • 13. 4 Thu thập dữ liệu từ các bản tin dự báo thời tiết. Phân tích từ vựng và mẫu câu Việt - Khmer tương ứng. Xây dựng kho ngữ liệu dễ dàng truy xuất, mở rộng, chuyển đổi các định dạng dữ liệu. Tìm hiểu các công cụ phù hợp để phục vụ cho công việc lập trình. Khai thác kho ngữ liệu để xây dựng ứng dụng dịch tương tác. Kiểm thử chương trình, nhận xét và đánh giá kết quả. 5. Ý nghĩa khoa học và thực tiễn của đề tài: Ý nghĩa khoa học: Nắm bắt được các vấn đề cơ bản trong xử lý tiếng Việt. Đây là tiền đề, nền tảng phát triển các ứng dụng XLNNTN cho tiếng Khmer (như dịch, từ điển, phần mềm học tập, website đa ngữ…). Ý nghĩa thực tiễn: Trợ giúp cho công tác truyền thông của các đài phát thanh truyền hình, nhằm thông tin dự báo thời tiết chính xác và kịp thời cho đồng bào dân tộc Khmer, giúp đồng bào giảm tối đa những thiệt hại do thời tiết gây ra. 6. Bố cục của luận văn Báo cáo của luận văn được tổ chức thành 3 chương. Chương 1. Cơ sở lý thuyết Tìm hiểu về các bài toán dịch tự động, các vấn đề trong quá trình xây dựng kho ngữ liệu song ngữ, tìm hiểu tiếng Khmer, phân biệt giống nhau và khác nhau giữa hai ngôn ngữ tiếng Việt, tiếng Khmer, hiện trạng ứng dụng tin học trong tiếng Khmer hiện nay. Chương 2. Giải pháp xây dựng hệ thống dịch tự động Việt - Khmer Chương này phân tích các bản tin dự báo thời tiết tiếng Việt, tiếng Khmer, đưa giải pháp xây dựng hệ thống dịch tự động Việt - Khmer.
  • 14. 5 Chương 3. Triển khai thử nghiệm hệ thống dịch Việt - Khmer Chọn môi trường công cụ xây dựng hệ thống, thu thập dữ liệu và cập nhật kho ngữ liệu song. Xây dựng, cài đặt, thử nghiệm chương trình và đánh giá kết quả.
  • 15. 6 CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1. TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG Dịch tự động hay còn gọi là dịch máy (Machine Translation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng của ngôn ngữ. Trong tiếng Việt có các hiện tượng nhập nhằng như nhập nhằng đồng âm (hoặc đồng tự), nhập nhằng từ loại, nhập nhằng từ đa nghĩa. Khi dịch tự động tiếng việt, khó khăn đầu tiên là xác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau. Còn về từ đa nghĩa tiếng Anh cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩa chính xác phải thực hiện phân tích văn cảnh. Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạo thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng Trung thì rất khó khăn. Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả của chúng vẫn không được tốt.[16] Một cách tiếp cận khác là dự vào tư liệu đã dịch sẵn của con người, điển hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các
  • 16. 7 thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động sau này, kiểu dịch rất gần với thao tác tìm kiếm – lĩnh vực đặc biệt mạnh của Google.[5] 1.1.1. Lịch sử dịch máy Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết mà không có một ứng dụng thực tế nào. Sáng chế đầu tiên cho một "chương trình dịch tự động" được thực hiện vào khoảng giữa thập niên 1930. Vào thời điểm này Georges Artsruni đã tạo ra một bộ từ điển song ngữ với chức năng tra từ tự động bằng các băng giấy, tiếp theo một người Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn. Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy tắc ngữ pháp cơ bản dựa trên quốc tế ngữ (Esperanto). Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950 mặc dù như trên trình bày trước đó một số công việc ở dạng manh nha đã được thực hiện. Vào năm 1954, thực nghiệm Georgetown-IBM đã thực hiện thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh. Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu. Các tác giả (tại thời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết. Nhưng thực tế kết quả chậm hơn nhiều, báo cáo ALPAC vào năm 1966 cho thấy sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ đáng kể và hệ quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế.
  • 17. 8 Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay có một số công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền. Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê. Với tiếng Việt, từ năm 1960 vấn đề dịch tự động cho tiếng Việt đã bắt đầu được nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự. Các tài liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E. Scott thành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt. Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại New York, Mỹ. Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này là Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N. Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973. Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên 1970 tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc hoạt động tương tự như của hệ thống Logos. Tuy nhiên, hệ dịch máy Anh-Việt được sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN - 1997. Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và cụm từ. Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).[7]
  • 18. 9 1.1.2. Vấn đề dịch tự động trong tiếng Việt Mặc dù dịch tự động ở Việt Nam đã được nghiên cứu và phát triển hơn 20 năm qua, song vẫn tồn tại rất nhiều vấn đề để nghiên cứu. Các công trình nghiên cứu hiện nay đang tập trung chủ yếu vào xử lý giữa tiếng Việt và ngôn ngữ của các nước khác như tiếng Anh, Pháp, Nhật, Hoa,.. Tuy nhiên chưa có sản phẩm dịch máy nào được hoàn thiện, chất lượng dịch còn nhiều hạn chế. Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất người". So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc, đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng. [2] 1.1.3. Một số phương pháp dịch máy 1.1.3.1. Dịch máy dựa trên ví dụ (EBMT: Example-based MT) Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine Translation) sử dụng các mẫu câu hay còn gọi là các câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ. Phương pháp dịch máy dựa trên ví dụ dựa trên ngân hàng mẫu câu ví dụ, không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu. Câu nguồn chỉ cần so khớp từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp. Nó gần như kiểu dịch trực tiếp bằng cách thay thế theo kiểu 1-1 mà không cần hiểu biết gì nhiều về
  • 19. 10 ngôn ngữ. Độ chính xác của phương pháp này phụ thuộc vào số mẫu được lưu trong kho ngữ liệu song ngữ. Một khi kho dữ liệu càng lớn thì chi phi tìm kiếm, xử lý thông tin để so trùng mẫu cũng rất lớn. Như vậy, theo phương pháp này ta cần xây dựng một kho ngữ liệu song ngữ rất lớn thì chất lượng của bản dịch sẽ được nâng cao. Trong thực tế thật khó để chúng ta có thể lưu trữ tất cả các mẫu câu của ngôn ngữ tự nhiên mà chúng ta có thể gặp trên cơ sở dữ liệu. Tuy nhiên, với sự phát triển của công nghệ máy tính với bộ lưu trữ ngày càng được gia tăng về dung lượng và tốc độ truy xuất cũng có thể cho phép chúng ta lưu trữ một kho dữ liệu khổng lồ cho hệ dịch. Phương pháp dịch dựa trên cơ sở ví dụ này đơn giản về mặt mô hình lý thuyết và trong một số trường hợp (như dịch các văn bản gần giống nhau và hay lặp đi lặp lại) thì lại cho ra kết quả cao bất ngờ.[2] 1.1.3.2. Dịch máy dựa trên thống kê (SMT: Statistical-based MT) Dịch máy dựa trên thống kê SMT: Statistical-Based Machine Translation) là cách tiếp cận dịch máy dựa trên thống kê để xây dựng từ điển và các quy luật dịch một cách tự động, thay vì xây dựng các từ điển, các quy luật dịch bằng tay như trong hệ dịch RBMT. Để thực hiện được điều này, cần có một kho dữ liệu song ngữ rất lớn. hệ thống sẽ thống kê và đưa ra các xác suất dịch tương ứng về từ/ngữ, cấu trúc hay xác suất chuyển dịch vị trí giữa hai ngôn ngữ và xác suất xuất hiện các từ/ngữ trong một ngữ cảnh nhất định nào đó. Cách tiếp cận SMT này không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyển đổi, tạo câu bằng cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn luyện. Ngày nay, với sự phát triển về bộ nhớ và tốc độ tính toán đã cho phép cách dịch ngày nay ngày càng hiệu quả. Mặt khác, tính vận động và biến đổi của ngôn ngữ nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đổi theo.
  • 20. 11 Chính vì vậy cách tiếp cận này có lợi thế hơn so với cách tiếp cận dựa vào từ vựng hay dựa vào luật ngôn ngữ, ngày nay nó là phương pháp dịch được nghiên cứu nhiều nhất. [5] 1.1.3.3. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-based MT) Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based Machine Translation) đang được áp dụng vào nhiều hệ thống dịch tự động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ không được rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay dựa trên ví dụ nói trên đều dựa trên ngữ liệu. Những điểm đặc biệt của cách tiếp cận này là dựa trên cơ sở ngôn ngữ học và dùng công nghệ máy học để các quy luật của ngôn ngữ từ ngữ liệu. Hệ thống học dựa trên cấu trúc của ngôn ngữ chứ không phải học trên bề mặt của ngôn ngữ như trong SMT. Để thực hiện được điều này, máy cần có ngữ liệu rất lớn (corpus), dạng đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các kho ngữ liệu này. Đặc điểm của cách tiếp cận này là khả năng tự rút ra các quy luật của ngôn ngữ. Nó có những ưu điểm của cách tiếp cận dựa trên luật (vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng khắc phục được khuyết điểm của việc xây dựng luật thủ công bởi các chuyên gia. Các luật được rút ra lại được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện), chính vì vậy, các luật rút ra được đảm bảo là chính xác, bao quát, không mâu thuẫn và không thừa. Cách tiếp cận dựa trên ngữ liệu là cách tiếp cận tiên tiến gần đây, khi mà kho ngữ liệu đơn ngữ hay đa ngữ dạng điện tử ngày càng có nhiều. Cách tiếp cận này dựa trên công nghệ máy học để rút ra các quy luật ngôn ngữ một cách tự động. Ngoài ra, với sự biến đổi của ngôn ngữ hay chuyển đổi lĩnh vực dịch, thì cách tiếp cận này tỏ ra hiệu quả trong việc cập nhật bộ luật của nó. [6]
  • 21. 12 1.1.4. Một số dịch vụ dịch máy đã có 1.1.4.1. Google Google Dịch (lúc đầu gọi là Google Thông dịch, tên tiếng Anh là Google Translate) là một công cụ dịch trực tuyến được Google cung cấp. Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu để dịch. Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch khác khi thấy kết quả không được tốt, hỗ trợ này có thể được sử dụng trong các lần dịch sau. Google Dịch dựa trên nền tảng gọi là dịch máy theo nguyên tắc dịch máy thống kê. Người đứng đầu chương trình dịch máy của Google là Franz- Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động vào năm 2003. Hình 1.1 Giao diện dịch máy Google Translate Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử dụng SYSTRAN, Google Dịch sử dụng phần mềm của riêng họ, chương trình này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của người dùng rồi trả về kết quả. Chất lượng dịch được tăng lên theo thời gian
  • 22. 13 khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ cảnh ngày càng đa dạng. [7] 1.1.4.2. Systran Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịch khá tốt. Systran có thể sử dụng được trên môi trường Internet, máy đơn hoặc trên các hệ thống mạng cục bộ. Phiên bản mới nhất hiện này của Systran là phiên bản 7. Systran hỗ trợ dịch tự động nhiều thứ tiếng như Đức, Tây Ban Nha, Thuỵ Điển, Anh, Pháp, Ý, Hàn Quốc, Nhật, Hà Lan, Ba Lan, Bồ Đào Nha, Nga, Trung Quốc, Ả Rập và Hy Lạp. Phần mềm này có thể dùng độc lập và có sự tích hợp với Microsoft Office để thuận lợi hơn cho quá trình sử dụng. Tuy nhiên Systran chưa thấy hỗ trợ ngôn ngữ tiếng Việt. Các nhà khai thác ngôn ngữ sử dụng nguồn dữ liệu Anh – Việt bắt cầu để khai thác các nguồn dữ liệu khác từ Systran bằng các cặp song ngữ như Anh – Nhật, Anh- Pháp,... để được nguồn dữ liệu Nhật – Anh – Việt, Pháp – Anh – Việt,... [2] Hình 1.2 Giao diện dịch máy Systran 1.2. XỬ LÝ CÂU TIẾNG VIỆT 1.2.1. Tách câu 1.2.1.1. Xử lý đầu vào Xóa các khoảng trắng thừa như hai hay nhiều khoảng trắng cùng một vị trí “ ” hoặc khoảng trắng trước dấu “,” ; dấu “.”,... Thực hiện các công việc chuẩn hóa dữ liệu nhập vào. Thay thế các ký tự tương tự.
  • 23. 14 1.2.1.2. Tách câu Trong văn bản tiếng tiếng Việt hay một số ngôn ngữ khác người ta cũng dùng các dấu như dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câu khác để nhận biết kết thúc câu. Những dấu này thường được gọi là dấu chấm câu. Tuy nhiên do tính nhập nhằng của các dấu báo hiệu kết thúc câu, vẫn có những câu tiếng Việt mà các dấu hiệu kết thúc câu đó vẫn chưa kết thúc câu, nên việc phân định ranh giới câu không đơn giản. Ví dụ: Dấu chấm “.”: là dấu có nhiều trường hợp mơ hồ nhất. Nó có thể biểu thị như một dấu chấm kết thúc câu, dấu chấm thập phân trong chữ số (8,220.78), dấu chấm trong chữ viết tắt (GS., PGS., TS., TP.,...), dấu chấm trong các trường hợp khác như địa chỉ email, website (pisich@gmail.com, www.udn.vn). Dấu chấm hỏi, dấu chấm than có thể xuất hiện ở cuối câu hay trong dấu ngoặc đơn, ngoặc kép... Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các mô hình học phức tạp hơn, như : mạng neural, TBL, Maximum Entropy. Sau khi nhận đoạn văn bản đã được lọc các ký tự dư thừa, bộ phận tách câu bắt đầu phân tích dựa trên cách chấm câu và ngữ nghĩa một số từ để tách ra các câu riêng biệt. [2] a. Xử lý dấu chấm Để có thể phân biệt được các trường hợp trên, dựa vào một số đặc trưng riêng trong cách trình bày của từng trường hợp: Trường hợp là dấu chấm kết thúc câu thì dấu hiệu nhận biết kết thúc câu sẽ là: Luôn luôn có ít nhất một khoảng trắng sau dấu chấm và ký tự tiếp theo sẽ là chữ cái viết hoa.
  • 24. 15 Trường hợp là dấu chấm thập phân thì có thể nhận biết bằng cách đọc toàn bộ phần liền trước và liền sau dấu chấm để phát hiện số có dấu chấm thập phân. Trường hợp là dấu chấm sau từ viết tắt thì có thể nhận biết bằng cách xây dựng một danh sách các từ viết tắt để tra cứu khi cần. Trường hợp dấu chấm trong các địa chỉ email, website thì dấu chấm luôn nằm giữa hai ký tự nào đó mà không có khoảng trắng nằm sau, dấu chấm trong trường hợp này không bao giờ nằm ở cuối từ nên cũng có thể dễ nhận biết được. Trong văn bản về dự báo thời tiết thì chủ yếu là dấu chấm là dấu kết thúc câu, dấu thập phân trong cách chữ số là dấu chấm hoặc dấu phẩy và trường hợp dấu chấm sau từ viết tắt. b. Xử lý dấu chấm trong ngoặc Khi bộ tách câu gặp dấu mở ngoặc đơn, hoặc ngoặc kép, thì nó sẽ quét trong đoạn văn đang xét để tìm dấu đóng tương ứng. Nếu tìm thấy, toàn bộ phần trong ngoặc sẽ được giữ nguyên và tìm dấu kết thúc câu tiếp theo ngoài dấu ngoặc. Nếu không tìm thấy dấu đóng tương ứng, dấu mở sẽ bị bỏ qua và xử lý tiếp ký tự sau dấu mở như bình thường. 1.2.2.Tách từ 1.2.2.1. Các vấn đề trong bài toán tách từ a. Xử lý nhập nhằng Nhập nhằng trong tách từ được phân thành 2 loại: Nhập nhằng chồng (Overlapping Ambiguity) và nhập nhằng hợp (Combination Ambiguity). Ta gọi V là tập hợp các từ Tiếng Việt (từ điển tiếng Việt). Các trường hợp nhập nhằng trên được mô tả hình thức như sau: Chuỗi abc được gọi là nhập nhằng chồng nếu {ab, bc}  V.
  • 25. 16 Ví dụ: thuộc địa & địa bàn quan tài & tài giỏi Chuỗi ab được gọi là nhập nhằng hợp nếu { a,b, ab}  V. Ví dụ: “học”, “sinh” là từ đơn có nghĩa, nhưng “học sinh” cũng là một từ ghép. Trong thực tế, loại nhập nhằng chồng xảy ra thường xuyên hơn loại nhập nhằng hợp, bởi vì hầu hết các tiếng của tiếng Việt đề có thể đóng vai trò là một từ đơn độc lập. Do đó, hầu hết các từ ghép đề có thể bị nhập nhằng hợp. Tuy nhiên, hầu như mọi trường hợp này đề được giải quyết tốt bằng giải thuật Maximum Matching. Vì thế, mọi hệ thống nhận diện nhập nhằng hiện tại đều chỉ chú ý đến việc giải quyết loại nhập nhằng đầu tiên là nhập nhằng chồng. [7] b. Nhận diện từ chưa biết Trong văn bản không chỉ có sự tồn tại của từ thuần túy có trong từ điển, mà còn có các đơn vị thông tin khác nữa. Do không nắm được các thông tin này, nên việc tách từ sẽ bị ảnh hưởng. Từ chưa biết bao gồm các từ tên riêng tiếng Việt hoặc tiếng nước ngoài và các factoids (theo định nghĩa của wordNet thì factoids là một đối tượng biểu diễn những thông tin đặc biệt như: ngày tháng, thời gian, phần trăm, địa chỉ email, tiền tệ, số, độ đo, số điện thoại, địa chỉ web). [7] 1.2.2.2. Các hướng tiếp cận chính cho bài toán tách từ a. Hướng tiếp cận dựa trên thống kê Dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện, nhờ vậy nên hướng tiếp cận này tỏ ra linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau.[2]
  • 26. 17 b. Hướng tiếp cận dựa trên từ điển Ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển. Do đó trong hướng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực quan tâm. Hướng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn chỉnh để có thể tách được đầy đủ các từ hoặc ngữ trong văn bản, trong khi đó hướng tiếp cận thành phần “component” lại sử dụng từ điển thành phần. Từ điển thành phần chỉ chứa các thành phần của từ và ngữ như hình vị và các từ đơn giản. Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách từ vì thực hiện hoàn toàn dựa vào từ điển. Nếu như thực hiện thao tác tách từ bằng cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức. Nếu tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế, khó khăn khi xây dựng từ điển, vì khi đó chúng ta sẽ sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ, cụm từ hoàn chỉnh. [2] c. Hướng tiếp cận theo Hybrid Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và đòi hỏi nhiều chi phí.[2] 1.2.2.3. Một số phương pháp tách từ tiếng việt hiện nay a. Phương pháp khớp cực đại (MM: Maximum Matching) Phương pháp khớp tối đa (MM - Maximum Matching) hay còn gọi là LRMM - Left Right Maximum Matching được xem như là phương pháp tách từ dựa trên từ điển đơn giản nhất. MM cố gắng so khớp với từ dài nhất có thể
  • 27. 18 có trong từ điển. Thuật toán này đạt được độ chính xác khá cao (>90%) nếu từ điển đủ lớn. Tuy nhiên, nó không thể giải quyết vấn đề nhập nhằng và không thể nhận diện được các từ chưa biết bởi vì chỉ những từ tồn tại trong từ điển mới được phân đoạn đúng.[24] Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu Giải quyết MM gồm hai giải thuật con:[9] - FMM (Forward Maximum Matching: so khớp cực đại theo chiều tiến) - BMM (Backward Maximum Matching: so khớp cực đại theo chiều lùi) Nếu chúng ta nhìn vào kết quả của FMM và BMM thì sự khác biệt này cho chúng ta biết nơi nào nhập nhằng xảy ra. Ngoài ra, MM là phương pháp tách từ hoàn toàn phụ thuộc vào từ điển, từ điển phải đủ lớn, đủ chính xác và độ tin cậy phải cao thì mới cho kết quả tách từ chấp nhận được. Đây cũng là nhược điểm rất lớn của phương pháp này. Ví dụ: Một ông quan tài giỏi Đầu ra FMM: Một|ông|quan|tài giỏi|. Đầu ra BMM: Một|ông|quan tài|giỏi|. Ưu điểm: - Đơn giản, nhanh, chỉ cần dựa vào từ điển.
  • 28. 19 - Trong tiếng Việt, cách này đạt độ chính xác đến >90%. Hạn chế: - Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đầy đủ và tính chính xác của từ điển. - Phương pháp này sẽ tách từ sai trong các trường hợp: “học sinh#học sinh#học”… Các biến thể của thuật toán MM Dạng đơn giản: là dùng để giải quyết nhập nhằng từ đơn. Giả sử chúng ta có một chuỗi ký tự W1, W2,… Wn. Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi. Đầu tiên kiểm tra xem W1 có phải là từ hay không, sau đó kiểm tra xem W1W2 có phải là từ hay không. Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất. Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thông thường người ta chọn phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở ví dụ trên, giả sử W1 là từ và W1W2 cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi W1, W2, …..,Wn để tìm tất cả các đoạn ba từ có bắt đầu với W1 hoặc W1W2. Ví dụ : Giả sử chúng ta có được các đoạn sau : - W1 W2 W3 W4 - W1W2 W3W4 W5 - W1W2 W3W4 W5W6 Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba. Do đó từ đầu tiên của chuỗi thứ ba sẽ được chọn. Thực hiện các bước cho đến khi được chuỗi từ hoành chỉnh. Nhận xét:
  • 29. 20 Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển.[2] b. Phương pháp giải thuật học cải tiến (Transformation – based Learning – TBL) Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu. Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng. Rõ ràng chúng ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.[2] c. Maximum Entropy Mô hình tách từ bằng phương pháp Maximum Entropy dựa trên ý tưởng của mô hình gán nhãn từ loại (POS Tagger) dùng phương pháp Maximum Entropy cho tiếng Anh của Adwait Ratnaparkhi. các tác giả của công trình đã cài đặt thành công mô hình này cho tiếng Việt. Tuy nhiên phương pháp này cũng có các ưu điểm và nhược điểm riêng. [7] Ưu điểm: Đây là một hướng mới cho các phương pháp tách từ hiện nay. Nếu kho gán nhãn đầy đủ thì các nhập nhằng có thể được khử. Nhược điểm: Chưa có một quy luật chuẩn nào cho việc gán nhãn cho tiếng Việt. Vẫn chưa có một công trình nào thống kê được mức độ chính của phương pháp này. c. Kết luận
  • 30. 21 Như vậy, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng, nhưng tất cả đều cần có một kho ngữ liệu đủ lớn để kết quả tách từ đạt được độ chính xác cao. 1.3. TÌM HIỂU TIẾNG KHMER 1.3.1. Giới thiệu dân tộc Khmer Dân tộc Khmer là một bộ phận không thể tách rời trong cộng đồng 54 dân tộc Việt Nam, với số dân 1.381.986 người (năm 2009), tập trung ở các tỉnh, thành phố thuộc khu vực Đồng bằng sông Cửu Long như: Sóc Trăng (454.000 người), Trà Vinh (315.797 người), Kiên Giang (252.225 người), An Giang (114.600 người), Bạc liêu (89.348 người), Cà Mau (51.225 người), Cần Thơ (38.110 người), Hậu Giang (35.268 người), Vĩnh Long (31.413 người) và một số ở Thành phố Hồ Chí Minh và miền Đông Nam Bộ.[12] Người Khmer sống chủ yếu bằng nghề ruộng rẫy, một số ít theo ngành nghề thủ công, buôn bán hoặc làm các nghề khác. Người Khmer có tôn giáo chính là Phật giáo theo phái Nam tông Tiểu thừa, số người theo đạo chiếm 99,7%. Tiếng mẹ đẻ và ngôn ngữ sinh hoạt thường nhật của người Khmer là tiếng Khmer thuộc nhóm ngôn ngữ Môn – Khmer. Ngoài ra, do sống xen kẽ với người Kinh, người Hoa, người Khmer còn sử dụng tiếng Việt và tiếng Hoa để giao tiếp. Có hiện tượng dùng chung từ ngữ của người Hoa, người Kinh, người Khmer trong quá trình giao tiếp với nhau giữa ba dân tộc ở mức độ một số từ thông dụng. Đặc trưng chủng tộc dễ nhận biết ở người Khmer là da màu đen xám. Tỷ lệ người tóc quăn nhiều hơn người Kinh. Trong dòng tộc Khmer có những họ lớn như: Thạch, Sơn, Kim, Châu, Lâm… Ngoài ra, người Khmer còn lấy họ thường từ chữ đầu vùng đất mà dòng họ mình sinh sống như: ở Kiên Giang có họ Dương ở làng Dương Hòa, họ Trà ở làng Trà Tiên, họ Thuận ở làng Thuận Yên, họ Lộc họ Kỳ ở làng Lộc Trĩ và Kỳ Lộ thuộc tỉnh Kiên Giang … Trong quan hệ hôn nhân với người Kinh, người Hoa, người Khmer cũng có họ khác
  • 31. 22 nhau như người Kinh, người Hoa. … Nhìn chung, người Khmer hiền lành, thật thà, rất tôn trọng đạo lý. Hầu hết thanh niên lớn lên điều vào chùa đi tu để rèn luyện đạo đức, tri thức, nhân cách trước khi vào đời.[12] Ngoài ra, người Khmer còn lưu giữ một số hình thức lễ hội truyền thống như: tết Chôl Chnăm Thmây, lễ Sen Đôn Ta, lễ Óoc Om bóc… - Tết Chôl Chnăm Thmây như tết Nguyên đán của người Kinh, diễn ra và khoảng 13, 14, 15 tháng 4 dương lịch. Thường có 3 ngày tết nhưng năm nhuận thì tết 4 ngày. Ngày đầu tiên của năm mới gọi là Châul Săng Kran Thmây tức là ngày thay năm cũ vào năm mới, ngày giữa gọi là ngày Vonbât (năm nhuần Vonbât hai ngày, năm thường thì một ngày), ngày cuối là ngày Lơng Sak.[13] - Lễ Sen Đôn Ta hay còn gọi là lễ Cúng ông bà là một lễ hội lớn của đồng bào Khmer, được tổ chức vào ba ngày mỗi năm từ ngày 29-8 đến ngày 1-9 âm lịch để nhớ đến công ơn ông bà cha mẹ và dòng họ, tạ ơn những người còn sống và cầu phước cho những người đã mất; tạo tình đoàn kết trong xóm làng, bạn bè thân thích.[12] - Lễ Óoc-Om-bóc (lễ đút cốm dẹp) hay còn gọi lễ cúng trăng được tổ chức vào ngày 15-10 âm lịch là ngày kết thúc một chu kỳ của mặt trăng xoay quanh trái đất, thời điểm chia ra hai mùa trong năm để làm ruộng: mùa mưa từ 16-4 đến 15-10; mùa khô từ 16-10 đến 15-4 âm lịch (hai mùa được tính theo vòng quay của mặt trăng quanh trái đất). Lễ Óoc Ombóc được tổ chức để tưởng nhớ đến công ơn của mặt trăng, coi như vị thần điều tiết mùa màng, đã giúp cho đồng bào Khmer làm ăn khá giả trong năm. Thức cúng đặc biệt trong lễ này là cốm dẹp, nên người ta còn gọi là lễ đút cốm dẹp, và sôi nổi nhất là vào dịp ngày lễ cúng trăng, đồng bào Khmer tổ chức cuộc đua ghe Ngo rất vui tươi hào hứng.[13]
  • 32. 23 1.3.2. Lịch sử hình thành tiếng Khmer Tiếng Khmer ngôn ngữ dân tộc của Campuchia theo thuật ngữ ngôn ngữ học và dân tộc học được gọi là tiếng Khmer. Tiếng Khmer thuộc họ ngôn ngữ Môn-Khmer bao gồm hơn 100 ngôn ngữ ở Đông Nam Á. Họ ngôn ngữ này cùng với các ngôn ngữ Munda của Ấn Độ làm thành một hệ lớn được gọi là ngữ hệ Austro-aisatic. Trong họ ngôn ngữ Môn-Khmer, tiếng Khmer tạo thành một nhánh riêng gọi là nhánh Khmeric, không có các ngôn ngữ họ hàng gần. Khmer là một trong những ngôn ngữ đầu tiên ở Đông Nam Á cùng với tiếng Chăm và Môn được tiếp nhận một hệ thống chữ viết dựa trên cơ sở âm vị học, những bi ký Khmer cổ nhất có ghi niên đại (năm 553 Sara Era tức là 611 công nguyên) sử dụng một dạng của chữ viết Pallava, thời đó đang tồn tại ở vùng Ấn độ. Pallava thuộc vào một hệ chữ viết phổ biến rộng của Ấn độ về cơ bản xuất phát từ chữ viết trên các bi ký Ashokan (thế kỷ thứ 3 trước công nguyên). Chữ viết Pallava dùng cho tiếng Khmer cổ được tiến hóa dần ở các địa phương qua các thế kỷ cho đến hệ thống chữ viết Campuchia ngày nay. Khoảng hơn 120 bi ký tiếng Khmer cổ được viết trước khi thành lập Angkor (năm 802 công nguyên) còn được bảo quản, được dịch và in ấn. Nó là chứng tích của một thời kỳ khác biệt của ngôn ngữ được gọi là tiếng Khmer cổ “tiền Angkor”. Khoảng hơn 500 bi ký tiếng Khmer cổ có niên đại từ thời Angkor (năm 802 -1431 công nguyên). Chúng ta đã tìm thấy trong thời gian gần đây ở Campuchia và một phần của Việt Nam, Lào và Thái Lan. Giai đoạn này được gọi là tiếng Khmer cổ “thời Angkor”. Tiếng Khmer trung đại được thể hiện bởi những cái được gọi là những bi ký Angkor “mới”, những văn bản văn học trên các lá buôn và bản sao chép tay bao gồm sử thi Ramakeri (được phát âm là [reəmke:]), một bản phóng tác tiếng Khmer của trường ca Ramayana Ấn Độ. Tiếng Khmer trung đại tiếng
  • 33. 24 hóa dần đến tiếng Khmer hiện đại trong thế kỷ 18 mà không có thời điểm phân cách rõ rệt.[22] 1.3.3. Chữ viết Khmer 1.3.3.1. Bảng chữ cái trong tiếng Khmer Bảng chữ cái tiếng Khmer gồm: - Phụ âm: có 33 con chữ và 32 chân được chia làm 2 giọng O và giọng Ô [1] + Phụ âm giọng O có 15 con chữ và 14 chân Con chữ Khmer ក ខ ច ធ ដ ឋ ណ ត ថ Phiên âm Co Kho Cho Chho Đo Tho No To Tho Con chữ Khmer ប ផ ស ហ ឡ អ Phiên âm Bo Pho So Ho Lo O Bảng 1.1 Bảng con chữ Phụ âm giọng O Chân phụ âm Khmer ្ក ្ខ ្ច ្ឆ ្ដ ្ឋ ្ណ ្ត ្ថ Phiên âm Châ n Co Chân Kho Chân Cho Chân Chho Châ n Đo Chân Tho Châ n No Châ n To Chân Tho Chân phụ âm Khmer ្្ប ្ផ ្្ស ្ហ ្អ Phiên âm Châ n Bo Chân Pho Chân So Chân Ho Chân O Bảng 1.2 Bảng chân Phụ âm giọng O + Phụ âm giọng Ô: có 18 con chữ và 18 chân Con chữ Khmer គ ឃ ង ជ ឈ ញ ឌ ឍ ទ Phiên âm Cô Khô Ngô Chô Chhô Nhô Đô Thô Tô Con chữ Khmer ធ ន ព ភ ម យ រ ល វ
  • 34. 25 Phiên âm Thô Nô Pô Phô Mô Dô Rô Lô Vô Bảng 1.3 Bảng con chữ Phụ âm giọng Ô Chân phụ âm Khmer ្គ ្្ឃ ្ង ្ជ ្ឈ ្ញ ្ឌ ្ឍ ្ទ Phiên âm Chân Cô Chân Khô Chân Ngô Chân Chô Chân Chhô Chân Nhô Châ nĐô Chân Thô Châ n Tô Chân phụ âm Khmer ្ធ ្ន ្ព ្ភ ្ម ្យ ្្ ្ល ្វ Phiên âm Chân Thô Chân Nô Chân Pô Chân Phô Chân Mô Chân Dô Châ nRô Chân Lô Châ n Vô Bảng 1.4 Bảng chân Phụ âm giọng Ô + Ngoài 33 phụ âm kể trên còn có các phụ âm bổ sung Dùng dấu ្ (răng chuột) để trên 6 phụ âm giọng Ô để biến thành phụ âm giọng O Phụ âm giọng Ô ង ញ ម យ រ វ Phụ âm giọng Ô biến thành Phụ âm giọng O ង ញ ម យ រ៉ វ៉ Phiên âm phụ âm giọng O Ngo Nho Mo Do Ro Vo Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O Còn một phụ âm khi bỏ dấu្ không đổi giọng ប (Bo) thành ប (Po) Dùng dấu ្ để trên phụ âm giọng O để biến thành phụ âm giọng Ô Phụ âm giọng O ប ស ហ អ Phụ âm giọng O biến thành Phụ âm giọng Ô ប ស ហ អ Phiên âm phụ âm giọng Ô Bô Sô Hô Ô - Nguyên âm: có 2 loại là nguyên âm thường, nguyên âm độc lập. + Nguyên âm thường: là nguyên âm phải ráp với phụ âm mới có nghĩa, gồm 24 con chữ. Nhưng khi phát âm mỗi con chữ có 2 giọng âm
  • 35. 26 khác nhau. Tức là khi ráp vần với phụ âm O thì đọc khác, khi ráp vần với phụ âm giọng Ô thì đọc khác. Nguyên âm Khmer ្ ្ ្ ្ ្ ្ ្ ្ ើ្ Phiên âm a ế ây ấ ơ ố ô ua ờ Nguyên âm Khmer ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ ្ Phiên âm ưa Ia ê e ay ao au um om Nguyên âm Khmer ្ Phiên âm ăm ắs ếs és ốs ós Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O Nguyên âm Khmer ្ ្ ្ ្ ្ ្ ្ ្ ើ្ Phiên âm Ia Í i ứ ư ú u ua ơ Nguyên âm Khmer ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ ្្ ្ Phiên âm Ưa Ia ê ê ây ô âu um um Nguyên âm Khmer ្ Phiên âm Oăm Iás ís ếs ús uás Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô + Nguyên âm độc lập: là nguyên âm không ráp vần với phụ âm cũng có nghĩa (vì ngay chính bản thân nó cũng có nghĩa), gồm 13 con chữ. Nguyên âm Khmer ឥ ឦ ឩ ឳ ឫ ឬ ឭ ឮ Phiên âm ế ây ú u âu rứ rư lứ lư Nguyên âm Khmer ឯ ឰ ឱ ឳ Phiên âm e ay ao au Bảng 1.8 Bảng Nguyên âm độc lập
  • 36. 27 1.3.3.2. Số và cách đếm trong tiếng Khmer Số tiếng Khmer Chữ viết Cách đọc Số tiếng Việt ០ សនយ Sôn 0 ១ មយ Mui 1 ២ ពរ Pi 2 ៣ ប Bây 3 ៤ បន Buôn 4 ៥ ្រ Po-răm 5 ៦ ្រមយ Prăm mui 6 ៧ ្រពរ Prăm pi 7 ៨ ្រប Prăm bây 8 ៩ ្របន Prăm buôn 9 ១០ ដប់ Đóp 10 ១១ ដប់មយ Đóp mui 11 ១២ ដប់ពរ Đóp pi 12 ១៣ ដប់ប Đóp bây 13 ១៤ ដប់បន Đóp buôn 14 ១៥ ដប់្រ Đóp po-răm 15 ១៦ ដប់្រមយ Đóp po-răm mui 16 ១៧ ដប់្រងពរ Đóp po-răm pi 17 ១៨ ដប់្រងប Đóp po-răm bây 18 ១៩ ដប់្របន Đóp po-răm buôn 19 ២០ ៃមភ Mô-phây 20 ៣០ សាមសប Sam sấp 30 ៤០ ែសសប Se sấp 40 ៥០ ហាសប Ha sấp 50 ៦០ ហកសប Hốc sấp 60
  • 37. 28 ៧០ ចតសប Chất sấp 70 ៨០ ែបតសប Pet sấp 80 ៩០ ើៅសប Cau sấp 90 ១០០ មយរយ Mui rôi 100 ១០១ មយរយមយ Mui rôi mui 101 ១,០០០ មយពន់ Mui poon 1.000 ១០,០០០ មយើមន Mui mơn 10.000 ១០០,០០០ មយែសន Mui sen 100.000 ១,០០០,០០០ មយលាន Mui liên 1.000.000 ១០,០០០,០០០ មយើោដ Mui côt 10.000.000 ១,០០០,០០០,០០០ មយពន់ើោដ Mui poon liên 1.000.000.000 Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer 1.3.4. Đặc điểm ngữ âm tiếng Khmer Trong tiếng Khmer, âm tiết là đơn vị phát âm nhỏ nhất trong chuỗi lời nói. Âm tiết tiếng Khmer không thuần túy là đơn vị trống nghĩa, Âm tiết tiếng Khmer không chỉ có vỏ ngữ âm mà còn có ý nghĩa cụ thể. Ví dụ: ពនយល់ (pôon dôol) =giải thích, âm tiết thứ nhất là ពន (pôon), âm tiết thứ hai là យល់ (dôol). Theo quan niệm truyền thống âm tiết thứ nhất được xem như không có nghĩa, nhưng thực ra nó vẫn có nghĩa, đó là nghĩa tiềm tàng, nghĩa khu biệt. Khi nó kết hợp với âm tiết thứ hai để tạo thành tổ hợp ពនយល់ (pôon dôol) thì nghĩa của nó đã được thể hiện. Trong tiếng Khmer một từ đơn có thể có hai hình thức ngữ âm thể hiện nó: từ đơn đơn tiết và từ đơn song tiết. Một từ đơn song tiết gồm hai âm tiết: âm tiết mạnh (main-syllable) có người còn gọi đó là âm tiết chính, âm tiết tỏ, … và âm tiết yếu (pre-syllable) có người còn gọi là tiền âm tiết, âm tiết phụ, âm tiết mờ, ...
  • 38. 29 Âm tiết mạnh tiếng Khmer là âm tiết mang trọng âm có khả năng đứng một mình để cấu tạo từ, có thể tồn tại độc lập với chức năng làm hình thức ngữ âm của từ. Âm tiết yếu là âm tiết không mang trọng âm, luôn đi kèm với âm tiết mạnh (không có khả năng đứng một mình để cấu tạo từ), bản thân âm tiết yếu không mang nghĩa. Trong nhiều trường hợp phát âm, sự vắng mặt của âm tiết yếu không làm thay đổi nghĩa của từ. Đó là xu hướng giản lượt hóa âm tiết - một xu hướng phổ biến và tích cực trong phát âm hiện nay. Về cấu tạo âm tiết: + Âm tiết đơn: Âm tiết đơn trong tiếng Khmer cũng gồm có hai loại: âm tiết đơn mở và âm tiết đơn khép. Về cấu tạo của âm tiết đơn là âm đầu cộng vần mở; cấu tạo âm tiết khép là âm đầu cộng vần. Xét cấu tạo âm vị phụ âm và nguyên âm trong âm tiết đơn chúng ta có mô hình âm tiết như sau: Cấu tạo âm tiết mở = CV hoặc CCV (trong đó, C là phụ âm, V là nguyên âm). Ví dụ: តា (ta) = ông, ែកក (chke) = con chó, ផារ (phxa) = chợ, ខល (khlây) = ngắn, ផ្កក (phka) = hoa, ែខស (khxe) = dây. Cấu tạo âm tiết khép = CVC. Ví dụ: ើកណឌ (ken) = tập hợp, ងក់ (ngook)=ngủ gật, ខយង (khjoong) = con ốc, ើោល (chool) = bỏ, ដង (đooong) = múc, ណាយ (nai) = chán, តម (tom) = kiêng, … + Âm tiết ghép: Âm tiết ghép của tiếng Khmer được cấu tạo bởi âm tiết đơn mang trọng âm cộng với một CV hoặc VC không mang trọng âm trước đó mà chỉ có thể
  • 39. 30 là phụ âm đơn, và V luôn là nguyên âm trung hòa /Ơ/. Mô hình âm tiết khép có các dạng như sau: COWCV, ƠCCƠV hoặc COWCVC. [14] Ví dụ: Âm tiết ghép mở: រងារ (rơnghia) = lạnh, ្កប (krơbây) = con trâu, ទទល (towtuôl) = đón,… Âm tiết ghép khép: ្បសប់ (prơxop) = rành), ្បោន់ (prơkăn) = chấp, ្បើៅ (prơđau) = dạy, ្តជាក់ (trơchat) = lạnh, សមបក (xơmbok) = vỏ, … 1.3.5. Đặc điểm từ vựng tiếng Khmer Trong tiếng Khmer, một số từ được thành lập được một âm tiết, một số từ được thành lập do sự lưỡng vần. Thông thường, từ được thành lập được bởi hai âm tiết. Âm tiết thứ nhất với âm tiết sau tạo thành từ có nghĩa và khi tách hai âm tiết này ra, thì từng âm tiết sẽ không mang nghĩa. Từ tiếng Khmer cũng được tạo thành theo phương thức ghép và phương thức láy. Các từ ghép được tạo thành nhờ sự kết hợp giữa các từ với nhau hoặc bằng cách láy toàn bộ hay bộ phận hình vị gốc. Phần lớn tiếng Khmer là từ đơn âm tiết hoặc sesquisyllabic (từ có một âm tiết yếu và có một âm tiết mạnh) mặc dù các từ vay mượn Sanskrit và Paly có thể có nhiều âm tiết. Cấu trúc sesquisyllabic gồm một tiền âm tiết không có trọng âm với nguyên âm bị nhượt hóa là âm tiết yếu hay âm tiết phụ; âm tiết này đi trước một âm tiết chính có trọng âm và có nguyên âm đầy đủ. Vì hình thái tiếng Khmer còn có tiền tố và trung tố, không tồn tại hậu tố, trừ các từ ngữ có nguồn gốc Indic, âm tiết chính là bộ phận bền vững nhất của từ. Âm tiết yếu có thể chứa đựng những hình vị đã hóa thạch với những chức năng không rõ ràng, và thường nhược hóa trong lời nói nhanh, vì thế nó thường không bền vững.
  • 40. 31 Từ tiếng Khmer thường có nhiều tổ hợp phụ âm đầu từ, không có tổ hợp phụ âm ở cuối từ. Âm tiết chính ở cuối từ được kết thúc hoặc bằng nguyên âm hoặc bằng phụ âm đơn.[14] 1.3.6. Đặc điểm ngữ pháp tiếng Khmer Từ tiếng Khmer không biến đổi hình thái. Từ tiếng Khmer luôn có hình thức ổn định khi đảm nhiệm các chức năng ngữ pháp, quan hệ ngữ pháp khác nhau hay phục thuộc các từ loại khác nhau. Vì từ tiếng Khmer không biến đổi hình thái nên chức năng ngữ pháp và quan hệ ngữ pháp của từ không được biểu hiện trong bản thân cảu từ. Phương thức ngữ pháp chủ yếu của tiếng Khmer là phương thức trật tự từ và phương thức hư từ. Ngoài ra ngữ pháp tiếng Khmer cũng sử dụng ngữ điệu như một phương thức ngữ pháp.[19] Trật tự từ cơ sở của tiếng Khmer là S – V – O (Subject Verb Object). Trong ngữ danh ngữ (danh ngữ), danh từ chính đi trước, và từ phụ đi sau (kể cả số từ), những yếu tố phụ khác như tính từ, từ sở hữu và những mệnh đề quan hệ thường đứng giữa. Ngoại lệ duy nhất là số từ thường đi trước danh từ. Một cấu trúc khác: danh từ + số từ + loại từ chỉ lượng, theo trật tự thường gặp của ngữ danh từ, nhưng việc sử dụng cấu trúc này không bao giờ bị bắt buộc, và loại từ chỉ lượng không đóng vai trò quan trọng trong tiếng Khmer như trong các ngôn ngữ Đông Nam Á khác.[22] 1.4. NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER 1.4.1. Những đặc điểm tương đồng Tiếng Việt và tiếng Khmer, về nguồn gốc, có quan hệ họ hàng như đã trình bày ở trên. Vì thế, hai ngôn ngữ tất nhiên có những điểm giống nhau nhất định trên cả ba bình diện ngôn ngữ của chúng. Thứ nhất, hệ thống âm vị của hai ngôn ngữ có nhiều âm vị tương ứng nhau. Cụ thể như:
  • 41. 32 Về phụ âm đầu: / k, χ, ŋ, c, ɲ, đ, th , n, b, f, m, d, ʐ, l, S, h/. Về âm cuối: gồm một số phụ âm và hai bán âm + Các phụ âm cuối, cả tiếng Việt và tiếng Khmer cùng có các âm vị âm cuối là các phụ âm: /c, ŋ, c, ɲ, n, t, m/. + Bán nguyên âm / -w/, / -j/ Thứ hai, tiếng Việt và tiếng Khmer điều thuộc điều thuộc loại hình ngôn ngữ đơn lập, không biến đổi hình thái. Từ luôn ổn định về mặt hình thức. Thứ ba, cũng như âm tiết tiếng Việt, âm tiết tiếng Khmer không thuần túy là đơn vị trống nghĩa. Đa số các từ trong tiếng Việt và tiếng Khmer được cấu tạo từ một âm tiết, tức đa số từ tiếng Việt và tiếng Khmer là từ đơn tiết và cũng có từ đa tiết. Các từ được tạo ra chủ yếu nhờ phương thức ghép và phương thức láy. Thứ tư, về mặt ngữ pháp, cả hai ngôn ngữ điều có trật tự ngữ pháp cơ sở là S-V-O (Subject Verb Object), với phương thức ngữ pháp chủ yếu là phương thức trật tự từ và phương thức hư từ.[14] 1.4.2. Những nét dị biệt Bên cạnh những nét tương đồng, hai ngôn ngữ có những nét khác biệt, những nét riêng, chỉ có ngôn ngữ này mà không có trong ngôn ngữ kia, và ngược lại. Thứ nhất, hệ thống âm vị phụ âm của tiếng Khmer còn có điểm khác với tiếng Việt ở chỗ, trong tiếng Việt, tất cả các phụ âm điều được phát âm theo vần /ơ/, còn trong tiếng Khmer, một số phụ âm được phát âm với vần /o/, một số âm được phát âm với vần /ô/. Sự khác nhau giữa phụ âm mang vần /o/ và phu âm mang vần /ô/ thể hiện trong sự tạo âm khi kết hợp với nguyên âm để tạo tiếng.
  • 42. 33 Thứ hai, tiếng Khmer có một số âm cuối mà tiếng Việt không có như: /d, ʐ, w, χ/. Tiếng Khmer không có âm cuối /p/ mà chỉ có âm cuối /f/. Thứ ba, trong khi tiếng Việt thể hiển rõ đặc điểm loại hình là tính phân tiết tính, mỗi âm tiết là đơn vị phát âm tự nhiên nhỏ nhất, có cấu tạo và phân giới rạch ròi với các âm tiết trước và sau nó. Tiếng Khmer chưa phải là một ngôn ngữ đơn âm tiết triệt để là là một ngôn ngữ cận âm tiết tính. Bởi lẽ trong tiếng Khmer vẫn còn hiện tượng giữa các âm tiết chưa có sự phân ranh giới rõ ràng. Đó là trường hợp các âm tiết ghép của tiếng Khmer. Các âm tiết ghép này được cấu tạo bởi âm tiết đơn mang trọng âm, cộng với một CV hay VC (trong đó, C là phụ âm, V là nguyên âm) không mang trọng âm phía trước. Thứ tư, tiếng Việt có thanh điệu với 6 thanh, còn tiếng Khmer là một ngôn ngữ không có thanh điệu, và âm tiết tiếng Khmer còn hiện tượng có tổ hợp các phụ âm đầu. Thứ năm, trong cấu tạo của âm tiết tiếng Việt, nguyên âm là thành tố chính tạo nên âm tiết, nghĩa là, âm tiết nhất thiết phải có nguyên âm, thậm chí một mình âm tiết chính nguyên âm cũng có thể làm thành âm tiết. Các mô hình cấu tạo âm tiết tiếng Việt có thể: CVVC, CVC, CV, VC, V (trong đó, C là phụ âm, V là nguyên âm – có thể là nguyên âm đơn hoặc nguyên âm đôi). Còn trong tiếng Khmer âm tiết có thể được tạo nên chỉ có các phụ âm mà không nhất thiết phải có nguyên âm. Như vậy, đảm nhiệm âm chính trong tiếng Khmer không chỉ là các nguyên âm mà còn là các phụ âm. Thứ sáu, trên phương diện ngữ pháp tiếng Việt và tiếng Khmer về cơ bản là giống nhau, từ từ loại đến cấu trúc ngữ pháp. Tuy nhiên cần lưu ý các đặc điểm khác biệt sau: Cấu tạo cụm danh từ trong tiếng Việt gồm thành tố chính, ba thành tố phụ trước và hai thành tố phụ sau. Cụ thể: Đại từ chỉ tổng lượng + Định từ + Định từ “cái” + Danh từ + Định ngữ miêu tả + Định ngữ chỉ xuất Ví dụ: Tất cả những cái tên đẹp đẽ ấy
  • 43. 34 Như vậy trong cấu tạo cụm danh từ tiếng Việt, ta thấy phụ từ chỉ số lượng đứng trước danh từ làm thành tố chính. Cụm danh từ tiếng Khmer có cấu tạo: danh từ chính đi trước, và từ phụ đi sau (kể cả số từ), những yếu tộ phụ khách như tính từ, từ sở hữu và những mệnh đề quan hệ thường đứng giữa, Một cấu trúc khác: Danh từ + Định từ + Đại từ chỉ số lượng, theo trật tự thường gặp của ngữ danh từ.[14] Vídụ: 1.4.3. Khả năng xây dựng một hệ thống dịch tự động Dựa vào phân tích những đặc điểm tương đồng và những nét dị biệt giữa hai ngôn ngữ tiếng Việt và tiếng Khmer, ta thấy tiếng Việt và tiếng Khmer có nguồn gốc quan hệ họ hàng với nhau, cả hai điều thuộc điều thuộc loại hình ngôn ngữ đơn lập, không biến đổi hình thái, từ luôn ổn định về mặt hình thức, đa số từ là từ đơn tiết và cũng có từ đa tiết, các từ được tạo ra chủ yếu nhờ phương thức ghép và phương thức láy, về mặt ngữ pháp, cả hai ngôn ngữ điều có trật tự ngữ pháp cơ sở là S-V-O (Subject Verb Object). Về nét dị biệt giữa hai ngôn ngữ chủ yếu về âm vị, thanh điệu các khác biệt khác không lớn. Từ những đặc điểm trên, việc xây dựng hệ dịch tự động giữa hai ngôn ngữ tiếng Việt – tiếng Khmer hoàn toàn thực hiện được. 1.5. HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY 1.5.1. Hiện trạng Tiếng Khmer được đưa vào giảng dạy tại các trường tiểu học, trường Trung học cơ sở và dạy trường Trung học phổ thông tại các trường dân tộc Tiếng Việt Tiếng Khmer Tất cả ba con bò bò ba tất cả
  • 44. 35 nội trú nhằm giúp học sinh dân tộc Khmer hình thành và phát triển các kỹ năng giao tiếp bằng tiếng mẹ đẻ. Hiện nay, tại các tỉnh có đông đồng bào dân tộc Khmer sinh sống đã có các chương trình phát thanh, truyền hình, báo, các ấn phẩm bằng tiếng Khmer, tin học đã được đưa vào ứng dụng trong việc biên soạn sách giáo khoa, tài liệu, biên soạn các ấn phẩm báo chí, sản xuất các chương trình phát thanh truyền hình phục vụ cho đồng bào dân tộc Khmer. 1.5.2. Một số kết quả hiện có Đã có một số kết quả ứng dụng tin học vào phục vụ đời sống đồng bào Khmer - Font tiếng Khmer, có nhiều loại font Unicode hỗ trợ tiếng Khmer như: Khmer OS, Khmer Limon, NiDA, Zero-Space, itCity, … những bộ font này không được tích hợp sẵn trong hệ điều hành Windows, khi muốn sử dụng phải cài đặt. Nếu không muốn cài đặt các bộ font này người dùng có thể sử dụng font “DaunPenh” là font Unicode hỗ trợ tiếng Khmer do Microsoft đã cài đặt sẵn trong hệ điều hành: Windows Vista, Windows 7, Windows 8, Windows Server 2008. Có rất nhiều bộ gõ hỗ trợ font Unicode như: Khmer Unicode của NiDA, Khmer Limon, Khmer Unicode của Microsoft,… mỗi bộ gõ điều có cách gõ khác nhau, không thống nhất với nhau, tùy theo thói quen mà người sử dụng chọn bộ gõ phù hợp.
  • 45. 36 Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA - Website tiếng Khmer, hiện nay đã có các website hỗ trợ tiếng Khmer nhằm đưa thông tin tới đồng bào: website báo cần thơ (http://www.baocantho.com.vn/khmer/), website cổng thông tin điện tử Trà Vinh (http://www.travinh.gov.vn/wps/portal/khmer), website trường Đại học Trà Vinh (http://kh.tvu.edu.vn/). 1.5.3. Nhu cầu xử lý ngôn ngữ tiếng Khmer Hiện nay, nhu cầu việc xử lý ngôn ngữ tiếng Khmer là rất lớn. Việc xử lý ngôn ngữ sẽ giúp xây dựng được nhiều ứng dụng phục vụ mục đích học tập, nghiên cứu và bảo tồn chữ viết Khmer như từ điển đa ngữ, các giáo trình điện tử hỗ trợ dạy học tiếng Khmer, các chương trình dịch tự động Việt - Khmer phục vụ cho các đài phát thanh, truyền hình nhằm giúp đồng bào có nhiều thông tin hữu ích, nhận thức đầy đủ hơn các chủ trương của Đảng, chính sách của Nhà nước.
  • 46. 37 1.6. NGỮ LIỆU SONG NGỮ 1.6.1. Khái niệm Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368). “Ngữ liệu” ở đây có thể xem là những “dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ. Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ và ngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ. Ngữ liệu song ngữ là ngữ liệu tồn tại dưới 2 ngôn ngữ và chúng là bản dịch của nhau.[2] 1.6.2. Vấn đề thu thập dữ liệu song ngữ Trong các nghiên cứu về dịch máy, ngữ liệu song ngữ là một thành phần thiết yếu quan trọng không thể thiếu. Chất lượng của ngữ liệu song ngữ đóng vai trò quyết định đến chất lượng đầu ra của hệ dịch. Hệ dịch sẽ không thể cho kết quả tốt nếu ngữ liệu song ngữ sử dụng trong quá trình huấn luyện có chất lượng không tốt cho dù được áp dụng các phương pháp học máy tiên tiến nhất. Ngữ liệu song ngữ có thể được thu thập từ nhiều nguồn bao gồm. Tổng quát, có thể chia các nguồn này thành hai loại, nguồn ngữ liệu ở dạng giấy viết và nguồn ngữ liệu dạng điện tử. Ngữ liệu song ngữ ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc tìm kiếm loại ngữ liệu này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức. Với phát triển bùng nổ của công nghệ thông tin và Internet, các ngữ liệu song ngữ dưới dạng điện tử hiện đang tồn tại khá phong phú ở nhiều dạng. Một nguồn ngữ liệu thường được khai thác để xây dựng ngữ liệu song ngữ là
  • 47. 38 các trang web song ngữ. Với sự phát triển bùng nổ của Internet, số lượng các trang web song ngữ ngày càng lớn và việc sử dụng kĩ thuật web-mining để trích rút các ngữ liệu song ngữ từ các trang web song ngữ đã được khá nhiều nhóm nghiên cứu trên thế giới quan tâm. [19] 1.6.3. Công cụ xây dựng kho ngữ liệu song ngữ Hiện nay có rất nhiều công cụ cho phép lưu trữ và khai thác dữ liệu để xây dựng các kho dữ liệu song ngữ như XML, HTML, các hệ quản trị như MS Access, SQL Server, MS Word, Oracle,... Theo khuyến cáo của các nhà tin học và các công ty phần mềm hàng đầu hiện nay thì XML được xem là một chuẩn rất tốt dành cho các dữ liệu đa ngữ. Đặc điểm của XML là có cấu trúc mềm dẻo, dễ sử dụng và khai thác được trên nhiều hệ thống máy tính khác nhau (nó được lưu trữ dưới dạng tập tin dữ liệu dạng text), dung lượng nhỏ và dễ chuyển đổi sang các dạng thức khác.[2] Vì vậy, XML rất phù hợp để xây dựng kho ngữ vựng Việt – Khmer phục vụ cho hệ thống dịch của đề tài. 1.6.4. Một số dữ liệu song ngữ Việt – Khmer Kho dữ liệu song ngữ hay đa ngữ thường được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tự động, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ,... Hiện nay, việc nghiên cứu trên thế giới đã được thực hiện với các cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa,.. Về tiếng Việt, các kho dữ liệu cũng được xây dựng với đa số ngôn ngữ của các nước khác như Việt – Anh, Việt – Pháp, Việt – Hoa, hay Việt – Anh – Pháp, Nhật – Anh – Việt, Hàn – Anh – Việt… Vấn đề số hóa cho tiếng dân tộc thiểu số ở Việt Nam đang chỉ mới bắt đầu trong những năm gần đây, số lượng các công trình cũng rất ít. Đa số các bộ từ điển được nghiên cứu và thực hiện biên soạn trên từ điển giấy.
  • 48. 39 Hiện nay, có từ điển song ngữ tiếng Khmer được biên soạn chủ yếu là từ điển giấy, như quyển từ vựng Việt – Khmer khoảng 16.000 từ và quyển Khmer – Việt khoảng 15.000 từ của tác giả Ngô Chân Lý do nhà xuất bản Thông Tấn xuất bản, về từ điện điện tử có từ điển trực tuyến đa ngôn ngữ tại địa chỉ (http://vi.glosbe.com) hiện tại từ điển có khoảng 3.697 từ, chưa có từ điển điện tử khác được công nhận, nếu có chỉ là một số một số nghiên cứu thuộc về các luận văn kỹ sư, thạc sĩ mang tính nghiên cứu, chưa được nghiệm thu và công nhận áp dụng thực tế.