SlideShare a Scribd company logo
1 of 26
Download to read offline
1
PHẦN MỞ ĐẦU
Những năm gần đây, xử lí ngôn ngữ tự nhiên đã trở thành một lĩnh
vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng
dụng liên quan đến Internet và Web, như tìm kiếm và trích chọn
thông tin trên Web, khai phá văn bản, v.v. Vấn đề phân tích và hiểu
tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn
ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lí văn bản
tự động. Quá trình này thường được chia thành các mức cơ bản: mức
ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng
và mức diễn ngôn. Để giải quyết các vấn đề trên, nhiều kho ngữ liệu
lớn đã được ra đời phục vụ cho việc huấn luyện các mô hình xử lý
ngôn ngữ. Hiện nay khi dữ liệu trên Internet rất nhiều thì các mô
hình thống kê dựa trên dữ liệu đã cho thấy tính vượt trội so với cách
tiếp cận dựa trên luật. Hiện tại, các kho ngữ liệu lớn phục vụ cho
tiếng Việt còn hiếm. Vì vậy việc xây dựng, chuẩn hóa và khai thác
kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt là rất cần thiết.
Mục tiêu. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt:
- Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ
Internet.
- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.
- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng.
- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán
phân tích cú pháp tiếng Việt.
Phạm vi nghiên cứu của luận án. Để đạt được mục đích trên, phạm
vi nghiên cứu của luận án tập trung vào mức hình thái và mức cú
pháp, cụ thể là:
- Nghiên cứu về phương pháp và thuật toán xây dựng kho ngữ
liệu thô tiếng Việt từ Internet.
- Nghiên cứu xây dựng và triển khai một số chuẩn hóa mô hình
chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4
cho tiếng Việt phục vụ việc phân phối và trao đổi ngữ liệu.
- Khai thác kho ngữ liệu thô và xây dựng bộ quan hệ ngữ pháp cơ
2
1.1
1.2
- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn
phạm từ kho ngữ liệu đã chú giải cú pháp phục vụ cho phân tích
cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp
xác suất (PCFG) và văn phạm kết nối cây (TAG). Nghiên cứu
xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt.
Bố cục của luận án: Luận án được chia thành năm chương: Chương
1. Tổng quan về kho ngữ liệu; Chương 2. Xây dựng kho ngữ liệu thô
từ Internet; Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt;
Chương 4. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng
Việt; Chương 5. Khai thác kho ngữ liệu có chú giải cho phân tích cú
pháp tiếng Việt; Cuối cùng là phần kết luận của luận án.
CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU
Kho ngữ liệu văn bản
Kho ngữ liệu là một tập hợp lớn các văn bản.Thông tin ngôn ngữ
trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc
phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự
xuất hiện hoặc xác nhận các quy tắc trong mỗi ngôn ngữ. Kho ngữ
liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn
ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa
ngữ). Các văn bản trong đó có thể còn ở dạng thô- chưa được tách từ
và chú giải ngôn ngữ hoặc đã được tách từ, chú giải ngôn ngữ (mức
từ loại, mức cú pháp). Các kho ngữ liệu chú giải ở mức cú pháp còn
được gọi là ngân hàng cây cú pháp (treebank). Kho ngữ liệu có thể
thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo
khoa, Ineternet thông qua các trang web.
Xây dựng kho ngữ liệu văn bản
Qua khảo sát một số kho ngữ liệu lớn có chú giải trên thế giới cho
thấy việc xây dựng các kho ngữ liệu được thực hiện thông qua hai
phương pháp chính:
3
1.3
1.4
Thứ nhất: Thủ công hoặc bán thủ công, thực hiện qua hai bước
chính: Bước 1.Thu thập kho văn bản thô: Nguồn gốc thu thập dữ liệu
từ tạp chí, sách báo, báo điển tử, sách giáo khoa... Bước 2. Chú giải
ngôn ngữ: Công việc này có thể thực hiện thủ công hoặc sử dụng các
công cụ đã tồn tại.
Thứ hai. Xây dựng tự động từ Internet, thực hiện qua 5 bước
chính: Bước 1.Lựa chọn một danh sách các từ hạt giống có tần suất
xuất hiện trung bình. Bước 2.Thu thập dữ liệu từ Web bằng cách sử
dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm
kiếm như Yahoo và Google và tải các trang kết quả về. Bước 3.Làm
sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu
khác. Bước 4.Loại bỏ các văn bản trùng lặp. Bước 5.Chú giải ngôn
ngữ và chuẩn hóa.
Chuẩn hoá kho ngữ liệu
Vấn đề chuẩn hoá mô hình chú giải kho ngữ liệu là vấn đề quan
trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác
tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được
quan tâm bởi tiểu ban kĩ thuật ISO/TC 37/SC 4. Một số mô hình chú
giải kho ngữ liệu được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC
4 như như mô hình chú giải hình thái cú pháp (MAF -
Morphosyntactic Annotation Framework), mô hình chú giải cú pháp
(SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn
ngữ (LAF - Linguistic Annotation Framework), mô hình chú giải ngữ
nghĩa (SemAF – Semantic Annotation Framework).
Khai thác kho ngữ liệu
Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu
và xử lý ngôn ngữ tự nhiên. Với kho ngữ liệu văn bản, đã được tách
từ hoặc là kho ngữ liệu đã được chú giải ở các mức cú pháp, có thể
khai thác làm dữ liệu huấn luyện và dữ liệu đánh giá cho cho các mô
hình và công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho
các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác
cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động..v.v.
4
1.5 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt
Xây dựng: Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có
kích thước càng lớn càng tốt. Ý tưởng chủ đạo của phương pháp xây
dựng kho ngữ liệu là thu thập tự động kho ngữ liệu văn bản từ
Internet thông qua địa chỉ các trang web (URL). Phương pháp sử
dụng ở đây về cơ bản giống như phương pháp đã được sử dụng cho
tiếng Anh và một số ngôn ngữ phổ biến khác, được chi thành 5 bước
chính như trên.
Vấn đề quan trọng cần làm là lập danh sách từ hạt giống cho từng
ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán
từng bước đã được phát triển và lựa chọn, đặc biệt thuật toán trích rút
tự động nội dung văn bản trang web đã được cải tiến nhằm giảm
thiểu những dữ liệu nhiễu không phải nội dung văn bản cần lấy.
Chuẩn hoá kho ngữ liệu: Hiện nay, các mô hình chú giải ngôn
ngữ MAF, SynNaf, LAF chưa được nghiên cứu biểu diễn cho tiếng
Việt. Trong luận án đưa ra mô hình MAF để biểu diễn chú giải hình
thái cú pháp của các từ và mô hình SynNaf để biểu diễn chú giải cây
cú pháp của các câu cho tiếng Việt.
Khai thác kho ngữ liệu: Trong luận án tác giả đi sâu vào khai thác
kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp tiếng Việt:
- Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu
Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do;
Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép
người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp
thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, tra
cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự
nha v.v. Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau
nhưng chưa được sử dụng cho tiếng Việt. Thứ 2: Đối với tiếng Việt,
các nhà làm từ điển hiện nay thường mới chỉ có công cụ để tra cứu
ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự
động để so sánh, chọn lọc các ngữ cảnh. Việc sử dụng một bộ công
5
1.6
cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy
mô và chất lượng từ điển
- Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp, hay còn
gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ
thể nào đó. Đối với tiếng Việt, với dự án KC01.01/06-10 đã tồn tại
một số kho ngữ liệu tiếng Việt như ngân hàng câu chú giải cú pháp
(VietTreeBank), từ điển điện tử…Trong luận án đã đi sâu vào nghiên
cứu và xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh
(CFG) và văn phạm kết nối cây (TAG) từ VietTreebank và từ điển
cho tiếng Việt bởi lý do sau: Thứ nhất, từ điển và VietTreebank có
một cơ sở ngôn ngữ học vững chắc, nó bao gồm lý thuyết văn phạm
cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức
năng. Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu
ngôn ngữ học lẫn ngôn ngữ học tính toán. Trong tiếng Việt, sự ảnh
hưởng này được thể hiện điển hình qua các nghiên cứu của Vũ Dũng
và Cao Xuân Hạo. Thứ hai, văn phạm CFG là văn phạm tiêu biểu
được sử dụng trong bài toán phân tích cú pháp thành phần lần đầu
tiên đã được đề xuất bởi Chomsky. Đây chính là văn phạm đơn giản,
làm nền tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm
TAG - lớp văn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh
mạnh hơn các văn phạm phi ngữ cảnh, trong khi độ phức tạp thời
gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6
)). Văn
phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học.
Khả năng chuyển đổi một văn phạm LTAG sang các hệ hình thức
văn phạm hợp nhất khác như LFG (Lexical Functional Grammar)
hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng
minh.
Kết luận
Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ
liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác
kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí
của tiểu ban kỹ thuật ISO/TC 37/SC 4. Trên cơ sở đó xác định mục
6
2.1
2.2
tiêu cho việc xây dựng và khai thác kho ngữ liệu từ Internet cho
tiếng Việt
2. CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ
INTERNET
Giới thiệu
Chương này trình phương pháp xây dựng kho ngữ liệu thô tiếng
Việt từ Internet, phương pháp sử dụng được phát triển từ phương
pháp xây dựng cho tiếng Anh và một số tiếng phổ biến khác.
Xây dựng kho ngữ liệu thô
Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên
phương pháp của Aidan Finn và A.Kilgarriff, nhưng thuật toán thu
thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển
để phù hợp phù hợp với tiếng Việt. Về cơ bản, quá trình thu thập kho
ngữ liệu từ Internet được phát triển trong 5 bước đã giới thiệu ở mục
1.5.
2.2.1 Lựa chọn danh sách từ hạt giống
Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập
kho ngữ liệu văn bản của mỗi ngôn ngữ. Đây phải là các từ đặc trưng
cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có
tính phân biệt so với các từ trong ngôn ngữ khác. Đối với tiếng Việt,
danh sách từ hạt giống được thu thập từ việc phân đoạn từ của các
câu trong các trang Wiki tiếng Việt. Thuật toán phân đoạn từ đơn
giản được sử dụng là duyệt theo từng câu từ trái sang phải, chọn ranh
giới từ sao cho từ thu được có nhiều âm tiết nhất có thể so sánh với
danh sách từ đúng là từ tiếng Việt (word list). Cách lựa chọn này rõ
ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận
được cho mục đích lập danh sách tần suất từ; Sau đó lựa chọn từ hạt
giống từ danh sách tần suất; tiêu chí chọn từ hạt giống của mỗi ngôn
ngữ là khác nhau, đối với tiếng Việt tiêu chí được chọn là từ hạt
giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII,
các từ khác sẽ không được xét, các chữ số hoặc các mục không phải
kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo
chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất
7
được bỏ qua vì chúng thường được coi là các từ dừng (stop word)
đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất
thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống.
2.2.2 Thu thập địa chỉ URL
Về cơ bản, quá trình thu thập được thực hiện qua 2 bước. Bước1.
Sinh truy vấn: Lựa chọn ngẫu nhiên một số từ trong số các từ hạt
giống để tạo nên một truy vấn. Bước 2.Thu thập URL: Gửi truy vấn
tới một máy tìm kiếm. Tải về tất cả các tài liệu kết quả của máy tìm
kiếm và lưu lại. Quá trình này được lặp đi lặp lại nhiều lần cho đến
khi kho ngữ liệu đủ lớn. Nếu nhiều URL giống nhau thì loại bỏ và
chỉ giữ lại một URL.
2.2.3 Lọc nội dung chính của các trang web (URLs)
Chỉ thu lấy các trang HTML và có dung lượng lớn hơn 5 KB (để
xác suất các tệp này chứa văn bản liên quan là lớn hơn). Các tệp có
dung lượng lớn hơn 2 MB cũng được loại bỏ để tránh bất kì tệp
thuộc miền đặc biệt nào thống trị thành phần của kho ngữ liệu, và
cũng bởi vì các tập tin có độ lớn này là rất thường xuyên đăng nhập
vào các tập tin và văn bản không có kết nối khác; Những trang được
tải về bao hàm cả các dấu của HTML, văn bản ‘boilerplate’ các
thanh menu, quảng cáo.... Đó là các phần tài liệu không hợp pháp,
tạm gọi là phần đánh dấu.Thuật toán rút trích phần thân văn bản BTE
(Body Text Extraction) (Thuật toán 2.5) được phát triển từ thuật toán
gốc của Aidan Fin - loại bỏ những phần đánh dấu và chỉ trích rút
những văn bản được kết nối. Độ phức tạp của thuật toán là O (n2
).
Sau đây là các bước chính trong thuật toán:
Bước 0: Mỗi trang web tương ứng với 1 tệp định dạng HTML.
Làm sạch mã HTML bằng cách loại bỏ những thẻ, những đoạn mã
HTML chắc chắn không chứa thông tin liên quan đến nội dung như
các thẻ <input>, <script>, <img>, <marquee>,<!--...-->, <iframe>…
và phần nội dung HTML nằm bên ngoài cặp thẻ <body></body> của
mỗi trang web.
Bước 1: Đối với phần trang web còn lại, xây dựng hai mảng,
binary_tokens[] và tokens[]; Binary_tokens[] gồm các phần tử 1 (thẻ
8
HTML) và -1 (dấu hiệu văn bản);Tokens[] là mảng gồm các phần tử
là các dấu hiệu văn bản/thẻ tương ứng với các phần tử trong
binary_tokens[]; Gộp các phần tử liền nhau có giá trị giống nhau
trong mảng binary_tokens[] lại làm thành một phần tử lưu vào mảng
encode[];
Bước 2: Xác định vị trí hai điểm i, j từ mảng binary.tokens[]vừa
thu được ở bước 1 sao cho số phần tử -1 (tương ứng với dấu hiệu văn
bản) giữa [i,j] là lớn nhất và số phần tử 1 (tương ứng với thẻ) ngoài
khoảng [i,j] là lớn nhất. Tiến hành bóc tách dữ liệu trong đoạn [i,j] và
loại bỏ các thẻ HTML.
Chỉ thu thập nội dung văn bản các trang web có đủ độ lớn và đã
kiểm tra tính kết nối.Các trang web thu về sẽ được kiểm tra xem có
độ lớn thỏa mãn (>5KB và <2MB)?, nếu có thì thuật toán BTE mới
thực hiện để trích rút lấy nội dung văn bản chính;
Thử nghiệm và đánh giá thuật toán BTE
Bảng 2. 3. So sánh tỷ lệ “Thân văn bản cần lấy/ toàn bộ nội dung văn
bản trích rút được”
Loại trang web Thuật toán cải tiến Thuật toán của Aidan.Fin
Dantri 99.02% 47.12%
VietnamNet 99.67% 65.71%
VnExpress 99.00% 48.87%
Tỷ lệ về “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản
trích rút được” của 3 loại địa chỉ trang web được nhiều người truy
cập và có uy tín nhất ở Việt Nam được chỉ ra ở Bảng 2.3. Phần văn
bản thu được trên cùng một trang web (100 trang) đối với hai thuật
toán cho thấy, với thuật toán BTE cải tiến cho kết quả tốt hơn, đã
loại bỏ được hết các mã HTML trong khi thuật toán cũ của Aidam
Finn vẫn còn một số thẻ script nằm giữa đoạn văn bản nào đó.
9
2.3
3.1
3.2
3.3
2.2.4 Phát hiện sự trùng lặp gần nhau
Trong luận án, sử dụng modul Text::DeDuper1
viết bằng Perl để
phát hiện tài liệu gần trùng lặp nhau. Modul này sử dụng độ đo độ
giống nhau như đề xuất của Broder.
2.2.5 Xây dựng công cụ và triển khai thu thập kho ngữ liệu
Công cụ Vncopus được phát triển bằng ngôn ngữ Java kết hợp với
Python, dựa trên các thuật toán thu thập địa chỉ URL, lọc nội dung
chính của các trang web đồng thời tích hợp công cụ xác định trùng
lặp gần nhau (trình bày ở phần trên) và gán nhãn từ loại đã có sẵn.
Triển khai thu thập kho ngữ liệu thô tiếng Việt có kích thước 1.09
GB (khoảng 100 triệu từ).
Kết luận
Trong chương này luận án đã phát triển thuật toán thu thập dữ liệu
từ web cho phù hợp với tiếng Việt để xây dựng kho ngữ liệu. Xây
dựng công cụ tự động thu thập kho ngữ liệu từ Internet có tên là
Vncopus; Thử nghiệm và đánh giá thuật toán cải tiến.
3. CHƯƠNG 3.CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG
VIỆT
Mô hình MAF của ISO/TC 37/SC 4
Phần này trình bày mô hình chú giải hình thái cú pháp MAF
được phát triển bởi ISO/TC 37/SC 4.
Mô hình SynAF của ISO/TC 37/SC 4
Phần này trình bày mô hình chú giải hình thái cú pháp SynAF
được phát triển bởi ISO/TC 37/SC 4.
Chuẩn hóa mô hình chú giải tiếng Việt
3.3.1 Chuẩn hóa theo mô hình MAF
Thông tin hình thái cú pháp tiếng Việt chủ yếu dựa vào hình thái
từ, phân loại từ, phân loại cụm, cú pháp (ví dụ từ loại của từ có thể là
danh từ, động từ, tính từ…) mà không phụ thuôc vào giống, số, cách
1
http://search.cpan.org/~janpom/Text-DeDuper 1.01/lib/Text/DeDuper.pm#NAME
10
…như đối với các thứ tiếng khác. Do đó chúng ta có thể lựa chọn
chú giải nhúng cho tiếng Việt để đơn giản và tiện dụng. Ngoài ra,
việc phân chia tài liệu ra thành các từ riêng biệt (word Form), trong
tiếng Việt có đặc điểm khác với tiếng Anh và một số tiếng khác là
không thể dựa vào khoảng trắng (từ ghép), phải xây dựng phần mềm
tách từ riêng dựa vào đặc trưng của tiếng Việt để tách tài liệu ra
thành các thành phần, mỗi thành phần tương ứng với 1 từ tiếng việt.
Về cấu trúc chung của mô hình hình thái cú pháp cho tiếng Việt
trong luận án xây dựng tương tự như mô hình chú giải hình thái cú
pháp chuẩn quốc tế MAF do tiểu ban kĩ thuật ISO/TC 37/SC 4 phát
triển, tuy nhiên tại các thành phần cơ sở của mô hình trong luận án
có ánh xạ tới đặc điểm hình thái cú pháp mục từ trong tiếng Việt, cụ
thể là:
- Xác định đơn vị cơ sở (segment): Âm tiết tiếng Việt hay các
đơn vị token (dấu hiệu) khác.
- Mỗi hình thái từ (Word Form) có thể tham chiếu tới một mục
từ vựng trong từ điển, ví dụ từ điển tiếng Việt trên máy tính.
- Các thông tin hình thái – cú pháp gắn với mỗi từ: Cấu tạo từ
(đơn, ghép, láy, thành ngữ), từ loại, tiểu từ loại. Ở đây tác giả
xây dựng bảng danh sách các hạng mục dữ liệu để gán nhãn từ
loại cho tiếng Việt tham chiếu tới DCR (ISO 12620) dựa trên
tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”.
3.3.2 Chuẩn hóa theo mô hình SynAF
Lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý
thuyết ngữ pháp chức năng là cơ sở ngôn ngữ học vững chắc cho
việc chú giải cú pháp theo mô hình SynAF cho tiếng Anh, tiếng
Pháp, tiếng Đức, tiếng Ý…Đối với tiếng Việt, sự ảnh hưởng này
cũng được thể hiện qua các nghiên cứu của Vũ Dũng và Cao Xuân
Hạo. Do vậy, mô hình chú giải cú pháp SynAF của ISO cũng là cơ
sở tốt cho việc xây dựng mô hình chú giải cú pháp tiếng Việt. Việc
xây dựng mô hình chú giải cú pháp theo chuẩn hóa quốc tế cũng là
một nhiệm vụ cần thiết trong việc xây dựng và mở rộng treebank cho
tiếng Việt. Về cấu trúc chung của mô hình cho tiếng Việt
11
3.4
4.1
(VnSynAF) tương tự như trong mô hình chú giải cú pháp chuẩn quốc
tế SynAF. Mô hình VnSynAF là một lược đồ mã hóa dựa trên định
dạng XML có thể sử dụng trong việc định dạng và mã hoá treebank
cho tiếng Việt. Về cấu trúc chung của mô hình này trong luận án sử
dụng tương tự như trong SynAF:
- Mỗi nút T Node biểu diễn một từ vựng tiếng Việt tương ứng
trong một wordform.
- Nút NT dùng để biểu diễn các thành phần không kết thúc như
từ loại, cụm từ, nhãn quy ước cho các dấu. Sử dụng các hạng
mục nhãn hình thái (từ loại), nhãn cú pháp thành phần, nhãn
phân loại câu để gán nhãn cho các nút NT.
- Các cung (edge) dùng để liên kết giữa các nút, biểu diễn chức
năng của một thành phần cú pháp, cho biết vai trò của nó trong
thành phần cú pháp mức cao hơn, nhờ đó giúp chúng ta biết
được quan hệ ngữ pháp giữa các nút, như là chủ ngữ, vị ngữ,
tân ngữ. Sử dụng hạng mục nhãn chức năng cú pháp để gán
nhãn cho các cung.
Trong phần này tác giả xây dựng bảng danh sách các hạng mục dữ
liệu, nhãn từ loại, nhãn cú pháp thành phần, nhãn phân loại câu, nhãn
chức năng cú pháp cho tiếng Việt tham chiếu tới DCR (ISO 12620)
dựa trên tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”
Kết luận
Xây dựng và triển khai các mô hình chú giải kho ngữ liệu tiếng
Việt ở mức hình thái-cú pháp (MAF) và mức phân tích cú pháp cho
tiếng Việt có tên là VnSynAF tương thích với mô hình MAF và
SynAF được phát triển bởi ISO/TC 37/SC 4.
4. CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO
NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT
Giới thiệu
Chương này trình bày việc khai thác kho ngữ liệu thô tiếng Việt có
khối lượng lớn đã được tách từ và gán nhãn từ loại cho hệ thống truy
vấn kho ngữ liệu Sketch Engine, phục vụ việc nghiên cứu từ vựng.
12
Để khai thác được thông tin ngôn ngữ, ngữ cảnh, hành vi của mỗi từ
hệ thống còn đòi hỏi bộ quan hệ ngữ pháp cơ bản tiếng Việt, ở đây
luận án cũng xây dựng các mối quan hệ ngữ pháp cho Sketch Engine
dựa trên đặc điểm ngữ pháp cơ bản tiếng Việt.
4.1.1 Nghiên cứu từ vựng
Mục tiêu mà nghiên cứu từ vựng nhắm tới là để xem xét ngữ cảnh,
nghiên cứu hành vi của mỗi từ, cụ thể là: Tìm kiếm các cụm từ xung
quanh một từ; Khả năng xuất hiện của các từ xung quanh một từ;
Các mẫu ngữ pháp xuất hiện xung quanh một từ; Sắp xếp các từ theo
các tiêu chí khác nhau; Xác định các kho ngữ liệu con cho việc tìm
kiếm; Xác định từ hiếm; So sánh nghĩa của các từ gần giống nhau…
Để khai thác thông tin về từ vựng phục vụ cho các mục tiêu trên
trong luận án sử dụng hệ thống truy vấn kho ngữ liệu Sketch Engine
4.1.2 Sketch Engine
Hệ thống Sketch Engine là một trong những hệ thống truy vấn kho
ngữ liệu phục vụ cho việc nghiên cứu và phân tích ngôn ngữ, đã
được sử dụng cho nhiều ngôn ngữ khác trên thế giới. Trong đó,
Word Sketch, tiền thân của hệ thống Sketch Engine, thay vì chỉ đưa
ra tất cả các ngữ cảnh văn bản xung quanh một từ trong tiếng Anh,
Word Sketch cho phép người sử dụng xem xét ngữ cảnh theo quan
hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo
mỗi quan hệ ngữ pháp. Word Sketch đã được Kilgarriff phát triển
thành hệ thống Sketch Engine - hệ thống có thể nhận đầu vào là kho
ngữ liệu của bất cứ ngôn ngữ nào cùng với bộ mẫu ngữ pháp tương
ứng. Ngoài chức năng của Word Sketch, hệ thống còn cung cấp thêm
các chức năng: Thesaurus. Cho phép tra cứu các từ đồng và phản
nghĩa và Sketch Difference. Cho phép so sánh thông tin của hai từ
tương tự nhau.
Hiện thời, Skech Engine đã trở thành một hệ thống truy vấn kho
ngữ liệu đã được thử nghiệm trên nhiều ngôn ngữ khác nhau (Anh,
Séc, Nhật, Trung, Nga, Xlôven...) và được đánh giá là có hiệu quả tốt
trong việc xây dựng từ điển, việc nghiên cứu và thực hành ngôn ngữ.
13
4.2
4.1.3 Ngữ liệu trong Sketch Engine
Sketch Engine đòi hỏi phải xây dựng được ngữ liệu của mỗi ngôn
ngữ cụ thể cho hệ thống, đó là bộ quan hệ ngữ pháp cơ bản của mỗi
ngôn ngữ được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu
bên cạnh kho ngữ liệu lớn của các văn bản đã được chú giải ít nhất ở
mức từ loại. Để xác định quan hệ ngữ pháp giữa các từ, Sketch
Engine cần biết làm thế nào tìm được các từ kết nối với nhau theo
một quan hệ ngữ pháp trong ngôn ngữ đang xét.
Xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine
Để sử dụng được cho nghiên cứu từ vựng tiếng Việt, Sketch
Engine đòi hỏi phải xây dựng được: Kho ngữ liệu tiếng Việt có kích
thước lớn được tách từ và gán nhãn từ loại. Bộ quan hệ ngữ pháp cơ
bản tiếng Việt được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ
liệu.
4.2.1 Tách từ và gán nhãn từ loại
Đối với tiếng Việt, để thu được kho ngữ liệu chú giải mức từ loại
và hướng tới chuẩn mã hóa XML, trong luận án đã sử dụng phần
mềm gán nhãn từ loại tiếng Việt có tên là vnTagger2
của nhóm tác
giả Lê Hồng Phương.
4.2.2 Xây dựng bộ quan hệ ngữ pháp cho tiếng Việt
Đối với tiếng Việt, chúng ta chưa có kho ngữ liệu lớn đã phân tích
cú pháp nên phải sử dụng khả năng thứ hai để xây dựng tập các quan
hệ ngữ pháp. Hệ hình thức dùng cho các quan hệ ngữ pháp của
Sketch Engine dựa trên cơ sở các mẫu xâu theo biểu thức chính quy,
do đó phù hợp với các ngôn ngữ có trật tự từ ổn định, như tiếng Anh
chẳng hạn, tiếng Việt cũng là một ngôn ngữ trong đó trật tự từ đóng
vai trò quan trọng. Dựa vào đó, luận án xây dựng bộ quan hệ ngữ
pháp tiếng Việt tương ứng với cấu trúc ngữ pháp cơ bản tiếng Việt,
đó là, cụm danh từ, cụm động từ, cụm phó từ, cụm giới từ, liên hợp
và câu đơn, được biểu diễn thông qua các dạng truy vấn. Trong Luận
2
http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger
14
án xây dựng được 37 quan hệ ngữ pháp tương ứng với 37 dạng truy
vấn.
4.2.3 Khai thác kho ngữ liệu cho Sketch Engine
Để có thể sử dụng được hệ thống Sketch Engine cho nghiên cứu từ
vựng tiếng Việt thì yêu cầu phải tích hợp kho ngữ liệu tiếng Việt có
kích thước lớn thu thập từ Internet và bộ quan hệ ngữ pháp tương
ứng vào hệ thống; Hình 4.1, minh họa cho việc khai thác kho ngữ
liệu tiếng Việt phục vụ cho việc thống kê tần suất và tính trội của các
từ lân cận với một từ bất kỳ. Trong đó, tính trội được thống kê theo
tỷ lệ của việc quan sát thực tế với giả thiết đảo (của các từ lân cận
cùng xuất hiện với một từ bất kỳ) thông qua công thức T-score hoặc
MI-score; Hình 4.2, minh họa việc liệt kê một số danh sách quan hệ
ngữ pháp xuất hiện xung quanh hai tính từ có nghĩa gần tương tự
nhau ”đẹp” và ”xinh”, trong đó mỗi danh sách thống kê tần suất và
tính trội của các từ lân cận với 2 từ này trong mỗi quan hệ ngữ pháp
(tương ứng tần suất là cột thứ 2,3; tính trội là cột thứ 4,5). Ngoài ra
trong bảng còn có một số danh sách quan hệ ngữ pháp chỉ xuất hiện
xung quanh duy nhất một từ (”đẹp” only patterns) hoặc (”xinh” only
patterns), trong đó mỗi danh sách liệt kê các từ cùng tần xuất và tính
trội xuất hiện xung quanh chỉ tính từ ”đẹp” hoặc chỉ tính từ ”xinh”.
Các thông tin này có thể giúp người nghiên cứu từ vựng, xây dựng từ
đưa ra được sự giống nhau, khác nhau khi sử dụng 2 từ này; Hình
4.3, minh họa cho việc khai thác kho ngữ liệu và bộ quan hệ ngữ
pháp- cho phép liệt kê một số danh sách quan hệ ngữ pháp xuất hiện
xung quanh từ khóa (ví dụ tính từ “đẹp”). Trong đó, mỗi danh sách
liệt kê các từ và cùng tần suất và tính trội của các từ trong cùng mối
quan hệ ngữ pháp với từ khóa. Sau đây là liệt kê mộ số danh sách:
Danh sách N_front_modifier_A: Danh sách các danh từ ở phía trước
mà tính từ “đẹp” bổ nghĩa; Danh sách A_after_modifies_A: Danh
sách các tính từ phía sau bổ nghĩa cho tính từ “đẹp”; Danh sách
R_front_modifies_A: Danh sách các phụ từ phía trước bổ nghĩa cho
15
tính từ “đẹp”; Danh sách predicate_of: Danh sách các từ mà tính từ
"đẹp" làm vị ngữ.
Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính
từ “đẹp”
Hình 4. 2 Phác thảo thông tin của 2 từ ”đẹp”, ”xinh”
16
4.3
Hình 4. 3. Một số bảng danh sách từ có quan hệ ngữ pháp với tính từ
“đẹp”
4.2.4 Đánh giá độ tương tích bộ quan hệ ngữ pháp và kho ngữ
liệu tiếng Việt trên hệ thống Sketch Engine
Kết quả cho thấy độ tương thích của bộ quan hệ ngữ pháp và kho
ngữ liệu tiếng Việt trên hệ thống Sketch Engine là 100%, mọi truy
vấn của bộ quan hệ ngữ pháp cơ bản tiếng Việt đã phù hợp với hệ
thống Sketch Engine, các ngữ cảnh trong kho ngữ liệu phù hợp với
mỗi truy vấn. Hệ thống Sketch Engine có thể sử dụng để nghiên cứu
từ vựng cho tiếng Việt, mọi chức năng của hệ thống sử dụng cho
tiếng Việt cũng đáp ứng như đối với các ngôn ngữ khác.
Kết luận
Trong chương này luận án đã xây dựng bộ quan hệ ngữ pháp bản
tiếng Việt (37 quan hệ ngữ pháp) được biểu diễn thông qua ngôn ngữ
truy vấn kho ngữ liệu phục vụ cho hệ thống nghiên cứu từ vựng
Sketch Engine; Triển khai hệ thống Sketch Engine cho nghiên cứu từ
vựng tiếng Việt dựa trên bộ quan hệ ngữ pháp và kho ngữ liệu có chú
giải tiếng Việt. Đánh giá độ tương thích của bộ quan hệ ngữ pháp và
kho ngữ liệu tiếng Việt trên hệ thống Sketch Engine .
17
5.1
5.2
5.3
5. CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CHO PHÂN
TÍCH CÚ PHÁP TIẾNG VIỆT
Giới thiệu
Chương này đi sâu vào nghiên cứu và xây dựng thuật toán trích
rút tự động văn phạm CFG, LTAG từ VietTreebank và từ điển điện
tử phục vụ cho phân tích cú pháp tiếng Việt, cài đặt thử nghiệm và
đánh giá.
Văn phạm hình thức
Phần này trình bày định nghĩa văn phạm hình thức; Phân loại văn
phạm của Chomsky; Văn phạm phi ngữ cảnh (CFG) và văn phạm kết
nối cây (LTAG) trong xử lý ngôn ngữ tự nhiên.
Trích rút tự động văn phạm CFG cho tiếng Việt
5.3.1 Thuật toán trích rút từ VietTreebank
Phương pháp trính rút văn phạm phi ngữ cảnh kết hợp xác suất từ
VietTreebank sử dụng được tương tự như phương pháp của Roberto
Valenti và D.Jurafsky and Martin, về cơ bản quá trình trích rút được
thực hiện qua 3 bước chính: Trích rút các luật cho văn phạm CFG từ
Treebnk; Chuyển CFG thành phi ngữ cảnh kết hợp xác suất (PCFG);
Chuyển PCFG thu được thành văn phạm PCFG theo chuẩn
Chomsky. Tuy nhiên trong Bước 1 có một thay đổi về cài đặt: Sử
dụng Stack sẽ để lưu trữ tạm thời các luật trích rút từ mỗi cây phân
tích, độ phức tạp là O(n+m). Nếu đỉnh của Stack là 1 luật đầy đủ thì
lấy luật ra khỏi stack, nếu là luật đơn sinh ra từ kết thúc thì lấy ra
khỏi stack và tự động hủy luôn, ngược lại nếu không phải luật đơn
thì luật thu được đưa vào một mảng lưu trữ. Nếu luật không đầy đủ
thì tiếp tục bổ sung thêm vế phải. Xử lý bằng Stack dễ hiểu và đơn
giản hơn sử dụng đệ quy theo cách tiếp cận của Roberto Valenti và
D.Jurafsky and Martin.
5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG
Dựa theo phương pháp của Martin phần mềm phân tích cú pháp
cho tiếng Việt được phát triển thông qua 2 giai đoạn: Giai đoạn 1.
Thay cho việc tách từ thì gán luôn nhãn từ loại (đồng thời tách từ)
18
bằng cách sử dụng bộ công cụ gán nhãn từ loại đã có sẵn. Giai đoạn
2. Phân tích cú pháp của câu đã được tách từ và gán nhãn từ loại, bộ
phân tích cú pháp sẽ phân tích câu thành các cây cú pháp có thể và
cây có xác suất cao nhất sẽ được ưu tiên lựa chọn. Thuật toán tương
tự như thuật toán PCYK của D.Jurafsky and Martin, tuy nhiên ở
bước đầu trong thuật toán không cần phải tính toán xác suất từ loại
của mỗi từ, thay vào đó xác suất từ loại của mỗi từ được gán luôn là
1, vì theo cách tiếp cận này thì xác suất từ loại đối với mỗi từ là cố
định, không phụ thuộc vào việc tìm cây có xác suất cao nhất.
5.3.3 Thử nghiệm và đánh giá
Nhóm nghiên cứu đã tiến hành xây dựng phần mềm phân tích cú
pháp, trong đó có 2 chức năng chính, chức năng 1, trích rút tự động
các luật của văn phạm PCFG VietTreebank, chức năng 2, phân tích
cú pháp cho câu đầu vào bất kỳ dựa trên bộ luật của văn phạm
PCFG. Kết quả trích rút được chỉ ra ở ở Bảng 5.2, dữ liệu huấn luyện
được chia ra thành các vùng, trong đó F1,F2,F3, F4,F7, F8 là các
vùng chứa dữ liệu không giao nhau và là tập con của F9 F10 với
độ lớn khác nhau được lấy từ VietTreebank (6.78MB).
⊂
Bảng 5. 2. Số các luật thu được
Khối
Test dữ
liệu
Độ lớn
khối Test
(KB)
Tỷ lệ
(test/VietTreeba
nk)
Số luật
CNF Recall Precision
F1 129 0.01858 1274 0.6871 0.64117
F2 137 0.01973 1325 0.6593 0.68266
F3 169 0.02434 1884 0.7549 0.76713
F4 222 0.03198 1866 0.7186 0.71251
F5 413 0.05949 3007 0.7694 0.76071
F6 800 0.11523 5271 0.7808 0.79865
F7 867 0.12488 6409 0.7536 0.65968
F8 2682.88 0.38643 15696 0.7843 0.68908
F9 5478.4 0.78909 25560 0.7975 0.6961
F10 6010.88 0.86578 27577 0.8175 0.71505
19
5.4
Kết quả chạy chương trình cho thấy, trong VietTreebak vẫn còn
một số câu mắc lỗi định dạng. Số lượng luật CNF và độ chính xác
của bộ PTCP tăng dần theo kích thước của VietTreebank chứng tỏ
VietTreebank vẫn chưa đủ độ lớn. Điều này cho thấy VietTreebank
cần được mở rộng thêm.
Trích rút tự động văn phạm LTAG cho tiếng Việt
Phần này trình bày thuật toán rút trích tự động văn phạm LTAG từ
Treebank, đồng thời cũng trình bày kết quả chạy chương trình trích
rút tự động một văn phạm LTAG cho tiếng Việt từ VietTreebank và
từ điển điện tử tiếng Việt
5.4.1 Thuật toán trích rút từ VietTreebank
Về cơ bản, quá trình trích rút tự động văn phạm LTAG từ treebank
gồm ba bước. Thứ nhất, chuyển các cây cú pháp của treebank thành
các cây phân tích của hệ hình thức LTAG. Thứ hai, phân rã các cây
phân tích thu được ở bước một thành các cây cơ bản tương ứng với
ba mẫu cây được xác định trước. Cuối cùng là sử dụng tri thức ngôn
ngữ để lọc bỏ các cây cơ bản không hip lệ. Cách tiếp cận trích rút
văn phạm LTAG mà trình bày ở đây tương đối giống với phương
pháp trích rút văn phạm được đề xuất bởi Xia. Tuy nhiên, có một số
điểm khác nhau về phương pháp thiết kế và cài đặt thuật toán giữa
hai cách tiếp cận:
Thứ nhất, trong bước xây dựng cây phân tích, trước tiên xử lí toàn
bộ các cụm liên từ đẳng lập của cây cú pháp trước khi phân biệt các
thành phần đối và phụ trợ, thay vì xử lí đồng thời cả ba dạng cấu
trúc. Việc xử lí tuần tự này dễ hiểu và dễ cài đặt hơn vì các cụm đẳng
lập có cấu trúc khác với các cấu trúc đối và phụ trợ. Thứ hai, trong
bước trích rút cây cơ bản, không tách mỗi nút của cây thành hai
thành phần trên và dưới như trong cách tiếp cận của Xia. Các nút của
cây phân tích được sao chép trực tiếp sang các cây cơ bản. Việc sao
chép trực tiếp mà không tách nút làm tăng tính hiệu quả thời gian và
không gian của các thuật toán. Thứ ba, quá trình trích rút cây được
phân rã thành các thủ tục con, gọi tương hỗ qua lại để lặp lại quá
trình trích rút trên từng cây con có nút gốc chưa được xử lí. Các
20
hàmđệ quy tương hỗ được thiết kế kỹ lưỡng đảm bảo không có lời
gọi thừa, mỗi một nút của cây phân tích chỉ được xử lí một lần. Tính
hiệu quả và dễ tối ưu hoá của phương pháp “chia để trị” đã được
chứng minh và cài đặt thuật toán giữa hai cách tiếp cận.
Kết quả thử nghiệm:Văn phạm LTAG thu được đã phủ hoàn toàn
các cấu trúc cú pháp của treebank, số mẫu cây của văn phạm hội tụ
rất chậm cho thấy có nhiều cấu trúc cú pháp chưa được mã hoá trong
VietTreebank, nói cách khác là VietTreebank chưa đủ lớn hoặc chưa
đủ điển hình để phủ hết các mẫu cú pháp của tiếng Việt. Hình 5.12
minh hoạ số mẫu cây tăng dần theo kích thước của treebank được sử
dụng. Việc hội tụ rất chậm của số mẫu cây cho thấy kích thước hiện
tại của VietTreebank là chưa đủ lớn để phủ hết các mẫu cú pháp của
tiếng Việt. Nhóm nghiên cứu đã phát triển một chương trình phần
mềm có tên LExtractor cài đặt các thuật toán trích rút văn phạm ở
trên
Hình 5.12 trục x biểu diễn phần trăm kho văn bản được sử dụng để
trích rút văn phạm, trục y biểu diễn số lượng mẫu cây tổng thể( Δ ),
mẫu cây khởi tạo (о) và mẫu cây phụ trợ ( ) thu được
5.4.2 Xây dựng cây cơ bản LTAG từ từ điển tiếng Việt
Quan sát về cấu trúc từ điển tiếng Việt cho thấy, hiện tại, cú pháp
mỗi mục từ trong từ điển ở một trong hai dạng: Nếu là các từ không
phải là động từ thì chỉ tồn tại thông tin hạng mục từ loại và tiểu từ
loại của từ đó (danh từ, tính từ..);
21
Dựa vào đặc điểm của từ điển chúng ta có thể xây dựng các cây cơ
sở (cây khởi tạo) cho văn phạm LTAG tiếng Việt thông qua thông tin
hình thái, cú pháp của mỗi mục từ (một từ vựng có thể có nhiều mục
từ, mỗi mục từ tương ứng với một nghĩa, từ loại riêng).
Phần tiếp theo sẽ trình bày thuật toán trích rút cây cơ sở (ứng với
quan hệ vị từ-đối) của LTAG từ từ điển tiếng Việt.
Thuật toán trích rút cây cơ sở: Dựa vào thông tin của mỗi mục từ
Entry, kiểm tra xem trong thẻ cú pháp (<Syntactic>) có tồn tại thành
phần vị từ-đối (Subcategorization Frame) không? Nếu tồn tại thì xây
dựng 3 dạng cây cơ sở: 1.cây cơ sở là cụm từ cùng với từ loại, từ
vựng (ví dụ: “(VP (V đi))”), 2. các cây cơ sở là cụm từ tương ứng
cùng từ loại, từ vựng và các đối phía sau của từ loại đó (Ví dụ: “(VP
(V đi) (+PP))”, 3. cây cơ sở là một câu đơn (cú pháp thành phần) (ví
dụ: “(S (+NP) (VP (V đi) (+PP)))”). Nếu không tồn tại thì chỉ xây
dựng cây là cụm từ cùng với từ loại và từ vựng (ví dụ: “(AP (A đế
quốc))” hoặc “(AP (Ap đế quốc))”)
5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ
VietTreebank và từ điển
Để so sánh và đánh giá tập cây khởi tạo, NCS xây dựng phần mềm
với hai chức năng chính, chức năng thứ nhất là trích rút tự động các
cây cơ sở từ từ điển dựa vào thuật toán đã xây dựng; Chức năng thứ
hai là so sánh đưa ra các cây giao nhau, lệch nhau được sinh ra từ
cùng một số động từ trong các cây cơ sở của từ điển và
VietTreebank. Kết quả được cho ở ở Bảng 5.7. Trong đó cột (1) là
Bước thử nghiệm; cột (2) là các từ giao nhau; cột (3) là số cây cơ sở
của từ điển có neo là từ giao nhau; Cột (4) là số cây cơ sở của
VietTreebank có neo là từ giao nhau; Cột (5) là số cây cơ sở giao
nhau ; Cột 6 là tỷ lệ cây cơ sở trùng nhau so với các cây cơ sở của
VNTreebank. Cột (7) là tỷ lệ cây cơ sở trùng nhau so với các cây cơ
sở của từ điển; Cột (8) là trung bình số từ trên 1 cây cơ sở giao nhau
Bảng 5.7 cho thấy độ chênh lệch khá cao về các cây cơ sở giao
giữa từ điển và VietTreebank khi cùng bắt nguồn từ 1469 từ neo là
động từ, có thể kể đến một số nguyên nhân như: Trong VietTreebank
22
Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ
bản của VietTreebank
1 2 3 4 5 6 7 8
Từ loại
chung 1469 6355 3701 1481 40.02% 23.30% 0.999
Từ loại
chi tiết 1469 6963 3701 892 24.10% 12.81% 1.65
khi chú giải từ loại chưa nhất quán sử dụng từ loại chung hay tiểu từ
loại cho một từ vựng=> Trong VietTreebank nhãn từ loại của các từ
vựng cần thống nhất lại theo một tiêu chí chung (sử dụng từ loại
chung hay tiểu từ loại). Thuật toán trên mới xây dựng các cây cơ bản
là cây cơ sở (khởi tạo) từ từ điển còn các cây phụ trợ chưa được xây
dựng, bởi trong từ điển mới chú giải các thành phần phụ cho một
mục từ tương đối đơn giản. Trong từ điển hiện tại mới chú giải cú
pháp cho vị từ là động từ, chưa chú giải hết các trường hợp khác nên
số cây cơ bản sinh ra chưa bao phủ được nhiều cây cơ bản trong
VietTreebank, cần bổ sung thêm các khung vị từ khác (danh từ, tính
từ, giới từ) vào từ điển.
Danh sách các cây cơ bản thu được có trong VietTreebank không
có trong từ điển sẽ cung cấp tri thức ngôn ngữ để lọc một số cây cơ
bản không hợp lệ với quy tắc ngữ pháp khi trích rút từ VietTreebank
(do phần mềm trích rút tự động văn phạm LTAG), ví dụ, các cây (VP
(A tạm)); (S (VP (N nói)) (+NP)); (VP (N tai nạn) (+n));(VP (N
nước)), có một số cây cơ bản của VietTreebank có nhiều đối (nhiều
cây có nhiều hơn 4 đối) trong khi các cây cơ sở của từ điển có đối
nhiều nhất là 3.
Từ điển tiếng Việt cho máy tính được xây dựng từ các chuyên gia
ngôn ngữ, thông tin cú pháp của các từ vựng được trích rút từ đây là
khá chính xác. Bởi vậy sẽ tốt hơn cho bộ phân tích cú pháp nếu
chúng ta kết hợp văn phạm LTAG thu được từ từ điển và văn phạm
LTAG thu được của VietTreebank.
23
5.5. Kết luận
Trong chương này luận án đã xây dựng thuật toán, hệ thống trích
rút tự động các luật văn phạm PCFG từ VietTreebank, đồng thời xây
dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương
pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú
pháp đã được cải tiến từ thuật toán PCYK của D.Jurafsky and
Martin, hệ thống này có tên là VNNLP; Nghiên cứu về văn phạm
LTAG, thuật toán trích rút tự động các luật văn phạm LTAG. Thực
hiện trích rút tập cây cú pháp LTAG tiếng Việt. Triển khai và xây
dựng thuật toán trích rút cây cơ bản của LTAG từ từ điển tiếng Việt.
So sánh, đánh giá tập cây cơ bản trích rút từ VietTreebank, lọc ra các
cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt.
6. KẾT LUÂN
1.Các kết quả đã đạt được
Kết quả nghiên cứu của luận án có ý nghĩa về khoa học và thực tiễn
với các đóng góp mới như sau:
- Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây
dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho
ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho
ngữ liệu thô tiếng Việt từ Internet (100 triệu từ).
- Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF-
Morphosyntactic Annotation Framework) và mô hình chú giải
mức cú pháp (SynAF-Syntactic Annotation Framework) cho
kho ngữ liệu tiếng Việt.
- Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ
ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ
liệu xây dựng từ Internet (kho ngữ liệu thô được tách từ và gán
nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan
hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống
nghiên cứu từ vựng Sketch Engine, kết quả cho thấy bộ quan
hệ ngữ pháp đã phù hợp với kho ngữ liệu tiếng Việt thu thập từ
Internet trên hệ thống Sketch Engine.
24
- Xây dựng thuật toán, hệ thống trích rút tự động các luật văn
phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã
gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống
phân tích cú pháp các câu tiếng Việt theo phương pháp thống
kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp
đã được cải tiến từ thuật toán PCYK của Martin. Tham gia
triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối
cây (TAG) từ VietTreebank. Xây dựng, triển khai thuật toán
trích rút cây cơ bản cho văn phạm TAG từ từ điển tiếng Việt.
So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển
tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc
ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng
như từ điển
2. Hướng nghiên cứu tiếp theo
- Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu
đã gán nhãn và kho ngữ liệu thô có kích thước lớn để xây dựng
công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao hơn.
- Mở rộng VietTreebank và tìm hiểu thêm một số văn phạm cho
vấn đề phân tích cú pháp. Nghiên cứu và triển khai hệ thống
phân tích cú pháp trên văn phạm LTAG kết hợp xác suất.
- Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữ ở
mức cao hơn đó là ngữ nghĩa.
- Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt
ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.
1
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN
CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN
[1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu
Văn Tăng, Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn
tiếng Việt, Proceedings of ICT.rda'08. Hanoi Aug. 8-9, 2008.
[2] Lê .H.Phương, Ng.T.M. Huyền, Nguyễn Phương Thái, Phan thị
Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí
Tin học và Điều khiển học, Tập 26 số 2, 2010.
[3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn
phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp
chí Khoa học Công nghệ các trường đại học, Số 80, 2011.
[4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam
Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ
thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27
số 3, 2011.
[5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề trong phân tích
tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học
viện CNBCVT, Hà nội. 16-9, 2011.
[6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from
web pages, Tạp chí Khoa học và Công nghệ, Viện Khoa Học
Việt Nam, Tập 51, Số 1, 2013.
Tomtat4.outology

More Related Content

Similar to Tomtat4.outology

Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.doc
Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.docXây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.doc
Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.docDịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Dịch vụ viết đề tài trọn gói 0934.573.149
 
Vài suy nghĩ về giữ gìn di sản Hán Nôm
Vài suy nghĩ về giữ gìn di sản Hán NômVài suy nghĩ về giữ gìn di sản Hán Nôm
Vài suy nghĩ về giữ gìn di sản Hán NômLoc Nguyen
 
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...nataliej4
 
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...jackjohn45
 
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ ViệtGiới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ ViệtBùi Việt Hà
 
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...NuioKila
 
Gioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxGioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxKienTrung93
 
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ ViệtGiới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ ViệtBùi Việt Hà
 
Nguyen huy chuong 1
Nguyen huy chuong 1Nguyen huy chuong 1
Nguyen huy chuong 1mamduong
 
De cuong ky_nang_su_dung_tieng_viet_110720
De cuong ky_nang_su_dung_tieng_viet_110720De cuong ky_nang_su_dung_tieng_viet_110720
De cuong ky_nang_su_dung_tieng_viet_110720Linh Linpine
 

Similar to Tomtat4.outology (20)

Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.doc
Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.docXây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.doc
Xây Dựng Môi Trường Xử Lý Tiếng Êđê Ứng Dụng Trong Dạy Và Học Tiếng Ê Đê.doc
 
khối liệu.doc
khối liệu.dockhối liệu.doc
khối liệu.doc
 
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
 
Vài suy nghĩ về giữ gìn di sản Hán Nôm
Vài suy nghĩ về giữ gìn di sản Hán NômVài suy nghĩ về giữ gìn di sản Hán Nôm
Vài suy nghĩ về giữ gìn di sản Hán Nôm
 
REV-ECIT'15
REV-ECIT'15REV-ECIT'15
REV-ECIT'15
 
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAYLuận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
 
Luận văn: Chuyển ngữ tự động từ tiếng việt sang tiếng Nhật, HOT
Luận văn: Chuyển ngữ tự động từ tiếng việt sang tiếng Nhật, HOTLuận văn: Chuyển ngữ tự động từ tiếng việt sang tiếng Nhật, HOT
Luận văn: Chuyển ngữ tự động từ tiếng việt sang tiếng Nhật, HOT
 
Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt.doc
Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt.docNhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt.doc
Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt.doc
 
GPT-4: Khi hổ thêm cánh
GPT-4: Khi hổ thêm cánhGPT-4: Khi hổ thêm cánh
GPT-4: Khi hổ thêm cánh
 
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...
Nghiên cứu thành ngữ tiếng Việt từ bình diện ngôn ngữ học nhân chủng : Luận á...
 
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...
Sáng kiến kinh nghiệm hướng dẫn học sinh lập trình ứng dụng học tập cho thiết...
 
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ ViệtGiới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TViet Book - Vở tập viết chữ Việt
 
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
Phân tích đối chiếu chuyển dịch câu hỏi chính danh Anh - Việt về mặt cấu trúc...
 
Gioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxGioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptx
 
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ ViệtGiới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ Việt
Giới thiệu nhanh phần mềm TVBOOK - Vở tập viết chữ Việt
 
Cách Viết Tiểu Luận Triết Học Đạt Điểm Cao
Cách Viết Tiểu Luận Triết Học Đạt Điểm CaoCách Viết Tiểu Luận Triết Học Đạt Điểm Cao
Cách Viết Tiểu Luận Triết Học Đạt Điểm Cao
 
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuậtLuận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
 
4 nguyenhuubinh
4 nguyenhuubinh4 nguyenhuubinh
4 nguyenhuubinh
 
Nguyen huy chuong 1
Nguyen huy chuong 1Nguyen huy chuong 1
Nguyen huy chuong 1
 
De cuong ky_nang_su_dung_tieng_viet_110720
De cuong ky_nang_su_dung_tieng_viet_110720De cuong ky_nang_su_dung_tieng_viet_110720
De cuong ky_nang_su_dung_tieng_viet_110720
 

Tomtat4.outology

  • 1. 1 PHẦN MỞ ĐẦU Những năm gần đây, xử lí ngôn ngữ tự nhiên đã trở thành một lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá văn bản, v.v. Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lí văn bản tự động. Quá trình này thường được chia thành các mức cơ bản: mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng và mức diễn ngôn. Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn đã được ra đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Hiện nay khi dữ liệu trên Internet rất nhiều thì các mô hình thống kê dựa trên dữ liệu đã cho thấy tính vượt trội so với cách tiếp cận dựa trên luật. Hiện tại, các kho ngữ liệu lớn phục vụ cho tiếng Việt còn hiếm. Vì vậy việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt là rất cần thiết. Mục tiêu. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt: - Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ Internet. - Xây dựng chuẩn hóa mô hình chú giải tiếng Việt. - Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng. - Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích cú pháp tiếng Việt. Phạm vi nghiên cứu của luận án. Để đạt được mục đích trên, phạm vi nghiên cứu của luận án tập trung vào mức hình thái và mức cú pháp, cụ thể là: - Nghiên cứu về phương pháp và thuật toán xây dựng kho ngữ liệu thô tiếng Việt từ Internet. - Nghiên cứu xây dựng và triển khai một số chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 cho tiếng Việt phục vụ việc phân phối và trao đổi ngữ liệu. - Khai thác kho ngữ liệu thô và xây dựng bộ quan hệ ngữ pháp cơ
  • 2. 2 1.1 1.2 - Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn phạm từ kho ngữ liệu đã chú giải cú pháp phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG). Nghiên cứu xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt. Bố cục của luận án: Luận án được chia thành năm chương: Chương 1. Tổng quan về kho ngữ liệu; Chương 2. Xây dựng kho ngữ liệu thô từ Internet; Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt; Chương 4. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt; Chương 5. Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt; Cuối cùng là phần kết luận của luận án. CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU Kho ngữ liệu văn bản Kho ngữ liệu là một tập hợp lớn các văn bản.Thông tin ngôn ngữ trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự xuất hiện hoặc xác nhận các quy tắc trong mỗi ngôn ngữ. Kho ngữ liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa ngữ). Các văn bản trong đó có thể còn ở dạng thô- chưa được tách từ và chú giải ngôn ngữ hoặc đã được tách từ, chú giải ngôn ngữ (mức từ loại, mức cú pháp). Các kho ngữ liệu chú giải ở mức cú pháp còn được gọi là ngân hàng cây cú pháp (treebank). Kho ngữ liệu có thể thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo khoa, Ineternet thông qua các trang web. Xây dựng kho ngữ liệu văn bản Qua khảo sát một số kho ngữ liệu lớn có chú giải trên thế giới cho thấy việc xây dựng các kho ngữ liệu được thực hiện thông qua hai phương pháp chính:
  • 3. 3 1.3 1.4 Thứ nhất: Thủ công hoặc bán thủ công, thực hiện qua hai bước chính: Bước 1.Thu thập kho văn bản thô: Nguồn gốc thu thập dữ liệu từ tạp chí, sách báo, báo điển tử, sách giáo khoa... Bước 2. Chú giải ngôn ngữ: Công việc này có thể thực hiện thủ công hoặc sử dụng các công cụ đã tồn tại. Thứ hai. Xây dựng tự động từ Internet, thực hiện qua 5 bước chính: Bước 1.Lựa chọn một danh sách các từ hạt giống có tần suất xuất hiện trung bình. Bước 2.Thu thập dữ liệu từ Web bằng cách sử dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm kiếm như Yahoo và Google và tải các trang kết quả về. Bước 3.Làm sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu khác. Bước 4.Loại bỏ các văn bản trùng lặp. Bước 5.Chú giải ngôn ngữ và chuẩn hóa. Chuẩn hoá kho ngữ liệu Vấn đề chuẩn hoá mô hình chú giải kho ngữ liệu là vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được quan tâm bởi tiểu ban kĩ thuật ISO/TC 37/SC 4. Một số mô hình chú giải kho ngữ liệu được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC 4 như như mô hình chú giải hình thái cú pháp (MAF - Morphosyntactic Annotation Framework), mô hình chú giải cú pháp (SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn ngữ (LAF - Linguistic Annotation Framework), mô hình chú giải ngữ nghĩa (SemAF – Semantic Annotation Framework). Khai thác kho ngữ liệu Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu và xử lý ngôn ngữ tự nhiên. Với kho ngữ liệu văn bản, đã được tách từ hoặc là kho ngữ liệu đã được chú giải ở các mức cú pháp, có thể khai thác làm dữ liệu huấn luyện và dữ liệu đánh giá cho cho các mô hình và công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động..v.v.
  • 4. 4 1.5 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt Xây dựng: Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có kích thước càng lớn càng tốt. Ý tưởng chủ đạo của phương pháp xây dựng kho ngữ liệu là thu thập tự động kho ngữ liệu văn bản từ Internet thông qua địa chỉ các trang web (URL). Phương pháp sử dụng ở đây về cơ bản giống như phương pháp đã được sử dụng cho tiếng Anh và một số ngôn ngữ phổ biến khác, được chi thành 5 bước chính như trên. Vấn đề quan trọng cần làm là lập danh sách từ hạt giống cho từng ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán từng bước đã được phát triển và lựa chọn, đặc biệt thuật toán trích rút tự động nội dung văn bản trang web đã được cải tiến nhằm giảm thiểu những dữ liệu nhiễu không phải nội dung văn bản cần lấy. Chuẩn hoá kho ngữ liệu: Hiện nay, các mô hình chú giải ngôn ngữ MAF, SynNaf, LAF chưa được nghiên cứu biểu diễn cho tiếng Việt. Trong luận án đưa ra mô hình MAF để biểu diễn chú giải hình thái cú pháp của các từ và mô hình SynNaf để biểu diễn chú giải cây cú pháp của các câu cho tiếng Việt. Khai thác kho ngữ liệu: Trong luận án tác giả đi sâu vào khai thác kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp tiếng Việt: - Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do; Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, tra cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự nha v.v. Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau nhưng chưa được sử dụng cho tiếng Việt. Thứ 2: Đối với tiếng Việt, các nhà làm từ điển hiện nay thường mới chỉ có công cụ để tra cứu ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự động để so sánh, chọn lọc các ngữ cảnh. Việc sử dụng một bộ công
  • 5. 5 1.6 cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy mô và chất lượng từ điển - Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp, hay còn gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ thể nào đó. Đối với tiếng Việt, với dự án KC01.01/06-10 đã tồn tại một số kho ngữ liệu tiếng Việt như ngân hàng câu chú giải cú pháp (VietTreeBank), từ điển điện tử…Trong luận án đã đi sâu vào nghiên cứu và xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh (CFG) và văn phạm kết nối cây (TAG) từ VietTreebank và từ điển cho tiếng Việt bởi lý do sau: Thứ nhất, từ điển và VietTreebank có một cơ sở ngôn ngữ học vững chắc, nó bao gồm lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng. Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu ngôn ngữ học lẫn ngôn ngữ học tính toán. Trong tiếng Việt, sự ảnh hưởng này được thể hiện điển hình qua các nghiên cứu của Vũ Dũng và Cao Xuân Hạo. Thứ hai, văn phạm CFG là văn phạm tiêu biểu được sử dụng trong bài toán phân tích cú pháp thành phần lần đầu tiên đã được đề xuất bởi Chomsky. Đây chính là văn phạm đơn giản, làm nền tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh mạnh hơn các văn phạm phi ngữ cảnh, trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6 )). Văn phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học. Khả năng chuyển đổi một văn phạm LTAG sang các hệ hình thức văn phạm hợp nhất khác như LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng minh. Kết luận Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí của tiểu ban kỹ thuật ISO/TC 37/SC 4. Trên cơ sở đó xác định mục
  • 6. 6 2.1 2.2 tiêu cho việc xây dựng và khai thác kho ngữ liệu từ Internet cho tiếng Việt 2. CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET Giới thiệu Chương này trình phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ Internet, phương pháp sử dụng được phát triển từ phương pháp xây dựng cho tiếng Anh và một số tiếng phổ biến khác. Xây dựng kho ngữ liệu thô Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên phương pháp của Aidan Finn và A.Kilgarriff, nhưng thuật toán thu thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển để phù hợp phù hợp với tiếng Việt. Về cơ bản, quá trình thu thập kho ngữ liệu từ Internet được phát triển trong 5 bước đã giới thiệu ở mục 1.5. 2.2.1 Lựa chọn danh sách từ hạt giống Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập kho ngữ liệu văn bản của mỗi ngôn ngữ. Đây phải là các từ đặc trưng cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có tính phân biệt so với các từ trong ngôn ngữ khác. Đối với tiếng Việt, danh sách từ hạt giống được thu thập từ việc phân đoạn từ của các câu trong các trang Wiki tiếng Việt. Thuật toán phân đoạn từ đơn giản được sử dụng là duyệt theo từng câu từ trái sang phải, chọn ranh giới từ sao cho từ thu được có nhiều âm tiết nhất có thể so sánh với danh sách từ đúng là từ tiếng Việt (word list). Cách lựa chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận được cho mục đích lập danh sách tần suất từ; Sau đó lựa chọn từ hạt giống từ danh sách tần suất; tiêu chí chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, đối với tiếng Việt tiêu chí được chọn là từ hạt giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số hoặc các mục không phải kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất
  • 7. 7 được bỏ qua vì chúng thường được coi là các từ dừng (stop word) đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống. 2.2.2 Thu thập địa chỉ URL Về cơ bản, quá trình thu thập được thực hiện qua 2 bước. Bước1. Sinh truy vấn: Lựa chọn ngẫu nhiên một số từ trong số các từ hạt giống để tạo nên một truy vấn. Bước 2.Thu thập URL: Gửi truy vấn tới một máy tìm kiếm. Tải về tất cả các tài liệu kết quả của máy tìm kiếm và lưu lại. Quá trình này được lặp đi lặp lại nhiều lần cho đến khi kho ngữ liệu đủ lớn. Nếu nhiều URL giống nhau thì loại bỏ và chỉ giữ lại một URL. 2.2.3 Lọc nội dung chính của các trang web (URLs) Chỉ thu lấy các trang HTML và có dung lượng lớn hơn 5 KB (để xác suất các tệp này chứa văn bản liên quan là lớn hơn). Các tệp có dung lượng lớn hơn 2 MB cũng được loại bỏ để tránh bất kì tệp thuộc miền đặc biệt nào thống trị thành phần của kho ngữ liệu, và cũng bởi vì các tập tin có độ lớn này là rất thường xuyên đăng nhập vào các tập tin và văn bản không có kết nối khác; Những trang được tải về bao hàm cả các dấu của HTML, văn bản ‘boilerplate’ các thanh menu, quảng cáo.... Đó là các phần tài liệu không hợp pháp, tạm gọi là phần đánh dấu.Thuật toán rút trích phần thân văn bản BTE (Body Text Extraction) (Thuật toán 2.5) được phát triển từ thuật toán gốc của Aidan Fin - loại bỏ những phần đánh dấu và chỉ trích rút những văn bản được kết nối. Độ phức tạp của thuật toán là O (n2 ). Sau đây là các bước chính trong thuật toán: Bước 0: Mỗi trang web tương ứng với 1 tệp định dạng HTML. Làm sạch mã HTML bằng cách loại bỏ những thẻ, những đoạn mã HTML chắc chắn không chứa thông tin liên quan đến nội dung như các thẻ <input>, <script>, <img>, <marquee>,<!--...-->, <iframe>… và phần nội dung HTML nằm bên ngoài cặp thẻ <body></body> của mỗi trang web. Bước 1: Đối với phần trang web còn lại, xây dựng hai mảng, binary_tokens[] và tokens[]; Binary_tokens[] gồm các phần tử 1 (thẻ
  • 8. 8 HTML) và -1 (dấu hiệu văn bản);Tokens[] là mảng gồm các phần tử là các dấu hiệu văn bản/thẻ tương ứng với các phần tử trong binary_tokens[]; Gộp các phần tử liền nhau có giá trị giống nhau trong mảng binary_tokens[] lại làm thành một phần tử lưu vào mảng encode[]; Bước 2: Xác định vị trí hai điểm i, j từ mảng binary.tokens[]vừa thu được ở bước 1 sao cho số phần tử -1 (tương ứng với dấu hiệu văn bản) giữa [i,j] là lớn nhất và số phần tử 1 (tương ứng với thẻ) ngoài khoảng [i,j] là lớn nhất. Tiến hành bóc tách dữ liệu trong đoạn [i,j] và loại bỏ các thẻ HTML. Chỉ thu thập nội dung văn bản các trang web có đủ độ lớn và đã kiểm tra tính kết nối.Các trang web thu về sẽ được kiểm tra xem có độ lớn thỏa mãn (>5KB và <2MB)?, nếu có thì thuật toán BTE mới thực hiện để trích rút lấy nội dung văn bản chính; Thử nghiệm và đánh giá thuật toán BTE Bảng 2. 3. So sánh tỷ lệ “Thân văn bản cần lấy/ toàn bộ nội dung văn bản trích rút được” Loại trang web Thuật toán cải tiến Thuật toán của Aidan.Fin Dantri 99.02% 47.12% VietnamNet 99.67% 65.71% VnExpress 99.00% 48.87% Tỷ lệ về “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích rút được” của 3 loại địa chỉ trang web được nhiều người truy cập và có uy tín nhất ở Việt Nam được chỉ ra ở Bảng 2.3. Phần văn bản thu được trên cùng một trang web (100 trang) đối với hai thuật toán cho thấy, với thuật toán BTE cải tiến cho kết quả tốt hơn, đã loại bỏ được hết các mã HTML trong khi thuật toán cũ của Aidam Finn vẫn còn một số thẻ script nằm giữa đoạn văn bản nào đó.
  • 9. 9 2.3 3.1 3.2 3.3 2.2.4 Phát hiện sự trùng lặp gần nhau Trong luận án, sử dụng modul Text::DeDuper1 viết bằng Perl để phát hiện tài liệu gần trùng lặp nhau. Modul này sử dụng độ đo độ giống nhau như đề xuất của Broder. 2.2.5 Xây dựng công cụ và triển khai thu thập kho ngữ liệu Công cụ Vncopus được phát triển bằng ngôn ngữ Java kết hợp với Python, dựa trên các thuật toán thu thập địa chỉ URL, lọc nội dung chính của các trang web đồng thời tích hợp công cụ xác định trùng lặp gần nhau (trình bày ở phần trên) và gán nhãn từ loại đã có sẵn. Triển khai thu thập kho ngữ liệu thô tiếng Việt có kích thước 1.09 GB (khoảng 100 triệu từ). Kết luận Trong chương này luận án đã phát triển thuật toán thu thập dữ liệu từ web cho phù hợp với tiếng Việt để xây dựng kho ngữ liệu. Xây dựng công cụ tự động thu thập kho ngữ liệu từ Internet có tên là Vncopus; Thử nghiệm và đánh giá thuật toán cải tiến. 3. CHƯƠNG 3.CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT Mô hình MAF của ISO/TC 37/SC 4 Phần này trình bày mô hình chú giải hình thái cú pháp MAF được phát triển bởi ISO/TC 37/SC 4. Mô hình SynAF của ISO/TC 37/SC 4 Phần này trình bày mô hình chú giải hình thái cú pháp SynAF được phát triển bởi ISO/TC 37/SC 4. Chuẩn hóa mô hình chú giải tiếng Việt 3.3.1 Chuẩn hóa theo mô hình MAF Thông tin hình thái cú pháp tiếng Việt chủ yếu dựa vào hình thái từ, phân loại từ, phân loại cụm, cú pháp (ví dụ từ loại của từ có thể là danh từ, động từ, tính từ…) mà không phụ thuôc vào giống, số, cách 1 http://search.cpan.org/~janpom/Text-DeDuper 1.01/lib/Text/DeDuper.pm#NAME
  • 10. 10 …như đối với các thứ tiếng khác. Do đó chúng ta có thể lựa chọn chú giải nhúng cho tiếng Việt để đơn giản và tiện dụng. Ngoài ra, việc phân chia tài liệu ra thành các từ riêng biệt (word Form), trong tiếng Việt có đặc điểm khác với tiếng Anh và một số tiếng khác là không thể dựa vào khoảng trắng (từ ghép), phải xây dựng phần mềm tách từ riêng dựa vào đặc trưng của tiếng Việt để tách tài liệu ra thành các thành phần, mỗi thành phần tương ứng với 1 từ tiếng việt. Về cấu trúc chung của mô hình hình thái cú pháp cho tiếng Việt trong luận án xây dựng tương tự như mô hình chú giải hình thái cú pháp chuẩn quốc tế MAF do tiểu ban kĩ thuật ISO/TC 37/SC 4 phát triển, tuy nhiên tại các thành phần cơ sở của mô hình trong luận án có ánh xạ tới đặc điểm hình thái cú pháp mục từ trong tiếng Việt, cụ thể là: - Xác định đơn vị cơ sở (segment): Âm tiết tiếng Việt hay các đơn vị token (dấu hiệu) khác. - Mỗi hình thái từ (Word Form) có thể tham chiếu tới một mục từ vựng trong từ điển, ví dụ từ điển tiếng Việt trên máy tính. - Các thông tin hình thái – cú pháp gắn với mỗi từ: Cấu tạo từ (đơn, ghép, láy, thành ngữ), từ loại, tiểu từ loại. Ở đây tác giả xây dựng bảng danh sách các hạng mục dữ liệu để gán nhãn từ loại cho tiếng Việt tham chiếu tới DCR (ISO 12620) dựa trên tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”. 3.3.2 Chuẩn hóa theo mô hình SynAF Lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng là cơ sở ngôn ngữ học vững chắc cho việc chú giải cú pháp theo mô hình SynAF cho tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý…Đối với tiếng Việt, sự ảnh hưởng này cũng được thể hiện qua các nghiên cứu của Vũ Dũng và Cao Xuân Hạo. Do vậy, mô hình chú giải cú pháp SynAF của ISO cũng là cơ sở tốt cho việc xây dựng mô hình chú giải cú pháp tiếng Việt. Việc xây dựng mô hình chú giải cú pháp theo chuẩn hóa quốc tế cũng là một nhiệm vụ cần thiết trong việc xây dựng và mở rộng treebank cho tiếng Việt. Về cấu trúc chung của mô hình cho tiếng Việt
  • 11. 11 3.4 4.1 (VnSynAF) tương tự như trong mô hình chú giải cú pháp chuẩn quốc tế SynAF. Mô hình VnSynAF là một lược đồ mã hóa dựa trên định dạng XML có thể sử dụng trong việc định dạng và mã hoá treebank cho tiếng Việt. Về cấu trúc chung của mô hình này trong luận án sử dụng tương tự như trong SynAF: - Mỗi nút T Node biểu diễn một từ vựng tiếng Việt tương ứng trong một wordform. - Nút NT dùng để biểu diễn các thành phần không kết thúc như từ loại, cụm từ, nhãn quy ước cho các dấu. Sử dụng các hạng mục nhãn hình thái (từ loại), nhãn cú pháp thành phần, nhãn phân loại câu để gán nhãn cho các nút NT. - Các cung (edge) dùng để liên kết giữa các nút, biểu diễn chức năng của một thành phần cú pháp, cho biết vai trò của nó trong thành phần cú pháp mức cao hơn, nhờ đó giúp chúng ta biết được quan hệ ngữ pháp giữa các nút, như là chủ ngữ, vị ngữ, tân ngữ. Sử dụng hạng mục nhãn chức năng cú pháp để gán nhãn cho các cung. Trong phần này tác giả xây dựng bảng danh sách các hạng mục dữ liệu, nhãn từ loại, nhãn cú pháp thành phần, nhãn phân loại câu, nhãn chức năng cú pháp cho tiếng Việt tham chiếu tới DCR (ISO 12620) dựa trên tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn” Kết luận Xây dựng và triển khai các mô hình chú giải kho ngữ liệu tiếng Việt ở mức hình thái-cú pháp (MAF) và mức phân tích cú pháp cho tiếng Việt có tên là VnSynAF tương thích với mô hình MAF và SynAF được phát triển bởi ISO/TC 37/SC 4. 4. CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT Giới thiệu Chương này trình bày việc khai thác kho ngữ liệu thô tiếng Việt có khối lượng lớn đã được tách từ và gán nhãn từ loại cho hệ thống truy vấn kho ngữ liệu Sketch Engine, phục vụ việc nghiên cứu từ vựng.
  • 12. 12 Để khai thác được thông tin ngôn ngữ, ngữ cảnh, hành vi của mỗi từ hệ thống còn đòi hỏi bộ quan hệ ngữ pháp cơ bản tiếng Việt, ở đây luận án cũng xây dựng các mối quan hệ ngữ pháp cho Sketch Engine dựa trên đặc điểm ngữ pháp cơ bản tiếng Việt. 4.1.1 Nghiên cứu từ vựng Mục tiêu mà nghiên cứu từ vựng nhắm tới là để xem xét ngữ cảnh, nghiên cứu hành vi của mỗi từ, cụ thể là: Tìm kiếm các cụm từ xung quanh một từ; Khả năng xuất hiện của các từ xung quanh một từ; Các mẫu ngữ pháp xuất hiện xung quanh một từ; Sắp xếp các từ theo các tiêu chí khác nhau; Xác định các kho ngữ liệu con cho việc tìm kiếm; Xác định từ hiếm; So sánh nghĩa của các từ gần giống nhau… Để khai thác thông tin về từ vựng phục vụ cho các mục tiêu trên trong luận án sử dụng hệ thống truy vấn kho ngữ liệu Sketch Engine 4.1.2 Sketch Engine Hệ thống Sketch Engine là một trong những hệ thống truy vấn kho ngữ liệu phục vụ cho việc nghiên cứu và phân tích ngôn ngữ, đã được sử dụng cho nhiều ngôn ngữ khác trên thế giới. Trong đó, Word Sketch, tiền thân của hệ thống Sketch Engine, thay vì chỉ đưa ra tất cả các ngữ cảnh văn bản xung quanh một từ trong tiếng Anh, Word Sketch cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp. Word Sketch đã được Kilgarriff phát triển thành hệ thống Sketch Engine - hệ thống có thể nhận đầu vào là kho ngữ liệu của bất cứ ngôn ngữ nào cùng với bộ mẫu ngữ pháp tương ứng. Ngoài chức năng của Word Sketch, hệ thống còn cung cấp thêm các chức năng: Thesaurus. Cho phép tra cứu các từ đồng và phản nghĩa và Sketch Difference. Cho phép so sánh thông tin của hai từ tương tự nhau. Hiện thời, Skech Engine đã trở thành một hệ thống truy vấn kho ngữ liệu đã được thử nghiệm trên nhiều ngôn ngữ khác nhau (Anh, Séc, Nhật, Trung, Nga, Xlôven...) và được đánh giá là có hiệu quả tốt trong việc xây dựng từ điển, việc nghiên cứu và thực hành ngôn ngữ.
  • 13. 13 4.2 4.1.3 Ngữ liệu trong Sketch Engine Sketch Engine đòi hỏi phải xây dựng được ngữ liệu của mỗi ngôn ngữ cụ thể cho hệ thống, đó là bộ quan hệ ngữ pháp cơ bản của mỗi ngôn ngữ được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu bên cạnh kho ngữ liệu lớn của các văn bản đã được chú giải ít nhất ở mức từ loại. Để xác định quan hệ ngữ pháp giữa các từ, Sketch Engine cần biết làm thế nào tìm được các từ kết nối với nhau theo một quan hệ ngữ pháp trong ngôn ngữ đang xét. Xây dựng ngữ liệu tiếng Việt cho hệ thống Sketch Engine Để sử dụng được cho nghiên cứu từ vựng tiếng Việt, Sketch Engine đòi hỏi phải xây dựng được: Kho ngữ liệu tiếng Việt có kích thước lớn được tách từ và gán nhãn từ loại. Bộ quan hệ ngữ pháp cơ bản tiếng Việt được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu. 4.2.1 Tách từ và gán nhãn từ loại Đối với tiếng Việt, để thu được kho ngữ liệu chú giải mức từ loại và hướng tới chuẩn mã hóa XML, trong luận án đã sử dụng phần mềm gán nhãn từ loại tiếng Việt có tên là vnTagger2 của nhóm tác giả Lê Hồng Phương. 4.2.2 Xây dựng bộ quan hệ ngữ pháp cho tiếng Việt Đối với tiếng Việt, chúng ta chưa có kho ngữ liệu lớn đã phân tích cú pháp nên phải sử dụng khả năng thứ hai để xây dựng tập các quan hệ ngữ pháp. Hệ hình thức dùng cho các quan hệ ngữ pháp của Sketch Engine dựa trên cơ sở các mẫu xâu theo biểu thức chính quy, do đó phù hợp với các ngôn ngữ có trật tự từ ổn định, như tiếng Anh chẳng hạn, tiếng Việt cũng là một ngôn ngữ trong đó trật tự từ đóng vai trò quan trọng. Dựa vào đó, luận án xây dựng bộ quan hệ ngữ pháp tiếng Việt tương ứng với cấu trúc ngữ pháp cơ bản tiếng Việt, đó là, cụm danh từ, cụm động từ, cụm phó từ, cụm giới từ, liên hợp và câu đơn, được biểu diễn thông qua các dạng truy vấn. Trong Luận 2 http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger
  • 14. 14 án xây dựng được 37 quan hệ ngữ pháp tương ứng với 37 dạng truy vấn. 4.2.3 Khai thác kho ngữ liệu cho Sketch Engine Để có thể sử dụng được hệ thống Sketch Engine cho nghiên cứu từ vựng tiếng Việt thì yêu cầu phải tích hợp kho ngữ liệu tiếng Việt có kích thước lớn thu thập từ Internet và bộ quan hệ ngữ pháp tương ứng vào hệ thống; Hình 4.1, minh họa cho việc khai thác kho ngữ liệu tiếng Việt phục vụ cho việc thống kê tần suất và tính trội của các từ lân cận với một từ bất kỳ. Trong đó, tính trội được thống kê theo tỷ lệ của việc quan sát thực tế với giả thiết đảo (của các từ lân cận cùng xuất hiện với một từ bất kỳ) thông qua công thức T-score hoặc MI-score; Hình 4.2, minh họa việc liệt kê một số danh sách quan hệ ngữ pháp xuất hiện xung quanh hai tính từ có nghĩa gần tương tự nhau ”đẹp” và ”xinh”, trong đó mỗi danh sách thống kê tần suất và tính trội của các từ lân cận với 2 từ này trong mỗi quan hệ ngữ pháp (tương ứng tần suất là cột thứ 2,3; tính trội là cột thứ 4,5). Ngoài ra trong bảng còn có một số danh sách quan hệ ngữ pháp chỉ xuất hiện xung quanh duy nhất một từ (”đẹp” only patterns) hoặc (”xinh” only patterns), trong đó mỗi danh sách liệt kê các từ cùng tần xuất và tính trội xuất hiện xung quanh chỉ tính từ ”đẹp” hoặc chỉ tính từ ”xinh”. Các thông tin này có thể giúp người nghiên cứu từ vựng, xây dựng từ đưa ra được sự giống nhau, khác nhau khi sử dụng 2 từ này; Hình 4.3, minh họa cho việc khai thác kho ngữ liệu và bộ quan hệ ngữ pháp- cho phép liệt kê một số danh sách quan hệ ngữ pháp xuất hiện xung quanh từ khóa (ví dụ tính từ “đẹp”). Trong đó, mỗi danh sách liệt kê các từ và cùng tần suất và tính trội của các từ trong cùng mối quan hệ ngữ pháp với từ khóa. Sau đây là liệt kê mộ số danh sách: Danh sách N_front_modifier_A: Danh sách các danh từ ở phía trước mà tính từ “đẹp” bổ nghĩa; Danh sách A_after_modifies_A: Danh sách các tính từ phía sau bổ nghĩa cho tính từ “đẹp”; Danh sách R_front_modifies_A: Danh sách các phụ từ phía trước bổ nghĩa cho
  • 15. 15 tính từ “đẹp”; Danh sách predicate_of: Danh sách các từ mà tính từ "đẹp" làm vị ngữ. Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp” Hình 4. 2 Phác thảo thông tin của 2 từ ”đẹp”, ”xinh”
  • 16. 16 4.3 Hình 4. 3. Một số bảng danh sách từ có quan hệ ngữ pháp với tính từ “đẹp” 4.2.4 Đánh giá độ tương tích bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt trên hệ thống Sketch Engine Kết quả cho thấy độ tương thích của bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt trên hệ thống Sketch Engine là 100%, mọi truy vấn của bộ quan hệ ngữ pháp cơ bản tiếng Việt đã phù hợp với hệ thống Sketch Engine, các ngữ cảnh trong kho ngữ liệu phù hợp với mỗi truy vấn. Hệ thống Sketch Engine có thể sử dụng để nghiên cứu từ vựng cho tiếng Việt, mọi chức năng của hệ thống sử dụng cho tiếng Việt cũng đáp ứng như đối với các ngôn ngữ khác. Kết luận Trong chương này luận án đã xây dựng bộ quan hệ ngữ pháp bản tiếng Việt (37 quan hệ ngữ pháp) được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu phục vụ cho hệ thống nghiên cứu từ vựng Sketch Engine; Triển khai hệ thống Sketch Engine cho nghiên cứu từ vựng tiếng Việt dựa trên bộ quan hệ ngữ pháp và kho ngữ liệu có chú giải tiếng Việt. Đánh giá độ tương thích của bộ quan hệ ngữ pháp và kho ngữ liệu tiếng Việt trên hệ thống Sketch Engine .
  • 17. 17 5.1 5.2 5.3 5. CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT Giới thiệu Chương này đi sâu vào nghiên cứu và xây dựng thuật toán trích rút tự động văn phạm CFG, LTAG từ VietTreebank và từ điển điện tử phục vụ cho phân tích cú pháp tiếng Việt, cài đặt thử nghiệm và đánh giá. Văn phạm hình thức Phần này trình bày định nghĩa văn phạm hình thức; Phân loại văn phạm của Chomsky; Văn phạm phi ngữ cảnh (CFG) và văn phạm kết nối cây (LTAG) trong xử lý ngôn ngữ tự nhiên. Trích rút tự động văn phạm CFG cho tiếng Việt 5.3.1 Thuật toán trích rút từ VietTreebank Phương pháp trính rút văn phạm phi ngữ cảnh kết hợp xác suất từ VietTreebank sử dụng được tương tự như phương pháp của Roberto Valenti và D.Jurafsky and Martin, về cơ bản quá trình trích rút được thực hiện qua 3 bước chính: Trích rút các luật cho văn phạm CFG từ Treebnk; Chuyển CFG thành phi ngữ cảnh kết hợp xác suất (PCFG); Chuyển PCFG thu được thành văn phạm PCFG theo chuẩn Chomsky. Tuy nhiên trong Bước 1 có một thay đổi về cài đặt: Sử dụng Stack sẽ để lưu trữ tạm thời các luật trích rút từ mỗi cây phân tích, độ phức tạp là O(n+m). Nếu đỉnh của Stack là 1 luật đầy đủ thì lấy luật ra khỏi stack, nếu là luật đơn sinh ra từ kết thúc thì lấy ra khỏi stack và tự động hủy luôn, ngược lại nếu không phải luật đơn thì luật thu được đưa vào một mảng lưu trữ. Nếu luật không đầy đủ thì tiếp tục bổ sung thêm vế phải. Xử lý bằng Stack dễ hiểu và đơn giản hơn sử dụng đệ quy theo cách tiếp cận của Roberto Valenti và D.Jurafsky and Martin. 5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG Dựa theo phương pháp của Martin phần mềm phân tích cú pháp cho tiếng Việt được phát triển thông qua 2 giai đoạn: Giai đoạn 1. Thay cho việc tách từ thì gán luôn nhãn từ loại (đồng thời tách từ)
  • 18. 18 bằng cách sử dụng bộ công cụ gán nhãn từ loại đã có sẵn. Giai đoạn 2. Phân tích cú pháp của câu đã được tách từ và gán nhãn từ loại, bộ phân tích cú pháp sẽ phân tích câu thành các cây cú pháp có thể và cây có xác suất cao nhất sẽ được ưu tiên lựa chọn. Thuật toán tương tự như thuật toán PCYK của D.Jurafsky and Martin, tuy nhiên ở bước đầu trong thuật toán không cần phải tính toán xác suất từ loại của mỗi từ, thay vào đó xác suất từ loại của mỗi từ được gán luôn là 1, vì theo cách tiếp cận này thì xác suất từ loại đối với mỗi từ là cố định, không phụ thuộc vào việc tìm cây có xác suất cao nhất. 5.3.3 Thử nghiệm và đánh giá Nhóm nghiên cứu đã tiến hành xây dựng phần mềm phân tích cú pháp, trong đó có 2 chức năng chính, chức năng 1, trích rút tự động các luật của văn phạm PCFG VietTreebank, chức năng 2, phân tích cú pháp cho câu đầu vào bất kỳ dựa trên bộ luật của văn phạm PCFG. Kết quả trích rút được chỉ ra ở ở Bảng 5.2, dữ liệu huấn luyện được chia ra thành các vùng, trong đó F1,F2,F3, F4,F7, F8 là các vùng chứa dữ liệu không giao nhau và là tập con của F9 F10 với độ lớn khác nhau được lấy từ VietTreebank (6.78MB). ⊂ Bảng 5. 2. Số các luật thu được Khối Test dữ liệu Độ lớn khối Test (KB) Tỷ lệ (test/VietTreeba nk) Số luật CNF Recall Precision F1 129 0.01858 1274 0.6871 0.64117 F2 137 0.01973 1325 0.6593 0.68266 F3 169 0.02434 1884 0.7549 0.76713 F4 222 0.03198 1866 0.7186 0.71251 F5 413 0.05949 3007 0.7694 0.76071 F6 800 0.11523 5271 0.7808 0.79865 F7 867 0.12488 6409 0.7536 0.65968 F8 2682.88 0.38643 15696 0.7843 0.68908 F9 5478.4 0.78909 25560 0.7975 0.6961 F10 6010.88 0.86578 27577 0.8175 0.71505
  • 19. 19 5.4 Kết quả chạy chương trình cho thấy, trong VietTreebak vẫn còn một số câu mắc lỗi định dạng. Số lượng luật CNF và độ chính xác của bộ PTCP tăng dần theo kích thước của VietTreebank chứng tỏ VietTreebank vẫn chưa đủ độ lớn. Điều này cho thấy VietTreebank cần được mở rộng thêm. Trích rút tự động văn phạm LTAG cho tiếng Việt Phần này trình bày thuật toán rút trích tự động văn phạm LTAG từ Treebank, đồng thời cũng trình bày kết quả chạy chương trình trích rút tự động một văn phạm LTAG cho tiếng Việt từ VietTreebank và từ điển điện tử tiếng Việt 5.4.1 Thuật toán trích rút từ VietTreebank Về cơ bản, quá trình trích rút tự động văn phạm LTAG từ treebank gồm ba bước. Thứ nhất, chuyển các cây cú pháp của treebank thành các cây phân tích của hệ hình thức LTAG. Thứ hai, phân rã các cây phân tích thu được ở bước một thành các cây cơ bản tương ứng với ba mẫu cây được xác định trước. Cuối cùng là sử dụng tri thức ngôn ngữ để lọc bỏ các cây cơ bản không hip lệ. Cách tiếp cận trích rút văn phạm LTAG mà trình bày ở đây tương đối giống với phương pháp trích rút văn phạm được đề xuất bởi Xia. Tuy nhiên, có một số điểm khác nhau về phương pháp thiết kế và cài đặt thuật toán giữa hai cách tiếp cận: Thứ nhất, trong bước xây dựng cây phân tích, trước tiên xử lí toàn bộ các cụm liên từ đẳng lập của cây cú pháp trước khi phân biệt các thành phần đối và phụ trợ, thay vì xử lí đồng thời cả ba dạng cấu trúc. Việc xử lí tuần tự này dễ hiểu và dễ cài đặt hơn vì các cụm đẳng lập có cấu trúc khác với các cấu trúc đối và phụ trợ. Thứ hai, trong bước trích rút cây cơ bản, không tách mỗi nút của cây thành hai thành phần trên và dưới như trong cách tiếp cận của Xia. Các nút của cây phân tích được sao chép trực tiếp sang các cây cơ bản. Việc sao chép trực tiếp mà không tách nút làm tăng tính hiệu quả thời gian và không gian của các thuật toán. Thứ ba, quá trình trích rút cây được phân rã thành các thủ tục con, gọi tương hỗ qua lại để lặp lại quá trình trích rút trên từng cây con có nút gốc chưa được xử lí. Các
  • 20. 20 hàmđệ quy tương hỗ được thiết kế kỹ lưỡng đảm bảo không có lời gọi thừa, mỗi một nút của cây phân tích chỉ được xử lí một lần. Tính hiệu quả và dễ tối ưu hoá của phương pháp “chia để trị” đã được chứng minh và cài đặt thuật toán giữa hai cách tiếp cận. Kết quả thử nghiệm:Văn phạm LTAG thu được đã phủ hoàn toàn các cấu trúc cú pháp của treebank, số mẫu cây của văn phạm hội tụ rất chậm cho thấy có nhiều cấu trúc cú pháp chưa được mã hoá trong VietTreebank, nói cách khác là VietTreebank chưa đủ lớn hoặc chưa đủ điển hình để phủ hết các mẫu cú pháp của tiếng Việt. Hình 5.12 minh hoạ số mẫu cây tăng dần theo kích thước của treebank được sử dụng. Việc hội tụ rất chậm của số mẫu cây cho thấy kích thước hiện tại của VietTreebank là chưa đủ lớn để phủ hết các mẫu cú pháp của tiếng Việt. Nhóm nghiên cứu đã phát triển một chương trình phần mềm có tên LExtractor cài đặt các thuật toán trích rút văn phạm ở trên Hình 5.12 trục x biểu diễn phần trăm kho văn bản được sử dụng để trích rút văn phạm, trục y biểu diễn số lượng mẫu cây tổng thể( Δ ), mẫu cây khởi tạo (о) và mẫu cây phụ trợ ( ) thu được 5.4.2 Xây dựng cây cơ bản LTAG từ từ điển tiếng Việt Quan sát về cấu trúc từ điển tiếng Việt cho thấy, hiện tại, cú pháp mỗi mục từ trong từ điển ở một trong hai dạng: Nếu là các từ không phải là động từ thì chỉ tồn tại thông tin hạng mục từ loại và tiểu từ loại của từ đó (danh từ, tính từ..);
  • 21. 21 Dựa vào đặc điểm của từ điển chúng ta có thể xây dựng các cây cơ sở (cây khởi tạo) cho văn phạm LTAG tiếng Việt thông qua thông tin hình thái, cú pháp của mỗi mục từ (một từ vựng có thể có nhiều mục từ, mỗi mục từ tương ứng với một nghĩa, từ loại riêng). Phần tiếp theo sẽ trình bày thuật toán trích rút cây cơ sở (ứng với quan hệ vị từ-đối) của LTAG từ từ điển tiếng Việt. Thuật toán trích rút cây cơ sở: Dựa vào thông tin của mỗi mục từ Entry, kiểm tra xem trong thẻ cú pháp (<Syntactic>) có tồn tại thành phần vị từ-đối (Subcategorization Frame) không? Nếu tồn tại thì xây dựng 3 dạng cây cơ sở: 1.cây cơ sở là cụm từ cùng với từ loại, từ vựng (ví dụ: “(VP (V đi))”), 2. các cây cơ sở là cụm từ tương ứng cùng từ loại, từ vựng và các đối phía sau của từ loại đó (Ví dụ: “(VP (V đi) (+PP))”, 3. cây cơ sở là một câu đơn (cú pháp thành phần) (ví dụ: “(S (+NP) (VP (V đi) (+PP)))”). Nếu không tồn tại thì chỉ xây dựng cây là cụm từ cùng với từ loại và từ vựng (ví dụ: “(AP (A đế quốc))” hoặc “(AP (Ap đế quốc))”) 5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển Để so sánh và đánh giá tập cây khởi tạo, NCS xây dựng phần mềm với hai chức năng chính, chức năng thứ nhất là trích rút tự động các cây cơ sở từ từ điển dựa vào thuật toán đã xây dựng; Chức năng thứ hai là so sánh đưa ra các cây giao nhau, lệch nhau được sinh ra từ cùng một số động từ trong các cây cơ sở của từ điển và VietTreebank. Kết quả được cho ở ở Bảng 5.7. Trong đó cột (1) là Bước thử nghiệm; cột (2) là các từ giao nhau; cột (3) là số cây cơ sở của từ điển có neo là từ giao nhau; Cột (4) là số cây cơ sở của VietTreebank có neo là từ giao nhau; Cột (5) là số cây cơ sở giao nhau ; Cột 6 là tỷ lệ cây cơ sở trùng nhau so với các cây cơ sở của VNTreebank. Cột (7) là tỷ lệ cây cơ sở trùng nhau so với các cây cơ sở của từ điển; Cột (8) là trung bình số từ trên 1 cây cơ sở giao nhau Bảng 5.7 cho thấy độ chênh lệch khá cao về các cây cơ sở giao giữa từ điển và VietTreebank khi cùng bắt nguồn từ 1469 từ neo là động từ, có thể kể đến một số nguyên nhân như: Trong VietTreebank
  • 22. 22 Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ bản của VietTreebank 1 2 3 4 5 6 7 8 Từ loại chung 1469 6355 3701 1481 40.02% 23.30% 0.999 Từ loại chi tiết 1469 6963 3701 892 24.10% 12.81% 1.65 khi chú giải từ loại chưa nhất quán sử dụng từ loại chung hay tiểu từ loại cho một từ vựng=> Trong VietTreebank nhãn từ loại của các từ vựng cần thống nhất lại theo một tiêu chí chung (sử dụng từ loại chung hay tiểu từ loại). Thuật toán trên mới xây dựng các cây cơ bản là cây cơ sở (khởi tạo) từ từ điển còn các cây phụ trợ chưa được xây dựng, bởi trong từ điển mới chú giải các thành phần phụ cho một mục từ tương đối đơn giản. Trong từ điển hiện tại mới chú giải cú pháp cho vị từ là động từ, chưa chú giải hết các trường hợp khác nên số cây cơ bản sinh ra chưa bao phủ được nhiều cây cơ bản trong VietTreebank, cần bổ sung thêm các khung vị từ khác (danh từ, tính từ, giới từ) vào từ điển. Danh sách các cây cơ bản thu được có trong VietTreebank không có trong từ điển sẽ cung cấp tri thức ngôn ngữ để lọc một số cây cơ bản không hợp lệ với quy tắc ngữ pháp khi trích rút từ VietTreebank (do phần mềm trích rút tự động văn phạm LTAG), ví dụ, các cây (VP (A tạm)); (S (VP (N nói)) (+NP)); (VP (N tai nạn) (+n));(VP (N nước)), có một số cây cơ bản của VietTreebank có nhiều đối (nhiều cây có nhiều hơn 4 đối) trong khi các cây cơ sở của từ điển có đối nhiều nhất là 3. Từ điển tiếng Việt cho máy tính được xây dựng từ các chuyên gia ngôn ngữ, thông tin cú pháp của các từ vựng được trích rút từ đây là khá chính xác. Bởi vậy sẽ tốt hơn cho bộ phân tích cú pháp nếu chúng ta kết hợp văn phạm LTAG thu được từ từ điển và văn phạm LTAG thu được của VietTreebank.
  • 23. 23 5.5. Kết luận Trong chương này luận án đã xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm PCFG từ VietTreebank, đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của D.Jurafsky and Martin, hệ thống này có tên là VNNLP; Nghiên cứu về văn phạm LTAG, thuật toán trích rút tự động các luật văn phạm LTAG. Thực hiện trích rút tập cây cú pháp LTAG tiếng Việt. Triển khai và xây dựng thuật toán trích rút cây cơ bản của LTAG từ từ điển tiếng Việt. So sánh, đánh giá tập cây cơ bản trích rút từ VietTreebank, lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt. 6. KẾT LUÂN 1.Các kết quả đã đạt được Kết quả nghiên cứu của luận án có ý nghĩa về khoa học và thực tiễn với các đóng góp mới như sau: - Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ Internet (100 triệu từ). - Xây dựng mô hình chú giải mức hình thái-cú pháp (MAF- Morphosyntactic Annotation Framework) và mô hình chú giải mức cú pháp (SynAF-Syntactic Annotation Framework) cho kho ngữ liệu tiếng Việt. - Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng từ Internet (kho ngữ liệu thô được tách từ và gán nhãn từ loại bằng cách sử dụng công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng Việt vào hệ thống nghiên cứu từ vựng Sketch Engine, kết quả cho thấy bộ quan hệ ngữ pháp đã phù hợp với kho ngữ liệu tiếng Việt thu thập từ Internet trên hệ thống Sketch Engine.
  • 24. 24 - Xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu tiếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của Martin. Tham gia triển khai thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ VietTreebank. Xây dựng, triển khai thuật toán trích rút cây cơ bản cho văn phạm TAG từ từ điển tiếng Việt. So sánh tập cây cơ bản trích rút từ VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank cũng như từ điển 2. Hướng nghiên cứu tiếp theo - Triển khai mô hình bán giám sát kết hợp sử dụng kho ngữ liệu đã gán nhãn và kho ngữ liệu thô có kích thước lớn để xây dựng công cụ gán nhãn từ loại tiếng Việt đạt hiệu suất cao hơn. - Mở rộng VietTreebank và tìm hiểu thêm một số văn phạm cho vấn đề phân tích cú pháp. Nghiên cứu và triển khai hệ thống phân tích cú pháp trên văn phạm LTAG kết hợp xác suất. - Nghiên cứu xây dựng và khai thác kho ngữ liệu ngôn ngữ ở mức cao hơn đó là ngữ nghĩa. - Ứng dụng các chuẩn quốc tế về chú giải ngữ liệu cho tiếng Việt ở các mức hình thái-cú pháp, cú pháp, ngữ nghĩa, v.v.
  • 25. 1 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN [1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu Văn Tăng, Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn tiếng Việt, Proceedings of ICT.rda'08. Hanoi Aug. 8-9, 2008. [2] Lê .H.Phương, Ng.T.M. Huyền, Nguyễn Phương Thái, Phan thị Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt, Tạp chí Tin học và Điều khiển học, Tập 26 số 2, 2010. [3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp chí Khoa học Công nghệ các trường đại học, Số 80, 2011. [4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27 số 3, 2011. [5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề trong phân tích tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học viện CNBCVT, Hà nội. 16-9, 2011. [6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học và Công nghệ, Viện Khoa Học Việt Nam, Tập 51, Số 1, 2013.