SlideShare a Scribd company logo
1 of 15
0
KHAI THÁC VÀ ỨNG DỤNG NGỮ LIỆU ĐIỆN TỬ TRONG VIỆC GIẢNG
DẠY TIẾNG VIỆT CHO NGƯỜI NƯỚC NGOÀI
Lê Lâm Thi
Trường Đại học Ngoại ngữ, Đại học Huế
Tóm tắt
Ngày nay, cùng với sự phát triển của khoa học kỹ thuật, việc nghiên cứu và giảng dạy ngôn
ngữ cũng có những bước tiến mới. Những nghiên cứu với những thao tác thủ công, dựa trên
lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh nghiệm
bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử
(electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai
thác để phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo
sát, thống kê trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song
ngữ, dẫn chứng cách dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm,
phân loại phản hồi của khách hàng về sản phẩm trong kinh tế thương mại…Trong phạm vi
bài báo cáo này, tác giả sẽ tập trung phân tích những ứng dụng của ngữ liệu điện tử trong việc
giảng dạy tiếng Việt cho người nước ngoài. Kết quả nghiên cứu sẽ chỉ ra một số địa chỉ để
khai thác các nguồn ngữ liệu điện tử và ứng dụng chúng trong việc biên soạn giáo trình giảng
dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước
ngoài.
Từ khóa: Ngữ liệu điện tử, tiếng Việt, người nước ngoài
1. Mở đầu
Trong những năm cuối thế kỷ XX và những năm đầu thế kỷ XXI, cùng với sự ra đời và
phát triển của khoa học máy tính, hướng nghiên cứu liên ngành mới giữa khoa học máy tính và
các ngành khoa học khác đã được hình thành. Những nghiên cứu với những thao tác thủ công,
dựa trên lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh
nghiệm bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử
(electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai thác để
phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo sát, thống kê
trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song ngữ, dẫn chứng cách
dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm, phân loại phản hồi của
khách hàng về sản phẩm trong kinh tế thương mại…
Trong lĩnh vực ngôn ngữ học, ngữ liệu và sử dụng ngữ liệu bắt đầu được chú ý khi các nhà
ngôn ngữ học nhận thấy rằng cần đánh giá đúng vai trò của các đơn vị từ vựng và sự diễn đạt
nghĩa của chúng trong những bối cảnh sử dụng khác nhau. Nhiều người nghiệm ra rằng phương
pháp phân tích theo trực giác cá nhân đã không còn độ tin cậy và cho ra kết quả thuyết phục. Kết
quả là những kho ngữ liệu ngày càng trở nên hữu ích cho việc nghiên cứu và giảng dạy ngôn ngữ.
Thuật ngữ “ngôn ngữ học ngữ liệu” hay “ngôn ngữ học khối liệu” (corpus linguistics) hẳn không
còn xa lạ với những nhà nghiên cứu Việt ngữ học. Là một phân ngành của ngôn ngữ học ứng
dụng, ngôn ngữ học ngữ liệu nghiên cứu các hiện tượng ngôn ngữ có thực dưới dạng văn bản và
1
ngôn bản thông qua các khối ngữ liệu với việc sử dụng công nghệ máy tính hiện đại. Ngày nay,
ngôn ngữ học ngữ liệu phát triển rất nhanh và mạnh mẽ theo đà phát triển của khoa học máy tính
và kĩ thuật số. Ở Việt Nam đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu và ngôn
ngữ học ngữ liệu. Tiêu biểu có thể kể đến là bài nghiên cứu của tác giả Đào Hồng Thu (2007)
Ngôn ngữ học khối liệu (Corpus) (Phần 1), bài viết Ngôn ngữ học máy tính và việc xây dựng từ
điển của hai tác giả Đinh Điền - Hồ Hải Thụy (2011), Sách chuyên khảo Ngôn ngữ học ngữ liệu
của tác giả Đinh Điền (2018),… Tuy nhiên, đến nay vẫn chưa có nhiều bài nghiên cứu đi sâu vào
việc khai thác và ứng dụng các nguồn ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người
nước ngoài. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu và giảng dạy ngôn
ngữ, đặc biệt là giảng dạy tiếng Việt cho người nước ngoài, bài báo sẽ giới thiệu khái quát về
khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu, đồng thời cũng cố gắng trình bày các nguồn
khai thác và cách thức ứng dụng các kho ngữ liệu điện tử trong việc biên soạn giáo trình giảng
dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước
ngoài.
2. Cơ sở lý luận
2.1. Ngữ liệu điện tử
Việc xây dựng các ngân hàng dữ liệu (databank hay database) trên Internet đã có từ rất lâu.
Những ngân hàng ngữ liệu này có thể chứa rất nhiều nội dung khác nhau như hình ảnh, âm thanh,
văn bản, bảng biểu, lược đồ, mô hình… Những dữ liệu có chất liệu ngôn ngữ thường được tổ
chức thành một loại riêng, gọi là corpus (kho ngữ liệu hay khối ngữ liệu). Một tập hợp gồm nhiều
corpus gọi là corpora hay corpuses (số nhiều của corpus).
Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus” có gốc từ tiếng Latin
với nghĩa là “thân thể” (body). Vì vậy các từ “corps” (“thân thể” trong tiếng Pháp, “quân đoàn”,
“đoàn” trong tiếng Anh) hay từ “corpse” (“tử thi” trong tiếng Anh) cũng là những từ dẫn xuất từ
gốc “corpus” này. (Đinh Điền, 2018, tr.1).
Có nhiều định nghĩa khác nhau về “ngữ liệu”. Theo Wikipedia, một kho ngữ liệu (corpus
hoặc text corpus) được hiểu là một tập hợp đủ lớn các văn bản có cấu trúc đã qua chế biến, và
thường được lưu trữ ở dạng điện tử. Người ta sử dụng kho ngữ liệu để phục vụ cho việc phân tích
thống kê, xác định tính đúng đắn của một giả thuyết, kiểm tra sự cố hoặc tính hợp lệ của các quy
tắc ngôn ngữ trong một bối cảnh đặc thù. Từ điển Oxford Advanced Learner’s Dictionary with
Vietnamese Translation (2015) lại định nghĩa “corpus” là “a collection of written and spoken
texts” và được dịch là “kho ngữ liệu (nói/viết)”. Theo nhà nghiên cứu Sinclair (1991) thì “ngữ
liệu” là “tập hợp các mẫu văn bản được lựa chọn một cách có hệ thống theo những tiêu chí nhất
định nhằm đại diện cho một thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngôn ngữ.”…
Trong thời đại khoa học máy tính phát triển với trình độ cao như hiện nay, các kho ngữ liệu
thường ngầm định là kho ngữ liệu dạng điện tử nên thuật ngữ “corpus” cũng được hiểu là ngữ
liệu điện tử.
2
Như vậy, ngữ liệu điện tử chúng tôi muốn đề cập ở đây được hiểu là tập hợp văn bản đơn
ngữ, đa ngữ hay song ngữ (gồm các cặp văn bản đã được dịch thủ công, dịch tương ứng 1-1 về
mặt ngữ nghĩa) và phù hợp với lĩnh vực, thể loại, niên đại mà ta cần nghiên cứu. Một kho ngữ
liệu có thể chứa văn bản bằng một thứ tiếng đơn lẻ – gọi là kho ngữ liệu đơn ngữ (monolingual
corpus), hoặc văn bản bằng nhiều thứ tiếng – gọi là kho ngữ liệu đa ngữ (multilingual corpus).
“Các kho ngữ liệu đa ngữ được định dạng đặc thù để có thể so sánh cạnh nhau (side-by-side)
được gọi là kho ngữ liệu song song có gióng hàng (aligned parallel corpora). Sự gióng hàng có
thể ở các mức như: các từ được gióng hàng từng đôi một (từ của ngôn ngữ A là từ dịch của ngôn
ngữ B); các ngữ được gióng hàng từng đôi một (ngữ của ngôn ngữ A là ngữ dịch của ngôn ngữ
B); các câu được gióng hàng từng đôi một (câu của ngôn ngữ A là câu dịch của ngôn ngữ B),
v.v”. (Vũ Xuân Lương, 2013)
Ngoài ra, dựa vào cách xây dựng ngữ liệu, người ta thường chia ngữ liệu thành các loại sau:
Ngữ liệu thô (raw corpus): chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm; Ngữ liệu được
gắn nhãn (tagged corpus): ngữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú
pháp, gắn nhãn từ loại, … Chẳng hạn, các từ trong cụm từ sẽ được chú giải thông tin về từ loại –
gọi là gắn nhãn từ loại (part-of-speech tagging, viết tắt: POS-tagging). Các cụm từ trong câu sẽ
được phân tách và gắn nhãn – gọi là phân đoạn cụm từ (chunking). Với các ngôn ngữ đơn lập
như tiếng Việt, do ranh giới của từ không được xác định rõ ràng bằng hình thức, nên ngữ liệu
thường phải trải qua quá trình xác định đơn vị từ và gắn nhãn khu biệt – gọi là phân đoạn từ
(word segmentation), v.v.
Trên thế giới hiện nay, một số kho ngữ liệu tiếng Anh nổi tiếng có thể kể đến là Kho ngữ
liệu Brown (Brown University Corpus) chứa khoảng một triệu đơn vị từ và cụm từ sử dụng, được
đánh dấu theo dạng hình thái từ, kho ngữ liệu Lancaster/Oslo-Bergen (Lancaster/Oslo-Bergen
Corpus (LOB)) – bao gồm khoảng một triệu đơn vị từ và cụm từ sử dụng. Kho ngữ liệu này này
chứa hai khối liệu con là khối liệu Leeds-Lancaster Treebank và khối liệu Lancaster Parsed –
Lancaster Parsed Corpus. Hai khối liệu con được đánh dấu theo dạng cú pháp; Kho ngữ liệu Anh
Quốc British National Corpus (BNC) là kho ngữ liệu tiếng Anh có dung lượng lớn nhất hiện nay.
Kho ngữ liệu này chứa 100 triệu đơn vị từ và cụm từ sử dụng. Nó được xây dựng vào những năm
90, thế kỷ XX, bao gồm khoảng 90% đơn vị trích rút từ các văn bản và 10% từ ngôn bản. Khối
liệu được đánh dấu theo dạng hình thái từ. Và gần đây là sự xuất hiện của Sketch Engine với một
bộ ngữ liệu đồ sộ gồm hơn 130 corpus (tính đến tháng 7 năm 2012), trong đó có Kho ngữ liệu
BNC, và đặc biệt là Kho ngữ liệu tiếng Việt (VietnameseWaC)...
2.2. Ngôn ngữ học ngữ liệu (Corpus linguistics)
Ngôn ngữ học ngữ liệu hay còn gọi là ngôn ngữ học khối liệu là một phân ngành của ngôn
ngữ học ứng dụng, được hình thành từ những năm nửa cuối thế kỷ XX và đầu thế kỷ XXI nhằm
đáp ứng nhu cầu nghiên cứu ngôn ngữ trong thời đại công nghệ máy tính và nhu cầu dịch tự động
phát triển không ngừng. Đây là ngành khoa học nghiên cứu ngôn ngữ trên cơ sở kĩ thuật điện tử
số, là khoa học nghiên cứu xây dựng các khối liệu ngôn ngữ, nghiên cứu các phương pháp xử lý
dữ liệu và sử dụng ngữ liệu. Việc sử dụng các thí dụ thực tế của văn bản trong nghiên cứu ngôn
3
ngữ không phải là một vấn đề mới và được khai thác từ rất lâu. Tuy nhiên, nhờ vào khả năng to
lớn trong việc xử lý ngôn ngữ tự nhiên với máy tính, ngôn ngữ học ngữ liệu đã không ngừng phát
triển, trở thành một phân ngành nghiên cứu ngôn ngữ khá phổ biến hiện nay.
“Ngôn ngữ học ngữ liệu (corpus linguistics) là một nhánh của ngành ngôn ngữ học liên
quan tới kĩ thuật xử lý ngữ liệu có dùng máy tính, áp dụng để giải quyết những vấn đề được mô
tả với quy mô rộng lớn.” (R. R. K Hartmann and Gregory James, 1998, tr. 31).
“Với tư cách là một chuyên ngành mới của Ngôn ngữ học, ngôn ngữ học ngữ liệu chuyên
nghiên cứu về cách thức thu thập ngữ liệu, các tiêu chí chọn lựa ngữ liệu (để đảm bảo tính cân
bằng, tính đại diện…), cách thức chuẩn hóa, cách thức xử lý ngữ liệu (gán nhãn ngôn ngữ) sao
cho chúng ta có thể khai thác kho ngữ liệu đó một cách hiệu quả nhằm phục vụ giải quyết những
vấn đề liên quan đến ngôn ngữ.” (Đinh Điền, 2018, tr.5)
Theo nhà ngôn ngữ học Đào Hồng Thu, ngôn ngữ học ngữ liệu có thể được hiểu là khoa
học nghiên cứu về “thế giới thực” văn bản, thể hiện trong corpora. Corpora được sử dụng trong
các nội dung sau: Nghiên cứu ngôn ngữ thực tế: mô tả cách tiếp cận, nghiên cứu về hiệu suất sử
dụng ngôn ngữ, thực nghiệm ngôn ngữ; Ngôn ngữ học ứng dụng: cung cấp từ điển đơn ngữ, từ
điển thuật ngữ, từ điển song ngữ; Nghiên cứu ngôn ngữ: xác minh giả thuyết, khám phá tri thức
(từ vựng, hình thái học, cú pháp,...); Nghiên cứu dịch: các tương đương dịch của cùng một nguồn
và ngữ cảnh của chúng, các bộ nhớ dịch, các bản dịch được máy hỗ trợ; Học tiếng: thí dụ thực tế,
“giảng dạy bằng thành ngữ”, phát triển chương trình giảng dạy… (Đào Hồng Thu, 1999).
3. Phương pháp nghiên cứu
Trong quá trình nghiên cứu, chúng tôi đã tiến hành khảo sát các kho ngữ liệu tiếng Việt đơn
ngữ và song ngữ được đăng tải trên Internet và những kho ngữ liệu của Trung tâm Ngôn ngữ học
tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh. Qua
tìm hiểu, phân tích các kho ngữ liệu, chúng tôi phân loại, lựa chọn ra được những kho ngữ liệu
phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Chúng tôi sử dụng phương pháp
miêu tả và phân tích những ứng dụng của các kho ngữ liệu này vào việc giảng dạy tiếng Việt trên
nhiều lĩnh vực như biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng
Việt.
Quy trình nghiên cứu của chúng tôi gồm 3 bước:
1. Thống kê các kho ngữ liệu có thể dùng để phục vụ cho việc giảng dạy tiếng Việt cho
người nước ngoài.
2. Giới thiệu một số ứng dụng của kho ngữ liệu trong việc giảng dạy tiếng Việt cho người
nước ngoài.
3.Đề xuất một số giải pháp ứng dụng các kho ngữ liệu hiệu quả hơn trong việc giảng dạy
tiếng Việt.
4. Kết quả nghiên cứu
4
4.1. Các kho ngữ liệu điện tử có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt
cho người nước ngoài
Từ khi khái niệm “kho ngữ liệu” được biết đến đầu tiên vào năm 1961 đến nay đã và đang
có rất nhiều kiểu ngữ liệu điện tử được xây dựng và phát triển tùy vào những mục đích khác
nhau. Các khối liệu này đã và đang đóng vai trò rất quan quan trọng trong nhiều lĩnh vực khác
nhau trong đó có lĩnh vực ngữ học ứng dụng. Đối với việc giảng dạy tiếng Việt cho người nước
ngoài, chúng tôi nhận thấy nếu có thể khai thác các kho ngữ liệu điện tử dưới đây thì việc giảng
dạy sẽ đạt hiệu quả hơn rất nhiều.
Bảng 1: Danh sách các khối ngữ liệu có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt cho
người nước ngoài
STT Khối ngữ liệu Nội dung Đơn vị quản lý
1 Vietlex 150 triệu âm tiết tiếng
Việt
Trung tâm Từ điển học (VIETLEX)
2 Cơ sở dữ liệu điện tử 150.000 biểu ghi Cục thông tin khoa học và công nghệ
quốc gia Việt Nam
3 Bách khoa toàn thư Việt
Nam trực tuyến
40.000 mục từ Viện từ điển học và Bách khoa thư
4 Kho tài nguyên tiếng Việt
VLSP
35.000 từ có chú thích Trung tâm Ngôn ngữ học tính toán,
Trường Đại học Khoa học Tự nhiên,
Đại học Quốc gia Thành phố HCM
5 Kho tài nguyên tiếng Việt
CLC
Từ điển đơn ngữ 40.000
từ
Từ điển song ngữ
Từ điển chuyên ngành
Trung tâm Ngôn ngữ học tính toán,
Trường Đại học Khoa học Tự nhiên,
Đại học Quốc gia Thành phố HCM
6 VTB (Vietnamese Tree
Bank)
300 câu có chú thích
ranh giới từ
Trung tâm Ngôn ngữ học tính toán,
Trường Đại học Khoa học Tự nhiên,
Đại học Quốc gia Thành phố HCM
7 Vcor (Vietnamese corpus) 17 triệu câu, 346 triệu từ Trung tâm Ngôn ngữ học tính toán,
Trường Đại học Khoa học Tự nhiên,
Đại học Quốc gia Thành phố HCM
8 VietnameseWaC 100 triệu từ được gắn
thẻ
Sketch Engine
1. Kho ngữ liệu Vietlex: http://www.vietlex.com/. Đây là kho ngữ liệu được xây dựng bởi
Trung tâm Từ điển học (VIETLEX) là một tổ chức Khoa học và Công nghệ phi chính phủ, do cố
GS Hoàng Phê sáng lập năm 1993. Tại Việt Nam, VIETLEX là tổ chức đi đầu trong việc xây
5
dựng Kho ngữ liệu tiếng Việt (Vietnamese Corpus), phục vụ cho việc biên soạn từ điển nói riêng
và xử lý ngôn ngữ tự nhiên nói chung. Kho ngữ liệu tiếng Việt của VIETLEX hiện chứa khoảng
150 triệu âm tiết, bắt đầu xây dựng từ năm 1997 và liên tục được cập nhật theo thời gian.
2. Cơ sở dữ liệu điện tử của Cục thông tin khoa học và công nghệ quốc gia Việt Nam :
http://lhtv.vista.vn hoặc http://db.vista.gov.vn/. Đây là cơ sở dữ liệu toàn văn về tài liệu KH&CN
Việt Nam, do Cục Thông tin KH&CN Quốc gia xây dựng và cập nhật từ năm 1987. Hiện tại, cơ
sở dữ liệu điện tử này có 150.000 biểu ghi, trong đó 85.000 có đính kèm tài liệu gốc định dạng
tệp PDF. STD được cập nhật hàng tuần. Trung bình mỗi năm cập nhật thêm khoảng 11.000 tài
liệu mới. Trang cơ sở dữ liệu điện tử này gồm nhiều nhóm dữ liệu, nổi bật nhất có thể kể đến:
- Cơ sở dữ liệu công bố kết quả nghiên cứu khoa học công nghệ Việt Nam: Đây là cơ sở dữ
liệu thư mục lớn nhất Việt Nam về các báo cáo kết quả của các đề tài nghiên cứu KH&CN các
cấp đăng ký và giao nộp tại Cục Thông tin KH&CN Quốc gia bao gồm hơn 10.000 mô tả thư
mục và tóm tắt; được cập nhật khoảng 600 báo cáo/năm;
- Proquest Central: bộ cơ sở dữ liệu lớn, bao gồm 25 cơ sở dữ liệu đa ngành, xử lý trên
19.000 tạp chí, trong đó có hơn 13.000 tạp chí toàn văn. Dữ liệu của Proquest Central bao quát
trên 160 lĩnh vực khác nhau thuộc các ngành khoa học nồng cốt như Kính tế, Y học, Công nghệ,
Khoa học xã hội. Ngoài ra Proquest còn cung cấp bản toàn văn của 56.000 luận văn trong các
lĩnh vực tâm lý học, kinh doanh, khoa học vật lý, y tế, giáo dục …
- Science Direct: nguồn thông tin thiết yếu đối với công tác nghiên cứu và đào tạo. Đây là
bộ sưu tập toàn văn bao gồm các tài liệu khoa học nồng cốt với nhiều tạp chí có chỉ số ảnh hưởng
cao. Science Direct hiện nay có hơn 9 triệu bài viết toàn văn bao quát trên nhiều lĩnh vực về khoa
học, công nghệ.
3. Bách khoa toàn thư Việt Nam trực tuyến của Viện từ điển học và Bách khoa thư, Viện
Hàn Lâm khoa học xã hội Việt Nam http://bachkhoatoanthu.vass.gov.vn/Pages/trangchu.aspx. Từ
điển bách khoa Việt Nam” là bộ từ điển bách khoa tổng hợp nhiều chuyên ngành. Những kiến
thức chuyên ngành trong từ điển có tính chất thông dụng, phù hợp với đông đảo bạn đọc. Nội
dung chính của Bách khoa thư là giới thiệu những tri thức cơ bản nhất về đất nước con người,
lịch sử xã hội, văn hóa, khoa học, công nghệ Việt Nam xưa và nay; giới thiệu những tri thức văn
hóa, khoa học và kỹ thuật của thế giới, chú ý những tri thức cần cho độc giả Việt Nam.
4. Kho tài nguyên cho tiếng Việt VLSP: Đây là kho tài nguyên gồm các từ điển (khoảng
35.000 từ), ngữ liệu đơn ngữ có chú thích (khoảng 10.000 câu có chú thích cú pháp), ngữ liệu
song ngữ Anh – Việt (khoảng 100.000 cặp câu) và một số công cụ phân tích tiếng Việt tự động.
5. Kho tài nguyên tiếng Việt CLC bao gồm các kho ngữ liệu điện tử song ngữ do Trung
tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí Minh xây dựng. Hiện
tại, Trung tâm có thể cung cấp những khối ngữ liệu điện tử song ngữ Anh - Việt, Pháp – Việt,
Hàn – Việt, Lào – Việt, Việt – Trung. Các khối ngữ liệu này chạy trên phần mềm CLC Parallel
Corpus 2.0 với nhiều chức năng như miêu tả việc sử dụng từ trong văn cảnh song ngữ, đối chiếu
cấu trúc, trật tự từ trong câu… Kho tài nguyên này còn bao gồm các tài nguyên ngôn ngữ liên
6
quan đến việc giảng dạy tiếng Việt như Danh sách 3000 từ phổ biến nhất trong tiếng Việt, Từ
điển tần số tiếng Việt đầy đủ ( hơn 40.000 mục từ), Từ điển âm thanh của tất cả các âm tiết tiếng
Việt phát âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng
Việt phổ thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người). Các tài nguyên ngôn ngữ này
hiện đang có ở Trung tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí
Minh.
6. Ngữ liệu đơn ngữ có chú thích VTB là ngữ liệu gồm 300 câu có chú thích ranh giới từ, từ
loại và nhãn thực thể thuộc nhiều lĩnh vực khác nhau. Nguồn ngữ liệu thô được thu thập từ các
trang báo điện tử từ năm 2000 đến năm 2010 và được chú thích thủ công bởi các nhân viên và
cộng tác viên ngôn ngữ học của Trung tâm dữ liệu Đa ngữ Kim từ điển.
7. Ngữ liệu Vcor là ngữ liệu đơn ngữ tiếng Việt (Vietnamese corpus) gồm hơn 17 triệu câu
với hơn 346 triệu từ và 443 triệu chữ (tiếng/âm tiết) thuộc 42 lĩnh vực và gom thành 18 chủ đề
(khoa học, kinh tế, văn hóa, xã hội…). Ngữ liệu này được thu thập tự động từ các trang báo điện
tử từ năm 2000 đến năm 2010.
8. Khối ngữ liệu tiếng Việt VietnameseWaC https://www.sketchengine.eu/:
kho ngữ liệu tiếng Việt gồm 100 triệu từ được thu thập từ các văn bản trên Internet. Khối ngữ
liệu này là một phần của kho ngữ liệu đồ sộ Sketch Engine. Đây là khối ngữ liệu có rất nhiều
chức năng như Word Sketch (tìm kiếm những cụm từ có chứa từ cần tìm), Thesaurus (tìm kiếm
từ đồng nghĩa hoặc có liên quan với từ cần tìm), Concordance (liệt kê những ngữ cảnh có chứa từ
cần tìm)…
4.2. Ứng dụng ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài
Từ khi ra đời cho đến nay, ngữ liệu điện tử đã được ứng dụng trong rất nhiều lĩnh vực khác
nhau, trong đó có lĩnh vực giáo dục. Việc khai thác và ứng dụng ngữ liệu điện tử trong giảng dạy
nói chung và giảng dạy ngoại ngữ nói riêng là hết sức cần thiết. Việc ứng dụng ngữ liệu điện tử
trong giảng dạy tiếng Việt cho người nước ngoài có thể được thực hiện trên các lĩnh vực sau đây:
* Ứng dụng ngữ liệu điện tử trong việc biên soạn giáo trình tiếng Việt cho người nước ngoài
Hiện nay, tiếng Việt đã trở thành một trong 20 ngôn ngữ phổ biến nhất thế giới và ngày
càng có nhiều người nước ngoài học tập, nghiên cứu tiếng Việt. Chính vì thế việc nghiên cứu và
giảng dạy tiếng Việt cho người nước ngoài cần phải có những bước đột phá mới theo những
hướng tiếp cận mới, phương pháp luận mới. Một trong những giảng pháp nhằm nâng cao chất
lượng đào tạo tiếng Việt cho người nước ngoài là phải xây dựng được những bộ giáo trình có
chất lượng. Để làm được điều này, chúng ta cần quan tâm đến rất nhiều yếu tố và ứng dụng ngữ
liệu điện tử trong biên soạn giáo trình giảng dạy tiếng Việt là một trong số đó. Khai thác ngữ liệu
điện tử sẽ giúp ích rất nhiều cho người biên soạn giáo trình tiếng Việt trong những công việc sau:
- Tìm kiếm ngữ liệu các bài đọc thuộc nhiều chủ đề khác nhau. Việc tìm ngữ liệu cho bài
đọc sẽ dễ dàng hơn rất nhiều nếu chúng ta khai thác các kho ngữ liệu. Các kho ngữ liệu thô sẽ rất
hữu ích cho việc tìm kiếm này vì thường chúng được sắp xếp theo những chủ đề quen thuộc
7
trong đời sống hàng ngày và cả những chủ đề mang tính hàn lâm. Với kho dữ liệu điện tử của
Cục thông tin khoa học và công nghệ quốc gia Việt Nam và từ điển Bách khoa toàn thư Việt Nam
trực tuyến của Viện từ điển học và Bách khoa thư, chúng ta có thể tìm kiếm những bài đọc với
nhiều chủ đề và thể loại khác nhau hoặc chỉ cần đánh từ khóa sẽ tìm thấy những bài viết liên
quan.
- Xác định độ khó của bài đọc để biên soạn giáo trình theo từng cấp độ. Để biên soạn giáo
trình phù hợp với từng cấp độ, chúng ta cần xem xét đến độ khó của tất cả các từ, các câu và toàn
bộ văn bản được sử dụng trong giáo trình. “Độ khó của văn bản là tập hợp tất cả các yếu tố nội tại
của văn bản khiến cho văn bản dễ hay khó tiếp thu bởi đa số người đọc ở một cấp độ cụ thể. Độ
khó của văn bản phụ thuộc vào độ phổ biến của từ vựng (tuần suất), độ phức tạp của cấu trúc câu
(số lượng mệnh đề, chiều dài câu) và tổ chức văn bản (liên kết văn bản).” [Đinh Điền, 2018,
tr.263]. Vì vậy trong việc biên soạn giáo trình, chúng ta cần hết sức lưu ý đến độ khó của văn bản
cũng như bài tập, câu hỏi đi kèm. Tuy nhiên, độ khó không thể xác định theo cảm quan, cảm tính
của người biên soạn vì sẽ có trường hợp người biên soạn cảm thấy dễ nhưng người học ở trình độ
thấp chưa chắc cảm thấy như thế. Chính vì vậy để xác định độ khó của văn bản cần có sự góp sức
của khoa học máy tính. Chúng ta có thể xây dựng sẵn các kho ngữ liệu bài đọc thuộc nhiều chủ
đề khác nhau, sử dụng máy tính để phân loại tự động theo các mức độ khó khác nhau để khi cần
sử dụng biên soạn giáo trình cho trình độ nào, chúng ta chỉ sử dụng những bài đọc trong kho ngữ
liệu đó.
- Xác định độ khó của câu hỏi, bài tập, yêu cầu: Đối với các câu hỏi, phần bài tập cũng cần
phải xác định độ khó. Việc lựa chọn ngữ liệu để soạn thảo câu hỏi đặc biệt là câu hỏi trắc nghiệm
hoàn toàn phụ thuộc vào người soạn mà không có những tiêu chí thống nhất để đảm bảo rằng độ
khó giữa các ngữ liệu nền được cung cấp trong các câu hỏi ở trình độ tương đương là thực sự
tương đương. Thay vì hoàn toàn phụ thuộc vào phán đoán của từng người ra đề theo sử dụng
phương pháp thủ công (tức mỗi người soạn sẽ phải vừa đọc tư liệu và phán đoán sự phù hợp của
từng đoạn ngữ liệu đối với mục đích kiểm tra), rất cần có những tiêu chí khách quan, đơn giản dễ
sử dụng để hỗ trợ người soạn trong việc lựa chọn ngữ liệu. Người biên soạn cũng có thể khai thác
những tài nguyên của Kho tài nguyên tiếng Việt CLC với từ điển đơn ngữ tiếng Việt với nhiều
trường thông tin như hình thái, từ loại, định nghĩa, ví dụ và tần số sử dụng để xây dựng và lựa
chọn những bài tập phù hợp với từng trình độ. Những kho ngữ liệu song ngữ cũng rất hữu ích
trong việc xây dựng những bài tập dịch theo từng cấp độ…
* Ứng dụng ngữ liệu điện tử trong việc giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt
Trong quá trình học tiếng Việt, khó khăn đầu tiên mà nhiều người học gặp phải có lẽ là việc
phát âm đúng các thanh điệu khác nhau do có thể trong tiếng mẹ đẻ của họ không có thanh điệu.
Chính vì vậy nên lỗi phát âm về thanh điệu tiếng Việt là một trong những lỗi rất phổ biến của
người học. Trong quá trình giảng dạy đòi hỏi người dạy phải luyện tập phát âm thanh điệu cho
học viên nhiều hơn. Với việc khai thác Từ điển âm thanh của tất cả các âm tiết tiếng Việt phát
âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng Việt phổ
thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người) trong kho tài nguyên tiếng Việt CLC,
8
người dạy có thể giúp người học phát âm chuẩn hơn nhờ vào kho dữ liệu âm thanh phát âm chuẩn
đã thu sẵn. Những dữ liệu âm thanh này cũng dễ dàng sử dụng trong các bài học và bài tập
online, giúp sinh viên luyện tập ở mọi lúc, mọi nơi không chỉ trong giờ học ở lớp. Ngoài ra, dữ
liệu âm thanh này còn được kết hợp với những hình ảnh hoặc hoạt hình mô phỏng khẩu hình
miệng, phương thức cấu âm nên rất thuận lợi cho người học. Hơn nữa, nhờ vào kho ngữ liệu điện
tử, người dạy, người dạy có thể lựa chọn ví dụ theo độ phổ biến của âm tiết để giới thiệu cho
người học theo từng trình độ. Từ kho ngữ liệu Vcor, người dạy có thể rút ra được danh sách 700
âm tiết thông dụng nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế) và tần
suất sử dụng của chúng. Khi ứng dụng vào giảng dạy, người học cần lựa chọn các âm tiết có tần
số sử dụng cao nhất để người học dễ nắm bắt và thực hành.
Đối với việc giảng dạy từ vựng tiếng Việt, khai thác và ứng dụng ngữ liệu điện tử là rất cần
thiết. Những ứng dụng ngữ liệu trong việc giảng dạy từ vựng có thể kể đến như sau:
- Lựa chọn từ vựng hoặc chọn nghĩa thông dụng phù hợp để giảng dạy. Một trong những yêu
cầu của việc giảng dạy từ vựng là người học phải xác định được vốn từ vựng cơ bản phù hợp với
người học trong quá trình giảng dạy. Khai thác các kho ngữ liệu Vcor và VTB, người dạy có thể
rút ra được danh sách các từ được sử dụng theo tần số từ cao đến thấp từ đó nắm được các từ
thông dụng nhất trong tiếng Việt. Từ kho VCor, chúng ta có thể thống kê để rút ra từ điển tần số
tiếng và từ điển tần số từ. Khi lựa chọn từ để giới thiệu trong từng chủ đề, người học có thể lựa
chọn từ ngữ cho phù hợp với từng trình độ của học viên. Tuy nhiên có một vấn đề đặt ra là trong
tiếng Việt có rất nhiều hiện tượng đồng âm nên người dạy cũng phải lưu ý chọn nghĩa phù hợp
với người học chứ không phải giới thiệu các từ đồng âm hay tất cả các nghĩa của cùng một từ.
Chẳng hạn như từ “tốt” có thể là tính từ (tốt đẹp) nhưng cũng có thể là danh từ (con tốt), từ “là”
có thể là hệ từ cũng có thể là động từ (là quần áo), từ “của” có thể là giới từ (của tôi) hoặc có thể
là danh từ “của cải”. Người dạy có thể căn cứ vào danh sách các từ thông dụng rút ra từ kết quả
thống kê tần suất từ theo từ loại trong kho VTB để giải quyết vấn đề này. Với những trường hợp
nêu trên, chúng ta nhận thấy từ “tốt” xuất hiện 3624 lần với tư cách là tính từ (tốt đẹp) và 2 lần
với tư cách là danh từ (con tốt), tương tự hệ từ “là” xuất hiện cao hơn nhiều lần so với động từ
“là”(là áo quần), giới từ “của” cũng xuất hiện cao hơn nhiều so với danh từ “của” (của cải)…Vì
vậy ở trình độ thấp, người dạy chỉ nên dạy từ tính từ “tốt”, hệ từ “là” và giới từ “của” và ở trình
độ cao hơn người dạy có thể đề cập đến các từ trên với cách dùng là các từ loại khác. Sau đây là
bảng thống kê tần suất sử dụng từ tiếng Việt trong kho ngữ liệu VTB.
Bảng 2: Thống kê tần suất từ tiếng Việt trong kho ngữ liệu VTB
Stt Từ POS f n
3.775 của Nn 4,6789 115
9
368 và M 3,4268 2.059
20.793 và Vv 6,1384 4
39.212 các Vv 6,7405 1
3.224 có M 4,5731 147
103 có R 2,9803 5.756
19.385 là Vv 6,0415 5
5.290 là Cs 4,9209 66
143 là Cp 3,0857 4.516
1.749 là M 4,1842 360
186 tốt Aa 3,1813 3.624
25.154 tốt Nn 6,4394 2
Tần suất được tính bằng công thức f = –lg (n/N) với n là số lần xuất hiện của âm tiết và N
là tổng số âm tiết trong ngữ liệu VTB. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện 1
triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ nhất là 0), có nghĩa là
âm tiết đó xuất hiện càng nhiều và ngược lại (lớn nhất là 8, nếu âm tiết đó chỉ xuất hiện 1 lần).
[Đinh Điền, Hồ Xuân Vinh, 2016]
- Miêu tả cách dùng từ trong ngữ cảnh. Đối với việc giảng dạy từ vựng, miêu tả cách dùng
của từ trong ngữ cảnh là thật sự cần thiết. Mỗi từ có thể có nhiều nghĩa khác nhau và các nghĩa cụ
thể của từ phụ thuộc vào ngữ cảnh (context). Chính vì vậy khi xem xét nghĩa của một từ nào đó,
chúng ta cần xem xét nó trong ngữ cảnh. Với những kho ngữ liệu, người dạy sẽ dễ dàng cung cấp
cho người học những dẫn chứng sinh động về cách dùng từ trong ngữ cảnh qua việc khảo sát trực
quan các chuỗi ngôn từ. Chẳng hạn như để trích dẫn ngữ cảnh của từ “đi”, chúng ta chỉ cần nhập
từ khóa “đi”, máy sẽ cho ra tất cả những ngữ cảnh có sử dụng từ này. Người học cũng có thể nhìn
vào đó để nghiệm ra cách sử dụng của từ này. Sau đây là giao diện và kết quả tìm kiếm ngữ cảnh
của từ đi trong kho ngữ liệu Vietlex.
10
Hình 1: Miêu tả từ theo ngữ cảnh trong kho ngữ liệu Vietlex
- Thống kê, miêu tả các cách dùng của từ: Từ các kho ngữ liệu, chúng ta cũng có thể hiểu
được các cách dùng từ khác nhau cũng như khả năng kết hợp của từ đó với những từ khác. Chẳng
hạn với kho ngữ liệu VietnameseWaC, người dạy khi đánh vào từ khóa “đi” ở mục Word Sketch
sẽ có kết quả 312217 kết hợp có từ “đi” trong tiếng Việt như đi tìm, đi học, đi qua, đi bộ, đi
chơi..; bỏ đi, trở đi, giảm đi, chết đi …; vừa đi, đang đi, đã đi,…; đi cấp cứu, đi đày, đi cải tạo …
Hình 2: Miêu tả cách dùng từ trong kho ngữ liệu VietnameseWaC
11
Giảng dạy ngữ pháp tiếng Việt cho người nước ngoài từ lâu đã là vấn đề được nhiều giáo
viên dạy tiếng Việt quan tâm bởi lẽ theo nhiều giáo viên đây là lĩnh vực khó dạy nhất. Từ xưa đã
có câu “Phong ba bão táp không bằng ngữ pháp Việt Nam”. Đến nay vẫn chưa có một giáo trình
ngữ pháp tiếng Việt nào dành cho người nước ngoài. Để việc dạy ngữ pháp tiếng Việt có hiệu
quả hơn, người dạy có thể khai thác và ứng dụng các kho ngữ liệu điện tử nhất là những kho ngữ
liệu có phần chú thích nhãn ngữ pháp của từ. Với thông tin về tiểu từ loại và ngữ pháp biến đổi
từ, kho ngữ liệu EVC có thể đáp ứng được các yêu cầu khai thác chi tiết hơn như tìm từ tiếng
Việt theo tiểu từ loại (động từ nội động; ngoại động; danh từ đơn thể, danh từ tổng thể, danh từ
khối, …). Ngoài ra, người dạy có thể sử dụng những kho ngữ liệu song ngữ Anh – Việt, Pháp –
Việt, Hàn – Việt, Nhật – Việt, Trung – Việt … để hạn chế những ảnh hưởng của chuyển di tiêu
cực từ tiếng mẹ đẻ sang tiếng Việt trong quá trình học ngữ pháp. Chẳng hạn như khi dạy về các
cấu trúc câu tiếng Việt, người học tiếng Anh sẽ có thể hỏi là “Ở đâu anh làm việc?” do trong
tiếng Anh từ để hỏi Where (Ở đâu) luôn đứng đầu câu. Khai thác các kho ngữ liệu song ngữ,
người dạy có thể giúp người học quan sát trực quan sự sắp xếp trật từ trong các câu cụ thể từ đó
người học có thể nghiệm ra những quy tắc thay đổi trật tự và các nhân tố ảnh hưởng đến trật tự
đó. Sau đây là một ví dụ khác về trật tự từ trong câu tiếng Việt và tiếng Anh:
Hình 3: So sánh trật tự thành phần câu giữa tiếng Anh và tiếng Việt
(Nguồn: Đinh Điền, Lý Ngọc Minh (2015))
5. Thảo luận và đề xuất
Như vậy, chúng ta có thể khẳng định rằng việc khai thác và ứng dụng ngữ liệu điện tử có ý
nghĩa rất thiết thực đối với việc giảng dạy tiếng Việt cho người nước ngoài. Tuy nhiên, hiện nay,
việc ứng dụng này chưa thật sự phổ biến và chưa đạt được mục đích mong muốn bởi lẽ những
kho ngữ liệu tiếng Việt và ngữ liệu song ngữ có chứa tiếng Việt chưa nhiều và được phổ biến
rộng rãi. Hầu hết các kho ngữ liệu có gắn nhãn đều không được cung cấp miễn phí, người dạy
muốn sử dụng phải mua với giá khá cao. Ngoài ra, hầu hết các kho ngữ liệu có chứa tiếng Việt
hiện có đều là kho ngữ liệu phục vụ cho nhiều mục đích khác nhau chứ chưa có những kho ngữ
liệu chuyên biệt chỉ phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Tiếp đến, việc
khai thác, sử dụng hiện quả các kho ngữ liệu cũng cần đòi hỏi người sử dụng phải có những kiến
thức cơ bản về công nghệ thông tin do chúng thường được đọc bởi một phần mềm hay một công
cụ tìm kiếm nhất định. Chính vì vậy, chúng tôi xin nêu một số đề xuất nhằm mục đích nâng cao
12
tính hiệu quả của việc khai thác và ứng dụng được những kho ngữ liệu điện tử trong việc giảng
dạy tiếng Việt cho người nước ngoài ở phần dưới đây:
Thứ nhất, chúng ta nên xây dựng thêm những khối ngữ liệu chuyên biệt phục vụ cho những
mục đích giảng dạy tiếng Việt cụ thể. Chẳng hạn như những khối ngữ liệu phục vụ cho việc biên
soạn giáo trình tiếng Việt cho người nước ngoài (khối ngữ liệu các bài text, các bài hội thoại, các
mẫu câu theo từng trình độ từ A1-C2), những khối ngữ liệu tiếng Việt chuyên ngành (chuyên
ngành du lịch, chuyên ngành thương mại, chuyên ngành hành chính, văn phòng…), những khối
ngữ liệu ngân hàng đề thi đánh giá năng lực tiếng Việt theo từng cấp độ, những khối ngữ liệu văn
bản nói (hội thoại, thuyết trình, bài giảng, bản tin ..) phục vụ cho việc giảng dạy tiếng Việt.
Thứ hai, chúng ta phải không ngừng học tập để nâng cao trình độ sử dụng công nghệ thông
tin có như vậy mới khai thác hiệu quả các khối ngữ liệu điện tử. Hiện nay, ngoài những kho ngữ
liệu tiếng Việt do người Việt xây dựng còn có những kho ngữ liệu tiếng Việt hoặc ngữ liệu song
ngữ chứa tiếng Việt do các tổ chức nước ngoài xây dựng. Muốn sử dụng được chúng, chúng ta
phải sử dụng được một số phần mềm và công cụ tìm kiếm ngữ liệu trực tuyến.
Thứ ba, chúng ta nên triển khai những đề tài hoặc dự án nghiên cứu về việc khai thác
những khối ngữ liệu điện tử để xây dựng các khóa học tiếng Việt online. Khối ngữ liệu không chỉ
giúp ích trong việc xây dựng giáo trình bản giấy mà còn rất hữu ích trong việc xây dựng giáo
trình online. Nhờ những khối ngữ liệu có sẵn, việc đưa nội dung bài giảng vào các chương trình
học online sẽ tiết kiệm được rất nhiều thời gian và công sức của người dạy.
6. Kết luận
Trong thời đại 4.0 hiện nay, khoa học máy tính đã phát huy sức mạnh trong nhiều lĩnh vực
trong đó có giảng dạy ngôn ngữ. Việc khai thác có hiệu quả những khối ngữ liệu điện tử sẽ góp
phần rất lớn trong việc nâng cao chất lượng giảng dạy tiếng Việt cho người nước ngoài. Nhờ khai
thác ngữ liệu từ những kho ngữ liệu điện tử, việc biên soạn giáo trình, giảng dạy, đánh giá năng
lực tiếng Việt sẽ trở nên chuyên nghiệp và khách quan hơn. Càng ngày yêu cầu của người học
tiếng Việt càng cao nên việc khai thác và ứng dụng những kho ngữ liệu trong việc giảng dạy
tiếng Việt cần được thực hiện một cách khoa học và hệ thống trong tương lai.
Tài liệu tham khảo
Đinh Điền, & Hồ Hải Thuỵ (2011). Ngôn ngữ học máy tính và việc xây dựng từ điển. Tạp chí Từ điển
học & Bách khoa thư, số 4(12)/7.
Đinh Điền, & Lý Ngọc Minh (2015). Ứng dụng ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn
ngữ. Kỷ yếu hội thảo Liên ngành Ngôn ngữ học Ứng dụng & Giảng dạy Ngôn ngữ (tr.559-567).
Đinh Điền, & Hồ Xuân Vinh (2016). Ứng dụng kho ngữ liệu trong việc day tiếng Việt cho người nước
ngoài. Kỷ yếu hội thảo quốc tế giảng dạy, nghiên cứu Việt Nam học và tiếng Việt (tr. 172-180).
Đinh Điền (2018). Sách chuyên khảo ngôn ngữ học ngữ liệu. NXB: Đại học Quốc gia Thành phố Hồ
Chí Minh.
13
Vũ Xuân Lương (2013). Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lý ngôn ngữ và biên soạn từ
điển. Truy cập từ http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_lieu_ap_dung
_cho_phan_tich,_xu_li_ngon_ngu_va_bien_soan_tu_dien.
Hartmann, R.R.K., & Gregory, J. (1998). Dictionary of lexicography. Routledge, London and New
York.
Nhiều tác giả. (2015). Oxford Advanced Learner’s Dictionary with Vietnamese Translation, the new 8th
edition. Nhà xuất bản Trẻ
Sinclair, J. (1991). Corpus concordance collocation. HK: Oxford University Press.
Đào Hồng Thu (2007). Ngôn ngữ học khối liệu (Corpus) (Phần 1). Tạp chí Ngôn ngữ và đời sống, số
7(141).
14
EXPLOITING AND APPLICATION OF E-CORPUS
IN THE TEACHING OF VIETNAMESE LANGUAGE FOR FOREIGNERS
Le Lam Thi
University of Foreign Languages, Hue University
Abstract
Nowadays, with the development of science and technology, the study and teaching of
languages has made new strides. The research with manual, theoretical manipulations
gradually gave way to the research with automatic manipulations, based on the experience by
exploiting the linguistic resources (or corpus). From these corpus, researchers can exploit to
serve many different purposes in different fields such as searching, surveying, statistics in
language research, automatic machine translation in bilingual machine translation system,
documenting the use of words depending on the context in language teaching, searching,
classifying customer feedback about products in the commercial economy ... For the purposes
of this report, The author will focus on analyzing the applications of corpus in teaching
Vietnamese to foreigners. The research results will show the ways to exploit the E-corpus in
compiling the Vietnamese teaching books, in Vietnamese phonetic teaching, in Vietnamese
vocabulary teaching and Vietnamese grammar teaching for foreigners.
Key words: Corpus linguistics, e-corpus, teaching Vietnamese for foreigners

More Related Content

Similar to khối liệu.doc

DẪN LUẬN NGÔN NGỮ HỌC
DẪN LUẬN NGÔN NGỮ HỌC DẪN LUẬN NGÔN NGỮ HỌC
DẪN LUẬN NGÔN NGỮ HỌC nataliej4
 
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Dịch vụ viết đề tài trọn gói 0934.573.149
 
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...Viết thuê báo cáo thực tập giá rẻ
 
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...ChungDung4
 
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdf
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdfBÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdf
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdfMan_Ebook
 
PHONG CÁCH HỌC TIẾNG VIỆT
PHONG CÁCH HỌC TIẾNG VIỆT PHONG CÁCH HỌC TIẾNG VIỆT
PHONG CÁCH HỌC TIẾNG VIỆT nataliej4
 
Ngonnguhocdoichieudanluanngonngu
NgonnguhocdoichieudanluanngonnguNgonnguhocdoichieudanluanngonngu
Ngonnguhocdoichieudanluanngonnguminhhdthvn
 
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt thức trạng, đặc...
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt   thức trạng, đặc...Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt   thức trạng, đặc...
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt thức trạng, đặc...nataliej4
 
Bai giang ngon ngu hoc doi chieu
Bai giang ngon ngu hoc doi chieuBai giang ngon ngu hoc doi chieu
Bai giang ngon ngu hoc doi chieuCún Con Sữa
 
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdf
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdfPhương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdf
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdfDanhThsol
 

Similar to khối liệu.doc (20)

DẪN LUẬN NGÔN NGỮ HỌC
DẪN LUẬN NGÔN NGỮ HỌC DẪN LUẬN NGÔN NGỮ HỌC
DẪN LUẬN NGÔN NGỮ HỌC
 
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
Nghiên Cứu Các Giải Pháp Tạo Nguồn Tài Nguyên Dữ Liệu Lớn Phục Vụ Xử Lý Ngôn ...
 
Từ ngữ xưng hô trong Phật giáo trong hệ thống của người Việt
Từ ngữ xưng hô trong Phật giáo trong hệ thống của người ViệtTừ ngữ xưng hô trong Phật giáo trong hệ thống của người Việt
Từ ngữ xưng hô trong Phật giáo trong hệ thống của người Việt
 
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...
Ngôn ngữ học đối chiếu - Dành cho SV ngoại ngữ - Dẫn luận ngôn ngữ ...
 
Luận văn: Đặc điểm của ngôn ngữ văn bản luật tiếng Việt, HAY
Luận văn: Đặc điểm của ngôn ngữ văn bản luật tiếng Việt, HAYLuận văn: Đặc điểm của ngôn ngữ văn bản luật tiếng Việt, HAY
Luận văn: Đặc điểm của ngôn ngữ văn bản luật tiếng Việt, HAY
 
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...
Bài Giảng Ngôn Ngữ Học Đối Chiếu (NXB Đà Nẵng 2018) - Nguyễn Ngọc Chinh_ 91 T...
 
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuậtLuận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
Luận án: Đặc điểm cấu tạo và ngữ nghĩa của thuật ngữ mĩ thuật
 
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdf
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdfBÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdf
BÀI GIẢNG MÔN HỌC CƠ SỞ NGÔN NGỮ, Dùng cho hệ Cao đẳng chuyên nghiệp.pdf
 
PHONG CÁCH HỌC TIẾNG VIỆT
PHONG CÁCH HỌC TIẾNG VIỆT PHONG CÁCH HỌC TIẾNG VIỆT
PHONG CÁCH HỌC TIẾNG VIỆT
 
Ngonnguhocdoichieudanluanngonngu
NgonnguhocdoichieudanluanngonnguNgonnguhocdoichieudanluanngonngu
Ngonnguhocdoichieudanluanngonngu
 
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt thức trạng, đặc...
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt   thức trạng, đặc...Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt   thức trạng, đặc...
Luận văn tiếng lóng trên các diễn đàn trực tuyến tiếng việt thức trạng, đặc...
 
Introduction to Linguistics
Introduction to LinguisticsIntroduction to Linguistics
Introduction to Linguistics
 
Luận án: Xin phép và hồi đáp trong tiếng anh và tiếng việt, HAY
Luận án: Xin phép và hồi đáp trong tiếng anh và tiếng việt, HAYLuận án: Xin phép và hồi đáp trong tiếng anh và tiếng việt, HAY
Luận án: Xin phép và hồi đáp trong tiếng anh và tiếng việt, HAY
 
Bai giang ngon ngu hoc doi chieu
Bai giang ngon ngu hoc doi chieuBai giang ngon ngu hoc doi chieu
Bai giang ngon ngu hoc doi chieu
 
REV-ECIT'15
REV-ECIT'15REV-ECIT'15
REV-ECIT'15
 
Luận án: Nhóm động từ chỉ hoạt động nhận thức trong tiếng việt
Luận án: Nhóm động từ chỉ hoạt động nhận thức trong tiếng việtLuận án: Nhóm động từ chỉ hoạt động nhận thức trong tiếng việt
Luận án: Nhóm động từ chỉ hoạt động nhận thức trong tiếng việt
 
Báo cáo thực tập về công tác văn thư - quản trị văn phòng và công tác lưu trữ...
Báo cáo thực tập về công tác văn thư - quản trị văn phòng và công tác lưu trữ...Báo cáo thực tập về công tác văn thư - quản trị văn phòng và công tác lưu trữ...
Báo cáo thực tập về công tác văn thư - quản trị văn phòng và công tác lưu trữ...
 
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdf
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdfPhương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdf
Phương ngữ Khmer Rạch Giá nhìn từ gốc độ văn hóa_TOMTAT_LV D_SOL.pdf
 
Tiểu Luận Triết Học Những Vấn Đề Cơ Bản Của Triết Học Ngôn Ngữ .doc
Tiểu Luận Triết Học Những Vấn Đề Cơ Bản Của Triết Học Ngôn Ngữ .docTiểu Luận Triết Học Những Vấn Đề Cơ Bản Của Triết Học Ngôn Ngữ .doc
Tiểu Luận Triết Học Những Vấn Đề Cơ Bản Của Triết Học Ngôn Ngữ .doc
 
NHÓM TỪ, NGỮ NÓI VỀ "ĂN" TRONG TIẾNG VIỆT - TẢI FREE ZALO: 093 457 3149
NHÓM TỪ, NGỮ NÓI VỀ "ĂN" TRONG TIẾNG VIỆT  - TẢI FREE ZALO: 093 457 3149NHÓM TỪ, NGỮ NÓI VỀ "ĂN" TRONG TIẾNG VIỆT  - TẢI FREE ZALO: 093 457 3149
NHÓM TỪ, NGỮ NÓI VỀ "ĂN" TRONG TIẾNG VIỆT - TẢI FREE ZALO: 093 457 3149
 

khối liệu.doc

  • 1. 0 KHAI THÁC VÀ ỨNG DỤNG NGỮ LIỆU ĐIỆN TỬ TRONG VIỆC GIẢNG DẠY TIẾNG VIỆT CHO NGƯỜI NƯỚC NGOÀI Lê Lâm Thi Trường Đại học Ngoại ngữ, Đại học Huế Tóm tắt Ngày nay, cùng với sự phát triển của khoa học kỹ thuật, việc nghiên cứu và giảng dạy ngôn ngữ cũng có những bước tiến mới. Những nghiên cứu với những thao tác thủ công, dựa trên lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh nghiệm bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử (electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai thác để phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo sát, thống kê trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song ngữ, dẫn chứng cách dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm, phân loại phản hồi của khách hàng về sản phẩm trong kinh tế thương mại…Trong phạm vi bài báo cáo này, tác giả sẽ tập trung phân tích những ứng dụng của ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài. Kết quả nghiên cứu sẽ chỉ ra một số địa chỉ để khai thác các nguồn ngữ liệu điện tử và ứng dụng chúng trong việc biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước ngoài. Từ khóa: Ngữ liệu điện tử, tiếng Việt, người nước ngoài 1. Mở đầu Trong những năm cuối thế kỷ XX và những năm đầu thế kỷ XXI, cùng với sự ra đời và phát triển của khoa học máy tính, hướng nghiên cứu liên ngành mới giữa khoa học máy tính và các ngành khoa học khác đã được hình thành. Những nghiên cứu với những thao tác thủ công, dựa trên lý luận dần nhường chỗ cho những nghiên cứu với thao tác tự động, dựa trên kinh nghiệm bằng cách khai thác các kho tài nguyên ngôn ngữ hay còn gọi là kho ngữ liệu điện tử (electronic corpus/e-corpus). Từ các kho ngữ liệu điện tử, các nhà nghiên cứu có thể khai thác để phục vụ nhiều mục đích khác nhau ở nhiều lĩnh vực khác nhau như tìm kiếm, khảo sát, thống kê trong nghiên cứu ngôn ngữ, dịch máy tự động trong hệ thống dịch máy song ngữ, dẫn chứng cách dùng từ tùy thuộc vào ngữ cảnh trong giảng dạy ngôn ngữ, tìm kiếm, phân loại phản hồi của khách hàng về sản phẩm trong kinh tế thương mại… Trong lĩnh vực ngôn ngữ học, ngữ liệu và sử dụng ngữ liệu bắt đầu được chú ý khi các nhà ngôn ngữ học nhận thấy rằng cần đánh giá đúng vai trò của các đơn vị từ vựng và sự diễn đạt nghĩa của chúng trong những bối cảnh sử dụng khác nhau. Nhiều người nghiệm ra rằng phương pháp phân tích theo trực giác cá nhân đã không còn độ tin cậy và cho ra kết quả thuyết phục. Kết quả là những kho ngữ liệu ngày càng trở nên hữu ích cho việc nghiên cứu và giảng dạy ngôn ngữ. Thuật ngữ “ngôn ngữ học ngữ liệu” hay “ngôn ngữ học khối liệu” (corpus linguistics) hẳn không còn xa lạ với những nhà nghiên cứu Việt ngữ học. Là một phân ngành của ngôn ngữ học ứng dụng, ngôn ngữ học ngữ liệu nghiên cứu các hiện tượng ngôn ngữ có thực dưới dạng văn bản và
  • 2. 1 ngôn bản thông qua các khối ngữ liệu với việc sử dụng công nghệ máy tính hiện đại. Ngày nay, ngôn ngữ học ngữ liệu phát triển rất nhanh và mạnh mẽ theo đà phát triển của khoa học máy tính và kĩ thuật số. Ở Việt Nam đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu và ngôn ngữ học ngữ liệu. Tiêu biểu có thể kể đến là bài nghiên cứu của tác giả Đào Hồng Thu (2007) Ngôn ngữ học khối liệu (Corpus) (Phần 1), bài viết Ngôn ngữ học máy tính và việc xây dựng từ điển của hai tác giả Đinh Điền - Hồ Hải Thụy (2011), Sách chuyên khảo Ngôn ngữ học ngữ liệu của tác giả Đinh Điền (2018),… Tuy nhiên, đến nay vẫn chưa có nhiều bài nghiên cứu đi sâu vào việc khai thác và ứng dụng các nguồn ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu và giảng dạy ngôn ngữ, đặc biệt là giảng dạy tiếng Việt cho người nước ngoài, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu, đồng thời cũng cố gắng trình bày các nguồn khai thác và cách thức ứng dụng các kho ngữ liệu điện tử trong việc biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, giảng dạy từ vựng và giảng dạy ngữ pháp tiếng Việt cho người nước ngoài. 2. Cơ sở lý luận 2.1. Ngữ liệu điện tử Việc xây dựng các ngân hàng dữ liệu (databank hay database) trên Internet đã có từ rất lâu. Những ngân hàng ngữ liệu này có thể chứa rất nhiều nội dung khác nhau như hình ảnh, âm thanh, văn bản, bảng biểu, lược đồ, mô hình… Những dữ liệu có chất liệu ngôn ngữ thường được tổ chức thành một loại riêng, gọi là corpus (kho ngữ liệu hay khối ngữ liệu). Một tập hợp gồm nhiều corpus gọi là corpora hay corpuses (số nhiều của corpus). Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus” có gốc từ tiếng Latin với nghĩa là “thân thể” (body). Vì vậy các từ “corps” (“thân thể” trong tiếng Pháp, “quân đoàn”, “đoàn” trong tiếng Anh) hay từ “corpse” (“tử thi” trong tiếng Anh) cũng là những từ dẫn xuất từ gốc “corpus” này. (Đinh Điền, 2018, tr.1). Có nhiều định nghĩa khác nhau về “ngữ liệu”. Theo Wikipedia, một kho ngữ liệu (corpus hoặc text corpus) được hiểu là một tập hợp đủ lớn các văn bản có cấu trúc đã qua chế biến, và thường được lưu trữ ở dạng điện tử. Người ta sử dụng kho ngữ liệu để phục vụ cho việc phân tích thống kê, xác định tính đúng đắn của một giả thuyết, kiểm tra sự cố hoặc tính hợp lệ của các quy tắc ngôn ngữ trong một bối cảnh đặc thù. Từ điển Oxford Advanced Learner’s Dictionary with Vietnamese Translation (2015) lại định nghĩa “corpus” là “a collection of written and spoken texts” và được dịch là “kho ngữ liệu (nói/viết)”. Theo nhà nghiên cứu Sinclair (1991) thì “ngữ liệu” là “tập hợp các mẫu văn bản được lựa chọn một cách có hệ thống theo những tiêu chí nhất định nhằm đại diện cho một thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngôn ngữ.”… Trong thời đại khoa học máy tính phát triển với trình độ cao như hiện nay, các kho ngữ liệu thường ngầm định là kho ngữ liệu dạng điện tử nên thuật ngữ “corpus” cũng được hiểu là ngữ liệu điện tử.
  • 3. 2 Như vậy, ngữ liệu điện tử chúng tôi muốn đề cập ở đây được hiểu là tập hợp văn bản đơn ngữ, đa ngữ hay song ngữ (gồm các cặp văn bản đã được dịch thủ công, dịch tương ứng 1-1 về mặt ngữ nghĩa) và phù hợp với lĩnh vực, thể loại, niên đại mà ta cần nghiên cứu. Một kho ngữ liệu có thể chứa văn bản bằng một thứ tiếng đơn lẻ – gọi là kho ngữ liệu đơn ngữ (monolingual corpus), hoặc văn bản bằng nhiều thứ tiếng – gọi là kho ngữ liệu đa ngữ (multilingual corpus). “Các kho ngữ liệu đa ngữ được định dạng đặc thù để có thể so sánh cạnh nhau (side-by-side) được gọi là kho ngữ liệu song song có gióng hàng (aligned parallel corpora). Sự gióng hàng có thể ở các mức như: các từ được gióng hàng từng đôi một (từ của ngôn ngữ A là từ dịch của ngôn ngữ B); các ngữ được gióng hàng từng đôi một (ngữ của ngôn ngữ A là ngữ dịch của ngôn ngữ B); các câu được gióng hàng từng đôi một (câu của ngôn ngữ A là câu dịch của ngôn ngữ B), v.v”. (Vũ Xuân Lương, 2013) Ngoài ra, dựa vào cách xây dựng ngữ liệu, người ta thường chia ngữ liệu thành các loại sau: Ngữ liệu thô (raw corpus): chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm; Ngữ liệu được gắn nhãn (tagged corpus): ngữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … Chẳng hạn, các từ trong cụm từ sẽ được chú giải thông tin về từ loại – gọi là gắn nhãn từ loại (part-of-speech tagging, viết tắt: POS-tagging). Các cụm từ trong câu sẽ được phân tách và gắn nhãn – gọi là phân đoạn cụm từ (chunking). Với các ngôn ngữ đơn lập như tiếng Việt, do ranh giới của từ không được xác định rõ ràng bằng hình thức, nên ngữ liệu thường phải trải qua quá trình xác định đơn vị từ và gắn nhãn khu biệt – gọi là phân đoạn từ (word segmentation), v.v. Trên thế giới hiện nay, một số kho ngữ liệu tiếng Anh nổi tiếng có thể kể đến là Kho ngữ liệu Brown (Brown University Corpus) chứa khoảng một triệu đơn vị từ và cụm từ sử dụng, được đánh dấu theo dạng hình thái từ, kho ngữ liệu Lancaster/Oslo-Bergen (Lancaster/Oslo-Bergen Corpus (LOB)) – bao gồm khoảng một triệu đơn vị từ và cụm từ sử dụng. Kho ngữ liệu này này chứa hai khối liệu con là khối liệu Leeds-Lancaster Treebank và khối liệu Lancaster Parsed – Lancaster Parsed Corpus. Hai khối liệu con được đánh dấu theo dạng cú pháp; Kho ngữ liệu Anh Quốc British National Corpus (BNC) là kho ngữ liệu tiếng Anh có dung lượng lớn nhất hiện nay. Kho ngữ liệu này chứa 100 triệu đơn vị từ và cụm từ sử dụng. Nó được xây dựng vào những năm 90, thế kỷ XX, bao gồm khoảng 90% đơn vị trích rút từ các văn bản và 10% từ ngôn bản. Khối liệu được đánh dấu theo dạng hình thái từ. Và gần đây là sự xuất hiện của Sketch Engine với một bộ ngữ liệu đồ sộ gồm hơn 130 corpus (tính đến tháng 7 năm 2012), trong đó có Kho ngữ liệu BNC, và đặc biệt là Kho ngữ liệu tiếng Việt (VietnameseWaC)... 2.2. Ngôn ngữ học ngữ liệu (Corpus linguistics) Ngôn ngữ học ngữ liệu hay còn gọi là ngôn ngữ học khối liệu là một phân ngành của ngôn ngữ học ứng dụng, được hình thành từ những năm nửa cuối thế kỷ XX và đầu thế kỷ XXI nhằm đáp ứng nhu cầu nghiên cứu ngôn ngữ trong thời đại công nghệ máy tính và nhu cầu dịch tự động phát triển không ngừng. Đây là ngành khoa học nghiên cứu ngôn ngữ trên cơ sở kĩ thuật điện tử số, là khoa học nghiên cứu xây dựng các khối liệu ngôn ngữ, nghiên cứu các phương pháp xử lý dữ liệu và sử dụng ngữ liệu. Việc sử dụng các thí dụ thực tế của văn bản trong nghiên cứu ngôn
  • 4. 3 ngữ không phải là một vấn đề mới và được khai thác từ rất lâu. Tuy nhiên, nhờ vào khả năng to lớn trong việc xử lý ngôn ngữ tự nhiên với máy tính, ngôn ngữ học ngữ liệu đã không ngừng phát triển, trở thành một phân ngành nghiên cứu ngôn ngữ khá phổ biến hiện nay. “Ngôn ngữ học ngữ liệu (corpus linguistics) là một nhánh của ngành ngôn ngữ học liên quan tới kĩ thuật xử lý ngữ liệu có dùng máy tính, áp dụng để giải quyết những vấn đề được mô tả với quy mô rộng lớn.” (R. R. K Hartmann and Gregory James, 1998, tr. 31). “Với tư cách là một chuyên ngành mới của Ngôn ngữ học, ngôn ngữ học ngữ liệu chuyên nghiên cứu về cách thức thu thập ngữ liệu, các tiêu chí chọn lựa ngữ liệu (để đảm bảo tính cân bằng, tính đại diện…), cách thức chuẩn hóa, cách thức xử lý ngữ liệu (gán nhãn ngôn ngữ) sao cho chúng ta có thể khai thác kho ngữ liệu đó một cách hiệu quả nhằm phục vụ giải quyết những vấn đề liên quan đến ngôn ngữ.” (Đinh Điền, 2018, tr.5) Theo nhà ngôn ngữ học Đào Hồng Thu, ngôn ngữ học ngữ liệu có thể được hiểu là khoa học nghiên cứu về “thế giới thực” văn bản, thể hiện trong corpora. Corpora được sử dụng trong các nội dung sau: Nghiên cứu ngôn ngữ thực tế: mô tả cách tiếp cận, nghiên cứu về hiệu suất sử dụng ngôn ngữ, thực nghiệm ngôn ngữ; Ngôn ngữ học ứng dụng: cung cấp từ điển đơn ngữ, từ điển thuật ngữ, từ điển song ngữ; Nghiên cứu ngôn ngữ: xác minh giả thuyết, khám phá tri thức (từ vựng, hình thái học, cú pháp,...); Nghiên cứu dịch: các tương đương dịch của cùng một nguồn và ngữ cảnh của chúng, các bộ nhớ dịch, các bản dịch được máy hỗ trợ; Học tiếng: thí dụ thực tế, “giảng dạy bằng thành ngữ”, phát triển chương trình giảng dạy… (Đào Hồng Thu, 1999). 3. Phương pháp nghiên cứu Trong quá trình nghiên cứu, chúng tôi đã tiến hành khảo sát các kho ngữ liệu tiếng Việt đơn ngữ và song ngữ được đăng tải trên Internet và những kho ngữ liệu của Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh. Qua tìm hiểu, phân tích các kho ngữ liệu, chúng tôi phân loại, lựa chọn ra được những kho ngữ liệu phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Chúng tôi sử dụng phương pháp miêu tả và phân tích những ứng dụng của các kho ngữ liệu này vào việc giảng dạy tiếng Việt trên nhiều lĩnh vực như biên soạn giáo trình giảng dạy, giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt. Quy trình nghiên cứu của chúng tôi gồm 3 bước: 1. Thống kê các kho ngữ liệu có thể dùng để phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. 2. Giới thiệu một số ứng dụng của kho ngữ liệu trong việc giảng dạy tiếng Việt cho người nước ngoài. 3.Đề xuất một số giải pháp ứng dụng các kho ngữ liệu hiệu quả hơn trong việc giảng dạy tiếng Việt. 4. Kết quả nghiên cứu
  • 5. 4 4.1. Các kho ngữ liệu điện tử có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt cho người nước ngoài Từ khi khái niệm “kho ngữ liệu” được biết đến đầu tiên vào năm 1961 đến nay đã và đang có rất nhiều kiểu ngữ liệu điện tử được xây dựng và phát triển tùy vào những mục đích khác nhau. Các khối liệu này đã và đang đóng vai trò rất quan quan trọng trong nhiều lĩnh vực khác nhau trong đó có lĩnh vực ngữ học ứng dụng. Đối với việc giảng dạy tiếng Việt cho người nước ngoài, chúng tôi nhận thấy nếu có thể khai thác các kho ngữ liệu điện tử dưới đây thì việc giảng dạy sẽ đạt hiệu quả hơn rất nhiều. Bảng 1: Danh sách các khối ngữ liệu có thể khai thác và ứng dụng trong việc giảng dạy tiếng Việt cho người nước ngoài STT Khối ngữ liệu Nội dung Đơn vị quản lý 1 Vietlex 150 triệu âm tiết tiếng Việt Trung tâm Từ điển học (VIETLEX) 2 Cơ sở dữ liệu điện tử 150.000 biểu ghi Cục thông tin khoa học và công nghệ quốc gia Việt Nam 3 Bách khoa toàn thư Việt Nam trực tuyến 40.000 mục từ Viện từ điển học và Bách khoa thư 4 Kho tài nguyên tiếng Việt VLSP 35.000 từ có chú thích Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 5 Kho tài nguyên tiếng Việt CLC Từ điển đơn ngữ 40.000 từ Từ điển song ngữ Từ điển chuyên ngành Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 6 VTB (Vietnamese Tree Bank) 300 câu có chú thích ranh giới từ Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 7 Vcor (Vietnamese corpus) 17 triệu câu, 346 triệu từ Trung tâm Ngôn ngữ học tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố HCM 8 VietnameseWaC 100 triệu từ được gắn thẻ Sketch Engine 1. Kho ngữ liệu Vietlex: http://www.vietlex.com/. Đây là kho ngữ liệu được xây dựng bởi Trung tâm Từ điển học (VIETLEX) là một tổ chức Khoa học và Công nghệ phi chính phủ, do cố GS Hoàng Phê sáng lập năm 1993. Tại Việt Nam, VIETLEX là tổ chức đi đầu trong việc xây
  • 6. 5 dựng Kho ngữ liệu tiếng Việt (Vietnamese Corpus), phục vụ cho việc biên soạn từ điển nói riêng và xử lý ngôn ngữ tự nhiên nói chung. Kho ngữ liệu tiếng Việt của VIETLEX hiện chứa khoảng 150 triệu âm tiết, bắt đầu xây dựng từ năm 1997 và liên tục được cập nhật theo thời gian. 2. Cơ sở dữ liệu điện tử của Cục thông tin khoa học và công nghệ quốc gia Việt Nam : http://lhtv.vista.vn hoặc http://db.vista.gov.vn/. Đây là cơ sở dữ liệu toàn văn về tài liệu KH&CN Việt Nam, do Cục Thông tin KH&CN Quốc gia xây dựng và cập nhật từ năm 1987. Hiện tại, cơ sở dữ liệu điện tử này có 150.000 biểu ghi, trong đó 85.000 có đính kèm tài liệu gốc định dạng tệp PDF. STD được cập nhật hàng tuần. Trung bình mỗi năm cập nhật thêm khoảng 11.000 tài liệu mới. Trang cơ sở dữ liệu điện tử này gồm nhiều nhóm dữ liệu, nổi bật nhất có thể kể đến: - Cơ sở dữ liệu công bố kết quả nghiên cứu khoa học công nghệ Việt Nam: Đây là cơ sở dữ liệu thư mục lớn nhất Việt Nam về các báo cáo kết quả của các đề tài nghiên cứu KH&CN các cấp đăng ký và giao nộp tại Cục Thông tin KH&CN Quốc gia bao gồm hơn 10.000 mô tả thư mục và tóm tắt; được cập nhật khoảng 600 báo cáo/năm; - Proquest Central: bộ cơ sở dữ liệu lớn, bao gồm 25 cơ sở dữ liệu đa ngành, xử lý trên 19.000 tạp chí, trong đó có hơn 13.000 tạp chí toàn văn. Dữ liệu của Proquest Central bao quát trên 160 lĩnh vực khác nhau thuộc các ngành khoa học nồng cốt như Kính tế, Y học, Công nghệ, Khoa học xã hội. Ngoài ra Proquest còn cung cấp bản toàn văn của 56.000 luận văn trong các lĩnh vực tâm lý học, kinh doanh, khoa học vật lý, y tế, giáo dục … - Science Direct: nguồn thông tin thiết yếu đối với công tác nghiên cứu và đào tạo. Đây là bộ sưu tập toàn văn bao gồm các tài liệu khoa học nồng cốt với nhiều tạp chí có chỉ số ảnh hưởng cao. Science Direct hiện nay có hơn 9 triệu bài viết toàn văn bao quát trên nhiều lĩnh vực về khoa học, công nghệ. 3. Bách khoa toàn thư Việt Nam trực tuyến của Viện từ điển học và Bách khoa thư, Viện Hàn Lâm khoa học xã hội Việt Nam http://bachkhoatoanthu.vass.gov.vn/Pages/trangchu.aspx. Từ điển bách khoa Việt Nam” là bộ từ điển bách khoa tổng hợp nhiều chuyên ngành. Những kiến thức chuyên ngành trong từ điển có tính chất thông dụng, phù hợp với đông đảo bạn đọc. Nội dung chính của Bách khoa thư là giới thiệu những tri thức cơ bản nhất về đất nước con người, lịch sử xã hội, văn hóa, khoa học, công nghệ Việt Nam xưa và nay; giới thiệu những tri thức văn hóa, khoa học và kỹ thuật của thế giới, chú ý những tri thức cần cho độc giả Việt Nam. 4. Kho tài nguyên cho tiếng Việt VLSP: Đây là kho tài nguyên gồm các từ điển (khoảng 35.000 từ), ngữ liệu đơn ngữ có chú thích (khoảng 10.000 câu có chú thích cú pháp), ngữ liệu song ngữ Anh – Việt (khoảng 100.000 cặp câu) và một số công cụ phân tích tiếng Việt tự động. 5. Kho tài nguyên tiếng Việt CLC bao gồm các kho ngữ liệu điện tử song ngữ do Trung tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí Minh xây dựng. Hiện tại, Trung tâm có thể cung cấp những khối ngữ liệu điện tử song ngữ Anh - Việt, Pháp – Việt, Hàn – Việt, Lào – Việt, Việt – Trung. Các khối ngữ liệu này chạy trên phần mềm CLC Parallel Corpus 2.0 với nhiều chức năng như miêu tả việc sử dụng từ trong văn cảnh song ngữ, đối chiếu cấu trúc, trật tự từ trong câu… Kho tài nguyên này còn bao gồm các tài nguyên ngôn ngữ liên
  • 7. 6 quan đến việc giảng dạy tiếng Việt như Danh sách 3000 từ phổ biến nhất trong tiếng Việt, Từ điển tần số tiếng Việt đầy đủ ( hơn 40.000 mục từ), Từ điển âm thanh của tất cả các âm tiết tiếng Việt phát âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng Việt phổ thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người). Các tài nguyên ngôn ngữ này hiện đang có ở Trung tâm ngôn ngữ học tính toán, trường Đại học Quốc gia, Thành phố Hồ Chí Minh. 6. Ngữ liệu đơn ngữ có chú thích VTB là ngữ liệu gồm 300 câu có chú thích ranh giới từ, từ loại và nhãn thực thể thuộc nhiều lĩnh vực khác nhau. Nguồn ngữ liệu thô được thu thập từ các trang báo điện tử từ năm 2000 đến năm 2010 và được chú thích thủ công bởi các nhân viên và cộng tác viên ngôn ngữ học của Trung tâm dữ liệu Đa ngữ Kim từ điển. 7. Ngữ liệu Vcor là ngữ liệu đơn ngữ tiếng Việt (Vietnamese corpus) gồm hơn 17 triệu câu với hơn 346 triệu từ và 443 triệu chữ (tiếng/âm tiết) thuộc 42 lĩnh vực và gom thành 18 chủ đề (khoa học, kinh tế, văn hóa, xã hội…). Ngữ liệu này được thu thập tự động từ các trang báo điện tử từ năm 2000 đến năm 2010. 8. Khối ngữ liệu tiếng Việt VietnameseWaC https://www.sketchengine.eu/: kho ngữ liệu tiếng Việt gồm 100 triệu từ được thu thập từ các văn bản trên Internet. Khối ngữ liệu này là một phần của kho ngữ liệu đồ sộ Sketch Engine. Đây là khối ngữ liệu có rất nhiều chức năng như Word Sketch (tìm kiếm những cụm từ có chứa từ cần tìm), Thesaurus (tìm kiếm từ đồng nghĩa hoặc có liên quan với từ cần tìm), Concordance (liệt kê những ngữ cảnh có chứa từ cần tìm)… 4.2. Ứng dụng ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài Từ khi ra đời cho đến nay, ngữ liệu điện tử đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, trong đó có lĩnh vực giáo dục. Việc khai thác và ứng dụng ngữ liệu điện tử trong giảng dạy nói chung và giảng dạy ngoại ngữ nói riêng là hết sức cần thiết. Việc ứng dụng ngữ liệu điện tử trong giảng dạy tiếng Việt cho người nước ngoài có thể được thực hiện trên các lĩnh vực sau đây: * Ứng dụng ngữ liệu điện tử trong việc biên soạn giáo trình tiếng Việt cho người nước ngoài Hiện nay, tiếng Việt đã trở thành một trong 20 ngôn ngữ phổ biến nhất thế giới và ngày càng có nhiều người nước ngoài học tập, nghiên cứu tiếng Việt. Chính vì thế việc nghiên cứu và giảng dạy tiếng Việt cho người nước ngoài cần phải có những bước đột phá mới theo những hướng tiếp cận mới, phương pháp luận mới. Một trong những giảng pháp nhằm nâng cao chất lượng đào tạo tiếng Việt cho người nước ngoài là phải xây dựng được những bộ giáo trình có chất lượng. Để làm được điều này, chúng ta cần quan tâm đến rất nhiều yếu tố và ứng dụng ngữ liệu điện tử trong biên soạn giáo trình giảng dạy tiếng Việt là một trong số đó. Khai thác ngữ liệu điện tử sẽ giúp ích rất nhiều cho người biên soạn giáo trình tiếng Việt trong những công việc sau: - Tìm kiếm ngữ liệu các bài đọc thuộc nhiều chủ đề khác nhau. Việc tìm ngữ liệu cho bài đọc sẽ dễ dàng hơn rất nhiều nếu chúng ta khai thác các kho ngữ liệu. Các kho ngữ liệu thô sẽ rất hữu ích cho việc tìm kiếm này vì thường chúng được sắp xếp theo những chủ đề quen thuộc
  • 8. 7 trong đời sống hàng ngày và cả những chủ đề mang tính hàn lâm. Với kho dữ liệu điện tử của Cục thông tin khoa học và công nghệ quốc gia Việt Nam và từ điển Bách khoa toàn thư Việt Nam trực tuyến của Viện từ điển học và Bách khoa thư, chúng ta có thể tìm kiếm những bài đọc với nhiều chủ đề và thể loại khác nhau hoặc chỉ cần đánh từ khóa sẽ tìm thấy những bài viết liên quan. - Xác định độ khó của bài đọc để biên soạn giáo trình theo từng cấp độ. Để biên soạn giáo trình phù hợp với từng cấp độ, chúng ta cần xem xét đến độ khó của tất cả các từ, các câu và toàn bộ văn bản được sử dụng trong giáo trình. “Độ khó của văn bản là tập hợp tất cả các yếu tố nội tại của văn bản khiến cho văn bản dễ hay khó tiếp thu bởi đa số người đọc ở một cấp độ cụ thể. Độ khó của văn bản phụ thuộc vào độ phổ biến của từ vựng (tuần suất), độ phức tạp của cấu trúc câu (số lượng mệnh đề, chiều dài câu) và tổ chức văn bản (liên kết văn bản).” [Đinh Điền, 2018, tr.263]. Vì vậy trong việc biên soạn giáo trình, chúng ta cần hết sức lưu ý đến độ khó của văn bản cũng như bài tập, câu hỏi đi kèm. Tuy nhiên, độ khó không thể xác định theo cảm quan, cảm tính của người biên soạn vì sẽ có trường hợp người biên soạn cảm thấy dễ nhưng người học ở trình độ thấp chưa chắc cảm thấy như thế. Chính vì vậy để xác định độ khó của văn bản cần có sự góp sức của khoa học máy tính. Chúng ta có thể xây dựng sẵn các kho ngữ liệu bài đọc thuộc nhiều chủ đề khác nhau, sử dụng máy tính để phân loại tự động theo các mức độ khó khác nhau để khi cần sử dụng biên soạn giáo trình cho trình độ nào, chúng ta chỉ sử dụng những bài đọc trong kho ngữ liệu đó. - Xác định độ khó của câu hỏi, bài tập, yêu cầu: Đối với các câu hỏi, phần bài tập cũng cần phải xác định độ khó. Việc lựa chọn ngữ liệu để soạn thảo câu hỏi đặc biệt là câu hỏi trắc nghiệm hoàn toàn phụ thuộc vào người soạn mà không có những tiêu chí thống nhất để đảm bảo rằng độ khó giữa các ngữ liệu nền được cung cấp trong các câu hỏi ở trình độ tương đương là thực sự tương đương. Thay vì hoàn toàn phụ thuộc vào phán đoán của từng người ra đề theo sử dụng phương pháp thủ công (tức mỗi người soạn sẽ phải vừa đọc tư liệu và phán đoán sự phù hợp của từng đoạn ngữ liệu đối với mục đích kiểm tra), rất cần có những tiêu chí khách quan, đơn giản dễ sử dụng để hỗ trợ người soạn trong việc lựa chọn ngữ liệu. Người biên soạn cũng có thể khai thác những tài nguyên của Kho tài nguyên tiếng Việt CLC với từ điển đơn ngữ tiếng Việt với nhiều trường thông tin như hình thái, từ loại, định nghĩa, ví dụ và tần số sử dụng để xây dựng và lựa chọn những bài tập phù hợp với từng trình độ. Những kho ngữ liệu song ngữ cũng rất hữu ích trong việc xây dựng những bài tập dịch theo từng cấp độ… * Ứng dụng ngữ liệu điện tử trong việc giảng dạy ngữ âm, từ vựng, ngữ pháp tiếng Việt Trong quá trình học tiếng Việt, khó khăn đầu tiên mà nhiều người học gặp phải có lẽ là việc phát âm đúng các thanh điệu khác nhau do có thể trong tiếng mẹ đẻ của họ không có thanh điệu. Chính vì vậy nên lỗi phát âm về thanh điệu tiếng Việt là một trong những lỗi rất phổ biến của người học. Trong quá trình giảng dạy đòi hỏi người dạy phải luyện tập phát âm thanh điệu cho học viên nhiều hơn. Với việc khai thác Từ điển âm thanh của tất cả các âm tiết tiếng Việt phát âm chuẩn (giọng người) và Từ điển âm thanh của tất cả các từ có trong từ điển Tiếng Việt phổ thông (Hoàng Phê) chủ biên phát âm chuẩn (giọng người) trong kho tài nguyên tiếng Việt CLC,
  • 9. 8 người dạy có thể giúp người học phát âm chuẩn hơn nhờ vào kho dữ liệu âm thanh phát âm chuẩn đã thu sẵn. Những dữ liệu âm thanh này cũng dễ dàng sử dụng trong các bài học và bài tập online, giúp sinh viên luyện tập ở mọi lúc, mọi nơi không chỉ trong giờ học ở lớp. Ngoài ra, dữ liệu âm thanh này còn được kết hợp với những hình ảnh hoặc hoạt hình mô phỏng khẩu hình miệng, phương thức cấu âm nên rất thuận lợi cho người học. Hơn nữa, nhờ vào kho ngữ liệu điện tử, người dạy, người dạy có thể lựa chọn ví dụ theo độ phổ biến của âm tiết để giới thiệu cho người học theo từng trình độ. Từ kho ngữ liệu Vcor, người dạy có thể rút ra được danh sách 700 âm tiết thông dụng nhất trong tiếng Việt (chiếm 80% lượt âm tiết xuất hiện trong thực tế) và tần suất sử dụng của chúng. Khi ứng dụng vào giảng dạy, người học cần lựa chọn các âm tiết có tần số sử dụng cao nhất để người học dễ nắm bắt và thực hành. Đối với việc giảng dạy từ vựng tiếng Việt, khai thác và ứng dụng ngữ liệu điện tử là rất cần thiết. Những ứng dụng ngữ liệu trong việc giảng dạy từ vựng có thể kể đến như sau: - Lựa chọn từ vựng hoặc chọn nghĩa thông dụng phù hợp để giảng dạy. Một trong những yêu cầu của việc giảng dạy từ vựng là người học phải xác định được vốn từ vựng cơ bản phù hợp với người học trong quá trình giảng dạy. Khai thác các kho ngữ liệu Vcor và VTB, người dạy có thể rút ra được danh sách các từ được sử dụng theo tần số từ cao đến thấp từ đó nắm được các từ thông dụng nhất trong tiếng Việt. Từ kho VCor, chúng ta có thể thống kê để rút ra từ điển tần số tiếng và từ điển tần số từ. Khi lựa chọn từ để giới thiệu trong từng chủ đề, người học có thể lựa chọn từ ngữ cho phù hợp với từng trình độ của học viên. Tuy nhiên có một vấn đề đặt ra là trong tiếng Việt có rất nhiều hiện tượng đồng âm nên người dạy cũng phải lưu ý chọn nghĩa phù hợp với người học chứ không phải giới thiệu các từ đồng âm hay tất cả các nghĩa của cùng một từ. Chẳng hạn như từ “tốt” có thể là tính từ (tốt đẹp) nhưng cũng có thể là danh từ (con tốt), từ “là” có thể là hệ từ cũng có thể là động từ (là quần áo), từ “của” có thể là giới từ (của tôi) hoặc có thể là danh từ “của cải”. Người dạy có thể căn cứ vào danh sách các từ thông dụng rút ra từ kết quả thống kê tần suất từ theo từ loại trong kho VTB để giải quyết vấn đề này. Với những trường hợp nêu trên, chúng ta nhận thấy từ “tốt” xuất hiện 3624 lần với tư cách là tính từ (tốt đẹp) và 2 lần với tư cách là danh từ (con tốt), tương tự hệ từ “là” xuất hiện cao hơn nhiều lần so với động từ “là”(là áo quần), giới từ “của” cũng xuất hiện cao hơn nhiều so với danh từ “của” (của cải)…Vì vậy ở trình độ thấp, người dạy chỉ nên dạy từ tính từ “tốt”, hệ từ “là” và giới từ “của” và ở trình độ cao hơn người dạy có thể đề cập đến các từ trên với cách dùng là các từ loại khác. Sau đây là bảng thống kê tần suất sử dụng từ tiếng Việt trong kho ngữ liệu VTB. Bảng 2: Thống kê tần suất từ tiếng Việt trong kho ngữ liệu VTB Stt Từ POS f n 3.775 của Nn 4,6789 115
  • 10. 9 368 và M 3,4268 2.059 20.793 và Vv 6,1384 4 39.212 các Vv 6,7405 1 3.224 có M 4,5731 147 103 có R 2,9803 5.756 19.385 là Vv 6,0415 5 5.290 là Cs 4,9209 66 143 là Cp 3,0857 4.516 1.749 là M 4,1842 360 186 tốt Aa 3,1813 3.624 25.154 tốt Nn 6,4394 2 Tần suất được tính bằng công thức f = –lg (n/N) với n là số lần xuất hiện của âm tiết và N là tổng số âm tiết trong ngữ liệu VTB. Ví dụ: trong 100 triệu âm tiết, âm tiết “và” xuất hiện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ nhất là 0), có nghĩa là âm tiết đó xuất hiện càng nhiều và ngược lại (lớn nhất là 8, nếu âm tiết đó chỉ xuất hiện 1 lần). [Đinh Điền, Hồ Xuân Vinh, 2016] - Miêu tả cách dùng từ trong ngữ cảnh. Đối với việc giảng dạy từ vựng, miêu tả cách dùng của từ trong ngữ cảnh là thật sự cần thiết. Mỗi từ có thể có nhiều nghĩa khác nhau và các nghĩa cụ thể của từ phụ thuộc vào ngữ cảnh (context). Chính vì vậy khi xem xét nghĩa của một từ nào đó, chúng ta cần xem xét nó trong ngữ cảnh. Với những kho ngữ liệu, người dạy sẽ dễ dàng cung cấp cho người học những dẫn chứng sinh động về cách dùng từ trong ngữ cảnh qua việc khảo sát trực quan các chuỗi ngôn từ. Chẳng hạn như để trích dẫn ngữ cảnh của từ “đi”, chúng ta chỉ cần nhập từ khóa “đi”, máy sẽ cho ra tất cả những ngữ cảnh có sử dụng từ này. Người học cũng có thể nhìn vào đó để nghiệm ra cách sử dụng của từ này. Sau đây là giao diện và kết quả tìm kiếm ngữ cảnh của từ đi trong kho ngữ liệu Vietlex.
  • 11. 10 Hình 1: Miêu tả từ theo ngữ cảnh trong kho ngữ liệu Vietlex - Thống kê, miêu tả các cách dùng của từ: Từ các kho ngữ liệu, chúng ta cũng có thể hiểu được các cách dùng từ khác nhau cũng như khả năng kết hợp của từ đó với những từ khác. Chẳng hạn với kho ngữ liệu VietnameseWaC, người dạy khi đánh vào từ khóa “đi” ở mục Word Sketch sẽ có kết quả 312217 kết hợp có từ “đi” trong tiếng Việt như đi tìm, đi học, đi qua, đi bộ, đi chơi..; bỏ đi, trở đi, giảm đi, chết đi …; vừa đi, đang đi, đã đi,…; đi cấp cứu, đi đày, đi cải tạo … Hình 2: Miêu tả cách dùng từ trong kho ngữ liệu VietnameseWaC
  • 12. 11 Giảng dạy ngữ pháp tiếng Việt cho người nước ngoài từ lâu đã là vấn đề được nhiều giáo viên dạy tiếng Việt quan tâm bởi lẽ theo nhiều giáo viên đây là lĩnh vực khó dạy nhất. Từ xưa đã có câu “Phong ba bão táp không bằng ngữ pháp Việt Nam”. Đến nay vẫn chưa có một giáo trình ngữ pháp tiếng Việt nào dành cho người nước ngoài. Để việc dạy ngữ pháp tiếng Việt có hiệu quả hơn, người dạy có thể khai thác và ứng dụng các kho ngữ liệu điện tử nhất là những kho ngữ liệu có phần chú thích nhãn ngữ pháp của từ. Với thông tin về tiểu từ loại và ngữ pháp biến đổi từ, kho ngữ liệu EVC có thể đáp ứng được các yêu cầu khai thác chi tiết hơn như tìm từ tiếng Việt theo tiểu từ loại (động từ nội động; ngoại động; danh từ đơn thể, danh từ tổng thể, danh từ khối, …). Ngoài ra, người dạy có thể sử dụng những kho ngữ liệu song ngữ Anh – Việt, Pháp – Việt, Hàn – Việt, Nhật – Việt, Trung – Việt … để hạn chế những ảnh hưởng của chuyển di tiêu cực từ tiếng mẹ đẻ sang tiếng Việt trong quá trình học ngữ pháp. Chẳng hạn như khi dạy về các cấu trúc câu tiếng Việt, người học tiếng Anh sẽ có thể hỏi là “Ở đâu anh làm việc?” do trong tiếng Anh từ để hỏi Where (Ở đâu) luôn đứng đầu câu. Khai thác các kho ngữ liệu song ngữ, người dạy có thể giúp người học quan sát trực quan sự sắp xếp trật từ trong các câu cụ thể từ đó người học có thể nghiệm ra những quy tắc thay đổi trật tự và các nhân tố ảnh hưởng đến trật tự đó. Sau đây là một ví dụ khác về trật tự từ trong câu tiếng Việt và tiếng Anh: Hình 3: So sánh trật tự thành phần câu giữa tiếng Anh và tiếng Việt (Nguồn: Đinh Điền, Lý Ngọc Minh (2015)) 5. Thảo luận và đề xuất Như vậy, chúng ta có thể khẳng định rằng việc khai thác và ứng dụng ngữ liệu điện tử có ý nghĩa rất thiết thực đối với việc giảng dạy tiếng Việt cho người nước ngoài. Tuy nhiên, hiện nay, việc ứng dụng này chưa thật sự phổ biến và chưa đạt được mục đích mong muốn bởi lẽ những kho ngữ liệu tiếng Việt và ngữ liệu song ngữ có chứa tiếng Việt chưa nhiều và được phổ biến rộng rãi. Hầu hết các kho ngữ liệu có gắn nhãn đều không được cung cấp miễn phí, người dạy muốn sử dụng phải mua với giá khá cao. Ngoài ra, hầu hết các kho ngữ liệu có chứa tiếng Việt hiện có đều là kho ngữ liệu phục vụ cho nhiều mục đích khác nhau chứ chưa có những kho ngữ liệu chuyên biệt chỉ phục vụ cho việc giảng dạy tiếng Việt cho người nước ngoài. Tiếp đến, việc khai thác, sử dụng hiện quả các kho ngữ liệu cũng cần đòi hỏi người sử dụng phải có những kiến thức cơ bản về công nghệ thông tin do chúng thường được đọc bởi một phần mềm hay một công cụ tìm kiếm nhất định. Chính vì vậy, chúng tôi xin nêu một số đề xuất nhằm mục đích nâng cao
  • 13. 12 tính hiệu quả của việc khai thác và ứng dụng được những kho ngữ liệu điện tử trong việc giảng dạy tiếng Việt cho người nước ngoài ở phần dưới đây: Thứ nhất, chúng ta nên xây dựng thêm những khối ngữ liệu chuyên biệt phục vụ cho những mục đích giảng dạy tiếng Việt cụ thể. Chẳng hạn như những khối ngữ liệu phục vụ cho việc biên soạn giáo trình tiếng Việt cho người nước ngoài (khối ngữ liệu các bài text, các bài hội thoại, các mẫu câu theo từng trình độ từ A1-C2), những khối ngữ liệu tiếng Việt chuyên ngành (chuyên ngành du lịch, chuyên ngành thương mại, chuyên ngành hành chính, văn phòng…), những khối ngữ liệu ngân hàng đề thi đánh giá năng lực tiếng Việt theo từng cấp độ, những khối ngữ liệu văn bản nói (hội thoại, thuyết trình, bài giảng, bản tin ..) phục vụ cho việc giảng dạy tiếng Việt. Thứ hai, chúng ta phải không ngừng học tập để nâng cao trình độ sử dụng công nghệ thông tin có như vậy mới khai thác hiệu quả các khối ngữ liệu điện tử. Hiện nay, ngoài những kho ngữ liệu tiếng Việt do người Việt xây dựng còn có những kho ngữ liệu tiếng Việt hoặc ngữ liệu song ngữ chứa tiếng Việt do các tổ chức nước ngoài xây dựng. Muốn sử dụng được chúng, chúng ta phải sử dụng được một số phần mềm và công cụ tìm kiếm ngữ liệu trực tuyến. Thứ ba, chúng ta nên triển khai những đề tài hoặc dự án nghiên cứu về việc khai thác những khối ngữ liệu điện tử để xây dựng các khóa học tiếng Việt online. Khối ngữ liệu không chỉ giúp ích trong việc xây dựng giáo trình bản giấy mà còn rất hữu ích trong việc xây dựng giáo trình online. Nhờ những khối ngữ liệu có sẵn, việc đưa nội dung bài giảng vào các chương trình học online sẽ tiết kiệm được rất nhiều thời gian và công sức của người dạy. 6. Kết luận Trong thời đại 4.0 hiện nay, khoa học máy tính đã phát huy sức mạnh trong nhiều lĩnh vực trong đó có giảng dạy ngôn ngữ. Việc khai thác có hiệu quả những khối ngữ liệu điện tử sẽ góp phần rất lớn trong việc nâng cao chất lượng giảng dạy tiếng Việt cho người nước ngoài. Nhờ khai thác ngữ liệu từ những kho ngữ liệu điện tử, việc biên soạn giáo trình, giảng dạy, đánh giá năng lực tiếng Việt sẽ trở nên chuyên nghiệp và khách quan hơn. Càng ngày yêu cầu của người học tiếng Việt càng cao nên việc khai thác và ứng dụng những kho ngữ liệu trong việc giảng dạy tiếng Việt cần được thực hiện một cách khoa học và hệ thống trong tương lai. Tài liệu tham khảo Đinh Điền, & Hồ Hải Thuỵ (2011). Ngôn ngữ học máy tính và việc xây dựng từ điển. Tạp chí Từ điển học & Bách khoa thư, số 4(12)/7. Đinh Điền, & Lý Ngọc Minh (2015). Ứng dụng ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ. Kỷ yếu hội thảo Liên ngành Ngôn ngữ học Ứng dụng & Giảng dạy Ngôn ngữ (tr.559-567). Đinh Điền, & Hồ Xuân Vinh (2016). Ứng dụng kho ngữ liệu trong việc day tiếng Việt cho người nước ngoài. Kỷ yếu hội thảo quốc tế giảng dạy, nghiên cứu Việt Nam học và tiếng Việt (tr. 172-180). Đinh Điền (2018). Sách chuyên khảo ngôn ngữ học ngữ liệu. NXB: Đại học Quốc gia Thành phố Hồ Chí Minh.
  • 14. 13 Vũ Xuân Lương (2013). Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lý ngôn ngữ và biên soạn từ điển. Truy cập từ http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_lieu_ap_dung _cho_phan_tich,_xu_li_ngon_ngu_va_bien_soan_tu_dien. Hartmann, R.R.K., & Gregory, J. (1998). Dictionary of lexicography. Routledge, London and New York. Nhiều tác giả. (2015). Oxford Advanced Learner’s Dictionary with Vietnamese Translation, the new 8th edition. Nhà xuất bản Trẻ Sinclair, J. (1991). Corpus concordance collocation. HK: Oxford University Press. Đào Hồng Thu (2007). Ngôn ngữ học khối liệu (Corpus) (Phần 1). Tạp chí Ngôn ngữ và đời sống, số 7(141).
  • 15. 14 EXPLOITING AND APPLICATION OF E-CORPUS IN THE TEACHING OF VIETNAMESE LANGUAGE FOR FOREIGNERS Le Lam Thi University of Foreign Languages, Hue University Abstract Nowadays, with the development of science and technology, the study and teaching of languages has made new strides. The research with manual, theoretical manipulations gradually gave way to the research with automatic manipulations, based on the experience by exploiting the linguistic resources (or corpus). From these corpus, researchers can exploit to serve many different purposes in different fields such as searching, surveying, statistics in language research, automatic machine translation in bilingual machine translation system, documenting the use of words depending on the context in language teaching, searching, classifying customer feedback about products in the commercial economy ... For the purposes of this report, The author will focus on analyzing the applications of corpus in teaching Vietnamese to foreigners. The research results will show the ways to exploit the E-corpus in compiling the Vietnamese teaching books, in Vietnamese phonetic teaching, in Vietnamese vocabulary teaching and Vietnamese grammar teaching for foreigners. Key words: Corpus linguistics, e-corpus, teaching Vietnamese for foreigners