Luận văn: Các tính chất của hàm số và mối liên hệ giữa chúng trong dạy học to...
KhoaHocTre
1. Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE
sang WordNet
Hồ Xuân Vinh, Lý Ngọc Minh, Đinh Điền
Đại học Khoa học tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh,
227 Nguyễn Văn Cừ, Quận 5, Thành phố Hồ Chí Minh
hxvinh.hcmus@gmail.com, lnminh94@gmail.com, ddien@fit.hcmus.edu.vn
Tóm tắt nội dung Từ điển LLOCE được xây dựng bằng việc phân lớp
từ vựng theo cụm từ khái quát đến chi tiết: lĩnh vực, chủ đề, lớp. Các
lớp của LLOCE là một hệ thống gán nhãn và khử nhập nhằng ngữ nghĩa
từ, có độ sâu trung bình tương ứng trong ontology WordNet. Chúng tôi
xây dựng ánh xạ các lớp của LLOCE sang Wordnet với 3 phương pháp
chính: lập bảng tần số, tìm cặp nhãn thoả số nhánh định trước trên cây
và đo độ tương đồng để ánh xạ và đánh giá. Kết quả tốt nhất thu được
cho thấy tỉ lệ bao phủ về nhãn là 35%. Thí nghiệm được trình bày và lý
giải, sau đó chúng tôi đưa ra các hướng cần khảo sát trong tương lai để
có góc nhìn toàn diện hơn.
Keywords: LLOCE, WordNet, ánh xạ, độ đo tương đồng
1 Giới thiệu tổng quan
Khởi nguồn từ Alan Turing [9], lĩnh vực Xử lý Ngôn ngữ tự nhiên đã có nhiều
bước thăng trầm trong quá trình nghiên cứu và phát triển. Ngành học Tương
tác người máy này đã có bước tiến đáng kể từ năm 1980 với nhiều kết quả đáng
khích lệ khi có sự kết hợp của các kĩ thuật Máy học. Điều này dẫn đến nhu cầu
cấp bách về nguồn dữ liệu lớn, không nhiễu và có gán nhãn ngôn ngữ để phục
vụ cho việc huấn luyện. Người ta cũng nhận ra rằng, độ chi tiết của bộ nhãn
càng cao thì thông tin trích xuất được càng hữu ích, cải thiện độ chính xác của
hệ thống. Cụ thể có thể chia làm 3 mức:
– Hình thái từ (danh từ, động từ...)
– Ngữ pháp (bổ từ, đại từ...)
– Ngữ nghĩa (phân biệt các thực thể của chung 1 hình thái từ)
Đặc sắc nhất là nhãn ngữ nghĩa, vừa làm giàu thêm thông tin cho ngữ liệu,
vừa giúp cho máy tính giải quyết những trường hợp nhập nhằng phức tạp thông
qua các mối quan hệ ngữ nghĩa. Không nằm ngoài xu thế đó, các nhà ngôn ngữ
học ở Đại học Princeton đã tiến hành dự án xây dựng cây phả niệm(ontology)
Tiếng Anh WordNet [1, 5–7] khổng lồ với hơn 117.000 tập đồng nghĩa. Các tập
này liên kết bằng quan hệ chính là thượng danh, hạ danh, song song còn có các
quan hệ phức tạp khác như quan hệ bộ phận, quan hệ kéo theo, quan hệ đối
2. 2 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
lập... Mỗi tập đồng nghĩa được thể hiện dưới dạng nút con hoặc nút lá trong
cây, chứa danh sách các từ đồng nghĩa. Khi dùng WordNet để đánh nhãn cho
từ, các tập đồng nghĩa chính là nhãn tương ứng. Ưu điểm này đồng thời cũng là
khuyết điểm khi bộ nhãn quá mịn đến nỗi ngay cả người bình thường cũng khó
chỉ ra được sự sai khác giữa 2 nhãn hoặc phân biệt bằng định nghĩa ngắn của
chúng. Chẳng hạn một số nghĩa khác nhau của từ ‘bank’:
– sloping land (especially the slope beside a body of water)
– a long ridge or pile
– a slope in the turn of a road or track; the outside is higher than the inside
in order to reduce the effects of centrifugal force
Với các đặc tính nêu trên, chúng tôi theo đuổi bài toán làm sao thay đổi
WordNet mà vẫn giữ ưu điểm của nó để chi phí gán nhãn cho ngữ liệu tiết kiệm
và hiệu quả hơn. Trước đây có nỗ lực đơn giản hóa WordNet bằng cách kết hợp
thành nhãn tổng quát hơn như CoreLex [3], ngoài tính thân thiện (tên nhãn
‘anm’: animal, )thì bộ nhãn lại quá thô với chỉ 126 loại ngữ nghĩa ngầm định và
317 lớp đa nghĩa có hệ thống. Ngoài ra có LLOCE với 2.500 lớp được xây dựng
có tính tổng quát cao nhưng vẫn đủ chi tiết để phân biệt những từ đa nghĩa,
khử được tính nhập nhằng. Từ đó, chúng tôi đặt ra giả thuyết: "Nếu tồn tại
khả năng tương ứng giữa LLOCE và WordNet với một sai số chấp nhận được,
việc tạo dựng ngữ liệu gán nhãn LLOCE sẽ hiệu quả và ít tốn kém hơn so với
WordNet". Với ý tưởng đó, chúng tôi tiến hành thí nghiệm trên bộ từ vựng của
LLOCE và tìm tập đồng nghĩa thuộc WordNet. Phần 2 sẽ giới thiệu về bộ nhãn
LLOCE và WordNet. Phần 3 trình bày phương pháp đánh giá. Phần 4 nêu các
bước cụ thể cho từng thí nghiệm. Kết quả sẽ được thể hiện và lý giải ở phần 5.
Cuối cùng chúng tôi đưa ra kết luận và các đề xuất tương lai.
2 Bộ nhãn WordNet và LLOCE
2.1 Cây phả niệm WordNet
Là thành tựu của sự kết hợp giữa Khoa học máy tính và Ngôn ngữ học-Tâm lý,
WordNet là hệ thống từ điển điện tử trực tuyến lớn nhất. Thay vì sắp xếp theo
thứ tự chữ cái như từ điển thông thường, WordNet tổ chức từ vựng theo các
tập đồng nghĩa, phân thành 4 tập tin lớn tương ứng 4 từ loại: danh từ, động từ,
tính từ, trạng từ. Mỗi tập đồng nghĩa chứa định nghĩa ngắn, từ đồng nghĩa và
liên kết với các tập khác bằng các loại quan hệ từ vựng.
– Danh từ: 82.115 tập đồng nghĩa, trung bình có 1,24 nghĩa/từ. Biểu diễn dạng
cây, mỗi tập đồng nghĩa là nút con hoặc nút lá. Quan hệ chính là thượng
danh, hạ danh hay quan hệ cha-con. Xét tại một nút: nút cha thể hiện khái
niệm tổng quát hơn, nút con đặc tả khái niệm chi tiết hơn. Ví dụ: ‘tree’
có nút con là ‘yellowwood’, ‘acacia’, ‘nitta tree’... và có nút cha là ‘woody
plant’. Ngoài ra còn có quan hệ bộ phận, như ‘finger’(ngón tay) là bộ phận
của ‘door’(bàn tay).
3. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 3
– Động từ: 13.767 tập đồng nghĩa, trung bình có 2,17 nghĩa/từ. Biểu diễn dạng
cây, thể hiện quan hệ tăng dần mức độ (whisper-talk), nông hơn danh từ do
các nút đều tập trung gần gốc. Ngoài ra có quan hệ kéo theo(divorce-marry),
nhân quả(show-see), tiên đoán(buy-pay)...
– Tính từ: 18.156 tập đồng nghĩa. Đặc trưng với quan hệ đối lập. Với mỗi cặp
từ quan hệ như vậy, 2 tập đồng nghĩa được chọn làm quan hệ trực tiếp, các
tập đồng nghĩa khác là vệ tinh và đối lập gián tiếp.
– Trạng từ: 3.621 tập đồng nghĩa, các quan hệ trích xuất từ tính từ.
Hình 1: Cấu trúc của danh từ (a) và tính từ (b) trong WordNet
Hình 1 cho thấy hình ảnh trực quan của danh từ và tính từ. Do các độ đo
tương đồng trong bài báo dựa trên biểu diễn cây, một số trường hợp chỉ áp dụng
được trên danh từ và động từ. Bài báo sử dụng WordNet phiên bản 3.0, dữ liệu
và các độ đo được tích hợp sẵn trong gói nltk của ngôn ngữ Python.
2.2 Từ điển Từ vựng Longman của Tiếng Anh hiện đại(Longman
Lexicon of Contemporary English)
Cách sắp xếp theo bảng chữ cái sẽ đặt ‘animal’ và ‘zoo’ hoặc ‘uncle’ và ‘aunt’
ở các vị trí rất xa nhau, nhưng trong cách suy nghĩ của chúng ta, những từ đó
lại khá gần gũi, liên quan với nhau. Nguyên tắc biên sọan Longman Lexicon of
Contemporary English(LLOCE) [2] dựa trên ý tưởng các từ phải được định rõ
nghĩa trong một tập hợp mà chúng có chung đặc tính, những từ có cùng ý nghĩa,
gần nghĩa, trái nghĩa v.v... LLOCE sắp xếp theo 14 lĩnh vực ngữ nghĩa của cuộc
sống tự nhiên hàng ngày, chia thành 128 chủ đề nhỏ và gần 2.500 lớp con.
Ví dụ: Lĩnh vực C: People and the family (Con người và gia đình)bao
gồm:
4. 4 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
– Chủ đề People(Con người): lớp từ C1 đến C19
– Chủ đề Courting, sex, and marriage(Tìm hiểu, tình dục và hôn nhân): lớp
từ C20 đến C39
– Chủ đề Friendship and enmity(Hữu nghị và thù hận): lớp từ C40 đến C49
– ...
Mỗi lớp có định nghĩa ngắn và tập các từ loại thuộc nó. Theo thống kê, có
705 lớp chứa động từ, 1482 lớp chứa danh từ, 429 lớp chứa tính từ, 63 lớp chứa
trạng từ. Tổng số lớp là 2444, trong đó loại đi các lớp không chứa 4 từ loại
chính(N101 có từ loại "determiners", G293 có từ loại "interjections in general"),
còn lại 2419 lớp(gồm cả các lớp chứa tổ hợp từ loại: G249(Biên dịch và thông
dịch) gồm động từ và danh từ). LLOCE cũng tồn tại quan hệ giữa các lớp, tuy
nhiên trong phạm vi bài báo, chúng tôi không xét đến.
3 Phương pháp
3.1 Các yếu tố khảo sát
Mục tiêu bài báo là xác định các nhãn WordNet tương ứng với LLOCE, từ đó
đánh giá khả năng khử nhập nhằng (không có nhãn WordNet nào thuộc 2 lớp
LLOCE trở lên) và phân bố độ sâu của các nhãn trên cây. Ý tưởng là xét các từ
vựng trong 1 lớp LLOCE(gọi tắt là lớp) rồi tìm tập đồng nghĩa chúng thuộc về
bên WordNet(các tập này phải có cùng từ loại với lớp đang xét), sau đó dùng
các phương pháp khác nhau để lọc các tập đồng nghĩa thật sự. Do một từ có
thể thuộc về nhiều nút(hay tập đồng nghĩa, phần sau sẽ gọi tắt là nhãn) của
WordNet, nên cần chọn ngưỡng phù hợp để lọc lại kết quả. Chúng ta cần khảo
sát 3 yếu tố:
– Mỗi lớp phải có các nhãn ánh xạ sao cho chúng có độ tương đồng nhất định
về nghĩa.
– Giữa các lớp khi giao lại hạn chế khả năng có nhãn chung.
– Phân bố độ sâu của các nút tương quan với phân bố trên WordNet gốc.
Phần tiếp theo sẽ giới thiệu độ đo sử dụng để lọc các tập đồng nghĩa phù
hợp và cách thức đánh giá.
3.2 Các độ đo tương đồng trong WordNet
Do cấu trúc WordNet là 1 cây phân loại các tập đồng nghĩa với nhau nên đa số
các độ đo tương đồng dựa trên đường đi giữa 2 nút. Tùy vào thông tin cần dùng
mà có 4 độ đo khác nhau [4].
Đường đi ngắn nhất:
simpath(c1, c2) = 2 ∗ depth_max − len(c1, c2) (1)
5. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 5
Wu và Palmer:
simW P (c1, c2) =
2 ∗ depth(lso(c1, c2))
len(c1, c2) + 2 ∗ depth(lso(c1, c2))
(2)
Leacock và Chodorow:
simLC(c1, c2) = −log
len(c1, c2)
2 ∗ depth_max
(3)
Li:
simLi(c1, c2) = e−α∗len(c1,c2) eβ∗depth(lso(c1,c2))
− e−β∗depth(lso(c1,c2))
eβ∗depth(lso(c1,c2)) + e−β∗depth(lso(c1,c2))
(4)
Trong đó:
– len(ci, cj) : độ dài đường đi ngắn nhất từ nút ci đến nút cj trong WordNet,
nói cách khác là số nhánh phải đi từ ci đến cj.
– lso(ci, cj) : nút gần nhất bao hàm cả ci và cj. Trường hợp ci và cj như nhau,
lso(ci, cj) bằng một trong hai. Trường hợp ci là cha của cj, lso(ci, cj) = ci
và ngược lại.
– depth(ci) : độ dài đường đi từ nút gốc đến nút ci trong WordNet.
– depth_max : là depth(ci) lớn nhất, thường là hằng số, tùy thuộc vào phiên
bản WordNet.
– α, β : các thông số được gán thông qua thực nghiệm, thường α = 0.2 và β
= 0.6.
Do độ đo 4 thiên về thực nghiệm nên chỉ so sánh 3 độ đo 1, 2, 3. Độ đo Wu
và Palmer có miền giá trị ổn định, 2 độ đo còn lại có khoảng dao động giá trị
khá lớn. Ví dụ: 2 nhãn ‘cookbook.n.01’ và ‘instruction_book.n.01’ là 2 nút đồng
cấp 1, tức cách nhau 2 nhánh.
– Đường đi ngắn nhất: 0.333333333333
– Wu và Palmer: 0.916666666666
– Leacock và Chodorow: 2.538973871058276
Độ đo 2 có sử dụng thông tin về nút cha bao hàm hai nút con để tăng độ
tương đồng lên, thể hiện đúng mối quan hệ ngữ nghĩa của cặp từ. Tuy nhiên,
trong thí nghiệm chúng tôi vẫn cho chạy trên cả ba để quan sát sự khác biệt
giữa chúng.
4 Thí nghiệm
4.1 Thí nghiệm 1
Thí nghiệm tiến hành với giả định các từ vựng trong một lớp đều cùng thuộc 1
nhãn Wordnet chung. Mỗi từ vựng có khả năng thuộc nhiều nhãn, do đó sau khi
so khớp hoàn toàn, chúng tôi trông đợi 1 lớp của LLOCE sẽ tương ứng ít nhất
một nhãn WordNet. Tuy nhiên khi tiến hành thực nghiệm thì không có lớp nào
thỏa điều kiện(nhãn ’buttocks.n.01’ lớn nhất với 11 lần xuất hiện, nhưng số từ
trung bình trong 1 lớp là 13.17). Do đó chúng tôi triển khai theo hướng khác:
6. 6 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
Hình 2: Cây biểu diễn mối quan hệ giữa các nút khi thay đổi giá trị
1. Ghi nhận mọi nhãn có trong 2419 lớp. Lập bảng tần suất xuất hiện của nhãn
trong 1 lớp, sắp xếp theo thứ tự giảm dần.
2. Chỉ ghi nhận những nhãn có tần suất lớn hơn 1(cùng từ loại với lớp).
3. Với những lớp không có nhãn có tần suất lớn hơn 1, thì lấy tất cả nhãn có
thể(cùng từ loại với lớp).
4.2 Thí nghiệm 2
Nhãn của các từ trong môt lớp có thể khác nhau, nhưng khả năng chúng cùng
là con của một nhãn tổng quát hơn là khả thi. Dựa trên đặc trưng cấu trúc cây,
việc tìm đường đi giữa 2 nút là dễ dàng. Chúng tôi cho biến ε (đại diện số nhánh
phải đi từ nhãn A đến nhãn B)) dao động từ 0 đến 37, trong đó 0 tham chiếu
đến chính nó và 37 là đường đi dài nhất có thể giữa 2 nút (‘rock_hind.n.01’ là
nhãn sâu nhất có khoảng cách đến nút gốc là 19). Hình 2 thể hiện ảnh hướng
của ε đến quan hệ các nút. Khảo sát sự thay đổi số lượng nhãn theo ε, chúng tôi
sẽ chọn giá trị tốt nhất và đánh giá kết quả. Thí nghiệm này chỉ áp dụng được
cho các lớp có từ loại danh từ và động từ. Ngoại lệ khi ε = 0, nhãn của tính từ
và trạng từ vẫn được tính.
4.3 Thí nghiệm 3
Thí nghiệm 3 là dạng mở rộng của thí nghiệm 2 khi dùng các độ đo hỗn hợp để
đánh giá sự tương đồng giữa các nhãn. Mỗi độ đo thực nghiệm 10 lần, mỗi lần
chạy chọn top giá trị cao nhất từ 1 đến 10, sau đó tính trung bình để tìm giá
trị ngưỡng. Dựa trên kết quả, các cặp nhãn nào có độ đo tương đồng lớn hơn
ngưỡng được coi là hợp lệ và xem như các nhãn đặc trưng cho lớp đó.
5 Kết quả và thảo luận
Chúng tôi đề xuất khái niệm độ bao phủ để đánh giá yếu tố "hạn chế khả năng
có nhãn chung". Chẳng hạn số lượng nhãn ánh xạ được là 82.611, số loại nhãn
7. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 7
là 31.348 thì độ bao phủ được tính như sau: 82.611−31.348
31348 ∗ 100 164%. Do đó
độ bao phủ lý tưởng chúng ta nhắm đến là 0%.
Bảng 1 cho thấy sự thay đổi đáng kể khi bổ sung điều kiện lấy toàn bộ nhãn
khi không có nhãn nào có tần suất lớn hơn 1. Nếu chỉ lấy bộ nhãn xuất hiện
nhiều hơn 1 lần, số lượng lớp LLOCE rỗng(không có nút ánh xạ tương ứng)
chiếm đến 24% so với tổng số lớp được xét. Tuy nhiên khi cho các lớp rỗng được
lấy bất kì nhãn phát sinh, 100% lớp chứa nhãn, độ bao phủ khi giao các bộ nhãn
tăng 7%, số loại tập đồng nghĩa cũng tăng mạnh. Do đó, nếu xét về mặt số tập
đồng nghĩa thu được, độ bao phủ và số lớp có nhãn, phương pháp thực hiện đầy
đủ 3 bước của thí nghiệm 1 tỏ ra ưu thế nhất.
Bảng 1: Thống kê số lượng và loại nhãn WordNet (synset) bằng phương pháp xây
dựng bảng tần suất.
Tổng synset Loại synset Độ bao phủ Lớp có nhãn
Liệt kê toàn bộ 82.611 31.348 164% 2.419
Chỉ lấy synset
tần suất >1
6.501 5.080 28% 1.838
Lấy synset tần suất
= 1 khi lớp rỗng
16.836 12.460 35% 2.419
Bảng 2: Thay đổi về số tập đồng nghĩa theo giá trị ε(Epsilon).
Epsilon Synset Loại synset Lớp Epsilon Synset Loại synset Lớp
1 15.233 10.935 2.110 8 53.761 23.933 2.304
2 24.575 15.560 2.234 12 59.042 25.204 2.312
3 31.435 17.772 2.260 18 59.872 25.426 2.313
4 37.335 19.498 2.279 19 59.883 25.426 2.313
5 42.797 21.050 2.290 20 59.886 25.428 2.313
6 47.328 22.284 2.296 30 59.890 25.428 2.313
7 50.919 23.210 2.299 37 59.890 25.428 2.313
Bảng 2 cho thấy sự chững lại của số lượng các tập đồng nghĩa, loại tập và
lớp khi ε tiến về 37. Chúng tôi cho rằng kết quả là hợp lý nhất khi chọn thời
điểm mà một trong ba yếu tố quan tâm (số tập nhãn, loại nhãn và số lớp không
rỗng) bắt đầu ngưng thay đổi, tức khi ε = 18. Đối với các phương pháp sử dụng
độ đo, chúng tôi chọn kết quả đạt được từ giá trị ngưỡng, thể hiện ở dòng cuối
Bảng 3. Nhận thấy khi số lượng giá trị lấy càng nhiều, giá trị đo trung bình của
Wu và Palmer lại tăng lên. Điều này có thể giải thích dựa trên yếu tố lso(ci,
cj) trong công thức 2, cho thấy khả năng cao các nhãn đa phần có quan hệ cha
con, do đó khi chọn đến top 10, các cặp nhãn này giữ độ tương đồng trung bình
ít dao động, đồng thời triệt tiêu ảnh hưởng của các cặp có độ tương đồng thấp.
8. 8 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
Bảng 3: Tính giá trị trung bình của các độ đo và giá trị ngưỡng để lọc
Đường đi ngắn nhất Wu và Palmer Leacock và Chodorow
Top Giá trị đo trung bình Top Giá trị đo trung bình Top Giá trị đo trung bình
1 0,0758 1 0,1352 1 0,6812
2 0,0761 2 0,136 2 0,6812
3 0,0749 3 0,1354 3 0,6904
4 0,0743 4 0,1353 4 0,697
5 0,074 5 0,1357 5 0,7061
6 0,0735 6 0,1358 6 0,7119
7 0,0731 7 0,1362 7 0,719
8 0,0727 8 0,1365 8 0,7248
9 0,0723 9 0,1367 9 0,731
10 0,072 10 0,137 10 0,7366
Giá trị ngưỡng
0,07387 0,13598 0,70732
Synset Lớp có nhãn Synset Lớp có nhãn Synset Lóp có nhãn
71.546 2.319 70.981 2.318 69.854 1.994
Bảng 4: Bộ nhãn WordNet tương ứng với lớp A1 của LLOCE với các phép ánh xạ
khác nhau
Tập synset WordNet tương ứng
Lấy synset > 1
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02 (5)
Lấy synset = 1
khi lớp rỗng
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02 (5)
Epsilon = 18
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02, embody.v.02, make.v.03, create.v.03,
create.v.05 (9)
Đường đi ngắn nhất
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
Wu và Palmer
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
Leacock và Chodorow
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
9. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 9
Bảng 5: So sánh chỉ số giữa 3 thí nghiệm
Thí nghiệm Synset Loại synset Độ bao phủ Lớp có nhãn
1 - Lấy synset tần suất 1 khi lớp rỗng 16.836 12.460 35% 2419
2 - Epsilon = 12 59.872 25.426 135% 2.313
3 - Đường đi ngắn nhất 71.546 31.348 128% 2.319
3 - Wu và Palmer 70.981 31.348 126% 2.318
3 - Leacock và Chodorow 69.854 31.348 123% 1.994
Mối quan hệ cha con này cũng được chứng thực một lần nữa ở thí nghiệm 2: số
lượng nhãn phát sinh tăng ít dần khi giá trị ε càng lớn, trong đó ε cho thấy cách
biệt về vị trí giữa các nút trong WordNet.
Hình 3: Biểu đồ so sánh sự phân bố số lượng nút của WordNet theo độ sâu giữa các
phương pháp thực nghiệm
Tổng hợp từ các kết quả trên, Bảng 5 cho thấy phương pháp lập bảng tần
suất mặt dù số lượng nhãn phát sinh ít hơn các phương pháp còn lại, nhưng khi
xét đến khía cạnh độ bao phủ và số lớp khác rỗng, nó cho thấy kết quả tốt nhất.
Chúng tôi cũng kiểm tra phân bố của các nhãn ở mỗi phương pháp, hình 3 cho
thấy chúng đều có cùng một hình mẫu như nhau, chỉ khác biệt so với WordNet
gốc ở hai nút có độ sâu 8 và 9.
Bài báo đã thống kê và tạo các tập nhãn ánh xạ từ LLOCE sang WordNet,
cố gắng giải quyết 3 vấn đề đặt ra ở đầu bài là các nhãn trong lớp có độ tương
đồng nhất định về nghĩa, độ bao phủ nhãn ở mức chấp nhận được và phân bố
nhãn tương quan với WordNet gốc. Theo hiểu biết hiện tại, chúng tôi không tìm
10. 10 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
thấy nghiên cứu nào tương tự nên chưa có sự so sánh trực quan. Ngoài ra, ta
cần tiến hành thí nghiệm ánh xạ với các loại nhãn khác như CORELEX để có
cái nhìn tổng quan về tính chất của từng bộ nhãn và chọn nhãn sao cho phù
hợp với mục đích sử dụng của ngữ liệu. Trong tương lai, cần đến sự xác thực
từ phía ngôn ngữ học để khảo sát lại các bộ nhãn phát sinh như trong Bảng 4,
đồng thời cần kiểm tra độ sâu của nhãn trong WordNet để đảm bảo tính khái
quát cũng như chi tiết để khử nhập nhằng. Nếu được chấp nhận, gán nhãn ngữ
liệu sẽ thuận lợi và đỡ phức tạp hơn trước đây rất nhiều[8].
6 Kết luận
Xuất phát từ ý tưởng xây dựng bảng ánh xạ từ lớp của LLOCE sang nhãn
WordNet, chúng tôi đã áp dụng 3 phương pháp khác nhau dựa trên tính chất
cây của WordNet và các độ đo tương đồng. Khi xét đến số lượng và loại nhãn
phát sinh, phương pháp lập bảng tần suất nhãn thể hiện nhiều ưu điểm nhất.
Kết quả thu được chỉ dựa trên thống kê tự động, do đó cần sự can thiệp của
ngôn ngữ học vào dữ liệu để kiểm tra tính đúng đắn. Nếu đạt yêu cầu, đây sẽ là
công cụ hiệu quả cho việc gán nhãn ngữ nghĩa, phục vụ cho các ứng dụng nâng
cao hơn của Xử lý Ngôn ngữ tự nhiên sau này.
Tài liệu
1. Princeton University "About WordNet." WordNet. Princeton University. 2010.
http://wordnet.princeton.edu.
2. Tom Mc Arthur. Longman Lexicon Of Contemporary English. 1997.
3. Paul Buitelaar. Corelex: Systematic polysemy and underspecifica-
tion. http://www.cs.brandeis.edu/~paulb/CoreLex/corelex.html,http:
//www.cogsci.princeton.edu/~wn, February 1998.
4. Junzhong Gu Lingling Meng, Runqing Huang. A review of semantic similarity mea-
sures in wordnet. International Journal of Hybrid Information Technology, January
2013.
5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. Five papers on
WordNet. Technical Report CSL Report 43, Cognitive Science Laboratory. Prince-
ton University, 1990.
6. George A. Miller. Wordnet: A lexical database for english. Commun. ACM,
38(11):39–41, November 1995.
7. Peter Oram. Wordnet: An electronic lexical database. christiane fellbaum (ed.).
cambridge, ma: Mit press, 1998. pp. 423. Applied Psycholinguistics, 22:131–134, 3
2001.
8. Tommaso Petrolito and Francis Bond. A survey of wordnet annotated corpora.
In Heili Orav, Christiane Fellbaum, and Piek Vossen, editors, Proceedings of the
Seventh Global Wordnet Conference, pages 236–245, Tartu, Estonia, 2014.
9. A.M. Turing. Computing machinery and intelligence. Mind: A Quarterly Review of
Psychology and Philosophy, October 1950.