SlideShare a Scribd company logo
1 of 10
Download to read offline
Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE
sang WordNet
Hồ Xuân Vinh, Lý Ngọc Minh, Đinh Điền
Đại học Khoa học tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh,
227 Nguyễn Văn Cừ, Quận 5, Thành phố Hồ Chí Minh
hxvinh.hcmus@gmail.com, lnminh94@gmail.com, ddien@fit.hcmus.edu.vn
Tóm tắt nội dung Từ điển LLOCE được xây dựng bằng việc phân lớp
từ vựng theo cụm từ khái quát đến chi tiết: lĩnh vực, chủ đề, lớp. Các
lớp của LLOCE là một hệ thống gán nhãn và khử nhập nhằng ngữ nghĩa
từ, có độ sâu trung bình tương ứng trong ontology WordNet. Chúng tôi
xây dựng ánh xạ các lớp của LLOCE sang Wordnet với 3 phương pháp
chính: lập bảng tần số, tìm cặp nhãn thoả số nhánh định trước trên cây
và đo độ tương đồng để ánh xạ và đánh giá. Kết quả tốt nhất thu được
cho thấy tỉ lệ bao phủ về nhãn là 35%. Thí nghiệm được trình bày và lý
giải, sau đó chúng tôi đưa ra các hướng cần khảo sát trong tương lai để
có góc nhìn toàn diện hơn.
Keywords: LLOCE, WordNet, ánh xạ, độ đo tương đồng
1 Giới thiệu tổng quan
Khởi nguồn từ Alan Turing [9], lĩnh vực Xử lý Ngôn ngữ tự nhiên đã có nhiều
bước thăng trầm trong quá trình nghiên cứu và phát triển. Ngành học Tương
tác người máy này đã có bước tiến đáng kể từ năm 1980 với nhiều kết quả đáng
khích lệ khi có sự kết hợp của các kĩ thuật Máy học. Điều này dẫn đến nhu cầu
cấp bách về nguồn dữ liệu lớn, không nhiễu và có gán nhãn ngôn ngữ để phục
vụ cho việc huấn luyện. Người ta cũng nhận ra rằng, độ chi tiết của bộ nhãn
càng cao thì thông tin trích xuất được càng hữu ích, cải thiện độ chính xác của
hệ thống. Cụ thể có thể chia làm 3 mức:
– Hình thái từ (danh từ, động từ...)
– Ngữ pháp (bổ từ, đại từ...)
– Ngữ nghĩa (phân biệt các thực thể của chung 1 hình thái từ)
Đặc sắc nhất là nhãn ngữ nghĩa, vừa làm giàu thêm thông tin cho ngữ liệu,
vừa giúp cho máy tính giải quyết những trường hợp nhập nhằng phức tạp thông
qua các mối quan hệ ngữ nghĩa. Không nằm ngoài xu thế đó, các nhà ngôn ngữ
học ở Đại học Princeton đã tiến hành dự án xây dựng cây phả niệm(ontology)
Tiếng Anh WordNet [1, 5–7] khổng lồ với hơn 117.000 tập đồng nghĩa. Các tập
này liên kết bằng quan hệ chính là thượng danh, hạ danh, song song còn có các
quan hệ phức tạp khác như quan hệ bộ phận, quan hệ kéo theo, quan hệ đối
2 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
lập... Mỗi tập đồng nghĩa được thể hiện dưới dạng nút con hoặc nút lá trong
cây, chứa danh sách các từ đồng nghĩa. Khi dùng WordNet để đánh nhãn cho
từ, các tập đồng nghĩa chính là nhãn tương ứng. Ưu điểm này đồng thời cũng là
khuyết điểm khi bộ nhãn quá mịn đến nỗi ngay cả người bình thường cũng khó
chỉ ra được sự sai khác giữa 2 nhãn hoặc phân biệt bằng định nghĩa ngắn của
chúng. Chẳng hạn một số nghĩa khác nhau của từ ‘bank’:
– sloping land (especially the slope beside a body of water)
– a long ridge or pile
– a slope in the turn of a road or track; the outside is higher than the inside
in order to reduce the effects of centrifugal force
Với các đặc tính nêu trên, chúng tôi theo đuổi bài toán làm sao thay đổi
WordNet mà vẫn giữ ưu điểm của nó để chi phí gán nhãn cho ngữ liệu tiết kiệm
và hiệu quả hơn. Trước đây có nỗ lực đơn giản hóa WordNet bằng cách kết hợp
thành nhãn tổng quát hơn như CoreLex [3], ngoài tính thân thiện (tên nhãn
‘anm’: animal, )thì bộ nhãn lại quá thô với chỉ 126 loại ngữ nghĩa ngầm định và
317 lớp đa nghĩa có hệ thống. Ngoài ra có LLOCE với 2.500 lớp được xây dựng
có tính tổng quát cao nhưng vẫn đủ chi tiết để phân biệt những từ đa nghĩa,
khử được tính nhập nhằng. Từ đó, chúng tôi đặt ra giả thuyết: "Nếu tồn tại
khả năng tương ứng giữa LLOCE và WordNet với một sai số chấp nhận được,
việc tạo dựng ngữ liệu gán nhãn LLOCE sẽ hiệu quả và ít tốn kém hơn so với
WordNet". Với ý tưởng đó, chúng tôi tiến hành thí nghiệm trên bộ từ vựng của
LLOCE và tìm tập đồng nghĩa thuộc WordNet. Phần 2 sẽ giới thiệu về bộ nhãn
LLOCE và WordNet. Phần 3 trình bày phương pháp đánh giá. Phần 4 nêu các
bước cụ thể cho từng thí nghiệm. Kết quả sẽ được thể hiện và lý giải ở phần 5.
Cuối cùng chúng tôi đưa ra kết luận và các đề xuất tương lai.
2 Bộ nhãn WordNet và LLOCE
2.1 Cây phả niệm WordNet
Là thành tựu của sự kết hợp giữa Khoa học máy tính và Ngôn ngữ học-Tâm lý,
WordNet là hệ thống từ điển điện tử trực tuyến lớn nhất. Thay vì sắp xếp theo
thứ tự chữ cái như từ điển thông thường, WordNet tổ chức từ vựng theo các
tập đồng nghĩa, phân thành 4 tập tin lớn tương ứng 4 từ loại: danh từ, động từ,
tính từ, trạng từ. Mỗi tập đồng nghĩa chứa định nghĩa ngắn, từ đồng nghĩa và
liên kết với các tập khác bằng các loại quan hệ từ vựng.
– Danh từ: 82.115 tập đồng nghĩa, trung bình có 1,24 nghĩa/từ. Biểu diễn dạng
cây, mỗi tập đồng nghĩa là nút con hoặc nút lá. Quan hệ chính là thượng
danh, hạ danh hay quan hệ cha-con. Xét tại một nút: nút cha thể hiện khái
niệm tổng quát hơn, nút con đặc tả khái niệm chi tiết hơn. Ví dụ: ‘tree’
có nút con là ‘yellowwood’, ‘acacia’, ‘nitta tree’... và có nút cha là ‘woody
plant’. Ngoài ra còn có quan hệ bộ phận, như ‘finger’(ngón tay) là bộ phận
của ‘door’(bàn tay).
Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 3
– Động từ: 13.767 tập đồng nghĩa, trung bình có 2,17 nghĩa/từ. Biểu diễn dạng
cây, thể hiện quan hệ tăng dần mức độ (whisper-talk), nông hơn danh từ do
các nút đều tập trung gần gốc. Ngoài ra có quan hệ kéo theo(divorce-marry),
nhân quả(show-see), tiên đoán(buy-pay)...
– Tính từ: 18.156 tập đồng nghĩa. Đặc trưng với quan hệ đối lập. Với mỗi cặp
từ quan hệ như vậy, 2 tập đồng nghĩa được chọn làm quan hệ trực tiếp, các
tập đồng nghĩa khác là vệ tinh và đối lập gián tiếp.
– Trạng từ: 3.621 tập đồng nghĩa, các quan hệ trích xuất từ tính từ.
Hình 1: Cấu trúc của danh từ (a) và tính từ (b) trong WordNet
Hình 1 cho thấy hình ảnh trực quan của danh từ và tính từ. Do các độ đo
tương đồng trong bài báo dựa trên biểu diễn cây, một số trường hợp chỉ áp dụng
được trên danh từ và động từ. Bài báo sử dụng WordNet phiên bản 3.0, dữ liệu
và các độ đo được tích hợp sẵn trong gói nltk của ngôn ngữ Python.
2.2 Từ điển Từ vựng Longman của Tiếng Anh hiện đại(Longman
Lexicon of Contemporary English)
Cách sắp xếp theo bảng chữ cái sẽ đặt ‘animal’ và ‘zoo’ hoặc ‘uncle’ và ‘aunt’
ở các vị trí rất xa nhau, nhưng trong cách suy nghĩ của chúng ta, những từ đó
lại khá gần gũi, liên quan với nhau. Nguyên tắc biên sọan Longman Lexicon of
Contemporary English(LLOCE) [2] dựa trên ý tưởng các từ phải được định rõ
nghĩa trong một tập hợp mà chúng có chung đặc tính, những từ có cùng ý nghĩa,
gần nghĩa, trái nghĩa v.v... LLOCE sắp xếp theo 14 lĩnh vực ngữ nghĩa của cuộc
sống tự nhiên hàng ngày, chia thành 128 chủ đề nhỏ và gần 2.500 lớp con.
Ví dụ: Lĩnh vực C: People and the family (Con người và gia đình)bao
gồm:
4 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
– Chủ đề People(Con người): lớp từ C1 đến C19
– Chủ đề Courting, sex, and marriage(Tìm hiểu, tình dục và hôn nhân): lớp
từ C20 đến C39
– Chủ đề Friendship and enmity(Hữu nghị và thù hận): lớp từ C40 đến C49
– ...
Mỗi lớp có định nghĩa ngắn và tập các từ loại thuộc nó. Theo thống kê, có
705 lớp chứa động từ, 1482 lớp chứa danh từ, 429 lớp chứa tính từ, 63 lớp chứa
trạng từ. Tổng số lớp là 2444, trong đó loại đi các lớp không chứa 4 từ loại
chính(N101 có từ loại "determiners", G293 có từ loại "interjections in general"),
còn lại 2419 lớp(gồm cả các lớp chứa tổ hợp từ loại: G249(Biên dịch và thông
dịch) gồm động từ và danh từ). LLOCE cũng tồn tại quan hệ giữa các lớp, tuy
nhiên trong phạm vi bài báo, chúng tôi không xét đến.
3 Phương pháp
3.1 Các yếu tố khảo sát
Mục tiêu bài báo là xác định các nhãn WordNet tương ứng với LLOCE, từ đó
đánh giá khả năng khử nhập nhằng (không có nhãn WordNet nào thuộc 2 lớp
LLOCE trở lên) và phân bố độ sâu của các nhãn trên cây. Ý tưởng là xét các từ
vựng trong 1 lớp LLOCE(gọi tắt là lớp) rồi tìm tập đồng nghĩa chúng thuộc về
bên WordNet(các tập này phải có cùng từ loại với lớp đang xét), sau đó dùng
các phương pháp khác nhau để lọc các tập đồng nghĩa thật sự. Do một từ có
thể thuộc về nhiều nút(hay tập đồng nghĩa, phần sau sẽ gọi tắt là nhãn) của
WordNet, nên cần chọn ngưỡng phù hợp để lọc lại kết quả. Chúng ta cần khảo
sát 3 yếu tố:
– Mỗi lớp phải có các nhãn ánh xạ sao cho chúng có độ tương đồng nhất định
về nghĩa.
– Giữa các lớp khi giao lại hạn chế khả năng có nhãn chung.
– Phân bố độ sâu của các nút tương quan với phân bố trên WordNet gốc.
Phần tiếp theo sẽ giới thiệu độ đo sử dụng để lọc các tập đồng nghĩa phù
hợp và cách thức đánh giá.
3.2 Các độ đo tương đồng trong WordNet
Do cấu trúc WordNet là 1 cây phân loại các tập đồng nghĩa với nhau nên đa số
các độ đo tương đồng dựa trên đường đi giữa 2 nút. Tùy vào thông tin cần dùng
mà có 4 độ đo khác nhau [4].
Đường đi ngắn nhất:
simpath(c1, c2) = 2 ∗ depth_max − len(c1, c2) (1)
Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 5
Wu và Palmer:
simW P (c1, c2) =
2 ∗ depth(lso(c1, c2))
len(c1, c2) + 2 ∗ depth(lso(c1, c2))
(2)
Leacock và Chodorow:
simLC(c1, c2) = −log
len(c1, c2)
2 ∗ depth_max
(3)
Li:
simLi(c1, c2) = e−α∗len(c1,c2) eβ∗depth(lso(c1,c2))
− e−β∗depth(lso(c1,c2))
eβ∗depth(lso(c1,c2)) + e−β∗depth(lso(c1,c2))
(4)
Trong đó:
– len(ci, cj) : độ dài đường đi ngắn nhất từ nút ci đến nút cj trong WordNet,
nói cách khác là số nhánh phải đi từ ci đến cj.
– lso(ci, cj) : nút gần nhất bao hàm cả ci và cj. Trường hợp ci và cj như nhau,
lso(ci, cj) bằng một trong hai. Trường hợp ci là cha của cj, lso(ci, cj) = ci
và ngược lại.
– depth(ci) : độ dài đường đi từ nút gốc đến nút ci trong WordNet.
– depth_max : là depth(ci) lớn nhất, thường là hằng số, tùy thuộc vào phiên
bản WordNet.
– α, β : các thông số được gán thông qua thực nghiệm, thường α = 0.2 và β
= 0.6.
Do độ đo 4 thiên về thực nghiệm nên chỉ so sánh 3 độ đo 1, 2, 3. Độ đo Wu
và Palmer có miền giá trị ổn định, 2 độ đo còn lại có khoảng dao động giá trị
khá lớn. Ví dụ: 2 nhãn ‘cookbook.n.01’ và ‘instruction_book.n.01’ là 2 nút đồng
cấp 1, tức cách nhau 2 nhánh.
– Đường đi ngắn nhất: 0.333333333333
– Wu và Palmer: 0.916666666666
– Leacock và Chodorow: 2.538973871058276
Độ đo 2 có sử dụng thông tin về nút cha bao hàm hai nút con để tăng độ
tương đồng lên, thể hiện đúng mối quan hệ ngữ nghĩa của cặp từ. Tuy nhiên,
trong thí nghiệm chúng tôi vẫn cho chạy trên cả ba để quan sát sự khác biệt
giữa chúng.
4 Thí nghiệm
4.1 Thí nghiệm 1
Thí nghiệm tiến hành với giả định các từ vựng trong một lớp đều cùng thuộc 1
nhãn Wordnet chung. Mỗi từ vựng có khả năng thuộc nhiều nhãn, do đó sau khi
so khớp hoàn toàn, chúng tôi trông đợi 1 lớp của LLOCE sẽ tương ứng ít nhất
một nhãn WordNet. Tuy nhiên khi tiến hành thực nghiệm thì không có lớp nào
thỏa điều kiện(nhãn ’buttocks.n.01’ lớn nhất với 11 lần xuất hiện, nhưng số từ
trung bình trong 1 lớp là 13.17). Do đó chúng tôi triển khai theo hướng khác:
6 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
Hình 2: Cây biểu diễn mối quan hệ giữa các nút khi thay đổi giá trị
1. Ghi nhận mọi nhãn có trong 2419 lớp. Lập bảng tần suất xuất hiện của nhãn
trong 1 lớp, sắp xếp theo thứ tự giảm dần.
2. Chỉ ghi nhận những nhãn có tần suất lớn hơn 1(cùng từ loại với lớp).
3. Với những lớp không có nhãn có tần suất lớn hơn 1, thì lấy tất cả nhãn có
thể(cùng từ loại với lớp).
4.2 Thí nghiệm 2
Nhãn của các từ trong môt lớp có thể khác nhau, nhưng khả năng chúng cùng
là con của một nhãn tổng quát hơn là khả thi. Dựa trên đặc trưng cấu trúc cây,
việc tìm đường đi giữa 2 nút là dễ dàng. Chúng tôi cho biến ε (đại diện số nhánh
phải đi từ nhãn A đến nhãn B)) dao động từ 0 đến 37, trong đó 0 tham chiếu
đến chính nó và 37 là đường đi dài nhất có thể giữa 2 nút (‘rock_hind.n.01’ là
nhãn sâu nhất có khoảng cách đến nút gốc là 19). Hình 2 thể hiện ảnh hướng
của ε đến quan hệ các nút. Khảo sát sự thay đổi số lượng nhãn theo ε, chúng tôi
sẽ chọn giá trị tốt nhất và đánh giá kết quả. Thí nghiệm này chỉ áp dụng được
cho các lớp có từ loại danh từ và động từ. Ngoại lệ khi ε = 0, nhãn của tính từ
và trạng từ vẫn được tính.
4.3 Thí nghiệm 3
Thí nghiệm 3 là dạng mở rộng của thí nghiệm 2 khi dùng các độ đo hỗn hợp để
đánh giá sự tương đồng giữa các nhãn. Mỗi độ đo thực nghiệm 10 lần, mỗi lần
chạy chọn top giá trị cao nhất từ 1 đến 10, sau đó tính trung bình để tìm giá
trị ngưỡng. Dựa trên kết quả, các cặp nhãn nào có độ đo tương đồng lớn hơn
ngưỡng được coi là hợp lệ và xem như các nhãn đặc trưng cho lớp đó.
5 Kết quả và thảo luận
Chúng tôi đề xuất khái niệm độ bao phủ để đánh giá yếu tố "hạn chế khả năng
có nhãn chung". Chẳng hạn số lượng nhãn ánh xạ được là 82.611, số loại nhãn
Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 7
là 31.348 thì độ bao phủ được tính như sau: 82.611−31.348
31348 ∗ 100 164%. Do đó
độ bao phủ lý tưởng chúng ta nhắm đến là 0%.
Bảng 1 cho thấy sự thay đổi đáng kể khi bổ sung điều kiện lấy toàn bộ nhãn
khi không có nhãn nào có tần suất lớn hơn 1. Nếu chỉ lấy bộ nhãn xuất hiện
nhiều hơn 1 lần, số lượng lớp LLOCE rỗng(không có nút ánh xạ tương ứng)
chiếm đến 24% so với tổng số lớp được xét. Tuy nhiên khi cho các lớp rỗng được
lấy bất kì nhãn phát sinh, 100% lớp chứa nhãn, độ bao phủ khi giao các bộ nhãn
tăng 7%, số loại tập đồng nghĩa cũng tăng mạnh. Do đó, nếu xét về mặt số tập
đồng nghĩa thu được, độ bao phủ và số lớp có nhãn, phương pháp thực hiện đầy
đủ 3 bước của thí nghiệm 1 tỏ ra ưu thế nhất.
Bảng 1: Thống kê số lượng và loại nhãn WordNet (synset) bằng phương pháp xây
dựng bảng tần suất.
Tổng synset Loại synset Độ bao phủ Lớp có nhãn
Liệt kê toàn bộ 82.611 31.348 164% 2.419
Chỉ lấy synset
tần suất >1
6.501 5.080 28% 1.838
Lấy synset tần suất
= 1 khi lớp rỗng
16.836 12.460 35% 2.419
Bảng 2: Thay đổi về số tập đồng nghĩa theo giá trị ε(Epsilon).
Epsilon Synset Loại synset Lớp Epsilon Synset Loại synset Lớp
1 15.233 10.935 2.110 8 53.761 23.933 2.304
2 24.575 15.560 2.234 12 59.042 25.204 2.312
3 31.435 17.772 2.260 18 59.872 25.426 2.313
4 37.335 19.498 2.279 19 59.883 25.426 2.313
5 42.797 21.050 2.290 20 59.886 25.428 2.313
6 47.328 22.284 2.296 30 59.890 25.428 2.313
7 50.919 23.210 2.299 37 59.890 25.428 2.313
Bảng 2 cho thấy sự chững lại của số lượng các tập đồng nghĩa, loại tập và
lớp khi ε tiến về 37. Chúng tôi cho rằng kết quả là hợp lý nhất khi chọn thời
điểm mà một trong ba yếu tố quan tâm (số tập nhãn, loại nhãn và số lớp không
rỗng) bắt đầu ngưng thay đổi, tức khi ε = 18. Đối với các phương pháp sử dụng
độ đo, chúng tôi chọn kết quả đạt được từ giá trị ngưỡng, thể hiện ở dòng cuối
Bảng 3. Nhận thấy khi số lượng giá trị lấy càng nhiều, giá trị đo trung bình của
Wu và Palmer lại tăng lên. Điều này có thể giải thích dựa trên yếu tố lso(ci,
cj) trong công thức 2, cho thấy khả năng cao các nhãn đa phần có quan hệ cha
con, do đó khi chọn đến top 10, các cặp nhãn này giữ độ tương đồng trung bình
ít dao động, đồng thời triệt tiêu ảnh hưởng của các cặp có độ tương đồng thấp.
8 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
Bảng 3: Tính giá trị trung bình của các độ đo và giá trị ngưỡng để lọc
Đường đi ngắn nhất Wu và Palmer Leacock và Chodorow
Top Giá trị đo trung bình Top Giá trị đo trung bình Top Giá trị đo trung bình
1 0,0758 1 0,1352 1 0,6812
2 0,0761 2 0,136 2 0,6812
3 0,0749 3 0,1354 3 0,6904
4 0,0743 4 0,1353 4 0,697
5 0,074 5 0,1357 5 0,7061
6 0,0735 6 0,1358 6 0,7119
7 0,0731 7 0,1362 7 0,719
8 0,0727 8 0,1365 8 0,7248
9 0,0723 9 0,1367 9 0,731
10 0,072 10 0,137 10 0,7366
Giá trị ngưỡng
0,07387 0,13598 0,70732
Synset Lớp có nhãn Synset Lớp có nhãn Synset Lóp có nhãn
71.546 2.319 70.981 2.318 69.854 1.994
Bảng 4: Bộ nhãn WordNet tương ứng với lớp A1 của LLOCE với các phép ánh xạ
khác nhau
Tập synset WordNet tương ứng
Lấy synset > 1
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02 (5)
Lấy synset = 1
khi lớp rỗng
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02 (5)
Epsilon = 18
exist.v.01, animize.v.01,animate.v.04, inspire.v.01,
enliven.v.02, embody.v.02, make.v.03, create.v.03,
create.v.05 (9)
Đường đi ngắn nhất
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
Wu và Palmer
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
Leacock và Chodorow
exist.v.01, exist.v.02, animize.v.01, animate.v.04,
inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03,
create.v.02, create.v.03, create.v.04, create.v.05,
be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10,
be.v.11, be.v.12,constitute.v.01, produce.v.02,
equal.v.01, cost.v.01 (24)
Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 9
Bảng 5: So sánh chỉ số giữa 3 thí nghiệm
Thí nghiệm Synset Loại synset Độ bao phủ Lớp có nhãn
1 - Lấy synset tần suất 1 khi lớp rỗng 16.836 12.460 35% 2419
2 - Epsilon = 12 59.872 25.426 135% 2.313
3 - Đường đi ngắn nhất 71.546 31.348 128% 2.319
3 - Wu và Palmer 70.981 31.348 126% 2.318
3 - Leacock và Chodorow 69.854 31.348 123% 1.994
Mối quan hệ cha con này cũng được chứng thực một lần nữa ở thí nghiệm 2: số
lượng nhãn phát sinh tăng ít dần khi giá trị ε càng lớn, trong đó ε cho thấy cách
biệt về vị trí giữa các nút trong WordNet.
Hình 3: Biểu đồ so sánh sự phân bố số lượng nút của WordNet theo độ sâu giữa các
phương pháp thực nghiệm
Tổng hợp từ các kết quả trên, Bảng 5 cho thấy phương pháp lập bảng tần
suất mặt dù số lượng nhãn phát sinh ít hơn các phương pháp còn lại, nhưng khi
xét đến khía cạnh độ bao phủ và số lớp khác rỗng, nó cho thấy kết quả tốt nhất.
Chúng tôi cũng kiểm tra phân bố của các nhãn ở mỗi phương pháp, hình 3 cho
thấy chúng đều có cùng một hình mẫu như nhau, chỉ khác biệt so với WordNet
gốc ở hai nút có độ sâu 8 và 9.
Bài báo đã thống kê và tạo các tập nhãn ánh xạ từ LLOCE sang WordNet,
cố gắng giải quyết 3 vấn đề đặt ra ở đầu bài là các nhãn trong lớp có độ tương
đồng nhất định về nghĩa, độ bao phủ nhãn ở mức chấp nhận được và phân bố
nhãn tương quan với WordNet gốc. Theo hiểu biết hiện tại, chúng tôi không tìm
10 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet
thấy nghiên cứu nào tương tự nên chưa có sự so sánh trực quan. Ngoài ra, ta
cần tiến hành thí nghiệm ánh xạ với các loại nhãn khác như CORELEX để có
cái nhìn tổng quan về tính chất của từng bộ nhãn và chọn nhãn sao cho phù
hợp với mục đích sử dụng của ngữ liệu. Trong tương lai, cần đến sự xác thực
từ phía ngôn ngữ học để khảo sát lại các bộ nhãn phát sinh như trong Bảng 4,
đồng thời cần kiểm tra độ sâu của nhãn trong WordNet để đảm bảo tính khái
quát cũng như chi tiết để khử nhập nhằng. Nếu được chấp nhận, gán nhãn ngữ
liệu sẽ thuận lợi và đỡ phức tạp hơn trước đây rất nhiều[8].
6 Kết luận
Xuất phát từ ý tưởng xây dựng bảng ánh xạ từ lớp của LLOCE sang nhãn
WordNet, chúng tôi đã áp dụng 3 phương pháp khác nhau dựa trên tính chất
cây của WordNet và các độ đo tương đồng. Khi xét đến số lượng và loại nhãn
phát sinh, phương pháp lập bảng tần suất nhãn thể hiện nhiều ưu điểm nhất.
Kết quả thu được chỉ dựa trên thống kê tự động, do đó cần sự can thiệp của
ngôn ngữ học vào dữ liệu để kiểm tra tính đúng đắn. Nếu đạt yêu cầu, đây sẽ là
công cụ hiệu quả cho việc gán nhãn ngữ nghĩa, phục vụ cho các ứng dụng nâng
cao hơn của Xử lý Ngôn ngữ tự nhiên sau này.
Tài liệu
1. Princeton University "About WordNet." WordNet. Princeton University. 2010.
http://wordnet.princeton.edu.
2. Tom Mc Arthur. Longman Lexicon Of Contemporary English. 1997.
3. Paul Buitelaar. Corelex: Systematic polysemy and underspecifica-
tion. http://www.cs.brandeis.edu/~paulb/CoreLex/corelex.html,http:
//www.cogsci.princeton.edu/~wn, February 1998.
4. Junzhong Gu Lingling Meng, Runqing Huang. A review of semantic similarity mea-
sures in wordnet. International Journal of Hybrid Information Technology, January
2013.
5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. Five papers on
WordNet. Technical Report CSL Report 43, Cognitive Science Laboratory. Prince-
ton University, 1990.
6. George A. Miller. Wordnet: A lexical database for english. Commun. ACM,
38(11):39–41, November 1995.
7. Peter Oram. Wordnet: An electronic lexical database. christiane fellbaum (ed.).
cambridge, ma: Mit press, 1998. pp. 423. Applied Psycholinguistics, 22:131–134, 3
2001.
8. Tommaso Petrolito and Francis Bond. A survey of wordnet annotated corpora.
In Heili Orav, Christiane Fellbaum, and Piek Vossen, editors, Proceedings of the
Seventh Global Wordnet Conference, pages 236–245, Tartu, Estonia, 2014.
9. A.M. Turing. Computing machinery and intelligence. Mind: A Quarterly Review of
Psychology and Philosophy, October 1950.

More Related Content

Similar to KhoaHocTre

Thiet ke co so du lieu
Thiet ke co so du lieuThiet ke co so du lieu
Thiet ke co so du lieuma giam gia
 
Lý thuyết thiết kế CSDL
Lý thuyết thiết kế CSDL Lý thuyết thiết kế CSDL
Lý thuyết thiết kế CSDL nataliej4
 
W03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptxW03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptxHnginh10297
 
Cơ sở dữ liệu đại học
Cơ sở dữ liệu đại họcCơ sở dữ liệu đại học
Cơ sở dữ liệu đại họcChu TheKop
 
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdfDCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdfDHongAn2
 
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdf
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdfSách Cơ sở dữ liệu quan hệ & ứng dụng.pdf
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdfstyle tshirt
 
Nhóm 08 kntlvb
Nhóm 08  kntlvb Nhóm 08  kntlvb
Nhóm 08 kntlvb hnglth33
 
[123doc] mo-hinh-thuc-the-moi-ket-hop
[123doc]   mo-hinh-thuc-the-moi-ket-hop[123doc]   mo-hinh-thuc-the-moi-ket-hop
[123doc] mo-hinh-thuc-the-moi-ket-hopMay Trang
 

Similar to KhoaHocTre (20)

Thiet ke co so du lieu
Thiet ke co so du lieuThiet ke co so du lieu
Thiet ke co so du lieu
 
Lý thuyết thiết kế CSDL
Lý thuyết thiết kế CSDL Lý thuyết thiết kế CSDL
Lý thuyết thiết kế CSDL
 
Luận án: Phát hiện phụ thuộc hàm suy rộng trong cơ sở dữ liệu
Luận án: Phát hiện phụ thuộc hàm suy rộng trong cơ sở dữ liệuLuận án: Phát hiện phụ thuộc hàm suy rộng trong cơ sở dữ liệu
Luận án: Phát hiện phụ thuộc hàm suy rộng trong cơ sở dữ liệu
 
Nghiên Cứu Đăc Trưng Ngôn Ngữ Của Cú Hành Vi Trong Tiếng Anh Và Tiếng Việt.doc
Nghiên Cứu Đăc Trưng Ngôn Ngữ Của Cú Hành Vi Trong Tiếng Anh Và Tiếng Việt.docNghiên Cứu Đăc Trưng Ngôn Ngữ Của Cú Hành Vi Trong Tiếng Anh Và Tiếng Việt.doc
Nghiên Cứu Đăc Trưng Ngôn Ngữ Của Cú Hành Vi Trong Tiếng Anh Và Tiếng Việt.doc
 
Dịch trí tuệ nhân tạo
Dịch trí tuệ  nhân tạoDịch trí tuệ  nhân tạo
Dịch trí tuệ nhân tạo
 
Luận văn thạc sĩ - Đa thức trong các bài toán thi học sinh giỏi.doc
Luận văn thạc sĩ - Đa thức trong các bài toán thi học sinh giỏi.docLuận văn thạc sĩ - Đa thức trong các bài toán thi học sinh giỏi.doc
Luận văn thạc sĩ - Đa thức trong các bài toán thi học sinh giỏi.doc
 
W03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptxW03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptx
 
Luận văn: CASYOPÉE và việc dạy học khái niệm hàm số trong môi trường tích hợp...
Luận văn: CASYOPÉE và việc dạy học khái niệm hàm số trong môi trường tích hợp...Luận văn: CASYOPÉE và việc dạy học khái niệm hàm số trong môi trường tích hợp...
Luận văn: CASYOPÉE và việc dạy học khái niệm hàm số trong môi trường tích hợp...
 
Cơ sở dữ liệu đại học
Cơ sở dữ liệu đại họcCơ sở dữ liệu đại học
Cơ sở dữ liệu đại học
 
DLNN-Nhóm-3.pptx
DLNN-Nhóm-3.pptxDLNN-Nhóm-3.pptx
DLNN-Nhóm-3.pptx
 
Luận văn: Nghiên cứu didactic việc dạy học hàm số, HAY, 9đ
Luận văn: Nghiên cứu didactic việc dạy học hàm số, HAY, 9đLuận văn: Nghiên cứu didactic việc dạy học hàm số, HAY, 9đ
Luận văn: Nghiên cứu didactic việc dạy học hàm số, HAY, 9đ
 
Đa Thức Trong Các Bài Toán Thi Học Sinh Giỏi.docx
Đa Thức Trong Các Bài Toán Thi Học Sinh Giỏi.docxĐa Thức Trong Các Bài Toán Thi Học Sinh Giỏi.docx
Đa Thức Trong Các Bài Toán Thi Học Sinh Giỏi.docx
 
Các mô hình dữ liệu
Các mô hình dữ liệuCác mô hình dữ liệu
Các mô hình dữ liệu
 
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdfDCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
DCT119C1_3119411001_Dư-Hoàng-An_TL.pdf
 
Csdl hdt
Csdl hdtCsdl hdt
Csdl hdt
 
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdf
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdfSách Cơ sở dữ liệu quan hệ & ứng dụng.pdf
Sách Cơ sở dữ liệu quan hệ & ứng dụng.pdf
 
Nhóm 08 kntlvb
Nhóm 08  kntlvb Nhóm 08  kntlvb
Nhóm 08 kntlvb
 
[123doc] mo-hinh-thuc-the-moi-ket-hop
[123doc]   mo-hinh-thuc-the-moi-ket-hop[123doc]   mo-hinh-thuc-the-moi-ket-hop
[123doc] mo-hinh-thuc-the-moi-ket-hop
 
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAYLuận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
Luận án: Câu đảo ngữ tiếng Anh và tiếng Việt, HAY
 
Luận văn: Các tính chất của hàm số và mối liên hệ giữa chúng trong dạy học to...
Luận văn: Các tính chất của hàm số và mối liên hệ giữa chúng trong dạy học to...Luận văn: Các tính chất của hàm số và mối liên hệ giữa chúng trong dạy học to...
Luận văn: Các tính chất của hàm số và mối liên hệ giữa chúng trong dạy học to...
 

KhoaHocTre

  • 1. Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet Hồ Xuân Vinh, Lý Ngọc Minh, Đinh Điền Đại học Khoa học tự nhiên - Đại học Quốc gia Thành phố Hồ Chí Minh, 227 Nguyễn Văn Cừ, Quận 5, Thành phố Hồ Chí Minh hxvinh.hcmus@gmail.com, lnminh94@gmail.com, ddien@fit.hcmus.edu.vn Tóm tắt nội dung Từ điển LLOCE được xây dựng bằng việc phân lớp từ vựng theo cụm từ khái quát đến chi tiết: lĩnh vực, chủ đề, lớp. Các lớp của LLOCE là một hệ thống gán nhãn và khử nhập nhằng ngữ nghĩa từ, có độ sâu trung bình tương ứng trong ontology WordNet. Chúng tôi xây dựng ánh xạ các lớp của LLOCE sang Wordnet với 3 phương pháp chính: lập bảng tần số, tìm cặp nhãn thoả số nhánh định trước trên cây và đo độ tương đồng để ánh xạ và đánh giá. Kết quả tốt nhất thu được cho thấy tỉ lệ bao phủ về nhãn là 35%. Thí nghiệm được trình bày và lý giải, sau đó chúng tôi đưa ra các hướng cần khảo sát trong tương lai để có góc nhìn toàn diện hơn. Keywords: LLOCE, WordNet, ánh xạ, độ đo tương đồng 1 Giới thiệu tổng quan Khởi nguồn từ Alan Turing [9], lĩnh vực Xử lý Ngôn ngữ tự nhiên đã có nhiều bước thăng trầm trong quá trình nghiên cứu và phát triển. Ngành học Tương tác người máy này đã có bước tiến đáng kể từ năm 1980 với nhiều kết quả đáng khích lệ khi có sự kết hợp của các kĩ thuật Máy học. Điều này dẫn đến nhu cầu cấp bách về nguồn dữ liệu lớn, không nhiễu và có gán nhãn ngôn ngữ để phục vụ cho việc huấn luyện. Người ta cũng nhận ra rằng, độ chi tiết của bộ nhãn càng cao thì thông tin trích xuất được càng hữu ích, cải thiện độ chính xác của hệ thống. Cụ thể có thể chia làm 3 mức: – Hình thái từ (danh từ, động từ...) – Ngữ pháp (bổ từ, đại từ...) – Ngữ nghĩa (phân biệt các thực thể của chung 1 hình thái từ) Đặc sắc nhất là nhãn ngữ nghĩa, vừa làm giàu thêm thông tin cho ngữ liệu, vừa giúp cho máy tính giải quyết những trường hợp nhập nhằng phức tạp thông qua các mối quan hệ ngữ nghĩa. Không nằm ngoài xu thế đó, các nhà ngôn ngữ học ở Đại học Princeton đã tiến hành dự án xây dựng cây phả niệm(ontology) Tiếng Anh WordNet [1, 5–7] khổng lồ với hơn 117.000 tập đồng nghĩa. Các tập này liên kết bằng quan hệ chính là thượng danh, hạ danh, song song còn có các quan hệ phức tạp khác như quan hệ bộ phận, quan hệ kéo theo, quan hệ đối
  • 2. 2 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet lập... Mỗi tập đồng nghĩa được thể hiện dưới dạng nút con hoặc nút lá trong cây, chứa danh sách các từ đồng nghĩa. Khi dùng WordNet để đánh nhãn cho từ, các tập đồng nghĩa chính là nhãn tương ứng. Ưu điểm này đồng thời cũng là khuyết điểm khi bộ nhãn quá mịn đến nỗi ngay cả người bình thường cũng khó chỉ ra được sự sai khác giữa 2 nhãn hoặc phân biệt bằng định nghĩa ngắn của chúng. Chẳng hạn một số nghĩa khác nhau của từ ‘bank’: – sloping land (especially the slope beside a body of water) – a long ridge or pile – a slope in the turn of a road or track; the outside is higher than the inside in order to reduce the effects of centrifugal force Với các đặc tính nêu trên, chúng tôi theo đuổi bài toán làm sao thay đổi WordNet mà vẫn giữ ưu điểm của nó để chi phí gán nhãn cho ngữ liệu tiết kiệm và hiệu quả hơn. Trước đây có nỗ lực đơn giản hóa WordNet bằng cách kết hợp thành nhãn tổng quát hơn như CoreLex [3], ngoài tính thân thiện (tên nhãn ‘anm’: animal, )thì bộ nhãn lại quá thô với chỉ 126 loại ngữ nghĩa ngầm định và 317 lớp đa nghĩa có hệ thống. Ngoài ra có LLOCE với 2.500 lớp được xây dựng có tính tổng quát cao nhưng vẫn đủ chi tiết để phân biệt những từ đa nghĩa, khử được tính nhập nhằng. Từ đó, chúng tôi đặt ra giả thuyết: "Nếu tồn tại khả năng tương ứng giữa LLOCE và WordNet với một sai số chấp nhận được, việc tạo dựng ngữ liệu gán nhãn LLOCE sẽ hiệu quả và ít tốn kém hơn so với WordNet". Với ý tưởng đó, chúng tôi tiến hành thí nghiệm trên bộ từ vựng của LLOCE và tìm tập đồng nghĩa thuộc WordNet. Phần 2 sẽ giới thiệu về bộ nhãn LLOCE và WordNet. Phần 3 trình bày phương pháp đánh giá. Phần 4 nêu các bước cụ thể cho từng thí nghiệm. Kết quả sẽ được thể hiện và lý giải ở phần 5. Cuối cùng chúng tôi đưa ra kết luận và các đề xuất tương lai. 2 Bộ nhãn WordNet và LLOCE 2.1 Cây phả niệm WordNet Là thành tựu của sự kết hợp giữa Khoa học máy tính và Ngôn ngữ học-Tâm lý, WordNet là hệ thống từ điển điện tử trực tuyến lớn nhất. Thay vì sắp xếp theo thứ tự chữ cái như từ điển thông thường, WordNet tổ chức từ vựng theo các tập đồng nghĩa, phân thành 4 tập tin lớn tương ứng 4 từ loại: danh từ, động từ, tính từ, trạng từ. Mỗi tập đồng nghĩa chứa định nghĩa ngắn, từ đồng nghĩa và liên kết với các tập khác bằng các loại quan hệ từ vựng. – Danh từ: 82.115 tập đồng nghĩa, trung bình có 1,24 nghĩa/từ. Biểu diễn dạng cây, mỗi tập đồng nghĩa là nút con hoặc nút lá. Quan hệ chính là thượng danh, hạ danh hay quan hệ cha-con. Xét tại một nút: nút cha thể hiện khái niệm tổng quát hơn, nút con đặc tả khái niệm chi tiết hơn. Ví dụ: ‘tree’ có nút con là ‘yellowwood’, ‘acacia’, ‘nitta tree’... và có nút cha là ‘woody plant’. Ngoài ra còn có quan hệ bộ phận, như ‘finger’(ngón tay) là bộ phận của ‘door’(bàn tay).
  • 3. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 3 – Động từ: 13.767 tập đồng nghĩa, trung bình có 2,17 nghĩa/từ. Biểu diễn dạng cây, thể hiện quan hệ tăng dần mức độ (whisper-talk), nông hơn danh từ do các nút đều tập trung gần gốc. Ngoài ra có quan hệ kéo theo(divorce-marry), nhân quả(show-see), tiên đoán(buy-pay)... – Tính từ: 18.156 tập đồng nghĩa. Đặc trưng với quan hệ đối lập. Với mỗi cặp từ quan hệ như vậy, 2 tập đồng nghĩa được chọn làm quan hệ trực tiếp, các tập đồng nghĩa khác là vệ tinh và đối lập gián tiếp. – Trạng từ: 3.621 tập đồng nghĩa, các quan hệ trích xuất từ tính từ. Hình 1: Cấu trúc của danh từ (a) và tính từ (b) trong WordNet Hình 1 cho thấy hình ảnh trực quan của danh từ và tính từ. Do các độ đo tương đồng trong bài báo dựa trên biểu diễn cây, một số trường hợp chỉ áp dụng được trên danh từ và động từ. Bài báo sử dụng WordNet phiên bản 3.0, dữ liệu và các độ đo được tích hợp sẵn trong gói nltk của ngôn ngữ Python. 2.2 Từ điển Từ vựng Longman của Tiếng Anh hiện đại(Longman Lexicon of Contemporary English) Cách sắp xếp theo bảng chữ cái sẽ đặt ‘animal’ và ‘zoo’ hoặc ‘uncle’ và ‘aunt’ ở các vị trí rất xa nhau, nhưng trong cách suy nghĩ của chúng ta, những từ đó lại khá gần gũi, liên quan với nhau. Nguyên tắc biên sọan Longman Lexicon of Contemporary English(LLOCE) [2] dựa trên ý tưởng các từ phải được định rõ nghĩa trong một tập hợp mà chúng có chung đặc tính, những từ có cùng ý nghĩa, gần nghĩa, trái nghĩa v.v... LLOCE sắp xếp theo 14 lĩnh vực ngữ nghĩa của cuộc sống tự nhiên hàng ngày, chia thành 128 chủ đề nhỏ và gần 2.500 lớp con. Ví dụ: Lĩnh vực C: People and the family (Con người và gia đình)bao gồm:
  • 4. 4 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet – Chủ đề People(Con người): lớp từ C1 đến C19 – Chủ đề Courting, sex, and marriage(Tìm hiểu, tình dục và hôn nhân): lớp từ C20 đến C39 – Chủ đề Friendship and enmity(Hữu nghị và thù hận): lớp từ C40 đến C49 – ... Mỗi lớp có định nghĩa ngắn và tập các từ loại thuộc nó. Theo thống kê, có 705 lớp chứa động từ, 1482 lớp chứa danh từ, 429 lớp chứa tính từ, 63 lớp chứa trạng từ. Tổng số lớp là 2444, trong đó loại đi các lớp không chứa 4 từ loại chính(N101 có từ loại "determiners", G293 có từ loại "interjections in general"), còn lại 2419 lớp(gồm cả các lớp chứa tổ hợp từ loại: G249(Biên dịch và thông dịch) gồm động từ và danh từ). LLOCE cũng tồn tại quan hệ giữa các lớp, tuy nhiên trong phạm vi bài báo, chúng tôi không xét đến. 3 Phương pháp 3.1 Các yếu tố khảo sát Mục tiêu bài báo là xác định các nhãn WordNet tương ứng với LLOCE, từ đó đánh giá khả năng khử nhập nhằng (không có nhãn WordNet nào thuộc 2 lớp LLOCE trở lên) và phân bố độ sâu của các nhãn trên cây. Ý tưởng là xét các từ vựng trong 1 lớp LLOCE(gọi tắt là lớp) rồi tìm tập đồng nghĩa chúng thuộc về bên WordNet(các tập này phải có cùng từ loại với lớp đang xét), sau đó dùng các phương pháp khác nhau để lọc các tập đồng nghĩa thật sự. Do một từ có thể thuộc về nhiều nút(hay tập đồng nghĩa, phần sau sẽ gọi tắt là nhãn) của WordNet, nên cần chọn ngưỡng phù hợp để lọc lại kết quả. Chúng ta cần khảo sát 3 yếu tố: – Mỗi lớp phải có các nhãn ánh xạ sao cho chúng có độ tương đồng nhất định về nghĩa. – Giữa các lớp khi giao lại hạn chế khả năng có nhãn chung. – Phân bố độ sâu của các nút tương quan với phân bố trên WordNet gốc. Phần tiếp theo sẽ giới thiệu độ đo sử dụng để lọc các tập đồng nghĩa phù hợp và cách thức đánh giá. 3.2 Các độ đo tương đồng trong WordNet Do cấu trúc WordNet là 1 cây phân loại các tập đồng nghĩa với nhau nên đa số các độ đo tương đồng dựa trên đường đi giữa 2 nút. Tùy vào thông tin cần dùng mà có 4 độ đo khác nhau [4]. Đường đi ngắn nhất: simpath(c1, c2) = 2 ∗ depth_max − len(c1, c2) (1)
  • 5. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 5 Wu và Palmer: simW P (c1, c2) = 2 ∗ depth(lso(c1, c2)) len(c1, c2) + 2 ∗ depth(lso(c1, c2)) (2) Leacock và Chodorow: simLC(c1, c2) = −log len(c1, c2) 2 ∗ depth_max (3) Li: simLi(c1, c2) = e−α∗len(c1,c2) eβ∗depth(lso(c1,c2)) − e−β∗depth(lso(c1,c2)) eβ∗depth(lso(c1,c2)) + e−β∗depth(lso(c1,c2)) (4) Trong đó: – len(ci, cj) : độ dài đường đi ngắn nhất từ nút ci đến nút cj trong WordNet, nói cách khác là số nhánh phải đi từ ci đến cj. – lso(ci, cj) : nút gần nhất bao hàm cả ci và cj. Trường hợp ci và cj như nhau, lso(ci, cj) bằng một trong hai. Trường hợp ci là cha của cj, lso(ci, cj) = ci và ngược lại. – depth(ci) : độ dài đường đi từ nút gốc đến nút ci trong WordNet. – depth_max : là depth(ci) lớn nhất, thường là hằng số, tùy thuộc vào phiên bản WordNet. – α, β : các thông số được gán thông qua thực nghiệm, thường α = 0.2 và β = 0.6. Do độ đo 4 thiên về thực nghiệm nên chỉ so sánh 3 độ đo 1, 2, 3. Độ đo Wu và Palmer có miền giá trị ổn định, 2 độ đo còn lại có khoảng dao động giá trị khá lớn. Ví dụ: 2 nhãn ‘cookbook.n.01’ và ‘instruction_book.n.01’ là 2 nút đồng cấp 1, tức cách nhau 2 nhánh. – Đường đi ngắn nhất: 0.333333333333 – Wu và Palmer: 0.916666666666 – Leacock và Chodorow: 2.538973871058276 Độ đo 2 có sử dụng thông tin về nút cha bao hàm hai nút con để tăng độ tương đồng lên, thể hiện đúng mối quan hệ ngữ nghĩa của cặp từ. Tuy nhiên, trong thí nghiệm chúng tôi vẫn cho chạy trên cả ba để quan sát sự khác biệt giữa chúng. 4 Thí nghiệm 4.1 Thí nghiệm 1 Thí nghiệm tiến hành với giả định các từ vựng trong một lớp đều cùng thuộc 1 nhãn Wordnet chung. Mỗi từ vựng có khả năng thuộc nhiều nhãn, do đó sau khi so khớp hoàn toàn, chúng tôi trông đợi 1 lớp của LLOCE sẽ tương ứng ít nhất một nhãn WordNet. Tuy nhiên khi tiến hành thực nghiệm thì không có lớp nào thỏa điều kiện(nhãn ’buttocks.n.01’ lớn nhất với 11 lần xuất hiện, nhưng số từ trung bình trong 1 lớp là 13.17). Do đó chúng tôi triển khai theo hướng khác:
  • 6. 6 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet Hình 2: Cây biểu diễn mối quan hệ giữa các nút khi thay đổi giá trị 1. Ghi nhận mọi nhãn có trong 2419 lớp. Lập bảng tần suất xuất hiện của nhãn trong 1 lớp, sắp xếp theo thứ tự giảm dần. 2. Chỉ ghi nhận những nhãn có tần suất lớn hơn 1(cùng từ loại với lớp). 3. Với những lớp không có nhãn có tần suất lớn hơn 1, thì lấy tất cả nhãn có thể(cùng từ loại với lớp). 4.2 Thí nghiệm 2 Nhãn của các từ trong môt lớp có thể khác nhau, nhưng khả năng chúng cùng là con của một nhãn tổng quát hơn là khả thi. Dựa trên đặc trưng cấu trúc cây, việc tìm đường đi giữa 2 nút là dễ dàng. Chúng tôi cho biến ε (đại diện số nhánh phải đi từ nhãn A đến nhãn B)) dao động từ 0 đến 37, trong đó 0 tham chiếu đến chính nó và 37 là đường đi dài nhất có thể giữa 2 nút (‘rock_hind.n.01’ là nhãn sâu nhất có khoảng cách đến nút gốc là 19). Hình 2 thể hiện ảnh hướng của ε đến quan hệ các nút. Khảo sát sự thay đổi số lượng nhãn theo ε, chúng tôi sẽ chọn giá trị tốt nhất và đánh giá kết quả. Thí nghiệm này chỉ áp dụng được cho các lớp có từ loại danh từ và động từ. Ngoại lệ khi ε = 0, nhãn của tính từ và trạng từ vẫn được tính. 4.3 Thí nghiệm 3 Thí nghiệm 3 là dạng mở rộng của thí nghiệm 2 khi dùng các độ đo hỗn hợp để đánh giá sự tương đồng giữa các nhãn. Mỗi độ đo thực nghiệm 10 lần, mỗi lần chạy chọn top giá trị cao nhất từ 1 đến 10, sau đó tính trung bình để tìm giá trị ngưỡng. Dựa trên kết quả, các cặp nhãn nào có độ đo tương đồng lớn hơn ngưỡng được coi là hợp lệ và xem như các nhãn đặc trưng cho lớp đó. 5 Kết quả và thảo luận Chúng tôi đề xuất khái niệm độ bao phủ để đánh giá yếu tố "hạn chế khả năng có nhãn chung". Chẳng hạn số lượng nhãn ánh xạ được là 82.611, số loại nhãn
  • 7. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 7 là 31.348 thì độ bao phủ được tính như sau: 82.611−31.348 31348 ∗ 100 164%. Do đó độ bao phủ lý tưởng chúng ta nhắm đến là 0%. Bảng 1 cho thấy sự thay đổi đáng kể khi bổ sung điều kiện lấy toàn bộ nhãn khi không có nhãn nào có tần suất lớn hơn 1. Nếu chỉ lấy bộ nhãn xuất hiện nhiều hơn 1 lần, số lượng lớp LLOCE rỗng(không có nút ánh xạ tương ứng) chiếm đến 24% so với tổng số lớp được xét. Tuy nhiên khi cho các lớp rỗng được lấy bất kì nhãn phát sinh, 100% lớp chứa nhãn, độ bao phủ khi giao các bộ nhãn tăng 7%, số loại tập đồng nghĩa cũng tăng mạnh. Do đó, nếu xét về mặt số tập đồng nghĩa thu được, độ bao phủ và số lớp có nhãn, phương pháp thực hiện đầy đủ 3 bước của thí nghiệm 1 tỏ ra ưu thế nhất. Bảng 1: Thống kê số lượng và loại nhãn WordNet (synset) bằng phương pháp xây dựng bảng tần suất. Tổng synset Loại synset Độ bao phủ Lớp có nhãn Liệt kê toàn bộ 82.611 31.348 164% 2.419 Chỉ lấy synset tần suất >1 6.501 5.080 28% 1.838 Lấy synset tần suất = 1 khi lớp rỗng 16.836 12.460 35% 2.419 Bảng 2: Thay đổi về số tập đồng nghĩa theo giá trị ε(Epsilon). Epsilon Synset Loại synset Lớp Epsilon Synset Loại synset Lớp 1 15.233 10.935 2.110 8 53.761 23.933 2.304 2 24.575 15.560 2.234 12 59.042 25.204 2.312 3 31.435 17.772 2.260 18 59.872 25.426 2.313 4 37.335 19.498 2.279 19 59.883 25.426 2.313 5 42.797 21.050 2.290 20 59.886 25.428 2.313 6 47.328 22.284 2.296 30 59.890 25.428 2.313 7 50.919 23.210 2.299 37 59.890 25.428 2.313 Bảng 2 cho thấy sự chững lại của số lượng các tập đồng nghĩa, loại tập và lớp khi ε tiến về 37. Chúng tôi cho rằng kết quả là hợp lý nhất khi chọn thời điểm mà một trong ba yếu tố quan tâm (số tập nhãn, loại nhãn và số lớp không rỗng) bắt đầu ngưng thay đổi, tức khi ε = 18. Đối với các phương pháp sử dụng độ đo, chúng tôi chọn kết quả đạt được từ giá trị ngưỡng, thể hiện ở dòng cuối Bảng 3. Nhận thấy khi số lượng giá trị lấy càng nhiều, giá trị đo trung bình của Wu và Palmer lại tăng lên. Điều này có thể giải thích dựa trên yếu tố lso(ci, cj) trong công thức 2, cho thấy khả năng cao các nhãn đa phần có quan hệ cha con, do đó khi chọn đến top 10, các cặp nhãn này giữ độ tương đồng trung bình ít dao động, đồng thời triệt tiêu ảnh hưởng của các cặp có độ tương đồng thấp.
  • 8. 8 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet Bảng 3: Tính giá trị trung bình của các độ đo và giá trị ngưỡng để lọc Đường đi ngắn nhất Wu và Palmer Leacock và Chodorow Top Giá trị đo trung bình Top Giá trị đo trung bình Top Giá trị đo trung bình 1 0,0758 1 0,1352 1 0,6812 2 0,0761 2 0,136 2 0,6812 3 0,0749 3 0,1354 3 0,6904 4 0,0743 4 0,1353 4 0,697 5 0,074 5 0,1357 5 0,7061 6 0,0735 6 0,1358 6 0,7119 7 0,0731 7 0,1362 7 0,719 8 0,0727 8 0,1365 8 0,7248 9 0,0723 9 0,1367 9 0,731 10 0,072 10 0,137 10 0,7366 Giá trị ngưỡng 0,07387 0,13598 0,70732 Synset Lớp có nhãn Synset Lớp có nhãn Synset Lóp có nhãn 71.546 2.319 70.981 2.318 69.854 1.994 Bảng 4: Bộ nhãn WordNet tương ứng với lớp A1 của LLOCE với các phép ánh xạ khác nhau Tập synset WordNet tương ứng Lấy synset > 1 exist.v.01, animize.v.01,animate.v.04, inspire.v.01, enliven.v.02 (5) Lấy synset = 1 khi lớp rỗng exist.v.01, animize.v.01,animate.v.04, inspire.v.01, enliven.v.02 (5) Epsilon = 18 exist.v.01, animize.v.01,animate.v.04, inspire.v.01, enliven.v.02, embody.v.02, make.v.03, create.v.03, create.v.05 (9) Đường đi ngắn nhất exist.v.01, exist.v.02, animize.v.01, animate.v.04, inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03, create.v.02, create.v.03, create.v.04, create.v.05, be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10, be.v.11, be.v.12,constitute.v.01, produce.v.02, equal.v.01, cost.v.01 (24) Wu và Palmer exist.v.01, exist.v.02, animize.v.01, animate.v.04, inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03, create.v.02, create.v.03, create.v.04, create.v.05, be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10, be.v.11, be.v.12,constitute.v.01, produce.v.02, equal.v.01, cost.v.01 (24) Leacock và Chodorow exist.v.01, exist.v.02, animize.v.01, animate.v.04, inspire.v.01 ,enliven.v.02, embody.v.02, make.v.03, create.v.02, create.v.03, create.v.04, create.v.05, be.v.01 , be.v.02, be.v.03, be.v.05, be.v.08, be.v.10, be.v.11, be.v.12,constitute.v.01, produce.v.02, equal.v.01, cost.v.01 (24)
  • 9. Xây Dựng Ánh Xạ Nhãn Ngữ Nghĩa từ LLOCE sang WordNet 9 Bảng 5: So sánh chỉ số giữa 3 thí nghiệm Thí nghiệm Synset Loại synset Độ bao phủ Lớp có nhãn 1 - Lấy synset tần suất 1 khi lớp rỗng 16.836 12.460 35% 2419 2 - Epsilon = 12 59.872 25.426 135% 2.313 3 - Đường đi ngắn nhất 71.546 31.348 128% 2.319 3 - Wu và Palmer 70.981 31.348 126% 2.318 3 - Leacock và Chodorow 69.854 31.348 123% 1.994 Mối quan hệ cha con này cũng được chứng thực một lần nữa ở thí nghiệm 2: số lượng nhãn phát sinh tăng ít dần khi giá trị ε càng lớn, trong đó ε cho thấy cách biệt về vị trí giữa các nút trong WordNet. Hình 3: Biểu đồ so sánh sự phân bố số lượng nút của WordNet theo độ sâu giữa các phương pháp thực nghiệm Tổng hợp từ các kết quả trên, Bảng 5 cho thấy phương pháp lập bảng tần suất mặt dù số lượng nhãn phát sinh ít hơn các phương pháp còn lại, nhưng khi xét đến khía cạnh độ bao phủ và số lớp khác rỗng, nó cho thấy kết quả tốt nhất. Chúng tôi cũng kiểm tra phân bố của các nhãn ở mỗi phương pháp, hình 3 cho thấy chúng đều có cùng một hình mẫu như nhau, chỉ khác biệt so với WordNet gốc ở hai nút có độ sâu 8 và 9. Bài báo đã thống kê và tạo các tập nhãn ánh xạ từ LLOCE sang WordNet, cố gắng giải quyết 3 vấn đề đặt ra ở đầu bài là các nhãn trong lớp có độ tương đồng nhất định về nghĩa, độ bao phủ nhãn ở mức chấp nhận được và phân bố nhãn tương quan với WordNet gốc. Theo hiểu biết hiện tại, chúng tôi không tìm
  • 10. 10 Xây dựng Ánh xạ Nhãn Ngữ nghĩa từ LLOCE sang WordNet thấy nghiên cứu nào tương tự nên chưa có sự so sánh trực quan. Ngoài ra, ta cần tiến hành thí nghiệm ánh xạ với các loại nhãn khác như CORELEX để có cái nhìn tổng quan về tính chất của từng bộ nhãn và chọn nhãn sao cho phù hợp với mục đích sử dụng của ngữ liệu. Trong tương lai, cần đến sự xác thực từ phía ngôn ngữ học để khảo sát lại các bộ nhãn phát sinh như trong Bảng 4, đồng thời cần kiểm tra độ sâu của nhãn trong WordNet để đảm bảo tính khái quát cũng như chi tiết để khử nhập nhằng. Nếu được chấp nhận, gán nhãn ngữ liệu sẽ thuận lợi và đỡ phức tạp hơn trước đây rất nhiều[8]. 6 Kết luận Xuất phát từ ý tưởng xây dựng bảng ánh xạ từ lớp của LLOCE sang nhãn WordNet, chúng tôi đã áp dụng 3 phương pháp khác nhau dựa trên tính chất cây của WordNet và các độ đo tương đồng. Khi xét đến số lượng và loại nhãn phát sinh, phương pháp lập bảng tần suất nhãn thể hiện nhiều ưu điểm nhất. Kết quả thu được chỉ dựa trên thống kê tự động, do đó cần sự can thiệp của ngôn ngữ học vào dữ liệu để kiểm tra tính đúng đắn. Nếu đạt yêu cầu, đây sẽ là công cụ hiệu quả cho việc gán nhãn ngữ nghĩa, phục vụ cho các ứng dụng nâng cao hơn của Xử lý Ngôn ngữ tự nhiên sau này. Tài liệu 1. Princeton University "About WordNet." WordNet. Princeton University. 2010. http://wordnet.princeton.edu. 2. Tom Mc Arthur. Longman Lexicon Of Contemporary English. 1997. 3. Paul Buitelaar. Corelex: Systematic polysemy and underspecifica- tion. http://www.cs.brandeis.edu/~paulb/CoreLex/corelex.html,http: //www.cogsci.princeton.edu/~wn, February 1998. 4. Junzhong Gu Lingling Meng, Runqing Huang. A review of semantic similarity mea- sures in wordnet. International Journal of Hybrid Information Technology, January 2013. 5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. Five papers on WordNet. Technical Report CSL Report 43, Cognitive Science Laboratory. Prince- ton University, 1990. 6. George A. Miller. Wordnet: A lexical database for english. Commun. ACM, 38(11):39–41, November 1995. 7. Peter Oram. Wordnet: An electronic lexical database. christiane fellbaum (ed.). cambridge, ma: Mit press, 1998. pp. 423. Applied Psycholinguistics, 22:131–134, 3 2001. 8. Tommaso Petrolito and Francis Bond. A survey of wordnet annotated corpora. In Heili Orav, Christiane Fellbaum, and Piek Vossen, editors, Proceedings of the Seventh Global Wordnet Conference, pages 236–245, Tartu, Estonia, 2014. 9. A.M. Turing. Computing machinery and intelligence. Mind: A Quarterly Review of Psychology and Philosophy, October 1950.