Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Xây dựng hệ thống hỗ trợ điểm danh sinh viên trường Đại học Dân lập Hải Phòng, cho các bạn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Xây dùng website quản lý nhà hàng, cho các bạn làm luận văn tham khảo
Đồ án tốt nghiệp đại học về quản lý điểm trường trung học phổ thông.
Để có bản full thì các bạn hãy liên hệ với mình nhé
yahoo: phamtoan1804
facebook: https://www.facebook.com/phamtoan1804
Nghiên cứu quý 3 của công ty GMO-Z.com VietnamLab.
Chủ đề: Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗi chính tả trong tiếng Việt (Spell Correction)
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Xây dựng hệ thống hỗ trợ điểm danh sinh viên trường Đại học Dân lập Hải Phòng, cho các bạn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Xây dùng website quản lý nhà hàng, cho các bạn làm luận văn tham khảo
Đồ án tốt nghiệp đại học về quản lý điểm trường trung học phổ thông.
Để có bản full thì các bạn hãy liên hệ với mình nhé
yahoo: phamtoan1804
facebook: https://www.facebook.com/phamtoan1804
Nghiên cứu quý 3 của công ty GMO-Z.com VietnamLab.
Chủ đề: Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗi chính tả trong tiếng Việt (Spell Correction)
Liên hệ page để tải tài liệu
https://www.facebook.com/garmentspace
My Blog: http://congnghemayblog.blogspot.com/
http://congnghemay123.blogspot.com/
Từ khóa tìm kiếm tài liệu : Wash jeans garment washing and dyeing, tài liệu ngành may, purpose of washing, definition of garment washing, tài liệu cắt may, sơ mi nam nữ, thiết kế áo sơ mi nam, thiết kế quần âu, thiết kế veston nam nữ, thiết kế áo dài, chân váy đầm liền thân, zipper, dây kéo trong ngành may, tài liệu ngành may, khóa kéo răng cưa, triển khai sản xuất, jacket nam, phân loại khóa kéo, tin học ngành may, bài giảng Accumark, Gerber Accumarkt, cad/cam ngành may, tài liệu ngành may, bộ tài liệu kỹ thuật ngành may dạng đầy đủ, vật liệu may, tài liệu ngành may, tài liệu về sợi, nguyên liệu dệt, kiểu dệt vải dệt thoi, kiểu dệt vải dệt kim, chỉ may, vật liệu dựng, bộ tài liệu kỹ thuật ngành may dạng đầy đủ, tiêu chuẩn kỹ thuật áo sơ mi nam, tài liệu kỹ thuật ngành may, tài liệu ngành may, nguồn gốc vải denim, lịch sử ra đời và phát triển quần jean, Levi's, Jeans, Levi Straus, Jacob Davis và Levis Strauss, CHẤT LIỆU DENIM, cắt may quần tây nam, quy trình may áo sơ mi căn bản, quần nam không ply, thiết kế áo sơ mi nam, thiết kế áo sơ mi nam theo tài liệu kỹ thuật, tài liệu cắt may,lịch sử ra đời và phát triển quần jean, vải denim, Levis strauss cha đẻ của quần jeans. Jeans skinny, street style áo sơ mi nam, tính vải may áo quần, sơ mi nam nữ, cắt may căn bản, thiết kế quần áo, tài liệu ngành may,máy 2 kim, máy may công nghiệp, two needle sewing machine, tài liệu ngành may, thiết bị ngành may, máy móc ngành may,Tiếng anh ngành may, english for gamrment technology, anh văn chuyên ngành may, may mặc thời trang, english, picture, Nhận biết và phân biệt các loại vải, cotton, chiffon, silk, woolCÁCH MAY – QUY CÁCH LẮP RÁP – QUY CÁCH ĐÁNH SỐTÀI LIỆU KỸ THUẬT NGÀNH MAY –TIÊU CHUẨN KỸ THUẬT – QUY CÁCH ĐÁNH SỐ - QUY CÁCH LẮP RÁP – QUY CÁCH MAY – QUY TRÌNH MAY – GẤP XẾP ĐÓNG GÓI
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn thạc sĩ ngành toán ứng dụng với đề tài: Mô hình đồ thị luồng, luồng liên kết và chỉ rõ mối quan hệ với đồ thị, cho các bạn làm luận văn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn thạc sĩ ngành công nghệ thông tin với đề tài: Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám, cho các bạn làm luận văn tham khảo
Download báo cáo kết quả nghiên cứu, ứng dụng sáng kiến kinh nghiệm với đề tài: Một số phương pháp giải hệ phương trình đại số, cho các bạn làm luận văn tham khảo
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Dự đoán liên kết trong đồ thị tri thức
1. DỰ ĐOÁN LIÊN KẾT TRÊN
ĐỒ THỊ TRI THỨC
Hoàng Minh Thanh (18424062)
Phan Minh Tâm (18424059)
GV hướng dẫn : ThS. Lê Ngọc Thành
GV phản biện : TS. Bùi Tiến Lên
2. Nội dung trình bày
1. Giới thiệu bài toán
2. Công trình liên quan
3. Mô hình dựa trên luật và cải tiến
4. Mô hình dựa trên học sâu
5. Thực nghiệm
6. Kết luận
7. Tài liệu tham khảo
1
4. Đồ Thị Tri Thức (Knowledge Graph)
Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là một cách biểu diễn thông tin có cấu trúc trong thế
giới thực
Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là gì ?
3
5. Ví dụ về một thông tin trong 𝒢 𝑘𝑛𝑜𝑤
Donald TrumpMelania Trump
wife_of
Melania_Trump wife_of Donald_Trump
Donald_Trump president_of U.S
Jeff_Bezos richest_of U.S
Tom_Cruise born_in New_York
New_York state_of U.S
Tesla_Inc founded_in U.S
Melania_Trump first_lady U.S
Mỗi cạnh trong 𝒢 𝑘𝑛𝑜𝑤
được lưu trữ xuống
từng dòng dữ liệu
4
6. Biểu diễn tri thức
Donald
Trump
Melania
Trump
wife_of
entitytail
entityhead
relation
5
7. Đồ Thị Tri Thức (Knowledge Graph)
𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝑅, 𝐸 [1]
Biểu diễn đồ thị tri thức
entity1 entityhead1 entitytail1
entityhead2 entitytail2
entity2
entityn
entityhead-n entitytail-n
relation1
relation2
relationn
𝐸 ⊆ 𝑉 × 𝑅 × 𝑉𝑅𝑉
6
8. Google’s Knowledge Graph
Giới thiệu năm 2012 với 500 triệu
thực thể, và 3.5 tỷ sự kiện.
Đến nay tổng cộng đã tăng lên
khoảng 5 tỷ thực thể và 500 tỷ sự
kiện[2]
5 tỷ thực thể
500 tỷ sự kiện[2]
7
9. Dự đoán liên kết
Dữ liệu mất
mát, không
đầy đủ
Khai thác
thông tin
dựa trên
𝑮 𝒌𝒏𝒐𝒘
Kích thước 𝒢 𝑘𝑛𝑜𝑤
50 triệu thực thể
500 triệu sự kiện[5]
Kích thước 𝒢 𝑘𝑛𝑜𝑤
1 tỷ thực thể
70 tỷ sự kiện[5]
8
10. Minh họa về dự đoán liên kết
entitytail?
relation
?entityhead
relation
source target
relation
9
15. Phương pháp Any BURL[13]
AnyBURL (Anytime Bottom Up Rule
Learning[13])
Phương pháp này xem đồ thị tri thức là một
ngôn ngữ logic và được định nghĩa như sau:
Một đồ thị tri thức 𝓖 𝒌𝒏𝒐𝒘 được định nghĩa trên một
bộ từ vựng ⟨𝐂, 𝐑⟩ trong đó 𝐂 là tập hợp các hằng số
và 𝐑 là tập hợp các vị từ nhị phân. Khi đó,
𝓖 𝒌𝒏𝒐𝒘 = r a, b r ∈ 𝐑; a, c ∈ 𝐂} là tập hợp sự kiện.
a, b tương ứng với một đỉnh trong đồ thị, r tương
ứng với nhãn hay quan hệ giữa 2 đỉnh.
14
16. Phương pháp Any BURL[13]
Phương pháp này xem đồ thị tri thức là một
ngôn ngữ logic và được định nghĩa như sau:
Khi lấy mẫu một đường đi bất kì trên đồ thị có độ dài
lớn hơn 2 ta có 1 được một luật Horn với vị từ nối
liền (∧).
Ví dụ: Khi ta lấy mẫu một đường dẫn
𝑠𝑝𝑒𝑎𝑘𝑠 𝑒𝑑, 𝑑 , 𝑙𝑖𝑣𝑒 𝑒𝑑, 𝑛𝑙 , 𝑙𝑎𝑛𝑔(𝑛𝑙, 𝑑)
ta có được 1 luật sau:
speaks(ed, d) lives ed, nl lang(nl, d)
Nguồn ảnh [3]
Vậy làm như thế nào ta có
thể khái quát hóa luật này
trên đồ thị ?
15
17. Phương pháp Any BURL[13]
Để có thể khái quát hóa các luật được tìm thấy
sau khi lấy mẫu đường đi chúng ta sẽ thay các
đỉnh thành các biến.
Chúng ta sẽ không học tất cả các luật Horn mà
chỉ học 3 loại sau đây như được đề xuất bởi
nhóm tác giả Christian Meilicke.
Nguồn ảnh[3]
16
18. Phương pháp Any BURL[13]
Ví dụ ta có các quy tắc sau
𝑠𝑝𝑒𝑎𝑘𝑠(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝑌) (1)
𝑙𝑖𝑣𝑒𝑠_𝑖𝑛_𝑐𝑖𝑡𝑦(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝐴), 𝑤𝑖𝑡ℎ𝑖𝑛(𝑌, 𝐴) (2)
𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)
𝑝𝑟𝑜𝑓𝑒𝑠𝑠𝑖𝑜𝑛(𝑋, 𝑎𝑐𝑡𝑜𝑟) ← 𝑎𝑐𝑡𝑒𝑑_𝑖𝑛(𝑋, 𝐴) (4)
𝑩
𝑼 𝒄
𝑼 𝒅 17
19. Phương pháp Any BURL
Khi tạo ra một luật chúng sẽ dùng thống kê
để tính toán 1 điểm gọi là độ tin cậy.
Ví dụ ta có quy tắc sau:
𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)
Chúng ta sẽ đếm trên đồ thị tất cả các đường đi
thỏa 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) với 𝐴, 𝑋 là bất kì
một đỉnh, hay thực thể nào gọi là 𝑆
Chúng ta sẽ đếm trên đồ thị tất cả các đường đi thỏa
𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒)
với 𝐴, 𝑋 là bất kì một đỉnh, hay thực thể nào gọi là 𝑆′
Confident = 𝑆′ / 𝑆
18
23. Phương pháp dựa trên nhúng
Nhúng đồ thị (Graph Embedding)
Định nghĩa[7] :
Cho 𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝐸 và số chiều xác định trước d
𝑑 ≪ 𝑉 , vấn đề nhúng đồ thị là chuyển 𝒢 𝑘𝑛𝑜𝑤
thành một không gian d-chiều sao cho thuộc tính
của đồ thị được lưu giữ càng nhiều càng tốt.
Nhúng đồ thị là quá trình biến đổi các đặc
trưng của đồ thị sang một không gian khác
có số chiều thấp.
Quá trình nhúng đồ thị có thể hiểu tường
minh là quá trình ánh xạ các đặc trưng để
biểu diễn thành giá trị các vector 22
24. Các phương pháp nhúng 𝒢 𝑘𝑛𝑜𝑤
Nhúng đồ thị (Graph Embedding)
Dựa trên phương pháp thiết lập bài toán
nhưng đồ thị có thể chia nhúng đồ thị thành
các loại sau :
Nhúng cạnhNhúng đỉnh Nhúng kết hợp Nhúng toàn bộ
đồ thị
Survey of Graph Embedding Problems, Techniques and Applications [7]
23
25. Mô hình nhúng TransE
Translating Embeddings (TransE)
Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
Ý tưởng cốt lõi là xem 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 là phép tịnh tiến
của các vector nhúng sao cho
𝑒ℎ𝑒𝑎𝑑 + 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 ≈ 𝑒𝑡𝑎𝑖𝑙
head tail
relation
0.6
0.2
0.8
0.2
0.3
-0.4
0.8
0.4
0.4
+ ≈ Din
24
26. Mô hình nhúng TransE
Thuật toán
Chuẩn hóa trong loop
để đạt kết quả tốt hơn
Đô sai khác giữa bộ chuẩn
và bộ không chuẩn
+
25
27. Mô hình nhúng TransE
TransE (Translating Embeddings)
Ví dụ :
Nếu d - d' > 0. Tiến hành cập nhật lại trọng số cho h, r, t.
vector khởi tạo ban đầu vector sau khi tịnh tiến
26
29. Mô hình nhúng dựa trên học sâu
Tối ưu hàm mục tiêu dựa trên một lượng
lớn dữ liệu
Data 𝑓 𝑥
Class 1
Class 2
Class n
ei
e1
e3
?e2
r
𝒢 𝑘𝑛𝑜𝑤
?
?
?
𝑟𝑎𝑛𝑘1
𝑟𝑎𝑛𝑘2
𝑟𝑎𝑛𝑘3
h t
r
h t
r
h tS r
h t’
r
h t’
r
h’ t
r
S’
𝑓 𝑥
h r t
h r t
h r t
h r t’
h r t’
h’ r t
1valid
-1invalid
score
28
30. Phương pháp KBGAT
Datasets
TransE Entity Embedding
Relation Embedding
GAT’ ConvKB
Rank
Entity Embedding
Relation Embedding
weight
Biểu diễn các đặc
trưng lên không gian
Học được các đặc
trưng lân cận của các
thực thể và quan hệ
Khái quát hóa quá
trình biến đổi đặc
trưng
ℒ =
𝑡 𝑖𝑗∈𝑆 𝑡 𝑖𝑗
′
∈𝑆′
max{𝑑 𝑡 𝑖𝑗
− 𝑑 𝑡 𝑖𝑗
′ + 𝛾, 0}
ℒ =
𝑡 𝑖𝑗∈𝑆
log 1 + exp 𝑙 𝑡 𝑖𝑗
. 𝑓 𝑡𝑖𝑗 +
𝜆
2
𝐖 2
2
với 𝑙 𝑡 𝑖𝑗
=
1 ∶ 𝑡𝑖𝑗 ∈ 𝑆
−1 ∶ 𝑡𝑖𝑗 ∈ 𝑆′
Lấy phần dương
Margin
Tham số chuẩn hóa
29
31. Cơ chế chú ý
Cơ chế chú ý được phát minh năm 2014[6] và được phổ biến bằng
mô hình Transformer năm 2017
Apple is good for your health
𝑥1 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5
Apple is good in its design
0.6 0.2 0.8
0.6
0.2
0.8
0.2
0.3
0.1
0.9
0.1
0.8
0.3
0.1
0.4
0.4
0.1
0.3
0.5
0.3
0.7
w1, 𝑤2, 𝑤3, 𝑤4, 𝑤5, 𝑤6 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( , )
Query Q
Keys K
0.6
0.2
0.8
0.2
0.3
0.1
0.9
0.1
0.8
0.3
0.1
0.4
0.4
0.1
0.3
0.5
0.3
0.7
Values V
healthApple is goodfor your
= w1 + 𝑤2 + 𝑤3 + 𝑤4 + 𝑤5 + 𝑤6
0.6
0.2
0.8
Mục tiêu của cơ chế chú ý là tính được sự quan trọng của
một vector nhúng này đối với những vector nhúng khác
bằng hệ số đã chuẩn hóa để có thể so sánh với nhauHệ số chuẩn
hóa
Hệ số chuẩn hóa
30
32. Cơ chế chú ý đa đỉnh
Thuộc các lớp khác nhau
⇒ 𝑆𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛
Graph Attention Networks – GAT[12]
31
33. Graph Attention Networks – GAT[12]
Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..)
32
34. Áp dụng cơ chế chú ý vào 𝒢 𝑘𝑛𝑜𝑤
Self-Attention (NLP) Mask-attention in GAT (𝒢 𝑘𝑛𝑜𝑤)
Linear
transformation
Q = K = X W1; V = X W2 ℎ𝑖 = W1. 𝑒𝑖
Compute attention
coefficients
softmax
Q. KT
𝑑 𝑘
αij =
softmax LeakyRELU W2[hi||hj]
Attention softmax
XW1. XW1
T
𝑑 𝑘
XW2
𝑒𝑖
′
= 𝜎
𝑗∈𝒩 𝑖
αij hj
Multihead-attention
with Concatenate
∥ℎ=1
𝑁ℎ𝑒𝑎𝑑
softmax
XW1. XW1
T
𝑑 𝑘
XW2
𝑒𝑖
′
= ∥ℎ=1
𝑁ℎ𝑒𝑎𝑑
𝜎
j∈𝒩i
αij
h
𝐖h
ej
Multihead-attention
with Average
𝑒𝑖
′′
=
𝜎
1
𝑁ℎ𝑒𝑎𝑑
h=1
𝑁ℎ𝑒𝑎𝑑
j∈𝒩i
αij
h
𝐖h
e′j
33
35. Mô hình KBGAT[11]
Mask Attention with
Concatenate
Entity Embedding
Entity Embedding
Entity Embedding
Entity Embedding
Entity Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Residual learning
Mask Attention with
Average
34
36. Cải tiến của KBGAT[11]
Cải tiến của KBGAT :
Ghép thêm thông tin 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛
𝑡𝑖𝑗
𝑘
= W1. [𝑒𝑖 ||𝑒𝑗 ||𝑟𝑘]
Tính cộng thông tin nhop
𝑒𝑖 = (𝑒𝑖 || 𝑒 𝑛ℎ𝑜𝑝
)
𝑟𝑘 = (𝑟𝑘||𝑒 𝑛ℎ𝑜𝑝 )
ei
e1
e2
e3
e4 e6
e5
𝑒1ℎ𝑜𝑝 𝑒2ℎ𝑜𝑝
Ntraining
Concath,t,r
35
38. Cài đặt
Chiến lược tìm siêu tham số tối ưu là tìm
kiếm lưới (grid search)
Sử dụng Adam để tối ưu (quán tính có ma
sát)
Google Colab Pro 37
8-15
tiếng/1
datasets
40. Datasets
Có bốn bộ dữ liệu tìm hiểu chia thành hai
nhóm chính bao gồm Freebase và
Wordnet
WN18RR, FB15k-237 được lược bỏ các quan hệ
trùng hoặc nghịch đảo từ WN18 và FB15k để
tránh các dữ liệu dễ đoán
Test Leakage Đa lĩnh vực Đặc trưng
WN18 Có Có ít loại quan hệ; Dự liệu chỉ thuộc
các từ vựng, Nhiều sự kiện lặp lạiWN18RR
FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ
liệu thuộc nhiều lĩnh vực khác nhau,
và ít lặp lạiFB15k-237 Có
39
41. Thông tin tập dữ liệu
Các tập dữ liệu thực nghiệm :
40
42. Tập dữ liệu FreeBase
Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A.
Bordes[6], trích xuất từ bộ dữ liệu Wikilinks database
Mỗi đỉnh là một đối tượng trong Wikipedia, mỗi quan hệ là một
đường dẫn
Ví dụ về một dòng dữ liệu trong Freebase
41
43. Tập dữ liệu WordNet
Bộ dữ liệu này được giới thiệu bởi nhóm tác giả
Bordes, Antoine được trích xuất từ WordNet
Mỗi đỉnh là một từ vựng, quan hệ là ý nghĩa giữa hai
từ
Ví dụ về một dòng dữ liệu trong WordNet
42
44. Phương pháp đánh giá
Có ba độ đo phổ biến gồm : H@K, MR,
MRR
𝐻@𝐾 =
𝑞∈𝑄:𝑟𝑎𝑛𝑘 𝑞 ≤𝐾
𝑄
; 𝐾 ∈ {1,3, 10}
𝑀𝑅 =
1
𝑄 𝑞∈𝑄 𝑟𝑎𝑛𝑘(𝑞)
𝑀𝑅𝑅 =
1
𝑄 𝑞∈𝑄
1
𝑟𝑎𝑛𝑘(𝑞)
43
45. Kết quả thực nghiệm
Kết quả trên tập dữ liệu Freebase[13]
Kết quả trên tập dữ liệu WordNet[13]
44
46. Kết quả phần cải tiến Any BURL
Kết quả chiến lược thêm tri thức mới vào đồ thị
Kết quả độ tin cậy số luật sinh ra
Tăng MR và MRR
trung bình khoảng
1.05%
Do sinh ra được
các luật có
confident rất cao
45
47. Mã nguồn và quá trình thực hiện
AnyBURL :
Mã nguồn public :
https://github.com/MinhTamPhan/mythesis
KBGAT :
Mã nguồn github (Graph Collaborate
Attention Network) :
https://github.com/hmthanh/GCAT
Public Google Colab :
https://colab.research.google.com/drive/1Nu
hMHYywKrKyqEe_nhjzBVRp3AbQf73g
46
49. Kết luận
Mô hình dựa trên luật Mô hình dựa trên học sâu
Chi phí Thời gian huấn luyện vượt
trội, chi phí tính toán nhỏ
Thời gian rất lâu, hàng chục tiếng
Chi phí tính toán cực lớn
Thời gian dự
đoán
Lâu hơn do phải duyệt qua
tất cả các luật
Nhanh hơn do dựa trên các trọng
số của mô hình để tính xác xuất
Dữ liệu Học có thể lý giải được Học không thể lý giải (do các lớp
hidden layer)
Thêm tri thức Không ảnh hưởng nhiều
khi thêm tri thức mới
Phải huấn luyện lại từ đầu nếu
thêm tri thức mới
Đặc điểm học Chỉ học được dựa trên tần
xuất của dữ liệu
Học được các cấu trúc phức tạp
mà không cần biết trước cấu trúc
So sánh hai phương pháp
48
50. Hướng phát triển
Phương pháp dựa trên luật :
Gần đây nhóm nghiên cứu của tác giả C. Meilicke
đã nghiên cứu một phương pháp dựa
trên Reinforced learning nhằm tối ưu hóa lợi ích
quá trình sinh ra luật
Phương pháp dựa trên học sâu :
Nhóm nghiên cứu về cải tiến của cơ chế chú ý
(Collaborate Instead of Concatenate[8]) và mô hình
CapsE
Dựa trên những cải tiến đáng kể của mô hình
AnyBURL, và mô hình GCAT đang phát triển, nhóm có
dự định public papers trong tương lai gần
49
[Thanh-30s] Chào thầy và các bạn, hôm nay bọn em sẽ trình bày về luận văn về dự đoán liên kết trong đồ thị tri thức
Nhóm bọn em gồm 2 hai thành viên là Hoàng Minh Thanh
và Phan Minh Tâm
Ghi giao viên phản biện, gv hướng dẫn
Giới thiệu bài toán
Các công trình liên quan có những hướng giải quyết nào
Chọn cái nào để làm thì giải thích
[Tâm-20s] Nội dung chính của luận văn bao gồm :
1. Đầu tiên chúng em giới thiệu về bài toán về đồ thị tri thức
2. Sau đó chúng em nêu ra vấn đề của đồ thị tri thức từ đó trình bày về vấn đề cần hoàn thiện đồ thị tri thức
3. Nhóm chúng em tìm hiểu về hai nhóm phương pháp gồm dựa trên luật và dựa trên học sâu
4. Cuối cùng chúng em sẽ trình bày kết quả thực nghiệm và kết luận
[Tâm-1m30s] Giới thiệu bài toán
Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube.
Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức.
Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết.
=> Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
[Tâm-1m30s] Đầu tiền chúng ta cần phải hiểu đồ thị tri thức là gì ?
Đồ thị tri thức là một cách biểu diễn thông tin có cấu trúc trong thế giới thực
Như một ví dụ ở đây các đỉnh trong đồ thị tri thức được nối với nhau bằng một nhãn thể hiện quan hệ giữa chúng.
Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube.
ví dụ như trong đồ thị trên 1 đỉnh ở đây đại điện cho một người hoặc một địa điểm. 2 đỉnh có cạnh nối với nhau nếu chúng có quan hệ với nhau chính là nhãn của cạnh
Các đỉnh còn gọi là các entity các cạnh còn được gọi là quan hệ.
[Tâm-30s] Đây là một ví dụ về tri thức.
Ta biết rằng Melania Trump là vợ của ông tổng thống Mỹ Donald Trump.
Tri thức hay thông tin trên được khái quát hóa thành một quan hệ có hướng giữa các đối tượng
Các tri thức được lưu trữ thành từng dòng trong các tập dữ liệu
[Tâm ]Đồ thị tri thức được biểu điễn ntn ?
biểu điễn bằng danh sách cạnh dỉnh cạnh (nhãn của cạnh)
[Tâm-20s] [Định nghĩa về đồ thị tri thức]
Đồ thị tri thức là một đồ thị có hướng với mỗi đỉnh là một thực thể, mỗi cạnh là một bộ ba bao gồm các sự kiện head relation tail
Nhớ nói thêm ý, đây là đồ thị đồng nhất
[Tâm-30s] Trong thực tế, Google's Knowledge Graph là một ví dụ rõ ràng nhất của nhiệm vụ dự đoán liên kết
Với mỗi đỉnh của đồ thị tri thức là một tri thức, như ví dụ ở đây khi ta nhập một từ nó không chỉ hiện thị một thực thể mà còn có thể
dự đoán được các thực thể có liên quan .
Được giới thiệu năm 2012 với 500 triệu thực thể, và 3.5 tỷ sự kiện. Đến nay đã tăng lên khoảng 5 tỷ thực thể và 500 tỷ sự kiện
[Không nói]=> Từ đây mới dẫn ra là có nhiều dữ liệu như vậy thì mới cần hoàn thiện đồ thị.
Ví dụ khi chúng ta tìm kiếm hcmus thì Trường KHTN là một thực thể, và ta muốn tìm các thực thể có quan hệ liên quan.
(*) :
https://en.wikipedia.org/wiki/Knowledge_Graph
(**)
https://www.cnet.com/news/googles-knowledge-graph-tripled-in-size-in-seven-months/#:~:text=Today%20we%20learned%20just%20how,it%20did%20when%20it%20started.
[Tâm-10s] Với thời đại hiện nay dữ liệu dữ liệu khổng lồ lên hàng terabyte thì đồ thị đến hàng tỷ đỉnh và quan hệ ví dụ như đồ thị quan hệ của FB hay youtube như vậy thì không thể đảm bảo thông tin chính xác.
Cũng như ta muốn khai thác các mối quan hệ giữa các đỉnh hay còn gọi là thực thể trên đồ thị.
Vì vậy nảy sinh ra vấn đề hoàn thiện đồ thị (điền những thôn tin còn thiếu vào đồ thị - thêm các cạnh có cho các thực thể có quan hệ) hay dự đoán liên kết trong đồ thị tri thức.
Nhớ nói ý thu thập từ nhiều nguồn
[Tâm - 10s] Dự đoán liên kết là nhiệm vụ cho đỉnh đầu và quan hệ, ta dự đoán đỉnh kết quả
Hoặc cho quan hệ và đỉnh kết quả, ta muốn dự đoán đỉnh đầu.
Một cách tổng quát, dự đoán liên kết là nhiệm vụ cho trước đỉnh nguồn hay source và quan hệ, ta muốn dự đoán đỉnh đích hay target
Các vấn đề này cũng được nghiên cứu sôi nổi trong thời gian gần đây cùng với sự phát triển của các mô hình học sâu (depth learning) phát triển rất mạnh trong thời gian gần đây.
Cùng với sự phát triển đó chúng em nghiên cứu 1 phương pháp đựa trên học sâu KBGAT để dự đoán liên kết. và một phương pháp dựa trên luật (Rule base) AnyBURL (anytime bottom up rule learning)
phần này tụi em trình bày về các nghiên cúu nổi bật trong thời gian gần đây cùng với các phương pháp nổi bật mà tụi em đã khảo sát được
[Thanh-15s] Trên đây là danh mục các hướng nghiên cứu trên đồ thị tri thức.
Trong các hướng nghiên cứu dựa trên đồ thị tri thức bao gồm có : Học biểu diễn tri thức, thu nhận tri thức, nhận biết tri thức và đồ thị tri thức về thời gian
Lĩnh vực nghiên cứu tri thức của bọn em thuộc nhóm nghiên cứu thu nhận tri thức (Knowledge acquisition)
Và dự đoán liên kết (Link prediction) thuộc nhóm hoàn thiện đồ thị tri thức (Knowledge Graph Completion)
Trong các hướng nghiên cứu ở trên các phương pháp được chia là 4 ngóm chính như rulebase, deep learning, hình học, phân rã ma trận
Trong nhóm các phương pháp này đựa trên khảo sát của chúng em thì 3 nhóm deep learning, hình học, phân rã ma trận thuộc một nhánh gọi là nhúng đồ thị, chuyển đổi đồ thị đã cho vào một không gian có số chiều thấp khoảng 50 đến 100 chiều.
Phương pháp còn lại dựa vào luật sinh ra các luật Horn hợp lệ trên đồ thị.
Hầu hết các phương pháp này đều đưa ra k ứng viên khi đự đoán 1 đỉnh này có cạnh nối tới một đỉnh khác với một số điểm nhất định. Ngoài ra còn có các phương pháp khác ví dụ RuleDik là phương pháp đưa ra đự đoán với một ứng viên sao cho ít sai sót nhất và đúng nhiều nhất. (tối ưu hóa hàm mục tiêu)
[10s ] với cách tiếp cận dựa trên luật tụi em chon pp AnyBURL(anytime bottom up rule learning) : vì mô hình này khá đơn giản và cho kết quả tương đồng với các phương pháp hiện đại với thời gian training vượt trội
Trong hướng tiếp cận deep learning tụi em chọn KBGAT để nghiên cứu vì nhánh nghiên cứu deep learning phát triển rất nhanh gần đây có kết qủa tốt trong các lĩnh vực như sử lý ảnh nhóm mong muốn áp dụng những kết quả này vào đồ thị tri thức
[Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và
a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
[Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và
a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
[Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và
a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
Quy tắc (1) là quy tắcB(quy tắc nhị phân) quy tắc này nói rằng nếu một người (thực thể) X nói nguôn ngữ Y nếu người X sống ở đất nước Y. Rõràng quy tắc này là một quy tắc khái quát miễn khi nào thực thể X cócạnh nối với thực thể Y với nhãn là lives thì có thể kết thêm 1 cạnh với nhãn speaks giữa X và Y.
Quy tắc (2), (3) điều là quy tắcUc,quy tắc (2)nói rằng ngườiXsống ở thành phố Y nếu người X sống ở quốc gia A vàthành phố Y nằm trong quốc gia A,
quy tắc (3) nói rằng nếu một người X là nữ nếu họ kết hôn với một người A và người A có giới tính nam.
quy tắc (3) không tạo thành chu trình trên đồ thị như quy tắc (2) đỉnh(Y) lặp lại ở head atomvà đỉnh cuối cùng trong body atoms.
Quy tắc (4)là quy tắc Ud nói rằng người X là một điễn viên nếu ngườiXđóng trongmột bộ phim A
Đầu vào của thuật toán G know,S,SAT,Q,TS.
Đầu ra là tập hợp R các luật học được.
Trong đó Gknow là một đồ thị tri thức được cho từ tập dữliệu đào tạo. S là tham số cho biết kích thước của một lần lấy mẫu trên dữ liệu đào tạo để tính toán độ tin cậy.
SAT cho biết độ bão hòa(saturation)của các luật được sinh ra trong 1 lần lặp độ bão hòa này được tính bằngsố luậtmớihọc được ở lần lặp hiện tại so với số luật đã học được.
Nếunhỏ hơn độ bão hòa thì chúng tôi cho rằng vẫn còn tiềm năng để khai thác các luật với độ dài n.
Ngược lại chúng tôi tăng độ dài của luật sau đó tiếp tục khai thác.Q là một ngưỡng để xác định xem luật mới được sinh ra có được thêm vào kết quả trả về hay không.
Còn TS cho biết thời gian học của thuật toán trong 1 lần lấymẫu gọi là batch time
Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị.
Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕
lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5,
Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
[Tâm] Ngoài phương pháp dựa trên luật, hướng tiếp cận thứ hai của chúng em là tìm hiểu các mô hình dựa trên nhưng.
[Tâm 30m]
Phần vector ông nói sơ qua : Ví dụ ở đây ta có
Tương tự như vậy Facebook cũng xây dựng một đồ thị
dới các đặc trưngkhông thể đo hoặc không có giá trị (.area) sẽ bằng 0, với các đặc trưng. là giá trị mà không có độ lớn (.wife) thì ta chia thành độ lớn là xác suất của các đặc trưng thành phần đơn vị (.wife is Melania,.wife is Taylor). Như vậymọi đối tượng trong thế giới thực đều các có thểnhúngthành các vectormột cách tường minh
Ghi chú : Phần vector Trump là tui tự nói nên không thể không đúng hoặc đầy đủ nên không đưa vào đây
[Thanh-10s] Nhúng đỉnh thì mỗi phần tử trong vector của đỉnh được nhúng đại điện trọng số cho một mối quan hệ.
nhúng cạnh thì mỗi phần tử trong vector đại điện cho trọng số của các đỉnh nó.
nhúng kết họp thì mỗi phần thử trong vector đại điện cho một cấu trúc con của các đỉnh và cạnh liên kết.
nhúng toàn bộ đồ thị thì mỗi phần tử đại điện đặc trưng về cạnh hoặc đỉnh của đồ thị thông thường vector này có số chiều rất lớn mới biểu điễn hết thông tin của đồ thị
[Tâm - ] Sau đây em xin giới thiệu một phương pháp tiêu biểu của mô hình nhúng
Một trong những mô hình cơ bản nhất của phương pháp
nhúng đỉnh thì mỗi phần tử trong vector của đỉnh được nhúng đại điện trọng số cho một mối quan hệ.
Phép cộng h + r biểu thị cho phép tịnh tiến vector h theo vector r.
Việc tối ưu hóa được thực hiện bằng cách giảm gradian ngẫu nhiên (trong chế độ minibatch), trên có thể h, l và t , với các ràng buộc bổ sung mà tiêu chuẩn L2 của các phép nhúng của các thực thể là 1
(không có ràng buộc chính quy hoặc quy chuẩn nào được đưa ra nhãn nhúng `).
r chỉ chuẩn hóa lần dầu tiên. các bước sau không chuẩn hóa tiếp
Ràng buộc này rất quan trọng đối với mô hình của chúng tôi, cũng như đối với các phương pháp dựa trên nhúng trước đây [3, 6, 2],
vì nó ngăn cản quá trình đào tạo để giảm thiểu loss function. đã được chứng minh
nếu d - d' > 0 tức là khoảng cách của vector sau khi tịnh tiến gần véctor giả t' hơn vector t nên ta cần cập nhật trọng số lại cho các vector nhúng. ngược lại nếu d - d' < 0 tức vector sau khi tịnh tiến gần hơn với vector t. thì mình đã đạt được mục tiêu h + r ~ t
[Tâm] Ngoài phương pháp dựa trên luật, hướng tiếp cận thứ hai của chúng em là tìm hiểu các mô hình dựa trên nhưng.
[Thanh-1m] Đặc điểm chung của phương pháp Deep Learning là tối ưu hàm mục tiêu dựa trên một lượng lớn dữ liệu
Bằng cách đạo hàm ngược để cập nhật trọng số của hàm f(x)
Đối với nhiệm vụ dự đoán liên kết, ta có head và relation ta muốn dự đoán tail.
Cách tiếp cận ở đây là xây dựng một mô hình để xếp hạng các ứng viên.
Để xếp hạng các ứng viên, đầu tiên ta cần nhúng các vector nhưng
Tuy nhiên đối với đồ thị ta cần biểu diễn các đặc trưng của đồ thị lên không gian trước rồi mới xây dựng hàm xếp hạng
[1m30s] Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube. Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức.
Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết.
=> Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
[10] Có ba độ đo phổ biến gồm : H@K, MR, MRR theo các công thức sau
H@K; MRR thì càng lớn càng tốt
MR thì càng nhỏ càng tốt
Như ta thấy công thức ở đây, nếu tính trung bình của rank theo độ đo MR thì nếu có một rank quá lớn hoặc quá nhỏ so với các phần khác sẽ tác động rất lớn đến kết quả độ đo. Vì vậy người ta phát triển thêm độ đô MRR để tránh bị nhiễu
Nhớ nói những kết quả khác được khảo sát của nhóm tác giả Rossi, Andrea
[10s] Nhìn chung kết quả phần cải tiến tăng độ chính xác ở độ đo hit@10 tăng lên 1 ít so với kết quả ban đầu.
tăng các độ đo về MR và MRR.
bảng dưới đưa ra số luật sinh ra có conficande > 50%, 80% nhằm lý giải cho việc tăng độ chính xác của các độ đo MR và MRR
Tăng được MR và MRR là do sinh được các luật có confident rất là cao
[1m30s] Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube. Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức.
Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết.
=> Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị.
Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕
lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5,
Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị.
Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕
lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5,
Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
Phép cộng h + r biểu thị cho phép tịnh tiến vector h theo vector r.
Việc tối ưu hóa được thực hiện bằng cách giảm gradian ngẫu nhiên (trong chế độ minibatch), trên có thể h, l và t , với các ràng buộc bổ sung mà tiêu chuẩn L2 của các phép nhúng của các thực thể là 1
(không có ràng buộc chính quy hoặc quy chuẩn nào được đưa ra nhãn nhúng `).
r chỉ chuẩn hóa lần dầu tiên. các bước sau không chuẩn hóa tiếp
Ràng buộc này rất quan trọng đối với mô hình của chúng tôi, cũng như đối với các phương pháp dựa trên nhúng trước đây [3, 6, 2],
vì nó ngăn cản quá trình đào tạo để giảm thiểu loss function. đã được chứng minh