SlideShare a Scribd company logo
DỰ ĐOÁN LIÊN KẾT TRÊN
ĐỒ THỊ TRI THỨC
Hoàng Minh Thanh (18424062)
Phan Minh Tâm (18424059)
GV hướng dẫn : ThS. Lê Ngọc Thành
GV phản biện : TS. Bùi Tiến Lên
Nội dung trình bày
1. Giới thiệu bài toán
2. Công trình liên quan
3. Mô hình dựa trên luật và cải tiến
4. Mô hình dựa trên học sâu
5. Thực nghiệm
6. Kết luận
7. Tài liệu tham khảo
1
1. Giới thiệu bài toán
Đồ Thị Tri Thức (Knowledge Graph)
Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là một cách biểu diễn thông tin có cấu trúc trong thế
giới thực
 Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là gì ?
3
Ví dụ về một thông tin trong 𝒢 𝑘𝑛𝑜𝑤
Donald TrumpMelania Trump
wife_of
Melania_Trump wife_of Donald_Trump
Donald_Trump president_of U.S
Jeff_Bezos richest_of U.S
Tom_Cruise born_in New_York
New_York state_of U.S
Tesla_Inc founded_in U.S
Melania_Trump first_lady U.S
Mỗi cạnh trong 𝒢 𝑘𝑛𝑜𝑤
được lưu trữ xuống
từng dòng dữ liệu
4
Biểu diễn tri thức
Donald
Trump
Melania
Trump
wife_of
entitytail
entityhead
relation
5
 Đồ Thị Tri Thức (Knowledge Graph)
𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝑅, 𝐸 [1]
Biểu diễn đồ thị tri thức
entity1 entityhead1 entitytail1
entityhead2 entitytail2
entity2
entityn
entityhead-n entitytail-n
relation1
relation2
relationn
𝐸 ⊆ 𝑉 × 𝑅 × 𝑉𝑅𝑉
6
Google’s Knowledge Graph
Giới thiệu năm 2012 với 500 triệu
thực thể, và 3.5 tỷ sự kiện.
Đến nay tổng cộng đã tăng lên
khoảng 5 tỷ thực thể và 500 tỷ sự
kiện[2]
5 tỷ thực thể
500 tỷ sự kiện[2]
7
Dự đoán liên kết
Dữ liệu mất
mát, không
đầy đủ
Khai thác
thông tin
dựa trên
𝑮 𝒌𝒏𝒐𝒘
Kích thước 𝒢 𝑘𝑛𝑜𝑤
50 triệu thực thể
500 triệu sự kiện[5]
Kích thước 𝒢 𝑘𝑛𝑜𝑤
1 tỷ thực thể
70 tỷ sự kiện[5]
8
Minh họa về dự đoán liên kết
entitytail?
relation
?entityhead
relation
source target
relation
9
2. Các công trình liên quan
Hướng nghiên cứu
 Danh mục nghiên cứu trên đồ thị tri thức
Knowledge
acquisition
Knowledge Graph
Completion
Link
Prediction
11
Các phương pháp
Mô hình dựa trên luật
Mô hình dựa trên nhúng
12
3. Mô hình dựa trên luật và cải tiến
Phương pháp Any BURL[13]
 AnyBURL (Anytime Bottom Up Rule
Learning[13])
 Phương pháp này xem đồ thị tri thức là một
ngôn ngữ logic và được định nghĩa như sau:
 Một đồ thị tri thức 𝓖 𝒌𝒏𝒐𝒘 được định nghĩa trên một
bộ từ vựng ⟨𝐂, 𝐑⟩ trong đó 𝐂 là tập hợp các hằng số
và 𝐑 là tập hợp các vị từ nhị phân. Khi đó,
𝓖 𝒌𝒏𝒐𝒘 = r a, b r ∈ 𝐑; a, c ∈ 𝐂} là tập hợp sự kiện.
 a, b tương ứng với một đỉnh trong đồ thị, r tương
ứng với nhãn hay quan hệ giữa 2 đỉnh.
14
Phương pháp Any BURL[13]
 Phương pháp này xem đồ thị tri thức là một
ngôn ngữ logic và được định nghĩa như sau:
 Khi lấy mẫu một đường đi bất kì trên đồ thị có độ dài
lớn hơn 2 ta có 1 được một luật Horn với vị từ nối
liền (∧).
Ví dụ: Khi ta lấy mẫu một đường dẫn
𝑠𝑝𝑒𝑎𝑘𝑠 𝑒𝑑, 𝑑 , 𝑙𝑖𝑣𝑒 𝑒𝑑, 𝑛𝑙 , 𝑙𝑎𝑛𝑔(𝑛𝑙, 𝑑)
ta có được 1 luật sau:
speaks(ed, d) lives ed, nl lang(nl, d)
Nguồn ảnh [3]
Vậy làm như thế nào ta có
thể khái quát hóa luật này
trên đồ thị ?
15
Phương pháp Any BURL[13]
 Để có thể khái quát hóa các luật được tìm thấy
sau khi lấy mẫu đường đi chúng ta sẽ thay các
đỉnh thành các biến.
 Chúng ta sẽ không học tất cả các luật Horn mà
chỉ học 3 loại sau đây như được đề xuất bởi
nhóm tác giả Christian Meilicke.
Nguồn ảnh[3]
16
Phương pháp Any BURL[13]
 Ví dụ ta có các quy tắc sau
 𝑠𝑝𝑒𝑎𝑘𝑠(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝑌) (1)
 𝑙𝑖𝑣𝑒𝑠_𝑖𝑛_𝑐𝑖𝑡𝑦(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝐴), 𝑤𝑖𝑡ℎ𝑖𝑛(𝑌, 𝐴) (2)
 𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)
 𝑝𝑟𝑜𝑓𝑒𝑠𝑠𝑖𝑜𝑛(𝑋, 𝑎𝑐𝑡𝑜𝑟) ← 𝑎𝑐𝑡𝑒𝑑_𝑖𝑛(𝑋, 𝐴) (4)
𝑩
𝑼 𝒄
𝑼 𝒅 17
Phương pháp Any BURL
 Khi tạo ra một luật chúng sẽ dùng thống kê
để tính toán 1 điểm gọi là độ tin cậy.
Ví dụ ta có quy tắc sau:
 𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)
 Chúng ta sẽ đếm trên đồ thị tất cả các đường đi
thỏa 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) với 𝐴, 𝑋 là bất kì
một đỉnh, hay thực thể nào gọi là 𝑆
 Chúng ta sẽ đếm trên đồ thị tất cả các đường đi thỏa
𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒)
với 𝐴, 𝑋 là bất kì một đỉnh, hay thực thể nào gọi là 𝑆′
 Confident = 𝑆′ / 𝑆
18
Phương pháp Any BURL
 Thuật toán
19
Phương pháp Any BURL
 Thuật toán cải tiến mới
20
4. Mô hình dựa trên nhúng
Phương pháp dựa trên nhúng
 Nhúng đồ thị (Graph Embedding)
 Định nghĩa[7] :
Cho 𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝐸 và số chiều xác định trước d
𝑑 ≪ 𝑉 , vấn đề nhúng đồ thị là chuyển 𝒢 𝑘𝑛𝑜𝑤
thành một không gian d-chiều sao cho thuộc tính
của đồ thị được lưu giữ càng nhiều càng tốt.
Nhúng đồ thị là quá trình biến đổi các đặc
trưng của đồ thị sang một không gian khác
có số chiều thấp.
Quá trình nhúng đồ thị có thể hiểu tường
minh là quá trình ánh xạ các đặc trưng để
biểu diễn thành giá trị các vector 22
Các phương pháp nhúng 𝒢 𝑘𝑛𝑜𝑤
 Nhúng đồ thị (Graph Embedding)
 Dựa trên phương pháp thiết lập bài toán
nhưng đồ thị có thể chia nhúng đồ thị thành
các loại sau :
Nhúng cạnhNhúng đỉnh Nhúng kết hợp Nhúng toàn bộ
đồ thị
Survey of Graph Embedding Problems, Techniques and Applications [7]
23
Mô hình nhúng TransE
 Translating Embeddings (TransE)
 Mô hình TransE được đề xuất bởi nhóm tác giả
Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ
thuật nhúng đồ thị
 Ý tưởng cốt lõi là xem 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 là phép tịnh tiến
của các vector nhúng sao cho
𝑒ℎ𝑒𝑎𝑑 + 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 ≈ 𝑒𝑡𝑎𝑖𝑙
head tail
relation
0.6
0.2
0.8
0.2
0.3
-0.4
0.8
0.4
0.4
+ ≈ Din
24
Mô hình nhúng TransE
 Thuật toán
Chuẩn hóa trong loop
để đạt kết quả tốt hơn
Đô sai khác giữa bộ chuẩn
và bộ không chuẩn
+
25
Mô hình nhúng TransE
 TransE (Translating Embeddings)​
 Ví dụ :
Nếu d - d' > 0. Tiến hành cập nhật lại trọng số cho h, r, t.
vector khởi tạo ban đầu vector sau khi tịnh tiến
26
Mô hình nhúng KBGAT
27
Mô hình nhúng dựa trên học sâu
 Tối ưu hàm mục tiêu dựa trên một lượng
lớn dữ liệu
Data 𝑓 𝑥
Class 1
Class 2
Class n
ei
e1
e3
?e2
r
𝒢 𝑘𝑛𝑜𝑤
?
?
?
𝑟𝑎𝑛𝑘1
𝑟𝑎𝑛𝑘2
𝑟𝑎𝑛𝑘3
h t
r
h t
r
h tS r
h t’
r
h t’
r
h’ t
r
S’
𝑓 𝑥
h r t
h r t
h r t
h r t’
h r t’
h’ r t
1valid
-1invalid
score
28
Phương pháp KBGAT
Datasets
TransE Entity Embedding
Relation Embedding
GAT’ ConvKB
Rank
Entity Embedding
Relation Embedding
weight
Biểu diễn các đặc
trưng lên không gian
Học được các đặc
trưng lân cận của các
thực thể và quan hệ
Khái quát hóa quá
trình biến đổi đặc
trưng
ℒ =
𝑡 𝑖𝑗∈𝑆 𝑡 𝑖𝑗
′
∈𝑆′
max{𝑑 𝑡 𝑖𝑗
− 𝑑 𝑡 𝑖𝑗
′ + 𝛾, 0}
ℒ =
𝑡 𝑖𝑗∈𝑆
log 1 + exp 𝑙 𝑡 𝑖𝑗
. 𝑓 𝑡𝑖𝑗 +
𝜆
2
𝐖 2
2
với 𝑙 𝑡 𝑖𝑗
=
1 ∶ 𝑡𝑖𝑗 ∈ 𝑆
−1 ∶ 𝑡𝑖𝑗 ∈ 𝑆′
Lấy phần dương
Margin
Tham số chuẩn hóa
29
Cơ chế chú ý
Cơ chế chú ý được phát minh năm 2014[6] và được phổ biến bằng
mô hình Transformer năm 2017
Apple is good for your health
𝑥1 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5
Apple is good in its design
0.6 0.2 0.8
0.6
0.2
0.8
0.2
0.3
0.1
0.9
0.1
0.8
0.3
0.1
0.4
0.4
0.1
0.3
0.5
0.3
0.7
w1, 𝑤2, 𝑤3, 𝑤4, 𝑤5, 𝑤6 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( , )
Query Q
Keys K
0.6
0.2
0.8
0.2
0.3
0.1
0.9
0.1
0.8
0.3
0.1
0.4
0.4
0.1
0.3
0.5
0.3
0.7
Values V
healthApple is goodfor your
= w1 + 𝑤2 + 𝑤3 + 𝑤4 + 𝑤5 + 𝑤6
0.6
0.2
0.8
 Mục tiêu của cơ chế chú ý là tính được sự quan trọng của
một vector nhúng này đối với những vector nhúng khác
bằng hệ số đã chuẩn hóa để có thể so sánh với nhauHệ số chuẩn
hóa
Hệ số chuẩn hóa
30
Cơ chế chú ý đa đỉnh
Thuộc các lớp khác nhau
⇒ 𝑆𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛
Graph Attention Networks – GAT[12]
31
Graph Attention Networks – GAT[12]
Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..)
32
Áp dụng cơ chế chú ý vào 𝒢 𝑘𝑛𝑜𝑤
Self-Attention (NLP) Mask-attention in GAT (𝒢 𝑘𝑛𝑜𝑤)
Linear
transformation
Q = K = X W1; V = X W2 ℎ𝑖 = W1. 𝑒𝑖
Compute attention
coefficients
softmax
Q. KT
𝑑 𝑘
αij =
softmax LeakyRELU W2[hi||hj]
Attention softmax
XW1. XW1
T
𝑑 𝑘
XW2
𝑒𝑖
′
= 𝜎
𝑗∈𝒩 𝑖
αij hj
Multihead-attention
with Concatenate
∥ℎ=1
𝑁ℎ𝑒𝑎𝑑
softmax
XW1. XW1
T
𝑑 𝑘
XW2
𝑒𝑖
′
= ∥ℎ=1
𝑁ℎ𝑒𝑎𝑑
𝜎
j∈𝒩i
αij
h
𝐖h
ej
Multihead-attention
with Average
𝑒𝑖
′′
=
𝜎
1
𝑁ℎ𝑒𝑎𝑑
h=1
𝑁ℎ𝑒𝑎𝑑
j∈𝒩i
αij
h
𝐖h
e′j
33
Mô hình KBGAT[11]
Mask Attention with
Concatenate
Entity Embedding
Entity Embedding
Entity Embedding
Entity Embedding
Entity Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Relation Embedding
Residual learning
Mask Attention with
Average
34
Cải tiến của KBGAT[11]
 Cải tiến của KBGAT :
 Ghép thêm thông tin 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛
𝑡𝑖𝑗
𝑘
= W1. [𝑒𝑖 ||𝑒𝑗 ||𝑟𝑘]
 Tính cộng thông tin nhop
𝑒𝑖 = (𝑒𝑖 || 𝑒 𝑛ℎ𝑜𝑝
)
𝑟𝑘 = (𝑟𝑘||𝑒 𝑛ℎ𝑜𝑝 )
ei
e1
e2
e3
e4 e6
e5
𝑒1ℎ𝑜𝑝 𝑒2ℎ𝑜𝑝
Ntraining
Concath,t,r
35
Mô hình ConvKB[10]
Convolution
Học sự quan trọng của từng đặc trưng
trong feature map 36
Cài đặt
 Chiến lược tìm siêu tham số tối ưu là tìm
kiếm lưới (grid search)
 Sử dụng Adam để tối ưu (quán tính có ma
sát)
Google Colab Pro 37
8-15
tiếng/1
datasets
4. Thực nghiệm
Datasets
 Có bốn bộ dữ liệu tìm hiểu chia thành hai
nhóm chính bao gồm Freebase và
Wordnet
 WN18RR, FB15k-237 được lược bỏ các quan hệ
trùng hoặc nghịch đảo từ WN18 và FB15k để
tránh các dữ liệu dễ đoán
Test Leakage Đa lĩnh vực Đặc trưng
WN18 Có Có ít loại quan hệ; Dự liệu chỉ thuộc
các từ vựng, Nhiều sự kiện lặp lạiWN18RR
FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ
liệu thuộc nhiều lĩnh vực khác nhau,
và ít lặp lạiFB15k-237 Có
39
Thông tin tập dữ liệu
 Các tập dữ liệu thực nghiệm :
40
Tập dữ liệu FreeBase
 Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A.
Bordes[6], trích xuất từ bộ dữ liệu Wikilinks database
 Mỗi đỉnh là một đối tượng trong Wikipedia, mỗi quan hệ là một
đường dẫn
Ví dụ về một dòng dữ liệu trong Freebase
41
Tập dữ liệu WordNet
 Bộ dữ liệu này được giới thiệu bởi nhóm tác giả
Bordes, Antoine được trích xuất từ WordNet
 Mỗi đỉnh là một từ vựng, quan hệ là ý nghĩa giữa hai
từ
Ví dụ về một dòng dữ liệu trong WordNet
42
Phương pháp đánh giá
 Có ba độ đo phổ biến gồm : H@K, MR,
MRR
 𝐻@𝐾 =
𝑞∈𝑄:𝑟𝑎𝑛𝑘 𝑞 ≤𝐾
𝑄
; 𝐾 ∈ {1,3, 10}
 𝑀𝑅 =
1
𝑄 𝑞∈𝑄 𝑟𝑎𝑛𝑘(𝑞)
 𝑀𝑅𝑅 =
1
𝑄 𝑞∈𝑄
1
𝑟𝑎𝑛𝑘(𝑞)
43
Kết quả thực nghiệm
 Kết quả trên tập dữ liệu Freebase[13]
 Kết quả trên tập dữ liệu WordNet[13]
44
Kết quả phần cải tiến Any BURL
Kết quả chiến lược thêm tri thức mới vào đồ thị
Kết quả độ tin cậy số luật sinh ra
Tăng MR và MRR
trung bình khoảng
1.05%
Do sinh ra được
các luật có
confident rất cao
45
Mã nguồn và quá trình thực hiện
 AnyBURL :
 Mã nguồn public :
https://github.com/MinhTamPhan/mythesis
 KBGAT :
 Mã nguồn github (Graph Collaborate
Attention Network) :
https://github.com/hmthanh/GCAT
 Public Google Colab :
https://colab.research.google.com/drive/1Nu
hMHYywKrKyqEe_nhjzBVRp3AbQf73g
46
6. Kết luận
Kết luận
Mô hình dựa trên luật Mô hình dựa trên học sâu
Chi phí Thời gian huấn luyện vượt
trội, chi phí tính toán nhỏ
Thời gian rất lâu, hàng chục tiếng
Chi phí tính toán cực lớn
Thời gian dự
đoán
Lâu hơn do phải duyệt qua
tất cả các luật
Nhanh hơn do dựa trên các trọng
số của mô hình để tính xác xuất
Dữ liệu Học có thể lý giải được Học không thể lý giải (do các lớp
hidden layer)
Thêm tri thức Không ảnh hưởng nhiều
khi thêm tri thức mới
Phải huấn luyện lại từ đầu nếu
thêm tri thức mới
Đặc điểm học Chỉ học được dựa trên tần
xuất của dữ liệu
Học được các cấu trúc phức tạp
mà không cần biết trước cấu trúc
 So sánh hai phương pháp
48
Hướng phát triển
 Phương pháp dựa trên luật :
 Gần đây nhóm nghiên cứu của tác giả C. Meilicke
đã nghiên cứu một phương pháp dựa
trên Reinforced learning nhằm tối ưu hóa lợi ích
quá trình sinh ra luật
 Phương pháp dựa trên học sâu :
 Nhóm nghiên cứu về cải tiến của cơ chế chú ý
(Collaborate Instead of Concatenate[8]) và mô hình
CapsE
 Dựa trên những cải tiến đáng kể của mô hình
AnyBURL, và mô hình GCAT đang phát triển, nhóm có
dự định public papers trong tương lai gần
49
5. Tài liệu tham khảo
Trích dẫn
 [1] A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications
 [2] https://en.wikipedia.org/wiki/Knowledge_Graph
 [3] http://web.informatik.uni-mannheim.de/AnyBURL/
 [4] https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/
 [5] Industry-scale Knowledge Graphs: Lessons and Challenges (Natasha Noy Yuqing Gao Anshu Jain Anant
Narayanan Alan Patterson Jamie Taylor)
 [6] Bahdanau, Dzmitry, Cho, Kyunghyun, and Bengio, Yoshua. “Neural machine translation by jointly learning to
align and translate”. In: arXiv preprint arXiv:1409.0473 (2014).
 [7] Cai, Hongyun, Zheng, Vincent W, and Chang, Kevin Chen-Chuan. “A comprehensive survey of graph
embedding: Problems, techniques, and applications”. In: IEEE Transactions on Knowledge and Data Engineering
30.9 (2018), pp. 1616–1637
 [8] Cordonnier, Jean-Baptiste, Loukas, Andreas, and Jaggi, Martin. “MultiHead Attention: Collaborate Instead of
Concatenate”. In: arXiv preprint arXiv:2006.16362 (2020).
 [9] Bordes, Antoine et al. “Translating embeddings for modeling multirelational data”. In: Advances in neural
information processing systems. 2013, pp. 2787–2795.
 [10] Nguyen, Dai Quoc et al. “A novel embedding model for knowledge base completion based on convolutional
neural network”. In: arXiv preprint arXiv:1712.02121 (2017).
 [11] Nathani, Deepak et al. “Learning attention-based embeddings for relation prediction in knowledge graphs”.
In: arXiv preprint arXiv:1906.01195 (2019).
 [12] Veliˇckovi´c, Petar et al. “Graph attention networks”. In: arXiv preprint arXiv:1710.10903 (2017)
 [13] Meilicke, Christian et al. Anytime Bottom-Up Rule Learning for Knowledge Graph Completion. 2019. url:
http://web.informatik.unimannheim.de/AnyBURL/meilicke19anyburl.pdf.
 [13] Rossi, Andrea et al. “Knowledge Graph Embedding for Link Prediction: A Comparative Analysis”. In: arXiv
preprint arXiv:2002.00819 (2020).
51
52
Q & A
53

More Related Content

What's hot

Giải số bằng mathlab
Giải số bằng mathlabGiải số bằng mathlab
Giải số bằng mathlab
dvt1996
 
Chuong 3. cnpm
Chuong 3. cnpmChuong 3. cnpm
Chuong 3. cnpm
caolanphuong
 
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải PhòngĐề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Dịch Vụ Viết Bài Trọn Gói ZALO 0917193864
 
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂUPHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
SoM
 
Thuật toán Nhân Bình Phương - demo
Thuật toán Nhân Bình Phương - demoThuật toán Nhân Bình Phương - demo
Thuật toán Nhân Bình Phương - demoCông Thắng Trương
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
Võ Phúc
 
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạnbáo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
nataliej4
 
Bài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTITBài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTIT
NguynMinh294
 
Luận văn: Xây dựng website quản lý nhà hàng, HOT
Luận văn: Xây dựng website quản lý nhà hàng, HOTLuận văn: Xây dựng website quản lý nhà hàng, HOT
Luận văn: Xây dựng website quản lý nhà hàng, HOT
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
leemindinh
 
Tương tác người-máy
Tương tác người-máyTương tác người-máy
Tương tác người-máy
Alice_Stone
 
Slide đồ án tốt nghiệp
Slide đồ án tốt nghiệpSlide đồ án tốt nghiệp
Slide đồ án tốt nghiệp
Toan Pham
 
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNHBÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
Hoà Đoàn
 
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLDang Tuan
 
Giải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTITGiải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTIT
Popping Khiem - Funky Dance Crew PTIT
 
Ket tap, ke thua
Ket tap, ke thuaKet tap, ke thua
Ket tap, ke thua
Tuan Do
 
cẩm nang lập trình căn bản
cẩm nang lập trình căn bảncẩm nang lập trình căn bản
cẩm nang lập trình căn bản
Tuancute
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
GMO-Z.com Vietnam Lab Center
 

What's hot (20)

Giải số bằng mathlab
Giải số bằng mathlabGiải số bằng mathlab
Giải số bằng mathlab
 
Chuong 3. cnpm
Chuong 3. cnpmChuong 3. cnpm
Chuong 3. cnpm
 
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải PhòngĐề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
Đề tài: Hệ thống hỗ trợ điểm danh sinh viên trường ĐH Hải Phòng
 
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂUPHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
PHƯƠNG PHÁP BÌNH PHƯƠNG CỰC TIỂU
 
Bai1
Bai1Bai1
Bai1
 
Đệ Quy, Quay Lui, Nhánh Cận
Đệ Quy, Quay Lui, Nhánh CậnĐệ Quy, Quay Lui, Nhánh Cận
Đệ Quy, Quay Lui, Nhánh Cận
 
Thuật toán Nhân Bình Phương - demo
Thuật toán Nhân Bình Phương - demoThuật toán Nhân Bình Phương - demo
Thuật toán Nhân Bình Phương - demo
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạnbáo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
 
Bài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTITBài giảng công nghệ phần mềm PTIT
Bài giảng công nghệ phần mềm PTIT
 
Luận văn: Xây dựng website quản lý nhà hàng, HOT
Luận văn: Xây dựng website quản lý nhà hàng, HOTLuận văn: Xây dựng website quản lý nhà hàng, HOT
Luận văn: Xây dựng website quản lý nhà hàng, HOT
 
Phân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàngPhân tích và thiết kế hệ thống quản lý bán hàng
Phân tích và thiết kế hệ thống quản lý bán hàng
 
Tương tác người-máy
Tương tác người-máyTương tác người-máy
Tương tác người-máy
 
Slide đồ án tốt nghiệp
Slide đồ án tốt nghiệpSlide đồ án tốt nghiệp
Slide đồ án tốt nghiệp
 
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNHBÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
BÁO CÁO CÔNG NGHỆ PHẦN MỀM 8 điểm-QUẢN LÝ CỬA HÀNG BÁN MÁY ẢNH
 
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UMLPHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG DÙNG UML
 
Giải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTITGiải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTIT
 
Ket tap, ke thua
Ket tap, ke thuaKet tap, ke thua
Ket tap, ke thua
 
cẩm nang lập trình căn bản
cẩm nang lập trình căn bảncẩm nang lập trình căn bản
cẩm nang lập trình căn bản
 
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
Ứng dụng NLP vào việc xác định ý muốn người dùng (Intent Detection) và sửa lỗ...
 

Similar to Dự đoán liên kết trong đồ thị tri thức

Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1
Hồ Lợi
 
Bai 1 tong quan ve ctdl&gt
Bai 1   tong quan ve ctdl&gtBai 1   tong quan ve ctdl&gt
Bai 1 tong quan ve ctdl&gt
TrangThu251076
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
Nguyễn Công Hoàng
 
Toan roi rac.pptx
Toan roi rac.pptxToan roi rac.pptx
Toan roi rac.pptx
MaiPhuong952844
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNguest717ec2
 
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khốiLuận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
https://www.facebook.com/garmentspace
 
Chuong1 phan tichvathietkegiaithuat
Chuong1 phan tichvathietkegiaithuatChuong1 phan tichvathietkegiaithuat
Chuong1 phan tichvathietkegiaithuat
Quoc Nguyen
 
Slide bài giảng Cơ sở dữ liệu suy diễn.pptx
Slide bài giảng Cơ sở dữ liệu suy diễn.pptxSlide bài giảng Cơ sở dữ liệu suy diễn.pptx
Slide bài giảng Cơ sở dữ liệu suy diễn.pptx
PhamThiThuThuy1
 
TRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdfTRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdf
PHNGUYNNGC9
 
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song TùngCơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
dtrhung_vtbk
 
W03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptxW03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptx
Hnginh10297
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filteringBui Loc
 
Baocao lv
Baocao lvBaocao lv
Baocao lv
Thong Hoang Van
 
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAYLuận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Huong dan 8 o so
Huong dan 8 o soHuong dan 8 o so
Huong dan 8 o so
shjdunglv
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Dịch vụ viết bài trọn gói ZALO 0917193864
 
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAY
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAYĐề tài: Một số phương pháp giải hệ phương trình đại số, HAY
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAY
Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Tuan1_GioiThieu.pdf
Tuan1_GioiThieu.pdfTuan1_GioiThieu.pdf
Tuan1_GioiThieu.pdf
NguynVnTun74
 
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
Man_Ebook
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Nguyễn Công Hoàng
 

Similar to Dự đoán liên kết trong đồ thị tri thức (20)

Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1Cấu trúc dữ liệu cơ bản 1
Cấu trúc dữ liệu cơ bản 1
 
Bai 1 tong quan ve ctdl&gt
Bai 1   tong quan ve ctdl&gtBai 1   tong quan ve ctdl&gt
Bai 1 tong quan ve ctdl&gt
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
Giáo trình Phân tích và thiết kế giải thuật - CHAP 3
 
Toan roi rac.pptx
Toan roi rac.pptxToan roi rac.pptx
Toan roi rac.pptx
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
 
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khốiLuận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
Luận án tiến sĩ toán học các phụ thuộc logic trong mô hình dữ liệu dạng khối
 
Chuong1 phan tichvathietkegiaithuat
Chuong1 phan tichvathietkegiaithuatChuong1 phan tichvathietkegiaithuat
Chuong1 phan tichvathietkegiaithuat
 
Slide bài giảng Cơ sở dữ liệu suy diễn.pptx
Slide bài giảng Cơ sở dữ liệu suy diễn.pptxSlide bài giảng Cơ sở dữ liệu suy diễn.pptx
Slide bài giảng Cơ sở dữ liệu suy diễn.pptx
 
TRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdfTRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdf
 
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song TùngCơ sở dữ liệu và giải thuật Vũ Song Tùng
Cơ sở dữ liệu và giải thuật Vũ Song Tùng
 
W03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptxW03_Thietkecosodulieulogic.pptx
W03_Thietkecosodulieulogic.pptx
 
Model based collaborative filtering
Model based collaborative filteringModel based collaborative filtering
Model based collaborative filtering
 
Baocao lv
Baocao lvBaocao lv
Baocao lv
 
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAYLuận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
Luận văn: Mô hình đồ thị luồng và mối quan hệ với đồ thị, HAY
 
Huong dan 8 o so
Huong dan 8 o soHuong dan 8 o so
Huong dan 8 o so
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
 
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAY
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAYĐề tài: Một số phương pháp giải hệ phương trình đại số, HAY
Đề tài: Một số phương pháp giải hệ phương trình đại số, HAY
 
Tuan1_GioiThieu.pdf
Tuan1_GioiThieu.pdfTuan1_GioiThieu.pdf
Tuan1_GioiThieu.pdf
 
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
Điều khiển phân quyền trong thời gian hữu hạn cho hệ tuyến tính quy mô lớn vớ...
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
 

Dự đoán liên kết trong đồ thị tri thức

  • 1. DỰ ĐOÁN LIÊN KẾT TRÊN ĐỒ THỊ TRI THỨC Hoàng Minh Thanh (18424062) Phan Minh Tâm (18424059) GV hướng dẫn : ThS. Lê Ngọc Thành GV phản biện : TS. Bùi Tiến Lên
  • 2. Nội dung trình bày 1. Giới thiệu bài toán 2. Công trình liên quan 3. Mô hình dựa trên luật và cải tiến 4. Mô hình dựa trên học sâu 5. Thực nghiệm 6. Kết luận 7. Tài liệu tham khảo 1
  • 3. 1. Giới thiệu bài toán
  • 4. Đồ Thị Tri Thức (Knowledge Graph) Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là một cách biểu diễn thông tin có cấu trúc trong thế giới thực  Đồ thị tri thức (𝒢 𝑘𝑛𝑜𝑤) là gì ? 3
  • 5. Ví dụ về một thông tin trong 𝒢 𝑘𝑛𝑜𝑤 Donald TrumpMelania Trump wife_of Melania_Trump wife_of Donald_Trump Donald_Trump president_of U.S Jeff_Bezos richest_of U.S Tom_Cruise born_in New_York New_York state_of U.S Tesla_Inc founded_in U.S Melania_Trump first_lady U.S Mỗi cạnh trong 𝒢 𝑘𝑛𝑜𝑤 được lưu trữ xuống từng dòng dữ liệu 4
  • 6. Biểu diễn tri thức Donald Trump Melania Trump wife_of entitytail entityhead relation 5
  • 7.  Đồ Thị Tri Thức (Knowledge Graph) 𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝑅, 𝐸 [1] Biểu diễn đồ thị tri thức entity1 entityhead1 entitytail1 entityhead2 entitytail2 entity2 entityn entityhead-n entitytail-n relation1 relation2 relationn 𝐸 ⊆ 𝑉 × 𝑅 × 𝑉𝑅𝑉 6
  • 8. Google’s Knowledge Graph Giới thiệu năm 2012 với 500 triệu thực thể, và 3.5 tỷ sự kiện. Đến nay tổng cộng đã tăng lên khoảng 5 tỷ thực thể và 500 tỷ sự kiện[2] 5 tỷ thực thể 500 tỷ sự kiện[2] 7
  • 9. Dự đoán liên kết Dữ liệu mất mát, không đầy đủ Khai thác thông tin dựa trên 𝑮 𝒌𝒏𝒐𝒘 Kích thước 𝒢 𝑘𝑛𝑜𝑤 50 triệu thực thể 500 triệu sự kiện[5] Kích thước 𝒢 𝑘𝑛𝑜𝑤 1 tỷ thực thể 70 tỷ sự kiện[5] 8
  • 10. Minh họa về dự đoán liên kết entitytail? relation ?entityhead relation source target relation 9
  • 11. 2. Các công trình liên quan
  • 12. Hướng nghiên cứu  Danh mục nghiên cứu trên đồ thị tri thức Knowledge acquisition Knowledge Graph Completion Link Prediction 11
  • 13. Các phương pháp Mô hình dựa trên luật Mô hình dựa trên nhúng 12
  • 14. 3. Mô hình dựa trên luật và cải tiến
  • 15. Phương pháp Any BURL[13]  AnyBURL (Anytime Bottom Up Rule Learning[13])  Phương pháp này xem đồ thị tri thức là một ngôn ngữ logic và được định nghĩa như sau:  Một đồ thị tri thức 𝓖 𝒌𝒏𝒐𝒘 được định nghĩa trên một bộ từ vựng ⟨𝐂, 𝐑⟩ trong đó 𝐂 là tập hợp các hằng số và 𝐑 là tập hợp các vị từ nhị phân. Khi đó, 𝓖 𝒌𝒏𝒐𝒘 = r a, b r ∈ 𝐑; a, c ∈ 𝐂} là tập hợp sự kiện.  a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh. 14
  • 16. Phương pháp Any BURL[13]  Phương pháp này xem đồ thị tri thức là một ngôn ngữ logic và được định nghĩa như sau:  Khi lấy mẫu một đường đi bất kì trên đồ thị có độ dài lớn hơn 2 ta có 1 được một luật Horn với vị từ nối liền (∧). Ví dụ: Khi ta lấy mẫu một đường dẫn 𝑠𝑝𝑒𝑎𝑘𝑠 𝑒𝑑, 𝑑 , 𝑙𝑖𝑣𝑒 𝑒𝑑, 𝑛𝑙 , 𝑙𝑎𝑛𝑔(𝑛𝑙, 𝑑) ta có được 1 luật sau: speaks(ed, d) lives ed, nl lang(nl, d) Nguồn ảnh [3] Vậy làm như thế nào ta có thể khái quát hóa luật này trên đồ thị ? 15
  • 17. Phương pháp Any BURL[13]  Để có thể khái quát hóa các luật được tìm thấy sau khi lấy mẫu đường đi chúng ta sẽ thay các đỉnh thành các biến.  Chúng ta sẽ không học tất cả các luật Horn mà chỉ học 3 loại sau đây như được đề xuất bởi nhóm tác giả Christian Meilicke. Nguồn ảnh[3] 16
  • 18. Phương pháp Any BURL[13]  Ví dụ ta có các quy tắc sau  𝑠𝑝𝑒𝑎𝑘𝑠(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝑌) (1)  𝑙𝑖𝑣𝑒𝑠_𝑖𝑛_𝑐𝑖𝑡𝑦(𝑋, 𝑌) ← 𝑙𝑖𝑣𝑒𝑠(𝑋, 𝐴), 𝑤𝑖𝑡ℎ𝑖𝑛(𝑌, 𝐴) (2)  𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)  𝑝𝑟𝑜𝑓𝑒𝑠𝑠𝑖𝑜𝑛(𝑋, 𝑎𝑐𝑡𝑜𝑟) ← 𝑎𝑐𝑡𝑒𝑑_𝑖𝑛(𝑋, 𝐴) (4) 𝑩 𝑼 𝒄 𝑼 𝒅 17
  • 19. Phương pháp Any BURL  Khi tạo ra một luật chúng sẽ dùng thống kê để tính toán 1 điểm gọi là độ tin cậy. Ví dụ ta có quy tắc sau:  𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) (3)  Chúng ta sẽ đếm trên đồ thị tất cả các đường đi thỏa 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) với 𝐴, 𝑋 là bất kì một đỉnh, hay thực thể nào gọi là 𝑆  Chúng ta sẽ đếm trên đồ thị tất cả các đường đi thỏa 𝑔𝑒𝑛(𝑋, 𝑓𝑒𝑚𝑎𝑙𝑒) ← 𝑚𝑎𝑟𝑟𝑖𝑒𝑑(𝑋, 𝐴), 𝑔𝑒𝑛(𝐴, 𝑚𝑎𝑙𝑒) với 𝐴, 𝑋 là bất kì một đỉnh, hay thực thể nào gọi là 𝑆′  Confident = 𝑆′ / 𝑆 18
  • 20. Phương pháp Any BURL  Thuật toán 19
  • 21. Phương pháp Any BURL  Thuật toán cải tiến mới 20
  • 22. 4. Mô hình dựa trên nhúng
  • 23. Phương pháp dựa trên nhúng  Nhúng đồ thị (Graph Embedding)  Định nghĩa[7] : Cho 𝒢 𝑘𝑛𝑜𝑤 = 𝑉, 𝐸 và số chiều xác định trước d 𝑑 ≪ 𝑉 , vấn đề nhúng đồ thị là chuyển 𝒢 𝑘𝑛𝑜𝑤 thành một không gian d-chiều sao cho thuộc tính của đồ thị được lưu giữ càng nhiều càng tốt. Nhúng đồ thị là quá trình biến đổi các đặc trưng của đồ thị sang một không gian khác có số chiều thấp. Quá trình nhúng đồ thị có thể hiểu tường minh là quá trình ánh xạ các đặc trưng để biểu diễn thành giá trị các vector 22
  • 24. Các phương pháp nhúng 𝒢 𝑘𝑛𝑜𝑤  Nhúng đồ thị (Graph Embedding)  Dựa trên phương pháp thiết lập bài toán nhưng đồ thị có thể chia nhúng đồ thị thành các loại sau : Nhúng cạnhNhúng đỉnh Nhúng kết hợp Nhúng toàn bộ đồ thị Survey of Graph Embedding Problems, Techniques and Applications [7] 23
  • 25. Mô hình nhúng TransE  Translating Embeddings (TransE)  Mô hình TransE được đề xuất bởi nhóm tác giả Antoine Bordes[9] là một mô hình tiêu biểu cho kỹ thuật nhúng đồ thị  Ý tưởng cốt lõi là xem 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 là phép tịnh tiến của các vector nhúng sao cho 𝑒ℎ𝑒𝑎𝑑 + 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 ≈ 𝑒𝑡𝑎𝑖𝑙 head tail relation 0.6 0.2 0.8 0.2 0.3 -0.4 0.8 0.4 0.4 + ≈ Din 24
  • 26. Mô hình nhúng TransE  Thuật toán Chuẩn hóa trong loop để đạt kết quả tốt hơn Đô sai khác giữa bộ chuẩn và bộ không chuẩn + 25
  • 27. Mô hình nhúng TransE  TransE (Translating Embeddings)​  Ví dụ : Nếu d - d' > 0. Tiến hành cập nhật lại trọng số cho h, r, t. vector khởi tạo ban đầu vector sau khi tịnh tiến 26
  • 28. Mô hình nhúng KBGAT 27
  • 29. Mô hình nhúng dựa trên học sâu  Tối ưu hàm mục tiêu dựa trên một lượng lớn dữ liệu Data 𝑓 𝑥 Class 1 Class 2 Class n ei e1 e3 ?e2 r 𝒢 𝑘𝑛𝑜𝑤 ? ? ? 𝑟𝑎𝑛𝑘1 𝑟𝑎𝑛𝑘2 𝑟𝑎𝑛𝑘3 h t r h t r h tS r h t’ r h t’ r h’ t r S’ 𝑓 𝑥 h r t h r t h r t h r t’ h r t’ h’ r t 1valid -1invalid score 28
  • 30. Phương pháp KBGAT Datasets TransE Entity Embedding Relation Embedding GAT’ ConvKB Rank Entity Embedding Relation Embedding weight Biểu diễn các đặc trưng lên không gian Học được các đặc trưng lân cận của các thực thể và quan hệ Khái quát hóa quá trình biến đổi đặc trưng ℒ = 𝑡 𝑖𝑗∈𝑆 𝑡 𝑖𝑗 ′ ∈𝑆′ max{𝑑 𝑡 𝑖𝑗 − 𝑑 𝑡 𝑖𝑗 ′ + 𝛾, 0} ℒ = 𝑡 𝑖𝑗∈𝑆 log 1 + exp 𝑙 𝑡 𝑖𝑗 . 𝑓 𝑡𝑖𝑗 + 𝜆 2 𝐖 2 2 với 𝑙 𝑡 𝑖𝑗 = 1 ∶ 𝑡𝑖𝑗 ∈ 𝑆 −1 ∶ 𝑡𝑖𝑗 ∈ 𝑆′ Lấy phần dương Margin Tham số chuẩn hóa 29
  • 31. Cơ chế chú ý Cơ chế chú ý được phát minh năm 2014[6] và được phổ biến bằng mô hình Transformer năm 2017 Apple is good for your health 𝑥1 𝑦1 𝑦2 𝑦3 𝑦4 𝑦5 Apple is good in its design 0.6 0.2 0.8 0.6 0.2 0.8 0.2 0.3 0.1 0.9 0.1 0.8 0.3 0.1 0.4 0.4 0.1 0.3 0.5 0.3 0.7 w1, 𝑤2, 𝑤3, 𝑤4, 𝑤5, 𝑤6 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( , ) Query Q Keys K 0.6 0.2 0.8 0.2 0.3 0.1 0.9 0.1 0.8 0.3 0.1 0.4 0.4 0.1 0.3 0.5 0.3 0.7 Values V healthApple is goodfor your = w1 + 𝑤2 + 𝑤3 + 𝑤4 + 𝑤5 + 𝑤6 0.6 0.2 0.8  Mục tiêu của cơ chế chú ý là tính được sự quan trọng của một vector nhúng này đối với những vector nhúng khác bằng hệ số đã chuẩn hóa để có thể so sánh với nhauHệ số chuẩn hóa Hệ số chuẩn hóa 30
  • 32. Cơ chế chú ý đa đỉnh Thuộc các lớp khác nhau ⇒ 𝑆𝑒𝑙𝑓 − 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 Graph Attention Networks – GAT[12] 31
  • 33. Graph Attention Networks – GAT[12] Figure 1 in Paper Graph atention networks (Petar Velickovi ˇ c..) 32
  • 34. Áp dụng cơ chế chú ý vào 𝒢 𝑘𝑛𝑜𝑤 Self-Attention (NLP) Mask-attention in GAT (𝒢 𝑘𝑛𝑜𝑤) Linear transformation Q = K = X W1; V = X W2 ℎ𝑖 = W1. 𝑒𝑖 Compute attention coefficients softmax Q. KT 𝑑 𝑘 αij = softmax LeakyRELU W2[hi||hj] Attention softmax XW1. XW1 T 𝑑 𝑘 XW2 𝑒𝑖 ′ = 𝜎 𝑗∈𝒩 𝑖 αij hj Multihead-attention with Concatenate ∥ℎ=1 𝑁ℎ𝑒𝑎𝑑 softmax XW1. XW1 T 𝑑 𝑘 XW2 𝑒𝑖 ′ = ∥ℎ=1 𝑁ℎ𝑒𝑎𝑑 𝜎 j∈𝒩i αij h 𝐖h ej Multihead-attention with Average 𝑒𝑖 ′′ = 𝜎 1 𝑁ℎ𝑒𝑎𝑑 h=1 𝑁ℎ𝑒𝑎𝑑 j∈𝒩i αij h 𝐖h e′j 33
  • 35. Mô hình KBGAT[11] Mask Attention with Concatenate Entity Embedding Entity Embedding Entity Embedding Entity Embedding Entity Embedding Relation Embedding Relation Embedding Relation Embedding Relation Embedding Residual learning Mask Attention with Average 34
  • 36. Cải tiến của KBGAT[11]  Cải tiến của KBGAT :  Ghép thêm thông tin 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛 𝑡𝑖𝑗 𝑘 = W1. [𝑒𝑖 ||𝑒𝑗 ||𝑟𝑘]  Tính cộng thông tin nhop 𝑒𝑖 = (𝑒𝑖 || 𝑒 𝑛ℎ𝑜𝑝 ) 𝑟𝑘 = (𝑟𝑘||𝑒 𝑛ℎ𝑜𝑝 ) ei e1 e2 e3 e4 e6 e5 𝑒1ℎ𝑜𝑝 𝑒2ℎ𝑜𝑝 Ntraining Concath,t,r 35
  • 37. Mô hình ConvKB[10] Convolution Học sự quan trọng của từng đặc trưng trong feature map 36
  • 38. Cài đặt  Chiến lược tìm siêu tham số tối ưu là tìm kiếm lưới (grid search)  Sử dụng Adam để tối ưu (quán tính có ma sát) Google Colab Pro 37 8-15 tiếng/1 datasets
  • 40. Datasets  Có bốn bộ dữ liệu tìm hiểu chia thành hai nhóm chính bao gồm Freebase và Wordnet  WN18RR, FB15k-237 được lược bỏ các quan hệ trùng hoặc nghịch đảo từ WN18 và FB15k để tránh các dữ liệu dễ đoán Test Leakage Đa lĩnh vực Đặc trưng WN18 Có Có ít loại quan hệ; Dự liệu chỉ thuộc các từ vựng, Nhiều sự kiện lặp lạiWN18RR FB15k Có Có Có nhiều loại quan hệ khác nhau; Dữ liệu thuộc nhiều lĩnh vực khác nhau, và ít lặp lạiFB15k-237 Có 39
  • 41. Thông tin tập dữ liệu  Các tập dữ liệu thực nghiệm : 40
  • 42. Tập dữ liệu FreeBase  Bộ dữ liệu này được tạo bởi nhóm nghiên cứu A. Bordes[6], trích xuất từ bộ dữ liệu Wikilinks database  Mỗi đỉnh là một đối tượng trong Wikipedia, mỗi quan hệ là một đường dẫn Ví dụ về một dòng dữ liệu trong Freebase 41
  • 43. Tập dữ liệu WordNet  Bộ dữ liệu này được giới thiệu bởi nhóm tác giả Bordes, Antoine được trích xuất từ WordNet  Mỗi đỉnh là một từ vựng, quan hệ là ý nghĩa giữa hai từ Ví dụ về một dòng dữ liệu trong WordNet 42
  • 44. Phương pháp đánh giá  Có ba độ đo phổ biến gồm : H@K, MR, MRR  𝐻@𝐾 = 𝑞∈𝑄:𝑟𝑎𝑛𝑘 𝑞 ≤𝐾 𝑄 ; 𝐾 ∈ {1,3, 10}  𝑀𝑅 = 1 𝑄 𝑞∈𝑄 𝑟𝑎𝑛𝑘(𝑞)  𝑀𝑅𝑅 = 1 𝑄 𝑞∈𝑄 1 𝑟𝑎𝑛𝑘(𝑞) 43
  • 45. Kết quả thực nghiệm  Kết quả trên tập dữ liệu Freebase[13]  Kết quả trên tập dữ liệu WordNet[13] 44
  • 46. Kết quả phần cải tiến Any BURL Kết quả chiến lược thêm tri thức mới vào đồ thị Kết quả độ tin cậy số luật sinh ra Tăng MR và MRR trung bình khoảng 1.05% Do sinh ra được các luật có confident rất cao 45
  • 47. Mã nguồn và quá trình thực hiện  AnyBURL :  Mã nguồn public : https://github.com/MinhTamPhan/mythesis  KBGAT :  Mã nguồn github (Graph Collaborate Attention Network) : https://github.com/hmthanh/GCAT  Public Google Colab : https://colab.research.google.com/drive/1Nu hMHYywKrKyqEe_nhjzBVRp3AbQf73g 46
  • 49. Kết luận Mô hình dựa trên luật Mô hình dựa trên học sâu Chi phí Thời gian huấn luyện vượt trội, chi phí tính toán nhỏ Thời gian rất lâu, hàng chục tiếng Chi phí tính toán cực lớn Thời gian dự đoán Lâu hơn do phải duyệt qua tất cả các luật Nhanh hơn do dựa trên các trọng số của mô hình để tính xác xuất Dữ liệu Học có thể lý giải được Học không thể lý giải (do các lớp hidden layer) Thêm tri thức Không ảnh hưởng nhiều khi thêm tri thức mới Phải huấn luyện lại từ đầu nếu thêm tri thức mới Đặc điểm học Chỉ học được dựa trên tần xuất của dữ liệu Học được các cấu trúc phức tạp mà không cần biết trước cấu trúc  So sánh hai phương pháp 48
  • 50. Hướng phát triển  Phương pháp dựa trên luật :  Gần đây nhóm nghiên cứu của tác giả C. Meilicke đã nghiên cứu một phương pháp dựa trên Reinforced learning nhằm tối ưu hóa lợi ích quá trình sinh ra luật  Phương pháp dựa trên học sâu :  Nhóm nghiên cứu về cải tiến của cơ chế chú ý (Collaborate Instead of Concatenate[8]) và mô hình CapsE  Dựa trên những cải tiến đáng kể của mô hình AnyBURL, và mô hình GCAT đang phát triển, nhóm có dự định public papers trong tương lai gần 49
  • 51. 5. Tài liệu tham khảo
  • 52. Trích dẫn  [1] A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications  [2] https://en.wikipedia.org/wiki/Knowledge_Graph  [3] http://web.informatik.uni-mannheim.de/AnyBURL/  [4] https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/  [5] Industry-scale Knowledge Graphs: Lessons and Challenges (Natasha Noy Yuqing Gao Anshu Jain Anant Narayanan Alan Patterson Jamie Taylor)  [6] Bahdanau, Dzmitry, Cho, Kyunghyun, and Bengio, Yoshua. “Neural machine translation by jointly learning to align and translate”. In: arXiv preprint arXiv:1409.0473 (2014).  [7] Cai, Hongyun, Zheng, Vincent W, and Chang, Kevin Chen-Chuan. “A comprehensive survey of graph embedding: Problems, techniques, and applications”. In: IEEE Transactions on Knowledge and Data Engineering 30.9 (2018), pp. 1616–1637  [8] Cordonnier, Jean-Baptiste, Loukas, Andreas, and Jaggi, Martin. “MultiHead Attention: Collaborate Instead of Concatenate”. In: arXiv preprint arXiv:2006.16362 (2020).  [9] Bordes, Antoine et al. “Translating embeddings for modeling multirelational data”. In: Advances in neural information processing systems. 2013, pp. 2787–2795.  [10] Nguyen, Dai Quoc et al. “A novel embedding model for knowledge base completion based on convolutional neural network”. In: arXiv preprint arXiv:1712.02121 (2017).  [11] Nathani, Deepak et al. “Learning attention-based embeddings for relation prediction in knowledge graphs”. In: arXiv preprint arXiv:1906.01195 (2019).  [12] Veliˇckovi´c, Petar et al. “Graph attention networks”. In: arXiv preprint arXiv:1710.10903 (2017)  [13] Meilicke, Christian et al. Anytime Bottom-Up Rule Learning for Knowledge Graph Completion. 2019. url: http://web.informatik.unimannheim.de/AnyBURL/meilicke19anyburl.pdf.  [13] Rossi, Andrea et al. “Knowledge Graph Embedding for Link Prediction: A Comparative Analysis”. In: arXiv preprint arXiv:2002.00819 (2020). 51
  • 53. 52

Editor's Notes

  1. [Thanh-30s] Chào thầy và các bạn, hôm nay bọn em sẽ trình bày về luận văn về dự đoán liên kết trong đồ thị tri thức Nhóm bọn em gồm 2 hai thành viên là Hoàng Minh Thanh   và Phan Minh Tâm Ghi giao viên phản biện, gv hướng dẫn Giới thiệu bài toán Các công trình liên quan có những hướng giải quyết nào Chọn cái nào để làm thì giải thích
  2. [Tâm-20s] Nội dung chính của luận văn bao gồm : 1. Đầu tiên chúng em giới thiệu về bài toán về đồ thị tri thức 2. Sau đó chúng em nêu ra vấn đề của đồ thị tri thức từ đó trình bày về vấn đề cần hoàn thiện đồ thị tri thức 3. Nhóm chúng em tìm hiểu về hai nhóm phương pháp gồm dựa trên luật và dựa trên học sâu 4. Cuối cùng chúng em sẽ trình bày kết quả thực nghiệm và kết luận
  3. [Tâm-1m30s] Giới thiệu bài toán Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube. Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức. Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết. => Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
  4. [Tâm-1m30s] Đầu tiền chúng ta cần phải hiểu đồ thị tri thức là gì ? Đồ thị tri thức là một cách biểu diễn thông tin có cấu trúc trong thế giới thực Như một ví dụ ở đây các đỉnh trong đồ thị tri thức được nối với nhau bằng một nhãn thể hiện quan hệ giữa chúng. Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube.  ví dụ như trong đồ thị trên 1 đỉnh ở đây đại điện cho một người hoặc một địa điểm. 2 đỉnh có cạnh nối với nhau nếu chúng có quan hệ với nhau chính là nhãn của cạnh Các đỉnh còn gọi là các entity các cạnh còn được gọi là quan hệ.
  5. [Tâm-30s] Đây là một ví dụ về tri thức. Ta biết rằng Melania Trump là vợ của ông tổng thống Mỹ Donald Trump. Tri thức hay thông tin trên được khái quát hóa thành một quan hệ có hướng giữa các đối tượng Các tri thức được lưu trữ thành từng dòng trong các tập dữ liệu
  6. [Tâm ]Đồ thị tri thức được biểu điễn ntn ? biểu điễn bằng danh sách cạnh dỉnh cạnh (nhãn của cạnh) 
  7. [Tâm-20s] [Định nghĩa về đồ thị tri thức] Đồ thị tri thức là một đồ thị có hướng với mỗi đỉnh là một thực thể, mỗi cạnh là một bộ ba bao gồm các sự kiện head relation tail Nhớ nói thêm ý, đây là đồ thị đồng nhất
  8. [Tâm-30s]  Trong thực tế, Google's Knowledge Graph là một ví dụ rõ ràng nhất của nhiệm vụ dự đoán liên kết Với mỗi đỉnh của đồ thị tri thức là một tri thức, như ví dụ ở đây khi ta nhập một từ nó không chỉ hiện thị một thực thể mà còn có thể dự đoán được các thực thể có liên quan . Được giới thiệu năm 2012 với 500 triệu thực thể, và 3.5 tỷ sự kiện.  Đến nay đã tăng lên khoảng 5 tỷ thực thể và 500 tỷ sự kiện [Không nói]=> Từ đây mới dẫn ra là có nhiều dữ liệu như vậy thì mới cần hoàn thiện đồ thị. Ví dụ khi chúng ta tìm kiếm hcmus thì Trường KHTN là một thực thể, và ta muốn tìm các thực thể có quan hệ liên quan. (*) : https://en.wikipedia.org/wiki/Knowledge_Graph (**) https://www.cnet.com/news/googles-knowledge-graph-tripled-in-size-in-seven-months/#:~:text=Today%20we%20learned%20just%20how,it%20did%20when%20it%20started.
  9. [Tâm-10s] Với thời đại hiện nay dữ liệu dữ liệu khổng lồ lên hàng terabyte thì đồ thị đến hàng tỷ đỉnh và quan hệ ví dụ như đồ thị quan hệ của FB hay youtube như vậy thì không thể đảm bảo thông tin chính xác.  Cũng như ta muốn khai thác các mối quan hệ giữa các đỉnh hay còn gọi là thực thể trên đồ thị.  Vì vậy nảy sinh ra vấn đề hoàn thiện đồ thị (điền những thôn tin còn thiếu vào đồ thị - thêm các cạnh có cho các thực thể có quan hệ) hay dự đoán liên kết trong đồ thị tri thức. Nhớ nói ý thu thập từ nhiều nguồn
  10. [Tâm - 10s] Dự đoán liên kết là nhiệm vụ cho đỉnh đầu và quan hệ, ta dự đoán đỉnh kết quả Hoặc cho quan hệ và đỉnh kết quả, ta muốn dự đoán đỉnh đầu. Một cách tổng quát, dự đoán liên kết là nhiệm vụ cho trước đỉnh nguồn hay source và quan hệ, ta muốn dự đoán đỉnh đích hay target Các vấn đề này cũng được nghiên cứu sôi nổi trong thời gian gần đây cùng với sự phát triển của các mô hình học sâu (depth learning) phát triển rất mạnh trong thời gian gần đây. Cùng với sự phát triển đó chúng em nghiên cứu 1 phương pháp đựa trên học sâu KBGAT để dự đoán liên kết. và một phương pháp dựa trên luật (Rule base) AnyBURL (anytime bottom up rule learning)
  11. phần này tụi em trình bày về các nghiên cúu nổi bật trong thời gian gần đây cùng với các phương pháp nổi bật mà tụi em đã khảo sát được
  12. [Thanh-15s] Trên đây là danh mục các hướng nghiên cứu trên đồ thị tri thức. Trong các hướng nghiên cứu dựa trên đồ thị tri thức bao gồm có : Học biểu diễn tri thức, thu nhận tri thức, nhận biết tri thức và đồ thị tri thức về thời gian Lĩnh vực nghiên cứu tri thức của bọn em thuộc nhóm nghiên cứu thu nhận tri thức (Knowledge acquisition) Và dự đoán liên kết (Link prediction) thuộc nhóm hoàn thiện đồ thị tri thức (Knowledge Graph Completion)
  13. Trong các hướng nghiên cứu ở trên các phương pháp được chia là 4 ngóm chính như rulebase, deep learning, hình học, phân rã ma trận Trong nhóm các phương pháp này đựa trên khảo sát của chúng em thì 3 nhóm deep learning, hình học, phân rã ma trận thuộc một nhánh gọi là nhúng đồ thị, chuyển đổi đồ thị đã cho vào một không gian có số chiều thấp khoảng 50  đến 100 chiều. Phương pháp còn lại dựa vào luật sinh ra các luật Horn hợp lệ trên đồ thị. Hầu hết các phương pháp này đều đưa ra k ứng viên khi đự đoán 1 đỉnh này có cạnh nối tới một đỉnh khác với một số điểm nhất định. Ngoài ra còn có các phương pháp khác ví dụ RuleDik là phương pháp đưa ra đự đoán với một ứng viên sao cho ít sai sót nhất và đúng nhiều nhất. (tối ưu hóa hàm mục tiêu) [10s ] với cách tiếp cận dựa trên luật tụi em chon pp  AnyBURL(anytime bottom up rule learning) : vì mô hình này khá đơn giản và cho kết quả tương đồng với các phương pháp hiện đại với thời gian training vượt trội Trong hướng tiếp cận deep learning tụi em chọn KBGAT để nghiên cứu vì nhánh nghiên cứu deep learning phát triển rất nhanh gần đây có kết qủa tốt trong các lĩnh vực như sử lý ảnh nhóm mong muốn áp dụng những kết quả này vào đồ thị tri thức
  14. [Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và  a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
  15. [Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và  a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
  16. [Tâm - 20s] Đối với nhóm phương pháp lý giải dựa trên luật chúng em tìm hiểu về luật Horn Rule và  a, b tương ứng với một đỉnh trong đồ thị, r tương ứng với nhãn hay quan hệ giữa 2 đỉnh
  17. Quy tắc (1) là quy tắcB(quy tắc nhị phân) quy tắc này nói rằng nếu một người (thực thể) X nói nguôn ngữ Y nếu người X sống ở đất nước Y. Rõràng quy tắc này là một quy tắc khái quát miễn khi nào thực thể X cócạnh nối với thực thể Y với nhãn là lives thì có thể kết thêm 1 cạnh với nhãn speaks giữa X và Y.  Quy tắc (2), (3) điều là quy tắcUc,quy tắc (2)nói rằng ngườiXsống ở thành phố Y nếu người X sống ở quốc gia A vàthành phố Y nằm trong quốc gia A,  quy tắc (3) nói rằng nếu một người X là nữ nếu họ kết hôn với một người A và người A có giới tính nam. quy tắc (3) không tạo thành chu trình trên đồ thị như quy tắc (2) đỉnh(Y) lặp lại ở head atomvà đỉnh cuối cùng trong body atoms.  Quy tắc (4)là quy tắc Ud nói rằng người X là một điễn viên nếu ngườiXđóng trongmột bộ phim A
  18. Đầu vào của thuật toán G know,S,SAT,Q,TS.  Đầu ra là tập hợp R các luật học được. Trong đó Gknow là một đồ thị tri thức được cho từ tập dữliệu đào tạo. S là tham số cho biết kích thước của một lần lấy mẫu trên dữ liệu đào tạo để tính toán độ tin cậy. SAT cho biết độ bão hòa(saturation)của các luật được sinh ra trong 1 lần lặp độ bão hòa này được tính bằngsố luậtmớihọc được ở lần lặp hiện tại so với số luật đã học được. Nếunhỏ hơn độ bão hòa thì chúng tôi cho rằng vẫn còn tiềm năng để khai thác các luật với độ dài n. Ngược lại chúng tôi tăng độ dài của luật sau đó tiếp tục khai thác.Q là một ngưỡng để xác định xem luật mới được sinh ra có được thêm vào kết quả trả về hay không.  Còn TS cho biết thời gian học của thuật toán trong 1 lần lấymẫu gọi là batch time
  19. Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị. Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕ lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5, Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
  20. [Tâm] Ngoài phương pháp dựa trên luật, hướng tiếp cận thứ hai của chúng em là tìm hiểu các mô hình dựa trên nhưng.
  21. [Tâm 30m] Phần vector ông nói sơ qua : Ví dụ ở đây ta có Tương tự như vậy Facebook cũng xây dựng một đồ thị dới các đặc trưngkhông thể đo hoặc không có giá trị (.area) sẽ bằng 0, với các đặc trưng. là giá trị mà không có độ lớn (.wife) thì ta chia thành độ lớn là xác suất của các đặc trưng thành phần đơn vị (.wife is Melania,.wife is Taylor). Như vậymọi đối tượng trong thế giới thực đều các có thểnhúngthành các vectormột cách tường minh Ghi chú : Phần vector Trump là tui tự nói nên không thể không đúng hoặc đầy đủ nên không đưa vào đây
  22. [Thanh-10s] Nhúng đỉnh thì mỗi phần tử trong vector của đỉnh được nhúng đại điện trọng số cho một mối quan hệ. nhúng cạnh thì mỗi phần tử trong vector đại điện cho trọng số của các đỉnh nó. nhúng kết họp thì mỗi phần thử trong vector đại điện cho một cấu trúc con của các đỉnh và cạnh liên kết. nhúng toàn bộ đồ thị thì mỗi phần tử đại điện đặc trưng về cạnh hoặc đỉnh của đồ thị thông thường vector này có số chiều rất lớn mới biểu điễn hết thông tin của đồ thị
  23. [Tâm - ] Sau đây em xin giới thiệu một phương pháp tiêu biểu của mô hình nhúng Một trong những mô hình cơ bản nhất của phương pháp nhúng đỉnh thì mỗi phần tử trong vector của đỉnh được nhúng đại điện trọng số cho một mối quan hệ.
  24. Phép cộng h + r biểu thị cho phép tịnh tiến vector h theo vector r. Việc tối ưu hóa được thực hiện bằng cách giảm gradian ngẫu nhiên (trong chế độ minibatch), trên có thể h, l và t , với các ràng buộc bổ sung mà tiêu chuẩn L2 của các phép nhúng của các thực thể là 1  (không có ràng buộc chính quy hoặc quy chuẩn nào được đưa ra nhãn nhúng `). r chỉ chuẩn hóa lần dầu tiên. các bước sau không chuẩn hóa tiếp Ràng buộc này rất quan trọng đối với mô hình của chúng tôi, cũng như đối với các phương pháp dựa trên nhúng trước đây [3, 6, 2],  vì nó ngăn cản quá trình đào tạo để giảm thiểu loss function. đã được chứng minh
  25. nếu d - d' > 0 tức là khoảng cách của vector sau khi tịnh tiến gần véctor giả t' hơn vector t nên ta cần cập nhật trọng số lại cho các vector nhúng. ngược lại nếu d - d'  < 0 tức vector sau khi tịnh tiến gần hơn với vector t. thì mình đã đạt được mục tiêu h + r ~ t
  26. [Tâm] Ngoài phương pháp dựa trên luật, hướng tiếp cận thứ hai của chúng em là tìm hiểu các mô hình dựa trên nhưng.
  27. [Thanh-1m] Đặc điểm chung của phương pháp Deep Learning là tối ưu hàm mục tiêu dựa trên một lượng lớn dữ liệu Bằng cách đạo hàm ngược để cập nhật trọng số của hàm f(x) Đối với nhiệm vụ dự đoán liên kết, ta có head và relation ta muốn dự đoán tail. Cách tiếp cận ở đây là xây dựng một mô hình để xếp hạng các ứng viên. Để xếp hạng các ứng viên, đầu tiên ta cần nhúng các vector nhưng Tuy nhiên đối với đồ thị ta cần biểu diễn các đặc trưng của đồ thị lên không gian trước rồi mới xây dựng hàm xếp hạng
  28. [1m30s] Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube. Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức. Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết. => Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
  29. [10] Có ba độ đo phổ biến gồm : H@K, MR, MRR theo các công thức sau H@K; MRR thì càng lớn càng tốt MR thì càng nhỏ càng tốt Như ta thấy công thức ở đây, nếu tính trung bình của rank theo độ đo MR thì nếu có một rank quá lớn hoặc quá nhỏ so với các phần khác sẽ tác động rất lớn đến kết quả độ đo. Vì vậy người ta phát triển thêm độ đô MRR để tránh bị nhiễu
  30. Nhớ nói những kết quả khác được khảo sát của nhóm tác giả Rossi, Andrea
  31. [10s] Nhìn chung kết quả phần cải tiến tăng độ chính xác ở độ đo hit@10 tăng lên 1 ít so với kết quả ban đầu. tăng các độ đo về MR và MRR. bảng dưới đưa ra số luật sinh ra có conficande > 50%, 80% nhằm lý giải cho việc tăng độ chính xác của các độ đo MR và MRR Tăng được MR và MRR là do sinh được các luật có confident rất là cao
  32. [1m30s] Ngày nay đồ thị đã được ứng dụng vào mọi mặt của đời sống, với đồ thị về mạng xã hội của Facebook thể hiện thông tin kết nối từng người với nhau, những nơi chúng ta đến, những thông tin chúng ta tương tác, hay đồ thị cũng được sử dụng làm cấu trúc trong hệ thống gợi ý video Youtube. Đồ thị tri thức của Google (Google’s Knowledge Graph) được Google giới thiệu năm 2012 (một loại đồ thị biểu diễn thông tin), là một trong những ứng dụng rõ ràng nhất về đồ thị tri thức cũng như cách dữ liệu được khai thác và biểu diễn trên đồ thị tri thức. Với những khối lượng lớn dữ liệu được thu thập từ nhiều nguồn khác nhau dẫn đến thông tin trong đồ thị không đầy đủ hoặc không đúng, hơn nữa chúng ta mong muốn dự đoán được thêm thông tin dựa trên các dữ liệu biểu diễn bằng đồ thị tri thức. Từ đó nảy sinh vấn đề hoàn thiện đồ thị hay dự đoán liên kết. => Vì vậy chúng em tìm hiểu về đề tài dự đoán liên kết trên đồ thị tri thức.
  33. Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị. Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕ lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5, Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
  34. Thuật toán này là phần bổ xung của chúng tôi để tránh việc phải đào tạo lại toàn bộ mô hình khi có một lượng tri thức mới được thêm vào đồ thị. Khi thêm vào đồ thị chúng tôi kiểm trả xem phần tri thức mới cókết nối với tri thức cũ hay không (tính liên thông) nếu có chúng tôi thực hiện phép toán ⊕ lấy tất cả các phần trong batch_edge thêm với 1 phần liên thông với những cạnh liên thông với đồ thị với dộ dài là 5, Nếu khôngchúng tôi lấy tất cả các phần trong batch_edge sau đó thực hiện lại các bước như thuật toán Anytime Bottom-up Rule Learning
  35. Phép cộng h + r biểu thị cho phép tịnh tiến vector h theo vector r. Việc tối ưu hóa được thực hiện bằng cách giảm gradian ngẫu nhiên (trong chế độ minibatch), trên có thể h, l và t , với các ràng buộc bổ sung mà tiêu chuẩn L2 của các phép nhúng của các thực thể là 1  (không có ràng buộc chính quy hoặc quy chuẩn nào được đưa ra nhãn nhúng `). r chỉ chuẩn hóa lần dầu tiên. các bước sau không chuẩn hóa tiếp Ràng buộc này rất quan trọng đối với mô hình của chúng tôi, cũng như đối với các phương pháp dựa trên nhúng trước đây [3, 6, 2],  vì nó ngăn cản quá trình đào tạo để giảm thiểu loss function. đã được chứng minh