オートエンコーダとの同時学習による知識共有2. • 知識ベース:エンティティとそれらの間の関係
• 動機:知識ベースは不完全
• Freebaseに記録された人の中で 78.5% は国籍の情報
がない (Min et al., 2013)
2018/3/13 2
記述もれした事実を補完する「知識ベース補完」
言語処理学会年次大会
Donald Trump
New York City
United States
知識ベース
② 知識ベースに書かれていない
記述もれした事実を補完したい
① 知識ベースに
書かれた知識を
モデル化して
was_born_in is_located_in
nationality
6. 2018/3/13 言語処理学会年次大会 6
本研究:関係のオートエンコーダを同時学習
先行研究 [Guu+’15]
本研究
KB-learning objective
(noise-contrastive estimation):
ℒKB ≔
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし,
𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
Reconstruction objective
(noise-contrastive estimation):
ℒAE ≔
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
𝑘 + 𝑔 𝑟, 𝑟
+
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし,
𝑔 𝑟1, 𝑟2 ≔ exp
1
𝑑𝑐
𝒎 𝑟1
⊤
𝑩ReLU(𝑨𝒎 𝑟2
)
𝒎1
ℒAE
ℒKB
7. 2018/3/13 言語処理学会年次大会 7
本研究:関係のオートエンコーダを同時学習
本研究
KB-learning objective
(noise-contrastive estimation):
ℒKB ≔
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし,
𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
Reconstruction objective
(noise-contrastive estimation):
ℒAE ≔
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
𝑘 + 𝑔 𝑟, 𝑟
+
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし,
𝑔 𝑟1, 𝑟2 ≔ exp
1
𝑑𝑐
𝒎 𝑟1
⊤
𝑩ReLU(𝑨𝒎 𝑟2
)
𝒎1
ℒAE
ℒKB
全ての関係で共通のパラメータを使う
関係間のパラメータ共有効果を期待
先行研究 [Guu+’15]
9. • 確率的勾配降下法の学習率の
一般的なプラクティス (Bottou, 2012):
𝛼 𝜏 ≔
𝜂
1 + 𝜂𝜆𝜏
• 𝜂, 𝜆: ハイパーパラメータ,𝜏: ステップカウンタ
• 学習率を詳細に調整するための変更:
• 学習率を関係ごとに減衰させるために,
関係ごとの「更新回数」をステップカウンタに使う
• ∇ℒKBと∇ℒAEの学習率を個別に調整するために
別々のハイパーパラメータを用意する
𝛼KB 𝜏 𝑟 ≔
𝜂KB
1 + 𝜂KB 𝜆KB 𝜏 𝑟
, 𝛼AE 𝜏 𝑟 ≔
𝜂AE
1 + 𝜂AE 𝜆AE 𝜏 𝑟
2018/3/13 言語処理学会年次大会 9
確率的勾配降下法の学習率を詳細に調整する
10. 2018/3/13 言語処理学会年次大会 10
初期は∇ℒKBを多く更新し,漸次的にバランスさせる
1/(𝜆KB 𝜏 𝑟)
𝜂KB
0 𝜏 𝑟
𝛼(𝜏 𝑟)
𝜂AE
𝛼KB 𝜏 𝑟 ≔
𝜂KB
1 + 𝜂KB 𝜆KB 𝜏 𝑟
, 𝛼AE 𝜏 𝑟 ≔
𝜂AE
1 + 𝜂AE 𝜆AE 𝜏 𝑟
• 学習の初期段階は𝛁𝓛 𝑲𝑩を多めに更新:
𝜂KB ≫ 𝜂AE
• 学習初期のオートエンコーダは
ランダムに近く,∇ℒAEはほとんど
意味をなさない
• 学習が進むにつれて𝜶 𝐊𝐁(𝝉 𝒓)𝛁𝓛 𝑲𝑩と
𝜶 𝑨𝑬(𝝉 𝒓)𝛁𝓛 𝑨𝑬のスケールが合うように
する
• 今回は𝜆KB = 𝜆AEとし,オートエンコー
ダのスコア関数の係数1/ 𝑑𝑐で調整:
𝑔 𝑟1, 𝑟2 ≔ exp
1
𝑑𝑐
𝒎 𝑟1
⊤
𝑩ReLU(𝑨𝒎 𝑟2
)
1/(𝜆AE 𝜏 𝑟)
12. データセット #Entity #Relation #Train #Valid #Test
WN18
[Bordes+’13]
40,943 18 141,442 5,000 5,000
FB15k
[Bordes+’13]
14,951 1,345 483,142 50,000 59,071
WN18RR
[Dettmers+’18]
40,943 11 86,835 3,034 3,134
FB15k-237
[Toutanova&Chen’15]
14,541 237 272,115 17,535 20,466
2018/3/13 言語処理学会年次大会 12
ベンチマークデータセット
• WN18, WN18RR: WordNet のサブセット
• FB15k, FB15k-237: Freebase のサブセット
• WN18RR と FB15k-237 はそれぞれ WN18 と FB15k の
data leakage を解消
13. 2018/3/13 言語処理学会年次大会 13
実験設定:エンティティの予測性能を比較
評価事例:
(Donald Trump, nationality, United State)
エンティティ スコア ランク
New York City 0.78 2
United States 0.91 1
Barack Obama 0.23 4
Honolulu 0.55 3
(Donald Trump, nationality, )
エンティティを取り除く
にエンティティを埋めてスコアを計算
「Donald Trumpの国籍は
どこか?」の問題に相当
全ての評価事例毎にランキングをとり,
正解のエンティティの平均ランク
(Mean Rank; MR)と上位10位以内
にランクする精度 (Hits@10; H10) で
比較
14. Model WN18 FB15k WN18RR FB15k-237
MR H10 MR H10 MR H10 MR H10
Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - -
IRN [Shen+’17] 249 95.3 38 92.7 - - - -
ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
2018/3/13 言語処理学会年次大会 14
知識ベース補完評価結果
Base Joint
15. Model WN18 FB15k WN18RR FB15k-237
MR H10 MR H10 MR H10 MR H10
Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - -
IRN [Shen+’17] 249 95.3 38 92.7 - - - -
ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
2018/3/13 言語処理学会年次大会 15
知識ベース補完評価結果
Base Joint
同時学習無し (Base) と有り (Joint) の比較
• オートエンコーダとの同時学習は主にMRを改善
16. Model WN18 FB15k WN18RR FB15k-237
MR H10 MR H10 MR H10 MR H10
Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - 41.7
IRN [Shen+’17] 249 95.3 38 92.7 - - 211 46.4
ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
2018/3/13 言語処理学会年次大会 16
知識ベース補完評価結果
Base Joint
これまでのSOTAとの比較
• WN18でcomparable
• WN18RRとFB15k-237でSOTAを大幅に上回る
17. 2018/3/13 言語処理学会年次大会 17
同時学習のパラメータ共有効果を確認
本研究
KB-learning objective
(noise-contrastive estimation):
ℒKB ≔
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし,
𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
Reconstruction objective
(noise-contrastive estimation):
ℒAE ≔
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
𝑘 + 𝑔 𝑟, 𝑟
+
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし,
𝑔 𝑟1, 𝑟2 ≔ exp
1
𝑑𝑐
𝒎 𝑟1
⊤
𝑩ReLU(𝑨𝒎 𝑟2
)
𝒎1
ℒAE
ℒKB
全ての関係で共通のパラメータを使う
関係間のパラメータ共有効果を期待
関係をエンコードしたベクトルを分析
先行研究 [Guu+’15]
25. • 関係はエンティティ間の平行移動 (Bordes et al., 2013)
• 𝒗 𝑇𝑟𝑢𝑚𝑝 + 𝒗 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘
• ✔ 関係のパラメータ数は𝑑
• ✖ 複雑な関係に対しては表現力が不足する
• 線形変換を表す行列は対角行列 (Yang et al., 2015)
• 𝒗 𝑇𝑟𝑢𝑚𝑝 ⋅ diag(𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛) ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘
• ✔ 関係のパラメータ数は𝑑
• ✖ 複雑な関係に対しては表現力が不足する
• 関係の行列は少数のプロトタイプの組み合わせ (Xie et al., 2017)
• ✔ 関係間の知識共有を明示的にモデル化
• ✖ 通常の勾配法による学習ができない
• ハードな制約のためにそれぞれ困難を抱える
2018/3/13 言語処理学会年次大会 25
既存研究:事前に設計されたハードな制約を課す