オートエンコーダとの同時学習による知識共有

オートエンコーダとの同時学習
による知識共有
高橋諒1 田然1 乾健太郎1,2
1東北大学 2理研AIP

• 知識ベース：エンティティとそれらの間の関係
• 動機：知識ベースは不完全
• Freebaseに記録された人の中で 78.5% は国籍の情報
がない (Min et al., 2013)
2018/3/13 2
記述もれした事実を補完する「知識ベース補完」
言語処理学会年次大会
Donald Trump
New York City
United States
知識ベース
② 知識ベースに書かれていない
記述もれした事実を補完したい
① 知識ベースに
書かれた知識を
モデル化して
was_born_in is_located_in
nationality

2018/3/13 3
主要なアプローチ：ベクトル空間モデル
Honolulu
Donald Trump
New York City
United States
is_located_inwas_born_in
nationality
エンティティは
ベクトル空間上の点
関係はエンティティ
間のマッピング
低次元ベクトル空間
Barack Obama

2018/3/13 4
低次元の空間に埋め込む利点はパラメータ共有
• 低次元の場合，エンティティはパラメータを共有することが強制される
 同じ関係を共有する「似た」エンティティは互いに近づく
• 汎化性能の向上に直結
Honolulu
Donald Trump
New York City
United States
nationalityBarack Obama

2018/3/13 5
関係はパラメータが多くなるので共有されにくい
• 関係を線形変換としてモデル化：𝒗 𝑇𝑟𝑢𝑚𝑝
⊤
𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘
⊤
• エンティティが𝑑次元ベクトル
 関係は𝒅 𝟐のパラメータが必要となりパラメータ共有されにくい
• 研究課題：いかに関係の次元を削減するか？
Honolulu
Donald Trump
New York City
United States
nationality
エンティティは
ベクトル空間上の点
関係はエンティティ
間のマッピング
Barack Obama

2018/3/13 言語処理学会年次大会 6
本研究：関係のオートエンコーダを同時学習
先行研究 [Guu+’15]
本研究
KB-learning objective
(noise-contrastive estimation):
ℒKB ≔ ෍
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+ ෍
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし，
𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
Reconstruction objective
ℒAE ≔ ෍
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
𝑘 + 𝑔 𝑟, 𝑟
+ ෍
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし，
𝑔 𝑟1, 𝑟2 ≔ exp
1
𝑑𝑐
𝒎 𝑟1
⊤
𝑩ReLU(𝑨𝒎 𝑟2
)
𝒎1
ℒAE
ℒKB

本研究：関係のオートエンコーダを同時学習
本研究
ℒKB ≔ ෍
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+ ෍
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし，
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
ℒAE ≔ ෍
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
+ ෍
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし，
1
𝑑𝑐
𝒎 𝑟1
⊤
)
𝒎1
ℒAE
ℒKB
全ての関係で共通のパラメータを使う
 関係間のパラメータ共有効果を期待

オートエンコーダとの同時学習は簡単ではない
ℒAE
ℒKB
 ∇ℒKBを更新しすぎると
オートエンコーダは効果がない
 ∇ℒAEを更新しすぎると
全ての関係の行列が一つの
クラスタに集まる
二つの勾配から受け取る
更新のバランスをうまく
調整する必要がある
本発表：同時学習を上手く
進めるための設定を紹介

• 確率的勾配降下法の学習率の
一般的なプラクティス (Bottou, 2012):
𝛼 𝜏 ≔
𝜂
1 + 𝜂𝜆𝜏
• 𝜂, 𝜆: ハイパーパラメータ，𝜏: ステップカウンタ
• 学習率を詳細に調整するための変更：
• 学習率を関係ごとに減衰させるために，
関係ごとの「更新回数」をステップカウンタに使う
• ∇ℒKBと∇ℒAEの学習率を個別に調整するために
別々のハイパーパラメータを用意する
𝛼KB 𝜏 𝑟 ≔
𝜂KB
1 + 𝜂KB 𝜆KB 𝜏 𝑟
, 𝛼AE 𝜏 𝑟 ≔
𝜂AE
1 + 𝜂AE 𝜆AE 𝜏 𝑟
確率的勾配降下法の学習率を詳細に調整する

初期は∇ℒKBを多く更新し，漸次的にバランスさせる
1/(𝜆KB 𝜏 𝑟)
𝜂KB
0 𝜏 𝑟
𝛼(𝜏 𝑟)
𝜂AE
𝛼KB 𝜏 𝑟 ≔
𝜂KB
1 + 𝜂KB 𝜆KB 𝜏 𝑟
, 𝛼AE 𝜏 𝑟 ≔
𝜂AE
1 + 𝜂AE 𝜆AE 𝜏 𝑟
• 学習の初期段階は𝛁𝓛 𝑲𝑩を多めに更新：
𝜂KB ≫ 𝜂AE
• 学習初期のオートエンコーダは
ランダムに近く，∇ℒAEはほとんど
意味をなさない
• 学習が進むにつれて𝜶 𝐊𝐁(𝝉 𝒓)𝛁𝓛 𝑲𝑩と
𝜶 𝑨𝑬(𝝉 𝒓)𝛁𝓛 𝑨𝑬のスケールが合うように
する
• 今回は𝜆KB = 𝜆AEとし，オートエンコー
ダのスコア関数の係数1/ 𝑑𝑐で調整：
1
𝑑𝑐
𝒎 𝑟1
⊤
)
1/(𝜆AE 𝜏 𝑟)

評価実験

データセット #Entity #Relation #Train #Valid #Test
WN18
[Bordes+’13]
40,943 18 141,442 5,000 5,000
FB15k
[Bordes+’13]
14,951 1,345 483,142 50,000 59,071
WN18RR
[Dettmers+’18]
40,943 11 86,835 3,034 3,134
FB15k-237
[Toutanova&Chen’15]
14,541 237 272,115 17,535 20,466
ベンチマークデータセット
• WN18, WN18RR: WordNet のサブセット
• FB15k, FB15k-237: Freebase のサブセット
• WN18RR と FB15k-237 はそれぞれ WN18 と FB15k の
data leakage を解消

実験設定：エンティティの予測性能を比較
評価事例：
(Donald Trump, nationality, United State)
エンティティスコアランク
New York City 0.78 2
United States 0.91 1
Barack Obama 0.23 4
Honolulu 0.55 3
(Donald Trump, nationality, )
エンティティを取り除く
にエンティティを埋めてスコアを計算
「Donald Trumpの国籍は
どこか？」の問題に相当
全ての評価事例毎にランキングをとり，
正解のエンティティの平均ランク
（Mean Rank; MR）と上位10位以内
にランクする精度 (Hits@10; H10) で
比較

Model WN18 FB15k WN18RR FB15k-237
MR H10 MR H10 MR H10 MR H10
Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - -
IRN [Shen+’17] 249 95.3 38 92.7 - - - -
ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
知識ベース補完評価結果
Base Joint

Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - -
IRN [Shen+’17] 249 95.3 38 92.7 - - - -
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
Base Joint
同時学習無し (Base) と有り (Joint) の比較
• オートエンコーダとの同時学習は主にMRを改善

Base 195 94.8 65 74.3 2214 52.0 203 51.5
Joint 191 94.8 61 74.2 2293 52.2 197 51.6
ITransF [Xie+’17] 205 94.2 65 81.0 - - - -
R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - 41.7
IRN [Shen+’17] 249 95.3 38 92.7 - - 211 46.4
ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1
Base Joint
これまでのSOTAとの比較
• WN18でcomparable
• WN18RRとFB15k-237でSOTAを大幅に上回る

同時学習のパラメータ共有効果を確認
本研究
ℒKB ≔ ෍
path
ln
𝑠 ℎ, 𝑟1, … , 𝑡
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡
+ ෍
noise
ln
𝑘
𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆
ただし，
⊤
𝑴 𝑟1
⋯ 𝑴 𝑟 𝑙
𝒗 𝑡
ℒAE ≔ ෍
𝑟∈ℛ
ln
𝑔 𝑟, 𝑟
+ ෍
𝑟∗∈ℛ
ln
𝑘
𝑘 + 𝑔 𝑟, 𝑟∗
ただし，
1
𝑑𝑐
𝒎 𝑟1
⊤
)
𝒎1
ℒAE
ℒKB
全ての関係で共通のパラメータを使う
 関係間のパラメータ共有効果を期待
関係をエンコードしたベクトルを分析

スパースで解釈可能なエンコーディングを学習
FB15k-237の関係
関係のエンコード後のベクトル

FB15k-237の関係
• スパースな
エンコーディングを
学習
• ほとんどの関係は
2, 3次元の大きな値を
持つ

FB15k-237の関係
• 他の関係でほぼ使わ
れない次元に高い値
が割り当てられる
• データセット中の大
きなカテゴリ（映画，
人）を結びつける，
出現頻度の高い関係
• 知識ベースの骨組み
を成す

FB15k-237の関係
• 12番目の次元が「通貨」と強く関係がある
• 「通貨」の関係間でパラメータを共有

FB15k-237の関係
• 4番目の次元が「映画」と強く関係がある
• 「映画」の関係間でパラメータを共有

• 知識ベース補完のための埋め込みモデルを提案
• 研究課題：いかに関係の次元を削減するか？
• 解決策：オートエンコーダとの同時学習
• 学習をうまく進めるためのテクニックを導入
• 評価結果：WN18RRとFB15k-237でSOTA
• 関係のエンコーディングの可視化により
関係間のパラメータ共有を確かめた
まとめ

補足資料

• 関係はエンティティ間の平行移動 (Bordes et al., 2013)
• 𝒗 𝑇𝑟𝑢𝑚𝑝 + 𝒗 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘
• ✔ 関係のパラメータ数は𝑑
• ✖ 複雑な関係に対しては表現力が不足する
• 線形変換を表す行列は対角行列 (Yang et al., 2015)
• 𝒗 𝑇𝑟𝑢𝑚𝑝 ⋅ diag(𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛) ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘
• ✔ 関係のパラメータ数は𝑑
• ✖ 複雑な関係に対しては表現力が不足する
• 関係の行列は少数のプロトタイプの組み合わせ (Xie et al., 2017)
• ✔ 関係間の知識共有を明示的にモデル化
• ✖ 通常の勾配法による学習ができない
• ハードな制約のためにそれぞれ困難を抱える
既存研究：事前に設計されたハードな制約を課す

オートエンコーダとの同時学習による知識共有

Recommended

Recommended

More Related Content

Featured

Featured (20)

オートエンコーダとの同時学習による知識共有