Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

オートエンコーダとの同時学習による知識共有

158 views

Published on

NLP2018の発表スライド

Published in: Engineering
  • Be the first to comment

オートエンコーダとの同時学習による知識共有

  1. 1. オートエンコーダとの同時学習 による知識共有 高橋 諒1 田 然1 乾 健太郎1,2 1東北大学 2理研AIP
  2. 2. • 知識ベース:エンティティとそれらの間の関係 • 動機:知識ベースは不完全 • Freebaseに記録された人の中で 78.5% は国籍の情報 がない (Min et al., 2013) 2018/3/13 2 記述もれした事実を補完する「知識ベース補完」 言語処理学会年次大会 Donald Trump New York City United States 知識ベース ② 知識ベースに書かれていない 記述もれした事実を補完したい ① 知識ベースに 書かれた知識を モデル化して was_born_in is_located_in nationality
  3. 3. 2018/3/13 3 主要なアプローチ:ベクトル空間モデル 言語処理学会年次大会 Honolulu Donald Trump New York City United States is_located_inwas_born_in nationality エンティティは ベクトル空間上の点 関係はエンティティ 間のマッピング 低次元ベクトル空間 Barack Obama
  4. 4. 2018/3/13 4 低次元の空間に埋め込む利点はパラメータ共有 言語処理学会年次大会 • 低次元の場合,エンティティはパラメータを共有することが強制される  同じ関係を共有する「似た」エンティティは互いに近づく • 汎化性能の向上に直結 Honolulu Donald Trump New York City United States is_located_inwas_born_in nationalityBarack Obama
  5. 5. 2018/3/13 5 関係はパラメータが多くなるので共有されにくい 言語処理学会年次大会 • 関係を線形変換としてモデル化:𝒗 𝑇𝑟𝑢𝑚𝑝 ⊤ 𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 ⊤ • エンティティが𝑑次元ベクトル  関係は𝒅 𝟐のパラメータが必要となりパラメータ共有されにくい • 研究課題:いかに関係の次元を削減するか? Honolulu Donald Trump New York City United States is_located_inwas_born_in nationality エンティティは ベクトル空間上の点 関係はエンティティ 間のマッピング Barack Obama
  6. 6. 2018/3/13 言語処理学会年次大会 6 本研究:関係のオートエンコーダを同時学習 先行研究 [Guu+’15] 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB
  7. 7. 2018/3/13 言語処理学会年次大会 7 本研究:関係のオートエンコーダを同時学習 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB 全ての関係で共通のパラメータを使う  関係間のパラメータ共有効果を期待 先行研究 [Guu+’15]
  8. 8. 2018/3/13 言語処理学会年次大会 8 オートエンコーダとの同時学習は簡単ではない ℒAE ℒKB  ∇ℒKBを更新しすぎると オートエンコーダは効果がない  ∇ℒAEを更新しすぎると 全ての関係の行列が一つの クラスタに集まる 二つの勾配から受け取る 更新のバランスをうまく 調整する必要がある 本発表:同時学習を上手く 進めるための設定を紹介
  9. 9. • 確率的勾配降下法の学習率の 一般的なプラクティス (Bottou, 2012): 𝛼 𝜏 ≔ 𝜂 1 + 𝜂𝜆𝜏 • 𝜂, 𝜆: ハイパーパラメータ,𝜏: ステップカウンタ • 学習率を詳細に調整するための変更: • 学習率を関係ごとに減衰させるために, 関係ごとの「更新回数」をステップカウンタに使う • ∇ℒKBと∇ℒAEの学習率を個別に調整するために 別々のハイパーパラメータを用意する 𝛼KB 𝜏 𝑟 ≔ 𝜂KB 1 + 𝜂KB 𝜆KB 𝜏 𝑟 , 𝛼AE 𝜏 𝑟 ≔ 𝜂AE 1 + 𝜂AE 𝜆AE 𝜏 𝑟 2018/3/13 言語処理学会年次大会 9 確率的勾配降下法の学習率を詳細に調整する
  10. 10. 2018/3/13 言語処理学会年次大会 10 初期は∇ℒKBを多く更新し,漸次的にバランスさせる 1/(𝜆KB 𝜏 𝑟) 𝜂KB 0 𝜏 𝑟 𝛼(𝜏 𝑟) 𝜂AE 𝛼KB 𝜏 𝑟 ≔ 𝜂KB 1 + 𝜂KB 𝜆KB 𝜏 𝑟 , 𝛼AE 𝜏 𝑟 ≔ 𝜂AE 1 + 𝜂AE 𝜆AE 𝜏 𝑟 • 学習の初期段階は𝛁𝓛 𝑲𝑩を多めに更新: 𝜂KB ≫ 𝜂AE • 学習初期のオートエンコーダは ランダムに近く,∇ℒAEはほとんど 意味をなさない • 学習が進むにつれて𝜶 𝐊𝐁(𝝉 𝒓)𝛁𝓛 𝑲𝑩と 𝜶 𝑨𝑬(𝝉 𝒓)𝛁𝓛 𝑨𝑬のスケールが合うように する • 今回は𝜆KB = 𝜆AEとし,オートエンコー ダのスコア関数の係数1/ 𝑑𝑐で調整: 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 1/(𝜆AE 𝜏 𝑟)
  11. 11. 評価実験 2018/3/13 言語処理学会年次大会 11
  12. 12. データセット #Entity #Relation #Train #Valid #Test WN18 [Bordes+’13] 40,943 18 141,442 5,000 5,000 FB15k [Bordes+’13] 14,951 1,345 483,142 50,000 59,071 WN18RR [Dettmers+’18] 40,943 11 86,835 3,034 3,134 FB15k-237 [Toutanova&Chen’15] 14,541 237 272,115 17,535 20,466 2018/3/13 言語処理学会年次大会 12 ベンチマークデータセット • WN18, WN18RR: WordNet のサブセット • FB15k, FB15k-237: Freebase のサブセット • WN18RR と FB15k-237 はそれぞれ WN18 と FB15k の data leakage を解消
  13. 13. 2018/3/13 言語処理学会年次大会 13 実験設定:エンティティの予測性能を比較 評価事例: (Donald Trump, nationality, United State) エンティティ スコア ランク New York City 0.78 2 United States 0.91 1 Barack Obama 0.23 4 Honolulu 0.55 3 (Donald Trump, nationality, ) エンティティを取り除く にエンティティを埋めてスコアを計算 「Donald Trumpの国籍は どこか?」の問題に相当 全ての評価事例毎にランキングをとり, 正解のエンティティの平均ランク (Mean Rank; MR)と上位10位以内 にランクする精度 (Hits@10; H10) で 比較
  14. 14. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - - IRN [Shen+’17] 249 95.3 38 92.7 - - - - ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 14 知識ベース補完評価結果 Base Joint
  15. 15. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - - IRN [Shen+’17] 249 95.3 38 92.7 - - - - ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 15 知識ベース補完評価結果 Base Joint 同時学習無し (Base) と有り (Joint) の比較 • オートエンコーダとの同時学習は主にMRを改善
  16. 16. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - 41.7 IRN [Shen+’17] 249 95.3 38 92.7 - - 211 46.4 ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 16 知識ベース補完評価結果 Base Joint これまでのSOTAとの比較 • WN18でcomparable • WN18RRとFB15k-237でSOTAを大幅に上回る
  17. 17. 2018/3/13 言語処理学会年次大会 17 同時学習のパラメータ共有効果を確認 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB 全ての関係で共通のパラメータを使う  関係間のパラメータ共有効果を期待 関係をエンコードしたベクトルを分析 先行研究 [Guu+’15]
  18. 18. 2018/3/13 言語処理学会年次大会 18 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル
  19. 19. 2018/3/13 言語処理学会年次大会 19 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • スパースな エンコーディングを 学習 • ほとんどの関係は 2, 3次元の大きな値を 持つ
  20. 20. 2018/3/13 言語処理学会年次大会 20 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 他の関係でほぼ使わ れない次元に高い値 が割り当てられる • データセット中の大 きなカテゴリ(映画, 人)を結びつける, 出現頻度の高い関係 • 知識ベースの骨組み を成す
  21. 21. 2018/3/13 言語処理学会年次大会 21 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 12番目の次元が「通貨」と強く関係がある • 「通貨」の関係間でパラメータを共有
  22. 22. 2018/3/13 言語処理学会年次大会 22 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 4番目の次元が「映画」と強く関係がある • 「映画」の関係間でパラメータを共有
  23. 23. • 知識ベース補完のための埋め込みモデルを提案 • 研究課題:いかに関係の次元を削減するか? • 解決策:オートエンコーダとの同時学習 • 学習をうまく進めるためのテクニックを導入 • 評価結果:WN18RRとFB15k-237でSOTA • 関係のエンコーディングの可視化により 関係間のパラメータ共有を確かめた 2018/3/13 言語処理学会年次大会 23 まとめ
  24. 24. 補足資料 2018/3/13 言語処理学会年次大会 24
  25. 25. • 関係はエンティティ間の平行移動 (Bordes et al., 2013) • 𝒗 𝑇𝑟𝑢𝑚𝑝 + 𝒗 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 • ✔ 関係のパラメータ数は𝑑 • ✖ 複雑な関係に対しては表現力が不足する • 線形変換を表す行列は対角行列 (Yang et al., 2015) • 𝒗 𝑇𝑟𝑢𝑚𝑝 ⋅ diag(𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛) ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 • ✔ 関係のパラメータ数は𝑑 • ✖ 複雑な関係に対しては表現力が不足する • 関係の行列は少数のプロトタイプの組み合わせ (Xie et al., 2017) • ✔ 関係間の知識共有を明示的にモデル化 • ✖ 通常の勾配法による学習ができない • ハードな制約のためにそれぞれ困難を抱える 2018/3/13 言語処理学会年次大会 25 既存研究:事前に設計されたハードな制約を課す

×