Successfully reported this slideshow.

オートエンコーダとの同時学習による知識共有

1

Share

Upcoming SlideShare
Introduction to spaCy
Introduction to spaCy
Loading in …3
×
1 of 25
1 of 25

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

オートエンコーダとの同時学習による知識共有

  1. 1. オートエンコーダとの同時学習 による知識共有 高橋 諒1 田 然1 乾 健太郎1,2 1東北大学 2理研AIP
  2. 2. • 知識ベース:エンティティとそれらの間の関係 • 動機:知識ベースは不完全 • Freebaseに記録された人の中で 78.5% は国籍の情報 がない (Min et al., 2013) 2018/3/13 2 記述もれした事実を補完する「知識ベース補完」 言語処理学会年次大会 Donald Trump New York City United States 知識ベース ② 知識ベースに書かれていない 記述もれした事実を補完したい ① 知識ベースに 書かれた知識を モデル化して was_born_in is_located_in nationality
  3. 3. 2018/3/13 3 主要なアプローチ:ベクトル空間モデル 言語処理学会年次大会 Honolulu Donald Trump New York City United States is_located_inwas_born_in nationality エンティティは ベクトル空間上の点 関係はエンティティ 間のマッピング 低次元ベクトル空間 Barack Obama
  4. 4. 2018/3/13 4 低次元の空間に埋め込む利点はパラメータ共有 言語処理学会年次大会 • 低次元の場合,エンティティはパラメータを共有することが強制される  同じ関係を共有する「似た」エンティティは互いに近づく • 汎化性能の向上に直結 Honolulu Donald Trump New York City United States is_located_inwas_born_in nationalityBarack Obama
  5. 5. 2018/3/13 5 関係はパラメータが多くなるので共有されにくい 言語処理学会年次大会 • 関係を線形変換としてモデル化:𝒗 𝑇𝑟𝑢𝑚𝑝 ⊤ 𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 ⊤ • エンティティが𝑑次元ベクトル  関係は𝒅 𝟐のパラメータが必要となりパラメータ共有されにくい • 研究課題:いかに関係の次元を削減するか? Honolulu Donald Trump New York City United States is_located_inwas_born_in nationality エンティティは ベクトル空間上の点 関係はエンティティ 間のマッピング Barack Obama
  6. 6. 2018/3/13 言語処理学会年次大会 6 本研究:関係のオートエンコーダを同時学習 先行研究 [Guu+’15] 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB
  7. 7. 2018/3/13 言語処理学会年次大会 7 本研究:関係のオートエンコーダを同時学習 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB 全ての関係で共通のパラメータを使う  関係間のパラメータ共有効果を期待 先行研究 [Guu+’15]
  8. 8. 2018/3/13 言語処理学会年次大会 8 オートエンコーダとの同時学習は簡単ではない ℒAE ℒKB  ∇ℒKBを更新しすぎると オートエンコーダは効果がない  ∇ℒAEを更新しすぎると 全ての関係の行列が一つの クラスタに集まる 二つの勾配から受け取る 更新のバランスをうまく 調整する必要がある 本発表:同時学習を上手く 進めるための設定を紹介
  9. 9. • 確率的勾配降下法の学習率の 一般的なプラクティス (Bottou, 2012): 𝛼 𝜏 ≔ 𝜂 1 + 𝜂𝜆𝜏 • 𝜂, 𝜆: ハイパーパラメータ,𝜏: ステップカウンタ • 学習率を詳細に調整するための変更: • 学習率を関係ごとに減衰させるために, 関係ごとの「更新回数」をステップカウンタに使う • ∇ℒKBと∇ℒAEの学習率を個別に調整するために 別々のハイパーパラメータを用意する 𝛼KB 𝜏 𝑟 ≔ 𝜂KB 1 + 𝜂KB 𝜆KB 𝜏 𝑟 , 𝛼AE 𝜏 𝑟 ≔ 𝜂AE 1 + 𝜂AE 𝜆AE 𝜏 𝑟 2018/3/13 言語処理学会年次大会 9 確率的勾配降下法の学習率を詳細に調整する
  10. 10. 2018/3/13 言語処理学会年次大会 10 初期は∇ℒKBを多く更新し,漸次的にバランスさせる 1/(𝜆KB 𝜏 𝑟) 𝜂KB 0 𝜏 𝑟 𝛼(𝜏 𝑟) 𝜂AE 𝛼KB 𝜏 𝑟 ≔ 𝜂KB 1 + 𝜂KB 𝜆KB 𝜏 𝑟 , 𝛼AE 𝜏 𝑟 ≔ 𝜂AE 1 + 𝜂AE 𝜆AE 𝜏 𝑟 • 学習の初期段階は𝛁𝓛 𝑲𝑩を多めに更新: 𝜂KB ≫ 𝜂AE • 学習初期のオートエンコーダは ランダムに近く,∇ℒAEはほとんど 意味をなさない • 学習が進むにつれて𝜶 𝐊𝐁(𝝉 𝒓)𝛁𝓛 𝑲𝑩と 𝜶 𝑨𝑬(𝝉 𝒓)𝛁𝓛 𝑨𝑬のスケールが合うように する • 今回は𝜆KB = 𝜆AEとし,オートエンコー ダのスコア関数の係数1/ 𝑑𝑐で調整: 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 1/(𝜆AE 𝜏 𝑟)
  11. 11. 評価実験 2018/3/13 言語処理学会年次大会 11
  12. 12. データセット #Entity #Relation #Train #Valid #Test WN18 [Bordes+’13] 40,943 18 141,442 5,000 5,000 FB15k [Bordes+’13] 14,951 1,345 483,142 50,000 59,071 WN18RR [Dettmers+’18] 40,943 11 86,835 3,034 3,134 FB15k-237 [Toutanova&Chen’15] 14,541 237 272,115 17,535 20,466 2018/3/13 言語処理学会年次大会 12 ベンチマークデータセット • WN18, WN18RR: WordNet のサブセット • FB15k, FB15k-237: Freebase のサブセット • WN18RR と FB15k-237 はそれぞれ WN18 と FB15k の data leakage を解消
  13. 13. 2018/3/13 言語処理学会年次大会 13 実験設定:エンティティの予測性能を比較 評価事例: (Donald Trump, nationality, United State) エンティティ スコア ランク New York City 0.78 2 United States 0.91 1 Barack Obama 0.23 4 Honolulu 0.55 3 (Donald Trump, nationality, ) エンティティを取り除く にエンティティを埋めてスコアを計算 「Donald Trumpの国籍は どこか?」の問題に相当 全ての評価事例毎にランキングをとり, 正解のエンティティの平均ランク (Mean Rank; MR)と上位10位以内 にランクする精度 (Hits@10; H10) で 比較
  14. 14. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - - IRN [Shen+’17] 249 95.3 38 92.7 - - - - ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 14 知識ベース補完評価結果 Base Joint
  15. 15. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - - IRN [Shen+’17] 249 95.3 38 92.7 - - - - ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 15 知識ベース補完評価結果 Base Joint 同時学習無し (Base) と有り (Joint) の比較 • オートエンコーダとの同時学習は主にMRを改善
  16. 16. Model WN18 FB15k WN18RR FB15k-237 MR H10 MR H10 MR H10 MR H10 Base 195 94.8 65 74.3 2214 52.0 203 51.5 Joint 191 94.8 61 74.2 2293 52.2 197 51.6 ITransF [Xie+’17] 205 94.2 65 81.0 - - - - R-GCN+ [Schlichtkrull+’17] - 96.4 - 84.2 - - - 41.7 IRN [Shen+’17] 249 95.3 38 92.7 - - 211 46.4 ComplEx [Trouillon+’16] - 94.7 - 84.0 5261 51.0 339 42.8 ConvE [Dettmers+’18] 504 95.5 64 87.3 5277 48.0 246 49.1 2018/3/13 言語処理学会年次大会 16 知識ベース補完評価結果 Base Joint これまでのSOTAとの比較 • WN18でcomparable • WN18RRとFB15k-237でSOTAを大幅に上回る
  17. 17. 2018/3/13 言語処理学会年次大会 17 同時学習のパラメータ共有効果を確認 本研究 KB-learning objective (noise-contrastive estimation): ℒKB ≔ ෍ path ln 𝑠 ℎ, 𝑟1, … , 𝑡 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡 + ෍ noise ln 𝑘 𝑘 + 𝑠 ℎ, 𝑟1, … , 𝑡⋆ ただし, 𝑠 ℎ, 𝑟1, … , 𝑟𝑙, 𝑡 ≔ exp 𝒖ℎ ⊤ 𝑴 𝑟1 ⋯ 𝑴 𝑟 𝑙 𝒗 𝑡 Reconstruction objective (noise-contrastive estimation): ℒAE ≔ ෍ 𝑟∈ℛ ln 𝑔 𝑟, 𝑟 𝑘 + 𝑔 𝑟, 𝑟 + ෍ 𝑟∗∈ℛ ln 𝑘 𝑘 + 𝑔 𝑟, 𝑟∗ ただし, 𝑔 𝑟1, 𝑟2 ≔ exp 1 𝑑𝑐 𝒎 𝑟1 ⊤ 𝑩ReLU(𝑨𝒎 𝑟2 ) 𝒎1 ℒAE ℒKB 全ての関係で共通のパラメータを使う  関係間のパラメータ共有効果を期待 関係をエンコードしたベクトルを分析 先行研究 [Guu+’15]
  18. 18. 2018/3/13 言語処理学会年次大会 18 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル
  19. 19. 2018/3/13 言語処理学会年次大会 19 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • スパースな エンコーディングを 学習 • ほとんどの関係は 2, 3次元の大きな値を 持つ
  20. 20. 2018/3/13 言語処理学会年次大会 20 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 他の関係でほぼ使わ れない次元に高い値 が割り当てられる • データセット中の大 きなカテゴリ(映画, 人)を結びつける, 出現頻度の高い関係 • 知識ベースの骨組み を成す
  21. 21. 2018/3/13 言語処理学会年次大会 21 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 12番目の次元が「通貨」と強く関係がある • 「通貨」の関係間でパラメータを共有
  22. 22. 2018/3/13 言語処理学会年次大会 22 スパースで解釈可能なエンコーディングを学習 FB15k-237の関係 関係のエンコード後のベクトル • 4番目の次元が「映画」と強く関係がある • 「映画」の関係間でパラメータを共有
  23. 23. • 知識ベース補完のための埋め込みモデルを提案 • 研究課題:いかに関係の次元を削減するか? • 解決策:オートエンコーダとの同時学習 • 学習をうまく進めるためのテクニックを導入 • 評価結果:WN18RRとFB15k-237でSOTA • 関係のエンコーディングの可視化により 関係間のパラメータ共有を確かめた 2018/3/13 言語処理学会年次大会 23 まとめ
  24. 24. 補足資料 2018/3/13 言語処理学会年次大会 24
  25. 25. • 関係はエンティティ間の平行移動 (Bordes et al., 2013) • 𝒗 𝑇𝑟𝑢𝑚𝑝 + 𝒗 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛 ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 • ✔ 関係のパラメータ数は𝑑 • ✖ 複雑な関係に対しては表現力が不足する • 線形変換を表す行列は対角行列 (Yang et al., 2015) • 𝒗 𝑇𝑟𝑢𝑚𝑝 ⋅ diag(𝑴 𝑤𝑎𝑠_𝑏𝑜𝑟𝑛_𝑖𝑛) ≈ 𝒗 𝑁𝑒𝑤𝑌𝑜𝑟𝑘 • ✔ 関係のパラメータ数は𝑑 • ✖ 複雑な関係に対しては表現力が不足する • 関係の行列は少数のプロトタイプの組み合わせ (Xie et al., 2017) • ✔ 関係間の知識共有を明示的にモデル化 • ✖ 通常の勾配法による学習ができない • ハードな制約のためにそれぞれ困難を抱える 2018/3/13 言語処理学会年次大会 25 既存研究:事前に設計されたハードな制約を課す

×