Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Unsupervised multilingual word embeddings

31 views

Published on

EMNLP 2018

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Unsupervised multilingual word embeddings

  1. 1. Unsupervised Multilingual Word Embeddings Xilun Chen, Claire Cardie EMNLP 2018 紹介者:本間広樹
  2. 2. 要約 • 多言語単語埋め込み(MWEs)は複数(3つ以上)の言語から 単一の分散ベクトル空間内に単語を表すもの • 教師なしMWE(UMWE)は言語横断的な教師無しでMWEを 得る • しかし従来のUMWEは2言語単語埋め込み(UBWEs)に依存 • この欠点に対応するため、全ての言語対の間の関係を直接 利用する、MWEを学習するための完全に教師なしのフレー ムワークを提案 • 多言語単語翻訳と言語横断単語類似性において性能向上
  3. 3. 要約 • 多言語単語埋め込み(MWEs)は複数(3つ以上)の言語から 単一の分散ベクトル空間内に単語を表すもの • 教師なしMWE(UMWE)は言語横断的な教師無しでMWEを 得る • しかし従来のUMWEは2言語単語埋め込み(UBWEs)に依存 • この欠点に対応するため、全ての言語対の間の関係を直接 利用する、MWEを学習するための完全に教師なしのフレー ムワークを提案 • 多言語単語翻訳と言語横断単語類似性において性能向上 従来の教師ありに比べて大きな利点 低リソース言語に新しい可能性!
  4. 4. 要約 • 多言語単語埋め込み(MWEs)は複数(3つ以上)の言語から 単一の分散ベクトル空間内に単語を表すもの • 教師なしMWE(UMWE)は言語横断的な教師無しでMWEを 得る • しかし従来のUMWEは2言語単語埋め込み(UBWEs)に依存 • この欠点に対応するため、全ての言語対の間の関係を直接 利用する、MWEを学習するための完全に教師なしのフレー ムワークを提案 • 多言語単語翻訳と言語横断単語類似性において性能向上 問題点 これだと多くの言語に存在する相互依存性 を活用することができていない!
  5. 5. 要約 • 多言語単語埋め込み(MWEs)は複数(3つ以上)の言語から 単一の分散ベクトル空間内に単語を表すもの • 教師なしMWE(UMWE)は言語横断的な教師無しでMWEを 得る • しかし従来のUMWEは2言語単語埋め込み(UBWEs)に依存 • この欠点に対応するため、全ての言語対の間の関係を直接 利用する、MWEを学習するための完全に教師なしのフレー ムワークを提案 • 多言語単語翻訳と言語横断単語類似性において性能向上 しかも言語横断リソースで学習された 教師ありのアプローチに勝った!
  6. 6. はじめに 単語分散表現 Supervised Unsupervised Bilingual Mikolov ら(2013) Zou ら(2013) ︙ Zhang ら(2017) Conneau ら(2017) Artetxe ら(2017; 2018) Multilingual Ammar ら(2016) Duong ら(2017) この研究!
  7. 7. モデル ―――――――――― ゴール ―――――――――― 言語横断の 教師無し で 𝑵言語の多言語埋め込み を得る ―――――――――――――――――――――――――――――― ℒ : 言語集合, ℒ = 𝑁 𝑙 ∈ ℒ : 各言語,語彙 𝒱𝑙 ℰ𝑙 : 𝑑 次元の単言語単語埋め込み,サイズ 𝒱𝑙 × 𝑑 ℰ ⊢ 𝒮 : ℰ が 単語埋め込み空間 𝒮 に含まれる ℳ𝑙 : 各言語 𝑙 に対するエンコーダ(𝒯: ℳ𝑙(ℰ𝑙) ⊢ 𝒯) ℳ𝑙 −1 : 各言語 𝑙 に対するデコーダ(𝒯から𝒮𝑙に戻す)
  8. 8. モデル ℳ𝑙 を直交行列にする ℳ𝑙 −1 = ℳ𝑙 T 埋め込みベクトルをベクトルと行列の掛け算で算出可能 ターゲット空間に特定の言語の埋め込み空間にする 学習する写像が 𝑁 − 1 個ですむ Multilingual Adversarial Training と Multilingual Pseudo- Supervised Refinement の2つのコンポーネントを提案
  9. 9. Multilingual Adversarial Training(MAT)
  10. 10. Multilingual Pseudo-Supervised Refinement(MPSR) MATから得られた 埋め込みを反復 的な手法で改善 はℳ𝑖ℰ𝑖とℳ𝑗ℰ𝑗の 間の頻度の高い 15kの単語間の最 近隣から構築 直交化は↓ 𝛽 = 0.001
  11. 11. Cross-Lingual Similarity Scaling (CSLS) 一般的なユークリッド距離とかcos類似度だとハブが出現する 問題に当たる → 解決策の1つのCSLSという代替の距離メトリックを使う 計算方法は➢ NY(x)はYの要素yのベクトル空間内のxのn最近傍の集合
  12. 12. Unsupervised Multilingual Validation • 教師無しでモデル選択を行うには、検証データを使えないと き、バイリンガルデータに依存しない代理の検証基準が必要 • 𝑝𝑖𝑗 : probability simplex ここでは 𝑝𝑖𝑗 = 1 𝑁 𝑁−1 ・mean_csls(): 最も高頻度の10kの単語とそれらの翻訳の 平均CSLS類似度(Lampleら、2018)
  13. 13. 実験 2つのベンチマークタスクで検証 Wikipediaコーパスで事前学習した300次元の fastText (単一言語)を使用 Multilingual Word Translation SemEval2017 Cross-Lingual Word Similarity
  14. 14. 実験 - Multilingual Word Translation 6つの言語 train:5k, test:1.5k Pivot:特定の単語 (英語)を経由した BWEの組合わせ Direct:言語対ご とのBWE
  15. 15. 実験 - Cross-Lingual Word Similarity 5つの言語(英語、ドイツ語、スペイン語、イタリア語、ペルシア語) Luminoso, NASARI:SemEval-2017におけるtop-2 EuroparlとOpenSubtitles2016 パラレルコーパスにアクセス可能
  16. 16. 結論 • 完全に教師なしのMWEを学習するモデルを提案した • 高品質の教師なしBWEはすでにあるが、多言語設定はない • 今までの研究は教師なしBWEモデルにのみ依存している • それだと言語間の相互依存性を十分に活用できていない • そこで、計算コスト増加させることなくすべての言語対の関係を明示的 に利用するMAT+MPSR法を提案 • 多言語単語翻訳と言語間類似性タスクで既存の教師なしモ デルを超えた • 展望として、他のBWEフレームワークと連携する拡張を検討

×