Successfully reported this slideshow.
Your SlideShare is downloading. ×

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)

Download to read offline

NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。

論文: https://arxiv.org/abs/2205.01954
GitHub: https://github.com/joisino/wordtour

概要
単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで本研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、本研究ではまず単語埋め込みが満たすべき性質を健全性と完全性という二つに分解します。提案法の WordTour は、完全性はあきらめ、健全性のみを課すことで一次元埋め込みを可能にし、それでいて、全ての、とまでは言わないまでも、いくつかの応用において有用な一次元埋め込みを得ることに成功しました。

NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。

論文: https://arxiv.org/abs/2205.01954
GitHub: https://github.com/joisino/wordtour

概要
単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで本研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、本研究ではまず単語埋め込みが満たすべき性質を健全性と完全性という二つに分解します。提案法の WordTour は、完全性はあきらめ、健全性のみを課すことで一次元埋め込みを可能にし、それでいて、全ての、とまでは言わないまでも、いくつかの応用において有用な一次元埋め込みを得ることに成功しました。

Advertisement
Advertisement

More Related Content

Advertisement

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)

  1. 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem 佐藤竜馬 NAACL 2022 short paper
  2. 2. 2 / 21 KYOTO UNIVERSITY 京大で最適輸送・GNN・推薦システムを研究しています 佐藤 竜馬(さとう りょうま) 京都大学 鹿島・山田研究室 博士 2 年  研究分野: グラフニューラルネットワーク  Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.  Random Features Strengthen Graph Neural Networks. SDM 2021.  Constant Time Graph Neural Networks. TKDD 2022. 最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)  Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.  Re-evaluating Word Mover’s Distance. ICML 2022.  Supervised Tree-Wasserstein Distance. ICML 2021. (共著)  Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著) 推薦システム・情報検索システム  Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? SDM 2022.  Retrieving Black-box Optimal Images from External Databases. WSDM 2022.  Enumerating Fair Packages for Group Recommendations. WSDM 2022.
  3. 3. 3 / 21 KYOTO UNIVERSITY 単語埋め込みは重い・遅い・解釈できない  単語埋め込みは重い・遅い・解釈できない  メモリを食う: 40 万語 x 300 次元 = 1 GB 大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い スマホに 1 GB は辛い  時間を食う: 1 比較に d = 300 演算  解釈しづらい: 300 次元の点は目に見えない t-SNE って何を見せられている...? 敵対的摂動を作りました: v猫 + δ ← これは何...?
  4. 4. 4 / 21 KYOTO UNIVERSITY 高次元離散性ゆえの扱いづらさ  敵対的摂動などの文脈でも離散性が問題視されている Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018. Deep Text Classification Can be Fooled. IJCAI 2018.
  5. 5. 5 / 21 KYOTO UNIVERSITY 画像は 1 次元連続 ← これを取り入れればいいのでは  じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!? dog cat bird dogs テキストの場合 → 単語は高次元・離散 扱いづらい 画像の場合 ピクセルは 1 次元・連続 → 扱いやすい Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
  6. 6. 6 / 21 KYOTO UNIVERSITY 目指すもの: 1 次元の単語埋め込み  目指すもの(理想形)  軽量 & 高速: メモリも演算も 1 次元  解釈: 1 次元は目に見える! 摂動しても解釈できる!  実際そう都合良くは行きませんが、やってみると出来ることもありました、 というのが今回のお話 1 次元の単語埋め込み
  7. 7. 7 / 21 KYOTO UNIVERSITY 関連研究: 次元削減はあるが一定以上は難しそう  既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、 せいぜい数十次元止まり それ以上次元を下げると大幅に精度が下がる Evaluating Memory Efficiency and Robustness of Word Embeddings. ECIR 2016. 削減なし 9 割削減 誤差 誤差大幅増 Poincaré Embeddings for Learning Hierarchical Representations. NeurIPS 2017. ポアンカレ埋め込みだと 5 次元までならなんとか... 限界: 特定のタスクと教師データのみ & 1 次元は無理 希望の光ではある
  8. 8. 8 / 21 KYOTO UNIVERSITY 冷静に考えて 1 次元は無理  冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理 1 次元だと隣り合う単語は 2 個だけ → 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない robot - man + woman = ? → 疎な埋め込みだと対応する単語はありません、と言える → 1 次元だと対応する単語が何か出てきてしまう  ポアンカレ埋め込みの教訓: 全ての側面を保存しなくて良いなら低次元も可能かもしれない ポアンカレ埋め込みの場合は階層性を保存した
  9. 9. 9 / 21 KYOTO UNIVERSITY 健全性と完全性に分け、健全性のみを考える  単語埋め込みに満たしていて欲しい性質 健全性: 近くに埋め込まれた単語の意味は近い 完全性: 意味の近い単語は近くに埋め込まれる    埋め込みを信じて近傍の単語を取ってきたとき 健全 → 正解だけが取ってこられる(取り残しの可能性あり) 完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)    完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す 健全性だけでも単語検索・文書検索などで使えうる この論文で提案する概念
  10. 10. 10 / 21 KYOTO UNIVERSITY 問題設定: 高次元埋め込み → 一次元埋め込みを計算  Input: 学習済みの高次元単語埋め込み {xv } 実験では 300 次元 GloVe (or 学習したい対象のコーパス)  Output: 一次元の健全な埋め込み σ: V → [n](全単射)  一次元埋め込みにおいては座標は考えず並び順のみを考える σ(v): 単語 v の位置 ∈ {1, 2, ..., n} σ-1 (i): i 番目の単語  σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
  11. 11. 11 / 21 KYOTO UNIVERSITY 隣り合う単語の距離の総和が近くなるように定式化  健全性: 近くに埋め込まれた単語の意味は近い  定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い 補足: σ-1 (n+1) = σ-1 (1) とする つまり、パスではなく環っかで定式化 (端の単語を特別視したくないため) コストは元の単語埋め込みでの距離、以外でも コーパスが手元にある場合は共起数最大化なども可
  12. 12. 12 / 21 KYOTO UNIVERSITY 提案法の設定は巡回セールスマン問題  この定式化は巡回セールスマン問題 単語 = 都市   一次元埋め込み = 巡回ルート  巡回セールスマン問題は NP-hard → 解けない...?  最近のソルバは超高性能なので解ける! 最近のソルバは n = 100,000 頂点の 巡回セールスマン問題を厳密に解ける
  13. 13. 13 / 21 KYOTO UNIVERSITY 提案法は巡回セールスマン問題を解いて、終わり  提案法 WordTour Input: 高次元単語埋め込み {xv } Output: 一次元単語埋め込み σ 擬似コード 1. Return LKH({xv })
  14. 14. 14 KYOTO UNIVERSITY 実験
  15. 15. 15 / 21 KYOTO UNIVERSITY LKH でほぼ最適な解が得られた  実際に 40,000 単語からなる GloVe 点群を LKH に投げると...  得られた解の目的関数値(総距離): 236882.3 得られた下界 : 236300.9  LKH は下界(最適解がそれより短くならないことの証拠) を出してくれる  236882.3 / 236300.9 = 1.003 → ほぼ最適解が得られている  結果得られた埋め込みファイル容量: 312KB → スマホでも余裕 得られた解 下界
  16. 16. 16 / 21 KYOTO UNIVERSITY ベースラインは特定の方向に埋め込みを射影  ベースライン  RandProj: 高次元埋め込み {xv } を適当な方向 d に射影  PCA1: 高次元埋め込み {xv } を最大 PCA 方向 d に射影  PCA4: 高次元埋め込み {xv } を第四 PCA 方向 d に射影 単語埋め込みの最大 PCA 方向は無意味という既存研究があるため  ある側面 d を取り出していると考えられる  入力単語埋め込みの性質がいい (e.g., disentangled) なら良い 順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が 特定の意味を表していることが知られている Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020. GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
  17. 17. 17 / 21 KYOTO UNIVERSITY 定性的な結果 1: 提案法の埋め込み滑らかに変化  得られた一次元埋め込みから cat と concept の周りを表示
  18. 18. 18 / 21 KYOTO UNIVERSITY 定性的な結果 2: 提案法の埋め込み滑らかに変化  提案埋め込みからランダムな区間を切り出したもの:  5 行目を見ると序数詞が教師なしで取り出せていることが分かる GloVe にこういう序数詞の構造があることが分かる → 一次元にしてみた(思わぬ)恩恵  2 行目は急カーブする例 (weapon → arm → leg) 5th 6th 7th 8th 9th 10th 11th 12th 13th 14th 11th 15th 理想 現実
  19. 19. 19 / 21 KYOTO UNIVERSITY 文書分類: 提案法を使って bag-of-words をぼかす  文書分類の定量評価  ナイーブな比較は bag-of-words → 単語の類似度は考慮できない  単語の類似度を組み込んだ手法: word mover’s distance ↑ → 遅い + メモリ容量も大きい  提案法: bag-of-words を WortTour 上で ちょっとぼかして普通に L1 距離ではかる {dog} vs {dogs} は BoW では 違う集合だが、ぼかすとだいたい同じだと結論できる 健全性のおかげで成立 From Word Embeddings to Document Distances. ICML 2015.
  20. 20. 20 / 21 KYOTO UNIVERSITY 文書分類: 提案法は速度とメモリと精度のバランス良  BoW は精度が悪い  WMD は精度がいいが遅い  他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い  WordTour 上では精度がそれなりに良い + 高速 + 省メモリ 分類誤差 lower is better
  21. 21. 21 / 21 KYOTO UNIVERSITY まとめ: 健全な 1 次元単語埋め込みを提案  高次元単語埋め込みを巡回セールスマン問題で 1 次元に  完全性はないが健全性はある  高速 + 省メモリ + 解釈性  ハイレベルな教訓  特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン  巡回セールスマン問題は何かを滑らかに並べる良い手段  NP-hard でもソルバを探して見ると良いことがあるかも 健全性 完全性 一次元 コード・4万語埋め込みデータ・論文情報↑ https://github.com/joisino/wordtour

×