Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)1. 1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
Word Tour: One-dimensional Word Embeddings
via the Traveling Salesman Problem
佐藤竜馬
NAACL 2022 short paper
2. 2 / 21 KYOTO UNIVERSITY
京大で最適輸送・GNN・推薦システムを研究しています
佐藤 竜馬(さとう りょうま)
京都大学 鹿島・山田研究室 博士 2 年
研究分野:
グラフニューラルネットワーク
Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.
Random Features Strengthen Graph Neural Networks. SDM 2021.
Constant Time Graph Neural Networks. TKDD 2022.
最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)
Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.
Re-evaluating Word Mover’s Distance. ICML 2022.
Supervised Tree-Wasserstein Distance. ICML 2021. (共著)
Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著)
推薦システム・情報検索システム
Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without
Log Data? SDM 2022.
Retrieving Black-box Optimal Images from External Databases. WSDM 2022.
Enumerating Fair Packages for Group Recommendations. WSDM 2022.
3. 3 / 21 KYOTO UNIVERSITY
単語埋め込みは重い・遅い・解釈できない
単語埋め込みは重い・遅い・解釈できない
メモリを食う: 40 万語 x 300 次元 = 1 GB
大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い
スマホに 1 GB は辛い
時間を食う: 1 比較に d = 300 演算
解釈しづらい:
300 次元の点は目に見えない
t-SNE って何を見せられている...?
敵対的摂動を作りました: v猫
+ δ ← これは何...?
4. 4 / 21 KYOTO UNIVERSITY
高次元離散性ゆえの扱いづらさ
敵対的摂動などの文脈でも離散性が問題視されている
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey.
HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018.
Deep Text Classification Can be Fooled. IJCAI 2018.
5. 5 / 21 KYOTO UNIVERSITY
画像は 1 次元連続 ← これを取り入れればいいのでは
じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!?
dog
cat
bird
dogs
テキストの場合
→
単語は高次元・離散 扱いづらい
画像の場合
ピクセルは 1 次元・連続 → 扱いやすい
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
6. 6 / 21 KYOTO UNIVERSITY
目指すもの: 1 次元の単語埋め込み
目指すもの(理想形)
軽量 & 高速: メモリも演算も 1 次元
解釈: 1 次元は目に見える! 摂動しても解釈できる!
実際そう都合良くは行きませんが、やってみると出来ることもありました、
というのが今回のお話
1 次元の単語埋め込み
7. 7 / 21 KYOTO UNIVERSITY
関連研究: 次元削減はあるが一定以上は難しそう
既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、
せいぜい数十次元止まり
それ以上次元を下げると大幅に精度が下がる
Evaluating Memory Efficiency and
Robustness of Word Embeddings. ECIR 2016.
削減なし 9 割削減
誤差
誤差大幅増
Poincaré Embeddings for Learning
Hierarchical Representations. NeurIPS 2017.
ポアンカレ埋め込みだと 5 次元までならなんとか...
限界: 特定のタスクと教師データのみ & 1 次元は無理
希望の光ではある
8. 8 / 21 KYOTO UNIVERSITY
冷静に考えて 1 次元は無理
冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理
1 次元だと隣り合う単語は 2 個だけ
→ 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない
robot - man + woman = ?
→ 疎な埋め込みだと対応する単語はありません、と言える
→ 1 次元だと対応する単語が何か出てきてしまう
ポアンカレ埋め込みの教訓:
全ての側面を保存しなくて良いなら低次元も可能かもしれない
ポアンカレ埋め込みの場合は階層性を保存した
9. 9 / 21 KYOTO UNIVERSITY
健全性と完全性に分け、健全性のみを考える
単語埋め込みに満たしていて欲しい性質
健全性: 近くに埋め込まれた単語の意味は近い
完全性: 意味の近い単語は近くに埋め込まれる
埋め込みを信じて近傍の単語を取ってきたとき
健全 → 正解だけが取ってこられる(取り残しの可能性あり)
完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)
完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す
健全性だけでも単語検索・文書検索などで使えうる
この論文で提案する概念
10. 10 / 21 KYOTO UNIVERSITY
問題設定: 高次元埋め込み → 一次元埋め込みを計算
Input:
学習済みの高次元単語埋め込み {xv
}
実験では 300 次元 GloVe
(or 学習したい対象のコーパス)
Output:
一次元の健全な埋め込み σ: V → [n](全単射)
一次元埋め込みにおいては座標は考えず並び順のみを考える
σ(v): 単語 v の位置 ∈ {1, 2, ..., n}
σ-1
(i): i 番目の単語
σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
11. 11 / 21 KYOTO UNIVERSITY
隣り合う単語の距離の総和が近くなるように定式化
健全性: 近くに埋め込まれた単語の意味は近い
定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い
補足:
σ-1
(n+1) = σ-1
(1) とする
つまり、パスではなく環っかで定式化
(端の単語を特別視したくないため)
コストは元の単語埋め込みでの距離、以外でも
コーパスが手元にある場合は共起数最大化なども可
12. 12 / 21 KYOTO UNIVERSITY
提案法の設定は巡回セールスマン問題
この定式化は巡回セールスマン問題
単語 = 都市 一次元埋め込み = 巡回ルート
巡回セールスマン問題は NP-hard → 解けない...?
最近のソルバは超高性能なので解ける!
最近のソルバは n = 100,000 頂点の
巡回セールスマン問題を厳密に解ける
13. 13 / 21 KYOTO UNIVERSITY
提案法は巡回セールスマン問題を解いて、終わり
提案法 WordTour
Input: 高次元単語埋め込み {xv
}
Output: 一次元単語埋め込み σ
擬似コード
1. Return LKH({xv
})
15. 15 / 21 KYOTO UNIVERSITY
LKH でほぼ最適な解が得られた
実際に 40,000 単語からなる GloVe 点群を LKH に投げると...
得られた解の目的関数値(総距離): 236882.3
得られた下界 : 236300.9
LKH は下界(最適解がそれより短くならないことの証拠)
を出してくれる
236882.3 / 236300.9 = 1.003
→ ほぼ最適解が得られている
結果得られた埋め込みファイル容量: 312KB
→ スマホでも余裕
得られた解
下界
16. 16 / 21 KYOTO UNIVERSITY
ベースラインは特定の方向に埋め込みを射影
ベースライン
RandProj: 高次元埋め込み {xv
} を適当な方向 d に射影
PCA1: 高次元埋め込み {xv
} を最大 PCA 方向 d に射影
PCA4: 高次元埋め込み {xv
} を第四 PCA 方向 d に射影
単語埋め込みの最大 PCA 方向は無意味という既存研究があるため
ある側面 d を取り出していると考えられる
入力単語埋め込みの性質がいい
(e.g., disentangled) なら良い
順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が
特定の意味を表していることが知られている
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
17. 17 / 21 KYOTO UNIVERSITY
定性的な結果 1: 提案法の埋め込み滑らかに変化
得られた一次元埋め込みから cat と concept の周りを表示
18. 18 / 21 KYOTO UNIVERSITY
定性的な結果 2: 提案法の埋め込み滑らかに変化
提案埋め込みからランダムな区間を切り出したもの:
5 行目を見ると序数詞が教師なしで取り出せていることが分かる
GloVe にこういう序数詞の構造があることが分かる
→ 一次元にしてみた(思わぬ)恩恵
2 行目は急カーブする例 (weapon → arm → leg)
5th 6th
7th
8th
9th
10th
11th
12th
13th
14th
11th
15th
理想
現実
19. 19 / 21 KYOTO UNIVERSITY
文書分類: 提案法を使って bag-of-words をぼかす
文書分類の定量評価
ナイーブな比較は bag-of-words
→ 単語の類似度は考慮できない
単語の類似度を組み込んだ手法: word mover’s distance ↑
→ 遅い + メモリ容量も大きい
提案法:
bag-of-words を WortTour 上で
ちょっとぼかして普通に L1 距離ではかる
{dog} vs {dogs} は BoW では
違う集合だが、ぼかすとだいたい同じだと結論できる
健全性のおかげで成立
From Word Embeddings to Document Distances. ICML 2015.
20. 20 / 21 KYOTO UNIVERSITY
文書分類: 提案法は速度とメモリと精度のバランス良
BoW は精度が悪い
WMD は精度がいいが遅い
他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い
WordTour 上では精度がそれなりに良い + 高速 + 省メモリ
分類誤差
lower is better
21. 21 / 21 KYOTO UNIVERSITY
まとめ: 健全な 1 次元単語埋め込みを提案
高次元単語埋め込みを巡回セールスマン問題で 1 次元に
完全性はないが健全性はある
高速 + 省メモリ + 解釈性
ハイレベルな教訓
特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン
巡回セールスマン問題は何かを滑らかに並べる良い手段
NP-hard でもソルバを探して見ると良いことがあるかも
健全性 完全性 一次元
コード・4万語埋め込みデータ・論文情報↑
https://github.com/joisino/wordtour