SlideShare a Scribd company logo
1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
Word Tour: One-dimensional Word Embeddings
via the Traveling Salesman Problem
佐藤竜馬
NAACL 2022 short paper
2 / 21 KYOTO UNIVERSITY
京大で最適輸送・GNN・推薦システムを研究しています
佐藤 竜馬(さとう りょうま)
京都大学 鹿島・山田研究室 博士 2 年

研究分野:
グラフニューラルネットワーク
 Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.
 Random Features Strengthen Graph Neural Networks. SDM 2021.
 Constant Time Graph Neural Networks. TKDD 2022.
最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)
 Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.
 Re-evaluating Word Mover’s Distance. ICML 2022.
 Supervised Tree-Wasserstein Distance. ICML 2021. (共著)
 Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著)
推薦システム・情報検索システム
 Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without
Log Data? SDM 2022.
 Retrieving Black-box Optimal Images from External Databases. WSDM 2022.
 Enumerating Fair Packages for Group Recommendations. WSDM 2022.
3 / 21 KYOTO UNIVERSITY
単語埋め込みは重い・遅い・解釈できない

単語埋め込みは重い・遅い・解釈できない

メモリを食う: 40 万語 x 300 次元 = 1 GB
大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い
スマホに 1 GB は辛い

時間を食う: 1 比較に d = 300 演算

解釈しづらい:
300 次元の点は目に見えない
t-SNE って何を見せられている...?
敵対的摂動を作りました: v猫
+ δ ← これは何...?
4 / 21 KYOTO UNIVERSITY
高次元離散性ゆえの扱いづらさ

敵対的摂動などの文脈でも離散性が問題視されている
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey.
HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018.
Deep Text Classification Can be Fooled. IJCAI 2018.
5 / 21 KYOTO UNIVERSITY
画像は 1 次元連続 ← これを取り入れればいいのでは

じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!?
dog
cat
bird
dogs
テキストの場合
→
単語は高次元・離散 扱いづらい
画像の場合
ピクセルは 1 次元・連続 → 扱いやすい
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
6 / 21 KYOTO UNIVERSITY
目指すもの: 1 次元の単語埋め込み

目指すもの(理想形)

軽量 & 高速: メモリも演算も 1 次元

解釈: 1 次元は目に見える! 摂動しても解釈できる!

実際そう都合良くは行きませんが、やってみると出来ることもありました、
というのが今回のお話
1 次元の単語埋め込み
7 / 21 KYOTO UNIVERSITY
関連研究: 次元削減はあるが一定以上は難しそう

既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、
せいぜい数十次元止まり
それ以上次元を下げると大幅に精度が下がる
Evaluating Memory Efficiency and
Robustness of Word Embeddings. ECIR 2016.
削減なし 9 割削減
誤差
誤差大幅増
Poincaré Embeddings for Learning
Hierarchical Representations. NeurIPS 2017.
ポアンカレ埋め込みだと 5 次元までならなんとか...
限界: 特定のタスクと教師データのみ & 1 次元は無理
希望の光ではある
8 / 21 KYOTO UNIVERSITY
冷静に考えて 1 次元は無理

冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理
1 次元だと隣り合う単語は 2 個だけ
→ 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない
robot - man + woman = ?
→ 疎な埋め込みだと対応する単語はありません、と言える
→ 1 次元だと対応する単語が何か出てきてしまう

ポアンカレ埋め込みの教訓:
全ての側面を保存しなくて良いなら低次元も可能かもしれない
ポアンカレ埋め込みの場合は階層性を保存した
9 / 21 KYOTO UNIVERSITY
健全性と完全性に分け、健全性のみを考える

単語埋め込みに満たしていて欲しい性質
健全性: 近くに埋め込まれた単語の意味は近い
完全性: 意味の近い単語は近くに埋め込まれる
 

埋め込みを信じて近傍の単語を取ってきたとき
健全 → 正解だけが取ってこられる(取り残しの可能性あり)
完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)
 

完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す
健全性だけでも単語検索・文書検索などで使えうる
この論文で提案する概念
10 / 21 KYOTO UNIVERSITY
問題設定: 高次元埋め込み → 一次元埋め込みを計算

Input:
学習済みの高次元単語埋め込み {xv
}
実験では 300 次元 GloVe
(or 学習したい対象のコーパス)

Output:
一次元の健全な埋め込み σ: V → [n](全単射)

一次元埋め込みにおいては座標は考えず並び順のみを考える
σ(v): 単語 v の位置 ∈ {1, 2, ..., n}
σ-1
(i): i 番目の単語

σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
11 / 21 KYOTO UNIVERSITY
隣り合う単語の距離の総和が近くなるように定式化

健全性: 近くに埋め込まれた単語の意味は近い

定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い
補足:
σ-1
(n+1) = σ-1
(1) とする
つまり、パスではなく環っかで定式化
(端の単語を特別視したくないため)
コストは元の単語埋め込みでの距離、以外でも
コーパスが手元にある場合は共起数最大化なども可
12 / 21 KYOTO UNIVERSITY
提案法の設定は巡回セールスマン問題

この定式化は巡回セールスマン問題
単語 = 都市   一次元埋め込み = 巡回ルート

巡回セールスマン問題は NP-hard → 解けない...?

最近のソルバは超高性能なので解ける!
最近のソルバは n = 100,000 頂点の
巡回セールスマン問題を厳密に解ける
13 / 21 KYOTO UNIVERSITY
提案法は巡回セールスマン問題を解いて、終わり

提案法 WordTour
Input: 高次元単語埋め込み {xv
}
Output: 一次元単語埋め込み σ
擬似コード
1. Return LKH({xv
})
14 KYOTO UNIVERSITY
実験
15 / 21 KYOTO UNIVERSITY
LKH でほぼ最適な解が得られた

実際に 40,000 単語からなる GloVe 点群を LKH に投げると...

得られた解の目的関数値(総距離): 236882.3
得られた下界 : 236300.9

LKH は下界(最適解がそれより短くならないことの証拠)
を出してくれる

236882.3 / 236300.9 = 1.003
→ ほぼ最適解が得られている

結果得られた埋め込みファイル容量: 312KB
→ スマホでも余裕
得られた解
下界
16 / 21 KYOTO UNIVERSITY
ベースラインは特定の方向に埋め込みを射影

ベースライン
 RandProj: 高次元埋め込み {xv
} を適当な方向 d に射影
 PCA1: 高次元埋め込み {xv
} を最大 PCA 方向 d に射影
 PCA4: 高次元埋め込み {xv
} を第四 PCA 方向 d に射影
単語埋め込みの最大 PCA 方向は無意味という既存研究があるため

ある側面 d を取り出していると考えられる

入力単語埋め込みの性質がいい
(e.g., disentangled) なら良い
順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が
特定の意味を表していることが知られている
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
17 / 21 KYOTO UNIVERSITY
定性的な結果 1: 提案法の埋め込み滑らかに変化

得られた一次元埋め込みから cat と concept の周りを表示
18 / 21 KYOTO UNIVERSITY
定性的な結果 2: 提案法の埋め込み滑らかに変化

提案埋め込みからランダムな区間を切り出したもの:

5 行目を見ると序数詞が教師なしで取り出せていることが分かる
GloVe にこういう序数詞の構造があることが分かる
→ 一次元にしてみた(思わぬ)恩恵

2 行目は急カーブする例 (weapon → arm → leg)
5th 6th
7th
8th
9th
10th
11th
12th
13th
14th
11th
15th
理想
現実
19 / 21 KYOTO UNIVERSITY
文書分類: 提案法を使って bag-of-words をぼかす

文書分類の定量評価

ナイーブな比較は bag-of-words
→ 単語の類似度は考慮できない

単語の類似度を組み込んだ手法: word mover’s distance ↑
→ 遅い + メモリ容量も大きい

提案法:
bag-of-words を WortTour 上で
ちょっとぼかして普通に L1 距離ではかる
{dog} vs {dogs} は BoW では
違う集合だが、ぼかすとだいたい同じだと結論できる
健全性のおかげで成立
From Word Embeddings to Document Distances. ICML 2015.
20 / 21 KYOTO UNIVERSITY
文書分類: 提案法は速度とメモリと精度のバランス良

BoW は精度が悪い

WMD は精度がいいが遅い

他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い

WordTour 上では精度がそれなりに良い + 高速 + 省メモリ
分類誤差
lower is better
21 / 21 KYOTO UNIVERSITY
まとめ: 健全な 1 次元単語埋め込みを提案

高次元単語埋め込みを巡回セールスマン問題で 1 次元に

完全性はないが健全性はある

高速 + 省メモリ + 解釈性

ハイレベルな教訓

特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン

巡回セールスマン問題は何かを滑らかに並べる良い手段

NP-hard でもソルバを探して見ると良いことがあるかも
健全性 完全性 一次元
コード・4万語埋め込みデータ・論文情報↑
https://github.com/joisino/wordtour

More Related Content

What's hot

幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
Ichigaku Takigawa
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
gree_tech
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
Takami Sato
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 

What's hot (20)

幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro幾何と機械学習: A Short Intro
幾何と機械学習: A Short Intro
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
ブラックボックス最適化とその応用
ブラックボックス最適化とその応用ブラックボックス最適化とその応用
ブラックボックス最適化とその応用
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 

More from joisino

キャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズムキャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズム
joisino
 
Metric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN GraphsMetric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN Graphs
joisino
 
Towards Principled User-side Recommender Systems
Towards Principled User-side Recommender SystemsTowards Principled User-side Recommender Systems
Towards Principled User-side Recommender Systems
joisino
 
CLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search SystemCLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search System
joisino
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
joisino
 
An Introduction to Spectral Graph Theory
An Introduction to Spectral Graph TheoryAn Introduction to Spectral Graph Theory
An Introduction to Spectral Graph Theory
joisino
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
joisino
 
Random Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural NetworksRandom Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural Networks
joisino
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Tree
joisino
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
死にたくない
死にたくない死にたくない
死にたくない
joisino
 

More from joisino (11)

キャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズムキャッシュオブリビアスアルゴリズム
キャッシュオブリビアスアルゴリズム
 
Metric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN GraphsMetric Recovery from Unweighted k-NN Graphs
Metric Recovery from Unweighted k-NN Graphs
 
Towards Principled User-side Recommender Systems
Towards Principled User-side Recommender SystemsTowards Principled User-side Recommender Systems
Towards Principled User-side Recommender Systems
 
CLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search SystemCLEAR: A Fully User-side Image Search System
CLEAR: A Fully User-side Image Search System
 
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
 
An Introduction to Spectral Graph Theory
An Introduction to Spectral Graph TheoryAn Introduction to Spectral Graph Theory
An Introduction to Spectral Graph Theory
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
 
Random Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural NetworksRandom Features Strengthen Graph Neural Networks
Random Features Strengthen Graph Neural Networks
 
Fast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a TreeFast Unbalanced Optimal Transport on a Tree
Fast Unbalanced Optimal Transport on a Tree
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
死にたくない
死にたくない死にたくない
死にたくない
 

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem (NAACL 2022)

  • 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem 佐藤竜馬 NAACL 2022 short paper
  • 2. 2 / 21 KYOTO UNIVERSITY 京大で最適輸送・GNN・推薦システムを研究しています 佐藤 竜馬(さとう りょうま) 京都大学 鹿島・山田研究室 博士 2 年  研究分野: グラフニューラルネットワーク  Approximation Ratios of Graph Neural Networks for Combinatorial Problems. NeurIPS 2019.  Random Features Strengthen Graph Neural Networks. SDM 2021.  Constant Time Graph Neural Networks. TKDD 2022. 最適輸送(宣伝: 機械学習プロフェッショナルシリーズより本が出ます)  Fast Unbalanced Optimal Transport on a Tree. NeurIPS 2020.  Re-evaluating Word Mover’s Distance. ICML 2022.  Supervised Tree-Wasserstein Distance. ICML 2021. (共著)  Fixed Support Tree-Sliced Wasserstein Barycenter. AISTATS 2022. (共著) 推薦システム・情報検索システム  Private Recommender Systems: How Can Users Build Their Own Fair Recommender Systems without Log Data? SDM 2022.  Retrieving Black-box Optimal Images from External Databases. WSDM 2022.  Enumerating Fair Packages for Group Recommendations. WSDM 2022.
  • 3. 3 / 21 KYOTO UNIVERSITY 単語埋め込みは重い・遅い・解釈できない  単語埋め込みは重い・遅い・解釈できない  メモリを食う: 40 万語 x 300 次元 = 1 GB 大規模言語モデルの世界観と比べると軽く見えるがエッジだと辛い スマホに 1 GB は辛い  時間を食う: 1 比較に d = 300 演算  解釈しづらい: 300 次元の点は目に見えない t-SNE って何を見せられている...? 敵対的摂動を作りました: v猫 + δ ← これは何...?
  • 4. 4 / 21 KYOTO UNIVERSITY 高次元離散性ゆえの扱いづらさ  敵対的摂動などの文脈でも離散性が問題視されている Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. HotFlip: White-Box Adversarial Examples for Text Classification. ACL 2018. Deep Text Classification Can be Fooled. IJCAI 2018.
  • 5. 5 / 21 KYOTO UNIVERSITY 画像は 1 次元連続 ← これを取り入れればいいのでは  じゃあ、テキストも 1 次元連続にしちゃえばいいのでは...!? dog cat bird dogs テキストの場合 → 単語は高次元・離散 扱いづらい 画像の場合 ピクセルは 1 次元・連続 → 扱いやすい Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020.
  • 6. 6 / 21 KYOTO UNIVERSITY 目指すもの: 1 次元の単語埋め込み  目指すもの(理想形)  軽量 & 高速: メモリも演算も 1 次元  解釈: 1 次元は目に見える! 摂動しても解釈できる!  実際そう都合良くは行きませんが、やってみると出来ることもありました、 というのが今回のお話 1 次元の単語埋め込み
  • 7. 7 / 21 KYOTO UNIVERSITY 関連研究: 次元削減はあるが一定以上は難しそう  既存の文献を調べてみると、単語埋め込み次元削減手法はあるが、 せいぜい数十次元止まり それ以上次元を下げると大幅に精度が下がる Evaluating Memory Efficiency and Robustness of Word Embeddings. ECIR 2016. 削減なし 9 割削減 誤差 誤差大幅増 Poincaré Embeddings for Learning Hierarchical Representations. NeurIPS 2017. ポアンカレ埋め込みだと 5 次元までならなんとか... 限界: 特定のタスクと教師データのみ & 1 次元は無理 希望の光ではある
  • 8. 8 / 21 KYOTO UNIVERSITY 冷静に考えて 1 次元は無理  冷静に考えて単語の全ての要素を 1 次元に詰め込むのは無理 1 次元だと隣り合う単語は 2 個だけ → 「動物」 の隣に 「猫」「犬」「鼠」「鶏」 を同時に置けない robot - man + woman = ? → 疎な埋め込みだと対応する単語はありません、と言える → 1 次元だと対応する単語が何か出てきてしまう  ポアンカレ埋め込みの教訓: 全ての側面を保存しなくて良いなら低次元も可能かもしれない ポアンカレ埋め込みの場合は階層性を保存した
  • 9. 9 / 21 KYOTO UNIVERSITY 健全性と完全性に分け、健全性のみを考える  単語埋め込みに満たしていて欲しい性質 健全性: 近くに埋め込まれた単語の意味は近い 完全性: 意味の近い単語は近くに埋め込まれる    埋め込みを信じて近傍の単語を取ってきたとき 健全 → 正解だけが取ってこられる(取り残しの可能性あり) 完全 → 正解が全て取ってこられる(不正解が混ざる可能性あり)    完全性を諦めて健全性のみ満たす埋め込みを作ることを目指す 健全性だけでも単語検索・文書検索などで使えうる この論文で提案する概念
  • 10. 10 / 21 KYOTO UNIVERSITY 問題設定: 高次元埋め込み → 一次元埋め込みを計算  Input: 学習済みの高次元単語埋め込み {xv } 実験では 300 次元 GloVe (or 学習したい対象のコーパス)  Output: 一次元の健全な埋め込み σ: V → [n](全単射)  一次元埋め込みにおいては座標は考えず並び順のみを考える σ(v): 単語 v の位置 ∈ {1, 2, ..., n} σ-1 (i): i 番目の単語  σ を保存するには単語のリストを持つだけで良い → 超軽量 + 解釈
  • 11. 11 / 21 KYOTO UNIVERSITY 隣り合う単語の距離の総和が近くなるように定式化  健全性: 近くに埋め込まれた単語の意味は近い  定式化: 一次元埋め込みで隣り合う単語は元の埋め込み上で近い 補足: σ-1 (n+1) = σ-1 (1) とする つまり、パスではなく環っかで定式化 (端の単語を特別視したくないため) コストは元の単語埋め込みでの距離、以外でも コーパスが手元にある場合は共起数最大化なども可
  • 12. 12 / 21 KYOTO UNIVERSITY 提案法の設定は巡回セールスマン問題  この定式化は巡回セールスマン問題 単語 = 都市   一次元埋め込み = 巡回ルート  巡回セールスマン問題は NP-hard → 解けない...?  最近のソルバは超高性能なので解ける! 最近のソルバは n = 100,000 頂点の 巡回セールスマン問題を厳密に解ける
  • 13. 13 / 21 KYOTO UNIVERSITY 提案法は巡回セールスマン問題を解いて、終わり  提案法 WordTour Input: 高次元単語埋め込み {xv } Output: 一次元単語埋め込み σ 擬似コード 1. Return LKH({xv })
  • 15. 15 / 21 KYOTO UNIVERSITY LKH でほぼ最適な解が得られた  実際に 40,000 単語からなる GloVe 点群を LKH に投げると...  得られた解の目的関数値(総距離): 236882.3 得られた下界 : 236300.9  LKH は下界(最適解がそれより短くならないことの証拠) を出してくれる  236882.3 / 236300.9 = 1.003 → ほぼ最適解が得られている  結果得られた埋め込みファイル容量: 312KB → スマホでも余裕 得られた解 下界
  • 16. 16 / 21 KYOTO UNIVERSITY ベースラインは特定の方向に埋め込みを射影  ベースライン  RandProj: 高次元埋め込み {xv } を適当な方向 d に射影  PCA1: 高次元埋め込み {xv } を最大 PCA 方向 d に射影  PCA4: 高次元埋め込み {xv } を第四 PCA 方向 d に射影 単語埋め込みの最大 PCA 方向は無意味という既存研究があるため  ある側面 d を取り出していると考えられる  入力単語埋め込みの性質がいい (e.g., disentangled) なら良い 順序が得られることが期待できる 画像の GAN では特定の方向 (e.g., PCA) が 特定の意味を表していることが知られている Unsupervised Discovery of Interpretable Directions in the GAN Latent Space. ICML 2020. GANSpace: Discovering Interpretable GAN Controls. NeurIPS 2020.
  • 17. 17 / 21 KYOTO UNIVERSITY 定性的な結果 1: 提案法の埋め込み滑らかに変化  得られた一次元埋め込みから cat と concept の周りを表示
  • 18. 18 / 21 KYOTO UNIVERSITY 定性的な結果 2: 提案法の埋め込み滑らかに変化  提案埋め込みからランダムな区間を切り出したもの:  5 行目を見ると序数詞が教師なしで取り出せていることが分かる GloVe にこういう序数詞の構造があることが分かる → 一次元にしてみた(思わぬ)恩恵  2 行目は急カーブする例 (weapon → arm → leg) 5th 6th 7th 8th 9th 10th 11th 12th 13th 14th 11th 15th 理想 現実
  • 19. 19 / 21 KYOTO UNIVERSITY 文書分類: 提案法を使って bag-of-words をぼかす  文書分類の定量評価  ナイーブな比較は bag-of-words → 単語の類似度は考慮できない  単語の類似度を組み込んだ手法: word mover’s distance ↑ → 遅い + メモリ容量も大きい  提案法: bag-of-words を WortTour 上で ちょっとぼかして普通に L1 距離ではかる {dog} vs {dogs} は BoW では 違う集合だが、ぼかすとだいたい同じだと結論できる 健全性のおかげで成立 From Word Embeddings to Document Distances. ICML 2015.
  • 20. 20 / 21 KYOTO UNIVERSITY 文書分類: 提案法は速度とメモリと精度のバランス良  BoW は精度が悪い  WMD は精度がいいが遅い  他の一次元埋め込み上でぼかすと順序がめちゃくちゃなので悪い  WordTour 上では精度がそれなりに良い + 高速 + 省メモリ 分類誤差 lower is better
  • 21. 21 / 21 KYOTO UNIVERSITY まとめ: 健全な 1 次元単語埋め込みを提案  高次元単語埋め込みを巡回セールスマン問題で 1 次元に  完全性はないが健全性はある  高速 + 省メモリ + 解釈性  ハイレベルな教訓  特定の性質に着目してそれ以外を究極まで削ぎ落とす研究パターン  巡回セールスマン問題は何かを滑らかに並べる良い手段  NP-hard でもソルバを探して見ると良いことがあるかも 健全性 完全性 一次元 コード・4万語埋め込みデータ・論文情報↑ https://github.com/joisino/wordtour