Enriching Word Vectors with Subword Information

Enriching Word Vectors with
Subword Information
Piotr Bojanowski, Edouard Grave, Armand Joulin,
and Tomas Mikolov
TACL2017
読む⼈：⾼瀬翔
http://www.kecl.ntt.co.jp/icl/lirg/members/takase/
117/09/16 第9回最先端NLP勉強会
実験結果の表は[Bojanowski+ 17]から引⽤

なぜこの論⽂を選んだか？
•  最先端NLP勉強会論⽂投票で1位なので
– 得票数：13（2位が7票，ほぼダブルスコア）
– TACLの論⽂で次点は5票
– 論⽂選択締め切り⽇にまだ空いていた
– ⼤⼈気論⽂だし読んでおくか〜という気持ち
17/09/16 第9回最先端NLP勉強会 2

最先端？
•  初稿がarXivに投稿されたのは1年以上前
（2016/7/15）
– 引⽤数は既に86件（2017/9/13現在）
•  最初期の実装も同時期に公開
– https://github.com/facebookresearch/fastText
•  解説記事もちらほら
– http://qiita.com/search?q=fasttext

論⽂の概要
•  ⽬標：単語のベクトル表現の質の向上
–  未知語，低頻度語に頑健なベクトル表現の獲得
•  単語をcharacter n-gramの集合で表現
–  開始／終了を表す記号（<，>）を単語に付与
–  3-gramの場合：where → <wh, whe, her, ere, re>
•  単語のベクトル＝character n-gramのベクトルの和
–  3-gramの場合：vwhere = v<wh + vwhe + vher + vere + vre>
–  似た⽂字列を持つ → 似たベクトルとなる
•  活⽤形の吸収：go, goes, goneは <go を持つ
–  単語間で共有する⽂字列の情報を上⼿く利⽤できる
•  低頻度語に対しても質の⾼いベクトルを構築可能
•  未知語のベクトルも計算可能
•  単語間の類似度評価，analogyで性能向上
•  実装はfastText

準備：word embedding
•  単語の特徴を低次元のベクトルで表現
–  単語間の類似性をベクトルの類似度で計算
•  どのように得るか？
–  次元圧縮（e.g., 単語共起⾏列をSVD）
–  コーパスから学習（e.g., word2vec）
•  今回はコーパスから学習する⼿法をベースにする
5
peach penguin medicinedrug

未知語・低頻度語問題
•  語彙に含まれない単語＝ベクトルがない
– コーパス中に出現しない単語に対応できない
– 実⽤上は頻度5回以上の単語で語彙をつくる，
などするため，ごく低頻度の単語は扱えない
•  低頻度語のベクトルは質が低くなりがち
– 頻度が低い＝学習事例が少ない
→⼗分な学習ができない

解決策：単語を⼩さな単位に分割
•  エクストリームな姿勢：語彙は⽂字のみ
–  ⽂字のベクトルから単語ベクトルを計算
•  Character-Aware Neural Language Models [Kim+ 15]
•  Mimicking Word Embeddings using Subword RNNs [Pinter+ 17]
•  単語を適度なサイズの⽂字列に分ける
–  形態素で分割 [Luong+ 13]
•  unfortunately → un + fortunate + ly
–  Byte Pair Encoding（BPE）の使⽤ [Sennrich+ 16]
•  ⾔語⽣成（特に翻訳）の⽂脈で⾒ることが多い
•  ⾼頻度語は単語のまま，低頻度語は⽂字で表現
•  コーパスから語彙（部分⽂字列）を決定
–  本研究：character n-gramを使⽤
•  3-gramの場合：where → <wh, whe, her, ere, re>
•  他に [Wieting+ 16] もcharacter n-gramの有⽤性を⽰している

⼿法

•  Skip-gramモデル（word2vec）[Mikolov+ 13]
•  ⽬的関数：単語wtから周辺語wt+jの予測確率を最⼤化
–  周辺単語のベクトルに類似，それ以外と⾮類似となるよう学習
9
J = logP(wt+j | wt )
−c≤j≤c, j≠0
∑
t=1
T
∑
⽂中の単語数
⽂脈の範囲
logP(wt+j | wt ) ≈ logσ (vwt
⋅uwt+j
)+ Εz~Pn (w)
i=1
k
∑ [logσ (−vwt
⋅uz )]
σ：シグモイド関数負例単語 z を k 回サンプリング
単語のEmbeddingの学習
… passive smoking cause lung cancer …
周辺単語を予測
vwt
uwt+1
uwt+1
uw−1uw−2

10
提案⼿法：character n-gramの利⽤
… passive smoking cause lung cancer …
周辺単語を予測
（Skip-gramと同様の学習）
vwt
uwt+1
uwt+1
uw−1uw−2
Σ
<ca cau aus use se>

単語ベクトル＝単語を構成するcharacter n-gramのベクトルの和
（上はcharacter 3-gramの場合）

実験

実験
•  設定
–  次元数：300
–  character n-gram：3, 4, 5, 6-gramを使⽤
•  ⽬的：単語ベクトルの質がcharacter n-gramの利⽤によって
向上するか検証
•  評価
–  単語間の類似度
–  analogy
•  与えられた単語間と同じ関係の単語を予測
•  （man, king, woman, ?）で ?＝queenと答えられるか？
単語１単語２⼈⼿で付与した類似度単語ベクトル間のコサイン類似度
tiger cat 7 0.8
stock egg 2 0.3
……
スピアマンの順位相関係数
を計算

単語間の類似度
アラビア語
ドイツ語
英語
スペイン語
フランス語
ルーマニア語
ロシア語
Skipgram
Continuous
Bag of words
Character n-gramを使⽤
訓練に含まれない単語を
考慮しない／する
Character
n-gramを使うことで
性能（⼈との相関）
が向上

Analogy task
チェコ語
ドイツ語
英語
イタリア語
Character
n-gramを使うことで
Syntacticの
正解率が向上
n-gramのnを適切に
設定すれば
Semanticの性能は
もっと良いと主張
（例えば5-gramのみなら
EN Semanticの正解率80）

形態素から単語ベクトルを 
計算する⼿法と⽐較
•  単語間の類似度データセットで評価

学習データに対する性能
•  単語間の類似度データセットで評価
– 少量の学習データでも⾼い性能

n-gramの n に対する性能
•  [i:j]-gramを使⽤
–  2⾏4列⽬：2, 3, 4-gramを使⽤
•  nを⼤きく取ったほうが良い
–  単語にすると性能が下がるのは何故？
→（おそらく）部分的な特徴（部分⽂字列）を共有できないから

まとめ
•  単語をcharacter n-gramの集合で表現
– 単語ベクトル＝character n-gramベクトル和
•  未知語・低頻度語問題に有効
•  共有できるものは共有すると性能向上
– 最近流⾏のテクニック（？）
– ⾔語モデル：Embeddingと最終層を共有
[Inan+ 17, Press+ 17]
– 翻訳：subword化 + 原⾔語と対象⾔語で
embeddingを共有 [Vaswani+ 17]

Enriching Word Vectors with Subword Information

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

More from Sho Takase

More from Sho Takase (14)

Enriching Word Vectors with Subword Information

Editor's Notes