Skip gram shirakawa_20141121

Copyright@2014 NTT DATA Mathematical Systems Inc.
Skip-gram について
1
2014/11/21
白川達也 sirakawa@msi.co.jp

2
king – man + woman = ?

3
king – man + woman = queen …ですよね？

4
walked – walk + run = ?

5
walked – walk + run = ran …ですよね？

6
france – paris + japan = ?

7
france – paris + japan = tokyo …ですよね？

8
人間はアナロジー関係を適切にとらえることができます。 Skip-gramに代表される言語モデルの進化により、このようなアナロジー関係をある程度機械的に計算できるようになりました。

9
Skip-gram モデル（+ Noise Sampling）
•T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013
•Skip-gram モデルは、単語に同じ次元のベクタを割り当てます（語 푢 に割り当てられたベクタが 휃푢 ）。
•コーパスで共起する単語ペア（푢,푣∼푃퐷）は、ベクタの内積が大きくなるようにします。
•コーパスの푘倍の個数の単語ペア（푢,푣∼푃푁）を別途作成しますが、それらの単語ペアのベクタの内積は小さくなるようにします。
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)

10
共起しやすい ⇔ベクタの内積が大きい
mathematics
physics
tokyo

11
Linear Regularity
•Skip-gram で学習された単語のベクタ（ 휃푢 ）を使って、意味や統語の線形計算ができることが実験的に確認されています。
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013

12
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013

13
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013

14
語の相対的な位置関係は言語非依存（？）
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168

15
Skip-gram = PMI行列の行列分解
•最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 （ユニグラム分布の積）ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。
•O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
푢
푣
Pointwise Mutual Information
푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣)
PMI行列

16
証明
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014
（証明） 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣
を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解になります。

17
Linear Regularity 再考
•PMI行列の分解であることを想定すると、のような関係は、任意の語 푣 にたいして、という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 （휃푘푖푛푔を푘푖푛푔などと略記）
푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢

18
푄푢|푣
푢
푣
푝(푢,푣)
푝(푢)
計
푢
푣
푄푢푣
1
計
行を正規化
同時確率
푄푢|푣 は同時確率 푝(푢,푣)
から語自身の出現確率 푝(푢)の効果を除いたもの

19
Linear Regularity
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣
1
1
1
1
퐴
푎
퐵
푏
푣
ここの比が常に等しい
풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏
king, man, queen, woman 固有の出現確率を無視すると、どんな語に対しても、その語の周辺に「 man に比べて king がどれくらい出やすいか」は、「woman に比べて queen がどれくらい出やすいか」と等しい。

20
逆向きは成り立つか
•左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合（詳しくは、この空間の次元が分散表現の次元と一致する場合）、 퐴 −푎 =퐵−푏 となることも導かれます。
QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?

Skip gram shirakawa_20141121

More Related Content

What's hot

Similar to Skip gram shirakawa_20141121

Skip gram shirakawa_20141121