SlideShare a Scribd company logo
Copyright@2014 NTT DATA Mathematical Systems Inc. 
Skip-gram について 
1 
2014/11/21 
白川 達也 sirakawa@msi.co.jp
Copyright@2014 NTT DATA Mathematical Systems Inc. 
2 
king – man + woman = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
3 
king – man + woman = queen …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
4 
walked – walk + run = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
5 
walked – walk + run = ran …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
6 
france – paris + japan = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
7 
france – paris + japan = tokyo …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
8 
人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
9 
Skip-gram モデル(+ Noise Sampling) 
•T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 
•Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。 
•コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。 
•コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
Copyright@2014 NTT DATA Mathematical Systems Inc. 
10 
共起しやすい ⇔ベクタの内積が大きい 
mathematics 
physics 
tokyo
Copyright@2014 NTT DATA Mathematical Systems Inc. 
11 
Linear Regularity 
•Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
12 
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
13 
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
14 
語の相対的な位置関係は言語非依存(?) 
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
Copyright@2014 NTT DATA Mathematical Systems Inc. 
15 
Skip-gram = PMI行列の行列分解 
•最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 
•O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣) 
푢 
푣 
Pointwise Mutual Information 
푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣) 
PMI行列
Copyright@2014 NTT DATA Mathematical Systems Inc. 
16 
証明 
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 
(証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣 
を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
17 
Linear Regularity 再考 
•PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。 
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記) 
푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
Copyright@2014 NTT DATA Mathematical Systems Inc. 
18 
푄푢|푣 
푢 
푣 
푝(푢,푣) 
푝(푢) 
計 
푢 
푣 
푄푢푣 
1 
計 
行を正規化 
同時確率 
푄푢|푣 は同時確率 푝(푢,푣) 
から語自身の出現確率 푝(푢)の効果を除いたもの
Copyright@2014 NTT DATA Mathematical Systems Inc. 
19 
Linear Regularity 
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 
1 
1 
1 
1 
퐴 
푎 
퐵 
푏 
푣 
ここの比が常に等しい 
풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏 
king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
20 
逆向きは成り立つか 
•左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 퐴 −푎 =퐵−푏 となることも導かれます。 
QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?

More Related Content

What's hot

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
matsuolab
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
hiro5585
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
emonosuke
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
matsuolab
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
佑馬 斎藤
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
matsuolab
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
matsuolab
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
Katsuya Ito
 

What's hot (20)

ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章基礎からのベイズ統計学第5章
基礎からのベイズ統計学第5章
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
 

Similar to Skip gram shirakawa_20141121

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
Kensuke Otsuki
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
Akira Taniguchi
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
Naoaki Okazaki
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
Masaru Nagaku
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
 
Interop2017
Interop2017Interop2017
Interop2017
tak9029
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
OCRは古い技術
OCRは古い技術OCRは古い技術
OCRは古い技術
Koji Kobayashi
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
Preferred Networks
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
 
TDA やら Night!!
TDA やら Night!!TDA やら Night!!
TDA やら Night!!
Tatsuki SHIMIZU
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
Sho Takase
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞
DMM.com
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
Preferred Networks
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
 
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
Shinagawa Seitaro
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
nlab_utokyo
 

Similar to Skip gram shirakawa_20141121 (20)

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Interop2017
Interop2017Interop2017
Interop2017
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
OCRは古い技術
OCRは古い技術OCRは古い技術
OCRは古い技術
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
TDA やら Night!!
TDA やら Night!!TDA やら Night!!
TDA やら Night!!
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 

Skip gram shirakawa_20141121

  • 1. Copyright@2014 NTT DATA Mathematical Systems Inc. Skip-gram について 1 2014/11/21 白川 達也 sirakawa@msi.co.jp
  • 2. Copyright@2014 NTT DATA Mathematical Systems Inc. 2 king – man + woman = ?
  • 3. Copyright@2014 NTT DATA Mathematical Systems Inc. 3 king – man + woman = queen …ですよね?
  • 4. Copyright@2014 NTT DATA Mathematical Systems Inc. 4 walked – walk + run = ?
  • 5. Copyright@2014 NTT DATA Mathematical Systems Inc. 5 walked – walk + run = ran …ですよね?
  • 6. Copyright@2014 NTT DATA Mathematical Systems Inc. 6 france – paris + japan = ?
  • 7. Copyright@2014 NTT DATA Mathematical Systems Inc. 7 france – paris + japan = tokyo …ですよね?
  • 8. Copyright@2014 NTT DATA Mathematical Systems Inc. 8 人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
  • 9. Copyright@2014 NTT DATA Mathematical Systems Inc. 9 Skip-gram モデル(+ Noise Sampling) •T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 •Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。 •コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。 •コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
  • 10. Copyright@2014 NTT DATA Mathematical Systems Inc. 10 共起しやすい ⇔ベクタの内積が大きい mathematics physics tokyo
  • 11. Copyright@2014 NTT DATA Mathematical Systems Inc. 11 Linear Regularity •Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
  • 12. Copyright@2014 NTT DATA Mathematical Systems Inc. 12 T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
  • 13. Copyright@2014 NTT DATA Mathematical Systems Inc. 13 T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
  • 14. Copyright@2014 NTT DATA Mathematical Systems Inc. 14 語の相対的な位置関係は言語非依存(?) T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
  • 15. Copyright@2014 NTT DATA Mathematical Systems Inc. 15 Skip-gram = PMI行列の行列分解 •最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 •O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣) 푢 푣 Pointwise Mutual Information 푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣) PMI行列
  • 16. Copyright@2014 NTT DATA Mathematical Systems Inc. 16 証明 下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 (証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣 を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
  • 17. Copyright@2014 NTT DATA Mathematical Systems Inc. 17 Linear Regularity 再考 •PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記) 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
  • 18. Copyright@2014 NTT DATA Mathematical Systems Inc. 18 푄푢|푣 푢 푣 푝(푢,푣) 푝(푢) 計 푢 푣 푄푢푣 1 計 行を正規化 同時確率 푄푢|푣 は同時確率 푝(푢,푣) から語自身の出現確率 푝(푢)の効果を除いたもの
  • 19. Copyright@2014 NTT DATA Mathematical Systems Inc. 19 Linear Regularity 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 1 1 1 1 퐴 푎 퐵 푏 푣 ここの比が常に等しい 풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏 king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
  • 20. Copyright@2014 NTT DATA Mathematical Systems Inc. 20 逆向きは成り立つか •左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 퐴 −푎 =퐵−푏 となることも導かれます。 QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?