Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
2014/01/23
NIPS2013読み会@東京大学	

Distributed Representations of
Words and Phrases and their
Compositionality
(株)Preferred Inf...
⾃自⼰己紹介

海野  裕也 (@unnonouno)
l  Preferred Infrastructure (PFI)
l 

l 
l 

l 

Jubautsプロジェクトリーダー
http://jubat.us

専⾨門
l...
概要
l 

MikolovのICLR2013(word2vec)の続編
l 

l 

Berlin – German + France = Paris!!

計算をサボって速くしたら、何故か結果も良良くなった話
l 
l 

Be...
word2vec [Mikolov+13]
l 
l 

各単語の「意味」を表現するベクトルを作るはなし
vec(Berlin) – vec(German) + vec(France) と⼀一番近い単
語を探したら、vec(Paris)だっ...
Skip gramモデル[Mikolov+13]の⽬目的関数
l 

⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語)

これを最
⼤大化

cは文脈サイズで5くらい	

vwは単語wを表現するようなベクトル(適当な次元)で...
問題点

l 

語彙数が多すぎて∑の計算が⼤大変
l 

l 

W = 105 ~ 107

いかに効率率率よく計算をサボるかがこの論論⽂文の主題

6	
[Mikolov+13]より
Hierarchical Softmax (HS) [Morin+05]

ルートからw
までの全ノー
ドで積をとる

りんご

n3

n1

n2

みかん

カレー

ラーメン

各ノードのベ
クトル

σ(x)=1/(1 + exp(-...
Noise Contrastive Estimation (NCE) [Gutmann
+12]
l 
l 

本題から外れるので割愛
Softmaxによる分布を近似するらしい

8
Negative Sampling (NEG) (提案⼿手法1)
log P(wo|wI) =	

l 
l 

NCEをもっとサボった上式を使う
∑の中の期待値計算は、k個のサンプルを取って近似する
l 

l 

データが少ない時は...
頻出語のサブサンプリング(提案⼿手法2)
l 
l 
l 

“a”や”the”などの頻出語をうまくモデル化してもしょう
がないので、頻度度をディスカウントする
tは適当な閾値(10-5くらい)、f(w)は単語頻度度
もはやPとは何だった...
実験結果
l 

[Mikolov+13]でやったanalogical reasoning taskで評価
l 

l 
l 

vec(Berlin) – vec(Germany) + vec(France)の近傍探索索で
vec(P...
複合語の実験

l 

適当なスコア関数(上式)の⾼高いものを複合語として
取ってくる(δは適当なディスカウント係数)

l 

あとは同様に実験
l 

単語と複合語のスコアからどうやって⽬目的関数を設計したかは
ちゃんとかかれてない・...
複合語の実験結果

l 
l 

サブサンプリングなしだとNEGがいいが、ありだとHS
の⽅方がとたんに良良くなる
データセットとベクトルの次元を増やすとどんどんよく
なる
l 

最終的に72%の精度度まで上がった

13
意味の⾜足し算

l 
l 

単純に2つの単語のベクトルを⾜足すと複合的な意味の単
語が⾒見見つかる
2つの単語の両⽅方と頻出しやすい単語を探していること
になるからでは(AND検索索っぽく振る舞う)

14
議論論
l 

このベクトルは何を⽰示しているのか?

l 

Softmaxをとると何がおこるのか?

l 

ベクトルのたし引きは何を⽰示しているのか?

l 

Distributional Hypothesisの実現?
l 
...
参考⽂文献
l 

l 

l 

[Mikolov+13] Tomas Mikolov, Kai Chen, Greg
Corrado, and Jeffrey Dean. Efficient estimation of
word re...
Upcoming SlideShare
Loading in …5
×

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

23,274 views

Published on

Published in: Technology
  • Be the first to comment

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

  1. 1. 2014/01/23 NIPS2013読み会@東京大学 Distributed Representations of Words and Phrases and their Compositionality (株)Preferred Infrastructure 海野  裕也 (@unnonouno)
  2. 2. ⾃自⼰己紹介 海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  l  l  l  Jubautsプロジェクトリーダー http://jubat.us 専⾨門 l  l  ⾃自然⾔言語処理理 テキストマイニング 2
  3. 3. 概要 l  MikolovのICLR2013(word2vec)の続編 l  l  Berlin – German + France = Paris!! 計算をサボって速くしたら、何故か結果も良良くなった話 l  l  Before: ⽇日単位でかかっていた After: 15~30分 3
  4. 4. word2vec [Mikolov+13] l  l  各単語の「意味」を表現するベクトルを作るはなし vec(Berlin) – vec(German) + vec(France) と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 Paris!! France German Berlin 4
  5. 5. Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語) これを最 ⼤大化 cは文脈サイズで5くらい vwは単語wを表現するようなベクトル(適当な次元)で、 これらを推定したい 5
  6. 6. 問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  l  W = 105 ~ 107 いかに効率率率よく計算をサボるかがこの論論⽂文の主題 6 [Mikolov+13]より
  7. 7. Hierarchical Softmax (HS) [Morin+05] ルートからw までの全ノー ドで積をとる りんご n3 n1 n2 みかん カレー ラーメン 各ノードのベ クトル σ(x)=1/(1 + exp(-x)) l  l  単語で⽊木を作り、ルートからその単語までの各ノードの ベクトルと内積をとり、そのシグモイドの積にする 計算量量が単語数の対数時間になる 7
  8. 8. Noise Contrastive Estimation (NCE) [Gutmann +12] l  l  本題から外れるので割愛 Softmaxによる分布を近似するらしい 8
  9. 9. Negative Sampling (NEG) (提案⼿手法1) log P(wo|wI) = l  l  NCEをもっとサボった上式を使う ∑の中の期待値計算は、k個のサンプルを取って近似する l  l  データが少ない時は5~20個、多ければ2~5個で充分 P(w)として、1-gram頻度度の3/4乗に⽐比例例させたときが ⼀一番良良かった 9
  10. 10. 頻出語のサブサンプリング(提案⼿手法2) l  l  l  “a”や”the”などの頻出語をうまくモデル化してもしょう がないので、頻度度をディスカウントする tは適当な閾値(10-5くらい)、f(w)は単語頻度度 もはやPとは何だったのか・・・ 10
  11. 11. 実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  l  l  vec(Berlin) – vec(Germany) + vec(France)の近傍探索索で vec(Paris)を⾒見見つける NEGがHierarchical SoftmaxやNCEよりも⾼高精度度 サブサンプリングも効果的 小さい方がいい 11 大きい方がいい
  12. 12. 複合語の実験 l  適当なスコア関数(上式)の⾼高いものを複合語として 取ってくる(δは適当なディスカウント係数) l  あとは同様に実験 l  単語と複合語のスコアからどうやって⽬目的関数を設計したかは ちゃんとかかれてない・・・? 12
  13. 13. 複合語の実験結果 l  l  サブサンプリングなしだとNEGがいいが、ありだとHS の⽅方がとたんに良良くなる データセットとベクトルの次元を増やすとどんどんよく なる l  最終的に72%の精度度まで上がった 13
  14. 14. 意味の⾜足し算 l  l  単純に2つの単語のベクトルを⾜足すと複合的な意味の単 語が⾒見見つかる 2つの単語の両⽅方と頻出しやすい単語を探していること になるからでは(AND検索索っぽく振る舞う) 14
  15. 15. 議論論 l  このベクトルは何を⽰示しているのか? l  Softmaxをとると何がおこるのか? l  ベクトルのたし引きは何を⽰示しているのか? l  Distributional Hypothesisの実現? l  words that occur in the same contexts tend to have similar meanings (wikipedia) 15
  16. 16. 参考⽂文献 l  l  l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR 2013. [Morin+05] Frederic Morin and Yoshua Bengio. Hierarchical probabilistic neural network language model. AISTATS 2005. [Gutmann+12] Michael U. Gutmann and Aapo Hyvarinen. Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics. JMLR 2012. 16

×