Successfully reported this slideshow.
Your SlideShare is downloading. ×

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 16 Ad

More Related Content

Slideshows for you (20)

Similar to NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality (20)

Advertisement

More from Yuya Unno (20)

Recently uploaded (20)

Advertisement

NIPS2013読み会: Distributed Representations of Words and Phrases and their Compositionality

  1. 1. 2014/01/23 NIPS2013読み会@東京大学 Distributed Representations of Words and Phrases and their Compositionality (株)Preferred Infrastructure 海野  裕也 (@unnonouno)
  2. 2. ⾃自⼰己紹介 海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  l  l  l  Jubautsプロジェクトリーダー http://jubat.us 専⾨門 l  l  ⾃自然⾔言語処理理 テキストマイニング 2
  3. 3. 概要 l  MikolovのICLR2013(word2vec)の続編 l  l  Berlin – German + France = Paris!! 計算をサボって速くしたら、何故か結果も良良くなった話 l  l  Before: ⽇日単位でかかっていた After: 15~30分 3
  4. 4. word2vec [Mikolov+13] l  l  各単語の「意味」を表現するベクトルを作るはなし vec(Berlin) – vec(German) + vec(France) と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 Paris!! France German Berlin 4
  5. 5. Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語) これを最 ⼤大化 cは文脈サイズで5くらい vwは単語wを表現するようなベクトル(適当な次元)で、 これらを推定したい 5
  6. 6. 問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  l  W = 105 ~ 107 いかに効率率率よく計算をサボるかがこの論論⽂文の主題 6 [Mikolov+13]より
  7. 7. Hierarchical Softmax (HS) [Morin+05] ルートからw までの全ノー ドで積をとる りんご n3 n1 n2 みかん カレー ラーメン 各ノードのベ クトル σ(x)=1/(1 + exp(-x)) l  l  単語で⽊木を作り、ルートからその単語までの各ノードの ベクトルと内積をとり、そのシグモイドの積にする 計算量量が単語数の対数時間になる 7
  8. 8. Noise Contrastive Estimation (NCE) [Gutmann +12] l  l  本題から外れるので割愛 Softmaxによる分布を近似するらしい 8
  9. 9. Negative Sampling (NEG) (提案⼿手法1) log P(wo|wI) = l  l  NCEをもっとサボった上式を使う ∑の中の期待値計算は、k個のサンプルを取って近似する l  l  データが少ない時は5~20個、多ければ2~5個で充分 P(w)として、1-gram頻度度の3/4乗に⽐比例例させたときが ⼀一番良良かった 9
  10. 10. 頻出語のサブサンプリング(提案⼿手法2) l  l  l  “a”や”the”などの頻出語をうまくモデル化してもしょう がないので、頻度度をディスカウントする tは適当な閾値(10-5くらい)、f(w)は単語頻度度 もはやPとは何だったのか・・・ 10
  11. 11. 実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  l  l  vec(Berlin) – vec(Germany) + vec(France)の近傍探索索で vec(Paris)を⾒見見つける NEGがHierarchical SoftmaxやNCEよりも⾼高精度度 サブサンプリングも効果的 小さい方がいい 11 大きい方がいい
  12. 12. 複合語の実験 l  適当なスコア関数(上式)の⾼高いものを複合語として 取ってくる(δは適当なディスカウント係数) l  あとは同様に実験 l  単語と複合語のスコアからどうやって⽬目的関数を設計したかは ちゃんとかかれてない・・・? 12
  13. 13. 複合語の実験結果 l  l  サブサンプリングなしだとNEGがいいが、ありだとHS の⽅方がとたんに良良くなる データセットとベクトルの次元を増やすとどんどんよく なる l  最終的に72%の精度度まで上がった 13
  14. 14. 意味の⾜足し算 l  l  単純に2つの単語のベクトルを⾜足すと複合的な意味の単 語が⾒見見つかる 2つの単語の両⽅方と頻出しやすい単語を探していること になるからでは(AND検索索っぽく振る舞う) 14
  15. 15. 議論論 l  このベクトルは何を⽰示しているのか? l  Softmaxをとると何がおこるのか? l  ベクトルのたし引きは何を⽰示しているのか? l  Distributional Hypothesisの実現? l  words that occur in the same contexts tend to have similar meanings (wikipedia) 15
  16. 16. 参考⽂文献 l  l  l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR 2013. [Morin+05] Frederic Morin and Yoshua Bengio. Hierarchical probabilistic neural network language model. AISTATS 2005. [Gutmann+12] Michael U. Gutmann and Aapo Hyvarinen. Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics. JMLR 2012. 16

×