Successfully reported this slideshow.
Your SlideShare is downloading. ×

Distributed Representations of Words and Phrases and their Compositionally

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 14 Ad

More Related Content

More from Kanji Takahashi (20)

Advertisement

Recently uploaded (20)

Distributed Representations of Words and Phrases and their Compositionally

  1. 1. Distributed Representations of Words and Phrases and their Compositionally 長岡技術科学大学 自然言語処理研究室 高橋寛治 Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems 26 (NIPS 2013) 「word2vecによる自然言語処理」の図を利用 文献紹介 2016年4月13日
  2. 2. 概要 •MikolovらのWord2vecの論文 •前のモデルと比べ、計算が早くなり高精度化 •フレーズも考慮 Ø“Canada”と“Air”→”Air Canada” Distributed Representations of Words and Phrases and their Compositionally
  3. 3. はじめに •ベクトルによる単語の表現は1986年から研究 •Mikolovら(2013)がSkip-gram modelを提案 •vec(“Madrid”) – vec(“Spain”) + vec(“France”) ≒ vec(“Paris”) Distributed Representations of Words and Phrases and their Compositionally
  4. 4. Skip-gramモデル Mikolov(2013) Distributed Representations of Words and Phrases and their Compositionally •入力単語の文脈中の単語 を推定 •これを拡張
  5. 5. Skip-gramモデル •単語列w1,w2,w3…wT,文脈サイズc •W(105~107)が大きすぎて計算は非現実的 Distributed Representations of Words and Phrases and their Compositionally
  6. 6. 階層的ソフトマックス •グループ化し計算を省略 •語彙数Nの場合、O(logN)に削減 Distributed Representations of Words and Phrases and their Compositionally ハフマン符号を利用
  7. 7. ネガティブサンプリング •ランダムに5個ぐらい 偽の入力 •不正解ニューロンを選 ぶ確率は単語の出現確 率の3/4乗にする Distributed Representations of Words and Phrases and their Compositionally
  8. 8. 高頻度語のサブサンプリング •“in”, “the”, “a”などの頻出語をサブサンプリング •f(wi)は単語wiの相対頻度 •t(スレッショルド)は10-5 •高頻度語がよく間引かれる Distributed Representations of Words and Phrases and their Compositionally
  9. 9. 実験結果 •類推タスク Øvec(“Berlin”)-vec(“Germany”)+vec(“France”)が vec(“Paris”)かどうか •NEG-15が良い Distributed Representations of Words and Phrases and their Compositionally
  10. 10. 複合語の学習 •複合語は単純な意味の合算ではない •δは割引係数 •ユニグラムとバイグラムでスコアを計算 Distributed Representations of Words and Phrases and their Compositionally
  11. 11. 複合語タスクと結果 Distributed Representations of Words and Phrases and their Compositionally 類推タスクの例 結果
  12. 12. 語構成の確認 •単純なベクトル計算による構成 •ANDのような振る舞い Ø似た文脈で同様の単語列が現れるから、似たベクト ルと考えられる Distributed Representations of Words and Phrases and their Compositionally
  13. 13. 他の分散表現との比較 Distributed Representations of Words and Phrases and their Compositionally 300億単語で学習
  14. 14. まとめ •Skip-gramモデルによる単語・複合語の単語ベク トル表現 •省略による学習の高速化と高精度化 •単純なベクトル演算で意味を表現できた Distributed Representations of Words and Phrases and their Compositionally

×