Distributed Representations of 
Sentences and Documents 
DL勉強会 
2014/12/01 
小町研究室B4 堺澤勇也
動機 
 多くの機会学習アルゴリズムは固定長の素性ベク 
トル表現を要求する 
 最も一般的なはBOWである(Vocab次元) 
 簡単で頑健なのでよく使われる 
 しかし、BOWは二つの問題点がある 
 語順が失われる 
 単語の意味を無視する 
 A is better than B とB is better than A は同じになる
提案手法: Paragraph Vector 
 文・パラグラフ・ドキュメントのような可変長の 
テキストの一部から固定長の素性表現を学習する 
教師なし学習アルゴリズム 
 各ドキュメントを密ベクトルで表現する
 Word Vector 
Algorithms 
 PV-DM: A Distributed Memory model 
 PV-DBOW: Distributed Bag Of Words 
提案手法 
word2vec
Learning Vector Representation of Words 
W:文書単語行列 
コンテキスト中の他の単語が与えられたとき、次にくる単語を予測1 – of – V のベクトル→
学習 
下の式が最大になるようにトレーニングされる 
この予測タスクは、マルチクラス分類を通して行われるので、 
softmax関数を使って下の式を得ることが出来る 
yは下の式で計算することが出来る 
パラメータb、U がSGDによって学習される 
h はWから抽出された単語ベクトルの連結もしくは平均から構築される 
学習には確率的勾配法を使う
効果 
 似た意味を持つ単語は、ベクトル空間上で近い位 
置に置かれ、そうじゃない場合は遠い位置に置か 
れるようになる 
 “powerful”と“strong”は近い距離にくる 
 “powerful”と“Paris”は遠い距離にいる
PV-DM: A Distributed Memory model 
1 – of – V のベクトル→ 
CBOWのように、パラグラフの情報と単語周辺(この図では 
単語の前のみ)から文脈を推定させて分散表現を学習する
PV-DVによって作られた分散表 
現 
 sumやaverageではなくconcatenateなので語順が保 
たれる 
 BOWでなくなってしまう語順の情報(この論文で 
は繰り返し批判)を持つことを可能にした 
 図ではaverageのことも書かれているが、この実験 
ではconcatenateのみ考えている
PV-DM: A Distributed Memory model 
Concatenate のみを扱っている
 Paragraph ID とParagraph Matrix を使うと。。。 
 現在のコンテキストから失われた情報を表現できる 
 Paragraph のトピックを保持出来る 
→ memory model 
 それにより、予測性能がより良くなる 
 新しいParagraphが出てきたら、他のパラメーター 
は固定して学習する
PV-DBOW: Distributed Bag Of Words 
Skip gramのように、パラグラフの情報から文脈中の 
単語を推定出来るように学習する
 Task: 感情分析 
実験1 
 映画のレビュー文章を見て、ポジティブかネガティ 
ブかを判定する 
 Dataset: Stanford sentiment treebank 
 11855件の映画のレビュー文章が1文づつ与えられる 
 各文は0.0 (very negative) ~ 1.0 (very positive)の間でラ 
ベル付けされている
Protocol 
PV - DM 
PV -DBOW 
Logistic 
regression 
400 dim 
400 dim 
Positive 
or 
Negative 
concatenate 
Window = 8 
学習データのパラグラフは8544個
実験結果 
BOW or BOn-gram 
RNN(構文解析を必要とする手法提案手法 
提案手法は性能がよく、構文解析なども必要としない!!
 Task: 感情分析 
実験2 
 映画のレビュー文章を見て、ポジティブかネガティ 
ブかを判定する 
 Dataset: IMDB 
 100000件の映画のレビュー文章が複数文で与えられ 
る 
 各文はnegative、positive でラベル付けされている 
 実験1は入力が1文に対して、実験2は複数文
Protocol 
PV - DM 
PV -DBOW 
neural 
network 
400 dim 
400 dim 
Positive 
or 
Negative 
concatenate 
Window = 10 
Logistic 
regression 
間にニューラルネットが挟んである理由 
→線形ロジスティクス分類より非線形(ニューラルネット)を使った方がいい結果が出NNは隠れ層が50ノードあることは書いてあるがそれ以上については言及されていな
実験結果 
RBM 
NBSVM 
提案手法 
↑PV-DM + PV-DBOW PV-DM only: 7.63%
 Task: 情報検索 
実験3 
 同じクエリで与えられた二つのスニペットペアに対 
して、三つ目のスニペットが同じクエリから与えら 
れたかどうか判別する 
 Dataset: snippet 
 検索エンジンで1000000の有名なクエリから与えられ 
る上位10個のsnippet 
 snippet: 検索エンジンによる検索結果の一部として表 
示される、Webページの要約文のこと
sample 
Paragraph 1: calls from ( 000 ) 000 - 0000 . 
3913 calls reported from this number . 
according to 4 re- ports the identity of this caller is american airlines . 
Paragraph 2: do you want to find out who called you 
from +1 000 - 000 - 0000 , +1 0000000000 or ( 000 ) 000 - 0000 ? 
see reports and share information you have about this caller 
Paragraph 3: allina health clinic patients for your convenience , 
you can pay your allina health clinic bill online . 
pay your clinic bill now , question and answers... 
同じクエリ 
ランダム
実験結果
時間コスト 
 Expensive ではある 
 ただ、テストの時には並列処理可能で16 コアで 
25000段落(平均230単語)が30分だった 
 学習のときの時間については言及なし
まとめ 
 BOWは語順の情報が失われてしまう 
 提案手法は語順の情報が保持されるのでBOWより 
優れてる!! 
 PV-DMだけでも良い結果得られるけど、PV-DBOW 
を加えることでより良い結果になった

Distributed Representations of Sentences and Documents

  • 1.
    Distributed Representations of Sentences and Documents DL勉強会 2014/12/01 小町研究室B4 堺澤勇也
  • 2.
    動機  多くの機会学習アルゴリズムは固定長の素性ベク トル表現を要求する  最も一般的なはBOWである(Vocab次元)  簡単で頑健なのでよく使われる  しかし、BOWは二つの問題点がある  語順が失われる  単語の意味を無視する  A is better than B とB is better than A は同じになる
  • 3.
    提案手法: Paragraph Vector  文・パラグラフ・ドキュメントのような可変長の テキストの一部から固定長の素性表現を学習する 教師なし学習アルゴリズム  各ドキュメントを密ベクトルで表現する
  • 4.
     Word Vector Algorithms  PV-DM: A Distributed Memory model  PV-DBOW: Distributed Bag Of Words 提案手法 word2vec
  • 5.
    Learning Vector Representationof Words W:文書単語行列 コンテキスト中の他の単語が与えられたとき、次にくる単語を予測1 – of – V のベクトル→
  • 6.
    学習 下の式が最大になるようにトレーニングされる この予測タスクは、マルチクラス分類を通して行われるので、 softmax関数を使って下の式を得ることが出来る yは下の式で計算することが出来る パラメータb、U がSGDによって学習される h はWから抽出された単語ベクトルの連結もしくは平均から構築される 学習には確率的勾配法を使う
  • 7.
    効果  似た意味を持つ単語は、ベクトル空間上で近い位 置に置かれ、そうじゃない場合は遠い位置に置か れるようになる  “powerful”と“strong”は近い距離にくる  “powerful”と“Paris”は遠い距離にいる
  • 8.
    PV-DM: A DistributedMemory model 1 – of – V のベクトル→ CBOWのように、パラグラフの情報と単語周辺(この図では 単語の前のみ)から文脈を推定させて分散表現を学習する
  • 9.
    PV-DVによって作られた分散表 現 sumやaverageではなくconcatenateなので語順が保 たれる  BOWでなくなってしまう語順の情報(この論文で は繰り返し批判)を持つことを可能にした  図ではaverageのことも書かれているが、この実験 ではconcatenateのみ考えている
  • 10.
    PV-DM: A DistributedMemory model Concatenate のみを扱っている
  • 11.
     Paragraph IDとParagraph Matrix を使うと。。。  現在のコンテキストから失われた情報を表現できる  Paragraph のトピックを保持出来る → memory model  それにより、予測性能がより良くなる  新しいParagraphが出てきたら、他のパラメーター は固定して学習する
  • 12.
    PV-DBOW: Distributed BagOf Words Skip gramのように、パラグラフの情報から文脈中の 単語を推定出来るように学習する
  • 13.
     Task: 感情分析 実験1  映画のレビュー文章を見て、ポジティブかネガティ ブかを判定する  Dataset: Stanford sentiment treebank  11855件の映画のレビュー文章が1文づつ与えられる  各文は0.0 (very negative) ~ 1.0 (very positive)の間でラ ベル付けされている
  • 14.
    Protocol PV -DM PV -DBOW Logistic regression 400 dim 400 dim Positive or Negative concatenate Window = 8 学習データのパラグラフは8544個
  • 15.
    実験結果 BOW orBOn-gram RNN(構文解析を必要とする手法提案手法 提案手法は性能がよく、構文解析なども必要としない!!
  • 16.
     Task: 感情分析 実験2  映画のレビュー文章を見て、ポジティブかネガティ ブかを判定する  Dataset: IMDB  100000件の映画のレビュー文章が複数文で与えられ る  各文はnegative、positive でラベル付けされている  実験1は入力が1文に対して、実験2は複数文
  • 17.
    Protocol PV -DM PV -DBOW neural network 400 dim 400 dim Positive or Negative concatenate Window = 10 Logistic regression 間にニューラルネットが挟んである理由 →線形ロジスティクス分類より非線形(ニューラルネット)を使った方がいい結果が出NNは隠れ層が50ノードあることは書いてあるがそれ以上については言及されていな
  • 18.
    実験結果 RBM NBSVM 提案手法 ↑PV-DM + PV-DBOW PV-DM only: 7.63%
  • 19.
     Task: 情報検索 実験3  同じクエリで与えられた二つのスニペットペアに対 して、三つ目のスニペットが同じクエリから与えら れたかどうか判別する  Dataset: snippet  検索エンジンで1000000の有名なクエリから与えられ る上位10個のsnippet  snippet: 検索エンジンによる検索結果の一部として表 示される、Webページの要約文のこと
  • 20.
    sample Paragraph 1:calls from ( 000 ) 000 - 0000 . 3913 calls reported from this number . according to 4 re- ports the identity of this caller is american airlines . Paragraph 2: do you want to find out who called you from +1 000 - 000 - 0000 , +1 0000000000 or ( 000 ) 000 - 0000 ? see reports and share information you have about this caller Paragraph 3: allina health clinic patients for your convenience , you can pay your allina health clinic bill online . pay your clinic bill now , question and answers... 同じクエリ ランダム
  • 21.
  • 22.
    時間コスト  Expensiveではある  ただ、テストの時には並列処理可能で16 コアで 25000段落(平均230単語)が30分だった  学習のときの時間については言及なし
  • 23.
    まとめ  BOWは語順の情報が失われてしまう  提案手法は語順の情報が保持されるのでBOWより 優れてる!!  PV-DMだけでも良い結果得られるけど、PV-DBOW を加えることでより良い結果になった

Editor's Notes

  • #3 この論文では、”powerful”と”strong”・”Pairs”は等しく遠いと説明されている 本来なら”powerful”と”strong”は近い距離にいてほしい
  • #9 Word vector の考えに共感してそれをパラグラフを使って出来るように拡張 これも予測タスクに対して使えるようにしている
  • #11 Word vector の考えに共感してそれをパラグラフを使って出来るように拡張 これも予測タスクに対して使えるようにしている