Distributed Representations of Sentences and Documents

Distributed Representations of
Sentences and Documents
DL勉強会
2014/12/01
小町研究室B4 堺澤勇也

動機
 多くの機会学習アルゴリズムは固定長の素性ベク
トル表現を要求する
 最も一般的なはBOWである（Vocab次元）
 簡単で頑健なのでよく使われる
 しかし、BOWは二つの問題点がある
 語順が失われる
 単語の意味を無視する
 A is better than B とB is better than A は同じになる

提案手法: Paragraph Vector
 文・パラグラフ・ドキュメントのような可変長の
テキストの一部から固定長の素性表現を学習する
教師なし学習アルゴリズム
 各ドキュメントを密ベクトルで表現する

 Word Vector
Algorithms
 PV-DM: A Distributed Memory model
 PV-DBOW: Distributed Bag Of Words
提案手法
word2vec

Learning Vector Representation of Words
W：文書単語行列
コンテキスト中の他の単語が与えられたとき、次にくる単語を予測1 – of – V のベクトル→

学習
下の式が最大になるようにトレーニングされる
この予測タスクは、マルチクラス分類を通して行われるので、
softmax関数を使って下の式を得ることが出来る
yは下の式で計算することが出来る
パラメータb、U がSGDによって学習される
h はWから抽出された単語ベクトルの連結もしくは平均から構築される
学習には確率的勾配法を使う

効果
 似た意味を持つ単語は、ベクトル空間上で近い位
置に置かれ、そうじゃない場合は遠い位置に置か
れるようになる
 “powerful”と“strong”は近い距離にくる
 “powerful”と“Paris”は遠い距離にいる

PV-DM: A Distributed Memory model
1 – of – V のベクトル→
CBOWのように、パラグラフの情報と単語周辺（この図では
単語の前のみ）から文脈を推定させて分散表現を学習する

PV-DVによって作られた分散表
現
 sumやaverageではなくconcatenateなので語順が保
たれる
 BOWでなくなってしまう語順の情報（この論文で
は繰り返し批判）を持つことを可能にした
 図ではaverageのことも書かれているが、この実験
ではconcatenateのみ考えている

PV-DM: A Distributed Memory model
Concatenate のみを扱っている

 Paragraph ID とParagraph Matrix を使うと。。。
 現在のコンテキストから失われた情報を表現できる
 Paragraph のトピックを保持出来る
→ memory model
 それにより、予測性能がより良くなる
 新しいParagraphが出てきたら、他のパラメーター
は固定して学習する

PV-DBOW: Distributed Bag Of Words
Skip gramのように、パラグラフの情報から文脈中の
単語を推定出来るように学習する

 Task: 感情分析
実験１
 映画のレビュー文章を見て、ポジティブかネガティ
ブかを判定する
 Dataset: Stanford sentiment treebank
 11855件の映画のレビュー文章が１文づつ与えられる
 各文は0.0 (very negative) ~ 1.0 (very positive)の間でラ
ベル付けされている

Protocol
PV - DM
PV -DBOW
Logistic
regression
400 dim
400 dim
Positive
or
Negative
concatenate
Window = 8
学習データのパラグラフは8544個

実験結果
BOW or BOn-gram
RNN（構文解析を必要とする手法提案手法
提案手法は性能がよく、構文解析なども必要としない！！

 Task: 感情分析
実験２
 映画のレビュー文章を見て、ポジティブかネガティ
ブかを判定する
 Dataset: IMDB
 100000件の映画のレビュー文章が複数文で与えられ
る
 各文はnegative、positive でラベル付けされている
 実験１は入力が１文に対して、実験２は複数文

Protocol
PV - DM
PV -DBOW
neural
network
400 dim
400 dim
Positive
or
Negative
concatenate
Window = 10
Logistic
regression
間にニューラルネットが挟んである理由
→線形ロジスティクス分類より非線形（ニューラルネット）を使った方がいい結果が出NNは隠れ層が５０ノードあることは書いてあるがそれ以上については言及されていな

実験結果
RBM
NBSVM
提案手法
↑PV-DM + PV-DBOW PV-DM only: 7.63%

 Task: 情報検索
実験３
 同じクエリで与えられた二つのスニペットペアに対
して、三つ目のスニペットが同じクエリから与えら
れたかどうか判別する
 Dataset: snippet
 検索エンジンで1000000の有名なクエリから与えられ
る上位１０個のsnippet
 snippet: 検索エンジンによる検索結果の一部として表
示される、Webページの要約文のこと

sample
Paragraph 1: calls from ( 000 ) 000 - 0000 .
3913 calls reported from this number .
according to 4 reports the identity of this caller is american airlines .
Paragraph 2: do you want to find out who called you
from +1 000 - 000 - 0000 , +1 0000000000 or ( 000 ) 000 - 0000 ?
see reports and share information you have about this caller
Paragraph 3: allina health clinic patients for your convenience ,
you can pay your allina health clinic bill online .
pay your clinic bill now , question and answers...
同じクエリ
ランダム

時間コスト
 Expensive ではある
 ただ、テストの時には並列処理可能で16 コアで
25000段落（平均230単語）が30分だった
 学習のときの時間については言及なし

まとめ
 BOWは語順の情報が失われてしまう
 提案手法は語順の情報が保持されるのでBOWより
優れてる！！
 PV-DMだけでも良い結果得られるけど、PV-DBOW
を加えることでより良い結果になった

Distributed Representations of Sentences and Documents

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (20)

Distributed Representations of Sentences and Documents

Editor's Notes