Neural Models for Information Retrieval

論文紹介
Neural Models for
Information Retrieval
梅澤慶介
1

論文紹介
• Neural Models for Information Retrieval
• 著者
• Bhaskar Mitra (Microsoft)
• Nick Craswell (Microsoft)
• https://arxiv.org/abs/1705.01509
2

これを読んでわかるこ
と
• RelevancyにおけるNNモデルと非NNモデルの違
い
• IRでのNNの使い方
• IRシステムのどこでNNを使うか
• 単語の表現
• ランキングモデル
3

AGENDA
1. テキスト検索のおさらい
2. NN IRモデルの分類
3. 単語の表現方法
4. IRのための単語埋め込み
5. Deep Neural Network
6. Neural Document Ranking Model
4

AGENDA
5

テキスト検索のおさらい
• 定義
• textクエリを投げたらランク付きの検索結果を
返すもの
• 内容
1. IR タスクの種類
2. IRモデルに望まれること
6

IR タスクの種類
1. ad-hocな検索
2. Question Answering
7

ad-hocな検索
• 特徴
• 一般的なランク付きドキュメント検索のこと
• クエリ長は数語から数センテンスに及ぶ
• スコアがつく
• 静的スコア (ドキュメントのみで決まる)
• 動的スコア (クエリによって変化する)
• メタデータによるスコア
8

ad-hocな検索 (cont'd)
• 課題
• 短いクエリで長いドキュメントを検索するこ
とがある
• 検索結果として、長いドキュメント内の範囲
を返すことがある
9

Question Answering
• 種類
1. 既に存在する複数の選択肢から回答を選ぶ
2. 短いtextを回答として返す
• コンテストではメジャー
3. 複数情報ソースを合成して、1textとして解
答を返す
10

Question Answering (cont’d)
• 課題
• ランク付きドキュメントのリストを返すのではな
く、短いtextを返す必要がある
• 短いtextだと要点しか書いてない。そのため、質問
と解答の語彙が異なり、通常のword検索では検索
できない。
• 例："What year was Martin Luther King Jr. born?"
-> “1929"
• 回答にはyearが含まれていないのが困難な点
11

IRモデルに望まれるこ
と
• ここでは、特定のIRモデルに話す前に、IRモデル全
般に望まれる特性を話す
• 「IRモデルに最も望まれること＝Relevance」なの
で、Relevanceについて扱う
• Relevaceを構成する特性に対して、次の2つを比較
1. Exact Term Matching (非NNモデル)
2. Latent Representation Matching (NNモデル)
12

Relevanceを構成する
3つの特性
1. 感度
• 意味に対する感度
• 文脈に対する感度
2. ロバスト性
• レアクエリに対するロバスト性
• コーパスの違いに対するロバスト性
• 文書長に対するロバスト性
• 入力エラーに対するロバスト性
3. 効率
13

意味に対する感度
1. Exact Term Matching
• クエリ内の単語がドキュメントに出現する回数で表現する
• 各種TF-IDFモデルが該当する
• 課題：曖昧さ(aboutness)を無視する
2. Latent Representation Matching
• クエリの意図やドキュメントのトピックを潜在(latent)的に
表現する
• “hot”、"warm"や"dog"、"puppy"は意味が近いとするが、"hot
dog"と"warm puppy”は異なるとするIRモデルが理想
14

文脈に対する感度
15
• Exact Term Matching、Latent Representation
Matching共に、implicit、explicitな文脈への対応が
要求されている
• 例："weather"がシアトルかロンドンかは、その
ユーザがどこにいるかに依存する
• 例：季節によってもレスポンスは変わるべき
• 特に、質問回答の時に影響をあたえる話。

レアクエリに対するロバスト
性
16
• レアに求められるドキュメントを出すことや、レアなクエリに
reasonableな返却をすることが求められる
• 正確にレア単語を含む検索結果を返す
• 課題：学習データに含まれないクエリが入ってくると劇的に
relevancyが落ちる
• 例："pekarovic land company"というクエリの場合、
"pekarovic"にはexactにmatchして、他の単語には曖昧に
matchすることが望まれる。

コーパスの違いに対する
ロバスト性
17
• コーパスの違いによって大きくrelevancyが変化しないかが重要
• パラメータが少ないのでコーパスが違っても同程度の性能が出る
• 課題：MLモデルは数百万から数十億のパラメータを持つので、コー
パス内の単語の分布に敏感。
• 例：ハムレットのコーパスで学習したモデルは、シェイクスピアの
他の作品から作ったクエリに良いrelevancyを示すが、Jay-Zの歌詞か
ら作ったクエリにはrelevancyがよくない
• 例：ユーザ人口や行動の変化によりコーパスの分布が徐々に変化し
た場合、モデルが陳腐化している場合がある

文書長に対するロバスト性
18
• IRシステムは以下に対応できる必要がある
• 異なったサイズのドキュメントを含む文書集合を適切に返却する
• 検索結果として、文書全体のある節だけを返したり、同じ文書の
異なる節を返したりする
• 文書長の正規化の研究は数多くされている
• 例：BM25等のスコアモデル
• Exact Term Matchingの研究結果を参考に、同様の研究がなされて
いる

入力エラーに対する
ロバスト性
19
• クエリやドキュメントはエラーを含む可能性があ
り、対応しなくてはならない
• スペルミス修正などの機能がある
• 文字列レベルの修正だけでなく、textをより良い
表現へ変換して入力することで対応することが
ある

効率
20
• 他の情報検索システムとは異なり、text検索の効率は非常に重要である
• 例：web検索の場合、数十億ドキュメントに対して数万QPSが必要
• 検索エンジンは複数のシステムが繋がったアーキテクチャで、枝刈り
を行う複数のstageによって成り立つ事が多い
• 数十億ドキュメントを扱うような、前半のstageに向いている
• 数十のドキュメントを扱うような、後半のstageに向いている
• 現在のところ、多くの研究はtop-nドキュメントのリランクが主流

Exact Term Matching と
Latent Representation Matching
21
Exact Term Matching
Latent Representation
Matching
意味に対する感度 ○ (曖昧さを表現できる)
文脈に対する感度
レアクエリに対するロ
バスト性
○ (出現頻度が低い単語に対応
できる)
コーパスの違いに対する
ロバスト性 ○ (パラメータが少ない)
文書長に対するロバス
ト性
入力エラーに対するロ
バスト性
○ (textを潜在変数に変換)
効率 (前半の枝刈りのstage向き) (後半のリランクのstage向き)

AGENDA
22

NN IRモデルの分類
• NNの役割に基づいたIRモデルの分類
1. 人手で作った特徴量でNNがランキングする
2. Exact Matchの結果を特徴量としてNNでラ
ンキングする
3. クエリ、ドキュメントをNNでLatent
Representationに変換する
4. Word Embeddingsでクエリ拡張を行う
23

NN IRモデルの分類(1)
人手で作った特徴量でNNが
ランキングする
24
NN

Exact Matchの結果を特徴量として
NNでランキングする
25
NN

クエリ、ドキュメントをNNで
Latent Representationに変換する
26
NNNN

Word Embeddingsでクエリ拡張を
行う
27
Word Embeddings

AGENDA
28

単語の表現方法
• IRでは、単語がindexを構成する最小要素である
• したがって、単語の良いvector表現を考えることは重要
である
• この説では、以下を扱う
1. 局所表現と分散表現
2. 単語埋め込み(Word Embeddings)
• 注：以降の説明の例として、動物、食べ物、犬、猫、猿
、人間、トマト、りんご、バナナ、肉の計10単語を扱う
29

局所表現と分散表現
• 局所表現 (Local Representation)
• 全単語数の長さのvectorをそれぞれの
単語に用意し、idの位置の値だけ1にし
、残りを0にする
• one-hot表現とも言う
• 課題
1. 全ての単語を等距離に配置してしま
ったため、似たような意味の単語も
全く異なった単語として扱われるこ
と
2. 全単語数に応じてone-hot表現の次元
数が線形に増えてしまうこと
30

局所表現と分散表現 (cont’d)
• 分散表現 (Distributed Representation)
• 単語を高次元の実数ベクトルで表現
する手法である
• 意味が近いほど類似度が高くなるよ
うに実数ベクトルを単語に割り当て
ることが理想的である
• 課題
1. 最近まで、類似度に応じて単語に
分散表現を割り当てる実用的な手
法がなかったこと
31

単語埋め込み
(Word Embeddings)
• 単語を低次元(200次元程度)の分散表現で表現すること
• 最近、Word2vecなどの登場によって、類似度に応じて
単語に分散表現を割り当てることが実用的になった
• 手法
1. Latent Semantic Analysis (LSA)
2. Word2vec
3. GloVe
4. Paragraph2vec
32

単語埋め込み
Latent Semantic Analysis
• 単語対ドキュメントの頻度行列X を特異値分解
することにより、低次元の行列に分解する
• 低次元の行列Σk から単語埋め込みを作成
33

単語埋め込み
Word2vec
• 基本的なアイデア
• Word2vecは、単語の意味の類似度を文章中の単語の並びか
ら学習する
• 学習対象の単語をTarget Wordと呼ぶ
• 周囲の単語をContext Wordと呼ぶ
• ウィンドウサイズcに応じてContex Wordの数は変化
• 具体例："The cute cat jumps over the lazy dog."
34

単語埋め込み
Word2vec (cont’d)
• Word2vecと呼ばれる手法は実は以下の2つの手
法の総称である
• Skip-gram
• Continuous Bag of Word (CBoW)
35

単語埋め込み
Skip-gram
36
• Target Wordが与えられた時、Context Word が出現することを
予測するように学習する
• この時、隠れ層重み行列WH の各行がそれぞれの単語の分散表
現になる

単語埋め込み
Skip-gram (cont’d)
• 犬という単語をTarget Word、動物という単語を
Context Wordとし学習する様子
• 単語埋め込みの次元数は2
37

単語埋め込み
CBoW
38
• Context Wordが与えられた時、Target Wordが出現することを
予測するように学習する
• この時、出力層重み行列WO の各列がそれぞれの単語の分散表
現になる

単語埋め込み
GloVe
• グローバルな行列分解のモデルとWord2vecのモ
デルを組み合わせて単語ベクトルを学習する
• 全学習データにおける、単語対単語の頻度
行列X に対して最適化を行う
• 損失関数はword2vecを少し改変したようなも
のである
39

単語埋め込み
Paragraph2vec
• CBoWにドキュメントID djの情報を付加したモデル
40

単語埋め込み
手法による違い
• Topicの類似度を反映しやすいか、Typicalの類似
度を反映しやすいかの違いがある
• Topicの類似度を反映しやすいモデル
• LSA
• Paragraph2vec
• Typicalの類似度を反映しやすいモデル
• Word2Vec
• GloVe
41

AGENDA
42

IRのための単語埋め込み
• 伝統的なIRモデルはクエリとドキュメントのマッ
チングに局所表現を使用するが、最近は単語埋め
込みを使用することも増えてきた
• IRでの単語埋め込みの利用方法
1. クエリ、ドキュメントのマッチング時に利用
2. クエリ拡張に利用
43

クエリ、ドキュメントの
マッチング時に利用
• クエリ、ドキュメントを埋め込み空間に写像し、 inexact
なマッチングを可能にする
• 種類
1. Average Word Embeddings (AWE)
2. Dual Embedding Space Model (DESM)
3. Neural Translation Language Model (NTLM)
4. Word Mover’s Distance (WMD) に基づいた手法
5. Saliency-Weighted Semantic Network(SWSN)
など
44

Average Word Embeddings
(AWE)
• クエリ、ドキュメントを、それぞれに含まれる単
語の平均で表現する
• 亜種で、非線形に足し合わせる手法もある
46

Dual Embedding Space
Model (DESM)
• クエリ、ドキュメントを、それぞれに含まれる単
語の平均で表現する
• ただし、クエリの単語とドキュメントの単語は別
空間で表現されている
• 典型的な例として、Word2vecの2つの行列がIN,
OUTに使用される
47
IN OUT

Neural Translation Language
Model (NTLM)
• ドキュメントの翻訳した結果として、クエリが生
成されると仮定し、その生成確率で意味の
matchingを表現する
48

Word Mover’s Distance
(WMD) に基づいた手法
• 基本的なアイデア
• 文書A, B間の距離 =
A, Bの単語同士を対応付けることでAをBに変換するとき、対
応付けのコストが最も低い場合のコストの総和
• 単語xを単語yに対応付けるコスト =
x, yの分散表現ベクトルの距離
49
[1] Kusner, Matt J., et al. “From word embeddings to document distances.”
Proceedings of the 32nd International Conference on Machine Learning
(ICML 2015). 2015.

Saliency-Weighted Semantic
Network(SWSN)
• 単語の類似度を元に、センテンス間の距離を導出
する手法
• BM25のアナロジーとして導出された
50

局所表現と分散表現の
簡単な比較
• クエリ”Cambridge"に対す
る類似度を可視化したもの
1. Cambridgeに関する文
書
2. Oxfordに関する文書
3. キリンに関する文書
4. 3の文書のgiraffesを
Cambridgeに置き換え
た文書
51

クエリ拡張に利用
• 下記式が高い単語をクエリに追加する手法
• 拡張されたクエリを使って、Exact Macthingで検
索が行われる
52

AGENDA
53

Deep Neural Network
• この節では以下の説明を行う
1. Deep Neural Networkとは
2. Deep Neural Networkにおける
入力textの表現方法
3. Deep Neural Networkの典型的な
アーキテクチャ
54

Deep Neural Networkとは
55
• 定義
• 多層構造のニューラルネットワークのこと
• 推論時
• 推論(forward pass)計算を行う
• 学習時
• 教師データとして、input, expected output
のペアを大量に用意する
• 推論(forward pass)計算を行い、actual
outputとexpected outputの差から誤差逆伝
播(backward pass)計算を行い、パラメー
タを学習する

Deep Neural Network
における入力textの表現方法
• textの表現を学習するため、生のtextを入力とする
• 手法
1. 文字レベルの入力
2. bag-of-charactersを使った単語レベルの入力
3. bag-of-trigraphsを使った単語レベルの入力
4. 単語埋め込みを使った単語レベルの入力
56

Deep Neural Networkにおける入力textの表現方法(1)
文字レベルの入力
• それぞれの文字列をone-hot表現し、それをつなげ
たものを入力とする
57

bag-of-charactersを使った単語レベ
ルの入力
• それぞれの文字列をone-hot表現し、それを単語ごとに
足し合わせ、x単語ごとにつなげたものを入力とする
58

bag-of-trigraphsを使った単語レベル
の入力
• それぞれのtrigraphsをone-hot表現し、それを単語
ごとに足し合わせ、x単語ごとに{つなげた|足し合
わせた}ものを入力とする
59

単語埋め込みを使った単語レベルの
入力
• それぞれの単語を予め単語埋め込みで表現し、x単
語ごとに{つなげた|足し合わせた}ものを入力とす
る
60

Deep Neural Networkの
典型的なアーキテクチャ
• 現在、DNNで人気の高いアーキテクチャは以下
1. Shift-invariant neural operations
2. Auto-encoders
3. Siamese networks
61

Deep Neural Networkの典型的なアーキテクチャ(1)
Shift-invariant neural operations
62
• 位置に依存しない操作のこと
• CNN
• 線形写像をスライドさせる
等
• Pooling層
• 最大値関数をスライドさせ
る等
• RNN
• 1つ前のcellも入力にする
• 木構造 Network
• NLPに使用されることが多
い

Auto-encoders
63
• 入力を再生成するのに十分な中間表現を学習する手法
• minimal sufficient statisticsの考え方に基づく手法
• 中間層が入力を圧縮した表現になる
OutputがInputに
近くなるように学習する

Siamese networks
64
• Auto-encodersと考え方は似ている。ただし、
• 入力とモデルが2つずつある
• 2つの入力を共通の空間に写像する

AGENDA
65

Neural Document Ranking
Model
• Neural Document Ranking Modelとは
• NNを使ってクエリに対するRelevancy順にドキュメントの
リストを返却するIRモデル
• 大きなカテゴリとして、教師なし学習・教師あり学習・半
教師あり学習がある
• 難しさ
• クエリとドキュメントは大量にあるが、Relevancyが付い
た教師データが少ない
• 上記に対応するため、教師なし学習・半教師あり学習など
で対応しなければならない
66

Neural Document Ranking Model
Neural Document Ranking Modelの
種類
• 今回紹介するもの
1. Document auto-encoders
2. Siamese network
3. Interaction-based networks
4. Lexical and semantic matching networks
67

Neural Document Ranking Model(1)
Document auto-encoders
• Semantic Hashing model
• Auto-encodersによってクエリとドキュメント
のbinary(hash値)表現を獲得
• hash値でドキュメントの検索を行う
• 入力はBoWやBoTrigraghs
68

Siamese network
• Deep Semantic Similarity Model (DSSM)
• 短いクエリとドキュメントを対象
• 入力はBoTrigraghs
• Learning deep structured semantic models for
web search using clickthrough data
• クリックしたかどうかを教師データにするい
つものあれ
69
[2] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using
clickthrough data. In Proc. CIKM. ACM, 2333–2338.

Interaction-based networks
• クエリとドキュメントにウインドウを設けて、
Interaction Matrixを構築する
• それをCNNのようなNNに学習させる手法
70

Lexical and semantic matching
networks
• NNモデルの苦手な部分は、レアな単語に敏感に反応できないこと
• それを解決するため、word検索とNNモデルの検索を組み合わせた
という手法
71

まとめ
• RelevancyにおけるNNモデルと非NNモデルの違
い
• IRでのNNの使い方
• IRシステムのどこでNNを使うか
• 単語の表現
• ランキングモデル
72

Neural Models for Information Retrieval

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Neural Models for Information Retrieval

Similar to Neural Models for Information Retrieval (20)

More from Keisuke Umezawa

More from Keisuke Umezawa (16)

Neural Models for Information Retrieval