情報検索とゼロショット学習
筑波大学 図書館情報メディア系
加藤 誠
AT-1-1 少数データ処理と機械学習の最前線
• 情報検索において中心的なタスクであるアドホック検索は,
本質的にゼロショット学習を行う必要があった
• アドホック検索でもニューラルネットワークが広く使われる
ようになってきている
• 一方で,「真の性能向上」にはつながっていなかった
• 最近ではBERTによって「真の性能向上」がもたらされ,大
きな課題となっていた高速化についても研究されてきている
まとめ 2
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 3
• Gerard Salton曰く
情報の構造化,分析,組織化,保存,探索,検索に関する分野
• 「アドホック検索」とは
▪ ユーザが自信の情報要求をクエリによって表現し,
それによって適合する情報を検索するタスク ≒一般的な検索
▪ 例:
• 情報要求:「つくばの観光地を知りたい」
• クエリ:「つくば 観光」
• 適合する情報:つくばの観光地を紹介するページ
情報検索とは 4
"the father of Information Retrieval"
Ricardo Baeza-Yates and Berthier Ribeiro-Neto. "Modern Information Retrieval" Addison Wesley.
あるコレクション(文書集合)に対するクエリが与えられたときに
コレクション中の文書を順位付けするタスク
アドホック検索の図解 5
文書
つくば 観光
クエリ
文書
文書
文書
コレクション 検索モデル
文書 文書文書
順位付けされた文書集合
…
1st 2nd 3rd
あるコレクション(文書集合)に対するクエリが与えられたときに
コレクション中の文書を適合/不適合に分類するタスク
アドホック検索の図解(簡略化) 6
文書
つくば 観光
クエリ
文書
文書
文書
コレクション 検索モデル
文書 文書文書
適合すると推定された文書
文書 文書文書
適合しないと推定された文書
文書が各クラス(クエリ)に属するか属さないかを推定する
マルチラベル分類問題
アドホック検索の図解(もっと簡略化) 7
つくば 観光
クエリ
東京 観光
つくば市
文書
文書
文書
適合
1つの事例が複数のクラスに属しうる分類問題
一部のクエリについては適合文書がわかっているが
その他の大部分のクエリについては適合文書がわかっていない場合
「教師データのある」アドホック検索 8
?
訓練データ
テストデータ
クエリの種類数は膨大で
あるため,大部分のクエ
リに対し適合文書を用意
するのは非現実的
つくば 観光
クエリ
東京 観光
つくば市
文書
文書
文書
適合
文書
文書
既知クラスへの所属の有無に関するラベルが付与された訓練事例か
゙与えられたときに,テスト事例の未知クラスへの所属の有無を推定
ゼロショット学習 9
?
訓練データ
テストデータ
クラス 1: 芸能
クラス 2: 政治
クラス 3: 経済
文書
文書
文書
所属
文書
文書
既知クラス
未知クラス
未知クラスに対する事例
が訓練データにないとこ
ろがポイント
Wang et al. A survey of zero-shot learning: Settings, methods, and applications. ACM Transactions on Intelligent Systems and Technology,
教師データのあるアドホック検索はゼロショット学習
教師データのあるアドホック検索はゼロショット学習 10
既知クラスへの所属の有無に関するラベルが付与された訓練事例が
与えられたときに,テスト事例の未知クラスへの所属の有無を推定
一部のクエリに対する適合文書が訓練データとして与えられたときに
適合文書のわかっていないクエリに対して適合する文書を推定
教師データのあるアドホック検索
ゼロショット学習
合致
ゼロショット学習と最近の深層学習に基づく検索モデルの類似性 11
文書
京都 観光
クエリ
Bag-of-words的な
高次元の疎ベクトル
⨂
予測された
適合度
0.34
ベクトル
表現
ベクトル
表現
…
…
内積計算
低次元な
密ベクトル
前向きNN
前向きNN
代表的なニューラル
ランキングモデル
DSSM(後述)
文書
経済
クラス
⨂
ベクトル表現
距離計算
ベクトル表現
経済
予測された
クラス
最近傍法
による分類 Wang et al.による分類
Instance-based
methods の
Projection methods
仮説: 情報検索(アドホック検索)の問題が本質的にゼロショット
学習なので,あえてゼロショット学習を自称していないのでは?
情報検索系会議(SIGIR, WSDM)におけるゼロショット学習 12
• SIGIR 2020
▪ Xing Xu, Kaiyi Lin, Huimin Lu, Lianli Gao, Heng Tao Shen.
Correlated Features Synthesis and Alignment for Zero-shot Cross-modal
Retrieval → どちらかというとマルチメディア系
• WSDM 2020
▪ (該当なし)
• SIGIR 2019
▪ Wiradee Imrattanatrai, Makoto P. Kato, Masatoshi Yoshikawa. Identifying
Entity Properties from Text with Zero-shot Learning
→ どちらかというと自然言語処理系
• WSDM 2019
▪ (該当なし)
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 13
「教師データのあるアドホック検索」に対する方法の中でも
伝統的で,人手で設計された特徴を利用した方法
ランキング学習 (Learning to Rank) 14
特徴 値
クエリの長さ 5
ベクトル空間モデルのスコア 1.3
BM25のスコア 2.1
閲覧件数 1321
各クエリ-文書ペアごとに得られる特徴
順位づけされた
文書
1位
2位
特徴 値
クエリの長さ 5
ベクトル空間モデルのスコア 1.3
BM25のスコア 2.1
閲覧件数 1321
文書
つくば 観光
クエリ
文書
文書
文書
コレクション
文書
文書
Tie-Yan Liu. Learning to Rank for Information Retrieval. Foundations and Trends in Information Retrieval. 2009.
• 訓練データを利用した「教師あり機械学習」が基本
• 出力がクラスではなくランキングである点が特徴
ランキング学習のフレームワーク 15
訓練データ 𝐷train
学習済みモデル 𝑓
クエリ 𝑞
文書集合 {𝑑1, … , 𝑑 𝑛}
順位づけられた
文書集合 𝑑1, … , 𝑑 𝑛
モデル学習
(パラメータの決定)
学習
実利用
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 16
主にクエリと文書の中身に基づいて
文書の順位付けを行う深層学習モデル
ニューラルランキングモデル 17
• ランキング学習とはやや目的が異なる
▪ ニューラルランキングモデルの出力を特徴としてランキング学習も可
• ベクトル空間モデルやBM25など従来の検索モデルを代替するもの
文書
つくば 観光
クエリ
文書
文書
文書
コレクション
ニューラル
ランキング
モデル
文書 文書文書
順位付けされた文書集合
…
1st 2nd 3rd
クエリ中に含まれる単語のうち,より珍しい単語を多く含み,
できれば短い文書を上位に順位づける検索モデル
最も広く用いられている検索モデルといっても過言でない
(Solr 6.0以降,Elasticsearch 5.0以降のデフォルト設定)
従来の検索モデルの例(Okapi BM25) 18
BM25 𝑞, 𝑑𝑖 =
𝑡∈𝑞
idf 𝑡
𝑘1 + 1 tf𝑖,𝑡
𝑘1 1 − 𝑏 + 𝑏(𝐿 𝑑 𝑖
/ 𝐿) + tf𝑖,𝑡
• クエリ𝑞は単語集合として扱う.𝑡はクエリ中の各単語
• tf𝑖,𝑡は単語頻度:文書𝑑𝑖における単語𝑡の出現回数
• idf 𝑡は逆文書頻度:単語𝑡の出現文書数の逆数(の対数)
• 𝐿 𝑑 𝑖
は文書𝑑𝑖の長さ
• 語のミスマッチへの対応
▪ クエリ「馬鈴薯」 vs. 文書「じゃがいも」
▪ ニューラルランキングモデルでは単語の分散表現などを利用し
同義語などの問題を解消
• クエリ・文書中における語順の考慮
▪ クエリ/文書「day labor」 vs. クエリ/文書「labor day」
▪ n-gramや畳み込みニューラルネットワークなどを利用し
複数語をまとめて処理
• コンテキストを考慮した適合性の推定
▪ クエリ「筑波大学」に対する
文書「筑波大学の歴史」 vs. 文書「筑波の歴史」
• 「筑波大学」という語がどちらにも2回出現した場合,両文書に対し優劣をつけるた
めには「筑波大学」という単語に関係する語を調べる必要がある
• 例えば,「学部」や「授業」などの単語も考慮する必要がある
ニューラルランキングモデルが従来の検索モデルよりも優れる点 19
ニューラルランキングモデルのアーキテクチャを
紹介し情報検索に特有の工夫を説明
以降の内容 20
• 複数の分類方法が提案されている
▪ 対称性に基づく分類
• 対称なアーキテクチャ
• 非対称なアーキテクチャ
▪ 結合時期に基づく分類
• 初期結合モデル
• 末期結合モデル
• 自然言語処理で広く用いられるBERTの適用に関しても説明
• 単語やnグラム埋め込みの利用
• クエリ・文書間の単語やnグラムの類似度計算
• 類似度のパターンを集約した適合度計算
ニューラルランキングモデルの大まかな仕組み 21
文書
京都 観光
クエリ
文字列ベクトル
の列
0.34
文字列の
ベクトル
表現
文字列の
ベクトル
表現
予測された
適合度
ベクトル列を
集約したベクトル
クエリ・文書の
文字列の対応関係
を表したベクトル
集約
集約
各要素間の類似度計算
集約
省略可
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 22
• A. 1. 対称なアーキテクチャ
▪ A. 1. 1. シャムニューラルネットワーク
• Huang et al. Learning deep structured semantic models for web search
using clickthrough data. In CIKM, pages 2333–2338, 2013.
▪ A. 1. 2. 対称交互作用ネットワーク
• Hu et al. Convolutional Neural Network Architectures for Matching Natural
Language Sentences. In NIPS, pages 2042–2050, 2014.
• A. 2. 非対称なアーキテクチャ
▪ A. 2. 1. クエリ分割方式
• Guo et al. A deep relevance matching model for ad-hoc retrieval. In CIKM,
pages 55–64, 2016.
▪ A. 2. 2. 文書分割方式
• Fan et al. Modeling diverse relevance patterns in ad-hoc retrieval. In SIGIR,
pages 375–384, 2018.
対称性に基づく分類[1][2] 23
[1] B. Mitra, N. Craswell, et al. An introduction to neural information retrieval. Foundations and Trends® in Information Retrieval, 13(1):1–126, 2018.
[2] Guo et al. A deep look into neural ranking models for information retrieval. Information Processing & Management, page 102067, 2019.
• クエリも文書も同じネットワーク構造で処理
• 例:DSSM(Deep Structured Semantic Model)
▪ Huang et al. Learning deep structured semantic models for web
search using clickthrough data. In CIKM, pages 2333–2338, 2013.
A. 1. 1. シャムニューラルネットワーク 24
文書
京都 観光
クエリ
Bag-of-words的な
高次元の疎ベクトル
⨂
予測された
適合度
0.34
ベクトル
表現
ベクトル
表現
…
…
内積計算
低次元な
密ベクトル
前向きNN
前向きNN
DSSM(Deep Structured Semantic Model) 25
文書
京都 観光
クエリ
Bag-of-words的な
高次元の疎ベクトル
⨂
予測された
適合度
0.34
ベクトル
表現
ベクトル
表現
…
…
内積計算
低次元な
密ベクトル
前向きNN
前向きNN
1. 文字trigramの頻度ベクトルを構築
2. 多層パーセプトロンを適用し
低次元ベクトル表現
…kyoto
kyo
yot
oto
入力 trigram
頻度ベクトル
低次元
ベクトルaaa
aab
oto
otp
MLP
• クエリと文書の交互作用を捉える構成
• 例: Arc-II
▪ Hu et al. Convolutional Neural Network Architectures for Matching
Natural Language Sentences. In NIPS, pages 2042–2050, 2014.
A. 1. 2. 対称交互作用ネットワーク 26
文書
京都 観光
クエリ
単語
ベクトル
予測された
適合度
0.34
各語を
ベクトル
表現
各語を
ベクトル
表現
A B C
京
都
観
光
A
B
C
前向きNN
畳み込み
(画像への畳み込みと類似)
クエリ・文書中のnグラム同士を
畳み込みによって集約して,
クエリと文書の適合性を推定
京
都
観
光
• クエリ中の各単語と文書間で何らかの計算を行う方式
• 例: DRMM (Deep Relevance Matching Model)
▪ Guo et al. A deep relevance matching model for ad-hoc retrieval.
In CIKM, pages 55–64, 2016.
A. 2. 1. クエリ分割方式 27
文書
京都 観光
クエリ
単語
ベクトル
⨂
予測された
適合度
0.34
各語を
ベクトル
表現 クエリ中の各語ごとに
文書中の全単語との
内積計算を行う
各語を
ベクトル
表現
前向きNN
クエリ中の語ごとの
内積の値の
分布を表すベクトル
0.62
0.12
集約
クエリ中の語ごとの
予測された
適合度
前向きNN
京
都
観
光
京
都
観
光
DRMM (Deep Relevance Matching Model) 28
文書
京都 観光
クエリ
単語
ベクトル
⨂
予測された
適合度
0.34
各語を
ベクトル
表現 クエリ中の各語ごとに
文書中の全単語との
内積計算を行う
各語を
ベクトル
表現
前向きNN
クエリ中の語ごとの
内積の値の
分布を表すベクトル
0.62
0.12
集約
クエリ中の語ごとの
予測された
適合度
前向きNN
京
都
観
光
京
都
観
光
京
都
←「京都」と分散表現の内積が[0.0, 0.25]の単語が20%
←「京都」と分散表現の内積が[0.25, 0.5]の単語が35%
…
←「京都」と分散表現の内積が[0.75, 1.0]の単語が10%
文書中にどの程度類似した単語
がどのくらい含まれるのか
を表すベクトル
• 文書中の各部(例: 文)とクエリ間で何らかの計算を行う方式
• 例: HiNT (HIerarchical Neural maTching model)
▪ Fan et al. Modeling diverse relevance patterns in ad-hoc retrieval.
In SIGIR, pages 375–384, 2018.
A. 2. 2. 文書分割方式 29
文書
京都 観光
クエリ
⨂ 0.34
各語を
ベクトル
表現
クエリ中の各語と
文中の各単語との
内積計算を行う
各語を
ベクトル
表現
RNNによる集約
RNNによる集約
京
都
観
光
京
都
観
光
文1
文2
京
都
観
光
文1
文2
RNN
予測された
適合度
集約
クエリと文中の語の
内積を表す行列
各文の適合度合いを
表すベクトル
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 30
• B. 1. 初期結合モデル
▪ Guo et al. A deep relevance matching model for ad-hoc retrieval. In
CIKM, pages 55–64, 2016.
▪ 特徴: クエリ・文書中の単語間の交互作用を捉えられるが効率に課題
• B. 2. 末期結合モデル
▪ Huang et al. Learning deep structured semantic models for web
search using clickthrough data. In CIKM, pages 2333–2338, 2013.
▪ 特徴: クエリ・文書中の単語間の交互作用を捉えられないが高効率
結合時期に基づく分類[1][2] 31
[1] B. Mitra, N. Craswell, et al. An introduction to neural information retrieval. Foundations and Trends® in Information Retrieval, 13(1):1–126, 2018.
[2] Guo et al. A deep look into neural ranking models for information retrieval. Information Processing & Management, page 102067, 2019.
Guo et al. A deep relevance matching model for ad-hoc retrieval. CIKM 2016.
• クエリと文書中の単語ごとに内積計算を行い
その結果に基づいて適合度を予測
B. 1. 初期結合モデルの例: DRMM (Deep Relevance Matching Model)
文書
京都 観光
クエリ
単語
ベクトル
⨂
予測された
適合度
0.34
各語を
ベクトル
表現 クエリ中の各語ごとに
文書中の全単語との
内積計算を行う
各語を
ベクトル
表現
前向きNN
クエリ中の語ごとの
内積の値の
分布を表すベクトル
0.62
0.12
集約
クエリ中の語ごとの
予測された
適合度
初期結合
前向きNN
Huang et al. Learning deep structured semantic models for web search using clickthrough
data. CIKM 2013.
• クエリと文書をベクトルで表現しそれらの内積で適合度を予測
B. 2. 末期結合モデルの例: DSSM(Deep Structured Semantic Model)
文書
京都 観光
クエリ
Bag-of-words的な
高次元の疎ベクトル
⨂
予測された
適合度
0.34
ベクトル
表現
ベクトル
表現
…
末期結合
…
内積計算
低次元な
密ベクトル
前向きNN
前向きNN
ニューラルネットワークで「真の性能向上」があったか? 1/2 34
図は Yang et al. Critically Examining the “Neural Hype”: Weak Baselines and the Additivity of Effectiveness Gains from Neural Ranking Models. SIGIR
2019. から引用
Robust04というテストコレクション(ベンチマーク)における平均適合率の時間
推移.赤が非ニューラルネットワーク,青がニューラルランキングモデル.
横軸は年であり,経年による向上が見られない.
• 単純なベースラインBM25には
DRMMが単体で勝つも有意差なし
• 強いベースラインである
BM25+RM3にはDRMMは負ける
(有意差なし)
• BM25+RM3にDRMMを合わせて
初めてDRMMが有意な改善を見せる
• 他のニューラルランキングモデルで
は有意な性能向上は見られず・・・
ニューラルネットワークで「真の性能向上」があったか? 2/2 35
表は Yang et al. Critically Examining the “Neural Hype”: Weak Baselines and the Additivity of Effectiveness Gains from Neural Ranking Models. SIGIR
2019. から引用
•情報検索はゼロショット学習問題
•近年の情報検索モデルの話
▪ランキング学習
▪ニューラルランキングモデル
•対称性に基づく分類
•結合時期に基づく分類
•BERTの適用
本日の内容 36
• 多くのNLPタスクで高い性能が報告されるBERTはIRでも有効
• ただし,遅い
BERT in IR 37
図は Khattab and Zaharia. ColBERT: Efficient and Effective Search via Contextualized Late Interaction over BERT. SIGIR 2020. より引用
MS MARCO Ranking(パッセージ検索タスク)におけるEffectiveness(MRR@10)とEfficiency (latency)
• Khattab and Zaharia. ColBERT: Efficient and Effective Search via
Contextualized Late Interaction over BERT. SIGIR 2020.
• 末期結合モデルにおけるクエリと文書の埋め込みをBERTに変えたような方法
ColBERT: BERTの高速化 38
図は Khattab and Zaharia. ColBERT: Efficient and Effective Search via Contextualized Late Interaction over BERT. SIGIR 2020. より引用
末期結合モデル
(文書の索引付け可能)
初期結合モデル
(文書の索引付け不可)
BERTの単純な適用
(文書の索引付け不可)
ColBERT
(文書の索引付け可能)
• 情報検索において中心的なタスクであるアドホック検索は,
本質的にゼロショット学習を行う必要があった
• アドホック検索でもニューラルネットワークが広く使われる
ようになってきている
• 一方で,「真の性能向上」にはつながっていなかった
• 最近ではBERTによって「真の性能向上」がもたらされ,大
きな課題となっていた高速化についても研究されてきている
まとめ 39

情報検索とゼロショット学習