情報検索の基礎（11章）

情報検索の基礎
Introduction to Information Retrieval

∼第11章確率的情報検索∼
田中克季

概要
本章において扱われる問題
ユーザが与えるクエリで関連文書を検索する際に
ユーザ自身がクエリの補正を行い、精度の高い情
報検索を実現する。

最も成功したアプローチの一つ
適合フィードバック

目次
- （復習）9章適合フィードバック

- 11.1 ベイズの規則

- 11.2 確率ランキング原理（PRP）

- 11.3 バイナリー独立モデル（BIM）

- 11.4 確率モデルの評価

適合フィードバック
適合フィードバックとは...

ベクトル空間モデルにおける文書検索の手法

文書検索プロセスにおいてユーザと対話し、
最終的に関連しているとする文書の集合を
改善していくアプローチ

∼ 適合フィードバック ∼

定義とモデル(TFIDF法)
d1 , ..., dN
全文書集合 D が与えられたときに各文書をとし、ある文書 d 中
における用語 t の出現頻度を tf(t) としたときに文書 dの文書ベクトルは以下の
ように表す。

vd = (wt1 , wt2 , ..., wtm )
d d d

d
wt = tf (t, d)idf (t)
N ある文書だけ多く出現し、他の文書にはあ
idf = log +1
df (t) まり出現しない語のベクトル値を大きく強
調するよう表現

N : 文書の総数

tf (t, d) : Dにおける語 t を含む文書数


適合フィードバックの手続き

q
1. ユーザがクエリを入力（クエリ自身も文書ベクトルとして表現）
2. クエリベクトルを生成し、初期検索を行う
D D
3. 検索結果の上位個の文書を評価し、関連文書 r と非関連文書 nr に
N
分ける
4. ユーザが十分な関連文書が得られたと判断したら、検索終了
5. クエリベクトルを修正
6. 修正されたクエリベクトルで再検索を実施し、3へ


Rocchioの公式
1 1
qm = q0 + dj dj
|Dr | |Dnr |
dj Dr dj Dnr

q0 : 元のクエリベクトル

qm : 変更されたクエリベクトル

dj : 文書ベクトル

, , : 各用語の重み

確率論的適合フィードバック

検索により得られる関連文書と非関連文書から
ベクトル空間におけるクエリーの重みを調整

ナイーブベイズ確率モデルを使用する
確率論的アプローチ
➡ 確率論的適合フィードバック

ベイズ規則
0 P (A) 1
P (A, B) = P (A B) = P (A|B)P (B) = P (B|A)P (A)
¯
P (B) = P (A, B) + P (A, B)

ベイズ規則（Bayes’ rule）

P (B|A)P (A) P (B|A)
P (A|B) = = P (A)
P (B) X {A,A} P (B|X)P (X)
¯

P (A|B) : 事後確率
確率の変化
P (A) : 事前確率 P (A) P (A)
Odds: O(A) = P (A) = 1 P (A)
¯

11.2 確率ランキング原理（PRP）
R をクエリq に対して文書 d が関連するかどうかを表す指標確率変数したときに
以下の推定確率によって文書をランク付けする

P (R = 1|d, q) ：d, q が与えられた場合に文書 d が関連する確率

評価方法が関連するかしないかでのみの二値的であるため、評価が正しくない
場合に発生する損失

➡ 1/0損失（1/0 loss）

∼ 確率ランキング原理 ∼

ベイズ最適決定規則

ベイズ最適決定規則

d が関連する P (R = 1|d, q) > P (R = 0|d, q)

定理11.1
PRPは1/0損失のもとで期待される損失を
最小にするという意味で最適である

➡ 証明はRipley (1996) に記載

11.3 バイナリー独立モデル（BIM）
文書が関連する確率をモデル化 .
ベイズの規則により以下の式が成り立つ .

P (x|R = 1, q)P (R = 1|q)
P (R = 1|x, q) =
P (x|q)
P (x|R = 0, q)P (R = 0|q)
P (R = 0|x, q) =
P (x|q)

P (R = 1|x, q) + P (R = 0|x, q) = 1

∼ バイナリ独立モデルBIM ∼

関連性確率のモデル化

P (x|R=1,q )P (R=1|q )
P (R = 1|x, q) P (x|q )
O(R|x, q) = = P (x|R=0,q )P (R=0|q )
P (R = 0|x, q)
P (x|q )
P (R = 1|q) P (x|R = 1, q)
=
P (R = 0|q) P (x|R = 0, q)

➡ 文書をランク付け



pt 1 pt
O(R|x, q) = O(R|q)
t:xt =qt =1
ut t:xt =0,qt =1
1 ut

pt (1 ut ) 1 pt
O(R|x, q) = O(R|q)
t:xt =qt =1
ut (1 pt ) t:q =1
1 ut
t


pt (1 ut ) pt (1 ut )
RSVd = log = log
t:xt =qt =1
ut (1 pt ) t:x ut (1 pt )
t =qt =1

➡ 検索状態値 retrieval status value（RSV)
pt (1 ut ) pt (1 ut )
ct = log = log + log
ut (1 pt ) (1 pt ) ut

ct を推定すればよい


確率推定の理論

s dft s
pt = ut =
S N S
s/(S s)
ct = log
(dft s)/((N dft ) (S s))
(s + 2 )/(S
1
s+ 2)
1
ct = log
ˆ
(dft s + 2 )/((N
1
dft ) (S s) + 2)
1

log [(1 ut )/ut )] = log [(N dft )/dft ]

適合フィードバックの
確率論的アプローチ1

1. ptとutの初期推定値を推測
2. 推定されたpt, utで関連文書集合Rを決定する
3. ユーザと対話し、文書の部分集合Vに対して、
関連性の判断を行う

V R = {d V, Rd,q = 1}
V N R = {d V, Rd,q = 0}

4. 3で得た関連文書と非関連文書をもとにpt, utを再
推定する。最尤法より以下を得る。
|V Rt | + 1
pt = |V Rt |/|V R| pt = 2
|V R| + 1
(k)
(k+1) |V Rt | + pt
pt =
|V R| +

5. 2に戻り、ユーザが満足するまでステップを繰り
返す


|Vt | + 1
dft |Vt | +1
pt = 2
ut = 2
|V | + 1 N |V | + 1

pt 1 ut |Vt | +
1
N
ct = log log 2
1 pt ut |V | |Vt | + 1 dft

|Vt | + 1
N
ct = log + log2
|V | |Vt | + 1 dft

木構造の依存関係

Rijsbergen(1979)
用語の依存関係を木構造で
表現し、推定モデルを提案

非バイナリモデル
Okapi BM25

用語頻度や文書長を考慮したRSVの推定モデルを考案

N
RSVd = log
t q
dft

(|V Rt | + 1 )/(|V N Rt | + 1 )
RSVd = log 2 2

t q
(dft |V Rt | + 1 )/(N dft |V R| + |V Rt | + 1 )
2 2

(k1 + 1)tftd (k3 + 1)tftq
k1 ((1 b) + b(Ld /Lave )) + tftd k3 + tftq

情報検索の基礎（11章）

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Viewers also liked

Viewers also liked (20)

Similar to 情報検索の基礎（11章）

Similar to 情報検索の基礎（11章） (20)

情報検索の基礎（11章）