More Related Content Similar to 情報検索の基礎(11章) (20) 情報検索の基礎(11章)3. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
4. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
6. ∼ 適合フィードバック ∼
定義とモデル(TFIDF法)
d1 , ..., dN
全文書集合 D が与えられたときに各文書を とし、ある文書 d 中
における用語 t の出現頻度を tf(t) としたときに文書 dの文書ベクトル は以下の
ように表す。
vd = (wt1 , wt2 , ..., wtm )
d d d
d
wt = tf (t, d)idf (t)
N ある文書だけ多く出現し、他の文書にはあ
idf = log +1
df (t) まり出現しない語のベクトル値を大きく強
調するよう表現
N : 文書の総数
tf (t, d) : Dにおける語 t を含む文書数
7. ∼ 適合フィードバック ∼
適合フィードバックの手続き
q
1. ユーザがクエリ を入力(クエリ自身も文書ベクトルとして表現)
2. クエリベクトルを生成し、初期検索を行う
D D
3. 検索結果の上位 個の文書を評価し、関連文書 r と非関連文書 nr に
N
分ける
4. ユーザが十分な関連文書が得られたと判断したら、検索終了
5. クエリベクトルを修正
6. 修正されたクエリベクトルで再検索を実施し、3へ
8. ∼ 適合フィードバック ∼
Rocchioの公式
1 1
qm = q0 + dj dj
|Dr | |Dnr |
dj Dr dj Dnr
q0 : 元のクエリベクトル
qm : 変更されたクエリベクトル
dj : 文書ベクトル
, , : 各用語の重み
10. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
11. ベイズ規則
0 P (A) 1
P (A, B) = P (A B) = P (A|B)P (B) = P (B|A)P (A)
¯
P (B) = P (A, B) + P (A, B)
ベイズ規則(Bayes’ rule)
P (B|A)P (A) P (B|A)
P (A|B) = = P (A)
P (B) X {A,A} P (B|X)P (X)
¯
P (A|B) : 事後確率
確率の変化
P (A) : 事前確率 P (A) P (A)
Odds: O(A) = P (A) = 1 P (A)
¯
12. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
13. 11.2 確率ランキング原理(PRP)
R をクエリq に対して文書 d が関連するかどうかを表す指標確率変数したときに
以下の推定確率によって文書をランク付けする
P (R = 1|d, q) :d, q が与えられた場合に文書 d が関連する確率
評価方法が関連するかしないかでのみの二値的であるため、評価が正しくない
場合に発生する損失
➡ 1/0損失(1/0 loss)
14. ∼ 確率ランキング原理 ∼
ベイズ最適決定規則
ベイズ最適決定規則
d が関連する P (R = 1|d, q) > P (R = 0|d, q)
定理11.1
PRPは1/0損失のもとで期待される損失を
最小にするという意味で最適である
➡ 証明はRipley (1996) に記載
15. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
17. ∼ バイナリ独立モデルBIM ∼
関連性確率のモデル化
P (x|R=1,q )P (R=1|q )
P (R = 1|x, q) P (x|q )
O(R|x, q) = = P (x|R=0,q )P (R=0|q )
P (R = 0|x, q)
P (x|q )
P (R = 1|q) P (x|R = 1, q)
=
P (R = 0|q) P (x|R = 0, q)
➡ 文書をランク付け
18. ∼ バイナリ独立モデルBIM ∼
ranking関数の導出1
ナイーブベイズの条件付き独立の仮定
M
P (x|R = 1, q) P (xt |R = 1, q)
=
P (x|R = 0, q) t=1 P (xt |R = 0, q)
M
P (xt |R = 1, q)
O(R|x, q) = O(R|q)
t=1
P (xt |R = 0, q)
P (xt = 1|R = 1, q) P (xt = 0|R = 1, q)
t:xt =1
P (xt = 1|R = 0, q) t:x =0
P (xt = 0|R = 0, q)
t
19. ∼ バイナリ独立モデルBIM ∼
ranking関数の導出2
pt 1 pt
O(R|x, q) = O(R|q)
t:xt =qt =1
ut t:xt =0,qt =1
1 ut
pt (1 ut ) 1 pt
O(R|x, q) = O(R|q)
t:xt =qt =1
ut (1 pt ) t:q =1
1 ut
t
20. ∼ バイナリ独立モデルBIM ∼
ranking関数の導出3
pt (1 ut ) pt (1 ut )
RSVd = log = log
t:xt =qt =1
ut (1 pt ) t:x ut (1 pt )
t =qt =1
➡ 検索状態値 retrieval status value(RSV)
pt (1 ut ) pt (1 ut )
ct = log = log + log
ut (1 pt ) (1 pt ) ut
ct を推定すればよい
21. ∼ バイナリ独立モデルBIM ∼
確率推定の理論
s dft s
pt = ut =
S N S
s/(S s)
ct = log
(dft s)/((N dft ) (S s))
(s + 2 )/(S
1
s+ 2)
1
ct = log
ˆ
(dft s + 2 )/((N
1
dft ) (S s) + 2)
1
log [(1 ut )/ut )] = log [(N dft )/dft ]
22. 適合フィードバックの
確率論的アプローチ1
1. ptとutの初期推定値を推測
2. 推定されたpt, utで関連文書集合Rを決定する
3. ユーザと対話し、文書の部分集合Vに対して、
関連性の判断を行う
V R = {d V, Rd,q = 1}
V N R = {d V, Rd,q = 0}
23. 適合フィードバックの
確率論的アプローチ1
4. 3で得た関連文書と非関連文書をもとにpt, utを再
推定する。最尤法より以下を得る。
|V Rt | + 1
pt = |V Rt |/|V R| pt = 2
|V R| + 1
(k)
(k+1) |V Rt | + pt
pt =
|V R| +
5. 2に戻り、ユーザが満足するまでステップを繰り
返す
24. 適合フィードバックの
確率論的アプローチ2
|Vt | + 1
dft |Vt | +1
pt = 2
ut = 2
|V | + 1 N |V | + 1
pt 1 ut |Vt | +
1
N
ct = log log 2
1 pt ut |V | |Vt | + 1 dft
|Vt | + 1
N
ct = log + log2
|V | |Vt | + 1 dft
25. 目次
- (復習)9章 適合フィードバック
- 11.1 ベイズの規則
- 11.2 確率ランキング原理(PRP)
- 11.3 バイナリー独立モデル(BIM)
- 11.4 確率モデルの評価
27. 非バイナリモデル
Okapi BM25
用語頻度や文書長を考慮したRSVの推定モデルを考案
N
RSVd = log
t q
dft
(|V Rt | + 1 )/(|V N Rt | + 1 )
RSVd = log 2 2
t q
(dft |V Rt | + 1 )/(N dft |V R| + |V Rt | + 1 )
2 2
(k1 + 1)tftd (k3 + 1)tftq
k1 ((1 b) + b(Ld /Lave )) + tftd k3 + tftq