7. 検索結果の評価
検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果の集合を ̂R とする
適合率 (precision) p
検索結果のうち need を満たす文書の割合
再現率 (recall) r
need を満たす文書が結果として返された割合
p ∶=
#
R ∩ ̂R
# ̂R
, r ∶=
#
R ∩ ̂R
#R
7 / 23
8. 検索結果の評価
precision vs. recall
query を増やせば p → 1, r → 0 となり、R → D ⟹ p → 0, r → 1 となる
F-値 (F-score)
適合率と再現率は trade-off の関係にあるので、これらの平均をとる
算術平均だとより大きい値の影響を強く受ける (p = 1, r = 0 の検索結
果と、p = r = 0.5 の検索結果が同じ評価になる) ので、(重み付き) 調和
平均をとる
F ∶= (𝛼p−1
+ (1 − 𝛼)q−1
)−1
(=
1
𝛼 1
p
+ (1 − 𝛼)1
r
=
pr
𝛼r + (1 − 𝛼)p
)
8 / 23
9. ランキング付き検索結果の評価
ランキング付き検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果 k 件の集合を ̂Rk とする
k-適合率 (precision@k) p@k
検索結果の上位 k 件のうち need を満たす文書の割合
k-再現率 (recall@k) r@k
need を満たす文書が結果の上位 k 件として返された割合
p@k ∶=
#
R ∩ ̂Rk
# ̂Rk
(=
#
R ∩ ̂Rk
k
), r@k ∶=
#
R ∩ ̂Rk
#R
9 / 23
10. ランキング付き検索結果の評価
MAP
平均適合率 (average precision)
1 位から、第 k 位にある i 番目の正解までの適合率 p@k(= i
k
) を求め、
その平均をとる
AP(𝒒) ∶=
1
#R ∑
k∶第 k 位は正解
p@k
MAP(mean average precision)
query 集合 Q に対する AP の平均
MAP ∶=
1
#Q ∑
𝒒∈Q
AP(𝒒)
10 / 23
14. Link analysis
Link analysis
Web ネットワークを有向グラフ G = (V, E) で表し、i ∈ V を Web ページ、
ページ i から j へのリンクを i → j ∈ E(⊂ V2
) と表す
i へ向かうリンクを持つページの集合を E−
i ∶= {j|j → i}、i からリンク
した先にあるページの集合を E+
i ∶= {j|i → j} とする
推移確率行列 L = (lij)
G の確率付き隣接行列で、lij は j の閲覧者が j → i のリンクを辿って i
へ向かう確率 P(i|j) を表すa
lij ∶=
1
#E+
j
(j ∈ E−
i )
0 (otherwise)
a
通常の推移確率行列 P では、i, j-成分は i → j を辿る確率 (P = t
L)
14 / 23
21. ファジィ集合
ファジィ集合
ある元が集合に属するか属しないかしかない通常の集合 (crisp 集合) に対し
て、曖昧な所属を許す集合
メンバシップ関数 𝜇A
ある元 x がファジィ集合 A に所属する度合いを表わす [0, 1]-値関数
(通常の集合では常に 𝜇A(x) ∈ {0, 1})
包含関係
A ⊂ B ⟺ ∀
x, 𝜇A(x) ≤ 𝜇B(x)
A = B ⟺ ∀
x, 𝜇A(x) = 𝜇B(x)
21 / 23
22. ファジィ集合
ファジィ集合の演算
補集合 Ac
: 𝜇Ac(x) = 1 − 𝜇A(x) で定義
和集合 A ∪ B: 𝜇A∪B(x) = max{𝜇A(x), 𝜇B(x)} で定義
共通部分 A ∩ B: 𝜇A∩B(x) = min{𝜇A(x), 𝜇B(x)} で定義
全体集合を U としたとき、A がファジィ集合であれば A ∪ Ac
= U と
は限らない
22 / 23
23. Reference I
Jaime Carbonell and Jade Goldstein. “The Use of MMR, Diversity-based Reranking for
Reordering Documents and Producing Summaries”. In: Proceedings of the 21st Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval. 1998. doi: 10.1145/290941.291025.
Zoltán Gyöngyi, Hector Garcia-Molina, and Jan Pedersen. “Combating Web Spam with
Trustrank”. In: Proceedings of the Thirtieth International Conference on Very Large Data
Bases - Volume 30. 2004. url: http://dl.acm.org/citation.cfm?id=1316689.1316740.
Taher H. Haveliwala. “Topic-sensitive PageRank”. In: Proceedings of the 11th
International Conference on World Wide Web. 2002. doi: 10.1145/511446.511513.
Kalervo Järvelin and Jaana Kekäläinen. “Cumulated Gain-based Evaluation of IR
Techniques”. In: ACM Trans. Inf. Syst. (2002). doi: 10.1145/582415.582418.
Jon M. Kleinberg. “Authoritative Sources in a Hyperlinked Environment”. In: J. ACM
(1999). doi: 10.1145/324133.324140.
Lawrence Page et al. The PageRank Citation Ranking: Bringing Order to the Web.
Tech. rep. Stanford InfoLab, 1999.
23 / 23
24. Reference II
J. J. Rocchio. “Relevance Feedback in Information Retrieval”. In: Information Storage
and Retrieval: Scientific Report ISR-9 (1965). url:
http://www.sigir.org/museum/pdfs/pub-08/XXIII-1.pdf.
24 / 23