Information Retrieval

Information Retrieval
March 22, 2014
1 / 23

情報検索 (information retrieval)
文書集合 D と information need に基づく検索語句 (query) が与えられ
たとき、need を満たす文書の集合 R(⊂ D) を出力
2 / 23

bag-of-words
bag-of-words
文書集合を D = {𝒅i}、D の文書中に現れる語の集合を W = {𝒘j} とし
たとき、文書を #
W 次元のベクトル (bag-of-words) で表現
𝒅i = (wij), wij ∶=
󰃠
positive (𝒅i に 𝒘j が現れるとき)
0 (otherwise)
同様に、query も #
W 次元のベクトル 𝒒 = (wqj) で表現
3 / 23

Vector space model
tf・idf
語出現頻度 (term frequency) tfij
文書 i に語 j が現れる度合いで、i に j が現れる回数をそのまま用いた
り、正規化したりする
文書頻度 (document frequency) dfij
語 j が文書集合 D に現れる頻度で、D の元のうち語 j を含むものの個
数を用いたりする
term frequency・inverse document frequency(tf・idf)
tf のみだと頻出語の wij が大きくなるので、語 j が文書に現れる割合
(dfij/#
D) の逆数を掛ける
wij ∶= tfij⏟
文書に語が多く現れるほど大きく
⋅ log
#D
dfij⏟
他の文書に現れない語ほど大きく
4 / 23

Vector space model
文書の類似度
文書の類似度 (similarity) sim(𝒙, 𝒚)
2 つのベクトル 𝒙, 𝒚(文書 𝒅i や query 𝒒) がどの程度類似しているかを
表す
sim(𝒙, 𝒚) ∶=
⎧⎪
⎨
⎪⎩
𝒙 ⋅ 𝒚(= ∑ xiyi) (内積)
𝒙⋅𝒚
‖𝒙‖‖𝒚‖
(=
∑ xiyi
√∑ x2
i √∑ y2
i
) (cosine 類似度)
cosine 類似度は、 𝒙, 𝒚 のなす角を 𝜃 とすると、
sim(𝒙, 𝒚) = cos 𝜃 ≃
󰃠
1 (𝒙, 𝒚 が似ている (𝜃 ≃ 0))
−1 (𝒙, 𝒚 が似ていない (𝜃 ≃ 𝜋))
⇨ 入力された query 𝒒 に対し、sim(𝒒, 𝒅i) が 1 に近い文書の集合 {𝒅i} を
出力
5 / 23

query の修正
適合フィードバック
適合フィードバック (relevance feedback)[7]
検索結果の集合 R(⊂ D) を正例 R+
と負例 R−
に分解 (R = R+
⊔ R−
)
し、query 𝒒 を修正
𝒒 ∶= 𝛼𝒒⏟
元の query
+ 𝛽
1
#R+ ∑
𝒅∈R+
𝒅
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
正例
− 𝛾
1
#R− ∑
𝒅∈R−
𝒅
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
負例
(𝛼, 𝛽, 𝛾 ∶ const.)
R の分解は、R の文書が need に適合するかユーザに判断してもらうな
どして行う
経験的には 2-3 回で十分な適合率になる。 𝛾 = 0(𝛼 + 𝛽 = 1) とすること
も多い
6 / 23

検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果の集合を ̂R とする
適合率 (precision) p
検索結果のうち need を満たす文書の割合
再現率 (recall) r
need を満たす文書が結果として返された割合
p ∶=
#
R ∩ ̂R
# ̂R
, r ∶=
#
R ∩ ̂R
#R
7 / 23

precision vs. recall
query を増やせば p → 1, r → 0 となり、R → D ⟹ p → 0, r → 1 となる
F-値 (F-score)
適合率と再現率は trade-oﬀ の関係にあるので、これらの平均をとる
算術平均だとより大きい値の影響を強く受ける (p = 1, r = 0 の検索結
果と、p = r = 0.5 の検索結果が同じ評価になる) ので、(重み付き) 調和
平均をとる
F ∶= (𝛼p−1
+ (1 − 𝛼)q−1
)−1
(=
1
𝛼 1
p
+ (1 − 𝛼)1
r
=
pr
𝛼r + (1 − 𝛼)p
)
8 / 23

ランキング付き検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果 k 件の集合を ̂Rk とする
k-適合率 (precision@k) p@k
検索結果の上位 k 件のうち need を満たす文書の割合
k-再現率 (recall@k) r@k
need を満たす文書が結果の上位 k 件として返された割合
p@k ∶=
#
R ∩ ̂Rk
# ̂Rk
(=
#
R ∩ ̂Rk
k
), r@k ∶=
#
R ∩ ̂Rk
#R
9 / 23

MAP
平均適合率 (average precision)
1 位から、第 k 位にある i 番目の正解までの適合率 p@k(= i
k
) を求め、
その平均をとる
AP(𝒒) ∶=
1
#R ∑
k∶第 k 位は正解
p@k
MAP(mean average precision)
query 集合 Q に対する AP の平均
MAP ∶=
1
#Q ∑
𝒒∈Q
AP(𝒒)
10 / 23

nDCG
適合度を数値化した上で、適合度順にに正解が出てくる理想の場合とどの程
度離れているか比較 [4]
gain vector G
検索結果の第 k 位にある文書がどの程度 need を満たすかを表した点数
(gain value) gk を並べたベクトル。G の先頭から i 個の要素からなるベ
クトルを Gi で表わす
11 / 23

nDCG
discount cumulative gain vector DCG
Gi を累積させたベクトルで、ユーザにとって下位のページを見るのは負
担なので、下位の文書が正解でも評価への影響が小さくなるようにする
DCGk ∶=
k
∑
i=1
Gi
log2(1 + i)
normalized discount cumulative gain vector nDCG
理想的には、G は G′
∶= (10, 10, 8, 8, 5, 3, 1, ⋯) のように、i について
降順で並んでいるべきであるので、G′
に基づいて求めた DCG′
と実際
の DCG を比較
nDCGk ∶=
DCGk
DCG′
k
12 / 23

検索結果の多様化
MMR
MMR(maximal marginal relevance)[1]
検索結果で既に現れた文書と似た文書を除外する指標
検索結果文書のベクトル R に次の MMR を満たす文書を順に加えて
いく
MMR ∶= arg max
𝒅∈D⧵R
(𝜆sim(𝒒, 𝒅) − (1 − 𝜆) max
̃𝒅∈R
sim( ̃𝒅, 𝒅))
13 / 23

Link analysis
Link analysis
Web ネットワークを有向グラフ G = (V, E) で表し、i ∈ V を Web ページ、
ページ i から j へのリンクを i → j ∈ E(⊂ V2
) と表す
i へ向かうリンクを持つページの集合を E−
i ∶= {j|j → i}、i からリンク
した先にあるページの集合を E+
i ∶= {j|i → j} とする
推移確率行列 L = (lij)
G の確率付き隣接行列で、lij は j の閲覧者が j → i のリンクを辿って i
へ向かう確率 P(i|j) を表すa
lij ∶=
󰃠
1
#E+
j
(j ∈ E−
i )
0 (otherwise)
a
通常の推移確率行列 P では、i, j-成分は i → j を辿る確率 (P = t
L)
14 / 23

PageRank
PageRank
idea:「良いページからリンクされるページは良いページ」[6]
ページ i の PageRank ri を次のように定める
ri ∶= (1 − 𝜆)
1
#V
+ 𝜆 ∑
j∈E−
i
rj
#E+
j
(= (1 − 𝜆)P(i) + 𝜆 ∑
j∈E−
i
rjP(i|j))
𝜆 は damping factor といい、ri の底上げに用いられる (通常は 𝜆 = 0.85)
𝒓 = (ri) とすると、
𝒓 ∶= (1 − 𝜆)
1
#V
𝒆 + 𝜆L𝒓
15 / 23

PageRank
random surfer
PageRank の更新式は、Web をブラウズする閲覧者の動きを表現したものと
解釈可能
閲覧者がページ i に辿り着くのは、次の二通りの場合
1 i にリンクしているページ j から、リンク j → i をクリックして i に移動
する場合
ページ j のリンクはどれも等確率でクリックされると考えられると、
P(i|j) = 1
#E+
j
2 ブラウザのブックマークや履歴からの参照、URL を手入力するなど、リ
ンクをクリックする以外の方法で i に直接アクセスする場合
G 上の Web ページヘはどれも等確率で直接アクセスされると考えられ
ると、P(i) = 1
#V
damping factor は、この 2 つの参照がどのくらいの度合いで起こるかを
表わす比率 (85% はリンクで参照)
16 / 23

PageRank
Topic-Sensitive PageRank
PageRank は query に依らないので、このままでは情報検索に使えない
ページには topic {Tk} が存在するとし、V = ⊔Tk と分解
次のように、ページが topic に一致するときにだけ、damping factor に
よる底上げを適用
topic Tk に関する topic-sensitive PageRank[3] を 𝒓k = (rki) とすると、
𝒓k ∶= (1 − 𝜆)
1
#Tk
𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tk のとき oi = 1)
17 / 23

PageRank
TrustRank
idea:「良いページは悪いページ (SPAM) ヘはリンクしない」[2]
V = Tgood ⊔ Tbad と分解し、ページが良いページのときにだけ、
damping factor による底上げを適用し TrustRank を求める
𝒓 ∶= (1 − 𝜆)
1
#Tgood
𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tgood のとき oi = 1)
分解には人手で seed を選んだ上で、
G′
∶= (V, E′
)(E′
∶= {j → i|i → j ∈ E}) における PageRank(Inverse
PageRank) を求めておく
G′
は G の枝を逆向きにしたグラフで、PageRank のアイデアとは逆の
着想「良いページからリンクしているページは良いページ」に基づき良
い seed ページを求められる
18 / 23

HITS
HITS
Web ページには「多くの情報をもつページ (authority)」と、「多くのリンク
をもつページ (hub)」があると仮定し、相互再帰的に 2 つのスコアを計算 [5]
idea:「良い authority は良い hub からリンクされ、良い hub は良い
authority にリンクする」
ページ i の authority 度を ai、hub 度を hi とするとき、これらを次の式
で再帰的に定める
ai ∶=
1
𝜆 ∑
j∈E−
i
hj, hi ∶=
1
𝜇 ∑
j∈E+
i
aj
19 / 23

HITS
HITS
𝒂 = (ai), 𝒉 = (hi) とすると、この式は次のようになる
𝒂 ∶=
1
𝜆
L𝒉, 𝒉 ∶=
1
𝜇
t
L𝒂
⟹ 𝜆𝜇𝒂 = Lt
L𝒂, 𝜆𝜇𝒉 = t
LL𝒉
𝒂, 𝒉 は固有値 𝜆𝜇 に属する Lt
L, t
LL の固有ベクトル
20 / 23

ファジィ集合
ファジィ集合
ある元が集合に属するか属しないかしかない通常の集合 (crisp 集合) に対し
て、曖昧な所属を許す集合
メンバシップ関数 𝜇A
ある元 x がファジィ集合 A に所属する度合いを表わす [0, 1]-値関数
(通常の集合では常に 𝜇A(x) ∈ {0, 1})
包含関係
A ⊂ B ⟺ ∀
x, 𝜇A(x) ≤ 𝜇B(x)
A = B ⟺ ∀
x, 𝜇A(x) = 𝜇B(x)
21 / 23

ファジィ集合
ファジィ集合の演算
補集合 Ac
: 𝜇Ac(x) = 1 − 𝜇A(x) で定義
和集合 A ∪ B: 𝜇A∪B(x) = max{𝜇A(x), 𝜇B(x)} で定義
共通部分 A ∩ B: 𝜇A∩B(x) = min{𝜇A(x), 𝜇B(x)} で定義
全体集合を U としたとき、A がファジィ集合であれば A ∪ Ac
= U と
は限らない
22 / 23

Reference I
Jaime Carbonell and Jade Goldstein. “The Use of MMR, Diversity-based Reranking for
Reordering Documents and Producing Summaries”. In: Proceedings of the 21st Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval. 1998. doi: 10.1145/290941.291025.
Zoltán Gyöngyi, Hector Garcia-Molina, and Jan Pedersen. “Combating Web Spam with
Trustrank”. In: Proceedings of the Thirtieth International Conference on Very Large Data
Bases - Volume 30. 2004. url: http://dl.acm.org/citation.cfm?id=1316689.1316740.
Taher H. Haveliwala. “Topic-sensitive PageRank”. In: Proceedings of the 11th
International Conference on World Wide Web. 2002. doi: 10.1145/511446.511513.
Kalervo Järvelin and Jaana Kekäläinen. “Cumulated Gain-based Evaluation of IR
Techniques”. In: ACM Trans. Inf. Syst. (2002). doi: 10.1145/582415.582418.
Jon M. Kleinberg. “Authoritative Sources in a Hyperlinked Environment”. In: J. ACM
(1999). doi: 10.1145/324133.324140.
Lawrence Page et al. The PageRank Citation Ranking: Bringing Order to the Web.
Tech. rep. Stanford InfoLab, 1999.
23 / 23

Reference II
J. J. Rocchio. “Relevance Feedback in Information Retrieval”. In: Information Storage
and Retrieval: Scientiﬁc Report ISR-9 (1965). url:
http://www.sigir.org/museum/pdfs/pub-08/XXIII-1.pdf.
24 / 23

Information Retrieval

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (17)

Similar to Information Retrieval

Similar to Information Retrieval (10)

More from saireya _

More from saireya _ (20)

Recently uploaded

Recently uploaded (8)

Information Retrieval