SlideShare a Scribd company logo
1 of 24
Download to read offline
Information Retrieval
March 22, 2014
1 / 23
Information Retrieval
Information Retrieval
情報検索 (information retrieval)
文書集合 D と information need に基づく検索語句 (query) が与えられ
たとき、need を満たす文書の集合 R(⊂ D) を出力
2 / 23
bag-of-words
bag-of-words
文書集合を D = {𝒅i}、D の文書中に現れる語の集合を W = {𝒘j} とし
たとき、文書を #
W 次元のベクトル (bag-of-words) で表現
𝒅i = (wij), wij ∶=
󰃠
positive (𝒅i に 𝒘j が現れるとき)
0 (otherwise)
同様に、query も #
W 次元のベクトル 𝒒 = (wqj) で表現
3 / 23
Vector space model
tf・idf
語出現頻度 (term frequency) tfij
文書 i に語 j が現れる度合いで、i に j が現れる回数をそのまま用いた
り、正規化したりする
文書頻度 (document frequency) dfij
語 j が文書集合 D に現れる頻度で、D の元のうち語 j を含むものの個
数を用いたりする
term frequency・inverse document frequency(tf・idf)
tf のみだと頻出語の wij が大きくなるので、語 j が文書に現れる割合
(dfij/#
D) の逆数を掛ける
wij ∶= tfij⏟
文書に語が多く現れるほど大きく
⋅ log
#D
dfij⏟
他の文書に現れない語ほど大きく
4 / 23
Vector space model
文書の類似度
文書の類似度 (similarity) sim(𝒙, 𝒚)
2 つのベクトル 𝒙, 𝒚(文書 𝒅i や query 𝒒) がどの程度類似しているかを
表す
sim(𝒙, 𝒚) ∶=
⎧⎪
⎨
⎪⎩
𝒙 ⋅ 𝒚(= ∑ xiyi) (内積)
𝒙⋅𝒚
‖𝒙‖‖𝒚‖
(=
∑ xiyi
√∑ x2
i √∑ y2
i
) (cosine 類似度)
cosine 類似度は、 𝒙, 𝒚 のなす角を 𝜃 とすると、
sim(𝒙, 𝒚) = cos 𝜃 ≃
󰃠
1 (𝒙, 𝒚 が似ている (𝜃 ≃ 0))
−1 (𝒙, 𝒚 が似ていない (𝜃 ≃ 𝜋))
⇨ 入力された query 𝒒 に対し、sim(𝒒, 𝒅i) が 1 に近い文書の集合 {𝒅i} を
出力
5 / 23
query の修正
適合フィードバック
適合フィードバック (relevance feedback)[7]
検索結果の集合 R(⊂ D) を正例 R+
と負例 R−
に分解 (R = R+
⊔ R−
)
し、query 𝒒 を修正
𝒒 ∶= 𝛼𝒒⏟
元の query
+ 𝛽
1
#R+ ∑
𝒅∈R+
𝒅
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
正例
− 𝛾
1
#R− ∑
𝒅∈R−
𝒅
⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟
負例
(𝛼, 𝛽, 𝛾 ∶ const.)
R の分解は、R の文書が need に適合するかユーザに判断してもらうな
どして行う
経験的には 2-3 回で十分な適合率になる。 𝛾 = 0(𝛼 + 𝛽 = 1) とすること
も多い
6 / 23
検索結果の評価
検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果の集合を ̂R とする
適合率 (precision) p
検索結果のうち need を満たす文書の割合
再現率 (recall) r
need を満たす文書が結果として返された割合
p ∶=
#
R ∩ ̂R
# ̂R
, r ∶=
#
R ∩ ̂R
#R
7 / 23
検索結果の評価
precision vs. recall
query を増やせば p → 1, r → 0 となり、R → D ⟹ p → 0, r → 1 となる
F-値 (F-score)
適合率と再現率は trade-off の関係にあるので、これらの平均をとる
算術平均だとより大きい値の影響を強く受ける (p = 1, r = 0 の検索結
果と、p = r = 0.5 の検索結果が同じ評価になる) ので、(重み付き) 調和
平均をとる
F ∶= (𝛼p−1
+ (1 − 𝛼)q−1
)−1
(=
1
𝛼 1
p
+ (1 − 𝛼)1
r
=
pr
𝛼r + (1 − 𝛼)p
)
8 / 23
ランキング付き検索結果の評価
ランキング付き検索結果の評価
文書集合 D のうち、information need を満たす文書の集合を R、query に対
して返された結果 k 件の集合を ̂Rk とする
k-適合率 (precision@k) p@k
検索結果の上位 k 件のうち need を満たす文書の割合
k-再現率 (recall@k) r@k
need を満たす文書が結果の上位 k 件として返された割合
p@k ∶=
#
R ∩ ̂Rk
# ̂Rk
(=
#
R ∩ ̂Rk
k
), r@k ∶=
#
R ∩ ̂Rk
#R
9 / 23
ランキング付き検索結果の評価
MAP
平均適合率 (average precision)
1 位から、第 k 位にある i 番目の正解までの適合率 p@k(= i
k
) を求め、
その平均をとる
AP(𝒒) ∶=
1
#R ∑
k∶第 k 位は正解
p@k
MAP(mean average precision)
query 集合 Q に対する AP の平均
MAP ∶=
1
#Q ∑
𝒒∈Q
AP(𝒒)
10 / 23
ランキング付き検索結果の評価
nDCG
適合度を数値化した上で、適合度順にに正解が出てくる理想の場合とどの程
度離れているか比較 [4]
gain vector G
検索結果の第 k 位にある文書がどの程度 need を満たすかを表した点数
(gain value) gk を並べたベクトル。G の先頭から i 個の要素からなるベ
クトルを Gi で表わす
11 / 23
ランキング付き検索結果の評価
nDCG
discount cumulative gain vector DCG
Gi を累積させたベクトルで、ユーザにとって下位のページを見るのは負
担なので、下位の文書が正解でも評価への影響が小さくなるようにする
DCGk ∶=
k
∑
i=1
Gi
log2(1 + i)
normalized discount cumulative gain vector nDCG
理想的には、G は G′
∶= (10, 10, 8, 8, 5, 3, 1, ⋯) のように、i について
降順で並んでいるべきであるので、G′
に基づいて求めた DCG′
と実際
の DCG を比較
nDCGk ∶=
DCGk
DCG′
k
12 / 23
検索結果の多様化
MMR
MMR(maximal marginal relevance)[1]
検索結果で既に現れた文書と似た文書を除外する指標
検索結果文書のベクトル R に次の MMR を満たす文書を順に加えて
いく
MMR ∶= arg max
𝒅∈D⧵R
(𝜆sim(𝒒, 𝒅) − (1 − 𝜆) max
̃𝒅∈R
sim( ̃𝒅, 𝒅))
13 / 23
Link analysis
Link analysis
Web ネットワークを有向グラフ G = (V, E) で表し、i ∈ V を Web ページ、
ページ i から j へのリンクを i → j ∈ E(⊂ V2
) と表す
i へ向かうリンクを持つページの集合を E−
i ∶= {j|j → i}、i からリンク
した先にあるページの集合を E+
i ∶= {j|i → j} とする
推移確率行列 L = (lij)
G の確率付き隣接行列で、lij は j の閲覧者が j → i のリンクを辿って i
へ向かう確率 P(i|j) を表すa
lij ∶=
󰃠
1
#E+
j
(j ∈ E−
i )
0 (otherwise)
a
通常の推移確率行列 P では、i, j-成分は i → j を辿る確率 (P = t
L)
14 / 23
PageRank
PageRank
idea:「良いページからリンクされるページは良いページ」[6]
ページ i の PageRank ri を次のように定める
ri ∶= (1 − 𝜆)
1
#V
+ 𝜆 ∑
j∈E−
i
rj
#E+
j
(= (1 − 𝜆)P(i) + 𝜆 ∑
j∈E−
i
rjP(i|j))
𝜆 は damping factor といい、ri の底上げに用いられる (通常は 𝜆 = 0.85)
𝒓 = (ri) とすると、
𝒓 ∶= (1 − 𝜆)
1
#V
𝒆 + 𝜆L𝒓
15 / 23
PageRank
random surfer
PageRank の更新式は、Web をブラウズする閲覧者の動きを表現したものと
解釈可能
閲覧者がページ i に辿り着くのは、次の二通りの場合
1 i にリンクしているページ j から、リンク j → i をクリックして i に移動
する場合
ページ j のリンクはどれも等確率でクリックされると考えられると、
P(i|j) = 1
#E+
j
2 ブラウザのブックマークや履歴からの参照、URL を手入力するなど、リ
ンクをクリックする以外の方法で i に直接アクセスする場合
G 上の Web ページヘはどれも等確率で直接アクセスされると考えられ
ると、P(i) = 1
#V
damping factor は、この 2 つの参照がどのくらいの度合いで起こるかを
表わす比率 (85% はリンクで参照)
16 / 23
PageRank
Topic-Sensitive PageRank
PageRank は query に依らないので、このままでは情報検索に使えない
ページには topic {Tk} が存在するとし、V = ⊔Tk と分解
次のように、ページが topic に一致するときにだけ、damping factor に
よる底上げを適用
topic Tk に関する topic-sensitive PageRank[3] を 𝒓k = (rki) とすると、
𝒓k ∶= (1 − 𝜆)
1
#Tk
𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tk のとき oi = 1)
17 / 23
PageRank
TrustRank
idea:「良いページは悪いページ (SPAM) ヘはリンクしない」[2]
V = Tgood ⊔ Tbad と分解し、ページが良いページのときにだけ、
damping factor による底上げを適用し TrustRank を求める
𝒓 ∶= (1 − 𝜆)
1
#Tgood
𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tgood のとき oi = 1)
分解には人手で seed を選んだ上で、
G′
∶= (V, E′
)(E′
∶= {j → i|i → j ∈ E}) における PageRank(Inverse
PageRank) を求めておく
G′
は G の枝を逆向きにしたグラフで、PageRank のアイデアとは逆の
着想「良いページからリンクしているページは良いページ」に基づき良
い seed ページを求められる
18 / 23
HITS
HITS
Web ページには「多くの情報をもつページ (authority)」と、「多くのリンク
をもつページ (hub)」があると仮定し、相互再帰的に 2 つのスコアを計算 [5]
idea:「良い authority は良い hub からリンクされ、良い hub は良い
authority にリンクする」
ページ i の authority 度を ai、hub 度を hi とするとき、これらを次の式
で再帰的に定める
ai ∶=
1
𝜆 ∑
j∈E−
i
hj, hi ∶=
1
𝜇 ∑
j∈E+
i
aj
19 / 23
HITS
HITS
𝒂 = (ai), 𝒉 = (hi) とすると、この式は次のようになる
𝒂 ∶=
1
𝜆
L𝒉, 𝒉 ∶=
1
𝜇
t
L𝒂
⟹ 𝜆𝜇𝒂 = Lt
L𝒂, 𝜆𝜇𝒉 = t
LL𝒉
𝒂, 𝒉 は固有値 𝜆𝜇 に属する Lt
L, t
LL の固有ベクトル
20 / 23
ファジィ集合
ファジィ集合
ある元が集合に属するか属しないかしかない通常の集合 (crisp 集合) に対し
て、曖昧な所属を許す集合
メンバシップ関数 𝜇A
ある元 x がファジィ集合 A に所属する度合いを表わす [0, 1]-値関数
(通常の集合では常に 𝜇A(x) ∈ {0, 1})
包含関係
A ⊂ B ⟺ ∀
x, 𝜇A(x) ≤ 𝜇B(x)
A = B ⟺ ∀
x, 𝜇A(x) = 𝜇B(x)
21 / 23
ファジィ集合
ファジィ集合の演算
補集合 Ac
: 𝜇Ac(x) = 1 − 𝜇A(x) で定義
和集合 A ∪ B: 𝜇A∪B(x) = max{𝜇A(x), 𝜇B(x)} で定義
共通部分 A ∩ B: 𝜇A∩B(x) = min{𝜇A(x), 𝜇B(x)} で定義
全体集合を U としたとき、A がファジィ集合であれば A ∪ Ac
= U と
は限らない
22 / 23
Reference I
Jaime Carbonell and Jade Goldstein. “The Use of MMR, Diversity-based Reranking for
Reordering Documents and Producing Summaries”. In: Proceedings of the 21st Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval. 1998. doi: 10.1145/290941.291025.
Zoltán Gyöngyi, Hector Garcia-Molina, and Jan Pedersen. “Combating Web Spam with
Trustrank”. In: Proceedings of the Thirtieth International Conference on Very Large Data
Bases - Volume 30. 2004. url: http://dl.acm.org/citation.cfm?id=1316689.1316740.
Taher H. Haveliwala. “Topic-sensitive PageRank”. In: Proceedings of the 11th
International Conference on World Wide Web. 2002. doi: 10.1145/511446.511513.
Kalervo Järvelin and Jaana Kekäläinen. “Cumulated Gain-based Evaluation of IR
Techniques”. In: ACM Trans. Inf. Syst. (2002). doi: 10.1145/582415.582418.
Jon M. Kleinberg. “Authoritative Sources in a Hyperlinked Environment”. In: J. ACM
(1999). doi: 10.1145/324133.324140.
Lawrence Page et al. The PageRank Citation Ranking: Bringing Order to the Web.
Tech. rep. Stanford InfoLab, 1999.
23 / 23
Reference II
J. J. Rocchio. “Relevance Feedback in Information Retrieval”. In: Information Storage
and Retrieval: Scientific Report ISR-9 (1965). url:
http://www.sigir.org/museum/pdfs/pub-08/XXIII-1.pdf.
24 / 23

More Related Content

What's hot

【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and DocumentsTomofumi Yoshida
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
JavaScriptの正規表現
JavaScriptの正規表現JavaScriptの正規表現
JavaScriptの正規表現yaju88
 
R120234【メソ研】003
R120234【メソ研】003R120234【メソ研】003
R120234【メソ研】003Sei Sumi
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章Kota Matsui
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”Kota Matsui
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試みHitomi Yanaka
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
An Introduction to Guarded Horn Clauses
An Introduction to Guarded Horn ClausesAn Introduction to Guarded Horn Clauses
An Introduction to Guarded Horn Clauseskoichik
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke HoriiSuurist
 
非正格関数に対して適用可能な融合変換
非正格関数に対して適用可能な融合変換非正格関数に対して適用可能な融合変換
非正格関数に対して適用可能な融合変換Masahiro Sakai
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」Shunsuke Yatabe
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」Shunsuke Yatabe
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014Sho Takase
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)西岡 賢一郎
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2Kenta Oono
 

What's hot (19)

【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
JavaScriptの正規表現
JavaScriptの正規表現JavaScriptの正規表現
JavaScriptの正規表現
 
R120234【メソ研】003
R120234【メソ研】003R120234【メソ研】003
R120234【メソ研】003
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
Topic model
Topic modelTopic model
Topic model
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
An Introduction to Guarded Horn Clauses
An Introduction to Guarded Horn ClausesAn Introduction to Guarded Horn Clauses
An Introduction to Guarded Horn Clauses
 
Shunsuke Horii
Shunsuke HoriiShunsuke Horii
Shunsuke Horii
 
非正格関数に対して適用可能な融合変換
非正格関数に対して適用可能な融合変換非正格関数に対して適用可能な融合変換
非正格関数に対して適用可能な融合変換
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-3「証明論的意味論としてのマーティン・レーフの構成的型理論」
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」
[2021CAPE公開セミナー] 論理学上級 Ⅱ-2「カリー・ハワード対応と『証明のデータ型としての命題』観」
 
dont_count_predict_in_acl2014
dont_count_predict_in_acl2014dont_count_predict_in_acl2014
dont_count_predict_in_acl2014
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 

Viewers also liked (17)

Iv+jornadas
Iv+jornadasIv+jornadas
Iv+jornadas
 
Viii+jornadas+de+historia+en+lerena
Viii+jornadas+de+historia+en+lerenaViii+jornadas+de+historia+en+lerena
Viii+jornadas+de+historia+en+lerena
 
Ix+jornadas
Ix+jornadasIx+jornadas
Ix+jornadas
 
情報とは
情報とは情報とは
情報とは
 
Im$c3$a1genes xv jornadas
Im$c3$a1genes xv jornadasIm$c3$a1genes xv jornadas
Im$c3$a1genes xv jornadas
 
Object-oriented Programming / Exception handling
Object-oriented Programming / Exception handlingObject-oriented Programming / Exception handling
Object-oriented Programming / Exception handling
 
著作権
著作権著作権
著作権
 
Vii+jornadas+de+historia+en+llerena
Vii+jornadas+de+historia+en+llerenaVii+jornadas+de+historia+en+llerena
Vii+jornadas+de+historia+en+llerena
 
I+jornada+de+historia+de+llerena
I+jornada+de+historia+de+llerenaI+jornada+de+historia+de+llerena
I+jornada+de+historia+de+llerena
 
Boolean retrieval
Boolean retrievalBoolean retrieval
Boolean retrieval
 
X+jornadas+de+historia+en+llerena
X+jornadas+de+historia+en+llerenaX+jornadas+de+historia+en+llerena
X+jornadas+de+historia+en+llerena
 
BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践
 
Ii+jornadas
Ii+jornadasIi+jornadas
Ii+jornadas
 
Vi+jornadas
Vi+jornadasVi+jornadas
Vi+jornadas
 
Iii+jornadas+
Iii+jornadas+Iii+jornadas+
Iii+jornadas+
 
Xii+jornadas+de+historia+en+llerena
Xii+jornadas+de+historia+en+llerenaXii+jornadas+de+historia+en+llerena
Xii+jornadas+de+historia+en+llerena
 
Xi+jornadas+
Xi+jornadas+Xi+jornadas+
Xi+jornadas+
 

Similar to Information Retrieval

Introduction to Categorical Programming
Introduction to Categorical ProgrammingIntroduction to Categorical Programming
Introduction to Categorical ProgrammingMasahiro Sakai
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Masahiro Sakai
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Yuya Takashina
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)Katsuki Tanaka
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1marugari
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Koji Sekiguchi
 

Similar to Information Retrieval (10)

Introduction to Categorical Programming
Introduction to Categorical ProgrammingIntroduction to Categorical Programming
Introduction to Categorical Programming
 
Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)Introduction to Categorical Programming (Revised)
Introduction to Categorical Programming (Revised)
 
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
情報検索の基礎(11章)
情報検索の基礎(11章)情報検索の基礎(11章)
情報検索の基礎(11章)
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1PRML 2.3.9-2.4.1
PRML 2.3.9-2.4.1
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
円の位相
円の位相円の位相
円の位相
 
円の位相
円の位相円の位相
円の位相
 

More from saireya _

文章作成の基礎
文章作成の基礎文章作成の基礎
文章作成の基礎saireya _
 
Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計saireya _
 
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析saireya _
 
テーマ設定・文献読解
テーマ設定・文献読解テーマ設定・文献読解
テーマ設定・文献読解saireya _
 
実験レポートの書き方
実験レポートの書き方実験レポートの書き方
実験レポートの書き方saireya _
 
実験ノートの書き方
実験ノートの書き方実験ノートの書き方
実験ノートの書き方saireya _
 
コミュニケーション(2020ver)
コミュニケーション(2020ver)コミュニケーション(2020ver)
コミュニケーション(2020ver)saireya _
 
情報(2020ver)
情報(2020ver)情報(2020ver)
情報(2020ver)saireya _
 
表現と内容
表現と内容表現と内容
表現と内容saireya _
 
人間と機械
人間と機械人間と機械
人間と機械saireya _
 
創発(2020ver)
創発(2020ver)創発(2020ver)
創発(2020ver)saireya _
 
セキュリティ(2020ver)
セキュリティ(2020ver)セキュリティ(2020ver)
セキュリティ(2020ver)saireya _
 
介入としての側面に焦点化したプレゼンテーションの教育実践
介入としての側面に焦点化したプレゼンテーションの教育実践介入としての側面に焦点化したプレゼンテーションの教育実践
介入としての側面に焦点化したプレゼンテーションの教育実践saireya _
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化saireya _
 
社会システム理論に基づく情報教育の教材開発
社会システム理論に基づく情報教育の教材開発社会システム理論に基づく情報教育の教材開発
社会システム理論に基づく情報教育の教材開発saireya _
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践saireya _
 
プログラミング
プログラミングプログラミング
プログラミングsaireya _
 
コミュニケーション・情報・メディアの統合モデルに基づく教育実践
コミュニケーション・情報・メディアの統合モデルに基づく教育実践コミュニケーション・情報・メディアの統合モデルに基づく教育実践
コミュニケーション・情報・メディアの統合モデルに基づく教育実践saireya _
 
メディア・リテラシー実習
メディア・リテラシー実習メディア・リテラシー実習
メディア・リテラシー実習saireya _
 
メディア・リテラシー
メディア・リテラシーメディア・リテラシー
メディア・リテラシーsaireya _
 

More from saireya _ (20)

文章作成の基礎
文章作成の基礎文章作成の基礎
文章作成の基礎
 
Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計Peirceの探究段階論に基づく「情報I, II」の授業設計
Peirceの探究段階論に基づく「情報I, II」の授業設計
 
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
Peirceの探究段階論に基づく「情報I, II」における単元間の構造分析
 
テーマ設定・文献読解
テーマ設定・文献読解テーマ設定・文献読解
テーマ設定・文献読解
 
実験レポートの書き方
実験レポートの書き方実験レポートの書き方
実験レポートの書き方
 
実験ノートの書き方
実験ノートの書き方実験ノートの書き方
実験ノートの書き方
 
コミュニケーション(2020ver)
コミュニケーション(2020ver)コミュニケーション(2020ver)
コミュニケーション(2020ver)
 
情報(2020ver)
情報(2020ver)情報(2020ver)
情報(2020ver)
 
表現と内容
表現と内容表現と内容
表現と内容
 
人間と機械
人間と機械人間と機械
人間と機械
 
創発(2020ver)
創発(2020ver)創発(2020ver)
創発(2020ver)
 
セキュリティ(2020ver)
セキュリティ(2020ver)セキュリティ(2020ver)
セキュリティ(2020ver)
 
介入としての側面に焦点化したプレゼンテーションの教育実践
介入としての側面に焦点化したプレゼンテーションの教育実践介入としての側面に焦点化したプレゼンテーションの教育実践
介入としての側面に焦点化したプレゼンテーションの教育実践
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化
 
社会システム理論に基づく情報教育の教材開発
社会システム理論に基づく情報教育の教材開発社会システム理論に基づく情報教育の教材開発
社会システム理論に基づく情報教育の教材開発
 
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
 
プログラミング
プログラミングプログラミング
プログラミング
 
コミュニケーション・情報・メディアの統合モデルに基づく教育実践
コミュニケーション・情報・メディアの統合モデルに基づく教育実践コミュニケーション・情報・メディアの統合モデルに基づく教育実践
コミュニケーション・情報・メディアの統合モデルに基づく教育実践
 
メディア・リテラシー実習
メディア・リテラシー実習メディア・リテラシー実習
メディア・リテラシー実習
 
メディア・リテラシー
メディア・リテラシーメディア・リテラシー
メディア・リテラシー
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Recently uploaded (8)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

Information Retrieval

  • 2. Information Retrieval Information Retrieval 情報検索 (information retrieval) 文書集合 D と information need に基づく検索語句 (query) が与えられ たとき、need を満たす文書の集合 R(⊂ D) を出力 2 / 23
  • 3. bag-of-words bag-of-words 文書集合を D = {𝒅i}、D の文書中に現れる語の集合を W = {𝒘j} とし たとき、文書を # W 次元のベクトル (bag-of-words) で表現 𝒅i = (wij), wij ∶= 󰃠 positive (𝒅i に 𝒘j が現れるとき) 0 (otherwise) 同様に、query も # W 次元のベクトル 𝒒 = (wqj) で表現 3 / 23
  • 4. Vector space model tf・idf 語出現頻度 (term frequency) tfij 文書 i に語 j が現れる度合いで、i に j が現れる回数をそのまま用いた り、正規化したりする 文書頻度 (document frequency) dfij 語 j が文書集合 D に現れる頻度で、D の元のうち語 j を含むものの個 数を用いたりする term frequency・inverse document frequency(tf・idf) tf のみだと頻出語の wij が大きくなるので、語 j が文書に現れる割合 (dfij/# D) の逆数を掛ける wij ∶= tfij⏟ 文書に語が多く現れるほど大きく ⋅ log #D dfij⏟ 他の文書に現れない語ほど大きく 4 / 23
  • 5. Vector space model 文書の類似度 文書の類似度 (similarity) sim(𝒙, 𝒚) 2 つのベクトル 𝒙, 𝒚(文書 𝒅i や query 𝒒) がどの程度類似しているかを 表す sim(𝒙, 𝒚) ∶= ⎧⎪ ⎨ ⎪⎩ 𝒙 ⋅ 𝒚(= ∑ xiyi) (内積) 𝒙⋅𝒚 ‖𝒙‖‖𝒚‖ (= ∑ xiyi √∑ x2 i √∑ y2 i ) (cosine 類似度) cosine 類似度は、 𝒙, 𝒚 のなす角を 𝜃 とすると、 sim(𝒙, 𝒚) = cos 𝜃 ≃ 󰃠 1 (𝒙, 𝒚 が似ている (𝜃 ≃ 0)) −1 (𝒙, 𝒚 が似ていない (𝜃 ≃ 𝜋)) ⇨ 入力された query 𝒒 に対し、sim(𝒒, 𝒅i) が 1 に近い文書の集合 {𝒅i} を 出力 5 / 23
  • 6. query の修正 適合フィードバック 適合フィードバック (relevance feedback)[7] 検索結果の集合 R(⊂ D) を正例 R+ と負例 R− に分解 (R = R+ ⊔ R− ) し、query 𝒒 を修正 𝒒 ∶= 𝛼𝒒⏟ 元の query + 𝛽 1 #R+ ∑ 𝒅∈R+ 𝒅 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 正例 − 𝛾 1 #R− ∑ 𝒅∈R− 𝒅 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 負例 (𝛼, 𝛽, 𝛾 ∶ const.) R の分解は、R の文書が need に適合するかユーザに判断してもらうな どして行う 経験的には 2-3 回で十分な適合率になる。 𝛾 = 0(𝛼 + 𝛽 = 1) とすること も多い 6 / 23
  • 7. 検索結果の評価 検索結果の評価 文書集合 D のうち、information need を満たす文書の集合を R、query に対 して返された結果の集合を ̂R とする 適合率 (precision) p 検索結果のうち need を満たす文書の割合 再現率 (recall) r need を満たす文書が結果として返された割合 p ∶= # R ∩ ̂R # ̂R , r ∶= # R ∩ ̂R #R 7 / 23
  • 8. 検索結果の評価 precision vs. recall query を増やせば p → 1, r → 0 となり、R → D ⟹ p → 0, r → 1 となる F-値 (F-score) 適合率と再現率は trade-off の関係にあるので、これらの平均をとる 算術平均だとより大きい値の影響を強く受ける (p = 1, r = 0 の検索結 果と、p = r = 0.5 の検索結果が同じ評価になる) ので、(重み付き) 調和 平均をとる F ∶= (𝛼p−1 + (1 − 𝛼)q−1 )−1 (= 1 𝛼 1 p + (1 − 𝛼)1 r = pr 𝛼r + (1 − 𝛼)p ) 8 / 23
  • 9. ランキング付き検索結果の評価 ランキング付き検索結果の評価 文書集合 D のうち、information need を満たす文書の集合を R、query に対 して返された結果 k 件の集合を ̂Rk とする k-適合率 (precision@k) p@k 検索結果の上位 k 件のうち need を満たす文書の割合 k-再現率 (recall@k) r@k need を満たす文書が結果の上位 k 件として返された割合 p@k ∶= # R ∩ ̂Rk # ̂Rk (= # R ∩ ̂Rk k ), r@k ∶= # R ∩ ̂Rk #R 9 / 23
  • 10. ランキング付き検索結果の評価 MAP 平均適合率 (average precision) 1 位から、第 k 位にある i 番目の正解までの適合率 p@k(= i k ) を求め、 その平均をとる AP(𝒒) ∶= 1 #R ∑ k∶第 k 位は正解 p@k MAP(mean average precision) query 集合 Q に対する AP の平均 MAP ∶= 1 #Q ∑ 𝒒∈Q AP(𝒒) 10 / 23
  • 11. ランキング付き検索結果の評価 nDCG 適合度を数値化した上で、適合度順にに正解が出てくる理想の場合とどの程 度離れているか比較 [4] gain vector G 検索結果の第 k 位にある文書がどの程度 need を満たすかを表した点数 (gain value) gk を並べたベクトル。G の先頭から i 個の要素からなるベ クトルを Gi で表わす 11 / 23
  • 12. ランキング付き検索結果の評価 nDCG discount cumulative gain vector DCG Gi を累積させたベクトルで、ユーザにとって下位のページを見るのは負 担なので、下位の文書が正解でも評価への影響が小さくなるようにする DCGk ∶= k ∑ i=1 Gi log2(1 + i) normalized discount cumulative gain vector nDCG 理想的には、G は G′ ∶= (10, 10, 8, 8, 5, 3, 1, ⋯) のように、i について 降順で並んでいるべきであるので、G′ に基づいて求めた DCG′ と実際 の DCG を比較 nDCGk ∶= DCGk DCG′ k 12 / 23
  • 13. 検索結果の多様化 MMR MMR(maximal marginal relevance)[1] 検索結果で既に現れた文書と似た文書を除外する指標 検索結果文書のベクトル R に次の MMR を満たす文書を順に加えて いく MMR ∶= arg max 𝒅∈D⧵R (𝜆sim(𝒒, 𝒅) − (1 − 𝜆) max ̃𝒅∈R sim( ̃𝒅, 𝒅)) 13 / 23
  • 14. Link analysis Link analysis Web ネットワークを有向グラフ G = (V, E) で表し、i ∈ V を Web ページ、 ページ i から j へのリンクを i → j ∈ E(⊂ V2 ) と表す i へ向かうリンクを持つページの集合を E− i ∶= {j|j → i}、i からリンク した先にあるページの集合を E+ i ∶= {j|i → j} とする 推移確率行列 L = (lij) G の確率付き隣接行列で、lij は j の閲覧者が j → i のリンクを辿って i へ向かう確率 P(i|j) を表すa lij ∶= 󰃠 1 #E+ j (j ∈ E− i ) 0 (otherwise) a 通常の推移確率行列 P では、i, j-成分は i → j を辿る確率 (P = t L) 14 / 23
  • 15. PageRank PageRank idea:「良いページからリンクされるページは良いページ」[6] ページ i の PageRank ri を次のように定める ri ∶= (1 − 𝜆) 1 #V + 𝜆 ∑ j∈E− i rj #E+ j (= (1 − 𝜆)P(i) + 𝜆 ∑ j∈E− i rjP(i|j)) 𝜆 は damping factor といい、ri の底上げに用いられる (通常は 𝜆 = 0.85) 𝒓 = (ri) とすると、 𝒓 ∶= (1 − 𝜆) 1 #V 𝒆 + 𝜆L𝒓 15 / 23
  • 16. PageRank random surfer PageRank の更新式は、Web をブラウズする閲覧者の動きを表現したものと 解釈可能 閲覧者がページ i に辿り着くのは、次の二通りの場合 1 i にリンクしているページ j から、リンク j → i をクリックして i に移動 する場合 ページ j のリンクはどれも等確率でクリックされると考えられると、 P(i|j) = 1 #E+ j 2 ブラウザのブックマークや履歴からの参照、URL を手入力するなど、リ ンクをクリックする以外の方法で i に直接アクセスする場合 G 上の Web ページヘはどれも等確率で直接アクセスされると考えられ ると、P(i) = 1 #V damping factor は、この 2 つの参照がどのくらいの度合いで起こるかを 表わす比率 (85% はリンクで参照) 16 / 23
  • 17. PageRank Topic-Sensitive PageRank PageRank は query に依らないので、このままでは情報検索に使えない ページには topic {Tk} が存在するとし、V = ⊔Tk と分解 次のように、ページが topic に一致するときにだけ、damping factor に よる底上げを適用 topic Tk に関する topic-sensitive PageRank[3] を 𝒓k = (rki) とすると、 𝒓k ∶= (1 − 𝜆) 1 #Tk 𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tk のとき oi = 1) 17 / 23
  • 18. PageRank TrustRank idea:「良いページは悪いページ (SPAM) ヘはリンクしない」[2] V = Tgood ⊔ Tbad と分解し、ページが良いページのときにだけ、 damping factor による底上げを適用し TrustRank を求める 𝒓 ∶= (1 − 𝜆) 1 #Tgood 𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tgood のとき oi = 1) 分解には人手で seed を選んだ上で、 G′ ∶= (V, E′ )(E′ ∶= {j → i|i → j ∈ E}) における PageRank(Inverse PageRank) を求めておく G′ は G の枝を逆向きにしたグラフで、PageRank のアイデアとは逆の 着想「良いページからリンクしているページは良いページ」に基づき良 い seed ページを求められる 18 / 23
  • 19. HITS HITS Web ページには「多くの情報をもつページ (authority)」と、「多くのリンク をもつページ (hub)」があると仮定し、相互再帰的に 2 つのスコアを計算 [5] idea:「良い authority は良い hub からリンクされ、良い hub は良い authority にリンクする」 ページ i の authority 度を ai、hub 度を hi とするとき、これらを次の式 で再帰的に定める ai ∶= 1 𝜆 ∑ j∈E− i hj, hi ∶= 1 𝜇 ∑ j∈E+ i aj 19 / 23
  • 20. HITS HITS 𝒂 = (ai), 𝒉 = (hi) とすると、この式は次のようになる 𝒂 ∶= 1 𝜆 L𝒉, 𝒉 ∶= 1 𝜇 t L𝒂 ⟹ 𝜆𝜇𝒂 = Lt L𝒂, 𝜆𝜇𝒉 = t LL𝒉 𝒂, 𝒉 は固有値 𝜆𝜇 に属する Lt L, t LL の固有ベクトル 20 / 23
  • 21. ファジィ集合 ファジィ集合 ある元が集合に属するか属しないかしかない通常の集合 (crisp 集合) に対し て、曖昧な所属を許す集合 メンバシップ関数 𝜇A ある元 x がファジィ集合 A に所属する度合いを表わす [0, 1]-値関数 (通常の集合では常に 𝜇A(x) ∈ {0, 1}) 包含関係 A ⊂ B ⟺ ∀ x, 𝜇A(x) ≤ 𝜇B(x) A = B ⟺ ∀ x, 𝜇A(x) = 𝜇B(x) 21 / 23
  • 22. ファジィ集合 ファジィ集合の演算 補集合 Ac : 𝜇Ac(x) = 1 − 𝜇A(x) で定義 和集合 A ∪ B: 𝜇A∪B(x) = max{𝜇A(x), 𝜇B(x)} で定義 共通部分 A ∩ B: 𝜇A∩B(x) = min{𝜇A(x), 𝜇B(x)} で定義 全体集合を U としたとき、A がファジィ集合であれば A ∪ Ac = U と は限らない 22 / 23
  • 23. Reference I Jaime Carbonell and Jade Goldstein. “The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries”. In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1998. doi: 10.1145/290941.291025. Zoltán Gyöngyi, Hector Garcia-Molina, and Jan Pedersen. “Combating Web Spam with Trustrank”. In: Proceedings of the Thirtieth International Conference on Very Large Data Bases - Volume 30. 2004. url: http://dl.acm.org/citation.cfm?id=1316689.1316740. Taher H. Haveliwala. “Topic-sensitive PageRank”. In: Proceedings of the 11th International Conference on World Wide Web. 2002. doi: 10.1145/511446.511513. Kalervo Järvelin and Jaana Kekäläinen. “Cumulated Gain-based Evaluation of IR Techniques”. In: ACM Trans. Inf. Syst. (2002). doi: 10.1145/582415.582418. Jon M. Kleinberg. “Authoritative Sources in a Hyperlinked Environment”. In: J. ACM (1999). doi: 10.1145/324133.324140. Lawrence Page et al. The PageRank Citation Ranking: Bringing Order to the Web. Tech. rep. Stanford InfoLab, 1999. 23 / 23
  • 24. Reference II J. J. Rocchio. “Relevance Feedback in Information Retrieval”. In: Information Storage and Retrieval: Scientific Report ISR-9 (1965). url: http://www.sigir.org/museum/pdfs/pub-08/XXIII-1.pdf. 24 / 23