情報検索におけるランキング計算の紹介

1,090 views
841 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,090
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
14
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

情報検索におけるランキング計算の紹介

  1. 1. 情報検索における ランキング計算の紹介 関口宏司@ロンウイット
  2. 2. ランキングの重要性 •  ランキング=検索結果リストの表示順 •  ランキングはユーザの検索エンジンの性能評価 に大きな影響を与える •  検索エンジンの性能評価 ▫  精度 ▫  再現率 ▫  クエリ応答時間 ▫  インデックス作成時間(管理者) Copyright (c) 2013 RONDHUIT 2
  3. 3. 精度と再現率(理論) Copyright (c) 2013 RONDHUIT 3 A B C 精度:P=B/(A+B) 再現率:R=B/(B+C) システム出力 正解(ユーザの期待)
  4. 4. 精度と再現率(実際) Copyright (c) 2013 RONDHUIT 4 A B C 精度: P=B/(A+B)=0.01% 再現率: R=B/(B+C)=99.9% システム出力 正解(ユーザの期待)
  5. 5. 適切なランキングで低精度をカバー Copyright (c) 2013 RONDHUIT 5 10,000位 : システム出力 正解(ユーザの期待) 1位 2位 3位 9,999位 : 999位 : 800位 :
  6. 6. ランキング計算とクエリ従属性 •  クエリ従属 ▫  Web登場前から存在。ブール代数モデル、ベクト ル空間モデル ▫  Lucene/Solr= ブール代数+ベクトル空間モデル ▫  AltaVista •  クエリ独立 ▫  Web登場後に発明された。PageRank、HITS ▫  Nutch ▫  Google PageRank 6 Copyright (c) 2013 RONDHUIT
  7. 7. ベクトル空間モデル •  クエリqに対し、ブール代数モデルにより検索に ヒットした各文書diについて、ベクトル空間モ デルで類似度S(q,di)を計算する •  qとdiを、単語の重みを要素とするベクトルとみ なし、S(q,di)=cosθ を計算するのが基本 Copyright (c) 2013 RONDHUIT 7 ワカメ 姉 q=ワカメ OR 姉 d3=サザエはワカメの姉 d2=ワカメはカツオの弟 θ
  8. 8. Luceneのスコア計算 •  coord(Q, D) : Qの要素(単語)がDにどのくらいの割合含まれているか •  qn(Q) : クエリの正規化関数 •  tf(t in D) : Dに出現する単語tのterm frequency •  tf(t in Q) == 1 •  idf(t) : インデックスにおける単語tの希少価値 •  b(t) : クエリにおける単語tの重み •  norm(t, D) : Dにおける単語tの重み。長い文書(フィールド)ほどtの価値 は下がる Copyright (c) 2013 RONDHUIT 8
  9. 9. PageRank: 計量書誌学での研究 •  論文参照構造の分析:「論文は他の重要な論文 に参照されていると重要である」 •  ページPiのPageRank r(Pi)は: ▫  BPi : ページPiを指すページの集合 ▫  |Pj| : ページPjからの出リンクの数 Copyright (c) 2013 RONDHUIT 9
  10. 10. ウェブ有向グラフでの計算例 Copyright (c) 2013 RONDHUIT 10 3 1 2 5 4 6 ro(Pi)=1/6 (i=1..6) とすると、 r1(P1)=r0(P3)/3=1/18 r1(P2)=r0(P1)/2+r0(P3)/3=5/36 :
  11. 11. 行列Hで表現 Copyright (c) 2013 RONDHUIT 11 π : PageRankベクトル
  12. 12. Google行列 G Copyright (c) 2013 RONDHUIT 12 原始性調整 α : リンクにしたがった ページ遷移をする割合 確率的調整 a : ぶら下がりノードベクトル リンクを持たないP2に訪問したら 次はランダムに飛ぶ
  13. 13. HITS Hypertext Included Topic Search •  1988年、クラインバーグが発明 •  2001年、Teoma(Ask.comの前身)が採用 •  IBMのアルマデン研究所も採用 •  権威とハブ ▫  権威:たくさんの入リンクを持つページ ▫  ハブ:たくさんの出リンクを持つページ •  ページiは権威得点xiとハブ得点yiの2つの得点を持つ •  HITSは2つのランキングを提示する ▫  権威ランキング:Google的な検索 ▫  ハブランキング:ポータルページを望む場合 13 Copyright (c) 2013 RONDHUIT
  14. 14. HITS Hypertext Included Topic Search 権威 i ハブ i ハブ j 権威 j E : ウェブグラフの有向辺の集合 eij : ページiからページjへの有向辺 14 Copyright (c) 2013 RONDHUIT
  15. 15. 参考文献 •  Apache Lucene Javadoc ▫  http://lucene.apache.org/core/4_3_1/core/org/ apache/lucene/search/similarities/ TFIDFSimilarity.html •  Google PageRank の数理 共立出版 15 Copyright (c) 2013 RONDHUIT

×