• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
情報検索におけるランキング計算の紹介
 

情報検索におけるランキング計算の紹介

on

  • 1,021 views

 

Statistics

Views

Total Views
1,021
Views on SlideShare
1,021
Embed Views
0

Actions

Likes
1
Downloads
9
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    情報検索におけるランキング計算の紹介 情報検索におけるランキング計算の紹介 Presentation Transcript

    • 情報検索における ランキング計算の紹介 関口宏司@ロンウイット
    • ランキングの重要性 •  ランキング=検索結果リストの表示順 •  ランキングはユーザの検索エンジンの性能評価 に大きな影響を与える •  検索エンジンの性能評価 ▫  精度 ▫  再現率 ▫  クエリ応答時間 ▫  インデックス作成時間(管理者) Copyright (c) 2013 RONDHUIT 2
    • 精度と再現率(理論) Copyright (c) 2013 RONDHUIT 3 A B C 精度:P=B/(A+B) 再現率:R=B/(B+C) システム出力 正解(ユーザの期待)
    • 精度と再現率(実際) Copyright (c) 2013 RONDHUIT 4 A B C 精度: P=B/(A+B)=0.01% 再現率: R=B/(B+C)=99.9% システム出力 正解(ユーザの期待)
    • 適切なランキングで低精度をカバー Copyright (c) 2013 RONDHUIT 5 10,000位 : システム出力 正解(ユーザの期待) 1位 2位 3位 9,999位 : 999位 : 800位 :
    • ランキング計算とクエリ従属性 •  クエリ従属 ▫  Web登場前から存在。ブール代数モデル、ベクト ル空間モデル ▫  Lucene/Solr= ブール代数+ベクトル空間モデル ▫  AltaVista •  クエリ独立 ▫  Web登場後に発明された。PageRank、HITS ▫  Nutch ▫  Google PageRank 6 Copyright (c) 2013 RONDHUIT
    • ベクトル空間モデル •  クエリqに対し、ブール代数モデルにより検索に ヒットした各文書diについて、ベクトル空間モ デルで類似度S(q,di)を計算する •  qとdiを、単語の重みを要素とするベクトルとみ なし、S(q,di)=cosθ を計算するのが基本 Copyright (c) 2013 RONDHUIT 7 ワカメ 姉 q=ワカメ OR 姉 d3=サザエはワカメの姉 d2=ワカメはカツオの弟 θ
    • Luceneのスコア計算 •  coord(Q, D) : Qの要素(単語)がDにどのくらいの割合含まれているか •  qn(Q) : クエリの正規化関数 •  tf(t in D) : Dに出現する単語tのterm frequency •  tf(t in Q) == 1 •  idf(t) : インデックスにおける単語tの希少価値 •  b(t) : クエリにおける単語tの重み •  norm(t, D) : Dにおける単語tの重み。長い文書(フィールド)ほどtの価値 は下がる Copyright (c) 2013 RONDHUIT 8
    • PageRank: 計量書誌学での研究 •  論文参照構造の分析:「論文は他の重要な論文 に参照されていると重要である」 •  ページPiのPageRank r(Pi)は: ▫  BPi : ページPiを指すページの集合 ▫  |Pj| : ページPjからの出リンクの数 Copyright (c) 2013 RONDHUIT 9
    • ウェブ有向グラフでの計算例 Copyright (c) 2013 RONDHUIT 10 3 1 2 5 4 6 ro(Pi)=1/6 (i=1..6) とすると、 r1(P1)=r0(P3)/3=1/18 r1(P2)=r0(P1)/2+r0(P3)/3=5/36 :
    • 行列Hで表現 Copyright (c) 2013 RONDHUIT 11 π : PageRankベクトル
    • Google行列 G Copyright (c) 2013 RONDHUIT 12 原始性調整 α : リンクにしたがった ページ遷移をする割合 確率的調整 a : ぶら下がりノードベクトル リンクを持たないP2に訪問したら 次はランダムに飛ぶ
    • HITS Hypertext Included Topic Search •  1988年、クラインバーグが発明 •  2001年、Teoma(Ask.comの前身)が採用 •  IBMのアルマデン研究所も採用 •  権威とハブ ▫  権威:たくさんの入リンクを持つページ ▫  ハブ:たくさんの出リンクを持つページ •  ページiは権威得点xiとハブ得点yiの2つの得点を持つ •  HITSは2つのランキングを提示する ▫  権威ランキング:Google的な検索 ▫  ハブランキング:ポータルページを望む場合 13 Copyright (c) 2013 RONDHUIT
    • HITS Hypertext Included Topic Search 権威 i ハブ i ハブ j 権威 j E : ウェブグラフの有向辺の集合 eij : ページiからページjへの有向辺 14 Copyright (c) 2013 RONDHUIT
    • 参考文献 •  Apache Lucene Javadoc ▫  http://lucene.apache.org/core/4_3_1/core/org/ apache/lucene/search/similarities/ TFIDFSimilarity.html •  Google PageRank の数理 共立出版 15 Copyright (c) 2013 RONDHUIT