坪坂正志mail : m.tsubosaka(at)gmail(dot)com
参考文献 D. Carmel+ : Static index prunning for  information retrieval, SIGIR 2001 S. Buttcher and C. L. A. Clarke : A docme...
Static index pruningとは 転置インデックスを作成する際に不要なエ  ントリを除外する Lucene 3.6で導入されている     http://lucene.apache.org/core/3_6_0/api/con...
例    term 1   (doc1,0.5)   (doc2,1.0)    term 2   (doc1,0.1)   (doc2,5.0)   (doc3,5.0)   転置インデックスのスコアが上のように    なっていたとする
例    term 1    (doc1,0.5)   (doc2,1.0)    term 2    (doc1,0.1)   (doc2,5.0)   (doc3,5.0) 転置インデックスのスコアが上のように  なっていたとする te...
例    term 1            (doc1,0.5)   (doc2,1.0)    term 2                         (doc2,5.0)   (doc3,5.0)   検索結果の上位に影響が薄いエ...
主なアプローチ   Term-Centric index pruning     転置インデックスのタームごとに重要度の低い     エントリを削除する手法   Document-Centric index pruning     文章...
Term-Centric index pruning Carmelらによるものを紹介 初めに上位𝑘件まで検索を行うかを決める     各転置インデックス𝑃 𝑡 に対して      ○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡...
例    term      (doc1,0.5)   (doc2,2.0)   (doc3,5.0)   𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、    𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが    d...
この方法によって保証される結果削除後の転置インデックスに対して上位𝑘件 までの問い合わせ𝑞 = (𝑡1 , … , 𝑡 𝑟 )を行った時 に上位𝑘件の文章のスコア𝑆 ∗ は元のスコア𝑆 𝑞                         𝑞 ...
論文における実験結果 𝑘 = 10のとき 上位10件(P@10)の精度はある程度pruning  してもあまり変化しない
Document-centric index pruning   termごとではなく各文章ごとにその文章に    おいて重要度が高いtermのみを残して、あ    とはエントリから除外する
例    term 1   (doc1,1)   (doc2,1)    term 2   (doc1,1)   (doc2,10)   (doc3,10) Term-centric approachでは上の例ではdoc1に関  するエントリ...
スコア基準   文章中で単語が出現する確率とコーパス全体に    おける確率のダイバージェンスを基準にする                               𝑀𝐷 𝑡   𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log(     ...
論文における実験結果   Term-centric pruning(TCP)よりも同レベルの    pruningではDocument-centric pruningの方が良    い結果となった     𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転...
関連文献   Static index pruning for information retrieval    systems: a posting-based approach, LSDS-IR    2009     Term-cen...
Upcoming SlideShare
Loading in...5
×

static index pruningについて

1,022

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,022
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

static index pruningについて

  1. 1. 坪坂正志mail : m.tsubosaka(at)gmail(dot)com
  2. 2. 参考文献 D. Carmel+ : Static index prunning for information retrieval, SIGIR 2001 S. Buttcher and C. L. A. Clarke : A docment- centric approach to static index pruning in text retrieval systems, CIKM 2006
  3. 3. Static index pruningとは 転置インデックスを作成する際に不要なエ ントリを除外する Lucene 3.6で導入されている  http://lucene.apache.org/core/3_6_0/api/contrib- pruning/index.html  https://issues.apache.org/jira/browse/LUCENE- 1812
  4. 4. 例 term 1 (doc1,0.5) (doc2,1.0) term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0) 転置インデックスのスコアが上のように なっていたとする
  5. 5. 例 term 1 (doc1,0.5) (doc2,1.0) term 2 (doc1,0.1) (doc2,5.0) (doc3,5.0) 転置インデックスのスコアが上のように なっていたとする term2に関して相対的にdoc 1のスコアは低 い  そのためterm 2を含むクエリに関してdoc 1が上 位に来る可能性は薄い
  6. 6. 例 term 1 (doc1,0.5) (doc2,1.0) term 2 (doc2,5.0) (doc3,5.0) 検索結果の上位に影響が薄いエントリは転置 インデックスから除外するというのがstatic index pruning  転置インデックスはそのままで クエリ実行時に pruningするというのはdynamic index pruningと呼 ばれる  cf : http://www.slideshare.net/tsubosaka/top-kquery
  7. 7. 主なアプローチ Term-Centric index pruning  転置インデックスのタームごとに重要度の低い エントリを削除する手法 Document-Centric index pruning  文章ごとに重要度の低いエントリを削除する手 法
  8. 8. Term-Centric index pruning Carmelらによるものを紹介 初めに上位𝑘件まで検索を行うかを決める  各転置インデックス𝑃 𝑡 に対して ○ 転置インデックス内の文章𝑑 ∈ 𝑃 𝑡 のスコア𝐴(𝑡, 𝑑)を 計算する ○ 𝐴(𝑡, d)の内ターム𝑡に関して𝑘番目に大きい値を𝑧 𝑡 と し、𝜏 𝑡 = 𝜖𝑧 𝑡 とする ○ 𝐴 𝑡, 𝑑 ≤ 𝜏 𝑡 となる文章𝑑を転置インデックスから全 て除外する
  9. 9. 例 term (doc1,0.5) (doc2,2.0) (doc3,5.0) 𝑘 = 1, 𝜖 = 0.2のとき𝑧 𝑡 = 5.0となり、 𝜏 𝑡 = 1.0であるためdoc2,3は除外されないが doc 1は除外される
  10. 10. この方法によって保証される結果削除後の転置インデックスに対して上位𝑘件 までの問い合わせ𝑞 = (𝑡1 , … , 𝑡 𝑟 )を行った時 に上位𝑘件の文章のスコア𝑆 ∗ は元のスコア𝑆 𝑞 𝑞 に対して 1 − 𝜖𝑟 𝑆 𝑞 ≤ 𝑆 ∗ ≤ 𝑆 𝑞 𝑞 が成立する
  11. 11. 論文における実験結果 𝑘 = 10のとき 上位10件(P@10)の精度はある程度pruning してもあまり変化しない
  12. 12. Document-centric index pruning termごとではなく各文章ごとにその文章に おいて重要度が高いtermのみを残して、あ とはエントリから除外する
  13. 13. 例 term 1 (doc1,1) (doc2,1) term 2 (doc1,1) (doc2,10) (doc3,10) Term-centric approachでは上の例ではdoc1に関 するエントリが全て削除される 一方doc 2においてはterm 1は相対的に重要な 単語ではないが削除されない 文章の方から見ることによってdoc1は残して doc 2のterm 1に関するエントリを削除するの がDocument-centric approach
  14. 14. スコア基準 文章中で単語が出現する確率とコーパス全体に おける確率のダイバージェンスを基準にする 𝑀𝐷 𝑡 𝑆𝑐𝑜𝑟𝑒 𝐷𝐶𝑃 𝑡 = 𝑀 𝐷 𝑡 log( ) 𝑀∗ 𝑡  ここで𝑀 𝐷 𝑡 は文章Dにおいて単語tが出現する確率  𝑀∗ 𝑡 はコーパス中での単語tが出現する確率 このスコアが上位のもののみ転置インデックス に格納する BM25などのスコアリング関数とは独立した基 準となっている
  15. 15. 論文における実験結果 Term-centric pruning(TCP)よりも同レベルの pruningではDocument-centric pruningの方が良 い結果となった  𝐷𝐶𝑃 𝑅𝑒𝑙 は上位6.2%を転置インデックスに入れたもの、 𝐷𝐶𝑃 𝐶𝑜𝑛𝑠𝑡 は上位21件を転置インデックスに入れたも の
  16. 16. 関連文献 Static index pruning for information retrieval systems: a posting-based approach, LSDS-IR 2009  Term-centric approachとDocument-centric approach でのスコアを合わせた形のものを利用してpruning Resln: a combination of results caching and index pruning for high-performance web search engines, SIGIR 2008  Pruningしたindexに問い合わせを行い、結果が得ら れなかった際にはfull-indexに対して問い合わせる
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×