Introduction to Information Retrieval             Introduction to          Information Retrieval                          ...
Introduction to Information Retrieval     Overview     I.     Information retrieval system evaluation     II.    Standard ...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval    Sec. 8.1     IR system evaluation             検索結果の満足度は関連性で判断できる。             関...
Introduction to Information Retrieval   Sec. 8.1     IR system evaluation      情報要求(information need) はクエリ(query)として     ...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval       Sec. 8.2     Standard test collections      TREC - National Institute of Stan...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval                              Sec. 8.3     Precision and Recall      Precision: 取得した...
Introduction to Information Retrieval   Sec. 8.3     Accuracy      accuracy:         (tp + tn) / ( tp + fp + fn + tn)    ...
Introduction to Information Retrieval   Sec. 8.3     Precision/Recall trade off         Recallは全ての文書を取得することで上げられる。       ...
Introduction to Information Retrieval               Sec. 8.3     F measure         Precisionとrecallの重み付き調和平均:            ...
Introduction to Information Retrieval                                            Sec. 8.3     F1 and other averages       ...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval           Sec. 8.4     Evaluating ranked results      Evaluation of ranked results:...
Introduction to Information Retrieval                                 Sec. 8.4     precision-recall curve                 ...
Introduction to Information Retrieval   Sec. 8.4     Interpolated precision      グラフからノコギリの歯型を取り除くために補間適合       率(interpo...
Introduction to Information Retrieval                        Sec. 8.4     Evaluation         グラフはいいけど要約したmeasureもほしい!    ...
Introduction to Information Retrieval                                                 Sec. 8.4     Typical (good) 11 point...
Introduction to Information Retrieval   Sec. 8.4    Precision@K     Set a rank threshold K     上位K件の関連性の%計算     K+1からは無...
Introduction to Information Retrieval              Sec. 8.4    Mean Average Precision     各適合文書(relevant doc)のランクを付ける。   ...
Introduction to Information Retrieval   Sec. 8.4     Average Precision                                               22
Introduction to Information Retrieval   Sec. 8.4     MAP                                               23
Introduction to Information Retrieval      Sec. 8.4     Mean average precision            適合文書がない場合MAP = 0            MA...
Introduction to Information Retrieval                Sec. 8.4     R-precision      Rel = set of known relevant documents ...
Introduction to Information Retrieval        Sec. 8.4     ROC curve and NDCG      ROC            yを recall、yを false-posi...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval       Sec. 8.5     Assessing relevance      Test queries            文書に対して適切      ...
Introduction to Information Retrieval              Sec. 8.5     Kappa statistic         Kappa statistic              判定の...
Introduction to Information Retrieval                                Sec. 8.5     Kappa Example         Kappa = [ P(A) – ...
Introduction to Information Retrieval                                Sec. 8.5     Kappa Example         Kappa = [ P(A) – ...
Introduction to Information Retrieval                                        Sec. 8.5     Kappa Example         Kappa = [...
Introduction to Information Retrieval                Sec. 8.5     Kappa statistic         Interpretation of the kappa sta...
Introduction to Information Retrieval     Outline     I.     Information retrieval system evaluation     II.    Standard t...
Introduction to Information Retrieval                Sec. 8.6     System quality and user utility      System issues     ...
Introduction to Information Retrieval     Reference      IIR Chapter 8      http://www.stanford.edu/class/cs276/handouts...
Upcoming SlideShare
Loading in …5
×

Chapter 8 : Evaluation in Information Retrieval

2,567 views

Published on

Published in: Education
  • Be the first to comment

Chapter 8 : Evaluation in Information Retrieval

  1. 1. Introduction to Information Retrieval Introduction to Information Retrieval Joongjin Bae(@bae_j) Chapter 8 : Evaluation in Information Retrieval http://baepiff.blogspot.com/
  2. 2. Introduction to Information Retrieval Overview I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 2
  3. 3. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 3
  4. 4. Introduction to Information Retrieval Sec. 8.1 IR system evaluation  検索結果の満足度は関連性で判断できる。  関連性(relevance)のどうやって評価するの?  具体的評価方法は後ろのスライドで説明する。  関連性評価の3要素: 1. document collection 2. suite of queries(検索単語) 3. 各クエリとドキュメントペアに対して関連か非関連か のbinary assessment判断集合 4
  5. 5. Introduction to Information Retrieval Sec. 8.1 IR system evaluation  情報要求(information need) はクエリ(query)として 検索される。  関連性の評価は情報要求に対して行う。クエリでは ない。  例) 情報要求: オフィス近くに安くて美味しいランチ が食べたい  クエリ: 渋谷 and 安い and ランチ 5
  6. 6. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 6
  7. 7. Introduction to Information Retrieval Sec. 8.2 Standard test collections  TREC - National Institute of Standards and Technology (NIST)は1992年からIR用テストベッドを運 用している。  Reutersとその他のtest collectionも利用されている。  人力で各クエリと文書ペアの関連性判断が行われ る。 7
  8. 8. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 8
  9. 9. Introduction to Information Retrieval Sec. 8.3 Precision and Recall  Precision: 取得した文書の正解率(関連性) = P(relevant|retrieved)  Recall: 関連がある全文書から取得した文書の比率 = P(retrieved|relevant) Relevant Nonrelevant Retrieved tp fp Not Retrieved fn tn  Precision P = tp/(tp + fp)  Recall R = tp/(tp + fn) 9
  10. 10. Introduction to Information Retrieval Sec. 8.3 Accuracy  accuracy: (tp + tn) / ( tp + fp + fn + tn)  accuracyは機会学習では評価手段として利用される。  IRの文書は99.9%がユーザの情報要求に対して非 関連  accuracyは全ての文書を非関連することで最大化で きる。 10
  11. 11. Introduction to Information Retrieval Sec. 8.3 Precision/Recall trade off  Recallは全ての文書を取得することで上げられる。 ただPrecisionは低い。  Precisionは取得する文書を減らせば上げられる。  PrecisionとRecallはトレードオフ 11
  12. 12. Introduction to Information Retrieval Sec. 8.3 F measure  Precisionとrecallの重み付き調和平均: (   1) PR 1 2 F  1   (1   ) 1  PR 2 P R  多くはbalanced F1 measureを利用  i.e., with  = 1 or  = ½   < 1はPrecision強調   > 1はRecall強調 12
  13. 13. Introduction to Information Retrieval Sec. 8.3 F1 and other averages Combined Measures 100 80 Minimum Maximum 60 Arithmetic 40 Geometric Harmonic 20 0 0 20 40 60 80 100 Precision (Recall fixed at 70%) 13
  14. 14. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 14
  15. 15. Introduction to Information Retrieval Sec. 8.4 Evaluating ranked results  Evaluation of ranked results:  Precision, RecallとF measureは全ての文書集合に対する 評価指標  ランク付き検索結果は上位k件によってPrecisionとRecall が変わる。  その集合に対してPrecisionとRecallの値を計算したのが precision-recall curve 15
  16. 16. Introduction to Information Retrieval Sec. 8.4 precision-recall curve 1.0 0.8 Precision 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall 16
  17. 17. Introduction to Information Retrieval Sec. 8.4 Interpolated precision  グラフからノコギリの歯型を取り除くために補間適合 率(interpolated precision)を利用  簡単に言えばPrecisionの最大値 17
  18. 18. Introduction to Information Retrieval Sec. 8.4 Evaluation  グラフはいいけど要約したmeasureもほしい!  11-point interpolated average precision  The standard measure in the early TREC competitions: recallを0から1まで0.1刻む。各ポイントでは補間適合率 測定する。 18
  19. 19. Introduction to Information Retrieval Sec. 8.4 Typical (good) 11 point precisions 1 0.8 0.6 Precision 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Recall 19
  20. 20. Introduction to Information Retrieval Sec. 8.4 Precision@K  Set a rank threshold K  上位K件の関連性の%計算  K+1からは無視 R  Ex:  Prec@3 of 2/3  Prec@4 of 2/4  Prec@5 of 3/5 20
  21. 21. Introduction to Information Retrieval Sec. 8.4 Mean Average Precision  各適合文書(relevant doc)のランクを付ける。  K1, K2, … KR  各適合文書のPrecision@Kを計算する。  Average precision = average of Precision@K  Ex:  MAPは複数のクエリ/ランクをまたがるAverage Precisionである。 21
  22. 22. Introduction to Information Retrieval Sec. 8.4 Average Precision 22
  23. 23. Introduction to Information Retrieval Sec. 8.4 MAP 23
  24. 24. Introduction to Information Retrieval Sec. 8.4 Mean average precision  適合文書がない場合MAP = 0  MAPは算術平均である。  最も一般的評価方法  MAPはユーザが各クエリに対して適合文書を多く取得す るのを好むと想定する。  MAPは text collectionの関連性判断を多く要求する。 24
  25. 25. Introduction to Information Retrieval Sec. 8.4 R-precision  Rel = set of known relevant documents  検索結果上位|Rel|件からr件の正解が得られたら 𝑟 R-precision = |𝑅𝑒𝑙|  完璧なシステムなら = 1  Doc = 100, Rel = 8, k = 20  完璧なシステムではr = 8  Precision@K = r / k = 8 / 20 = 0.4  R-precision = r / |Rel| = 8 / 8 = 1 25
  26. 26. Introduction to Information Retrieval Sec. 8.4 ROC curve and NDCG  ROC  yを recall、yを false-positive 率 ( fp / (fp + tn) )  いいシステムは右の図のように なる。  NDCG  機械学習によるランク付ける際よく利用される。 26
  27. 27. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 27
  28. 28. Introduction to Information Retrieval Sec. 8.5 Assessing relevance  Test queries  文書に対して適切  ドメイン専門家によるデザインがBest!  Random queryはnot a good idea  Relevance assessments  人間の判断, コストがかかる。  人間は完璧ではない。  Kappa statistic  関連性の判断にそれらがどれくらい一致するかを測定す る必要がある。 28
  29. 29. Introduction to Information Retrieval Sec. 8.5 Kappa statistic  Kappa statistic  判定の一致度  カテゴリーの判定に対してデザイン  偶然の一致の割合に基づいて単純な一致度の割合を補正 Corrects for chance agreement  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]  P(A) – 判定が一致した回数の比率 proportion of time judges agree  P(E) – 偶然により一致すると期待される回数の比率  Kappa = 0 = 偶然, 1 = 完全に合意よる一致. 29
  30. 30. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 Judg Rele Non Tota e1 van -Rel l ce Rele 300 20 320 van ce Non 10 70 80 -Rel Tota 310 90 400 l 30
  31. 31. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 300+70 Judg Rele Non Tota  𝑃 𝐴 = = 0.925 e1 van -Rel l 400 ce 10+20+70+70  𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320 800 van 10+20+300+300  𝑃 𝑟𝑒𝑙 = = 0.7878 ce 800 Non 10 70 80 -Rel Tota 310 90 400 l 31
  32. 32. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 300+70 Judg Rele Non Tota  𝑃 𝐴 = = 0.925 e1 van -Rel l 400 ce 10+20+70+70  𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320 800 van 10+20+300+300  𝑃 𝑟𝑒𝑙 = = 0.7878 ce 800 Non 10 70 80  𝑃 𝐸 = 𝑃 𝑟𝑒𝑙 2 + 𝑃 𝑛𝑜𝑛 2 = -Rel 0.21252 + 0.78782 = 0.665 Tota 310 90 400 𝑃 𝐴 −𝑃(𝐸) 0.925 −0.665 l  𝐾= = = 1−𝑃(𝐸) 1−0.665 0.776 32
  33. 33. Introduction to Information Retrieval Sec. 8.5 Kappa statistic  Interpretation of the kappa statistic k:  k > 0.8 good agreement  0.67 <= k < 0.8 fair agreement  k < 0.67 bad agreement 33
  34. 34. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 34
  35. 35. Introduction to Information Retrieval Sec. 8.6 System quality and user utility  System issues  How fast does it index?  How fast does it search?  How expressive is its query language? How fast is it on complex queries?  How large is its document collection?  User utility – ユーザの幸福度の測定  www:ユーザが探す結果を得たのか、また利用するか  エンタプライズ:必要情報を探すまでの時間  Refining a deployed system  A/B test 35
  36. 36. Introduction to Information Retrieval Reference  IIR Chapter 8  http://www.stanford.edu/class/cs276/handouts/lect ure8-evaluation.ppt  http://bloghackers.net/~naoya/iir/ppt/  http://www.stanford.edu/class/cs276/handouts/Eval uationNew.ppt 36

×