Evaluierung von Web-SuchmaschinenProf. Dr. Dirk LewandowskiHochschule für Angewandte Wissenschaften Hamburg, Department In...
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
Suchmaschinenmarkt: Deutschland 20113 | Dirk Lewandowski                    (Webhits, 2011)
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des...
Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des...
Kernkomponenten einer Suchmaschine                                      (Risvik & Michelsen 2002)6 |
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
Was soll eigentlich gemessen werden? •  Relevanz der Ergebnisse    •  Durchschnittliche Bewertung der Suchergebnisse (Syst...
Entscheidungen beim Design klassischer Retrievaltests 1. Welche Suchmaschine(n)? 2. Wie viele Suchanfragen? 3. Welche Such...
Recall-Precision-Graph (top20 results)10 | Dirk Lewandowski                     (Lewandowski 2008)
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
x12 | Dirk Lewandowski   (Eyetracking-Studie HAW-Hamburg 2010)
x13 | Dirk Lewandowski
Results selection (top11 results)                                     (Granka et al. 2004)14 | Dirk Lewandowski
x15 | Dirk Lewandowski
x16 | Dirk Lewandowski
x17 |
Anzeigen        Nachrichten           Bilder x         Videos       Blogbeiträge18 |
Eye-Tracking •  x19 |
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
Probleme des Standarddesigns •  Problematische Grundannahmen     –  Modell des “dedicated searcher” (der bereit ist, ein E...
Probleme des Standarddesigns •  Problematische Grundannahmen     –  Modell des “dedicated searcher” (der bereit ist, ein E...
Precision-Recall-Graph (binär)               1,00               0,90               0,80               0,70               0...
Precision-Recall-Graph (Fünferskala)                                                    Vergleich der Precision nach Liste...
Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert)       –  Nutzer möchte sich zu...
Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert)       –  Nutzer möchte sich zu...
Successful answered queries on results position n27 | Dirk Lewandowski                                (Lewandowski 2011)
•  Results selection simple       28 | Dirk Lewandowski
•  results selection with descriptions       29 | Dirk Lewandowski
Precision of descriptions vs. precision of results (Google)                                Google: Treffer vs. Beschreibun...
Recall-precision graph (top20 descriptions)31 | Dirk Lewandowski
Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)32 | Dirk Lewandowski
Agenda  Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnis...
Fazit •  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet    sind. •  Allerdings bilden Sie die t...
Vielen Dank für IhreAufmerksamkeit.www.bui.haw-hamburg.de/lewandowski.htmlAktuelles Buch:Handbuch Internet-Suchmaschinen 2...
Upcoming SlideShare
Loading in …5
×

Evaluierung von Web-Suchmaschinen

825 views
755 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
825
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Evaluierung von Web-Suchmaschinen

  1. 1. Evaluierung von Web-SuchmaschinenProf. Dr. Dirk LewandowskiHochschule für Angewandte Wissenschaften Hamburg, Department Informationdirk.lewandowski@haw-hamburg.de
  2. 2. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit1 | Dirk Lewandowski
  3. 3. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit2 | Dirk Lewandowski
  4. 4. Suchmaschinenmarkt: Deutschland 20113 | Dirk Lewandowski (Webhits, 2011)
  5. 5. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt)4 | Dirk Lewandowski
  6. 6. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt)5 | Dirk Lewandowski
  7. 7. Kernkomponenten einer Suchmaschine (Risvik & Michelsen 2002)6 |
  8. 8. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit7 | Dirk Lewandowski
  9. 9. Was soll eigentlich gemessen werden? •  Relevanz der Ergebnisse •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite) •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur Beantwortung der Suchanfrage. •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der Treffer kann verschleiert werden. •  Zufriedenheit der Nutzer mit einem Suchprozess •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) •  Bewertung jeder einzelnen Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine. •  Wissenszuwachs •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) •  Bewertung des Wissenszuwachses nach einer Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.8 |
  10. 10. Entscheidungen beim Design klassischer Retrievaltests 1. Welche Suchmaschine(n)? 2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage? 5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage? 8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden? 10.  Mit welchen Kennzahlen soll gemessen werden?9 |
  11. 11. Recall-Precision-Graph (top20 results)10 | Dirk Lewandowski (Lewandowski 2008)
  12. 12. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit11 | Dirk Lewandowski
  13. 13. x12 | Dirk Lewandowski (Eyetracking-Studie HAW-Hamburg 2010)
  14. 14. x13 | Dirk Lewandowski
  15. 15. Results selection (top11 results) (Granka et al. 2004)14 | Dirk Lewandowski
  16. 16. x15 | Dirk Lewandowski
  17. 17. x16 | Dirk Lewandowski
  18. 18. x17 |
  19. 19. Anzeigen Nachrichten Bilder x Videos Blogbeiträge18 |
  20. 20. Eye-Tracking •  x19 |
  21. 21. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit20 | Dirk Lewandowski
  22. 22. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...21 | Dirk Lewandowski
  23. 23. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...22 | Dirk Lewandowski
  24. 24. Precision-Recall-Graph (binär) 1,00 0,90 0,80 0,70 0,60 Google Precision Yahoo 0,50 MSN Ask 0,40 Seekport 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48 Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52 MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37 Ask23 | Dirk Lewandowski0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44 Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37 Number of results
  25. 25. Precision-Recall-Graph (Fünferskala) Vergleich der Precision nach Listenplatz (Top20; Skala) 3,00 2,50 Durchschnittliche Precision 2,00 Google Yahoo 1,50 MSN Ask Seekport 1,00 0,50 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask24 | Dirk Lewandowski1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 Trefferplatz
  26. 26. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.25 |
  27. 27. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.26 |
  28. 28. Successful answered queries on results position n27 | Dirk Lewandowski (Lewandowski 2011)
  29. 29. •  Results selection simple 28 | Dirk Lewandowski
  30. 30. •  results selection with descriptions 29 | Dirk Lewandowski
  31. 31. Precision of descriptions vs. precision of results (Google) Google: Treffer vs. Beschreibungen (ja/nein)1,000,900,800,700,60 Treffer0,50 Beschreibungen0,400,300,200,100,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2030 | Dirk Lewandowski
  32. 32. Recall-precision graph (top20 descriptions)31 | Dirk Lewandowski
  33. 33. Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)32 | Dirk Lewandowski
  34. 34. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit33 | Dirk Lewandowski
  35. 35. Fazit •  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind. •  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab. •  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.  Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen!34 | Dirk Lewandowski
  36. 36. Vielen Dank für IhreAufmerksamkeit.www.bui.haw-hamburg.de/lewandowski.htmlAktuelles Buch:Handbuch Internet-Suchmaschinen 2E-Mail:dirk.lewandowski@haw-hamburg.de

×