Your SlideShare is downloading. ×
Evaluierung von Web-Suchmaschinen
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Evaluierung von Web-Suchmaschinen

567
views

Published on

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
567
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Evaluierung von Web-SuchmaschinenProf. Dr. Dirk LewandowskiHochschule für Angewandte Wissenschaften Hamburg, Department Informationdirk.lewandowski@haw-hamburg.de
  • 2. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit1 | Dirk Lewandowski
  • 3. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit2 | Dirk Lewandowski
  • 4. Suchmaschinenmarkt: Deutschland 20113 | Dirk Lewandowski (Webhits, 2011)
  • 5. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt)4 | Dirk Lewandowski
  • 6. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt)5 | Dirk Lewandowski
  • 7. Kernkomponenten einer Suchmaschine (Risvik & Michelsen 2002)6 |
  • 8. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit7 | Dirk Lewandowski
  • 9. Was soll eigentlich gemessen werden? •  Relevanz der Ergebnisse •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite) •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur Beantwortung der Suchanfrage. •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der Treffer kann verschleiert werden. •  Zufriedenheit der Nutzer mit einem Suchprozess •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) •  Bewertung jeder einzelnen Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine. •  Wissenszuwachs •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) •  Bewertung des Wissenszuwachses nach einer Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.8 |
  • 10. Entscheidungen beim Design klassischer Retrievaltests 1. Welche Suchmaschine(n)? 2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage? 5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage? 8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden? 10.  Mit welchen Kennzahlen soll gemessen werden?9 |
  • 11. Recall-Precision-Graph (top20 results)10 | Dirk Lewandowski (Lewandowski 2008)
  • 12. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit11 | Dirk Lewandowski
  • 13. x12 | Dirk Lewandowski (Eyetracking-Studie HAW-Hamburg 2010)
  • 14. x13 | Dirk Lewandowski
  • 15. Results selection (top11 results) (Granka et al. 2004)14 | Dirk Lewandowski
  • 16. x15 | Dirk Lewandowski
  • 17. x16 | Dirk Lewandowski
  • 18. x17 |
  • 19. Anzeigen Nachrichten Bilder x Videos Blogbeiträge18 |
  • 20. Eye-Tracking •  x19 |
  • 21. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit20 | Dirk Lewandowski
  • 22. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...21 | Dirk Lewandowski
  • 23. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ...22 | Dirk Lewandowski
  • 24. Precision-Recall-Graph (binär) 1,00 0,90 0,80 0,70 0,60 Google Precision Yahoo 0,50 MSN Ask 0,40 Seekport 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48 Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52 MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37 Ask23 | Dirk Lewandowski0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44 Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37 Number of results
  • 25. Precision-Recall-Graph (Fünferskala) Vergleich der Precision nach Listenplatz (Top20; Skala) 3,00 2,50 Durchschnittliche Precision 2,00 Google Yahoo 1,50 MSN Ask Seekport 1,00 0,50 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask24 | Dirk Lewandowski1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 Trefferplatz
  • 26. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.25 |
  • 27. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.26 |
  • 28. Successful answered queries on results position n27 | Dirk Lewandowski (Lewandowski 2011)
  • 29. •  Results selection simple 28 | Dirk Lewandowski
  • 30. •  results selection with descriptions 29 | Dirk Lewandowski
  • 31. Precision of descriptions vs. precision of results (Google) Google: Treffer vs. Beschreibungen (ja/nein)1,000,900,800,700,60 Treffer0,50 Beschreibungen0,400,300,200,100,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2030 | Dirk Lewandowski
  • 32. Recall-precision graph (top20 descriptions)31 | Dirk Lewandowski
  • 33. Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results)32 | Dirk Lewandowski
  • 34. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit33 | Dirk Lewandowski
  • 35. Fazit •  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind. •  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab. •  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.  Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen!34 | Dirk Lewandowski
  • 36. Vielen Dank für IhreAufmerksamkeit.www.bui.haw-hamburg.de/lewandowski.htmlAktuelles Buch:Handbuch Internet-Suchmaschinen 2E-Mail:dirk.lewandowski@haw-hamburg.de