Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplex...
Suchmaschinen
E-Commerce
Fragestellung
•  Evaluierung von Suchmaschinen ist meist eindimensional; Problem
der Validität und Reliabilität.
•  Result...
Evaluierungsmethoden (Standard)
•  Retrievaltests
–  Qualität der Suchergebnisse wird anhand einer bestimmten Anzahl von
S...
Drei Problembereiche
Anfragetypen in der Websuche
nach Broder (2002)
•  Informational (informationsorientiert)
–  Nutzer möchte sich zu einem T...
Anwendungsfälle: Konkreter vs. problemorientierter
Informationsbedarf
Anwendungsfall Konkret Problemorientiert
Websuche Eb...
Anfragetypen
•  Anfragetypen sind teils maschinell
ermittelbar
•  Die Qualität der Studien (vor allem
aus dem SEO-Bereich)...
Aufgabenkomplexität
•  Einfache vs. komplexe Aufgaben
–  Wenn man nur mit einfachen Aufgaben evaluiert, greift man zu kurz...
Trefferpräsentation in Suchmaschinen
•  Text
8 |
•  x
Anzeigen
Organische
Ergebnisse
Universal-
Search-
Ergebnisse
Ergebnispräsentation
•  Retrievaltests orientieren sich an gerankten Ergebnislisten.
•  Ergebnisdarstellung hat sich aber ...
Methodenspektrum und Softwareunterstützung
Methodenspektrum
•  Logfile-Analysen
•  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutze...
16 |
x
•  x
Methodenspektrum
•  Logfile-Analysen
•  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutze...
„Korrelationsstudien“
•  Kombination aus Retrievaltests und Klassifikationsaufgaben
–  Jurorenurteile (Laien) + Klassifika...
Tool Support
•  Relevance Assessment Tool (RAT)
–  Testdesign im Baukastenprinzip
–  Automatisches Erfassen von Suchergebn...
Fazit
Fazit
1.  Die aktuell eingesetzten Testmethoden sind nur zum Teil für die
Fragestellungen der Praxis geeignet.
2.  Die Aus...
Vielen Dank für die Aufmerksamkeit.
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg,
Departmen...
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Upcoming SlideShare
Loading in …5
×

Ist meine Suchmaschine wirklich so gut, wie ich glaube?

355 views

Published on

Published in: Internet
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
355
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Ist meine Suchmaschine wirklich so gut, wie ich glaube?

  1. 1. Ist meine Suchmaschine wirklich so gut, wie ich glaube? Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplexität und Ergebnispräsentation Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de @Dirk_Lew Berlin, 9. Oktober 2012 Esemos Barcamp Search
  2. 2. Suchmaschinen
  3. 3. E-Commerce
  4. 4. Fragestellung •  Evaluierung von Suchmaschinen ist meist eindimensional; Problem der Validität und Reliabilität. •  Resultate aus vereinfachenden Studien geben falsche bzw. ungenaue Empfehlungen für die Praxis. •  Drei Punkte –  Anfragetypen –  Aufgabenkomplexität –  Ergebnispräsentation
  5. 5. Evaluierungsmethoden (Standard) •  Retrievaltests –  Qualität der Suchergebnisse wird anhand einer bestimmten Anzahl von Suchanfragen und der Ergebnisse dazu überprüft. •  Usabilitytests –  Nutzer bekommen im Labor Aufgaben gestellt und werden bei deren Lösung beobachtet.
  6. 6. Drei Problembereiche
  7. 7. Anfragetypen in der Websuche nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Ebay“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
  8. 8. Anwendungsfälle: Konkreter vs. problemorientierter Informationsbedarf Anwendungsfall Konkret Problemorientiert Websuche Ebay-Homepage Informationen über die neue Sherlock-Holmes- Serie der BBC Bibliothekskatalog Ist das Buch „Information Retrieval“ von Stock in der HAW-Bibliothek vorhanden? Welche Bücher gibt es zum Thema kollaborative Suche? Online-Dating Welche Hobbies hat Natalia73? Wer passt zu mir? Produktsuche Was kostet der Roomba 581? Welcher Staubsaugroboter ist der beste?
  9. 9. Anfragetypen •  Anfragetypen sind teils maschinell ermittelbar •  Die Qualität der Studien (vor allem aus dem SEO-Bereich) ist gering. Lewandowski, Dirk; Drechsler, Jessica; von Mach, Sonja: Deriving Query Intents From Web Search Engine Queries. Journal of the American Society for Information Science & Technology 63(2012)9, 1773-1788.
  10. 10. Aufgabenkomplexität •  Einfache vs. komplexe Aufgaben –  Wenn man nur mit einfachen Aufgaben evaluiert, greift man zu kurz. –  Komplexe Aufgaben bislang nur in Usabilitytests abgefragt, dort aber i.d.R. zu wenige Probanden und kein Fokus auf die unterschiedliche Herangehensweise der Probanden. –  Beispielaufgabe: „Von Zeit zu Zeit werden die Motive auf britischen Banknoten gewechselt. Im Jahr 2003 musste ein Schriftsteller einem Wissenschaftler auf dem 10 Pfund Schein Platz machen. Beide Persönlichkeiten haben denselben Vornamen - bitte finden Sie den Vornamen!“ Singer, G..; Norbisrath, U.; Lewandowski, D.: Ordinary Search Engine Users assessing Difficulty, Effort, and Outcome for Simple and Complex Search Tasks. Proceedings of the Fourth Information Interaction in Context Symposium. New York: ACM, 2012, 110-119.
  11. 11. Trefferpräsentation in Suchmaschinen •  Text 8 | •  x Anzeigen Organische Ergebnisse Universal- Search- Ergebnisse
  12. 12. Ergebnispräsentation •  Retrievaltests orientieren sich an gerankten Ergebnislisten. •  Ergebnisdarstellung hat sich aber geändert. –  Kennzahlen in Retrievaltests modifizieren? •  Sichtbarkeit (sichtbarer Bereich, unsichtbarer Bereich) •  Screen real estate •  Click-through rates
  13. 13. Methodenspektrum und Softwareunterstützung
  14. 14. Methodenspektrum •  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer •  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte Nutzer(gruppen) •  Online-Umfrage •  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion •  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer (zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test •  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen •  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von Angeboten/Elementen von Webseiten
  15. 15. 16 | x •  x
  16. 16. Methodenspektrum •  Logfile-Analysen •  Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer •  Relevanztests •  Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte Nutzer(gruppen) •  Online-Umfrage •  Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und Selbstselektion •  Protokollbasierte Nutzerstudien •  Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer (zusätzliche Informationen über den Nutzer; ergänzende Befragung) •  Usability-Test •  Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und Beweggründen; Problem der geringen Fallzahlen •  Eyetracking –  Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von Angeboten/Elementen von Webseiten Was suchen die Nutzer tatsächlich? Wie gut sind die angezeigten Ergebnisse? Wie bewerten Nutzer Musicload im Vergleich mit anderen Anbietern? Welche Wünsche haben die Nutzer an eine ideale Musiksuche? Welche Elemente auf den Musicload-Seiten werden wahrgenommen? Wie verlaufen die Blicke auf den Konkurrenzangeboten?
  17. 17. „Korrelationsstudien“ •  Kombination aus Retrievaltests und Klassifikationsaufgaben –  Jurorenurteile (Laien) + Klassifikation (Expertenbewertungen) –  Beispiele •  Werden Suchergebnisse, hinter denen eine kommerzielle Intention steht, von den Nutzern schlechter bewertet? •  Ist die hohe Positionierung von Wikipedia-Ergebnissen in den Suchmaschinen- Trefferlisten gerechtfertigt? Lewandowski, Dirk: The influence of commercial intent of search results on their perceived relevance. Proceedings of the 2011 iConference (iConference '11). ACM, New York, NY, USA, 2011, 452-458. Lewandowski, Dirk; Spree, Ulrike: Ranking of Wikipedia articles revisited: Fair ranking for reasonable quality? Journal of the American Society for Information Science and Technology 62(2011)1, 117-132.
  18. 18. Tool Support •  Relevance Assessment Tool (RAT) –  Testdesign im Baukastenprinzip –  Automatisches Erfassen von Suchergebnissen von Google, Bing, T-Online, Amazon, Ebay, ... –  Verteilte Bewertung durch Juroren •  Search Logger –  Aufgabenbasiertes Loggingtool (Entwicklung der Uni Tartu, Estland) •  Search Logger + RAT –  Erst Aufgabe bearbeiten, dann die Relevanz der Dokumente (ob gefunden oder nicht gefunden) bewerten. Singer, Georg; Norbisrath, Ulrich; Vainikko, Eero; Kikkas, Hannu: Search Logger: Analyzing Exploratory Search Tasks. Proceedings of SAC 2011. ACM, New York, USA, 2011, 751-756. Lewandowski, Dirk; Sünkler, Sebastian: Relevance Assessment Tool: Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung der Daten. In: Proceedings der 2. DGI- Konferenz: Social Media und Web Science - Das Web als Lebensraum. Frankfurt am Main: DGI, 2012, S. 237-249.
  19. 19. Fazit
  20. 20. Fazit 1.  Die aktuell eingesetzten Testmethoden sind nur zum Teil für die Fragestellungen der Praxis geeignet. 2.  Die Auswahl der geeigneten Methode ist essentiell für den Erfolg der Studie und darf nicht nur vom verfügbaren Equipment bzw. den „Testgewohnheiten“ abhängig sein. 3.  Multimethodenstudien erlauben einen wesentlich detaillierteren Blick und sind mit entsprechender Softwareunterstützung kostengünstig durchführbar.
  21. 21. Vielen Dank für die Aufmerksamkeit. Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information http://www.bui.haw-hamburg.de/lewandowski.html dirk.lewandowski@haw-hamburg.de @Dirk_Lew

×