Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Evaluierung unter Berücksichtigung von Anfragetyp, Aufgabenkomplexität und
Ergebnispräsentation
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg
dirk.lewandowski@haw-hamburg.de
@Dirk_Lew
Berlin, 9. Oktober 2012
Esemos Barcamp Search
Fragestellung
• Evaluierung von Suchmaschinen ist meist eindimensional; Problem
der Validität und Reliabilität.
• Resultate aus vereinfachenden Studien geben falsche bzw. ungenaue
Empfehlungen für die Praxis.
• Drei Punkte
– Anfragetypen
– Aufgabenkomplexität
– Ergebnispräsentation
Evaluierungsmethoden (Standard)
• Retrievaltests
– Qualität der Suchergebnisse wird anhand einer bestimmten Anzahl von
Suchanfragen und der Ergebnisse dazu überprüft.
• Usabilitytests
– Nutzer bekommen im Labor Aufgaben gestellt und werden bei deren Lösung
beobachtet.
Anfragetypen in der Websuche
nach Broder (2002)
• Informational (informationsorientiert)
– Nutzer möchte sich zu einem Thema informieren.
– Ziel sind mehrere Dokumente.
• Navigational (navigationsorientiert)
– Ziel ist es, eine bestimmte Seite (wieder) zu finden.
– Typisch: Suche nach Homepage („Ebay“).
– Ziel ist i.d.R. ein Dokument.
• Transactional (transaktionsorientiert)
– Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll.
– Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.
Anwendungsfälle: Konkreter vs. problemorientierter
Informationsbedarf
Anwendungsfall Konkret Problemorientiert
Websuche Ebay-Homepage Informationen über die
neue Sherlock-Holmes-
Serie der BBC
Bibliothekskatalog Ist das Buch „Information
Retrieval“ von Stock in
der HAW-Bibliothek
vorhanden?
Welche Bücher gibt es
zum Thema kollaborative
Suche?
Online-Dating Welche Hobbies hat
Natalia73?
Wer passt zu mir?
Produktsuche Was kostet der Roomba
581?
Welcher
Staubsaugroboter ist der
beste?
Anfragetypen
• Anfragetypen sind teils maschinell
ermittelbar
• Die Qualität der Studien (vor allem
aus dem SEO-Bereich) ist gering.
Lewandowski, Dirk; Drechsler, Jessica; von Mach, Sonja: Deriving Query Intents From Web Search Engine Queries.
Journal of the American Society for Information Science & Technology 63(2012)9, 1773-1788.
Aufgabenkomplexität
• Einfache vs. komplexe Aufgaben
– Wenn man nur mit einfachen Aufgaben evaluiert, greift man zu kurz.
– Komplexe Aufgaben bislang nur in Usabilitytests abgefragt, dort aber i.d.R. zu
wenige Probanden und kein Fokus auf die unterschiedliche Herangehensweise
der Probanden.
– Beispielaufgabe: „Von Zeit zu Zeit werden die Motive auf britischen Banknoten gewechselt.
Im Jahr 2003 musste ein Schriftsteller einem Wissenschaftler auf dem 10 Pfund Schein
Platz machen. Beide Persönlichkeiten haben denselben Vornamen - bitte finden Sie den
Vornamen!“
Singer, G..; Norbisrath, U.; Lewandowski, D.: Ordinary Search Engine Users assessing Difficulty, Effort, and
Outcome for Simple and Complex Search Tasks. Proceedings of the Fourth Information Interaction in Context Symposium.
New York: ACM, 2012, 110-119.
Ergebnispräsentation
• Retrievaltests orientieren sich an gerankten Ergebnislisten.
• Ergebnisdarstellung hat sich aber geändert.
– Kennzahlen in Retrievaltests modifizieren?
• Sichtbarkeit (sichtbarer Bereich, unsichtbarer Bereich)
• Screen real estate
• Click-through rates
Methodenspektrum
• Logfile-Analysen
• Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer
• Relevanztests
• Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte
Nutzer(gruppen)
• Online-Umfrage
• Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und
Selbstselektion
• Protokollbasierte Nutzerstudien
• Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer
(zusätzliche Informationen über den Nutzer; ergänzende Befragung)
• Usability-Test
• Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und
Beweggründen; Problem der geringen Fallzahlen
• Eyetracking
– Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von
Angeboten/Elementen von Webseiten
Methodenspektrum
• Logfile-Analysen
• Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer
• Relevanztests
• Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte
Nutzer(gruppen)
• Online-Umfrage
• Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und
Selbstselektion
• Protokollbasierte Nutzerstudien
• Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer
(zusätzliche Informationen über den Nutzer; ergänzende Befragung)
• Usability-Test
• Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und
Beweggründen; Problem der geringen Fallzahlen
• Eyetracking
– Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von
Angeboten/Elementen von Webseiten
Was suchen die Nutzer tatsächlich?
Wie gut sind die angezeigten Ergebnisse?
Wie bewerten Nutzer Musicload im Vergleich
mit anderen Anbietern?
Welche Wünsche haben die Nutzer an eine
ideale Musiksuche?
Welche Elemente auf den Musicload-Seiten
werden wahrgenommen? Wie verlaufen die
Blicke auf den Konkurrenzangeboten?
„Korrelationsstudien“
• Kombination aus Retrievaltests und Klassifikationsaufgaben
– Jurorenurteile (Laien) + Klassifikation (Expertenbewertungen)
– Beispiele
• Werden Suchergebnisse, hinter denen eine kommerzielle Intention steht, von den
Nutzern schlechter bewertet?
• Ist die hohe Positionierung von Wikipedia-Ergebnissen in den Suchmaschinen-
Trefferlisten gerechtfertigt?
Lewandowski, Dirk: The influence of commercial intent of search results on their perceived relevance.
Proceedings of the 2011 iConference (iConference '11). ACM, New York, NY, USA, 2011, 452-458.
Lewandowski, Dirk; Spree, Ulrike: Ranking of Wikipedia articles revisited: Fair ranking for reasonable quality?
Journal of the American Society for Information Science and Technology 62(2011)1, 117-132.
Tool Support
• Relevance Assessment Tool (RAT)
– Testdesign im Baukastenprinzip
– Automatisches Erfassen von Suchergebnissen von Google, Bing, T-Online,
Amazon, Ebay, ...
– Verteilte Bewertung durch Juroren
• Search Logger
– Aufgabenbasiertes Loggingtool (Entwicklung der Uni Tartu, Estland)
• Search Logger + RAT
– Erst Aufgabe bearbeiten, dann die Relevanz der Dokumente (ob gefunden oder
nicht gefunden) bewerten.
Singer, Georg; Norbisrath, Ulrich; Vainikko, Eero; Kikkas, Hannu: Search Logger: Analyzing Exploratory Search Tasks.
Proceedings of SAC 2011. ACM, New York, USA, 2011, 751-756.
Lewandowski, Dirk; Sünkler, Sebastian: Relevance Assessment Tool: Ein Werkzeug zum Design von Retrievaltests
sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung der Daten. In: Proceedings der 2. DGI-
Konferenz: Social Media und Web Science - Das Web als Lebensraum. Frankfurt am Main: DGI, 2012, S. 237-249.
Fazit
1. Die aktuell eingesetzten Testmethoden sind nur zum Teil für die
Fragestellungen der Praxis geeignet.
2. Die Auswahl der geeigneten Methode ist essentiell für den Erfolg der
Studie und darf nicht nur vom verfügbaren Equipment bzw. den
„Testgewohnheiten“ abhängig sein.
3. Multimethodenstudien erlauben einen wesentlich detaillierteren Blick
und sind mit entsprechender Softwareunterstützung kostengünstig
durchführbar.
Vielen Dank für die Aufmerksamkeit.
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg,
Department Information
http://www.bui.haw-hamburg.de/lewandowski.html
dirk.lewandowski@haw-hamburg.de
@Dirk_Lew