User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Suchergebnissen bewerten?
User Experience vs. Retrievaltests – Wie lässt sich die
Relevanz von Suchergebnissen bewerten?
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg
dirk.lewandowski@haw-hamburg.de
@Dirk_Lew
Hamburg, 14. November 2013
World Usability Day Hamburg
„Logfileanalysen und Retrievaltests
gehören mit in die Grundausstattung der
Methoden zur Optimierung der User
Experience in Suchen. Sie geben nicht
nur Rückmeldung darüber, nach was die
Nutzer konkret suchen und wie sie ihre
Suchanfragen formulieren. Sie geben
auch Rückschluss auf die Effektivität des
Suchsystems und die Qualität der
Ergebnislisten.“ (Quirmbach 2012, S. 134)
Retrievaltest
Untersuchungsfrage
• Wie gut sind die Treffer von IR-Systemen?
Vorgehen
• Jeder Treffer zu ausgewählten Suchanfragen wird von Juroren bewertet.
Diese kennen die Herkunft und Platzierung der Treffer nicht.
Was wird gemessen?
• Durchschnittliche Bewertung der Suchergebnisse (Systemseite)
• Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung
zur Beantwortung der Suchanfrage.
• Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft
der Treffer kann verschleiert werden.
Retrievalparadigmen
• Query-response paradigm
• Annahme: Nutzer gibt Suchanfrage ein, prüft dann das Ergebnis.
• Statisch; „systemorientiert“
à „Klassische“ Retrievaltests (Abfrage der „objektiven“ Trefferqualität)
• Interaktives Retrieval
• Annahme:
• Recherche findet in mehreren Schritten statt.
• Bei der Recherche handelt es sich um einen „Dialog“ zwischen Nutzer und System.
• Dynamisch, „nutzerorientiert“
à Nutzerstudien (Abfrage der Zufriedenheit der Nutzer)
Aufbau von Retrievaltests
1. Auswahl der Suchmaschinen
2. Anzahl der Suchanfragen
3. Art der Suchanfragen
4. Herkunft der Suchanfragen
5. Darstellung der Suchanfragen
6. Anzahl der Ergebnisse pro Suchanfrage
7. Anzahl der Juroren
8. Auswahl der Juroren(gruppen)
9. Anzahl der Juroren pro Suchanfrage
10. Bewertung der Dokumente
11. Berücksichtigung der Trefferbeschreibungen
TREC: Topics
Harman & Vorhees 2006, S. 117
„Information need statement“
Beschreibung, was als
Relevant bewertet werden
soll (und was nicht)
Vor- und Nachteile von Retrievaltests (Quirmbach 2012, S. 133)
• Vorteile
– Retrievaltests geben detaillierte Hinweise, warum die Search Experience einer Suche
negativ ist.
– Sie sind relativ einfach auch ohne einen weiteren Dienstleister durchzuführen und deswegen
kostengünstig.
– Zeigt die Retrievalfähigkeiten des Suchsystems auf.
– Gibt Hinweise auf die Relevanz der Suchergebnisse, wie diese von den Nutzern
wahrgenommen und eingestuft wird.
• Nachteile
– Die Methode kann [...] erst dann verwendet werden, wenn die Suche umgesetzt wurde.
Jedoch können schon erste Tests in einer Testumgebung des Systems durchgeführt werden
[...]
– Relevanztests sind zeitaufwändig.
– Es müssen die Fragestellungen und Kennzahlen eindeutig definiert werden, da die
Testergebnisse sonst nicht valide sind.
– Sie werden aufgrund ihrer Standardisierung den realen Nutzerbedürfnissen und dem
Nutzerverhalten nicht hinreichend gerecht.
– Messen nicht alle für die Suchmaschinen qualitätsbestimmenden Faktoren.
Methodenspektrum
• Logfile-Analysen
• Alle Nutzerinteraktionen in einer Suchmaschine; keine Informationen über die Nutzer
• Relevanztests
• Abfrage der Qualität von Suchergebnissen mittels Befragung; ausgewählte
Nutzer(gruppen)
• Online-Umfrage
• Befragung mittels Online-Fomularen; Problematik der Selbstauskunft und
Selbstselektion
• Protokollbasierte Nutzerstudien
• Beobachtung analog der Logfile-Analyse, aber gezielt ausgewählte Nutzer
(zusätzliche Informationen über den Nutzer; ergänzende Befragung)
• Usability-Test
• Aufgabenbasierte Befragung i.d.R. im Labor; Frage nach Beurteilung und
Beweggründen; Problem der geringen Fallzahlen
• Eyetracking
– Aufzeichnung von Blickverläufen und Fixationen, Frage nach der Wahrnehmung von
Angeboten/Elementen von Webseiten
Was suchen die Nutzer tatsächlich?
Wie gut sind die angezeigten Ergebnisse?
Wie bewerten Nutzer Musicload im Vergleich
mit anderen Anbietern?
Welche Wünsche haben die Nutzer an eine
ideale Musiksuche?
Welche Elemente auf den Musicload-Seiten
werden wahrgenommen? Wie verlaufen die
Blicke auf den Konkurrenzangeboten?
Fazit
1. Retrievaltests eignen sich als ergänzende Methode, um die Qualität der
Suchergebnisse zu bewerten.
2. Standardisiertes Verfahren, relativ geringer Aufwand für die
Durchführung der Tests.
3. Keine Abbildung des Nutzerverhaltens, daher kein Ersatz für andere
Verfahren.