SlideShare a Scribd company logo
1 of 36
Download to read offline
Evaluierung von Web-Suchmaschinen
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg, Department Information
dirk.lewandowski@haw-hamburg.de
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




1 | Dirk Lewandowski
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




2 | Dirk Lewandowski
Suchmaschinenmarkt: Deutschland 2011




3 | Dirk Lewandowski                    (Webhits, 2011)
Die Qualität von Suchmaschinen kann nur durch eine
 Kombination unterschiedlicher Faktoren gemessen werden.

 •  Qualität des Index
     –  Größe des Datenbestands, Abdeckung des Web
     –  Abdeckung bestimmter Bereiche (Sprachräume, Länder)
     –  Überschneidungen der Indices
     –  Aktualität des Datenbestands

 •  Qualität der Suchresultate
       –  Retrievaleffektivität
       –  Zuverlässigkeit der Suchergebnisse
       –  Zufriedenheit der Nutzer
       –  Überschneidungen der (Top-)Ergebnisse

 •  Qualität der Suchfunktionen

 •  Nutzerfreundlichkeit + Benutzerführung
       –  Aufbau der Trefferseiten
                                                              (Lewandowski & Höchstötter 2007; ergänzt)

4 | Dirk Lewandowski
Die Qualität von Suchmaschinen kann nur durch eine
 Kombination unterschiedlicher Faktoren gemessen werden.

 •  Qualität des Index
     –  Größe des Datenbestands, Abdeckung des Web
     –  Abdeckung bestimmter Bereiche (Sprachräume, Länder)
     –  Überschneidungen der Indices
     –  Aktualität des Datenbestands

 •  Qualität der Suchresultate
       –  Retrievaleffektivität
       –  Zuverlässigkeit der Suchergebnisse
       –  Zufriedenheit der Nutzer
       –  Überschneidungen der (Top-)Ergebnisse

 •  Qualität der Suchfunktionen

 •  Nutzerfreundlichkeit + Benutzerführung
       –  Aufbau der Trefferseiten
                                                              (Lewandowski & Höchstötter 2007; ergänzt)

5 | Dirk Lewandowski
Kernkomponenten einer Suchmaschine




                                      (Risvik & Michelsen 2002)




6 |
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




7 | Dirk Lewandowski
Was soll eigentlich gemessen werden?


 •  Relevanz der Ergebnisse
    •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite)
    •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur
       Beantwortung der Suchanfrage.
    •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der
       Treffer kann verschleiert werden.

 •  Zufriedenheit der Nutzer mit einem Suchprozess
    •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite)
    •  Bewertung jeder einzelnen Suchsession.
    •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

 •  Wissenszuwachs
    •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite)
    •  Bewertung des Wissenszuwachses nach einer Suchsession.
    •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.
8 |
Entscheidungen beim Design klassischer Retrievaltests




 1. Welche Suchmaschine(n)?

 2. Wie viele Suchanfragen?
 3. Welche Suchanfragen?
 4. Wie viele Ergebnisse pro Suchanfrage?

 5. Wie viele Juroren?
 6. Welche Juroren(gruppen)?
 7. Wie viele Juroren je Suchanfrage?

 8. Wie sollen Dokumente bewertet werden (Skalen)?
 9. Sollen Dokumentbeschreibungen berücksichtigt werden?

 10.  Mit welchen Kennzahlen soll gemessen werden?
9 |
Recall-Precision-Graph (top20 results)




10 | Dirk Lewandowski                     (Lewandowski 2008)
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




11 | Dirk Lewandowski
x




12 | Dirk Lewandowski   (Eyetracking-Studie HAW-Hamburg 2010)
x




13 | Dirk Lewandowski
Results selection (top11 results)




                                     (Granka et al. 2004)



14 | Dirk Lewandowski
x




15 | Dirk Lewandowski
x




16 | Dirk Lewandowski
x




17 |
Anzeigen



        Nachrichten



           Bilder

 x




         Videos

       Blogbeiträge


18 |
Eye-Tracking




 •  x




19 |
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




20 | Dirk Lewandowski
Probleme des Standarddesigns


 •  Problematische Grundannahmen
     –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen
        anzuklicken und zu prüfen)
     –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall

 •  Der Testaufbau berücksichtigt nicht
     –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur
        Befriedigung des Informationsbedürfnisses benötigt werden.
     –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden
     –  dass Relevanzbeurteilungen differenziert erfolgen
     –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer
     –  verschiedene Anfragetypen
     –  den Einfluss der Trefferbeschreibungen
     –  das typische Selektionsverhalten
     –  die unterschiedliche Präsentation der Ergebnisse
     –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer
     –  die Durchmischung der Trefferlisten (bzw. Top-Resultate)
     –  ...
21 | Dirk Lewandowski
Probleme des Standarddesigns


 •  Problematische Grundannahmen
     –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen
        anzuklicken und zu prüfen)
     –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall

 •  Der Testaufbau berücksichtigt nicht
     –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur
        Befriedigung des Informationsbedürfnisses benötigt werden.
     –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden
     –  dass Relevanzbeurteilungen differenziert erfolgen
     –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer
     –  verschiedene Anfragetypen
     –  den Einfluss der Trefferbeschreibungen
     –  das typische Selektionsverhalten
     –  die unterschiedliche Präsentation der Ergebnisse
     –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer
     –  die Durchmischung der Trefferlisten (bzw. Top-Resultate)
     –  ...
22 | Dirk Lewandowski
Precision-Recall-Graph (binär)

               1,00


               0,90


               0,80


               0,70


               0,60                                                                                                         Google
 Precision




                                                                                                                            Yahoo
               0,50                                                                                                         MSN
                                                                                                                            Ask
               0,40                                                                                                         Seekport


               0,30


               0,20


               0,10


               0,00
                       1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16   17   18   19   20
             Google   0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48
             Yahoo    0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52
             MSN      0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37
            Ask
23 | Dirk Lewandowski0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44
            Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37
                                                             Number of results
Precision-Recall-Graph (Fünferskala)

                                                    Vergleich der Precision nach Listenplatz (Top20; Skala)


                                 3,00



                                 2,50
 Durchschnittliche Precision




                                 2,00
                                                                                                                                              Google
                                                                                                                                              Yahoo
                                 1,50                                                                                                         MSN
                                                                                                                                              Ask
                                                                                                                                              Seekport
                                 1,00



                                 0,50



                                 0,00
                                         1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16   17   18   19   20
                               Google   2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
                               Yahoo    2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
                               MSN      1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
            Ask
24 | Dirk Lewandowski1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
            Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
                                                                Trefferplatz
Drei Anfragetypen

 Anfragetypen nach Broder (2002)



 •  Informational (informationsorientiert)
       –  Nutzer möchte sich zu einem Thema informieren.
       –  Ziel sind mehrere Dokumente.

 •  Navigational (navigationsorientiert)
       –  Ziel ist es, eine bestimmte Seite (wieder) zu finden.
       –  Typisch: Suche nach Homepage („Daimler Chrysler“).
       –  Ziel ist i.d.R. ein Dokument.

 •  Transactional (transaktionsorientiert)
       –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
          soll.
       –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

25 |
Drei Anfragetypen

 Anfragetypen nach Broder (2002)



 •  Informational (informationsorientiert)
       –  Nutzer möchte sich zu einem Thema informieren.
       –  Ziel sind mehrere Dokumente.

 •  Navigational (navigationsorientiert)
       –  Ziel ist es, eine bestimmte Seite (wieder) zu finden.
       –  Typisch: Suche nach Homepage („Daimler Chrysler“).
       –  Ziel ist i.d.R. ein Dokument.

 •  Transactional (transaktionsorientiert)
       –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
          soll.
       –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

26 |
Successful answered queries on results position n




27 | Dirk Lewandowski                                (Lewandowski 2011)
•  Results selection simple




       28 | Dirk Lewandowski
•  results selection with descriptions




       29 | Dirk Lewandowski
Precision of descriptions vs. precision of results (Google)


                                Google: Treffer vs. Beschreibungen (ja/nein)

1,00


0,90


0,80


0,70


0,60

                                                                                                    Treffer
0,50
                                                                                                    Beschreibungen

0,40


0,30


0,20


0,10


0,00
       1   2   3   4    5   6    7   8   9   10   11   12   13   14   15   16   17   18   19   20



30 | Dirk Lewandowski
Recall-precision graph (top20 descriptions)




31 | Dirk Lewandowski
Recall-Precision-Graph (Top20, DRprec = relevant descriptions
 leading to relevant results)




32 | Dirk Lewandowski
Agenda



  Einleitung: Wozu evaluieren?

 Standardaufbau von Retrievaltests (für Suchmaschinen)

 Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten

 Erweiterung der Methodik der Retrievaltests

 Fazit




33 | Dirk Lewandowski
Fazit




 •  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet
    sind.

 •  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab.

 •  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch
    bislang kein integrierter Ansatz.

  Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der
  verwendeten Methodik zu kennen!




34 | Dirk Lewandowski
Vielen Dank für Ihre
Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html



Aktuelles Buch:
Handbuch Internet-Suchmaschinen 2


E-Mail:
dirk.lewandowski@haw-hamburg.de

More Related Content

Similar to Evaluierung von Web-Suchmaschinen

Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014121WATT GmbH
 
Suchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgSuchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgDirk Lewandowski
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Dirk Lewandowski
 
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsWeb-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsDirk Lewandowski
 
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...Alexander Außermayr
 
Social Media Monitoring – Tools und Services
Social Media Monitoring – Tools und ServicesSocial Media Monitoring – Tools und Services
Social Media Monitoring – Tools und ServicesDIE DIGITALE GmbH
 
Vortrag roland fiege tweetakademie ma 2010
Vortrag roland fiege   tweetakademie ma 2010Vortrag roland fiege   tweetakademie ma 2010
Vortrag roland fiege tweetakademie ma 2010Michael Gebert
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenDirk Lewandowski
 
Social Media Monitoring für Information Professionals
Social Media Monitoring für Information ProfessionalsSocial Media Monitoring für Information Professionals
Social Media Monitoring für Information ProfessionalsDIE DIGITALE GmbH
 
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017SEARCH ONE
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenWissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenDirk Lewandowski
 
Chapter Zürich Process Discovery.pdf
Chapter Zürich Process Discovery.pdfChapter Zürich Process Discovery.pdf
Chapter Zürich Process Discovery.pdfCristina Vidu
 
Dipl.-Ing. Leopold Peneder (HC Solutions)
Dipl.-Ing. Leopold Peneder (HC Solutions)Dipl.-Ing. Leopold Peneder (HC Solutions)
Dipl.-Ing. Leopold Peneder (HC Solutions)Agenda Europe 2035
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heuteUserZoom Deutschland
 
Pixel Rank - die bessere Metrik für dein Ranking?
Pixel Rank - die bessere Metrik für dein Ranking?Pixel Rank - die bessere Metrik für dein Ranking?
Pixel Rank - die bessere Metrik für dein Ranking?Johanna Maier
 
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...e-dialog GmbH
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenuxHH
 

Similar to Evaluierung von Web-Suchmaschinen (20)

Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014
 
Suchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgSuchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW Hamburg
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
 
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsWeb-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
 
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...
Lehrveranstaltung International SEO - Zertifikatslehrgang Suchmaschinenmarket...
 
Social Media Monitoring – Tools und Services
Social Media Monitoring – Tools und ServicesSocial Media Monitoring – Tools und Services
Social Media Monitoring – Tools und Services
 
Vortrag roland fiege tweetakademie ma 2010
Vortrag roland fiege   tweetakademie ma 2010Vortrag roland fiege   tweetakademie ma 2010
Vortrag roland fiege tweetakademie ma 2010
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
 
Social Media Monitoring für Information Professionals
Social Media Monitoring für Information ProfessionalsSocial Media Monitoring für Information Professionals
Social Media Monitoring für Information Professionals
 
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017
Data Driven SEO - Kai Spriestersbach @ SEOkomm 2017
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenWissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
 
Chapter Zürich Process Discovery.pdf
Chapter Zürich Process Discovery.pdfChapter Zürich Process Discovery.pdf
Chapter Zürich Process Discovery.pdf
 
Dipl.-Ing. Leopold Peneder (HC Solutions)
Dipl.-Ing. Leopold Peneder (HC Solutions)Dipl.-Ing. Leopold Peneder (HC Solutions)
Dipl.-Ing. Leopold Peneder (HC Solutions)
 
[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute[Webinar] So geht UX Research heute
[Webinar] So geht UX Research heute
 
Pixel Rank - die bessere Metrik für dein Ranking?
Pixel Rank - die bessere Metrik für dein Ranking?Pixel Rank - die bessere Metrik für dein Ranking?
Pixel Rank - die bessere Metrik für dein Ranking?
 
Suche 2.0?
Suche 2.0?Suche 2.0?
Suche 2.0?
 
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
 
EyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. AnalysierenEyeTracking. Visualisieren vs. Analysieren
EyeTracking. Visualisieren vs. Analysieren
 

More from Dirk Lewandowski

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexDirk Lewandowski
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search EnginesDirk Lewandowski
 
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...Dirk Lewandowski
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenDirk Lewandowski
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsDirk Lewandowski
 
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertGoogle Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertDirk Lewandowski
 
Suchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenSuchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenDirk Lewandowski
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Dirk Lewandowski
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Dirk Lewandowski
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Dirk Lewandowski
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenDirk Lewandowski
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Dirk Lewandowski
 
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Dirk Lewandowski
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheDirk Lewandowski
 
Suchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftSuchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftDirk Lewandowski
 
Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Dirk Lewandowski
 

More from Dirk Lewandowski (20)

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web Index
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search Engines
 
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
EIN ANDERER BLICK AUF GOOGLE: Wie interpretieren Nutzer/innen die Suchergebni...
 
Künstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei SuchmaschinenKünstliche Intelligenz bei Suchmaschinen
Künstliche Intelligenz bei Suchmaschinen
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topics
 
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändertGoogle Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
Google Assistant, Alexa & Co.: Wie sich die Welt der Suche verändert
 
Suchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von SuchdienstenSuchverhalten und die Grenzen von Suchdiensten
Suchverhalten und die Grenzen von Suchdiensten
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?
 
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
Search Engine Bias - sollen wir Googles Suchergebnissen vertrauen?
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretieren
 
Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?
 
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
 
Nutzer verstehen
Nutzer verstehenNutzer verstehen
Nutzer verstehen
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der Suche
 
Suchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftSuchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der Gesellschaft
 
Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?
 

Evaluierung von Web-Suchmaschinen

  • 1. Evaluierung von Web-Suchmaschinen Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg, Department Information dirk.lewandowski@haw-hamburg.de
  • 2. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 1 | Dirk Lewandowski
  • 3. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 2 | Dirk Lewandowski
  • 4. Suchmaschinenmarkt: Deutschland 2011 3 | Dirk Lewandowski (Webhits, 2011)
  • 5. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt) 4 | Dirk Lewandowski
  • 6. Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zuverlässigkeit der Suchergebnisse –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung –  Aufbau der Trefferseiten (Lewandowski & Höchstötter 2007; ergänzt) 5 | Dirk Lewandowski
  • 7. Kernkomponenten einer Suchmaschine (Risvik & Michelsen 2002) 6 |
  • 8. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 7 | Dirk Lewandowski
  • 9. Was soll eigentlich gemessen werden? •  Relevanz der Ergebnisse •  Durchschnittliche Bewertung der Suchergebnisse (Systemseite) •  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur Beantwortung der Suchanfrage. •  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der Treffer kann verschleiert werden. •  Zufriedenheit der Nutzer mit einem Suchprozess •  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite) •  Bewertung jeder einzelnen Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine. •  Wissenszuwachs •  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite) •  Bewertung des Wissenszuwachses nach einer Suchsession. •  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine. 8 |
  • 10. Entscheidungen beim Design klassischer Retrievaltests 1. Welche Suchmaschine(n)? 2. Wie viele Suchanfragen? 3. Welche Suchanfragen? 4. Wie viele Ergebnisse pro Suchanfrage? 5. Wie viele Juroren? 6. Welche Juroren(gruppen)? 7. Wie viele Juroren je Suchanfrage? 8. Wie sollen Dokumente bewertet werden (Skalen)? 9. Sollen Dokumentbeschreibungen berücksichtigt werden? 10.  Mit welchen Kennzahlen soll gemessen werden? 9 |
  • 11. Recall-Precision-Graph (top20 results) 10 | Dirk Lewandowski (Lewandowski 2008)
  • 12. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 11 | Dirk Lewandowski
  • 13. x 12 | Dirk Lewandowski (Eyetracking-Studie HAW-Hamburg 2010)
  • 14. x 13 | Dirk Lewandowski
  • 15. Results selection (top11 results) (Granka et al. 2004) 14 | Dirk Lewandowski
  • 16. x 15 | Dirk Lewandowski
  • 17. x 16 | Dirk Lewandowski
  • 19. Anzeigen Nachrichten Bilder x Videos Blogbeiträge 18 |
  • 21. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 20 | Dirk Lewandowski
  • 22. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ... 21 | Dirk Lewandowski
  • 23. Probleme des Standarddesigns •  Problematische Grundannahmen –  Modell des “dedicated searcher” (der bereit ist, ein Ergebnis nach dem anderen anzuklicken und zu prüfen) –  Nutzer wünscht sowohl hohe Precision als auch hohen Recall •  Der Testaufbau berücksichtigt nicht –  wie viele Dokumente ein Nutzer bereit ist anzusehen / wie viele Dokumente zur Befriedigung des Informationsbedürfnisses benötigt werden. –  wie häufig die in dem Test verwendeten Suchanfragen gestellt werden –  dass Relevanzbeurteilungen differenziert erfolgen –  verschiedenen Relevanzbewertungen durch unterschiedliche Nutzer –  verschiedene Anfragetypen –  den Einfluss der Trefferbeschreibungen –  das typische Selektionsverhalten –  die unterschiedliche Präsentation der Ergebnisse –  die Bevorzugung bestimmter Suchmaschinen durch die Nutzer –  die Durchmischung der Trefferlisten (bzw. Top-Resultate) –  ... 22 | Dirk Lewandowski
  • 24. Precision-Recall-Graph (binär) 1,00 0,90 0,80 0,70 0,60 Google Precision Yahoo 0,50 MSN Ask 0,40 Seekport 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 0,54 0,53 0,52 0,52 0,51 0,50 0,49 0,49 0,48 0,48 Yahoo 0,73 0,69 0,69 0,68 0,61 0,62 0,61 0,60 0,60 0,60 0,59 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,53 0,52 MSN 0,58 0,50 0,51 0,53 0,52 0,49 0,49 0,48 0,47 0,45 0,44 0,43 0,42 0,40 0,39 0,39 0,38 0,38 0,37 0,37 Ask 23 | Dirk Lewandowski0,65 0,60 0,59 0,56 0,53 0,53 0,52 0,52 0,50 0,50 0,49 0,48 0,47 0,47 0,46 0,46 0,45 0,45 0,44 0,44 Seekport 0,58 0,53 0,51 0,52 0,51 0,50 0,48 0,45 0,44 0,43 0,44 0,44 0,43 0,42 0,41 0,40 0,39 0,38 0,37 0,37 Number of results
  • 25. Precision-Recall-Graph (Fünferskala) Vergleich der Precision nach Listenplatz (Top20; Skala) 3,00 2,50 Durchschnittliche Precision 2,00 Google Yahoo 1,50 MSN Ask Seekport 1,00 0,50 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 24 | Dirk Lewandowski1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 Trefferplatz
  • 26. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei. 25 |
  • 27. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei. 26 |
  • 28. Successful answered queries on results position n 27 | Dirk Lewandowski (Lewandowski 2011)
  • 29. •  Results selection simple 28 | Dirk Lewandowski
  • 30. •  results selection with descriptions 29 | Dirk Lewandowski
  • 31. Precision of descriptions vs. precision of results (Google) Google: Treffer vs. Beschreibungen (ja/nein) 1,00 0,90 0,80 0,70 0,60 Treffer 0,50 Beschreibungen 0,40 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 | Dirk Lewandowski
  • 32. Recall-precision graph (top20 descriptions) 31 | Dirk Lewandowski
  • 33. Recall-Precision-Graph (Top20, DRprec = relevant descriptions leading to relevant results) 32 | Dirk Lewandowski
  • 34. Agenda Einleitung: Wozu evaluieren? Standardaufbau von Retrievaltests (für Suchmaschinen) Aufmerksamkeit auf den Ergebnisseiten und Selektionsverhalten Erweiterung der Methodik der Retrievaltests Fazit 33 | Dirk Lewandowski
  • 35. Fazit •  Es gibt Standardverfahren, die für bestimmte Fragestellungen gut geeignet sind. •  Allerdings bilden Sie die typischen Nutzungsszenarien nicht ausreichend ab. •  Viele Erweiterungen der Standardverfahren wurden vorgeschlagen, jedoch bislang kein integrierter Ansatz.  Beim Design eigener Tests ist es wichtig, die Möglichkeiten und Grenzen der verwendeten Methodik zu kennen! 34 | Dirk Lewandowski
  • 36. Vielen Dank für Ihre Aufmerksamkeit. www.bui.haw-hamburg.de/lewandowski.html Aktuelles Buch: Handbuch Internet-Suchmaschinen 2 E-Mail: dirk.lewandowski@haw-hamburg.de