Your SlideShare is downloading. ×
Vergleichende Betrachtung der Funktionalitätund Leistungsfähigkeit von Internet-SuchmaschinenProf. Dr. Dirk Lewandowskidir...
GliederungWelche Suchmaschinen sind wichtig?Wie suchen Nutzer im Web?Wie kann man die Qualität von Suchmaschinen messen?Qu...
Bedeutung der Suchmaschinen •  Suchmaschinen sind der Zugang zu Informationen im Netz.     –  Andere Zugänge (Kataloge, us...
7 | Suchmaschinen-Indizes Suchmaschinen mit eigenem Index    –  Google, Yahoo, MSN (Live.com; Kumo?)    –  Ask    –  Exale...
Warum sind Alternativen notwendig? •  Qualität der Ergebnisse •  Vielfalt      –  „Zweite Meinung“ •  Trefferpräsentation ...
GliederungWelche Suchmaschinen sind wichtig?Wie suchen Nutzer im Web?Wie kann man die Qualität von Suchmaschinen messen?Qu...
Google groß13 |14 |               7
Shortcuts15 | Selektionsverhalten (Top11 Treffer)                                       (Granka et al. 2004)16 |          ...
Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen...
Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen...
Taxonomie der digitalen Online-Information                                              (Stock 2003)21 | Country Bias22 | ...
Überschneidung der Datenbestände •  Überschneidung der Indices     –  Relativ gering, daher lohnt sich die Suche in mehrer...
Aktualität der Datenbestände25 | Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die ...
Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert)       –  Nutzer möchte sich zu...
Precision ist das am häufigsten verwendete Retrievalmaß. Klassische Retrievalmaße •  Precision     –  Anteil der relevante...
Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher.                                                  ...
Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste                                 4,5Suchmaschinen                 ...
Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen...
Neonazis informieren über schwarzen Bürgerrechtler37 | Grundlegende Suchfunktionen •  Boolesche Operatoren     –  Yahoo, M...
Suche über Felder in der erweiterten Suche oder über Befehle •  Titel:      –  title: •  Dateityp:      –  filetype: •  UR...
Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)41 | Weitere Suchmöglichkeiten •  Ähnliche Seiten •  Cache C...
Benutzerführung: Einschränkung der Suchergebnisse•  Clustering     –  www.clusty.com (Datenbasis: Metasuche)•  Visualisier...
Suche jenseits von Google und Co.45 |   Vielen Dank für Ihre   Aufmerksamkeit.   www.bui.haw-hamburg.de/lewandowski.html  ...
Upcoming SlideShare
Loading in...5
×

Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen

210

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
210
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Internet-Suchmaschinen"

  1. 1. Vergleichende Betrachtung der Funktionalitätund Leistungsfähigkeit von Internet-SuchmaschinenProf. Dr. Dirk Lewandowskidirk.lewandowski@haw-hamburg.deProgramm heute•  14.00 - 15.30 Uhr: Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich (Vortrag) –  Vergleich der Leistungsfähigkeit (Qualität) der bekannten Suchmaschinen –  kurze Pause –  Überblick Recherchemöglichkeiten•  16.00 - 17.30 Uhr: Gruppenweise Durchführung von Recherchen –  Recherchieren in der Gruppe –  Vorstellung der Recherchen im Plenum –  Was Sie schon immer über Suchmaschinen wissen wollten... 1
  2. 2. GliederungWelche Suchmaschinen sind wichtig?Wie suchen Nutzer im Web?Wie kann man die Qualität von Suchmaschinen messen?Qualität des IndexQualität der TrefferRecherchemöglichkeitenGliederungWelche Suchmaschinen sind wichtig?Wie suchen Nutzer im Web?Wie kann man die Qualität von Suchmaschinen messen?Qualität des IndexQualität der TrefferRecherchemöglichkeiten 2
  3. 3. Bedeutung der Suchmaschinen •  Suchmaschinen sind der Zugang zu Informationen im Netz. –  Andere Zugänge (Kataloge, usw.) haben kaum noch Bedeutung. –  Suchmaschinen bestimmen über die sichtbaren Inhalte des Web. –  Suchmaschinen bestimmen das Nutzerverhalten (auch für andere Informationssysteme).5 | Suchmaschinenmarkt (D)6 | 3
  4. 4. 7 | Suchmaschinen-Indizes Suchmaschinen mit eigenem Index –  Google, Yahoo, MSN (Live.com; Kumo?) –  Ask –  Exalead –  Cuil Ohne eigenen Index –  Alle Portale: T-Online, Web.de, AOL, ... –  „Klassiker“: Altavista, All the Web, ... –  „Neue Suchmaschinen“: Wikia Search8 | 4
  5. 5. Warum sind Alternativen notwendig? •  Qualität der Ergebnisse •  Vielfalt –  „Zweite Meinung“ •  Trefferpräsentation •  Nutzerbindung –  Verknüpfung von Nutzungsdaten mit Nutzerprofilen •  Innovation9 | Alternativen •  Andere Universalsuchmaschinen •  Spezielle Kollektionen •  Spezialsuchmaschinen •  Kommerzielle Datenbanken •  Freie Datenbanken im Invisible Web 5
  6. 6. GliederungWelche Suchmaschinen sind wichtig?Wie suchen Nutzer im Web?Wie kann man die Qualität von Suchmaschinen messen?Qualität des IndexQualität der TrefferRecherchemöglichkeiten„Die meisten Nutzer sind nicht willens, bei der Formulierung ihresSuchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“ (Machill et al. 2003)•  Suchanfragen –  Durchschnittliche Länge: 1,7 Wörter –  Ca. 50% Einwort-Anfragen•  Ergebnisseiten –  80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. –  Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). –  Pro Session werden bis etwa fünf Dokumente angesehen. –  Sessions dauern i.d.R. weniger als 15 Minuten.•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google. 6
  7. 7. Google groß13 |14 | 7
  8. 8. Shortcuts15 | Selektionsverhalten (Top11 Treffer) (Granka et al. 2004)16 | 8
  9. 9. Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Die Qualität von Suchmaschinen kann nur durch eine Kombination unterschiedlicher Faktoren gemessen werden. Qualitätsfaktoren für Suchmaschinen •  Qualität des Index –  Größe des Datenbestands, Abdeckung des Web –  Abdeckung bestimmter Bereiche (Sprachräume, Länder) –  Überschneidungen der Indices –  Aktualität des Datenbestands •  Qualität der Suchresultate –  Retrievaleffektivität –  Zufriedenheit der Nutzer –  Überschneidungen der (Top-)Ergebnisse •  Qualität der Suchfunktionen •  Nutzerfreundlichkeit + Benutzerführung (Lewandowski & Höchstötter 2007)18 | 9
  10. 10. Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Web-Abdeckung Keine Suchmaschine deckt das gesamte Web ab! –  Aber: keine genauen Zahlen; aktuelle Untersuchungen fehlen. –  Größe des Web ist unbekannt; die großen Suchmaschinen haben einige Milliarden Dokumente indexiert. –  Wenig erforschter Bereich: Invisible Web. Definitionen Invisible/Deep Web –  “Text pages, files, or other often high-quality authoritative information available via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001). –  “The deep Web - those pages do not exist until they are created dynamically as the result of a specific search“ (Bergman 2001).20 | 10
  11. 11. Taxonomie der digitalen Online-Information (Stock 2003)21 | Country Bias22 | 11
  12. 12. Überschneidung der Datenbestände •  Überschneidung der Indices –  Relativ gering, daher lohnt sich die Suche in mehreren Suchmaschinen. •  Überschneidung der Suchergebnisse –  Sehr gering innerhalb der Top10, 20.23 | Auch aktuelle Seiten werden nicht zuverlässig regelmäßig indexiert.24 | 12
  13. 13. Aktualität der Datenbestände25 | Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten 13
  14. 14. Drei Anfragetypen Anfragetypen nach Broder (2002) •  Informational (informationsorientiert) –  Nutzer möchte sich zu einem Thema informieren. –  Ziel sind mehrere Dokumente. •  Navigational (navigationsorientiert) –  Ziel ist es, eine bestimmte Seite (wieder) zu finden. –  Typisch: Suche nach Homepage („Daimler Chrysler“). –  Ziel ist i.d.R. ein Dokument. •  Transactional (transaktionsorientiert) –  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden soll. –  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.27 | Retrievaleffektivität: Navigationsorientierte Anfragen28 | 14
  15. 15. Precision ist das am häufigsten verwendete Retrievalmaß. Klassische Retrievalmaße •  Precision –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit der ausgegebenen Treffer. –  Wird bei Suchmaschinen i.d.R. bis zu einem Cut-Off-Wert bestimmt (z.B. 20). •  Recall –  Anteil der relevanten ausgegebenen Treffer an der Gesamtheit aller überhaupt vorhandenen Treffer (= aller im Web vorhandener relevanter Dokumente). –  Bei Suchmaschinen nicht messbar (Ausweg evtl. über Pooling-Methoden). •  Fallout –  Anteil der ausgegebenen nicht relevanten Treffer an der Gesamtzahl der nicht relevanten Treffer im Datenbestand. •  Generality –  Anteil der relevanten Dokumente im zugrunde liegenden Datenbestand.29 | Top 10 Precision 1,00 0,90 0,80 0,70 0,60 Google Precision Yahoo 0,50 Live Metager 0,40 Cuil 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49 Yahoo 0,54 0,57 0,53 0,53 0,51 0,52 0,50 0,50 0,49 0,48 Live 0,48 0,48 0,49 0,45 0,46 0,45 0,43 0,43 0,42 0,41 Metager 0,30 0,29 0,25 0,23 0,20 0,19 0,18 0,18 0,17 0,16 Cuil 0,15 0,18 0,17 0,15 0,16 0,16 0,16 0,15 0,15 0,16 Number of results30 | 15
  16. 16. Skalenbewertung zeigt die Gruppierung der Suchmaschinen noch deutlicher. Vergleich der Precision nach Listenplatz (Top20; Skala) 3,00 2,50 Durchschnittliche Precision 2,00 Google Yahoo 1,50 MSN Ask Seekport 1,00 0,50 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32 Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42 MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99 Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12 Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97 Trefferplatz31 | Veränderungen 2008-2008 (Beispiel) 1,00 0,90 0,80 0,70 0,60 Precision Google 0,50 Google2007 0,40 0,30 0,20 0,10 0,00 1 2 3 4 5 6 7 8 9 10 Google 0,60 0,58 0,59 0,57 0,55 0,53 0,51 0,52 0,50 0,49 Google2007 0,75 0,71 0,71 0,67 0,64 0,62 0,59 0,58 0,55 0,55 Number of results32 | 16
  17. 17. Suchmaschinen, Social Bookmarking, Frage-Antwort-Dienste 4,5Suchmaschinen 4 3,5 3 Precision 2,5F&A-Diente 2 1,5Social Bookmarking 1 0,5 0 1 2 3 4 5 6 7 8 9 10 google 3,843 3,725 3,647 3,510 3,459 3,271 3,148 3,142 3,068 2,992 yahoo 3,039 2,941 2,850 2,897 2,804 2,797 2,753 2,730 2,653 2,608 MSN 2,765 2,784 2,889 2,814 2,627 2,542 2,462 2,365 2,292 2,216 Mr. Wong 1,765 1,922 1,904 1,956 1,867 1,846 1,792 1,755 1,785 1,680 del.icio.us 1,647 1,706 1,837 1,672 1,668 1,723 1,785 1,749 1,733 1,667 Yahoo! Clever 2,294 2,212 2,279 Lycos IQ 2,725 2,546 2,455 Trefferanzahl (Gammer et al. 2008) 33 | Offene Frage: Wie können Retrievalmaße dem spezifischen Verhalten der Suchmaschinen-Nutzer angepasst werden? Problembereiche •  Such-Sessions –  Nur Treffer auf der ersten Ergebnisseite (bzw. auf dem direkt sichtbaren Bildschirmbereich) werden angesehen. –  In der Regel werden maximal fünf Dokumente angesehen. –  Recherche wird oft abgebrochen, sobald ein passendes Dokument gefunden wurde.  Wie können die Maße dem Bedürfnis nach nur einem/wenigen relevanten Treffern angepasst werden? •  Zusammensetzung der Trefferlisten –  Abbildung mehrerer Facetten eines Themas auf den vorderen Plätzen der Trefferlisten.  Wie kann in der Evaluierung auf Facetten eingegangen werden? •  Interaktion –  Allgemeines IR-Evaluationsproblem: Recherche ist immer als interaktiver Prozess anzusehen.  Wie können die Maße an den tatsächlichen Suchprozess angepasst werden? 34 | 17
  18. 18. Gliederung Welche Suchmaschinen sind wichtig? Wie suchen Nutzer im Web? Wie kann man die Qualität von Suchmaschinen messen? Qualität des Index Qualität der Treffer Recherchemöglichkeiten Katholisch? Evangelisch? Ja, was denn nun?36 | 18
  19. 19. Neonazis informieren über schwarzen Bürgerrechtler37 | Grundlegende Suchfunktionen •  Boolesche Operatoren –  Yahoo, MSN, Ask: vollständige Unterstützung. –  Google: keine vollständige Unterstützung, OR arbeitet unzuverlässig, Klammerung funktioniert nicht. •  Phrasensuche –  funktioniert bei allen •  Abstandsoperatoren –  nur bei Exalead 19
  20. 20. Suche über Felder in der erweiterten Suche oder über Befehle •  Titel: –  title: •  Dateityp: –  filetype: •  URL: –  inurl: •  bestimmter Server: –  site: •  Land (über Top-Level-Domain) –  site: •  Verlinkung: –  link: •  Sprache •  Datum Funktionsfähigkeit der Datumsbeschränkung40 | Quelle: Lewandowski 2004 20
  21. 21. Funktionstüchtigkeit der Sprachbeschränkung (deutsch-englisch)41 | Weitere Suchmöglichkeiten •  Ähnliche Seiten •  Cache Copies –  Google, Yahoo, MSN –  bei Ask teilweise •  Alte Versionen von Websites –  Wayback Machine: www.archive.org 21
  22. 22. Benutzerführung: Einschränkung der Suchergebnisse•  Clustering –  www.clusty.com (Datenbasis: Metasuche)•  Visualisierung von Suchergebnissen –  www.kartoo.com (Datenbasis: Metasuche)•  Vorschläge für Suchanfragen –  www.yahoo.de –  www.ask.de –  Google (am Ende der ersten Ergebnisseite)•  Vorschläge während der Eingabe –  Yahoo –  Google.com –  Cuil (inkl, Website-Vorschlägen)•  Bewertung von Suchergebnissen –  Wikia Search –  Google Search Wiki (in Google.com)Dokumentkollektionen 22
  23. 23. Suche jenseits von Google und Co.45 | Vielen Dank für Ihre Aufmerksamkeit. www.bui.haw-hamburg.de/lewandowski.html Aktuelle Bücher: Handbuch Internet-Suchmaschinen Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen E-Mail: dirk.lewandowski@haw-hamburg.de 23

×