Your SlideShare is downloading. ×
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven

88
views

Published on

Published in: Internet

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
88
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Internet-Suchmaschinen Aktueller Stand und Entwicklungsperspektiven Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg
  • 2. Prof. Dr. Dirk Lewandowski •  Professor für Information Research & Information Retrieval an der Hochschule für Angewandte Wissenschaften Hamburg •  Forschung vor allem zur Qualität von Suchmaschinen, Nutzerverhalten, Query Understanding, gesellschaftliche Aspekte der Web-Suche
  • 3. Inhalt 1.  Der Suchmaschinenmarkt: Wo stehen wir heute? 2.  Aktuelle Entwicklungen –  Semantische Suche –  Soziale Suche –  Suchneutralität 3.  Zusammenfassung: Warum ist das wichtig?
  • 4. Der Suchmaschinenmarkt: Wo stehen wir heute?
  • 5. XXXX http://web.archive.org/web/19961023234631/http://altavista.digital.com/
  • 6. Suchmaschinen
  • 7. 7 | Dirk Lewandowski •  x
  • 8. E-Commerce
  • 9. Site-intern und andere Datenbestände
  • 10. Service
  • 11. Masse • In Deutschland in einem Monat 5,6 Milliarden Suchanfragen („Kern-Suche“). • Pro Tag: >180 Millionen • Pro Stunde: 7,5 Millionen • Pro Minute: 125.448 • Pro Sekunde: 2.091 11 |
  • 12. Der Suchmaschinenmarkt: Wo stehen wir heute? •  Suchmaschinen sind der Zugang zum Wissen im Web •  (Quasi-)Monopol in der Web-Suche, Vielfalt in anderen Bereichen •  Suche bleibt ein weitgehend unterschätzter Bereich
  • 13. Aktuelle Entwicklungen (1): Semantische Suche
  • 14. Semantik? •  „Semantic Web“ –  Idee, dass durch semantische Auszeichnungen alle Inhalte des Web miteinander verbunden werden und von Maschinen verstanden werden können. –  Alternative Ansätze: Linked Open Data, ... •  „Low Level Semantics“ –  Faktenextraktion aus „chaotischen“ Dokumenten –  Einfache Auszeichnungen durch Website-Betreiber (Eigeninteresse bedienen) •  Verstehen der Dokumente vs. Verstehen der Suchanfragen
  • 15. Semantische Suche: Dokumente verstehen
  • 16. Semantische Annotation von Dokumenten •  Semantische Annotationen können in der Suche ausgenutzt werden, um •  die Ergebnisqualität zu verbessern •  die Trefferdarstellung („Snippets“) zu verbessern •  Das Problem von „echten“ Semantic-Web-Anwendungen ist die Komplexität in der Erstellung. •  Im letzten Jahr haben sich die großen Suchmaschinen auf ein gemeinsames Format für semantische Annotationen geeignet, das in HTML umgesetzt wird.
  • 17. 17 | Dirk Lewandowski •  x
  • 18. Beispiel Google Knowledge Graph
  • 19. Semantische Suche: Suchanfragen verstehen
  • 20. Suchanfragen verstehen •  bbl •  vatikan •  stockbrot •  motonetix •  nedcom •  fußball •  drehscheibe •  frauentausch •  seelenfarben •  kachelmannwetter •  osterei •  wie ich •  wgt
  • 21. Suchanfragen im Kontext
  • 22. Beispiel: Navigationsorientierte Suchanfragen anhand von Klicks bestimmen (Lewandowski, Drechsler & von Mach, im Druck)
  • 23. Semantische Suche •  Verbesserung der Qualität der Suchergebnisse durch –  Verstehen der Suchanfrage –  Kontextsensitive Vorschläge zur Verbesserung der Suchanfrage –  Verstehen der Dokumente, dadurch besserer Abgleich mit der Suchanfrage –  Semantische Anreicherung der Ergebnisbeschreibungen („Snippets“), dadurch besser fundierte Entscheidung der Nutzer? –  Präsentation von aus Dokumenten zusammengestellten Ergebnissen (auf den Seiten der Suchmaschine)
  • 24. Aktuelle Entwicklungen (2): Soziale Suche
  • 25. Gruppen von Rankingfaktoren •  Textstatistik –  „Wie gut passen Anfrage und Dokument zusammen?“ –  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ... •  Popularität –  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses Dokument treffen würde?“ –  Linkpopularität (linktopologisches Modell), Klickpopularität (Nutzungsmodell). •  Aktualität –  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ –  Datumsangaben, Linkstruktur, ... •  Lokalität –  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ –  Länderinterfaces
  • 26. Soziale Suche •  Problem des bisherigen Rankings: Qualität wird vor allem durch Popularität (Links/ Klicks) gemessen •  Populär bei der Masse •  Populär in einer bestimmten Nutzergruppe •  Populär bei einem bestimmten Nutzer (Personalisierung) •  Das Versprechen des „Social Ranking“: •  Von Bekannten empfohlene Suchergebnisse sind relevanter und vertrauenswürdiger. •  Problem: Im Gegensatz zu Linkdaten aus dem freien Web handelt es sich bei Sozialen Netzwerken um geschlossene Netzwerke, auf die die Suchmaschinen nicht per Crawling zugreifen können.
  • 27. Bing und Facebook •  Vereinbarung über die Nutzung von Facebook-Daten in Bing –  Anmeldung in Bing mit dem Facebook-Account –  Bislang nur in den USA verfügbar –  Bing-Websuche in Facebook integriert •  Anreicherung der Suchergebnisse durch Daten aus Facebook –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen –  Möglichkeit, Suchergebnisse in Facebook zu posten –  Diskussion mit Facebook-Freunden auf den Bing-Ergebnisseiten
  • 28. 29 | Dirk Lewandowski •  x
  • 29. Google und Google+ •  Aufbau eines eigenen sozialen Netzwerks durch Google –  Integration in alle Google-Dienste –  Bislang allerdings nicht besonders erfolgreich •  Anreicherung der Suchergebnisse –  Hervorhebung von Suchergebnisse durch Empfehlungen von Freunden –  Höheres Ranking von empfohlenen Ergebnissen •  Weiterer Nutzen von Google+ –  „Klarnamen-Pflicht“ –  Kombination mit anderen Profilen im Web (Twitter, etc.) –  Verbindung mit Daten zur Autorschaft (rel=author) à Dadurch „Vertrauens-Graph“ als weitere Komponente des Rankings
  • 30. Fazit Soziale Suche •  Soziale Suche vielschichtig (kollaborative Suche, ...), wichtigster Punkt ist aber das Einbeziehen von Daten aus sozialen Netzwerken in das Ranking und die Ergebnispräsentation. •  Beide großen Suchmaschinen haben Ansätze, solche Daten zu integrieren. –  Vorteil Bing: Daten aus dem Netzwerk, in dem tatsächlich etwas los ist. –  Vorteil Google: Tiefere Integration möglich, da es sich um ein eigenes Netzwerk handelt.
  • 31. Aktuelle Entwicklungen (3): Suchneutralität
  • 32. 33 | •  x
  • 33. 34 | •  x Anzeigen Nachrichten Bilder Videos Blogbeiträge
  • 34. Zusammenstellung der Suchergebnisse •  Das Suchanfragevolumen ist sehr ungleichmäßig verteilt. •  Treffer auf den vorderen Plätzen werden sehr stark bevorzugt. •  Durch entsteht ein großer Einfluss von Suchmaschinen (Google) auf das, was Nutzer zu sehen bekommen. 1.  Dürfen die Suchmaschinen ihre eigenen Angebote / die Angebote von Partnern in der Ergebnisdarstellung bevorzugen? 2.  Tun sie das? •  „Such-Neutralität“ bedeutet, dass eine Suchmaschine alle Dokumente im Index nach gleichen Kriterien in das Ranking mit einbezieht.
  • 35. 36 | Dirk Lewandowski •  x
  • 36. 37 | Dirk Lewandowski •  x
  • 37. 38 | Dirk Lewandowski •  x
  • 38. Aus welchen Quellen kommen die top10 organischen Ergebnisse? Beispiel Google (2008)
  • 39. Problemfelder •  Bevorzugung eigener Angebote –  In den organischen Ergebnissen –  In den Universal-Search-Ergebnissen •  Aufnahme in den Index –  Bsp. Paid Inclusion bei Google Shopping: Eintragungen werden kostenpflichtig –  Folgen weitere Dienste (Places, ...)? à Kennzeichnung als eigenes Angebot bzw. Partnerangebot als Lösung?
  • 40. Zusammenfassung: Warum ist das wichtig?
  • 41. Um wen geht‘s? 1.  Anbieter von Inhalten 2.  Anbieter von Suchsystemen 3.  Rechercheure
  • 42. Konsequenzen für Anbieter von Inhalten •  Es wird zunehmend schwieriger, sich auf den Suchergebnisseiten zu platzieren. –  Mehr Konkurrenz –  Schnellere Orientierung der Nutzer auf den Ergebnisseiten; mehr verschiedenartige Inhalte. –  Aktuelle Möglichkeiten der semantischen Auszeichnung nutzen •  Die (langsame) Wende von Dokumenten zu Fakten bzw. Informationszusammenstellungen erfordert ein Umdenken hinsichtlich der Sichtbarkeit in Suchmaschinen bzw. deren Traffic-Vermittlung.
  • 43. 44 | Dirk •  x (Eyetracking-Studie HAW-Hamburg 2010)
  • 44. 45 | Dirk •  x
  • 45. 46 | Dirk •  x
  • 46. Konsequenzen für Anbieter von Suchsystemen •  Das in den Web-Suchmaschinen erlernte Suchverhalten wird auf andere Systeme übertragen –  Navigationsorientierte Anfragen beantworten –  Suchvorschläge während der Eingabe –  Zusammenstellung der Suchergebnisseiten –  Möglichkeiten zur Kollaboration (soziale Netzwerke) geben
  • 47. Konsequenzen für Rechercheure •  Suchmaschinen sind weniger denn je neutrale Informationsvermittler –  Eigeninteressen der Suchmaschinen beachten –  Gezielte Auswahl der passenden Informationsquellen •  „Gegensteuern“ gegen den „Popularitätsbias“ der Suchmaschinen –  Personalisierung bzw. Suchanfrageinterpretation ausschalten; Bsp. Google –  Populäre Websites aus der Suche ausschließen; Bsp. Millionshort
  • 48. Vielen Dank für Ihre Aufmerksamkeit Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg,de Twitter: Dirk_Lew http://www.bui.haw-hamburg.de/ lewandowski.html