Your SlideShare is downloading. ×
  • Like
Gbv09 Keynote Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben - Paradigmenwechsel in der (Web)Suche
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Gbv09 Keynote Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben - Paradigmenwechsel in der (Web)Suche

  • 2,158 views
Published

Keynote zur 13. Verbundkonferenz des GBV am 09.09.2009 in Hamburg

Keynote zur 13. Verbundkonferenz des GBV am 09.09.2009 in Hamburg

Published in Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,158
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
21
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. „Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben“ Paradigmenwechsel in der (Web)Suche Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam 13. Verbundkonferenz des GBV Hamburg, 09. September 2009
  • 2. Dr. Harald Sack 2 ■ Promotion Uni Trier, 2002: formale Verifikation ■ 2002-2008: PostDoc FSU Jena ■ 2007-2009: Gastwissenschaftler am HPI ■ 2009- : Senior Researcher am HPI ■ Forschungsschwerpunkte: □ Semantic Web Technologien □ Multimedia Retrieval ■ Videosuchmaschine yovisto.com ■ Projekt MEDIAGLOBE/THESEUS 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 3. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 3 •Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten • Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval • Explorative Suche in Audiovisuellen Daten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 4. Das Dilemma der Schlüsselwort-basierten Suche Das „Google-Paradigma“ 4 Das „Google Paradigma“ • Eingabe einer Suchphrase • Boolesche Verknüpfung einzelner Suchbegriffe • Volltextsuche • Normalisierung (Stemming) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 5. Das Dilemma der Schlüsselwort-basierten Suche Das „Google Paradigma“ 5 Das „Google Paradigma“ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 6. Das Dilemma der Schlüsselwort-basierten Suche Das „Google Paradigma“ 5 Das „Google Paradigma“ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 7. Das Dilemma der Schlüsselwort-basierten Suche Das „Google Paradigma“ 6 Das „Google Paradigma“ • Erzeugung einer linearen (nach Relevanz gewichteten) Ergebnisliste • TFIDF / PageRank • Personalisierung (Logdatenanalyse) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 8. Das Dilemma der Schlüsselwort-basierten Suche Das „Google Paradigma“ 6 Das „Google Paradigma“ • Erzeugung einer linearen (nach Relevanz gewichteten) Ergebnisliste • TFIDF / PageRank • Personalisierung (Logdatenanalyse) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 9. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 7 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten • Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval • Explorative Suche in Audiovisuellen Daten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 10. Das Dilemma der Schlüsselwort-basierten Suche klassisches Information Retrieval 8 similarity information Anfrage- Indexierung files of records requests formulierung Menge von Anfragen Indexierungs- Menge von Dokumenten sprache “Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.” (nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 11. Das Dilemma der Schlüsselwort-basierten Suche klassisches Information Retrieval 9 Information Retrieval Modelle Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004. 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 12. Das Dilemma der Schlüsselwort-basierten Suche klassisches Information Retrieval 10 Information Retrieval Modelle • Boolean Retrieval • Vector Space Model A B • Probabilistic Model C (A ∧ ¬B) ∧ C • verwendet Aussagenlogik als Retrievalsprache • erlaubt Selektion und Verknüpfung beliebiger Dokumentenmengen aus einer einer Dokumentenkollektion • mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung • keine differenzierte Termgewichtung möglich • keine Rangreihenfolge der Ergebnisse (Ranking) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 13. Das Dilemma der Schlüsselwort-basierten Suche klassisches Information Retrieval 11 Information Retrieval Modelle Bsp.: n = 3 • Boolean Retrieval Deskriptor2 Dokument = (2,4,2) Suchabfrage = (1,0,0) • Vector Space Model 4 • Probabilistic Model Dokument • Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert • Zum Retrieval wird die Distanz zwischen Suchanfrage ρ Suchanfrage- und Dokumentenvektor verwendet • Relevanzbewertung (Ranking) erfolgt nach 2 Deskriptor1 der ermittelten Distanz 2 • Differenzierte Termgewichtung möglich • lineare Termanordnung im Dokument geht Deskriptor3 verloren • mangelnde semantische Sensitivität (Vokabularabhängigkeit) G. Salton, A. Wong, C. S. Yang: "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pp. 613–620, 1975. 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 14. Das Dilemma der Schlüsselwort-basierten Suche klassisches Information Retrieval 12 Evaluation von Information Retrieval Systemen relevante Dokumente, die gefunden wurden |R∩P| Recall= |R| R P |R∩P| Precision= |P| relevante Dokumente gefundene Dokumente 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 15. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 13 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten • Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval • Explorative Suche in Audiovisuellen Daten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 16. Das Dilemma der Schlüsselwort-basierten Suche Suchmaschinen im WWW 14 • World Wide Web ist ein verteiltes Hypermediasystem • multimediale Dokumente • über Hyperlinks miteinander vernetzt • WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben • Erstellung und Pflege eines Indexes (Web Crawler + Indexing) • Verarbeitung von Suchabfragen (Retrieval + Ranking) • Aufbereitung der Ergebnisse (Visualisierung) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 17. Das Dilemma der Schlüsselwort-basierten Suche Suchmaschinen im WWW 15 Das WWW ist „ziemlich groß“ •ca. 25 x 109 in Suchmaschinen indizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005) •Web Crawler: > 1012 Dokumente (The Official Google Blog: We knew the Web was Big....., Juli 25, 2008) •DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001) Probleme: • Aktualität des Suchmaschinenindex • syntaktische / semantische Inkonsistenzen im Suchmaschinenindex • Skalierbarkeit der Suchmaschinenanwendung • kann man der Information auch trauen...? 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 18. Das Dilemma der Schlüsselwort-basierten Suche Suchmaschinen im WWW 16 Problemfeld 1: Informationssuche • Keyword-Suche führt zu vielen nicht relevanten Ergebnissen • Bedeutungsunterschiede • Homonyme • unterschiedlicher Kontext • Keyword-Suche findet nicht alle relevanten Ergebnisse • Synonyme • fehlende Kontextpräzisierung Suchbegriff: „Golf“ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 19. Das Dilemma der Schlüsselwort-basierten Suche Suchmaschinen im WWW 16 Problemfeld 1: Informationssuche • Keyword-Suche führt zu vielen nicht relevanten Ergebnissen • Bedeutungsunterschiede • Homonyme • unterschiedlicher Kontext • Keyword-Suche findet nicht alle relevanten Ergebnisse • Synonyme • fehlende Kontextpräzisierung Suchbegriff: „Golf“ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 20. Das Dilemma der Schlüsselwort-basierten Suche Suchmaschinen im WWW 17 Problemfeld 2: Informationsextraktion bild.de • kann nur von menschlichem “Agenten“ korrekt durchgeführt und bewertet werden • heterogene Anordnung von Information • Software-Agent verfügt nicht über • Kontextwissen • Weltwissen um Informationen aus der Text-/ Bilddarstellung zu lösen • implizites Wissen, muss durch logische Schlussfolgerungen aus der Kombination vorhandener Informationen ermittelt werden 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 21. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 18 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten • Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval • Explorative Suche in Audiovisuellen Daten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 22. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 19 Wie findet man etwas in einem audiovisuellen Archiv? • Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen. 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 23. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 19 Wie findet man etwas in einem audiovisuellen Archiv? • Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen. Manuelle Analyse und Annotation 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 24. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 25. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 26. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 27. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig Marlene Dietrich © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 28. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig Marlene Dietrich ???? © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 29. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig ???? ???? Marlene Dietrich © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 30. Das Dilemma der Schlüsselwort-basierten Suche Suche in audiovisuellen Daten 20 Retrieval in Audiovisuellen (zeitabhängigen) Daten automatische inhaltliche Analyse ist • schwierig und • • berechnungs-/speicheraufwändig ???? ???? Marlene Dietrich { „...ich bin von Kopf bis Fuß...“ © Friedrich Wilhelm Murnau Stiftung, DFI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 31. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 21 yovisto.com • Videosuchmaschine mit dem Schwer- Punkt akademischer Lehrveranstaltungen • aktuell mehr als 5.000 Vorlesungen und wissenschaftliche Vorträge aus der ganzen Welt • automatische Segmentierung und Videoanalyse • benutzergenerierte Co-Annotation • Social Tagging • Diskussionen www.yovisto.com • Rezensionen • Wikis • Lernmaterialien • Zielgenauer Zugriff auf gesuchte Videoinhalte 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 32. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 22 Inhaltsbezogene Videoanalyse ■ Ergebnis: Videosegmente mit zugeordneten, zeitbezogenen Metadaten Zeit Metadaten Metadaten Metadaten Metadaten Metadaten Metadaten ■ Metadaten setzen sich zusammen aus kombinierten Low Level/ High Level Deskriptoren ■ Metadaten als Basis für traditionelles Information Retrieval 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 33. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 23 Automatische Metadatenextraktion 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 34. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 23 Automatische Metadatenextraktion ICR / OCR 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 35. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 23 Automatische Metadatenextraktion ICR / OCR ASR 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 36. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 23 Automatische Metadatenextraktion ICR / OCR Keyterm Spotting Dictionary ASR 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 37. Das Dilemma der Schlüsselwort-basierten Suche Yovisto.com - Akademische Videosuche 24 Benutzergenerierte Metadaten □ automatische Analyse nur begrenzt leistungsfähig □ mangelnde Genauigkeit / Vollständigkeit □ Benutzergenerierte Metadaten können qualitativ zuverlässiger sein □ autoritative Metadaten □ strukturierte Daten □ unstrukturierte (textuelle) Daten □ nicht-autoritative Metadaten □ Tags □ Kommentare □ Diskussionen □ Rezensionen □ Feedback 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 38. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 25 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten •Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval • Explorative Suche in Audiovisuellen Daten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 39. Semantische Suchtechnologien Semantik Web Technologien 26 Die ursprüngliche Vision des World Wide Web Tim Berners-Lee, Semantic Web Roadmap, Sept 1998 „The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help… “ Voraussetzung: • Inhalte können maschinell gelesen und korrekt interpretiert (= verstanden) werden Wie kann das funktionieren? 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 40. Semantische Suchtechnologien Semantik Web Technologien 27 Inhalte im Web maschinell „verstehen“ •um Inhalte im Web maschinell „verstehen“ zu können werden zwei unterschiedliche Ansätze verfolgt Natural Language Processing Semantic Web • Natürliche Sprache soll mit • (Natürlichsprachliche) Web- Techniken der Linguistik und Inhalte werden explizit mit Hilfe Statistik analysiert werden von semantischen Metadaten • Die Bedeutung (Semantik) soll annotiert implizit (oder auch explizit) • semantische Metadaten tragen daraus erschlossen werden die Bedeutung (Semantik) der • Techniken kommen im Web-Inhalte und lassen sich klassischen Information maschinell lesen und korrekt Retrieval (WWW-Such- interpretieren maschinen) zum Einsatz 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 41. Semantische Suchtechnologien Semantik Web Technologien 28 Inhalte im Web maschinell „verstehen“ Text: „Diego zu Bayern?“ Entitäten- zuweisung Diego Ribas da Cunha (Instanz) Klassen- ist ein zugehörigkeit Fußballspieler (Klasse) Subklasse ist eine ist eine • Die Bedeutung (Semantik) der Klassen Superklasse muss ebenfalls explizit definiert werden. • Bedeutung wird über geeignete Wissens- Person (Klasse) repräsentationen (Ontologien) kodiert 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 42. Semantische Suchtechnologien Semantik Web Technologien 29 Ontologien als Wissensrepräsentation verwenden gemeinsames Konzept Konzept ruft hervor referenziert Symbol Gegenstand steht für „Golf“ Ogden, Richards, semiotisches Dreieck, 1923 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 43. Semantische Suchtechnologien Semantik Web Technologien 30 Ontologien als Wissensrepräsentation „Philosophische Disziplin, die sich primär mit dem Sein, dem Seienden als solchem und mit den fundamentalen Typen von Entitäten beschäftigt…“ (wikipedia) "An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“ (Thomas R. Gruber, 1993) Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen) Explizit: Bedeutungen aller Begriffe definiert Formal: maschinenverstehbar Gemeinsam: Konsens bzgl. Ontologie 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 44. Semantische Suchtechnologien Semantik Web Technologien 31 Das Semantic Web - Datenzentrierte Verarbeitung •Die Bedeutung der Informationen (Semantik) wird durch standardisierte Wissensrepräsentationen (Ontologien) explizit formalisiert (strukturiert) • Damit wird es möglich, •die Bedeutung der Informationen maschinell zu verarbeiten •unterschiedliche (heterogene) Daten miteinander in Beziehung zu setzen •implizite (nicht offensichtliche) Information aus der vorhandenen (offensichtlichen) Information automatisch zu folgern Das Semantic Web ist eine Art globaler Datenbank, die ein universales Netz semantischer Aussagen bereit hält 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 45. Semantische Suchtechnologien Semantik Web Technologien 32 Das Semantic Web - Architektur Interface & Application Trust Proof Unifying Logic Query: Ontology: OWL Rule: RIF Crypto SPARQL RDFS Data Interchange: RDF XML / XSD URI / IRI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 46. Semantische Suchtechnologien Semantik Web Technologien 32 Das Semantic Web - Architektur Interface & Application Trust Current Research Proof Unifying Logic Query: Ontology: OWL Rule: RIF Crypto SPARQL RDFS Data Interchange: RDF XML / XSD URI / IRI 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 47. Semantische Suchtechnologien Semantik Web Technologien 33 Linked Data - Datenzentrierte Verarbeitung •Ziel des Semantic Web: ...to create a ,Web of Data‘ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 48. Semantische Suchtechnologien Semantik Web Technologien 33 Linked Data - Datenzentrierte Verarbeitung •Ziel des Semantic Web: ...to create a ,Web of Data‘ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 49. Wie Sie schon immer finden wollten, was Sie noch nie gesucht haben 34 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten • yovisto.com - Akademische Videosuche • Semantische Suchtechnologien • Semantic Web Technologie • Semantisch unterstütztes Information Retrieval 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 50. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 35 Semantisch unterstütztes Information Retrieval • Semantische Annotationen ermöglichen eine Verbesserung der traditionellen Schlüsselwort-basierten Suche durch • Erweiterung / Präzisierung der Suchergebnisse • Herleitung von impliziten Informationen • Herstellung von Querverweisen • Nutzung von semantischen Beziehungen zur • Visualisierung und • Navigation durch den Suchraum (Explorative Suche) 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 51. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 36 Erweiterung der Suchergebnisse • Keyword-basierte Suche liefert nicht alle inhaltlich relevanten Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben. • Erweiterung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Synonyme, Ober- und Unterbegriffe • Nutzung von Domain Ontologien • Meronyme, Holonyme, Assoziationen 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 52. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 36 Erweiterung der Suchergebnisse • Keyword-basierte Suche liefert nicht alle inhaltlich relevanten Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben. • Erweiterung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Synonyme, Ober- und Unterbegriffe • Nutzung von Domain Ontologien • Meronyme, Holonyme, Assoziationen Suchphrase: Bank Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ... 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 53. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 37 Präzisierung der Suchergebnisse • Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden. • Verfeinerung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren • Nutzung von Domain Ontologien • Meronyme, Holonyme 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 54. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 37 Präzisierung der Suchergebnisse • Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden. • Verfeinerung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren • Nutzung von Domain Ontologien • Meronyme, Holonyme Suchphrase: Bank Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 55. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 38 Herstellung von Querverweisen □ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff nicht notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen □ Nutzung von Domain Ontologien □ Nutzung von Thesauri und Kookurrenzanalysen repräsentativer Dokumentenkorpora Suchphrase: Hemingway ermittelter Oberbegriff zu Hemingway: amerikanischer Autor Ausweitung der Suche auf andere amerikanische Autoren dbpedia:AmericanNovelists rdf:type rdf:type Instanzerkennung Hemingway dbpedia:Ernest_Hemingway dbpedia:Edgar_Allen_Poe 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 56. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 39 Explorative Suche • Abkehr vom „Google Paradigma“ • Visualisierung von Querverbindungen zwischen • Suchbegriffen (Ontologieebene) • Suchergebnissen (Instanzebene) • Ermöglicht es dem Benutzer • Suchergebnisse „zufällig“ zu entdecken, die er eigentlich gar nicht gesucht hat (Serendipity) • einen besseren Überblick über den Suchraum / Ergebnisraum zu gewinnen 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 57. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 40 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung gleichartiger Entitäten dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 58. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 40 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung gleichartiger Entitäten dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . Finde weitere Ressourcen vom selben Typ, d.h. (1) finde weitere amerikanische Autoren (2) finde Ressourcen (z.B. Videos) mit weiteren amerikanischen Autoren 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 59. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 41 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung eines geeigneten ,Properties‘ dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound . dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist . 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 60. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 41 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung eines geeigneten ,Properties‘ dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound . dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist . 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 61. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 42 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung eines geeigneten ,Properties‘ dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound . dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist . 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 62. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 43 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung eines geeigneten ,Properties‘ dbpedia:Ernest_Hemingway foaf:name “Ernest Hemingway“ . dbpedia:Ernest_Hemingway rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:Ernest_Hemingway dbpedia:ontology/influences dbpedia:Ezra_Pound . dbpedia:Ezra_Pound rdfs:type dbpedia:class/yago/AmericanNovelist . ... dbpedia:J._D._Salinger dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:J._D._Salinger rdfs:type dbpedia:class/yago/AmericanNovelist . 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 63. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 44 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Ernest Hemingway‘ • Identifikation einer Entität dbpedia:Ernest_Hemingway • Bestimmung eines geeigneten „Properties“ • Nutzung des Properties zur Navigation/Visualisierung Ezra Pound Ernest Hemingway J.D. Salinger dbpedia:ontology/influences dbpedia:ontology/influences • Erweitere Suche mit asoziierten Entitäten 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam
  • 64. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 45 29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Proc. I-Semantics , Graz 2009. in Potsdam
  • 65. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 45 29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Proc. I-Semantics , Graz 2009. in Potsdam
  • 66. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval history 45 29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Proc. I-Semantics , Graz 2009. in Potsdam
  • 67. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval history 45 search term 29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Proc. I-Semantics , Graz 2009. in Potsdam
  • 68. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval history 45 search term related resources with properties 29 Waitelonis, Sack: Augmenting Video Search with Linked Open Data, 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Proc. I-Semantics , Graz 2009. in Potsdam
  • 69. Semantische Suchtechnologien Semantisch unterstütztes Information Retrieval 46 • Das Dilemma der Schlüsselwort-basierten Suche • klassisches Information Retrieval • Suchmaschinen im World Wide Web • Suche in Audiovisuellen Daten Vielen Dank für Ihre Aufmerksamkeit ! • yovisto.com - Akademische Videosuche Fragen....? • Semantische Suchtechnologien • Semantic Web Technologie Links: • semantantisch unterstütztes Information Retrieval • HPI Homepage: http://www.hpi.uni-potsdam.de/meinel/sack.html • Yovisto: www.yovisto.com • Blogs: http://moresemantic.blogspot.com/ http://yovisto.blogspot.com/ 13. Verbundkonferenz des GBV, Hamburg, 09.-10.09.2009, Dr. Harald Sack, HPI Potsdam