• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
14 Semantische Suche - Semantic Web Technologien WS2010/11
 

14 Semantische Suche - Semantic Web Technologien WS2010/11

on

  • 4,518 views

 

Statistics

Views

Total Views
4,518
Views on SlideShare
2,259
Embed Views
2,259

Actions

Likes
1
Downloads
70
Comments
0

7 Embeds 2,259

http://www.yovisto.com 1256
http://yovisto.de 981
http://yovisto.com 14
http://www.yovisto.de 5
http://paper.li 1
http://mediaglobe.yovisto.com 1
http://www.filmontology.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    14 Semantische Suche - Semantic Web Technologien WS2010/11 14 Semantische Suche - Semantic Web Technologien WS2010/11 Presentation Transcript

    • Semantic Web Technologien Vorlesung Dr. Harald SackHasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2010/11Blog zur Vorlesung: http://web-flakes.blogspot.com/Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig(Lizenzbestimmungen CC-BY-NC).
    • a & t b a e d c D W e i2 k t n n ns i a L m t i o S e ca l i pp A Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam In Search of the Philosopher’s Stone, 1771 Joseph Wright of Derby:The Alchymist,
    • Semantic Web Technologien3 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • Semantic Web Technologien Vorlesungsinhalt4 1. Einführung 2. Semantic Web Basisarchitektur Die Sprachen des Semantic Web - Teil 1 3. Wissensrepräsentation und Logik Die Sprachen des Semantic Web - Teil 2 4. Ontology Engineering 5. Linked Data und Semantic Web Anwendungen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5 t i c an S e m c h a r S eAlbrecht Dürer: Melancholia I, 1514 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • Semantic Web Technologien Vorlesungsinhalt6 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.2.Semantische Suche 5.2.1.Klassisches Information Retrieval und Multimedia Retrieval 5.2.2.Semantisch unterstütztes Information Retrieval 5.2.3.Explorative Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR7 Wie findet man etwas im WWW? Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR8 Das ,Google-Dilemma‘ begri ffe se h c hphra n er Suc einer Su g einzel gabe n üpfun • Ein e Verk • Bo olesch e xtsuch m ming) • Vollte n g (Ste a lisieru • Norm Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR9 Das ,Google-Dilemma‘ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR10 Das ,Google-Dilemma‘ z (nach Relevan r linearen g ung eine • Erzeu ge bnisliste eten) Er gewicht k F/P ageRan a nalyse) • TFID (L ogdaten l isierung • Persona Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR11 Klassisches Information Retrieval similarity information Anfrage- Indexierung files of records requests formulierung Menge von Anfragen Indexierungs- Menge von Dokumenten sprache “Information-Retrieval Systeme • verarbeiten Dateien mit Informationsressourcen und Informationsanfragen, • identifizieren und liefern aus diesen Dateien bestimmte Informationsressourcen als Antwort auf eine Informationsanfrage. • Das Finden (Retrieval) bestimmter Ressourcen hängt von der Ähnlichkeit der Ressourcen und den Anfragen ab, gemessen am Vergleich bestimmter Attributwerte.” (nach Salton,G., McGill, M.J.: Introduction to Modern Information Retrieval. McGraw-Hill, New York 1983) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR12 Klassisches Information Retrieval Information beruht auf Retrieval mit dem Ziel Analyse/Modellierung Bereitstellen der im Objektbereich von festgelegten Informationen Wissensobjekte durch Anwendung von durch Anwendung von Suchfunktionen Verfahren der und Wissensrekonstruktion Navigationsformen Informations- Retrieval aufbereitung Interne Wissens- Ergebnisse abgelegt als repräsentationen operieren über Allgemeines Modell des Information Retrieval nach [Kuhlen 1995] Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR13 Information Retrieval Modelle Dominik Kuropka: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, Advances in Information Systems and Management Science, Bd. 10, Logos Verlag, Berlin, 2004. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR14 Information Retrieval Modelle • Boolean Retrieval • Vector Space Model A B • Probabilistic Model C (A ∧ ¬B) ∧ C • verwendet Aussagenlogik als Retrievalsprache • erlaubt Selektion und Verknüpfung beliebiger Dokumentenmengen aus einer einer Dokumentenkollektion • mit Hilfe Boolescher Junktoren (Suchoperatoren) • einfache Implementierung • keine differenzierte Termgewichtung möglich • keine Rangreihenfolge der Ergebnisse (Ranking) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR15 Information Retrieval Modelle Bsp.: n = 3 • Boolean Retrieval Deskriptor2 Dokument = (2,4,2) Suchabfrage = (1,0,0) • Vector Space Model 4 • Probabilistic Model Dokument • Dokumente und Anfragen werden als Punkte in einem hochdimensionalen, metrischen Vektorraum repräsentiert • Zum Retrieval wird die Distanz zwischen ρ Suchanfrage Suchanfrage- und Dokumentenvektor verwendet • Relevanzbewertung (Ranking) erfolgt nach der 2 Deskriptor1 ermittelten Distanz 2 • Differenzierte Termgewichtung möglich • lineare Termanordnung im Dokument geht Deskriptor3 verloren • mangelnde semantische Sensitivität (Vokabularabhängigkeit) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR16 Information Retrieval Modelle • Boolean Retrieval • Vector Space Model • Probabilistic Model • Dokumente werden gemäß der Wahrscheinlichkeit ihrer Relevanz bzgl. der Anfrage gewichtet • IR-System schätzt die Wahrscheinlichkeit der Relevanz bzgl. einer Anfrage ab Robertson, S. E., Sparck Jones, K.: Relevance weighting of search terms. In Document Retrieval Systems, P. Willett, Ed. Taylor Graham Series In Foundations Of Information Science, vol. 3. Taylor Graham Publishing, London, UK, 143-160, 1988. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR17 Evaluation von Information Retrieval Systemen relevante Dokumente, die gefunden wurden |R∩P| Recall= |R| R P |R∩P| Precision= |P| relevante Dokumente gefundene Dokumente Text REtrieval Conference (TREC, seit 1992) veröffentlicht jährlich Challenges in unterschiedlichen Gebieten des Information Retrievals mit zugehörigen Testdaten Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR18 Suchmaschinen im WWW • World Wide Web ist ein verteiltes Hypermediasystem • multimediale Dokumente • über Hyperlinks miteinander vernetzt • WWW-Suchmaschinen sind Information Retrieval Systeme mit folgenden Aufgaben • Erstellung und Pflege eines Indexes (Web Crawler + Indexing) • Verarbeitung von Suchabfragen (Retrieval + Ranking) • Aufbereitung der Ergebnisse (Visualisierung) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR19 Web-Crawler (Web Robot) HTTP Request WWW-Server 2 4 http://www.xxxx.de/1234... http://www.xxxx.de/2234... http://www.xxxx.de/3234... http://www.xxxx.de/4234... <a href=“...“ .../> http://www.xxxx.de/5234... 1 http://www.xxxx.de/6234... http://www.xxxx.de/7234... <a href=“...“ .../> ... WWW-Server liefert angefragte HTML-Dokumente an den 3 Web-Crawler zurück HTML URL Liste Dokumente Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR20 Preprocessing und Indexierung Datennormalisierung Wortidentifikation Datenanalyse Sprachidentifikation und Anlegen der Index- Word Stemming Datenstrukturen POS-Tagging Deskriptorengenerierung Web Crawler Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR21 Effiziente Indexdatenstrukturen Ananas DocID Pos Frequenz Gewicht Aachen D123 1;13;77;132 4 9.4 Altavista D456 22;38 2 6.7 Ananas … … … … … D998 15 1 1.2 … Invertierte Datei Zustand Zypern Indexdatei Location List D123 Frequenz URL <H1> … <H6> <title> … text 4 1 1 0 1 … 1 D123 http://producers.ananas.org/index.htm <html> <head><title=“Ananas around the World“> </head> <body> … </body> </html> Direkte Datei Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR22 Relevanzbewertung (Ranking) • Ranking erfolgt nach Linkpopularität (Google PageRank) Ausgangssituation Iteration der PageRank Berechnung resultierender PageRank A B A B 1.0 Nr. PR(A) PR(B) PR(C) PR(D) 1.0 1.49 0,78 1 1,0 1,0 1,0 1,0 2 1,0 0,575 2,275 0,15 3 2,083 0,575 1,1912 0,15 1.0 … … … … … 1.0 1.57 0,15 n 1,49 0,7833 1,577 0,15 C D C D Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR23 Das WWW ist ,ziemlich groß` •ca. 25 x 109 in Suchmaschinen indizierte Dokumente (TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005) •Web Crawler: > 1012 Dokumente (The Official Google Blog: We knew the Web was Big....., Juli 25, 2008) •Google Search Index Caffeine umfasst ca.100 Million Gigabytes i.e. 1017 Byte (SMX Video: Google’s Matt Cutts On Caffeine Launch, June 9, 2010, http://searchengineland.com/smx-video-googles-matt-cutts-on-caffeine-launch-43933) •DeepWeb (Darkweb) schätzungsweise bis zu 550 mal größer als das Surface Web (Bergman, 2001) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR24 Multimedia, Real-Time Data, Sensor Data, .... in 06/2010: 7 TB/day in 05/2010: • 24 h of video upload / minute • 2 Milliarden streamed videos per day Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR25 Problemfeld 1: Informationssuche • Keyword-Suche führt zu vielen nicht relevanten Ergebnissen • Bedeutungsunterschiede • Homonyme • unterschiedlicher Kontext • Keyword-Suche findet nicht alle relevanten Ergebnisse • Synonyme • fehlende Kontextpräzisierung Suchbegriff: „Golf“ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.1 traditionelles IR26 Problemfeld 2: Informationsextraktion bild.de • kann nur von menschlichem “Agenten“ korrekt durchgeführt und bewertet werden • heterogene Anordnung von Information • Software-Agent verfügt nicht über • Kontextwissen • Weltwissen • um Informationen aus der Text-/Bilddarstellung zu lösen • implizites Wissen, muss durch logische Schlussfolgerungen aus der Kombination vorhandener Informationen ermittelt werden Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • Semantic Web Technologien Vorlesungsinhalt27 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.2.Semantische Suche 5.2.1.Klassisches Information Retrieval und Multimedia Retrieval 5.2.2.Semantisch unterstütztes Information Retrieval 5.2.3.Explorative Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR28 Inhalte im Web maschinell „verstehen“ Text: „Diego zu Bayern?“ Entitäten- zuweisung Diego Ribas da Cunha (Instanz) Klassen- ist ein zugehörigkeit Fußballspieler (Klasse) Subklasse ist eine • Die Bedeutung (Semantik) der Klassen ist eine Superklasse muss ebenfalls explizit definiert werden. • Bedeutung wird über geeignete Wissens- Person (Klasse) repräsentationen (Ontologien) kodiert Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR29 Inhalte im Web maschinell „verstehen“ Text: „Diego zu Bayern?“ Entity Mapping / Named Entity Recognition Diego Ribas da Cunha Wo finde ich die passende Entität ? ist ein Fußballspieler ist eine Person Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR30 Inhalte im Web maschinell „verstehen“ Text: „Diego zu Bayern?“ Entity Mapping / Named Entity Recognition Diego Ribas da Cunha ist ein Fußballspieler Wo finde ich die ist eine passende Ontologie ? Person Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR31 Linked Data http://dbpedia.org/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR32 Entity Mapping Text: „Diego zu Bayern?“ Entity Mapping Diego Ribas da Cunha rdfs:label Diego Ribas da Cunha ist ein Fußballspieler rdf:type dbpedia-owl:SoccerPlayer ist eine Person rdf:type dbpedia-owl:Person Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR33 Entity Mapping Text: „Diego zu Bayern?“ Entity Mapping Diego Ribas da Cunha http://dbpedia.org/resource/Diego_Ribas_da_Cunha Aber wie finde ich die passende Entität ? Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find e ich die34 Entity Mapping passende Enti tät ? Text: „Diego zu Bayern?“ Determine possible Entity Mapping Candidates Diego Giacometti Diego Hypolito Diego Kolumbus (Vizekönig) Diego Baldenweg Diego Ribas da Cunha Diego Morais Parcheco Diego Carlone Diego Hostettler Diego Kolumbus (Seefahrer) San Diego Diego Galeri USS San Diego Diego Alberto Milito Diego Maradonna Diego Barreto Diego von Österreich San Diego Mariners + 200 mehr... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find e ich die35 Entity Mapping passende Enti tät ? Text: „Diego zu Bayern?“ Determine possible Entity Mapping Candidates We have to examine the Context... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find e ich die36 Entity Mapping passende Enti tät ? Der Kontext (lat. contextus = verflochten) wird durch das Umfeld eines Wortes (Begriffes) bzw. dessen Zusammenhang mit umgebenden Worten (Begriffen) gebildet. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find e ich die37 Entity Mapping passende Enti tät ? Context Analysis Extract Text Data Diego zu Bayern? Ich will nicht den gleichen Fehler wie Klose machen! Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find e ich die38 Entity Mapping passende Enti tät ? Diego zu Bayern? Ich will nicht den gleichen Fehler wie Klose machen! Determine Named Entities from Text Diego Bayern Create all possible Sets of Mapping Candidates Fehler Klose Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find39 e ich die Entity Mapping passende Enti tät ? Create all possible Sets of Mapping Candidates Diego Bayern Fehler Klose Diego Ribas da Cunha Bayern Diego Kolumbus (Vizekönig) Königreich Bayern Sytematischer Fehler Adolf Klose Alfred Klose (Politologe) Diego Kolumbus (Seefahrer) Herzogtum Bayern Fehler Miroslav Klose Hans-Ulrich Klose (CDU) Diego Alberto Milito Diego Barreto F.C. Bayern München Menschlicher Fehler Hans Helmut Klose Programmfehler Diego von Österreich FDP Bayern Sepp Klose Walter Klose (Maler) Logischer Fehler Diego Hypolito Messfehler San Diego Mariners SPD Bayern Mittlerer Fehler MargareteKlose Diego Galeri Wilhelm Klose Erratum Adolf Fehler Bob Klose Diego Maradonna Bayernliga Landtag Bayern Peter Klose Kai Klose Diego Morais Parcheco Ausnahmebehandlung Hans Klose Maximilian I. von Bayern San Diego Diego Baldenweg Carl Klose Altbayern Absoluter Fehler Oscar Klose Byzantinischer Fehler Senat Klose Diego Carlone Albrecht V. von Bayern Josef Klose USS San Diego Fehler 1. Art Bayern (Volk) RelativerFehler Dennie Klose Diego Hostettler Diego Giacometti Alfred Klose Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find40 e ich die Entity Mapping passende Enti tät ? (1) Co-occurence Analysis (2) Semantic Analysis (3) Machine Learning Diego Bayern Fehler Klose Diego Kolumbus (Vizekönig) FDP Bayern Programmfehler Hans Helmut Klose ‣ For all possible Combinations do: ‣ Determine the probability of the co-occurence of a term combination in an arbitrary text document corpus ‣ Select the combination with the maximum probability Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR Aber wie find41 e ich die Entity Mapping passende Enti tät ? (1) Co-occurence Analysis (2) Semantic Analysis (3) Machine Learning Diego Bayern Fehler Klose Herzogtum Bayern Diego Ribas da Cunha Bayern Alfred Klose (Politologe) Sytematischer Fehler Adolf Klose Königreich Bayern Fehler Diego Kolumbus (Seefahrer) Miroslav Klose F.C. Bayern München Menschlicher Fehler Diego von Österreich Hans Helmut Klose Hans-Ulrich Klose (CDU) SPD Bayern Programmfehler Logischer Fehler Diego Kolumbus (Vizekönig) FDP Bayern ‣ For all Candidat Entities do: ‣ Determine semantic network graph Diego Barreto ‣ Select largest connected components Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR42 Entity Mapping Text: „Diego zu Bayern?“ Entity Mapping Diego Ribas da Cunha http://dbpedia.org/resource/Diego_Ribas_da_Cunha Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR43 Wie kann ich semantische Annotationen im Informati on Retrieval nutz en? Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR44 • Semantische Annotationen ermöglichen eine Verbesserung der traditionellen Schlüsselwort-basierten Suche durch (1) Erweiterung / Präzisierung der Suchergebnisse (Query String Refinement) (2) Herstellung von Querverweisen (Cross Referencing) (3) Nutzung von semantischen Beziehungen zur • Visualisierung und • Navigation durch den Suchraum (Explorative Suche) (4) Herleitung von impliziten Informationen (Reasoning) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR45 (1) Erweiterung der Suchergebnisse • Keyword-basierte Suche liefert nicht alle inhaltlich relevanten Suchergebnisse zu einer Suchphrase, da Synonyme, Metaphern und Umschreibungen den gesuchten Inhalt mit anderen Termen beschreiben. • Erweiterung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Synonyme, Ober- und Unterbegriffe • Nutzung von Domain Ontologien • Meronyme, Holonyme, Assoziationen Suchphrase: Bank Mögliche Erweiterung: Bank ∨ Kreditanstalt ∨ Sparkasse ∨ ... Bank ∨ Konto ∨ Kredit ∨ ... Bank ∨ Santander ∨ Raiffeisen ∨ ... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR46 (1) Präzisierung der Suchergebnisse • Keyword-basierte Suche liefert zu viele inhaltlich nicht relevante Suchergebnisse zu einer Suchphrase, da Suchbegriffe mehrere Bedeutung und in unterschiedlichem Kontext/Pragmatik genutzt werden. • Verfeinerung der ursprünglichen Suchphrase (Query Refinement) • Nutzung von Wörterbüchern und Thesauri • Homonyme mit Hilfe von Ober- und Unterbegriffen disambiguieren • Nutzung von Domain Ontologien • Meronyme, Holonyme Suchphrase: Bank Mögliche Erweiterung: Bank ∧ Kreditanstalt oder Bank ∧ Sitzgelegenheit oder Bank ∧ Sediment Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.2 semantisch unterstütztes IR47 (3) Herstellung von Querverweisen □ Bereitstellung von Suchergebnissen, die zwar den Suchbegriff nicht notwendigerweise enthalten, aber mit diesem in inhaltlichem Zusammenhang stehen □ Nutzung von Domain Ontologien □ Nutzung von Thesauri und Kookurrenzanalysen repräsentativer Dokumentenkorpora Suchphrase: Miroslav Klose ermittelter Oberbegriff: FC Bayern Munich Players Ausweitung der Suche auf andere Teammitglieder category:FC_Bayern_Munich_Players rdf:type rdf:type Entity Mapping Miroslav Klose dbpedia:Miroslav_Klose dbpedia:Luiz_Gustavo Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • Semantic Web Technologien Vorlesungsinhalt48 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.2.Semantische Suche 5.2.1.Klassisches Information Retrieval und Multimedia Retrieval 5.2.2.Semantisch unterstütztes Information Retrieval 5.2.3.Explorative Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche49 Suchen ist nicht gleich Suchen • Ein einfaches Beispiel: Ich suche das Buch „Brave New World“ von Aldous Huxley in der ersten in Deutschland erschienenen Ausgabe... 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche50 Suchen ist nicht gleich Suchen • Wenn man genau weiß, was man sucht, ist es einfach..... Ich suche das Buch „Brave New World“ von Aldous Huxley in der ersten in Deutschland erschienenen Ausgabe... Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“ II 1, 2506, 34548 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche51 Suchen ist nicht gleich Suchen • ...aber was, wenn man nicht genau weiß, was man sucht? Mir hat das Buch „Brave New World“ von Aldous Huxley gefallen und ich weiß nicht genau, was ich als nächstes lesen sollte.... 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche52 • Was, wenn der Benutzer nicht weiß, welchen Suchbegriff er/sie benutzen soll? • Was, wenn der Benutzer komplexere Antworten sucht? • Was, wenn er/sie das Wissensgebiet, über das er sich informieren will, nicht (gut) kennt? • Was, wenn er/sie wissen möchte, welche Dokumente es insgesamt zu einem speziellen Thema in einem Repository gibt? • Explorative Suche • ...,Stöbern‘ statt ,Suchen‘ • ...etwas ,zufällig‘ finden • ...Serendipity • ...einen Überblick gewinnen 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche53 ■ How to Explore the Web of Data? http://dbpedia.org/page/Aldous_Huxley dbpedia:Aldous_Huxley Wie soll das semantische Netzwerk um dbpedia:Aldous_Huxley herum durchsucht werden? 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche54 ■ How to Explore the Web of Data? H.G. Wells Aldous Huxley George Orwell dbpedia:ontology/influences dbpedia:ontology/influences rdfs:type rdfs:type rdfs:type Yago:EnglishScienceFictionWriters 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche55 Aldous Huxley George Orwell Kurt Vonnegut dbpedia:ontology/influences dbpedia:ontology/influences dbpedia:notableWorks dbpedia:notableWorks 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche56 ■ Problem: Was ist eigentlich wichtig? • Linked Data beinhaltet ungewichtetes Wissen • ungewichtet = keine Unterscheidung, ob wichtig oder unwichtig • z.B.., Aldous Huxley • > 600 Fakten (RDF-triples) • > 80 Eigenschaften (properties) • keine Reihenfolge Aldous Huxley • keine Relevanzbewertungen • Entwicklung von Heuristischen Verfahren zur Relevanz-Bewertung von Linked Data Fakten • semantische Graphenanalyse • statistische Verfahren http://dbpedia.org/page/Aldous_Huxley 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche57 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Aldous Huxley‘ • Identifikation einer Entität dbpedia:Aldous Huxley • Bestimmung eines geeigneten Properties dbpedia:Aldous_Huxley foaf:name “Aldous Huxley“ . dbpedia:Aldous_Huxleyy rdfs:type yago:EnglishScienceFictionWriters . ... dbpedia:Aldous_Huxley dbpedia:ontology/influences dbpedia:H._G._Wells . dbpedia:H._G._Wells rdfs:type yago:EnglishScienceFictionWriters . ... dbpedia:George_Orwell dbpedia:ontology/influences dbpedia:Ernest_Hemingway . dbpedia:George_Orwell rdfs:type yago:EnglishScienceFictionWriters . 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche / 5.2.3 Explorative Suche58 Explorative Suche - ein einfaches Beispiel • Suche im Grunddatenbestand nach ,Aldous Huxley‘ • Identifikation einer Entität dbpedia:Aldous Huxley • Bestimmung eines geeigneten Properties • Nutzung der gefundenen Properties zur Navigation des Suchraums H.G. Wells Aldous Huxley George Orwell dbpedia:ontology/influences dbpedia:ontology/influences rdfs:type rdfs:type rdfs:type 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Yago:EnglishScienceFictionWriters Harald Sack
    • 59 http://mediaglobe.yovisto.com:8080/ Waitelonis, Sack: Augmenting Video Search with Linked Open Data, in Proc. I-Semantics , Graz 2009. 3. Semantik Web Meetup, Berlin, 15.09.2009, Dr. Harald Sack
    • Semantic Web Technologien Vorlesungsinhalt60 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.2.Semantische Suche 5.2.1.Klassisches Information Retrieval und Multimedia Retrieval 5.2.2.Semantisch unterstütztes Information Retrieval 5.2.3.Explorative Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • Semantic Web Technologien Vorlesungsinhalt61 1. Einführung 2. Semantic Web Basisarchitektur Die Sprachen des Semantic Web - Teil 1 3. Wissensrepräsentation und Logik Die Sprachen des Semantic Web - Teil 2 4. Ontology Engineering 5. Linked Data und Semantic Web Anwendungen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 62 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
    • 5. Linked Data und Semantic Web Anwendungen 5.2 Semantische Suche63 Materialien □Blog http://web-flakes.blogspot.com/ □Materialien-Webseite http://www.hpi.uni-potsdam.de/meinel/lehre/lectures_classes/ semanticweb_ws1011.html □bibsonomy - Bookmarks http://www.bibsonomy.org/user/lysander07/swt1011_14 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam