13 Semantic Web Applications 01 , Semantic Web Technologies WS 2010/11

  • 2,130 views
Uploaded on

 

More in: Technology , Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,130
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
89
Comments
0
Likes
4

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Semantic Web Technologien Vorlesung Dr. Harald SackHasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam Wintersemester 2010/11Blog zur Vorlesung: http://web-flakes.blogspot.com/Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig(Lizenzbestimmungen CC-BY-NC).
  • 2. l2 c a g i g o l o i n n t e e r O i n n g E Michelangelo vs. The Flying Spaghetti Monster... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 3. 4. Ontology Engineering3 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 4. Semantic Web Technologien Vorlesungsinhalt4 1. Einführung 2. Semantic Web Basisarchitektur Die Sprachen des Semantic Web - Teil 1 3. Wissensrepräsentation und Logik Die Sprachen des Semantic Web - Teil 2 4. Ontology Engineering 5. Linked Data und Semantic Web Anwendungen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 5. Nächste Vorlesung: a & t b a e d c D W e i5 k t n n ns i a L m t i o S e ca l i pp A Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam In Search of the Philosopher’s Stone, 1771 Joseph Wright of Derby:The Alchymist,
  • 6. Semantic Web Technologien Vorlesungsinhalt6 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.1.1.APIs vs. Linked Data 5.1.2.Linked Data Principles 5.1.3.Linked Data @Work 5.1.4.Linked Data Research Challenges 5.2.Semantische Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 7. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD7 Information und wo man sie findet • Wie beschaffen wir uns eigentlich Informationen über Dinge? • ...etwa über ein Buch? Sack Harald • ...über einen Film? ng urnau Stiftu Friedrich M • ...über abstrakte Konzepte? Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 8. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD8 Information und wo man sie findet • Wie beschaffen wir uns eigentlich Informationen über Dinge? • ...Wir schlagen einfach unter den entsprechenden Namen nach Friedrich Murnau Stiftung Sack Harald „Brave New World“ „Der blaue Engel“ „Rache / Revenge“ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 9. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD9 Information und wo man sie findet • ...früher ging man z.B. in die Bibliothek Sack Harald Brave New World siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft Wackere neue Welt : ein Roman der Zukunft kontrolliertes Vokabular Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 10. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD10 Information und wo man sie findet • ...früher ging man z.B. in die Bibliothek Sack Harald Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 Metadaten (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“ II 1, 2506, 34548 Identifier Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 11. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD11 Information und wo man sie findet • ...heute geht man ins WWW Sack Harald http://www.worldcat.org Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 12. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD12 Information und wo man sie findet • ...heute geht man ins WWW Sack Harald Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 13. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD13 Information und wo man sie findet • Ist Information heute nicht im WWW vorhanden, kann sie nur schwer gefunden werden (wenn überhaupt...) Datenbank Web-Server HTTP JDBC HTML Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 14. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD14 Das WWW heute •Das WWW ist für die Nutzung durch den Menschen bestimmt •Das WWW basiert auf der Markupsprache HTML •HTML beschreibt •wie Informationen dargestellt werden sollen (XHMLT + CSS), •wie Informationen miteinander verknüpft werden können, •aber nicht, was diese Informationen bedeuten…. bedarf der Interpretation durch den Menschen... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 15. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD15 Das WWW heute •Daten selbst sind verschlossen in abgeschirmten „Datensilos“ •Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 16. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD16 Das WWW heute •Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups Mashup Web Web Web Web API 1 API 2 API 3 API 4 Datenbank 1 Datenbank 2 Datenbank 3 Datenbank 4 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 17. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD17 Das WWW heute •Das Problem liegt auf der Hand.... http://www.w3.org/2009/Talks/0204-ted-tbl/#(22) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 18. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD18 Also auch die Lösung... •...Öffnen der proprietären Datensilos •...Veröffentlichung aller Daten von allgemeinem Interesse •...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und •alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können Datenbank 1 Datenbank 2 Datenbank 3 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 19. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD19 Also auch die Lösung... • ...Anwendungen schlagen unter den entsprechenden Namen die zugehörigen (Meta)daten im Web nach tung M urnau Stif Friedrich Sack Harald http://dbpedia.org/resource/Der_Blaue_Engel http://dbpedia.org/resource/Brave_New_World http://dbpedia.org/resource/Revenge Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 20. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD20 Also auch die Lösung... • Nutze semantische Technologien, • um strukturierte Daten im Web zu publizieren • um Verbindungen von einer Datenquelle zu Daten aus anderen Datenquellen zu ziehen RDF Data RDF Data RDF Data RDF Data RDF Links RDF Links RDF Links Datenbank 1 Datenbank 2 Datenbank 3 Datenbank 4 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 21. Semantic Web Technologien Vorlesungsinhalt21 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.1.1.APIs vs. Linked Data 5.1.2.Linked Data Principles 5.1.3.Linked Data @Work 5.1.4.Linked Data Research Challenges 5.2.Semantische Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 22. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles22 Linked Data ■ Begriff wurde von Tim Berners-Lee geprägt (Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html) □ Menge von Best practices zur Veröffentlichung und Verknüpfung von strukturierten Daten im Web □ Grundannahme: Der Wert (Nützlichkeit) von Daten im Web steigt je stärker diese mit Daten aus anderen Datenquellen verknüpft sind. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 23. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles23 Linked Data ■ Begriff wurde von Tim Berners-Lee geprägt (Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html) The Web of data is about a data (RDF) and naming (URI) model on the Web M.Hausenblas, Quick Linked Data Introduction, http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 24. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles24 Linked Data ■ technische Grundprinzipien: □ URIs identifizieren Ressourcen eindeutig (nicht nur Dokumente) □ HTTP URIs (URLs) als global eindeutige Namen erlauben das „Nachschlagen“ der zugehörigen Information im Web □ RDF als universelles Datenmodell zur Veröffentlichung strukturierter Daten im Web □ Alle URIs in RDF-Graphen aus dem Web dereferenzierbar machen □ RDF-Verweise zwischen Daten in verschiedenen Datenquellen setzen, um (inhaltlich) zusammenhängende Informationen zu finden Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 25. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles25 Linked Data □ Die Anwendung der genannten Prinzipien führt zur Entstehung eines ,Web of Data‘ http://linkeddata.org/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 26. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles26 DBPedia □ Zentraler Hub innerhalb des Linke Data Graphen ist die DBpedia http://dbpedia.org/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 27. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles27 DBPedia □ Zentraler Bestandteil: Wikipedia Info-Boxen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 28. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles28 DBPedia □ Zentraler Bestandteil: Wikipedia Info-Boxen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 29. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles29 DBPedia □ Zentraler Bestandteil: Wikipedia Info-Boxen Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 30. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles30 Semantic Mashups □ Semantic Mashups sind Anwendungen, die vernetzte RDF-Daten aus unterschiedlichen Datenquellen nutzen □ im Gegensatz zu diversen Schnittstellen und Ergebnisformaten regulärer Web-APIs bieten vernetzte Daten (Linked Data) folgende Vorteile: □ flexibles, standardisiertes Datenformat (RDF) □ standardisierter Zugriffsmechanismus (http) □ Möglichkeit, Verweise (RDF-Links) zwischen unterschiedlichen Datenquellen zu setzen » ermöglicht Navigation » wird von Suchmaschinen genutzt (Crawler) » Ermöglichung expressiver Suchfunktionalität über gesammelte Daten hinweg S. Auer, J. Lehmann, Ch. Bizer: Semantitsche Mashups auf Basis vernetzter Daten, in T. Pellegrini, A. Blumauer (Hrsg.): Social Semantic Web, Springer, 2009. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 31. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles31 Linked Data für Mensch und Maschine ■ URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen liefern, d.h. (Thing) URI Accept: application/rdf+xml Accept: text/html (RDF data) (HTML page) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 32. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles32 Linked Data für Mensch und Maschine ■ Server liefert unterschiedliche HTTP Responses in Abhängigkeit vom HTTP-Accept- Header (Content Negotiation) http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 33. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles33 Linked Data für Mensch und Maschine ■ Üblicherweise verwende entsprechende Namen für unterschiedliche Repräsentationsformen (Thing) http://dbpedia.org/resource/Ernest_Hemingway Accept: application/rdf+xml Accept: text/html http://dbpedia.org/data/ http://dbpedia.org/page/ Ernest_Hemingway.rdf Ernest_Hemingway (RDF data) (HTML page) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 34. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles34 Dereferenzierung von URIs ■ Bsp.: FOAF (Friend-of-a-Friend) <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dbpedia=“http://dbpedia.org/resource/“> </rdf:RDF> ... <foaf:Person rdf:ID=“http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald“> <foaf:name>Harald Sack</foaf:name> <foaf:homepage rdf:resource="http://www.hpi.uni-potsdam.de/meinel/ sack.html"/> <foaf:based_near rdf:resource="dbpedia:Potsdam“/> ... </foaf:Person> ... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 35. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles35 Dereferenzierung von URIs ■ Bsp.: FOAF (Friend-of-a-Friend) rdf:type hpihs:harald foaf:Person foaf:name Harald Sack foaf:based_near dbpedia:Potsdam (dbpedia:Potsdam = http://dbpedia.org/resource/Potsdam) GET /resource/Potsdam HTTP/1.0 Accept: application/rdf+xml Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 36. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles36 Dereferenzierung von URIs rdf:type hpihs:harald foaf:Person foaf:name Harald Sack foaf:based_near dbpedia:Potsdam 150.833 tion p o pula GET /resource/Potsdam HTTP/1.0 e dia: dbpedia:Potsdam dbp Accept: application/rdf+xml sko s:s ub jec t dbpedia:Cities_in_Germany Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 37. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles37 Dereferenzierung von URIs rdf:type hpihs:harald foaf:Person foaf:name 150.833 Harald Sack n pu latio p o foaf:based_near e dia: dbpedia:Potsdam dbp sko s:s ub jec t skos:subject dbpedia:Berlin dbpedia:Cities_in_Germany t b jec s :su o dbpedia:Jena sk Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 38. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles38 Linked Data Quellen im Web □ native Publikation □ D2R-Server, OpenLink Virtuoso, Pubby, etc. □ Implementierung von Wrapper um existierende Anwendungen/APIs □ SIOC-Exporter für Wordpress, Drupal, phpBB,... □ RDF Book Mashup (Amazon API, Google Base-API,...) □ Linking Open Data Project □ Semantic Web Education and Outreach Arbeitsgruppe des W3C □ Verzeichnis aller bekannter Quellen vernetzter Daten mit offener Lizenz » DBPedia, Flickr, Open-Cyc, FOAF, SIOC, GeoNames, ... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 39. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles39 Browser für Linked Data ■ Unterschied zu nativen RDF-Browsern □ zu visualisierende RDF-Daten liegen nicht notwendigerweise im lokalen Repository, sondern verteilt im WWW □ erfordert dynamisches Nachladen von RDF Ressourcen ■ Tabulator (Tim Berners-Lee, MIT-Arbeitsgruppe) (T. Berners-Lee et al.: Tabulator: Exploring and analyzing linked data on the semantic web, in Proc. 3rd Int. Semantic Web User Interaction Workshop, 2006, http://swui.semanticweb.org/swui06/papers/Berners-Lee/Berners-Lee.pdf) ■ OpenLink RDF Browser □ erlaubt Darstellung als Graph, Zeitreihe, Landkarte, etc. http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html ■ Zitgist Browser http://browser.zitgist.com/ ■ DISCO Browser http://sites.wiwiss.fu-berlin.de/suhl/bizer/ng4j/disco/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 40. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles40 Suchmaschinen für Linked Data ■ Crawler-basiert, folgen Verknüpfungen von Datensätzen, um einen Index zu erstellen, an den Suchabfragen gerichtet werden können ■ Swoogle □ Stichwort-basierte Volltextsuche (Apache-Lucene), nutzt semantische Annotation nur begrenzt http://swoogle.umbc.edu/ ■ Semantic Web Search Engine (SWSE) □ nutzt zusätzlich rdf:type Properties zur Filterung der Suche http://swse.deri.org/ ■ Sindice http://www.sindice.com/ ■ Falcons □ mit Datenbrowser zur Analyse der Suchergebnisse http://iws.seu.edu.cn/services/falcons/ ■ Sig.ma - Semantic Information Mashup (auf der Basis von Sindice) http://sig.ma/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 41. http://dbpedia.neofonie.com 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.2 Linked Data Principles41 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 42. Semantic Web Technologien Vorlesungsinhalt42 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.1.1.APIs vs. Linked Data 5.1.2.Linked Data Principles 5.1.3.Linked Data @Work 5.1.4.Linked Data Research Challenges 5.2.Semantische Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 43. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work43 Linking Open Data ■ Publiziere öffentlich verfügbare strukturierte Daten als Linked Data und ■ Verlinke die unterschiedlichen Datenquellen miteinander LOD-WikiPage: http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 44. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work44 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 45. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work45 Linking Open Data ■ Some statistics (http://www4.wiwiss.fu-berlin.de/lodcloud/state/, Oct 2010) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 46. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work46 Linking of ,Linked Data‘ • Links von DBPedia.org zu anderen Ressourcen <http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> . <http://dbpedia.org/resource/Ernest_Hemingway> owl:sameAs <http://sw.opencyc.org/concept/Mx4rv07_gJwpEbGdrcN5Y29ycA> . • Links von meinem FOAF-Profile zur DBPedia <http://www.hpi.uni-potsdam.de/fileadmin/hpi/FG_ITS/ lecturenotes/Semantic_Web/foaf.rdf> foaf:topic_interest <http://dbpedia.org/Resource/Semantic_Web> . Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 47. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work47 Die Ontologien hinter Linking Open Data □ Controlled Vocabulary □ Dictionaries □ Schemata □ Ontologies Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 48. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work48 Linked Data Driven Web Applications □ Notwendige Komponenten: □ Local RDF Store □ caching of results □ permanent storage □ Logic (Controller) und User Interface (-> Business Logic) □ (nicht LOD spezifisch) □ Data Integration component □ Daten direkt aus LOD-Cloud oder □ via Semantic Indexer (sindice, etc.) holen □ Data Republishing component □ Applikations-eigene Daten in Web of Data zurückschreiben Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 49. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work49 Linked Data Driven Web Applications M.Hausenblas: Linked Data Applications, DERI Technical Report, 2009 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 50. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work50 Linked Data Driven Web Applications □ Zugriff auf Linked Data erfolgt über SPARQL Endpoints □ ...aber wo finde ich SPARQL Endpoints? □ W3C: Currently Alive SPARQL Endpoints http://esw.w3.org/SparqlEndpoints □ SPARQL endpoints are a RESTful Web Service □ HTTP GET Request mit SPARQL query □ Result als □ XML, JSON, plaintext (SPARQL Select/Ask) □ RDF/XML, NTriples, Turtle, N3 (SPARQL Describe/Construct) □ Datenformat kann über HTTP Accept Header gesteuert werden Z.B. Accept: application/sparql-results+json □ (oder über Parameter in der SPARQL query) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 51. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work51 Linked Data Driven Web Applications □ Einfacher geht es mit einer entsprechenden Library: □ SPARQL Javascript Library http://www.thefigtrees.net/lee/blog/2006/04/sparql_calendar_demo_a_sparql.html □ ARC for SPARQL (PHP) http://arc.semsol.org/ □ RAP - RDF API für PHP http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html □ Jena/ARQ (Java) http://jena.sourceforge.net/ □ Sesame (Java) http://www.openrdf.org/ □ SPARQL Wrapper (Python) http://sparql-wrapper.sourceforge.net/ □ ... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 52. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work52 Linked Data Driven Web Applications □ Simples Beispiel mit Jena ARQ: import com.hp.hpl.jena.query.*; String service = "..."; // address of the SPARQL endpoint String query = "SELECT ..."; // your SPARQL query QueryExecution e = QueryExecutionFactory.sparqlService(service, query) ResultSet results = e.execSelect(); while ( results.hasNext() ) { ! ! QuerySolution s = results.nextSolution(); ! ! // ... } e.close(); Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 53. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work53 Linked Data Driven Web Applications □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 1.Nacheinander Anfragen an verschiedene SPARQL Endpoints richten 2.Abfrage an eine LOD Repository Sammlung 3.Aufbau einer lokalen Kopie aus mehreren LOD-Quellen 4.Nutzung eines föderierten Abfragesystems a)Traditioneller Ansatz b)Link Traversal Based Query Execution Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 54. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work54 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten □ Idee: Richte SPARQL Anfragen an weitere SPARQL-Endpoints basierend auf den Ergebnissen der vorangegangenen Abfragen □ d.h. Platzhalter in Query-Templates werden durch Ergebnisse der vorangegangenen SPARQL-Abfragen ersetzt Query1 Erg1 LOD2 Query2(Erg1) Erg2 LOD3 LOD1 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 55. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work55 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten String s1 = "http://sparql.yovisto.com/"; String s2 = "http://dbpedia.org/sparql"; String qTmpl = "SELECT ?c WHERE{ <%s> <http://dbpedia.org/ontology/abstract> ?a }"; String q1 = "SELECT ?s WHERE { ..."; QueryExecution e1 = QueryExecutionFactory.sparqlService(s1,q1); ResultSet results1 = e1.execSelect(); while ( results1.hasNext() ) { ! QuerySolution s1 = results.nextSolution(); ! String q2 = String.format( qTmpl, s1.getResource("s").getURI() ); ! QueryExecution e2= QueryExecutionFactory.sparqlService(s2,q2); ! ResultSet results2 = e2.execSelect(); ! while ( results2.hasNext() ) { ! ! // ... ! } Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 56. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work56 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten □ Vorteile: □ Abgefragte Daten sind stets aktuell □ Nachteile: □ Jeder der verwendeten Datensätze benötigt einen SPARQL Endpoint □ Programmlogik erforderlich □ ineffizient Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 57. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work57 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 2. Abfrage an eine LOD Repository Sammlung □ Idee: Nutze einen vorhandenen SPARQL Endpoint, der den Zugang zu einer Menge von verschiedenen LOD Datensätzen ermöglicht □ = Data Centralization □ SPARQL Endpoints, über die eine Vielzahl der LOD-Datensätze zugegriffen werden können: □ http://uberblic.org □ http://lod.openlinksw.com/sparql Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 58. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work58 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 2. Abfrage an eine LOD Repository Sammlung □ Vorteile: □ Benötigt keine spezielle Programmlogik □ Nachteile: □ abgefragte Daten sind möglicherweise nicht immer aktuell □ möglicherweise sind nicht alle benötigten Datensätze in der Sammlung enthalten Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 59. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work59 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Idee: Nutze einen lokalen SPARQL Endpoint und kopiere alle relevanten LOD Datensätze darauf □ = Data Centralization □ LOD Datensätze können gewonnen werden aus □ RDF Dumps (falls vorhanden) □ (Focused) Crawling □ z.B. Ldspider http://code.google.com/p/ldspider/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 60. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work60 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen □ Vorteile: □ Benötigt keine spezielle Programmlogik □ Umfasst alle benötigten LOD Datensätze □ Unabhängig von der Verfügbarkeit der originalen SPARQL Endpoints □ Nachteile: □ Aufwand bzgl. Aufbau und Wartung des lokalen SPARQL Endpoints □ Kompliziert, wenn nicht auf RDF-Dumps zurückgegriffen werden kann □ Synchronisation mit den originalen Daten notwendig, d.h. abgefragte Daten sind möglicherweise nicht immer aktuell Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 61. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work61 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems □ Idee (traditioneller Ansatz): Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst er y1 S ubqu LOD1 Query Mediator Subquery2 Su bq ue ry LOD2 3 LOD3 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 62. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work62 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems □ Idee (traditioneller Ansatz): Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst 1 re sult LOD1 Result Mediator result2 res LOD2 ult 3 LOD3 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 63. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work63 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems □ Vorteile: □ Benötigt keine spezielle Programmlogik □ Nachteile: □ Abgefragte LOD Daten müssen über aktiven SPARQL-Endpoint verfügen □ Abgefragte LOD-Datenquellen müssen im Voraus bekannt sein □ Neue bzw. unbekannte LOD-Datenquellen werden nicht berücksichtigt (!) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 64. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work64 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems Mit Link Traversal Based Query Execution □ Idee: Verknüpfe Auswertung der Query direkt mit Traversierung des RDF- Graphen Query: Suche Publikationen des Vortragenden eines yovisto-Videos speaker PND-id Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 65. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work65 Query: Suche Publikationen des Vortragenden eines yovisto-Videos speaker PND-id http://www.yovisto.com/resource/video/6389 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 66. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work66 Query: Suche Publikationen des Vortragenden eines yovisto-Videos speaker PND-id http://www.yovisto.com/resource/speaker/813 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 67. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work67 Query: Suche Publikationen des Vortragenden eines yovisto-Videos speaker PND-id http://dbpedia.org/resource/Max_Planck owl:sameAs <http://d-nb.info/gnd/118594818> Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 68. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work68 Query: Suche Publikationen des Vortragenden eines yovisto-Videos speaker PND-id http://d-nb.info/gnd/118594818 :118594818 :preferredNameForThePerson "Planck, Max" ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten Wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Der Kausalbegriff in der Physik. - 1932"@de ; :publicationOfThePerson "Planck, Max: Religion und Naturwissenschaft. - 1938"@de ; :publicationOfThePerson "Planck, Max: Kausalgesetz und Willensfreiheit. - 1923"@de ; :publicationOfThePerson "Planck, Max: Determinismus oder Indeterminismus? Vortrag. - 1938"@de ; :publicationOfThePerson "Planck, Max: Positivismus und reale Auu00DFenwelt. - 1931"@de ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Significato e limiti della scienza esatta. - 1943"@de ; :publicationOfThePerson "Planck, Max: Wege zur physikalischen Erkenntnis. - 1944"@de . Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 69. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work69 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems mit Link Traversal Based Query Execution □ Implementierungen: □ Semantic Web Client library (SWClLib) for Java http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/ □ SQUIN http://squin.org □ Provides SWClLib functionality as a Web service □ Accessible like a SPARQL endpoint Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 70. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work70 □ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg 4. Nutzung eines föderierten Abfragesystems mit Link Traversal Based Query Execution □ Vorteile: □ Keine zusätzliche Programmlogik notwendig □ Datenbestände sind stets aktuell □ Nicht alle Datenbestände müssen im Voraus bekannt sein □ Nachteile: □ Online Query während Query Evaluation ist zeitaufwändiger als zentralisierte Abfrage □ ABER: lokaler RDF-Store fungiert als Cache □ Eventuell unvollständige Ergebnisse... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 71. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work71 Linked Data Examples □ BBC Music (http://www.bbc.co.uk/music) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 72. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work72 Linked Data Examples □ BBC Music Beta (http://www.bbc.co.uk/music) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 73. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work73 Data.gov Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 74. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.3 Linked Data @Work74 Linked Data Anwendungsbeispiele □ DERI Semantic Web Pipes (http://pipes.deri.org/) □ Open Source, □ Extendable □ Embeddable □ Web Data Mashups □ Mashup Command Line Tool □ produces output streams of data to be used by applications Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 75. Semantic Web Technologien Vorlesungsinhalt75 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.1.1.APIs vs. Linked Data 5.1.2.Linked Data Principles 5.1.3.Linked Data @Work 5.1.4.Linked Data Research Challenges 5.2.Semantische Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 76. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges76 Linked Data Achievements ■ Extension of the Web with a data commons (27b RDF triples = facts) ■ Vibrant global RTD community ■ Industrial uptake starting (BBC, Thomson, Reuters, etc.) ■ Emerging governmental adoption in sight ■ Establishing Linked Data as a deployment path for the Semantic Web Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 77. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges77 Linked Data Challenges ■ Coherence relatively few, expensively maintained links ■ Quality partly low quality data and inconsistencies ■ Performance still substantial penalties compared to relational database technologies ■ Data consumption large scale processing, schema mapping and Sören Auer:"Linked Data: Now what?" ESWC2010 Panel Discussion data fusion still in its infancy ■ Usability Missing direct end user tools and network effect Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 78. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges78 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 79. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges79 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 80. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges80A. Hoigan et al: Weaving the Pedantic Web,LDOW 2010 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 81. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges81 Selected Linked Data Research Challenges (1) Crawling the Semantic Web (2) Structural Analysis (3) Content-based Analysis (4) Data Cleansing (5) Heuristics for Ranking Semantic Web Data (6) Augmenting Semantic Web Infrastructure Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 82. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges82 So what? ■ Interesting Facts to find out about Semantic Web & Linked Data ■ How big is the Semantic Universe? ■ # tripel ■ # documents ■ # interlinking ■ Linking Open Data is only registered vocabulary/data in the LOD-Wiki → 27b RDF triples ■ What else is out there ... and how much of it? ■ ...and how do we get it? Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 83. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges83 (1) Crawling the Semantic Web ■ Of course we are not the first to be out there... ■ Swoogle Li Ding et al: Finding and Ranking Knowledge on the Semantic Web, ISWC 2005. ■ Scutter/Slug Leigh Dodds: Slug: A Semantic Web Crawler, 2006 ■ Sindice Giovanni Tumarello et al: Sindice.com - weaving the open linked data, ISWC 2007 → 2.1b RDF triples ■ SWSE Andreas Harth et al: SWSE: Objects before Documents, Semantic Web Challenge 2008, ISWC 2008 → 1.1b RDF triples ■ Falcons G.Cheng et al.:Falcons: Searching and Browsing Entities on the Semantic Web, WWW17 2008. → 2.9b RDF triples Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 84. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges84 (2) Analyzing the Semantic Web I - Structural Analysis ■ Again we are not the first to be out there... ■ Structural Analysis of the ,early‘ WWW unconnected components appendices appendices IN SCC OUT 44m nodes 56m nodes 44m nodes tunnels A. Broder et al.: Graph structure in the Web. unconnected components In Comput. Netw. 33, 1-6 (Jun. 2000), 309-320. Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 85. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges85 (2) Analyzing the Semantic Web I - Structural Analysis ■ Again we are not the first to be there... ■ Structural Analysis of the ,early‘ Semantic Web Weiyi Ge et al.: Object Link Structure in the Semantic Web, ESWC 2010 ■ Experimental Setup ■ 18m RDF documents (Falcons crawl 2009) ■ 110m nodes with 190m edges ■ Analysis of RDF link graph ■ average node degree: ≈3.4 ■ effective diameter: ≈11.5 ■ Largest connected component: ≈88% of all nodes Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 86. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges86 (3) Analyzing the Semantic Web II - Content-Based Analysis ■ Again we are not the first to be there... A. Hoigan et al: Weaving the Pedantic Web, LDOW 2010 ■ 150k documents with more than 12m RDF triples ■ Discovered categories of symptoms: ■ incomplete → dead links ■ incoherent → no correct interpretation (local) ■ hijack → no correct interpretation (remote) ■ inconsistent → contradictions http://pedantic-web.org/ Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 87. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges87 (3) Analyzing the Semantic Web II - Content-Based Analysis ■ Again we are not the first to be there... Urbani et al: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples, ESWC 2010 ■ Artificial Benchmark dataset used Leigh University Benchmark (LUBM) with 100b RDF triples ■ Computing the transitive closure (= reasoning) ■ Making implicit knowledge explicit Fabio Capello San Canzian d‘Isonzo hasBirthPlace class membership is a can be deduced Person hasBirthPlace Place Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 88. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges88 (4) Analyzing the Semantic Web III - Data Cleansing ■ trying to clean out Linked Open Data and possibly also (partially) the Semantic Web... (1) Identify inconsistencies and ambiguities by (automated) content-based analysis (2) Solve inconsistencies & ambiguities ■ if possible by reasoning ■ else by crowdsourcing (game-based evaluation, etc.) Cleaning out the Augean stables... AUGEAN-STABLES: Extremely nasty and smelly warehouses of filth, straw and manure Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 89. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges89 (5) Analyzing the Semantic Web IV - Data Ranking ■ Linked Data provides (unbiased) knowledge ■ unbiased = no distinction of what is important, what is not important ■ e.g., Albert Einstein ■ > 600 facts (triples) ■ > 80 properties ■ no ranking ■ no relevance http://dbpedia.org/page/Albert_Einstein Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 90. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges90 (5) Analyzing the Semantic Web IV - Data Ranking ■ We have developed heuristics for ranking objects and properties, e.g. :AmericanVegetarian rdf:type rdf:type rdf:type :Albert_Einstein :Scientist :Bill_Cosby rdf:type :doctoralAdviser :Alfred_Kleiner considered to be relevant Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 91. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges 9143 (6) Semantic Web Infrastructure - Tripel Stores ■ RDF(S) Data is stored in Triple Stores ■ Basic idea: ■ Use 1 table with 3 columns (s,p,o) ■ For every row / row combination create index structures for fast access (spo, sop, pos, pso, ops, osp) ■ Drawback: many self-joins needed (memory consumption) Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 92. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges92 Selected Linked Data Research Challenges (1) Crawling the Semantic Web (2) Structural Analysis (3) Content-based Analysis (4) Data Cleansing (5) Heuristics for Ranking Semantic Web Data (6) Augmenting Semantic Web Infrastructure (7) ... Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 93. Semantic Web Technologien Vorlesungsinhalt93 5.Linked Data und Semantic Web Anwendungen 5.1.Linked Data Engineering 5.1.1.APIs vs. Linked Data 5.1.2.Linked Data Principles 5.1.3.Linked Data @Work 5.1.4.Linked Data Research Challenges 5.2.Semantische Suche Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 94. Nächste Vorlesung:94 t i c an S e m c h a r S eAlbrecht Dürer: Melancholia I, 1514 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
  • 95. 5. Linked Data & Semantic Web Anwendungen 5.1 Linked Data Engineering95 Materialien □Blog http://web-flakes.blogspot.com/ □Materialien-Webseite http://www.hpi.uni-potsdam.de/meinel/lehre/lectures_classes/ semanticweb_ws1011.html □bibsonomy - Bookmarks http://www.bibsonomy.org/user/lysander07/swt1011_13 Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam