Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)
Upcoming SlideShare
Loading in...5
×
 

Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

on

  • 567 views

Released my (German language) habilitation talk slides on Linked Open Data under CC-BY license.

Released my (German language) habilitation talk slides on Linked Open Data under CC-BY license.

Download the slides to enjoy full animations.

Statistics

Views

Total Views
567
Views on SlideShare
566
Embed Views
1

Actions

Likes
0
Downloads
3
Comments
0

1 Embed 1

http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten) Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten) Presentation Transcript

  • Entwurfsprinzipienund Muster fürvernetzte DatenAnsgar ScherpHabilitationskolloquiumUniversität Koblenz-Landau9. November 2011 CC-BY
  • Motivation Dave plant eine Reise  von London  zum Kunden in Köln Wie geht er vor? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 2 of 42
  • Webseite der Deutschen BahnFunktioniert, aber … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 3 of 42
  • Versuchen wir andere Anfragen Engpässe im öffentlichen Personenverkehr Visualisierung der Route auf einer Karte Vergleich mit Flugverbindungen Verknüpfung mit anderen Daten Anfragen können nicht beantwortet werden Denn im Internet von heute sind die Daten … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 4 of 42
  • … eingeschlossen in Silos! Hoher Integrationsaufwand Nicht wiederverwendbar Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 5 of 42 B. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY
  • Lösung: vernetzte Daten Vernetzte Daten (engl. Linked Data) Veröffentlichung und Verknüpfung von Daten  unterschiedlicher Qualität und Zweck  aus verschiedenen Quellen im Internet Web Linked Data Entitäten Dokumente Daten Relationen Hyperlinks Typisierte Links Format HTML RDF Identität / Protokoll URI / HTTP URI / HTTP Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 6 of 42
  • Linked Data: Mai „07  Sept. „11 Web 2.0 Medien Publikationen Government Cross-Domain Lebenswissen- Geographisch schaften< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Triple Quelle: http://lod-cloud.net 7 of 42
  • Facettierte, interaktive Exploration Daten verschiedener Qualität und Herkunft: DBpedia, GeoNames, WordNet, FOAF und Flickr Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 8 of 42
  • Übersicht Motivation Prinzipien 1. Identifikation 2. Verknüpfung 3. Dereferenzierung 4. Beschreibung Muster Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 9 of 42
  • Beispiel: Big Lynx Matt Briggs Scott Miller ?Big Lynx Firma< 31 Milliarde – Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Triple Quelle: http://lod-cloud.net 10 of 42
  • 1. Verwende URIs für DingeMatt Briggs Scott Miller http://biglynx.co.uk/ people/matt-briggs http://biglynx.co.uk/ people/scott-miller B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 11 of 42
  • Beispiel: Big Lynx Matt Briggs Scott Miller Big Lynx Firma Was ist mit Relationen wie z.B. kennt ? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 12 of 42
  • Resource Description Framework (RDF) Beschreibung von Ressourcen mit RDF-Triple Spiegelt die Struktur einfacher Sätze wider, z. B. Matt Briggs ist eine Person Subjekt Prädikat Objekt Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 13 of 42
  • Beispiel in Turtle Syntax<http://biglynx.co.uk/people/matt-briggs> <http://w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> . Namensräume zum Abkürzen von URIs Etablierte Namensräume: rdf, foaf, …@prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>.@prefix foaf:<http://xmlns.com/foaf/0.1/> .<http://biglynx.co.uk/people/matt-briggs> rdf:type foaf:Person . Präfix ist im aktuellen Dokument gültig Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 14 of 42
  • 1. Verwende URIs für Relationen http://biglynx.co.uk/ people/matt-briggs http://biglynx.co.uk/ people/scott-miller Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY 15 of 42
  • Beispiel: Big Lynx Dave Smith London „lebt hier“ Matt Briggs „dieselbe Scott Miller Person“ Big Lynx … Firma DBpedia Matt Briggs Matts private Webseite Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 16 of 42
  • 2. Verknüpfungen herstellen Verknüpfen von Ressourcen mit RDF-Links  Beziehungslinks  Identitätslinks  Vokabularlinks Ermöglichen es weitere Ressourcen zu finden Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 17 of 42
  • Beziehungslinks in RDF Definieren Beziehungen zwischen Ressourcen Beispiel <http://biglynx.co.uk/people/dave-smith> foaf:based_near <http://dbpedia.org/resource/London> . Externe Beziehungslinks: Subjekt und Objekt kommen aus verschiedenen Namensräumen Interne Beziehungslinks: gleicher Namensraum biglynx:matt-briggs foaf:knows biglynx:dave-smith . Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 18 of 42
  • Identitätslinks URI-Aliase zur Verknüpfung von Datenquellen, die dieselben Dinge der realen Welt beschreiben Beispiel <http://biglynx.co.uk/people/matt-briggs> <http://www.w3.org/2002/07/owl#sameAs> <http://www.matt-briggs.eg.uk#me> . Dienst für Identitätslinks: .org Wann sind zwei Ressourcen identisch? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 19 of 42
  • Gleichheit von Entitäten Problem bekannt aus Datenbanken und Datamining K. Mayer und K. M. Mayer dieselbe Person? Auflösen von Name, Koautoren, Titel und Veranstaltungsort oftmals nicht ausreichend 413.000 DBpedia Orte mit GeoNames abgleichen Werkzeuge zur Formulierung von Heuristiken Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 20 of 42
  • Vokabularlinks Verweise auf Definitionen in eigenen und existierenden Vokabularen Ziel: Daten werden selbstbeschreibend Spezifikation eigener Vokabulare mit  RDF Vocabulary Description Language (RDFS)  Simple Knowledge Organization System (SKOS)  Web Ontology Language (OWL): typischerweise nur owl:sameAs Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 21 of 42
  • Existierende Vokabulare Friend-of-a-Friend (foaf): Personen und Beziehungen Dublin Core (dc): Metadaten wie Titel, Ersteller, Datum und Thema Programmontologie der BBC Schema.org Web-Seiten-Markup von Google, Bing und Yahoo! Facebook Graph API Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 22 of 42
  • Abgleich von Vokabularen Integration von Vokabularen Ähnlich zum Problem der Identität Beispiel: foaf:name vs. vcard:family-name Nicht trivial, selbst für ähnliche Vokabulare Domänenontologien können sehr groß sein Methoden zum Abgleich von Vokabularen und Re-Engineering Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 23 of 42
  • Beispiel: Big Lynx Dave Smith London foaf:based_near „lebt hier“ Matt Briggs „dieselbe owl:sameAs Person“ Big Lynx Firma DBpedia Matt Briggs Matts private Webseite Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 24 of 42
  • 3. Dereferenzierung von URIs Nachschlagen von URIs mittels HTTP GET Anwendbar für Dokumente und digitale Inhalte Nachschlagen von Dingen der realen Welt ? http://biglynx.co.uk/ people/matt-briggs Verschiedene URIs für Dinge und Beschreibung Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 25 of 42
  • Variante 1: 303 See OtherLinked HTTP GET (Accept: appl./rdf+xml) Big Data http://biglynx.co.uk/people/matt-briggs LynxClient Server 303 See Other http://biglynx.co.uk/people/matt-briggs.rdf HTTP GET http://biglynx.co.uk/people/matt-briggs.rdf 200 OK (Dokument in RDF)- Höhere Netzwerklatenz+ Geeignet für große Datensätze, z. B. DBpedia Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 26 of 42
  • Variante 2: Hash URIs URI enthält einen mit # getrennten Teil, z. B. http://biglynx.co.uk/vocab/sme#Team Abschneiden des #<…>-Fragmentes Verbleibende URI dereferenzieren Beschreibung mehrerer Ressourcen, u. A. Team - Höhere Datenübertragung + Geeignet zum Empfang ganzer Vokabulare Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 27 of 42
  • Beispiel: Big Lynx Dave Smith London foaf:based_near Matt Briggs owl:sameAs Big Lynx Firma DBpedia Matt Briggs Matts private Beschreibung Webseite von Matt? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 28 of 42
  • 4. Beschreibung von URIs Dereferenzierung einer Ressource Liefert eine Beschreibung in RDF zurück Was ist eine sinnvolle Beschreibung? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 29 of 42
  • Beispiel: Beschreibung von Matt foaf:Person …… dp:Birmingham rdf:type … foaf:based_near biglynx:matt-briggs ex:loc _:point foaf:knows wgs84: wgs84: long biglynx:dave-smith lat “-0.118” foaf:based_near “51.509” dp:London … … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 30 of 42
  • Concise Bounded Description Gegeben ein RDF-Graph G = (V, P, E) mit  V = R B L endliche Knotenmenge aus ∩ ∩ Ressourcen R, Blank-Nodes B und Literale L  P endliche Menge an Prädikaten ∩  E R B x P x V Menge typisierter Kanten Startknoten n R Blank-Node: eindeutige Ressource, ohne URI Literal: XSD-typisiertes Objekt (z. B. string, int) Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 31 of 42
  • Concise Bounded Description Einfache Concise Bounded Description (CBD) ∞ ∩ SimpleCBD(n) = I j mit j=0 I 0 = { (s, p, o) | (s, p, o) E s=n} I j+1 = { (o, p‘, o‘) E| (s, p, o) Ij : o B ∩j (o, p‘, o‘) Ik} k=0 Weitere CBDs berücksichtigen bspw. noch RDF-Reifikation, Symmetrie und RDF-Label Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 32 of 42
  • Beispiel: Beschreibung von Matt foaf:Person …… dp:Birmingham rdf:type … foaf:based_near biglynx:matt-briggs ex:loc _:point foaf:knows wgs84: wgs84: long biglynx:dave-smith lat “-0.118” foaf:based_near “51.509” dp:London … … Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 33 of 42
  • Datensätze beschreiben mit voiD Profile der Mitarbeiter sind gebündelt zu einem großen Datensatz <http://biglynx.co.uk/datasets/people> rdf:type void:Dataset; dc:hasPart <http://biglynx.co.uk/people/dave-smith.rdf>; dc:isPartOf <http://biglynx.co.uk/datasets/all>. … voiD hat keine explizite Schemainformation Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 34 of 42
  • Schemaextraktion Finde Quellen mit bestimmten Datentypen Erkenne die Verknüpfung von Datenquellen Präzise Indexstrukturen benötigt Beispielsweise für RDF-Typen, Typ-Cluster und prädikatsbasierte Äquivalenzklassen Ermöglicht verteilte Anfragen auf der Linked-Data-Wolke Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 35 of 42
  • Übersicht Motivation Prinzipien 1. Identifikation 2. Verknüpfung 3. Dereferenzierung 4. Beschreibung Muster Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 36 of 42
  • Muster in vernetzten Daten Generische Lösung für ein wiederkehrendes Modellierungsproblem Klare Kommunikation durch festgelegte Begriffe (Oft) eher Best Practices als Muster [Dodds und Davis, 2011] Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 37 of 42
  • Muster: Topic Autodiscovery Problem  Web-Seiten handeln oft von einem bestimmten Thema Lösung  Einbetten eines <link>-Elements <link rel="primarytopic" href="http://dbpedia.org/resource/London"/> Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 38 of 42
  • Muster: Reified Statement Problem  Modellierung von „Aussagen über Aussagen“  Triple annotieren mit Autor, Datum der Erstellung usw. Lösung  Beschreibung von Graphänderungen mit herkömmlicher RDF-Reifikation Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 39 of 42
  • Beispiel: Reified Statement rdf:Statement rdf:type dc:created _:ex1 "2011-10-28" rdf:subject rdf:object rdf:predicate ex:/book/1 biglynx: matt-briggs foaf:maker Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 40 of 42
  • Muster: Qualified Relation Relation mit zwei gleichberechtigen Ressourcen Spezieller Fall des Musters N-ary Relation Beispiel _:mattMaryMarriage rdf:type ex:Marriage; ex:partner biglynx:matt-briggs; ex:partner ex:mary; ex:date "2010-08-06"^^xsd:date . Warum nicht als Reified Statement? Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 41 of 42
  • Zusammenfassung Veröffentlichung und Verknüpfung von Daten  Einheitliches Datenmodell RDF  Beschreiben und Auffinden von Daten  Web-Standards wie URI und HTTP Herausforderungen  Identität und Verknüpfung von Ressourcen  Abgleich von Vokabularen  Extrahieren von Schemata  Intuitiv benutzbare Anwendungen Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 42 of 42
  • Literaturhttp://linkeddatabook.com/ http://patterns.dataincubator.org/ Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 43 of 42
  • Weitere Literatur T. Berners-Lee: Linked Data, June, 2009. URL: http://www.w3.org/DesignIssues/LinkedData.html T. Berners-Lee: Cool URIs dont change, 1998. URL: http://www.w3.org/Provider/Style/URI M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective Intelligence on the Web. In: Informatik Spektrum, Springer, 2011. F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL: http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/ P. Stickler: CBD - Concise Bounded Description, 2005. URL: http://www.w3.org/Submission/CBD/ Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL: http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009. Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 44 of 42