16. DINI-Jahrestagung: Linked Data und Repositorien
Linked Open (Library) Data
1. Linked Open (Library) Data
Fabian Fürste
Universitätsbibliothek TU Berlin
12.12.12
http://bit.ly/RuxQIC
2. Der Typ da vorne …
• Web-Anwendungen an der Universitätsbibliothek der TU Berlin
• Momentaner Schwerpunkt: Forschungsdaten, Repositorien
• Bibliothekswissenschaft & Neueste Geschichte an der HU Berlin
• > 10 Jahre Webentwicklung
• Idee:
Anwendung, die bibliographische Daten analysieren und visuell darstellen
kann
• Problem:
kein Zugriff auf Testdaten
8. Semantic Web
“The Semantic Web is not a separate Web but an extension of the current
one, in which information is given well-defined meaning, better enabling
computers and people to work in cooperation.”
“In the near future, these developments will usher in significant new
functionality as machines become much better able to process and
‘understand’ the data that they merely display at present.”
“The Semantic Web will bring structure to the meaningful content
of Web pages, creating an environment where software agents roaming
from page to page can readily carry out sophisticated tasks for users.”
http://www.scientificamerican.com/article.cfm?id=the-semantic-web
9. Knowledge Web
„With the Knowledge Web, …
• humanity's accumulated store of information will become more accessible, more
manageable, and more useful.
• anyone who wants to learn will be able to find the best and the most meaningful
explanations of what they want to know.
• anyone with something to teach will have a way to reach those who want to learn.
• teachers will move beyond their present role as dispensers of information and
become guides, mentors, facilitators, and authors.
The Knowledge Web will make us all smarter.
The Knowledge Web is an idea whose time has come.“
http://www.edge.org/3rd_culture/hillis04/hillis04_index.html
12. … oder einfach nur …
Linked Data
=
best practice
zur standardisierten und webbasierten
Veröffentlichung von Daten
13. … oder einfach nur …
Linked Data
Beispiele
RelFinder
Sig.ma
14. RDF 1999
• Resource Description Framework
• grundsätzliches und einfaches Datenmodell
• für die Beschreibung von Dingen und Objekten (Resource Description)
• Notation über XML oder andere Formate
• Idee:
jeder faktische Sachverhalt kann analog zur (westlichen) Sprache über die
Bestandteile Subjekt-Prädikat-Objekt beschrieben werden
• Ziel:
mehr Interoperabilität zwischen Daten
15. RDF 1999
Aussagen-Statements in Tripel-Form
Subjekt Prädikat Objekt
1. Die Ressource XY ist vom Typ Buch.
2. Die Ressource XY trägt den Titel „Der Steppenwolf“.
3. Die Ressource XY wurde geschrieben von Hermann Hesse.
4. Die Ressource XY hat einen Umfang von 270 Seiten.
5. Die Ressource XY besitzt die ISBN-Nummer 978-3-51806-675-1.
22. Exkurs: XML
• Extensible Markup Language
• lingua franca des standardisierten Datenaustauschs im Web
• Unterstützung von Namensräumen
• Unterstützung von Umwandlungen einer XML-Struktur in eine beliebige andere
XML-Struktur (XSLT)
<buch>
<titel> Der Steppenwolf </titel>
<autor> Hermann Hesse </autor>
<seitenzahl> 270 </seitenzahl>
</buch>
24. RDFS, OWL, SKOS
• Vokabulare ermöglichen die Modellierung von Wissen
• 2 Ebenen:
1. Modellebene (Vokabulare)
Konzepte, Klassen und Beziehungen für die Beschreibung von
Ressourcen/Objekten
2. Instanzebene (Datensets)
anhand der Vokabulare beschriebene Ressourcen/Objekte
25. RDFS, OWL, SKOS
RDF Schema (RDFS)
• grundlegendes Set an Elementen, um Relationen darstellen zu können
• Class, subClassOf, seeAlso, label, …
Web Ontology Language (OWL)
• mächtige Sprache zur Formalisierung von Beziehungen
• sameAs, Transitivität (Vererbung), Umkehrungen, Wertebereiche, …
Simple Knowledge Organization System (SKOS)
• Elemente zur Darstellung von Konzepten und ihren Hierarchien und Relationen
untereinander in Taxonomien, Thesauri, Klassifikationen
• narrower, broader, related, …
29. Vokabulare
• Dublin Core (DC)
– elementares Set an Prädikaten zur Auszeichnung v. Dokumenteninformation
– title, creator, date, subject, …
• Friend Of A Friend (FOAF)
– Prädikate zur Beschreibung von Personen und Organisationen
– http://xmlns.com/foaf/0.1/
– Person, Organization, givenName, familyName, …
• Bio
– Prädikate zur Beschreibung von Lebensereignissen von Personen
– http://purl.org/vocab/bio/0.1/
– Birth, Death, Mother, Father, Marriage, Divorce, …
• Geo
– Properties für die Beschreibung von Orten
– http://www.w3.org/2003/01/geo/
– lat (Latitude), long (Longitude), …
30. Vokabulare
• Bibliographic Ontology (Bibo)
– offenes und community-getriebenes Vokabular
– zur Beschreibung von bibliographischen Objekten
– http://bibliontology.com/
– Document, Book, Chapter, Proceedings, Journal, pages, …
• FRBRcore (frbr)
– frühe Abbildung der Functional Requirements for Bibliographic Records in RDF
(2005, nicht mehr weiterentwickelt)
– http://vocab.org/frbr/core.html
– Work, Expression, Manifestation, reproductionOf, LegalWork, …
• Resource Description & Access (RDA)
– Neuentwicklung eines bibliographischen Regelwerks unter Einbeziehung von
FRBR als Linked Data
– Kritik
– Einführung steht bevor
31. Datensets
• Dbpedia
– Fakten aus der Wikipedia in RDF (v.a. Infoboxen)
– fungiert als zentrales Drehkreuz für RDF-Links
– verschiedene Sprachversionen
– enthält URIs für 3.7 Mio. “Dinge” und eine eigene Ontologie
– Beispiel: http://dbpedia.org/resource/Chur
• lobid.org Organisationen
– Bibliothekssigel-Verzeichnis in RDF
– experimenteller Dienst des hbz Köln
– Beispiel: http://lobid.org/organisation/CH-000805-8/about
• Geonames API
– Geographische Information in RDF aus verschiedenen Quellen
– Beispiel:
http://api.geonames.org/search?q=chur&type=rdf&maxRows=10&lang=de&username=d
32. SPARQL
• Abfragesprache, ähnlich SQL
• „Zu versuchen, das semantische Web ohne SPARQL zu nutzen ist wie der
Versuch, relationale Datenbanken ohne SQL zu benutzen“ (TBL)
• Abfrage von Tripelstores
• Möglichkeit, neue RDF-Tripel aus Ergebnissen zu generieren
33. SPARQL
• Abfragesprache, ähnlich SQL
• „Zu versuchen, das semantische Web ohne SPARQL zu nutzen ist wie der
Versuch, relationale Datenbanken ohne SQL zu benutzen“ (TBL)
• Abfrage von Tripelstores
Tripelstore (schematische Darstellung)
35. SPARQL
http://sparql.freeyourmetadata.org/
Graph: http://viaf.org/viaf/41841418/rdf.xml
SELECT ?s ?p ?o WHERE {
?s ?p ?o .
} ORDER BY ?p
LIMIT 50
SELECT ?s ?o WHERE {
?s <http://www.w3.org/2002/07/owl#sameAs> ?o .
} ORDER BY ?s
LIMIT 10
36. Die 4 Regeln für Linked Data
1. Verwende zur Bezeichnung von Objekten URIs.
2. Verwende HTTP URIs, so dass sich die Bezeichnungen nachschlagen lassen.
3. Stelle zweckdienliche Informationen bereit, wenn jemand eine URI nachschlägt
(mittels der Standards RDF und SPARQL)
4. Zu diesen Informationen gehören insbesondere Links auf andere URIs, über die
weitere Objekte entdeckt werden können.
Quelle: Tim Berners-Lee, Linked Data Design Issues, 2006
37. RDFa
• hybrider Ansatz
• Vereinigung von HTML-Markup und Linked Data in 1 Darstellung
• konkurriert mit Microdata & Microformats
• HTML5-valide
• Visualisierung: http://rdfa.info/play/
39. All together now …
Linked Data …
• … sind eine Erweiterung des WWW um strukturierte Daten
• … sind Daten, in denen realen “Dingen” repräsentative Adressen im Web
zugeordnet werden (URIs), über Vokabulare beschrieben werden und
maschinenlesbar veröffentlicht werden.
• … sind dem URI-Prinzip verpflichtet
• … sind auf Aussagen nach dem Muster Subjekt-Prädikat-Objekt aufgebaut
• … ermöglichen die Abfrage von weit verteilten und heterogenen Daten aus
unterschiedlichsten Bereichen über eine Schnittstelle (SPARQL)
• … sind generisch in XML oder eingebettet in HTML nutzbar
42. Entwicklungen
Open Data
“The coolest thing to do with your data
will be thought of by someone else”
Rufus Pollock, Open Knowledge Foundation
43. Entwicklungen
Open Data
USA
http://www.data.gov/
http://nycopendata.tumblr.com/
UK
http://www.data.gov.uk/
http://www.fixmystreet.com
Schweiz
http://opendata.ch/
http://make.opendata.ch/doku.php?id=project:wheredidmytaxesgo
Datenjournalismus
http://www.opendatacity.de/
44. Entwicklungen
Open Data
Lizenzmodelle
CC0
(Creative Commons)
Gemeinfreiheit der Daten (Public Domain)
völliger Verzicht auf Rechtsansprüche
ODC
(Open Data Commons)
speziell für Daten und Datenbanken geschrieben
Verzicht auf Gemeinfreiheit der Daten
Beispiel: OpenStreetMap
61. LOD in Bibliotheken
• vielerorts Freigabe von bibliographischen Daten durch Bibliotheken, Verbünde und
Nationalbibliotheken
• LoC-Initiative zur Schaffung eines bibliographischen Rahmenmodells (BibFrame)
• Konferenz „Semantic Web in Bibliotheken“ in der 4. Auflage 2012
• LODLAM Challenges 2013
62. LOD in Bibliotheken
• bibliographische Metadaten
• Normdaten (Personen, Körperschaften, Schlagworte)
Besondere Herausforderungen:
• fehlende Granularität
• keine eineindeutige globale Identifizierung
• aufwändige Verknüpfung von Datensätzen
• aufwändige Erfassung von digitalen Objekten
• schwierige Erweiterbarkeit
• anzeigeorientiert, Katalogkarte nachahmend
• in natürlicher Sprache der verschiedenen Sprachkreise formuliert
• unflexibel
65. LOD in Bibliotheken
LDR-1 L 00000nM2.01200024------h
FMT-1 L MH
001-1 L $$aBV024483282
003-1 L $$a20091117
026-1 L $$aBVBBV024483282
027-1 L $$aTU002674438
030-1 L a|5dc||||||17
037b1 L $$ager
050-1 L a|||||||||||||
051-1 L sz|||||
070b1 L $$aDE-12
080-1 L $$a05
100-1 L $$pHesse, Hermann$$d1877-1962$$9(DE-588)11855042X
331-1 L $$a<<Der>> Steppenwolf
359-1 L $$aHermann Hesse
403-1 L $$a244. - 251. Tsd.
410-1 L $$aFrankfurt am Main
412-1 L $$aSuhrkamp
425-1 L $$a1978
425a1 L $$a1978
433-1 L $$a237 S.
451-1 L $$aBibliothek Suhrkamp ; 226
453r1 L $$aBV000003123
455-1 L $$a226
456-1 L $$a226
700g1 L $$aGM 3668
[. . .]
66. LOD in Bibliotheken
“We, the participants of ELAG 2011,
hold these truths to be self-evident,
that MARC must die,
and that Linked Open Data is the future.”
(Anders Söderbäck, LIBRIS)
69. The Big Picture
• Zukunft von
a) Katalogisierung
b) inhaltlicher Sacherschließung
• Forschungsdaten: Verknüpfung von Publikationen mit Primärdatensätzen,
Modellen, …
• Wer hat relevante und wertvolle Vokabulare / Daten für eine OA-
Veröffentlichung?
• Lizenzen: Wer hält die Rechte an diesen Daten?
• Was ist überhaupt ein Datensatz?
• Wie kann das technische Know How in Bibliotheken und Verbünden gestärkt
werden?
• Ist das Bibliothekswesen technisch überhaupt reformierbar? ;)
• Wie könnten konkrete Anwendungsszenarien in Gedächtnisinstitutionen
aussehen?
70. Perspektiven: Anwender
• semantische Suche unter Einschluss von:
• anderen Sprachen
• synonymen Begriffen
• verwandten Themen
• automatisierte Anreicherung von Bibliotheksinhalten mit Webinhalten
• Integration von Bibliotheksinhalten in das Primärmedium der Nutzer
• Ende des bibliothekarischen Elfenbeinturms: wir werden endlich Teil des
Informationsraums WWW
• die Daten müssen zu den Nutzern, nicht die Nutzer zu den Daten kommen
• vereinfachte Integration von Webdiensten, Nutzungsstatistiken, nutzergenerierten
Annotationen, …
• wesentlich verbessere Filter- und Navigationsmöglichkeiten
71. Perspektiven: Bibliotheken
• Etablierung von Bibliotheken als Player im Informationsraum WWW
• Öffnung von Bibliotheken hin zu nicht-bibliothekarischen Inhalten:
• ausgesuchte automatisierte Anreicherungen:
Wikipedia, Rezensionen, Titelbilder, Nutzerannotationen, Inhaltsverzeichnisse,
Volltexte, Hintergrundwissen, …
• Bibliotheken als Kuratoren qualitativ hochwertiger Information
• Vermeidung von Redundanz:
• einfache Übernahme von Daten über Verbund-, Länder- und Kulturgrenzen noch
mehr Kooperation: Teilen, Erweitern, Wiederverwenden
• Erstellung automatisierter und tagesaktueller Zusammenstellungen:
• z.B. Fach- und Hochschulbibliographien
72. Perspektiven: Bibliotheken
• mehr Unabhängigkeit von Systemherstellern und bei der Auswahl von
Softwarewerkzeugen
• eventuell: höhere Attraktivität von Bibliotheken für technisches Personal
Verbesserte Evaluationsmöglichkeiten (v.a. föderale Bibliotheksinfrastrukturen)
Daten in bibliographischen Datensätzen, die sich für eine Verlinkung eignen:
Personen
Organisationen
Datumsangaben
geographische Informationen
Statistiken: Ausleihen, Verlängerungen
74. Links & Literatur
On The Record, Working Group on the Future of Bibliographic Control, 2008
http://www.loc.gov/bibliographic-future/news/
Library Linked Data Incubator Group Final Report, W3C Incubator Group Report,
2011
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/
futurelib: Designing the future -- Library Systems and Data Formats
http://futurelib.pbworks.com/w/page/13686657/FrontPage
Übersicht: Bibliographische und bibliothekarische Daten
http://thedatahub.org/group/bibliographic
http://thedatahub.org/group/lld
„Linked Library Data“ Mailingliste des W3C
http://lists.w3.org/Archives/Public/public-lld/