Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA 4.0)
Presentatie door Ruben Verborgh tijdens het Connected Data Event op 2 december 2014 te Amsterdam. Deze presentatie valt onder de Creative Commons Attribution-ShareAlike 4.0 International licentie (http://creativecommons.org/licenses/by-sa/4.0/).
Duizenden brieven
vande Federale Overheid
keerden jaarlijks terug…
…omdat het adres
van het bedrijf veranderde.
Nog eens duizenden brieven
keerden jaarlijks terug…
…omdat het adres
en het bedrijf nooit hadden bestaan.
DBpedia is deLinked
versie van Wikipedia.
Gestructureerde data
wordt door een script
in triples omgezet.
http://wikipedia.org/wiki/Bill_Clinton
http://dbpedia.org/resource/Bill_Clinton
22.
DBpedia is deLinked
versie van Wikipedia.
Zo’n script wordt
geschreven door IT’ers
en is specifiek voor
iedere website.
23.
Hoe kunnen wezelf eenvoudig
data connected maken?
Hoe geven we dingen een URL?
Hoe linken we die URLs?
24.
Hoe kunnen wezelf eenvoudig
data connected maken?
gestructureerde data
ongestructureerde data
26.
Hoe kunnen wedit stuk data
linken aan andere?
Record ID: 402320
Object Title: College bed/lounge designed by John Andrews, 1965
Registration Number: 2010/9/1
Categories: Sofa-beds|Furniture
Height: 310 mm
Width: 860 mm
Depth:
Diameter:
Weight:
27.
Waar vinden wemeer over
“Sofa-beds” en “Furniture”?
LCSH: Library of Congress Subject Headings
AAT: Art and Architecture Thesaurus
DDC: Dewey Decimal Classification
Waarom zouden we
deze URL gebruiken?
“Furniture” is een tekenreeks.
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
identificeert een stuk Connected Data,
dat verbonden is met andere.
31.
Hoe gaan wevan “Furniture”
naar “LCSH Furniture”?
Record ID: 402320
Object Title: College bed/lounge designed by John Andrews, 1965
Registration Number: 2010/9/1
Categories: Sofa-beds|Furniture
Height: 310 mm
Width: 860 mm
Depth:
Diameter:
Weight:
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
32.
We queryen deLCSH-dataset
via de SPARQL-querytaal.
SELECT * WHERE {
?concept skos:prefLabel “Furniture".
}
http://id.loc.gov/authorities/subjects/
sh85052522.html#concept
33.
We hoeven ditniet manueel
te doen voor elke entry.
OpenRefine
Met een minimaleinspanning
is 90% van de dataset gelinkt. accepted for publication in Journal of the American Society for Information Science and Technology
copyright c
2012 (American Society for Information Science and Technology)
LCSH
LCSH + AAT
68.4%
81.1% 77.1%
PHM Collection
89.8% of records reconciled
AAT
http://freeyourmetadata.org/publications/
of the PHM records have been reconciled by combining the LCSH and the AAT.
37.
Hoe kunnen wezelf eenvoudig
data connected maken?
gestructureerde data
ongestructureerde data
38.
On March 15th,we visited
Washington to see
the White House.
39.
Automatisch detecteren
vanNamed Entities in tekst.
On March 15th, we visited
Washington to see
the White House.
Hoe geven wegebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
50.
Gebruikers downloaden alles,
en queryen data lokaal.
voordeel
eenvoudige interface
!
nadelen
grote bestanden
niet up-to-date
51.
Hoe geven wegebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
52.
Linked Data bestaatuit triples.
SPARQL is een triple-querytaal.
SELECT * {
?movie dbpedia-owl:starring dbpedia:Al_Gore.
?movie rdfs:label ?title.
?movie dbpedia-owl:director ?director.
}
54.
De gebruikers beslissen
wat zij willen zien.
Endpoints bieden miljoenen
triples Linked Data aan.
Iedere gebruiker kan zeggen:
“ik wil dit soort triples.”
55.
SPARQL endpoints hebben
beperkte beschikbaarheid.
If you have operational need
for SPARQL accessible data,
you must have your own infrastructure.
No public endpoints.
Public endpoints are for lookups and discovery;
sort of a dataset demo.
—Orri Erling, OpenLink (2014)
56.
Gebruikers kiezen queries
zoals ze zelf willen.
voordelen
up-to-date
uniform en flexibel te bevragen
!
nadelen
hoge kost voor de aanbieder
lage beschikbaarheid
57.
Hoe geven wegebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
Er zijn dus12.000 verschillende
manieren om hetzelfde te doen.
61.
Bouw dus vooralgeen API.
Je wil niet nummer 12.001 zijn.
“The lie of the API”
62.
APIs stellen databeschikbaar
zoals de aanbieder dit wil.
voordelen
up-to-date
goedkoop om aan te bieden
!
nadelen
duur om te bouwen en onderhouden
specifieke querysoftware nodig
63.
Hoe geven wegebruikers
toegang tot Connected Data?
data-dump
SPARQL endpoint
een eigen API
herbruikbare API
64.
Hoe kunnen weéén API maken
voor Connected Data?
goedkoop om aan te bieden
!
eenvoudig om te queryen
!
toch up-to-date
65.
De basis vanLinked Data
bestaat uit triples.
Bied data aan per triple-patroon.
Bill_Clinton ? ?
? ? Al_Gore
? knows ?
Simple servers enslimme clients
zorgen voor schaalbaarheid.
voordelen
goedkoop om aan te bieden
hoge beschikbaarheid
up-to-date data
!
nadeel
queries gaan trager
69.
Ons onderzoek bestudeert
de trade-offs tussen Web APIs.
data-dump
SPARQL
linkeddatafragments.org
triple-patronen query-resultaten
Connected Data begint
met intelligente applicaties.
Bouw geen intelligente servers.
Bouw servers die clients in staat stellen
om intelligent te reageren.
79.
Pluk het laaghangendefruit.
Wacht niet tot de hele boom rijp is.
@RubenVerborgh
ruben.verborgh.org