Creëren, aanbieden 
en gebruiken van 
Connected Data 
Ruben Verborgh
Kruispuntbank van Ondernemingen 
FEDERAAL
Adressendatabanken 
REGIONAAL
Duizenden brieven 
van de Federale Overheid 
keerden jaarlijks terug… 
…omdat het adres 
van het bedrijf veranderde. 
Nog eens duizenden brieven 
keerden jaarlijks terug… 
…omdat het adres 
en het bedrijf nooit hadden bestaan.
Kruispuntbank van Ondernemingen 
FEDERAAL 
Adressendatabanken 
REGIONAAL
Postdoctoraal onderzoeker 
aan Universiteit Gent – iMinds 
Semantic Web 
Linked Data 
Web APIs 
Ruben Verborgh 
Schaalbare toegang 
tot Linked Data
Connected Data 
creëren 
aanbieden 
gebruiken
Connected Data 
objecten 
databronnen 
metadata 
services
Linked Data
Linked Data 
Bill 
knows 
Al
Linked Data 
http://dbpedia.Bill 
org/resource/Bill_Clinton 
http://xmlns.com/foaf/0.1/knows 
Al 
knows 
http://dbpedia.org/resource/Al_Gore
Linked Data 
http://dbpedia.org/resource/Bill_Clinton 
http://xmlns.com/foaf/0.1/knows 
http://dbpedia.org/resource/Al_Gore
Linked Data 
wederzijdse relatie tussen personen 
http://xmlns.com/foaf/0.1/knows
Linked Data 
http://xmlns.com/foaf/0.1/Person 
http://dbpedia.org/resource/Bill_Clinton 
http://xmlns.com/foaf/0.1/knows 
http://dbpedia.org/resource/Al_Gore 
http://xmlns.com/foaf/0.1/Person
Linked Data 
Bill 
knows 
Al
Connected Data 
creëren 
aanbieden 
gebruiken
Weinig data wordt 
connected geboren. 
http://dbpedia.org/resource/Bill_Clinton
Weinig data wordt 
connected geboren.
DBpedia is de Linked 
versie van Wikipedia. 
Gestructureerde data 
wordt door een script 
in triples omgezet. 
http://wikipedia.org/wiki/Bill_Clinton 
http://dbpedia.org/resource/Bill_Clinton
DBpedia is de Linked 
versie van Wikipedia. 
Zo’n script wordt 
geschreven door IT’ers 
en is specifiek voor 
iedere website.
Hoe kunnen we zelf eenvoudig 
data connected maken? 
Hoe geven we dingen een URL? 
Hoe linken we die URLs?
Hoe kunnen we zelf eenvoudig 
data connected maken? 
gestructureerde data 
ongestructureerde data
Hoe kunnen we dit stuk data 
linken aan andere? 
Record ID: 402320 
Object Title: College bed/lounge designed by John Andrews, 1965 
Registration Number: 2010/9/1 
Categories: Sofa-beds|Furniture 
Height: 310 mm 
Width: 860 mm 
Depth: 
Diameter: 
Weight:
Waar vinden we meer over 
“Sofa-beds” en “Furniture”? 
LCSH: Library of Congress Subject Headings 
AAT: Art and Architecture Thesaurus 
DDC: Dewey Decimal Classification
Waar vinden we meer over 
“Sofa-beds” en “Furniture”?
Waar vinden we meer over 
“Sofa-beds” en “Furniture”?
Waarom zouden we 
deze URL gebruiken? 
“Furniture” is een tekenreeks. 
http://id.loc.gov/authorities/subjects/ 
sh85052522.html#concept 
identificeert een stuk Connected Data, 
dat verbonden is met andere.
Hoe gaan we van “Furniture” 
naar “LCSH Furniture”? 
Record ID: 402320 
Object Title: College bed/lounge designed by John Andrews, 1965 
Registration Number: 2010/9/1 
Categories: Sofa-beds|Furniture 
Height: 310 mm 
Width: 860 mm 
Depth: 
Diameter: 
Weight: 
http://id.loc.gov/authorities/subjects/ 
sh85052522.html#concept
We queryen de LCSH-dataset 
via de SPARQL-querytaal. 
SELECT * WHERE { 
?concept skos:prefLabel “Furniture". 
} 
http://id.loc.gov/authorities/subjects/ 
sh85052522.html#concept
We hoeven dit niet manueel 
te doen voor elke entry. 
OpenRefine
OpenRefine is zoals Excel 
voor grote hoeveelheden data.
OpenRefine kan automatisch 
queries uitvoeren voor links.
Met een minimale inspanning 
is 90% van de dataset gelinkt. accepted for publication in Journal of the American Society for Information Science and Technology 
copyright c 
2012 (American Society for Information Science and Technology) 
LCSH 
LCSH + AAT 
68.4% 
81.1% 77.1% 
PHM Collection 
89.8% of records reconciled 
AAT 
http://freeyourmetadata.org/publications/ 
of the PHM records have been reconciled by combining the LCSH and the AAT.
Hoe kunnen we zelf eenvoudig 
data connected maken? 
gestructureerde data 
ongestructureerde data
On March 15th, we visited 
Washington to see 
the White House.
Automatisch detecteren 
van Named Entities in tekst. 
On March 15th, we visited 
Washington to see 
the White House.
Automatisch disambigueren 
van Named Entities in tekst.
Automatisch disambigueren 
van Named Entities in tekst. 
On March 15th, we visited 
Washington to see 
the White House.
OpenRefine kan automatisch 
disambigueren via Web services.
Zelfs als niet IT-specialist 
kan je Connected Data maken. 
Misschien niet voor 100% 
van de data, 
maar toch heel goedkoop 
voor 80% à 90%.
gratis tutorials
Using OpenRefine 
! 
Ruben Verborgh 
Max De Wilde 
gratis starthoofdstuk
Linked Data 
for Libraries, 
Archives and Museums 
! 
Seth van Hooland 
Ruben Verborgh 
gratis starthoofdstuk
Connected Data 
creëren 
aanbieden 
gebruiken
Hoe geven we gebruikers 
toegang tot Connected Data? 
data-dump 
SPARQL endpoint 
een eigen API 
herbruikbare API
Gebruikers downloaden alles, 
en queryen data lokaal. 
voordeel 
eenvoudige interface 
! 
nadelen 
grote bestanden 
niet up-to-date
Hoe geven we gebruikers 
toegang tot Connected Data? 
data-dump 
SPARQL endpoint 
een eigen API 
herbruikbare API
Linked Data bestaat uit triples. 
SPARQL is een triple-querytaal. 
SELECT * { 
?movie dbpedia-owl:starring dbpedia:Al_Gore. 
?movie rdfs:label ?title. 
?movie dbpedia-owl:director ?director. 
}
De gebruikers beslissen 
wat zij willen zien. 
Endpoints bieden miljoenen 
triples Linked Data aan. 
Iedere gebruiker kan zeggen: 
“ik wil dit soort triples.”
SPARQL endpoints hebben 
beperkte beschikbaarheid. 
If you have operational need 
for SPARQL accessible data, 
you must have your own infrastructure. 
No public endpoints. 
Public endpoints are for lookups and discovery; 
sort of a dataset demo. 
—Orri Erling, OpenLink (2014)
Gebruikers kiezen queries 
zoals ze zelf willen. 
voordelen 
up-to-date 
uniform en flexibel te bevragen 
! 
nadelen 
hoge kost voor de aanbieder 
lage beschikbaarheid
Hoe geven we gebruikers 
toegang tot Connected Data? 
data-dump 
SPARQL endpoint 
een eigen API 
herbruikbare API
Er bestaan reeds 
meer dan 12.000 Web APIs.
Er zijn dus 12.000 verschillende 
manieren om hetzelfde te doen.
Bouw dus vooral geen API. 
Je wil niet nummer 12.001 zijn. 
“The lie of the API”
APIs stellen data beschikbaar 
zoals de aanbieder dit wil. 
voordelen 
up-to-date 
goedkoop om aan te bieden 
! 
nadelen 
duur om te bouwen en onderhouden 
specifieke querysoftware nodig
Hoe geven we gebruikers 
toegang tot Connected Data? 
data-dump 
SPARQL endpoint 
een eigen API 
herbruikbare API
Hoe kunnen we één API maken 
voor Connected Data? 
goedkoop om aan te bieden 
! 
eenvoudig om te queryen 
! 
toch up-to-date
De basis van Linked Data 
bestaat uit triples. 
Bied data aan per triple-patroon. 
Bill_Clinton ? ? 
? ? Al_Gore 
? knows ?
De client van de gebruiker 
lost complexe vragen op. 
SELECT * { 
?movie dbpedia-owl:starring dbpedia:Al_Gore. 
?movie rdfs:label ?title. 
?movie dbpedia-owl:director ?director. 
}
Simple servers en slimme clients 
zorgen voor schaalbaarheid. 
voordelen 
goedkoop om aan te bieden 
hoge beschikbaarheid 
up-to-date data 
! 
nadeel 
queries gaan trager
Ons onderzoek bestudeert 
de trade-offs tussen Web APIs. 
data-dump 
SPARQL 
linkeddatafragments.org 
triple-patronen query-resultaten
Connected Data 
creëren 
aanbieden 
gebruiken
Op welke manieren kunnen 
we Connected Data gebruiken? 
offline 
zoals een databank 
zoals het Web
Download alles lokaal, 
en doe zoals gewoonlijk.
Op welke manieren kunnen 
we Connected Data gebruiken? 
offline 
zoals een databank 
zoals het Web
De databank-filosofie: 
vraag—wacht—doe. 
MySQL 
database 
Resultaat
De databank-filosofie: 
vraag—wacht—doe. 
SPARQL 
endpoint 
Resultaat
Op welke manieren kunnen 
we Connected Data gebruiken? 
offline 
zoals een databank 
zoals het Web
De Web-filosofie: 
vraag—doe terwijl data stroomt. 
Resultaat Resultaat
Connected Data begint 
met intelligente applicaties. 
Bouw geen intelligente servers. 
Bouw servers die clients in staat stellen 
om intelligent te reageren.
Pluk het laaghangende fruit. 
Wacht niet tot de hele boom rijp is. 
@RubenVerborgh 
ruben.verborgh.org

Ruben Verborgh - Creëren, aanbieden en gebruiken van Connected Data (CC BY-SA 4.0)

  • 1.
    Creëren, aanbieden engebruiken van Connected Data Ruben Verborgh
  • 3.
  • 4.
  • 5.
    Duizenden brieven vande Federale Overheid keerden jaarlijks terug… …omdat het adres van het bedrijf veranderde. Nog eens duizenden brieven keerden jaarlijks terug… …omdat het adres en het bedrijf nooit hadden bestaan.
  • 6.
    Kruispuntbank van Ondernemingen FEDERAAL Adressendatabanken REGIONAAL
  • 7.
    Postdoctoraal onderzoeker aanUniversiteit Gent – iMinds Semantic Web Linked Data Web APIs Ruben Verborgh Schaalbare toegang tot Linked Data
  • 9.
    Connected Data creëren aanbieden gebruiken
  • 10.
    Connected Data objecten databronnen metadata services
  • 11.
  • 12.
  • 13.
    Linked Data http://dbpedia.Bill org/resource/Bill_Clinton http://xmlns.com/foaf/0.1/knows Al knows http://dbpedia.org/resource/Al_Gore
  • 14.
    Linked Data http://dbpedia.org/resource/Bill_Clinton http://xmlns.com/foaf/0.1/knows http://dbpedia.org/resource/Al_Gore
  • 15.
    Linked Data wederzijdserelatie tussen personen http://xmlns.com/foaf/0.1/knows
  • 16.
    Linked Data http://xmlns.com/foaf/0.1/Person http://dbpedia.org/resource/Bill_Clinton http://xmlns.com/foaf/0.1/knows http://dbpedia.org/resource/Al_Gore http://xmlns.com/foaf/0.1/Person
  • 17.
  • 18.
    Connected Data creëren aanbieden gebruiken
  • 19.
    Weinig data wordt connected geboren. http://dbpedia.org/resource/Bill_Clinton
  • 20.
    Weinig data wordt connected geboren.
  • 21.
    DBpedia is deLinked versie van Wikipedia. Gestructureerde data wordt door een script in triples omgezet. http://wikipedia.org/wiki/Bill_Clinton http://dbpedia.org/resource/Bill_Clinton
  • 22.
    DBpedia is deLinked versie van Wikipedia. Zo’n script wordt geschreven door IT’ers en is specifiek voor iedere website.
  • 23.
    Hoe kunnen wezelf eenvoudig data connected maken? Hoe geven we dingen een URL? Hoe linken we die URLs?
  • 24.
    Hoe kunnen wezelf eenvoudig data connected maken? gestructureerde data ongestructureerde data
  • 26.
    Hoe kunnen wedit stuk data linken aan andere? Record ID: 402320 Object Title: College bed/lounge designed by John Andrews, 1965 Registration Number: 2010/9/1 Categories: Sofa-beds|Furniture Height: 310 mm Width: 860 mm Depth: Diameter: Weight:
  • 27.
    Waar vinden wemeer over “Sofa-beds” en “Furniture”? LCSH: Library of Congress Subject Headings AAT: Art and Architecture Thesaurus DDC: Dewey Decimal Classification
  • 28.
    Waar vinden wemeer over “Sofa-beds” en “Furniture”?
  • 29.
    Waar vinden wemeer over “Sofa-beds” en “Furniture”?
  • 30.
    Waarom zouden we deze URL gebruiken? “Furniture” is een tekenreeks. http://id.loc.gov/authorities/subjects/ sh85052522.html#concept identificeert een stuk Connected Data, dat verbonden is met andere.
  • 31.
    Hoe gaan wevan “Furniture” naar “LCSH Furniture”? Record ID: 402320 Object Title: College bed/lounge designed by John Andrews, 1965 Registration Number: 2010/9/1 Categories: Sofa-beds|Furniture Height: 310 mm Width: 860 mm Depth: Diameter: Weight: http://id.loc.gov/authorities/subjects/ sh85052522.html#concept
  • 32.
    We queryen deLCSH-dataset via de SPARQL-querytaal. SELECT * WHERE { ?concept skos:prefLabel “Furniture". } http://id.loc.gov/authorities/subjects/ sh85052522.html#concept
  • 33.
    We hoeven ditniet manueel te doen voor elke entry. OpenRefine
  • 34.
    OpenRefine is zoalsExcel voor grote hoeveelheden data.
  • 35.
    OpenRefine kan automatisch queries uitvoeren voor links.
  • 36.
    Met een minimaleinspanning is 90% van de dataset gelinkt. accepted for publication in Journal of the American Society for Information Science and Technology copyright c 2012 (American Society for Information Science and Technology) LCSH LCSH + AAT 68.4% 81.1% 77.1% PHM Collection 89.8% of records reconciled AAT http://freeyourmetadata.org/publications/ of the PHM records have been reconciled by combining the LCSH and the AAT.
  • 37.
    Hoe kunnen wezelf eenvoudig data connected maken? gestructureerde data ongestructureerde data
  • 38.
    On March 15th,we visited Washington to see the White House.
  • 39.
    Automatisch detecteren vanNamed Entities in tekst. On March 15th, we visited Washington to see the White House.
  • 40.
    Automatisch disambigueren vanNamed Entities in tekst.
  • 41.
    Automatisch disambigueren vanNamed Entities in tekst. On March 15th, we visited Washington to see the White House.
  • 42.
    OpenRefine kan automatisch disambigueren via Web services.
  • 43.
    Zelfs als nietIT-specialist kan je Connected Data maken. Misschien niet voor 100% van de data, maar toch heel goedkoop voor 80% à 90%.
  • 44.
  • 45.
    Using OpenRefine ! Ruben Verborgh Max De Wilde gratis starthoofdstuk
  • 46.
    Linked Data forLibraries, Archives and Museums ! Seth van Hooland Ruben Verborgh gratis starthoofdstuk
  • 47.
    Connected Data creëren aanbieden gebruiken
  • 48.
    Hoe geven wegebruikers toegang tot Connected Data? data-dump SPARQL endpoint een eigen API herbruikbare API
  • 50.
    Gebruikers downloaden alles, en queryen data lokaal. voordeel eenvoudige interface ! nadelen grote bestanden niet up-to-date
  • 51.
    Hoe geven wegebruikers toegang tot Connected Data? data-dump SPARQL endpoint een eigen API herbruikbare API
  • 52.
    Linked Data bestaatuit triples. SPARQL is een triple-querytaal. SELECT * { ?movie dbpedia-owl:starring dbpedia:Al_Gore. ?movie rdfs:label ?title. ?movie dbpedia-owl:director ?director. }
  • 54.
    De gebruikers beslissen wat zij willen zien. Endpoints bieden miljoenen triples Linked Data aan. Iedere gebruiker kan zeggen: “ik wil dit soort triples.”
  • 55.
    SPARQL endpoints hebben beperkte beschikbaarheid. If you have operational need for SPARQL accessible data, you must have your own infrastructure. No public endpoints. Public endpoints are for lookups and discovery; sort of a dataset demo. —Orri Erling, OpenLink (2014)
  • 56.
    Gebruikers kiezen queries zoals ze zelf willen. voordelen up-to-date uniform en flexibel te bevragen ! nadelen hoge kost voor de aanbieder lage beschikbaarheid
  • 57.
    Hoe geven wegebruikers toegang tot Connected Data? data-dump SPARQL endpoint een eigen API herbruikbare API
  • 58.
    Er bestaan reeds meer dan 12.000 Web APIs.
  • 59.
    Er zijn dus12.000 verschillende manieren om hetzelfde te doen.
  • 61.
    Bouw dus vooralgeen API. Je wil niet nummer 12.001 zijn. “The lie of the API”
  • 62.
    APIs stellen databeschikbaar zoals de aanbieder dit wil. voordelen up-to-date goedkoop om aan te bieden ! nadelen duur om te bouwen en onderhouden specifieke querysoftware nodig
  • 63.
    Hoe geven wegebruikers toegang tot Connected Data? data-dump SPARQL endpoint een eigen API herbruikbare API
  • 64.
    Hoe kunnen weéén API maken voor Connected Data? goedkoop om aan te bieden ! eenvoudig om te queryen ! toch up-to-date
  • 65.
    De basis vanLinked Data bestaat uit triples. Bied data aan per triple-patroon. Bill_Clinton ? ? ? ? Al_Gore ? knows ?
  • 67.
    De client vande gebruiker lost complexe vragen op. SELECT * { ?movie dbpedia-owl:starring dbpedia:Al_Gore. ?movie rdfs:label ?title. ?movie dbpedia-owl:director ?director. }
  • 68.
    Simple servers enslimme clients zorgen voor schaalbaarheid. voordelen goedkoop om aan te bieden hoge beschikbaarheid up-to-date data ! nadeel queries gaan trager
  • 69.
    Ons onderzoek bestudeert de trade-offs tussen Web APIs. data-dump SPARQL linkeddatafragments.org triple-patronen query-resultaten
  • 70.
    Connected Data creëren aanbieden gebruiken
  • 71.
    Op welke manierenkunnen we Connected Data gebruiken? offline zoals een databank zoals het Web
  • 72.
    Download alles lokaal, en doe zoals gewoonlijk.
  • 73.
    Op welke manierenkunnen we Connected Data gebruiken? offline zoals een databank zoals het Web
  • 74.
  • 75.
  • 76.
    Op welke manierenkunnen we Connected Data gebruiken? offline zoals een databank zoals het Web
  • 77.
    De Web-filosofie: vraag—doeterwijl data stroomt. Resultaat Resultaat
  • 78.
    Connected Data begint met intelligente applicaties. Bouw geen intelligente servers. Bouw servers die clients in staat stellen om intelligent te reageren.
  • 79.
    Pluk het laaghangendefruit. Wacht niet tot de hele boom rijp is. @RubenVerborgh ruben.verborgh.org