5. Dr.SabinBuragawww.purl.org/net/busaco
disponibilitatea datelor la nivel de Web
A fi descoperibil pe baza standardelor Web
(“in the Web”)
folosind modele/formate de date deschise
(e.g., HTML, XML, JSON, RDF etc.)
aliniate principiilor hipertextului/hipermedia,
procesabile independent de platformă
22. Dr.SabinBuragawww.purl.org/net/busaco
De ce este mai „bun” un URL precum
http://business.data.gov.uk/id/company/04285910
decât înregistrarea
Phil Archer (2013) – www.w3.org/2013/Talks/1016_phila_ldpoint/
SHA PCT PRACTICE BNF CODE BNF NAME ITEMS NIC ACT COST
Q30 5D7 A86003 0101010G0AAABAB Co-Magaldrox_Susp 195mg/220mg/5ml S/F
managementul cunoștințelor
23. Dr.SabinBuragawww.purl.org/net/busaco
De ce este mai „bun” un URL precum
http://business.data.gov.uk/id/company/04285910
decât înregistrarea
“because you can look it up; because you can refer to a URI
in any context, unlike 'Q30' which only means something
in a specific context”
Phil Archer (2013) – www.w3.org/2013/Talks/1016_phila_ldpoint/
SHA PCT PRACTICE BNF CODE BNF NAME ITEMS NIC ACT COST
Q30 5D7 A86003 0101010G0AAABAB Co-Magaldrox_Susp 195mg/220mg/5ml S/F
managementul cunoștințelor
37. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: SWAML
Extragerea datelor din mesaje de e-mail, în vederea
interogării, reutilizării & publicării ulterioare
(Sergio Fernández et al., 2009)
procesează datele în format mailbox (RFC 4155) și
oferă descrieri RDF ale mesajelor, listelor de distribuție
și persoanelor, bazându-se pe SIOC
interogări via SPARQL, publicare folosind RDFa
39. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: semantic mediawiki
Management colaborativ al conținutului
modelat semantic (semantic wikis)
Semantic MediaWiki
extensie a sistemului MediaWiki:
permite adnotarea semantică a conținutului unui wiki
http://semantic-mediawiki.org/
41. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: semantic mediawiki
Utilizări în special în e-science
(arheologie, biologie, biomedicină,…)
și în domeniul guvernamental, inclusiv în e-learning
http://semantic-mediawiki.org/wiki/Semantic_MediaWiki_publications
42. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: dbpedia
De la conținut colaborativ la adnotare semantică
(Christian Bizer et al.)
constituie o bază de cunoștințe:
seturi de date (datasets) + model conceptual
versiunea în limba engleză:
descrieri RDF a peste 4.5 milioane de „lucruri” (things)
conținut disponibil în 125 limbi – 38 milioane de „things”
43. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: dbpedia
De la conținut colaborativ la adnotare semantică
(Christian Bizer et al.)
recurge la diverse modele conceptuale (ontologii)
vizând mai multe domenii
acces via SPARQL: http://wiki.dbpedia.org/OnlineAccess
versiune curentă: septembrie 2014
asocieri multilingve de concepte pentru 28 de limbi
45. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: dbpedia
Extractori pentru procesarea tipurilor de conținuturi
oferite de Wikipedia
labelsrdfs:label, interlanguage links, redirects,
imagesfoaf:depiction, geo-coordinates,
disambiguationdbpedia:disambiguates,
external linksdbpedia:reference,
pagelinksdbpedia:wikilink etc.
DBpedia Information Extraction Framework
implementat inițial în PHP, actualmente în Scala
48. Dr.SabinBuragawww.purl.org/net/busaco
aplicații rdf: freebase
Freebase (preluat de Google în 2011)
model de date specificat semantic, în mod colaborativ
expune seturi de triple RDF
oferă un API deschis + limbaj de interogare propriu: MQL
utilizatorii finali nu trebuie să aibă cunoștințe
privitoare la Web-ul semantic
52. Dr.SabinBuragawww.purl.org/net/busaco
linked data
Paradigmă de publicare a datelor pe Web
care recurge la tehnologiile Web existente
Tom Heath & Christian Bizer, Linked Data: Evolving
the Web into a Global Data Space, Morgan & Claypool, 2011
http://linkeddatabook.com/book
53. Dr.SabinBuragawww.purl.org/net/busaco
linked data
Paradigmă de publicare a datelor pe Web
care recurge la tehnologiile Web existente
reducerea redundanței
facilitarea reutilizării
permiterea descoperirii
maximizarea inter-conectivității între „lucruri” înrudite
adoptarea unei viziuni pragmatice
57. Dr.SabinBuragawww.purl.org/net/busaco
linked data: principii (Berners-Lee)
Utilizarea URI-urilor pentru numirea „lucrurilor”
specificarea via URI a oricăror resurse
– informaționale sau non-informaționale –,
nu doar a documentelor
identitate unică la nivel global
http://www.w3.org/DesignIssues/LinkedData.html
58. Dr.SabinBuragawww.purl.org/net/busaco
linked data: principii (Berners-Lee)
Folosirea de URI-uri ce pot fi vehiculate via HTTP
orice URI are un proprietar:
persoană, organizație, specificație,…
utilizatorii/aplicațiile pot localiza resursele
(oricine posedă un browser/client Web)
http://www.w3.org/DesignIssues/LinkedData.html
59. Dr.SabinBuragawww.purl.org/net/busaco
linked data: principii (Berners-Lee)
Oferirea de informații utile în format RDF
atunci când o agent (entitate) accesează un URI,
poate „afla” (meta-)date de interes
http://www.w3.org/DesignIssues/LinkedData.html
60. Dr.SabinBuragawww.purl.org/net/busaco
linked data: principii (Berners-Lee)
Includerea în reprezentarea RDF
a unor legături spre alte URI-uri
facilitarea descoperirii de informații înrudite
(network effect)
http://www.w3.org/DesignIssues/LinkedData.html
63. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Publicarea pe Web a datelor interconectate
referitoare la whisky – conform (Tom Heath, 2009)
existența unui magazin virtual destinat connoisseur-ului
afacere online – wiskii.com – fondată de Jeff
informații furnizate de experți ai domeniului
contribuții realizate și de către utilizatori obișnuiți
implementare bazată pe un server de aplicații Web
date stocate relațional
acces simultan la date în HTML și RDF
64. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
1. înțelegerea principiilor linked data
2. înțelegerea (conceptualizarea) datelor
3. stabilirea de URI-uri pentru entități (things)
4. stabilirea infrastructurii
5. relaționarea cu alte seturi de date existente
6. descrierea și publicarea datelor
69. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Descrierea datelor pe baza vocabularelor
în contextul studiului de caz,
potențiale modele conceptuale ce pot fi folosite:
Geonames – http://www.geonames.org/ontology
GoodRelations
FOAF (Friend Of A Friend)
Review – http://vocab.org/review/
SIOC (Semantically-Interconnected Online Communities)
Whisky – http://vocab.org/whisky/
diverse altele furnizate de schema.org
70. Dr.SabinBuragawww.purl.org/net/busaco
Term URI Description
Comment http://purl.org/stuff/rev#Comment A comment on a review.
Feedback http://purl.org/stuff/rev#Feedback Feedback on the review.
Review http://purl.org/stuff/rev#Review A review of an work.
commenter http://purl.org/stuff/rev#commenter The commenter on the review.
hasReview http://purl.org/stuff/rev#hasReview Associates a work with a a review.
hasComment http://purl.org/stuff/rev#hasComment
Used to associate a review with a
comment on the review.
hasFeedback http://purl.org/stuff/rev#hasFeedback
Associates a review with a feedback on
the review.
maxRating http://purl.org/stuff/rev#maxRating A numeric value.
minRating http://purl.org/stuff/rev#minRating A numeric value.
positiveVotes http://purl.org/stuff/rev#positiveVotes
Number of positive usefulness votes
(integer).
rating http://purl.org/stuff/rev#rating A numeric value.
reviewer http://purl.org/stuff/rev#reviewer The person that has written the review.
text http://purl.org/stuff/rev#text The text of the review.
title http://purl.org/stuff/rev#title The title of the review.
totalVotes http://purl.org/stuff/rev#totalVotes Number of usefulness votes (integer).
type http://purl.org/stuff/rev#type The type of media of a work under review.
concepte și proprietăți definite de vocabularul Review
72. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Alegerea URI-urilor corespunzătoare
principii:
recurgerea la schema HTTP pentru facilitarea accesului
http://vocab.org/whisky/terms/Brand
versus
urn:whisky-vocab:brand
74. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Alegerea URI-urilor corespunzătoare
principii:
abstractizare – evitarea detaliilor de implementare
http://dbpedia.org/resource/Romania
versus
http://www4.wiwiss.fu-berlin.de:2020/demos/dbpedia/cgi-bin/
resources.php?id=Romania
75. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Alegerea URI-urilor corespunzătoare
principii:
folosirii unei singure convenții de referire
# (hash) sau / (slash)
http://undeva.info/foaf.rdf#me
versus
http://undeva.info/id/me
76. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
șabloane de stabilire a URI-urilor
http://dbpedia.org/resource/Science Thing (concept)
http://dbpedia.org/data/Science Date RDF
http://dbpedia.org/page/Science Pagină HTML
http://revyu.com/people/tom Thing (concept)
http://revyu.com/people/tom/about/rdf Date RDF
http://revyu.com/people/tom/about/html Pagină HTML
http://undeva.info/concept Thing (concept)
http://undeva.info/concept.rdf Date RDF
http://undeva.info/concept.html Pagină HTML
77. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Exemplificări (clasă + instanță):
regiuni http://wiskii.com/regions/speyside
distilerii http://wiskii.com/distilleries/talisker
brand-uri http://wiskii.com/brands/talisker
produse http://wiskii.com/products/talisker-10-yo
persoane http://wiskii.com/people/william-matheson
fotografii http://wiskii.com/photos/58
review-uri http://wiskii.com/reviews/271
78. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Accesul la o anumită reprezentare – exemple:
concept http://wiskii.com/brands/talisker
date RDF http://wiskii.com/brands/talisker/rdf
pagină HTML http://wiskii.com/brands/talisker/html
83. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
HTML RDF
aplicație
Web
date
http://wiskii.com/brands/talisker/html http://wiskii.com/brands/talisker/rdf
http://wiskii.com/brands/talisker
HTTP GET
HTTP 303 See Other HTTP 303 See Other
content
negotiation
84. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Resurse utile sunt oferite de siturile de la adresele Web
http://www.w3.org/standards/semanticweb/data
http://www.w3.org/wiki/LinkedData
a se studia și http://linkeddata.org/tools
87. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de cazTopic Datasets %
Government 183 18.05%
Publications 96 9.47%
Life sciences 83 8.19%
User-generated content 48 4.73%
Cross-domain 41 4.04%
Media 22 2.17%
Geographic 21 2.07%
Social Web 520 51.28%
Total 1014
cea mai recentă actualizare: august 2014
http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/
88. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Relaționarea cu alte seturi de date
informațiile privitoare la fiecare set de date RDF
pot fi explorate via CKAN
(Comprehensive Knowledge Archive Network)
http://ckan.org/
91. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
Relaționarea cu alte seturi de date
predicate generice folosite uzual:
owl:sameAs
foaf:homepage, foaf:topic, foaf:based_near, foaf:maker,
foaf:depiction, foaf:primaryTopic,…
rdfs:seeAlso
93. Dr.SabinBuragawww.purl.org/net/busaco
Relații între diverse resurse din seturi de date diferite:
<http://dbpedia.org/resource/Kolkata>
owl:sameAs freebase:Kolkata ;
owl:sameAs <http://sws.geonames.org/1275004> ;
owl:sameAs <http://ru.dbpedia.org/resources/Калькутта> ;
...
<http://sws.geonames.org/1275004>
rdfs:seeAlso <http://dbpedia.org/resource/Kolkata>
wgs84_pos:lat "22.56263" ;
wgs84_pos:long "88.36304" ;
gn:parentCountry <http://sws.geonames.org/1269750> ;
...
după Ivan Herman (2013)
95. Dr.SabinBuragawww.purl.org/net/busaco
linked data: inginerie – necesități
Calitatea datelor
Disponibilitatea și stabilitatea setului de date
Publicarea direct pe situl public
Claritate privind termenii de utilizare (licențiere)
Existența aplicațiilor
don’t repeat
yourself
96. Dr.SabinBuragawww.purl.org/net/busaco
linked data: studiu de caz
statistici vizând „norul” datelor interconectate
linked open data (9 ianuarie 2013 vs. 20 noiembrie 2014)
http://stats.lod2.eu/
639 vs. 1048 seturi de date
1,7 miliarde vs. 5,7 miliarde de triple RDF
49,8% vs. 64,9% date cu probleme
97. Dr.SabinBuragawww.purl.org/net/busaco
linked data: inginerie
Aspecte privind cele mai bune practici:
identificarea resurselor – identifier patterns
modelare – modelling patterns
publicare a datelor – publishing patterns
management al datelor – data management patterns
dezvoltare de aplicații – application patterns
104. Dr.SabinBuragawww.purl.org/net/busaco
linked data: testare & depanare
Depanarea (inspectarea triplelor) RDF
recurgerea la un hyperdata (semantic) browser
e.g., instrumentul OpenLink Data Explorer ca extensie
a unui navigator Web actual – http://ode.openlinksw.com/
114. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
Revyu
recurge la vocabulare ca Review, FOAF (Friend Of A
Friend), SKOS (Simple Knowledge Organizational System)
interogări pe baza unui punct terminal SPARQL
interconectare cu date de la DBpedia, OpenGuides etc.
implementare bazată pe RAP (RDF API for PHP)
117. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
myExperiment (David De Roure et al.)
aplicație Web colaborativă – bazată pe Ruby on Rails –
pentru managementul workflow-urilor științifice
și a altor obiecte vizând cercetarea
modelarea datelor se bazează pe RDF:
http://rdf.myexperiment.org/
acces la date publice via SPARQL
118. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
Inițiativele semantic (open) e-government
linked data în contextul informațiilor publice ale UK:
http://data.gov.uk/linked-data
de studiat și prezentările lui Richard Wallis: www.slideshare.net/rjw
câteva proiecte similare:
USA – www.data.gov/developers/
Franța – www.data.gouv.fr/fr/dashboard/
119. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
SIGMA (SemantIc Government Mashup Application)
Claudia Gheorghiu, Radu Nicolescu, Andrei Vasile Bogdan,
Cristian Ochișor, Sabin Buraga, Lenuța Alboaie (2011)
platformă Web extensibilă capabilă să creeze mashup-uri
oferind acces la date guvernamentale deschise
includerea unei soluții proprii de acces via un end-point
SPARQL la date guvernamentale preluate de la gov.ro
121. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
Alte utilizări
(Stefan Decker et al., 2012; H. Quoc et al., 2014)
e-geografie (e.g., date spațiale interconectate)
http://www.semantic-web-journal.net/system/files/swj877.pdf
mass-media: BBC, Guardian, New York Times
publicații academice: CrossRef, Nature
biblioteci (digitale): Library of Congress, Franța, Vatican,…
123. Dr.SabinBuragawww.purl.org/net/busaco
linked data: aplicații
Pentru diverse exemplificări, a se consulta și lucrările
atelierelor de lucru LDOW (Linked Data on the Web)
http://events.linkeddata.org/ldow2014/
http://events.linkeddata.org/ldow2013/
http://events.linkeddata.org/ldow2012/
http://events.linkeddata.org/ldow2011/
124. Dr.SabinBuragawww.purl.org/net/busaco
linked data
Pentru mai multe detalii, a se parcurge
Leigh Dodds & Ian Davis, Linked Data Patterns. A pattern
catalogue for modelling, publishing, and consuming
Linked Data, 2012:
http://patterns.dataincubator.org/
a se studia și School of Data Handbook (2013)
http://schoolofdata.org/handbook/
125. Dr.SabinBuragawww.purl.org/net/busaco
„concluzii”
“Software – as a service or not – is just a container.
What makes software valuable has always been what
it does to data. Now, in the same spirit of SOA and SaaS,
a new concept is emerging, Data-as-a-Service – DaaS.”
Pete Soderling, august 2010
http://goo.gl/S4dYy