Diaporama de la présentation effectuée au séminaire INRIA IST "Le document à l'heure du Web de données" (Carnac 1er-5 octobre 2012) en compagnie d'Emmanuelle Bermès (aka figoblog)
Gautier PoupeauData Architect at INA - Institut national de l'audiovisuel
Les technologies du Web appliquées aux données structurées (2ème partie : Relier, réutiliser, partager, l'apport du Web de données)
1. LES TECHNOLOGIES DU WEB APPLIQUÉES
AUX DONNÉES STRUCTURÉES
2e partie : relier, réutiliser, partager
L'apport du Web de données
Gautier Poupeau Emmanuelle Bermès
Antidot Centre Pompidou
http://www.lespetitescases.net http://www.figoblog.org
Twitter @lespetitescases Twitter @figoblog
Séminaire INRIA – 1-5 octobre 2012
2. SOMMAIRE
1. Une interopérabilité basée sur les liens
2. Les différents types de données du Linked Data
3. Exemple de réutilisation des données du LOD
4. Exemple de réutilisation des technologies du LOD
dans le contexte de l'organisation
3. D'un Web de documents...
Principes du Web 1.0
» Les documents (HTML)
contiennent des liens entre eux
» Le contenu n'est pas structuré
» On ne peut pas faire de requêtes
» On ne sait pas l'exploiter avec
des machines
4. ...à un Web d'applications...
Principes du Web 2.0
» Les APIs permettent d'exposer
les données structurées
» ... donc de créer de nouvelles
applications
» Mais chaque API est propriétaire
» Chaque API n'est valable que
pour un « silo » de données
» On ne peut pas faire de liens
entre les données d'un silo à
l'autre
5. ... à un Web de données
Principes du Linked Data
» Comme le Web, le Linked Data est un espace documentaire unifié,
global, commun
» On peut faire des liens d'une donnée à une autre
» Les données ne sont plus isolées dans des silos
» Les APIs propriétaires sont remplacées par des standards ouverts
(RDF, SPARQL, HTTP...)
6. Le problème de la diversité des modèles
Bibliothèques Archives Musées
Objets multiples Description hiérarchique Objets uniques
Catalogage partagé Contexte Description orientée
Respect des fonds événement
7. Comment mélanger les données tout en préservant la saveur
unique de chaque domaine ?
11. LES 4 PRINCIPES DU WEB DE DONNÉES
http://dbpedia.org/resource/Smoking_pipe_%28tobacco%29
(1) Utiliser des URIs
11
12. LES 4 PRINCIPES DU WEB DE DONNÉES
http://dbpedia.org/resource/
Smoking_pipe_%28tobacco%29
(1) Utiliser des URIs
(2) Utiliser des URIs
accessibles via HTTP
12
13. LES 4 PRINCIPES DU WEB DE DONNÉES
(2) Utiliser des URIs
accessibles via HTTP
(1) Utiliser des
URIs
(3) Donner l’accès aux données utiles en
utilisant les standards SPARQL et RDF 13
14. LES 4 PRINCIPES DU WEB DE DONNÉES
http://dbpedia.org/resource/
Smoking_pipe_%28tobacco%29
(1) Utiliser des URIs (2) Utiliser des URIs
accessibles via HTTP
(3) Donner l’accès aux
données utiles en
utilisant les standards
SPARQL et RDF
(4) Exprimer
l’URI des objets liés
14
19. SOMMAIRE
1. Une interopérabilité basée sur les liens
2. Les différents types de données du Linked
Data
3. Exemple de réutilisation des données du LOD
4. Exemple de réutilisation des technologies du LOD
dans le contexte de l'organisation
21. Le projet DBPedia
DBpedia est une initiative visant à extraire de l’information
structurée à partir de Wikipedia et à rendre cette
information disponible sur le Web. DBPedia permet de
faire des requêtes complexes sur les données de
Wikipedia, et de relier d’autres ensembles de données du
Web à Wikipedia.
3,64 millions de chose dont :
416,000 personnes, 526,000
lieux, 106,000 albums musicaux,
60,000 films, etc.
http://dbpedia.org
1 milliard de triplets RDF
Mis au point et maintenu par Universität Leipzig, Freie
Universität Berlin et la société OpenLink Software dans le
cadre du projet
21
24. Geonames et LinkedGeoData
Geonames est un système d’information géographique dont les
informations sont libres (CC BY). 8 millions d’emplacements géographiques
(villes, monuments, montagnes…) dans le monde sont référencés et géotaggués ce qui
en fait un des référentiels géographiques les plus complets.
En complément de Web services, les données sont accessibles selon les principes du Linked Data.
HTML
http://sws.geonames.org/6487834/ pour les humains
RDF
pour les machines
LinkedGeoData est à OpenStreetMap
ce que Dbpedia est à Wikipedia
320 millions de points géoréférencés
http://linkedgeodata.org 25 millions d’itinéraires
24
26. Data.gov et Data.gov.uk
A la suite de l’annonce de Barack Obama de mettre à disposition les données publiques
américaines, les initiatives dans le domaine se multiplient. Les principes du Linked Data sont au
cœur de la réflexion, mais pas forcément utilisés.
Data.gov.uk Data.gov
Sous la direction de Nigel Shadbolt Initiative de Barack Obama
et Tim Berners-Lee 3500 ensembles de données
7 500 ensembles de données Utilisation des technos du Web sémantique
Utilisation des technos du Web sémantique 26
30. Data.bnf.fr http://data.bnf.fr/11919216/charles_perrault/
Fédérer les données des différentes bases pour
faciliter l’accès aux ressources
30
31. SOMMAIRE
1. Une interopérabilité basée sur les liens
2. Les différents types de données du Linked Data
3. Exemple de réutilisation des données du LOD
4. Exemple de réutilisation des technologies du LOD
dans le contexte de l'organisation
32. Réutiliser les données du LOD
un exemple : “Monuments” (Antidot)
http://labs.antidot.net/demo/monuments/
33. L'exemple de “Monuments”
• Travail sur des données publiques
• Consolider des données éparses,
individuellement faibles, pour créer une
application riche.
– La base : la source des monuments historiques
français
(fichier CSV contenant 43 720 lignes sur
data.gouv.fr)
34. L'exemple de “Monuments”
• Maillage et enrichissement avec 6 sources
complémentaires : stations de métro, de
trains, bases de photos et description de
Wikipedia…
38. SOMMAIRE
1. Une interopérabilité basée sur les liens
2. Les différents types de données du Linked Data
3. Exemple de réutilisation des données du LOD
4. Exemple de réutilisation des technologies du
LOD dans le contexte de l'organisation
39. Réutiliser les technologies du LOD
un exemple : le Centre Pompidou Virtuel
http://beta2.centrepompidou.fr
Et à partir du 4/10/12 : http://www.centrepompidou.fr
40. Le Centre Pompidou Virtuel
La production des ressources (numérisation, indexation, libération
des droits) alimente des bases sources, ou bases métier. Les
ressources sont ensuites transformées pour publication dans le
Centre Pompidou Virtuel.
Libération
des droits
Transformation
des ressources
Ressources
numériques
Bases sources Publication dans
Indexation
le Centre
Pompidou Virtuel
40
41. Le Centre Pompidou Virtuel
Le Centre Pompidou Virtuel est une interface de publication, qui
agrège les contenus produits par différentes sources. Celles-ci sont
alimentées en fonction de l’activité de chaque secteur.
Musée Bibliothèque Archives Dpu (dossiers Ircam (bases Agenda SAV (films Boutique Bpi
(reproductions Kandinsky (documents pédagogiques) de données, (événements) DACA, (produits) (archives
des œuvres) (documents numérisés) archives captations) Sonores,
numérisés) sonores) ouvrages)
Service Multimédia, DSIT : Analyse des besoins au regard des
contenus nouveaux, mise en place de nouveaux outils.
41
42. Le Centre Pompidou Virtuel
Modèle de données
Œuvre
A été présentée à l’occasion de
A créé
Principalement, œuvres du musée
Mais aussi : œuvre musicale (Ircam)
Est reproduction de Evénement
Conférence, exposition…
A pour sujet
Ressource Is about
Quelque chose qui existe sous forme numérique
(image, audio, vidéo, texte)
Est enregistrement de
Est reproduction de /
Est enregistrement de
concerne Personne
Artistes, auteurs,
collectifs d’artistes…
Document
Livres, Archives
Collection
e.g. Cabinet des Arts graphiques,
Donation Nina Kandinsky…
Lieu
E.g. « Centre Pompidou »
concerne
42
43. Le Centre Pompidou Virtuel
Modèle de données
A été présentée à l’occasion de
A créé
Œuvre
Est reproduction de
Evénement
A pour sujet
Ressource Is about
Is recording of
Is reproduction of /
Is recording of
Is about Personne
Fait partie de
Document Est localisé dans
Collection
Is about Lieu
43
44. Le Centre Pompidou Virtuel
Modèle de données
A été présentée à l’occasion de
created
Œuvre
Is reproduction of
Evénement
Is about
A pour sujet
Ressource Concerne
Est enregistrement de
Is reproduction of /
Is recording of
Is about Personne
Document
Collection
Lieu
Is about
Se déroule à
44
45. LE LED – LINKED ENTERPRISE DATA
Le LED correspond à l’application des principes et
technologies du Web sémantique à l’entreprise
49. Le LED d'Antidot
• Pas de macro ontologie
• Réutiliser les vocabulaires existants
– Foaf, Organization,
– Dublin Core, ORE,
– Beatle (pour les issues)
50. Le LED d'Antidot
• Utilisation des référentiels et vocabulaires
• Exploitation des données structurées
• Pour les documents : text mining pour repérer
les personnes, produits, projets …