Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Publication et intégration de données ouvertes
1. Publication et intégration de
données ouvertes
François Scharffe
LIRMM, UM2
Gazouillez #lechatpito #datalift
Matinée Open Data, Montpellier, 28 Nov 2013
1
2. Qu’est-ce qu’une donnée ouverte ?
• Une donnée accessible sur le web sous une licence
ouverte.
• Notre contexte est plus large:
–
Données accessibles sous condition
–
Licences de différents types
Matinée Open Data, Montpellier, 28 Nov 2013
2
3. Données Ouvertes
•
Un sujet très à la mode …
●
Motion du G8 pour l’ouverture et la transparence des données
●
Directives de l’UE (Open Data, Inspire)
●
Etalab et data.gouv.fr
●
Open Data France
•
… qui amène de nouvelles problématiques
●
Sous quel(s) format(s) publier les données ?
●
De quelle façon y accéder ?
●
Différents niveaux d’ouverture ?
Matinée Open Data, Montpellier, 28 Nov 2013
●
respect de la vie privée, etc
3
7. Une situation insuffisamment satisfaisante pour
la valorisation de vos données
Oblige les développeurs à :
Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce
que veut dire ce champ “nom” ? signifie-t-il la même chose que
dans cet autre jeu de données ?
Ø Découvrir par eux-mêmes les relations entre vos données et
d'autres données
Ø Gérer des formats hétérogènes pour croiser des données : CSV
pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier
Ø Gérer des méthodes d'accès hétérogènes pour accéder aux
données : APIs propriétaires différentes
De votre côté :
Ø Temps passé à développer des APIs
Ø Difficulté à faire adapter des applications existantes à vos données
Matinée Open Data, Montpellier, 28 Nov 2013
7
8. Le Web sémantique comme solution
Ø Un système d'identifiants global : les URIs
●
chaque donnée ou métadonnée est identifiée de manière non
ambigue : http://dbpedia.org/resource/Paris est la ville de
Paris en France ; pas de risque de confusion avec Paris
au Texas ou avec les paris sportifs
Ø Un format unique, RDF : un modèle de données simple pour
décrire vos données, extensif à l'infini
Ø La standardisation de la sémantique de vos données, à travers
des propriétés et des “vocabulaires” réutilisables : par ex. vous
n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie
ailleurs
Ø Un protocole d'acccès uniforme : HTTP, SPARQL
●
SPARQL est l'API unique, normalisée, du web sémantique
(ressemble à SQL) Open Data, Montpellier, 28 Nov 2013
Matinée
8
9. Datalif
De données brutes ouvertes
à des données sémantiques
interconnectées
Matinée Open Data, Montpellier, 28 Nov 2013
9
10. Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
Matinée Open Data, Montpellier, 28 Nov 2013
10
12. Le processus de publication
DBPedia
IGN
INSEE
Accès HTTP
Interrogation en SPARQL
Ontologie du
service public
Ontologie
géographique
Conversion RDF → RDF
Conversion XML → RDF
Matinée Open Data, Montpellier, 28 Nov 2013
12
13. sélection
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
§ De métadonnées, de référence, de domaine, généraliste …
§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
§ Ex : Programmes BBC vs legislation.gov.uk
§ Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
§ Les vocabulaires existants sont en anglais à 99%
§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
Matinée Open Data, Montpellier, 28 Nov 2013
13
14. conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
–
Le document: http://www.insee.fr/geo/commune/75056
–
Les données: http://rdf.insee.fr/geo/commune/75056
Matinée Open Data, Montpellier, 28 Nov 2013
14
15. conversion
Ø Guide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056
–
Le document: http://www.insee.fr/geo/commune/75056
–
Les données: http://rdf.insee.fr/geo/commune/75056
Matinée Open Data, Montpellier, 28 Nov 2013
15
16. Managing licenses and access
rights on published data
Matinée Open Data, Montpellier, 28 Nov 2013
16
17. publication
§
Utiliser le format RDF
§
Utiliser des URI pour nommer les choses
§
Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations
§
Donner des informations (HTML, RDF) quand les liens sont dé-référencés
§
Inclure dans ces infos les URIs pointant vers d'autres données pour
permettre la découverte
Tim Berners Lee,
SemWebPro 18/01/2011
17
http://www.w3.org/DesignIssues/LinkedData.html
19. Et plus ...
●
Gestion des droits d'accès aux données à
échelle variable
●
Gestion des licences, licences composites
●
Une API web de données pour Androïd
●
●
Des patrons configuration pour visualiser les
données
...
Matinée Open Data, Montpellier, 28 Nov 2013
19
20. La plateforme Datalift
●
Architecture modulaire
●
Supporte le processus de publication
●
Documentée : installation, utilisation,
développement
●
Sécurisée
●
Open-source
●
Exécutables pour Windows, OSX, Linux
Matinée Open Data, Montpellier, 28 Nov 2013
20