Linked open data pour la consommation des informations

1,284 views

Published on

Dans un contexte où le volume de données produit est de plus en plus grand, et les données sont peu utilisés, pourtant pouvant être mise en valeur, un nouveau vent souflle: Le linked open data

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,284
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
22
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Linked open data pour la consommation des informations

  1. 1. Colloque en l’honneur de Gauthier SALLET Atelier sur la gestion de données épidémiologiques UGB, 6 et 7 décembre 2012L INKED O PEN D ATA POUR LA CONSOMMATIONDES INFORMATIONS ISSUES DE LACOLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES 1
  2. 2. 2 C ANEVAS DE LA PRÉSENTATION 1. Cycle des données dans les systèmes de collectes de données, 2. Enjeux de la publication des données, 3. C’est quoi l’open data, 4. Cas d’utilisation de l’open data pour le médical, 5. 5 étapes pour publier les données liées
  3. 3. 3 S YSTÈME DE COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES  Volume énorme de données collectées,  Données analysées pour détection d’épidémies,  Actions entreprises par des décideurs,  Données archivées,
  4. 4. 4 C YCLE DE LA DONNÉE Collecte de données Rapport sur les données Réactions et actions Analyse de données
  5. 5. 5 E NJEUX DE PUBLICATION DE DONNÉES  Enjeu démocratique:  La transparence,  Enjeu socio-économique:  Susciter la création de nouveaux secteurs économiques  Enjeu universitaire:  Amélioration de la détection des épidémies
  6. 6. 6 L’ OPEN D ATA : U N OBJECTIF DOUBLE  Rendre les données accessibles, exploitables et rentables par la majorité,  Offrir la possibilité de croiser, traiter et analyser des données de sources différentes.
  7. 7. 7 W EB DES DOCUMENTS
  8. 8. 8 WEB DES DOCUMENTS : CHALLENGES  Accès:  Liens non typés,  Données faiblement structurées,  Données déconnectées,  Intégration  Présenter les symptômes des maladies ayant fait l’objet d’une épidémie l’année dernière.  Interrogation  Quelles sont les régions ayant été victimes des mêmes épidémies l’années dernière?
  9. 9. 9 API S W EB ET MASHUPS Mashup  Limites: Up  APIs fournissent des interfaces propriétaires, API API API API WEB Web Web Web  Les mashups sont basées sur un ensemble de données fixes,  Impossible de mettre des A B C D liens entre les données,
  10. 10. 10 WEB DE DONNÉES LIÉES  Utiliser les technologies du web sémantique :  Publier les données structurées sur le WEB,  Lier les données d’une source de données à une autre RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF Lien RDF Liens RDF Liens RDF Liens RDF A B C D E
  11. 11. 11 L INKED D ATA C ’ EST...  ...Un moyen de publier des données sur le Web qui:  Encourage la réutilisation,  Réduit la redondance,  Maximise la connectivité des données,  Permet d’ajouter la valeur aux données par le réseau de connexion,
  12. 12. 12 I NGRÉDIENTS CLÉS DU LINKED D ATA  RDF (Resource description Framework) pour:  Identifier les objets (URIs),  Connecter les informations (relations),  Ontologies (Vocabulaire) pour:  Fournir une compréhension partagée du domaine,  Organiser la connaissance de manière compréhensible par la machine,  Fournir une compréhension exploitable des données,
  13. 13. 13 E XEMPLE 1 : B ANQUE MONDIALE
  14. 14. 14 E XEMPLE 2 : OMS
  15. 15. 15 E XEMPLE 3: PNUD
  16. 16. E XEMPLE 4 : CDC (C ENTERS FOR16 D ISEASE C ONTROL AND P REVENTION )
  17. 17. 17 E XEMPLE U TILISATION O PEN D ATA : G OOGLE
  18. 18. 18 E XEMPLE U TILISATION O PEN D ATA : G OOGLE
  19. 19. 19 5 ÉTAPES POUR PUBLIER LES DONNÉES LIÉES 1. Comprendre les principes, 2. Comprendre vos données, 3. Choisir les URIs pour vos éléments de donnée, 4. Lier aux autres sources de données, 5. Publier vos données
  20. 20. 20 1- C OMPRENDRE LES PRINCIPES  Utiliser les URIs pour identifier vos éléments:  Tout élément, pas seulement les documents,  Utiliser les URIs HTTP:  Noms globallement uniques,  Permet l’accès par ces noms,  Fournir une information utile en RDF  Lorsque quelque accède à une URI,  Inclure des liens RDF à d’autres URIs  Pour permettre la découverte de l’information,
  21. 21. 21 2- C OMPRENDRE VOS DONNÉES  Quelles sont les informations clés présentes dans vos données:  Maladies,  Médicaments,  Symptômes,  Villes, …  Quelles ontologies peuvent être réutilisées?  Geo,  FOAF,
  22. 22. 22 3- C HOISIR LES URI S POUR VOS ÉLÉMENTS DE DONNÉE  Utiliser les espaces de nommage disjoints de ceux existant,  Abstraire des détails d’implémentation  http://dbpedia.org/resource/Berlin  http://www4.wiwiss.fu- berlin.de:2020/demos/dbpedia/cgibin/resources. php?id=Berlin
  23. 23. 23 3- C HOISIR LES URI S POUR VOS ÉLÉMENTS DE DONNÉE  Utiliser les slash  http://mydomain.com/foaf.rdf#me  http://mydomain.com/id/me  Utiliser des patterns  http://dbpedia.org/resource/New_York_City  http://dbpedia.org/data/New_York_City  http://dbpedia.org/page/New_York_City
  24. 24. 24 4- L IER AUX AUTRES SOURCES DE DONNÉES
  25. 25. 25 4- L IER AUX AUTRES SOURCES DE DONNÉES  Utiliser des prédicats de liaison:  owl:sameAs  foaf:homepage, foaf:topic, foaf:based_near  rdfs:seeAlso
  26. 26. 26 5- P UBLIER VOS DONNÉES  Mettre en place votre infrastructure,  Tester la négotiation de contenu,
  27. 27. 27 5- P UBLIER VOS DONNÉES  Utiliser des outils:  Joseki est un moteur HTTP qui supporte SPARQL,  Virtuoso Universal Server fournit un serveur SPARQL et un stockage RDF,  METAmorphoses est un outil de publication écrit en PHP  http://www.w3.org/wiki/TaskForces/Community Projects/LinkingOpenData/PublishingTools
  28. 28. 28 C ONCLUSION  Volume énorme de données produit par les systèmes de collecte de données,  Plusieurs enjeux de publication de données,  Émergence dans l’utilisation de l’open data,  Processus de publication de données.

×