Les standards en biodiversité

1,188 views

Published on

Présentation des standards de données/métadannées en biodiversité et protocoles d'échange.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,188
On SlideShare
0
From Embeds
0
Number of Embeds
53
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Les standards en biodiversité

  1. 1. Les standards en biodiversité<br />1er juillet 2010<br />Natural Solutions<br />julie_chabalier@natural-solutions.eu<br />
  2. 2. Ma donnée<br />Un gobe-mouche gris à Natural Solutions, <br /> Donnée : Elément d'information décrivant de façon élémentaire un objet, une transaction, un événement, etc. Une donnée sert de base à une recherche, un raisonnement, etc.<br />Identifié par Amandine avec des jumelles<br /> Métadonnée : Donnée décrivant des caractéristiques d'une donnée, e.g. propriété, contenu, qualité (conditions, précision, etc.), date de saisie, etc.<br />
  3. 3. Partager ma donnée (1)<br />Taxon<br />scientificName : Muscicapastriata<br />class:Aves<br />order : Passeriformes <br />genus:Muscicapa<br />Location<br />  country: France<br />countryCode: FR <br />  locality: Marseilles<br />decimalLatitude: 43.17203<br />  decimalLongitude: 5.22445<br /> <br /><ul><li> Vocabulaire commun
  4. 4. Reconnu par la communauté</li></ul> Comprendre et utiliser la donnée<br /> Standard : format reconnu par une autorité ou majoritairement utilisé. Un standard permet la compatibilité des systèmes.<br /> Standard de données <br />
  5. 5. Partager ma donnée (2)<br /> Utiliser la donnée au sein au sein d’un programme / système informatique <br /><dwc:Taxon><br /><dwc:scientificName>Muscicapastriata</dwc:scientificName><br /><dwc:class>Aves</dwc:class><br /> <dwc:order>Passeriformes </dwc:order><br /><dwc:genus>Muscicapa</dwc:genus><br /></dwc:Taxon><br />< dcterms:Location ><br />  < dwc:country > France < dwc:country > <br />  < dwc:countryCode > FR < dwc:countryCode > <br />  < dwc:locality > Marseille < dwc:locality > <br /> < dwc:decimalLatitude > 43.17203 < dwc:decimalLatitude ><br />  < dwc:decimalLongitude > 5.22445 < dwc:decimalLongitude > <br /> </dcterms:Location ><br /> Implémentation XML<br />
  6. 6. Partager ma donnée (3)<br />< protocol id =NSprotocol.1 ><br />< title> Identification in a corridor </title><br />< creator><br />< individualName ><br />< surName > Sahl </ surName ><br /></ individualName ><br /></ creator><br /> < proceduralStep ><br /> < description ><br />  < para>Bird identification on a working place</ para ><br /> </ description ><br /> < instrumentation > binocular</ instrumentation ><br />  </proceduralStep><br /></protocol><br /> Standard de metadonnées<br />
  7. 7. Partager ma donnée (4)<br /> Protocole d’échange : les méthodes d'échange de données numériques entre plusieurs postes informatiques<br />
  8. 8. 3 groupes de standards<br />Les standards de métadonnées <br /> Comment sont mes données?<br />Dublin Core<br />EML<br />Les standard de données <br /> Quelles sont les données à partager?<br />DwC<br />ABCD <br />TCS<br />Les protocoles d’échange<br /><ul><li>Comment je partage les données ?</li></ul>TAPIR <br />LSID <br />IPT<br />…<br />
  9. 9. Les standards de métadonnées<br />Problématique<br />Différents types de données de biodiversité<br />Stockagesvariés<br />Echellesdifférentes<br />Données dispersées<br />Objectif<br />Accéder aux jeux de données de biodiversité sur le Web<br />Quellessont les donnéesdisponibles?<br />Comment accéder à cesdonnées ?<br />
  10. 10. Définitions<br />Les métadonnéesdécrivent les ressources et leuraccessibilité<br />identification<br />qualité<br />contexte spatial<br />distribution des jeux de données<br />Utiliser un standard de métadonnées<br />uneterminologie commune<br />un ensemble de définition<br />Eviteruneperte du sens original des données<br />
  11. 11. Dublin Core<br />Standard de metadonnées le mieux connu actuellement<br />Initié en 1995<br />Objectif : découvrir les ressourcesdocumentaires du Web<br />15 descripteurs minimums<br />Implémentation XML<br />http://dublincore.org/<br />
  12. 12. Exemple<br />
  13. 13. EcologicalMetadataLanguage<br />Standard de metadonnéesdéveloppé par la communautéécologique<br />Initié en 1997 par « Ecological Society of America »  <br />Objectif : fournirsuffisamentd’information pour être capable de réutiliser les donnéesd’unemanièrescientifique<br /><ul><li>trèsbienstructuré avec de nombreuxdescripteurs</li></ul>Implémentation XML<br />1500 projets, 65 milliards d’observations de tout types (i.e. organismes, climat, etc.)<br />http://knb.ecoinformatics.org/<br />
  14. 14. Organisation EML<br />Descripteursorganisés en classes décrivant : <br />le jeu de données (dataset) <br />l’origine des données (citation)<br />la structure des données (software)<br />les méthodes de création du jeu de données (protocol)<br />l’accessibilité des données (access)<br />
  15. 15.
  16. 16. Exemple<br />http://harvardforest.fas.harvard.edu<br />
  17. 17. Standard de données de biodiversité<br /><ul><li>Standard de données ≈ Format de données ≈ Schéma de données</li></ul>Echange de donnéesd’occurrenced’espèces<br />Spécimensdans les collections d’histoirenaturelle et herbiers (collections vivantesincluses)<br />Observations des organismesvivantssur le terrain<br />2 standards<br />Darwin Core<br />ABCD schema<br />
  18. 18. TDWG<br />TaxonomicDatabaseWorking Group<br />Biodiversity Information Standards<br />Uneorganisationinternationale à but non lucratif<br />Développe des standards et des protocoles pour partager les données de biodiversité<br />www.tdwg.org<br />
  19. 19. Historique<br />TDWG/CODATA (Committee on Data for Science and Technology)<br />Sous groupe «  Access to Biological Collections Data »<br />2000 <br />Protocole de recherche des données de biodiversité<br />Spécification des données des collections biologiques<br />Projet BioCase<br />DwC<br /> + protocole DIGIR<br />ABCD Schema<br />GBIF<br />Protocole BioCase<br />
  20. 20. DarwinCore<br />Définition d’un ensemble d’éléments de données (data element) <br />Unitéd’information de base : sens unique + valeursdistinctes<br />Norme ISO ISO/IEC 11179 : lisibilitéet l’interchangeabilité des données<br />Attributs/champs de base de données<br />Objectif : partage et intégration des donnéesd’observationprimaires<br />Initialement : organisation des collections de specimens <br />Extensible (ajoutd’éléments de données) : fct des besoinsspécifiques<br />http://rs.tdwg.org/dwc/<br />
  21. 21. Les catégories <br />172 éléments de données <br />Organisés en 8 catégories/classes<br />taxonID<br />scientificNameID<br />taxonConceptID<br />scientificName<br />kingdom<br />phylum<br />class<br />order<br />family<br />genus<br />subgenus<br />taxonRank<br />scientificNameAuthorship<br />vernacularName<br />nomenclaturalCode<br />taxonomicStatus<br />nomenclaturalStatus<br />taxonRemarks<br />…<br />Dublin Core<br />
  22. 22. Des metadonnées?<br />Un ensemble complémentaire de termes - Record-level Terms – pour caractériserle jeude données<br />institutionID<br />collectionID<br />datasetID<br />institutionCode<br />collectionCode<br />datasetName<br />ownerInstitutionCode<br />basisOfRecord<br />informationWithheld<br />dataGeneralizations<br />dynamicProperties<br />Darwin Core Type Vocabulary<br /> Valeur de l’élément de données<br />Nature des données <br />Occurrence <br />Event<br />Location <br />Taxon<br />PreservedSpecimen<br />FossilSpecimen<br />LivingSpecimen<br />HumanObservation<br />MachineObservation<br />NomenclaturalChecklist<br />
  23. 23. Le partage<br />Tous les termessontassignés à une URI<br />occurenceID : http://rs.tdwg.org/dwc/terms/occurrenceID<br />implementation XML + XML/RDF<br />
  24. 24. Extensions<br />Information spécifique à une discipline <br />Geospatial<br />DecimalLatitude- DecimalLongitude – VerbatimCoordinates - …<br />Paleontologie<br />EarliestEonOrLowestEonothem – LatestEonOrHighestEonothem - EarliestEraOrLowestErathem - … <br />Nettoyage ( Curation )<br />IdentifiedBy- DateIdentified - FieldNotes - …<br />
  25. 25. Simple Darwin Core <br />Sous ensemble de 46 éléments de données<br />Attributs des tableurs et bases de données<br />Pas les termesreprésentant les différentescatégories (liste plate)<br />Partage simple des donnéestaxonomiques et de leurs occurrences<br />
  26. 26. Exemple<br /><dwc:Taxon><br /><dwc:scientificName>Anthuscorrendera</dwc:scientificName><br /><dwc:class>Aves</dwc:class><br /><dwc:genus>Anthus</dwc:genus><br /><dwc:specificEpithet>correndera</dwc:specificEpithet> <dwc:occurrenceID>urn:catalog:AUDCLO:EBIRD:OBS64515286</dwc:occurrenceID><br /></dwc:Taxon><br />
  27. 27. Utilisation<br />Largement utilisé<br />GBIF (Global Biodiversity information facility) www.gbif.org<br />OBIS (OceanBiogeographic Information System) www.iobis.org<br />ALA (Atlas of Living Australia) <br /> www.ala.org.au<br />Inventaires : ATBI (All Taxa Biodiversity Inventories and Monitoring) Mercantour<br />…<br />
  28. 28. ABCD schema<br />Schémahierarchique de spécification de données<br />Echange des données de collections <br />Specimens<br />Observations<br />Completdonccomplexe<br /> 1200 éléments de données<br />Capable d’intégrer des donnéesdétaillées, de sources trèsdifferentes et de domainestrèsspécifiques<br />Suffisammentd’éléments de données pour être compatible avec beaucoup de standards <br />Implémentation XML<br />www.tdwg.org/activities/abcd/<br />
  29. 29. Extrait<br />Metadonnées?<br />
  30. 30. Exemple<br />
  31. 31. Visualiser ABCD schema<br />http://www.bgbm.org/scripts/ASP/TDWG/frame.asp?config=0&configurl=http://www.bgbm.org/TDWG/CODATA/Schema/schemaviewer_configs/conf_abcd_206.xml<br />
  32. 32. Extensions<br />Extension pour les Geosciences (EFG) http://www.geocase.eu/<br />Extension pour les données moléculaires (ADN) http://www.dnabank-network.org/<br />Extension pour les herbiers http://hiscom.chah.org.au/wiki/HISPID_5<br />
  33. 33. MappingDwC – ABCD schema<br />
  34. 34. Utilisation<br />Largement utilisé aussi (par les mêmes?)<br />GBIF<br />ALA<br />…<br />
  35. 35. Taxon Concept schema(Taxonomic taxon transfert schema)<br />Problématique<br />Données de biodiversité des fournisseursbaséesgénéralementsur un seulréférentieltaxonomique<br />Partager les donnéesnécessitentd’utiliser la mêmetaxonomie<br />www.tdwg.org/standards/117/<br />
  36. 36. Objectifs<br />Développer un modèleabstrait de concepts taxonomiques<br />Etablir des relations entre les concepts taxonomiques des fournisseurs de données<br />Standard XML pour faciliterl’échange de données entre les différentsfournisseurs<br />faciliterl’interrogation des données<br />
  37. 37. Définitions <br />TCS est un format d’échange de données<br /><ul><li>un moyend’annoter les donnéestaxonomiquescommuniquées</li></ul>2 élémentsclés<br /><TaxonConcept> : monde réel, exprimeune opinion sur le taxon et ses relations avec d’autrestaxons<br /><TaxonName> : nomenclature abstraite, encapsule les règles des différentes nomenclatures<br />
  38. 38. Extrait<br />
  39. 39. Exemple (1)<br /><TaxonNames> <br /> <TaxonName id="123" nomenclaturalCode="Botanical"> <br /> <Simple>Dianthus</Simple> <br /> <Rank code="gen">genus</Rank> <br /></TaxonName> <br /><TaxonName id="124" nomenclaturalCode="Botanical"> <br /> <Simple>DianthusgratianopolitanusVill.</Simple> <br /> <Rank code="sp">species</Rank> <br /> <CanonicalName> <br /> <Simple>Dianthusgratianopolitanus</Simple> <br /> <Genusref="123">Dianthus</Genus> <br /> </CanonicalName> <br /></TaxonName> <br /> <TaxonName id="125" nomenclaturalCode="Botanical"> <br /> <Simple>Dianthuscaesius Sm.</Simple> <br /> <Rank code="sp">species</Rank> <br /> <CanonicalName> <br /> <Simple>Dianthuscaesius</Simple> <br /> <Genusref="123">Dianthus</Genus> <br /> <SpecificEpithet>caesius</SpecificEpithet> <br /></CanonicalName> <br /> </TaxonName><br />
  40. 40. Exemple (2)<br /><TaxonConcepts> <br /> <TaxonConcept id="988"> <br /> <Name scientific="true" ref="124">Dianthus gratianopolitanusVill.</Name> <br /> <AccordingTo> <br /> <AccordingToSimple> <br />Clapham, Tutin &amp; Moore (1987) <br /> </AccordingToSimple> <br /> </AccordingTo> <br /> <TaxonRelationships> <br /> <TaxonRelationship type="has synonym"> <br /> <ToTaxonConceptref="989"/> <br /> </TaxonRelationship> <br /> </TaxonRelationships> <br /> </TaxonConcept> <br /> <TaxonConcept type="nominal" id="989"> <br /> < Name scientific="true" ref="125">Dianthus caesius</Name> <br /> </TaxonConcept> <br />
  41. 41. Utilisation<br />GBIF dans son projet de « Global Names Architecture »<br />TCS est utilisé pour faciliter l’échange des données taxonomiques.<br />
  42. 42. Conclusion sur les standards de données<br />DwC, ABCD schema et TSC spécifiques aux collections<br />Moinsappropriés (pour l’instant) aux observations<br />– Protocoles ?<br />– Données manquantes ?<br />– Regroupementautrequetaxonomique ?<br />– Attributs spatiaux ?<br /><ul><li>En cours d’évolution
  43. 43. Utilisation conjointe avec les standards de métadonnées</li></li></ul><li>Et après?<br />Modèles de données ≠ standards de données<br />Besoin de transformation des modèlesou de mise en relation (mapping) avec les standards<br />espèce = SpecificEpithet<br />alt m = MinimumElevationInMeters<br />• Manipulation des donnéespeutêtrenécessaires<br />Concatenation<br />Parsing<br />Changement de granularité<br /> Protocoles d’échange de données<br />
  44. 44. Les protocoles<br />Protocole = comment lierouéchanger les données<br />• Protocoles existants<br />– TAPIR<br />LSID & RDF<br />– DwC-A<br />IPT<br />
  45. 45. TAPIR<br />Protocole pour interroger les bases de données existantes<br />Remplace :<br />DiGIR (utilisant DwC comme standard)<br />BioCASe (utilisant ABCD schema comme standard)<br />Indépendant du standard, mais un standard de donnéesestnécessaire<br />Utilisé principalement par GBIF<br />www.tdwg.org/activities/tapir<br />
  46. 46. TAPIR<br />
  47. 47. TAPIR<br />
  48. 48. TAPIR<br />
  49. 49. TAPIR<br />
  50. 50. TAPIR<br />
  51. 51. LSID & RDF<br />LSID = Life Science Identifier<br />Type de GUID = Global Unique Identifier<br />LSID = chaîne de caractères + format<br />urn:lsid:ubio.org:namebank:11815<br />http://lsids.sourceforge.net/<br />
  52. 52. LSID & RDF<br />Utilisation :<br />Identification d’un objet<br />Retrouver les metadonnées associées (standard)<br />RDF = Resource Description Framework<br />RDF = Format de réponse des requêtes sur le LSID<br />Nombreuxoutils pour résoudre et échanger les LSID <br />http://lsid.tdwg.org/<br />
  53. 53. LSID & RDF<br />http://lsid.tdwg.org/urn:lsid:ubio.org:namebank:11815<br />
  54. 54. Darwin Core archive<br />Pas vraiment un protocole<br />Moyen de publier les données au sein du GBIF<br />DwC-A contient un jeu de donnéesentierbasésur des fichierstextes<br />Le format DwC-A fournit un moyen simple de publiersesdonnées au format DwC + extensions <br />Une archive = un ensemble de fichiertexteszippés<br />
  55. 55. Dwc-A<br />
  56. 56. IntegratedPublishingToolkit<br />IPT = Une application web<br /><ul><li>Publier 3 types de données de biodiversité </li></ul> Données primaires<br /> Information sur les espèces<br /> Métadonnées sur les ressources<br /><ul><li>À partir d’une source de données </li></ul>Fichier plat<br />Base de données<br />Pour rendre ces données visibles sur le réseau distribué du GBIF<br />
  57. 57. IPT<br />-Portails de données<br />-Réseaux distribués<br />-Accès aux enregistrements<br /> individuels<br />-Clients GIS<br />-GeoPortals<br />Catalogues de Métadonnées<br />-Transport rapide des <br /> données<br />-Création d’index<br />
  58. 58. Conclusion<br />Partager les données de biodiversité :<br />Utiliser un standard de données<br />Utiliser un standard de metadonnées<br />Utiliser un protocole d’échange<br />Applications<br />

×