Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. JeudIST IRD

991 views

Published on

Un PGD, qu'est-ce que c'est ? Pour quoi faire ? Comment ?
Un PGD sert surtout à se poser les bonnes questions et à adopter des méthodes rigoureuses de gestion pour documenter, stocker, responsabiliser, archiver, informer, et finalement partager les données scientifiques.
Le PGD est de plus en plus souvent recommandé ou même exigé par les financeurs, les éditeurs, les organismes scientifiques.
L’exposé présente les grands principes et principales étapes d’un PGD et les aides à la rédaction.

Cette intervention d'Hanka Hensens a eu lieu le 20 septembre 2018, dans le cadre des JeudIST de l'IRD Occitanie.

Hanka Hensens, responsable du Centre de Documentation IRD Occitanie, a animé depuis 2017 plusieurs ateliers sur les Plans de Gestion de Données en direction des scientifiques d’Agropolis. Elle forme étudiants et chercheurs depuis près de 20 ans à la recherche et à la gestion de l’information scientifique.

Published in: Education

Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/2018. JeudIST IRD

  1. 1. PGD – Plan de Gestion de Données /  DMP – Data Management Plan Qu’est‐ce que c’est?  Pour quoi faire ?  Comment ? JeudIST du 20/09/2018, IRD Occitanie, Montpellier Une petite video pour commencer (Doranum) Hanka Hensens Service Information scientifique et technique (IST) Mission Culture scientifique et technologique (MCST)
  2. 2. Qui a déjà rédigé un PGD/DMP ? En Europe, en 2017, ¼ seulement des  chercheurs interrogés O'Carroll, Kamerlin et al. 2017 2 Encore trop peu de monde…
  3. 3. I‐Un PGD, qu’est‐ce que c’est ?  Document formalisé rédigé de préférence au  démarrage d'un projet de recherche qui décrit la  façon dont les données seront produites ou  obtenues, (ré)utilisées, traitées, organisées,  stockées, sécurisées, préservées, documentées,  partagées, au cours et à l’issue d’un projet,  explicitant notamment leur  mise à disposition   Aide à la mise en place de  bonnes pratiques de gestion  à toutes les étapes du  cycle de vie des données  Toutes les données sont  concernées : brutes, curées,  publiées,…
  4. 4. A quelles questions répond un PGD ? Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18 4 • En quoi consiste le projet ? • Qui sont les partenaires ? • Quelle est la politique de gestion des données ? • Qui est responsable de la gestion des données ? Responsabilités dans le projet • Quelles données seront produites/utilisées au cours du projet ? (type, format, volume et accroissement…). • Comment seront-elles produites ou transformées ? Collecte des données • Comment, où, par qui, seront stockées, sauvegardées et sécurisées les données ? Sauvegarde des données • Comment les données seront elles identifiées, décrites ? • Quels standards de métadonnées utilisera t’on ? • Comment seront générées les métadonnées ? Documentation des données • Qui sera propriétaire des données produites ? • Des données externes seront- elles utilisées ? Propriété intellectuelle • Qui pourra accéder aux données ? Les données seront-elles partagées ? publiées ? Avec qui ? • Comment ? • Dans quel délai ? • Sous quelle licence ? Accès et partage des données • Comment la gestion des données est-elle financée, en particulier à long terme ? Ressources • Quel plan pour l’archivage et la préservation à long terme ? Archivage et préservation des  données  Ethique • Des données sensibles seront- elles produites ou utilisées ? • Comment sera assurée leur anonymisation ?
  5. 5. PGD : Eléments clés  21/09/2018 Fiche synthétique Doranum :  https://doranum.fr/fiche‐synthetique‐plan‐gestion‐donnees‐dmp/ 5
  6. 6. PGD : Eléments clés 1. Description du projet de recherche : but, partenaires, responsable,… 2. Inventaire et Description des données : listing, taille estimée, méthode de  collecte et traitement, responsables,… 3. Documentation : métadonnées, documents accompagnant les données,  logiciel nécessaire, type de fichier,… 4. Sauvegarde et sécurité : matériel et méthode, formats, périodicité et  nombre de copies, versioning, nommage,… 5. Déontologie et éthique 6. Conservation : quelles données à long terme, combien de temps, à quel  endroit (type d’entrepôt) _selon politique d'établissement / préconisations  bailleur / éthique / cadre légal_ 7. Partage (pendant et après le projet) : accès, propriété intellectuelle, cadre  légal, embargo, confidentialité,…  Aussi ouvert que possible, aussi fermé que nécessaire 8. Ressources : matérielles, financières, humaines, …
  7. 7. Le PGD est évolutif  Un PGD n’est pas figé : il doit être mis à jour tout au long du  projet (versions successives)  Exemple :  H2020,  3 versions minimum  (pas de max)
  8. 8. Le PGD est un travail de groupe 21/09/2018 Reymonet, N., Moysan, M., Cartier, A., & Délémontez, R. (2018). Réaliser un plan de gestion de données « FAIR » 8
  9. 9. Le PGD est un travail de groupe Il est écrit, relu, complété, corrigé par plusieurs personnes de différentes  compétences : Chercheurs (responsable du projet, coordinateur du DMP, créateur des  données) : décrit les données, liste et découpe les jeux de données,  budgétise, valide,… Ingénieur‐données : responsable des données, en particulier la  sauvegarde, le traitement, les flux, la qualité,… Informaticien : conseil pour le stockage et sécurisation des données, les  aspects infrastructure et les coûts associés Spécialiste de l’IST : propose des modèles de DMP, des standards de  métadonnées, conseille sur les entrepôts, des référentiels,… Archiviste : aide à sélectionner les données à conserver, à définir les  durées et les solutions techniques Juriste : conseille sur la propriété intellectuelle, les conventions à signer et  le respect de la législation sur les données privées, sensibles,… … 9
  10. 10. II‐Un PGD, pourquoi? _en introduction_  Pour les auteurs  Pour les équipes, organismes, institutions  Pour la recherche mondiale Causes :  Destruction des supports  Problème de version, obsolescence matérielle  ou logicielle  Lieu de stockage indéfini Conséquences :  Perte de temps, d’argent (fonds publics…)  Pas de vérification des résultats possible  Pas de comparaison des résultats dans le temps  ou l’espace  Pas de réutilisations (différentes)  10 20 ans après publication, 80 %des données scientifiques sont perdues…
  11. 11. Garantir des données fiables et bien gérées tout au long du projet,  compréhensibles, disponibles et préservées sur le long terme  pour une réutilisation future « La gestion et le partage des données doivent devenir l’approche  par défaut pour les recherches financées par le secteur public.»  (Amsterdam Call for Action on Open Science, 2016) Objectif principal d’un PGD 11
  12. 12. Financeurs  Réutilisabilité des données (retour sur  investissement, ne pas dupliquer  inutilement l’effort financier) Organismes de recherche  Reproductibilité de la recherche Chercheurs  Bonne gestion des données au cours du  projet, diminution des risques, efficacité,  réduction des coûts, demande de  financement, valorisation  Pourquoi rédiger un PGD ?  Intérêt des parties prenantes 12 “More than 70% of researchers have tried and  failed to reproduce another scientist's  experiments, and more than half have failed to  reproduce their own experiments” Baker, M. (2016). 1,500 scientists lift the lid on  reproducibility. Nature News,  533(7604).https://doi.org/10.1038/533452a
  13. 13. Pourquoi rédiger un PGD ? Exigences des financeurs 13 France . ANR, à partir de 2019  “ Beside Open Access, data management planning is becoming a standard  scientific practice ” (Recommandation on access to and preservation of scientific information, CE, 2018)Plan d’action ANR 2019, p. 9
  14. 14. Focus H2020 (Programme cadre pour la recherche et l’innovation 2014‐2020) A partir de 2017, les projets participent  par défaut à l’action pilote de libre accès  aux données de recherche (Open Research Data Pilot) : les données et métadonnées  nécessaires à la validation des  publications doivent être rendues  librement accessibles (obligation).  Les autres données et métadonnées  peuvent être diffusées en accès ouvert.  Le PGD est obligatoire pour les projets  qui restent dans le pilote, c’est un  livrable du projet conseillé pour les  autres. La sortie du pilote (Opt out) est  possible pour différentes raisons  (protection des résultats, brevet,  confidentialité, propriété intellectuelle,  risques pour le projet). Le fait d’opter ou de se désengager du  pilote n’est pas un critère d’évaluation  (pas de bonus ni malus). 14
  15. 15. Les engagements du gouvernement français 21/09/2018 15 « Généraliser la mise en place de plans de gestion des données dans les appels à projets de recherche » Plan d’action pour un  gouvernement ouvert 2018‐2019 Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18
  16. 16. III‐UN PGD, Comment ? a. Suivre les conseils des sites de référence b. Suivre un modèle c. Utiliser un outil en ligne d. Respecter les usages de sa communauté e. Consulter des exemples f. S’autoévaluer avant l’évaluation externe g. Partager, publier son PGD 21/09/2018 16
  17. 17. a.Suivre les conseils des sites de référence Datapartage INRA, en particulier :  https://www6.inra.fr/datapartage/Gerer/Plan‐de‐gestion Coopist CIRAD, en particulier : https://coop‐ist.cirad.fr/gestion‐ de‐l‐information/gerer‐les‐donnees‐de‐la‐recherche/decouvrir‐ des‐plans‐de‐gestion‐de‐donnees‐de‐la‐recherche/ Doranum : https://doranum.fr/produits‐doranum/ Data Curation Center (DCC), toute la rubrique « resources »,  dont : http://www.dcc.ac.uk/resources/data‐management‐plans 21/09/2018 17
  18. 18. Utiliser des ressources spécialisées Fichiers Métadonnées Entrepôts Licences •Types de fichier  (Datapartage INRA) Formats de  fichiers  ouverts/fermés  (Doranum) •Nommage et  organisation  (Datapartage INRA) Choix de standard  de métadonnées par thématique sur :  •DCC,  •RDA,  •Biosharing •Quelles données  conserver ? (DCC) •Choix d’un  entrepôt sur  re3data.org (browse by subject) •Dataverse IRD en  2019 cf. JeudIST du  13/12/18 ! •Q/R : mes données  sont‐elles  partageables ? •Choix d’une  licence : ODBL et  Etalab / données  « administratives »  (Datapartage INRA) •Choix d’une  licence Creative Commons 21/09/2018 18
  19. 19. b.Suivre un modèle (template) :  il y en a beaucoup… 1‐Financeurs : ERC H2020 et son mode d’emploi en français 2‐Organismes de recherche français : INRA + aide à la saisie (modèle recommandé) CIRAD IRSTEA Ou étrangers : National Science Foundation (USA)  EMBRC (European Marine Biological Research Centre) … Et bientôt celui de l’IRD… 19
  20. 20. …Mais toujours les mêmes informations demandées Modèles plus ou moins détaillés (les commentaires sont utiles) : de 2 à 20 pages… • Informations sur le plan de gestion : Nom, auteur(s), version, date • Informations sur le projet : Identifiants, financeur, nom, durée, partenaires, objectifs,  localisation,… • Informations de base  sur les données (à réitérer par chacun des jeux de données =>  précédé par un listing des jeux‐tableau résumé) : type, taille estimée, origine,  publications • Description des données : métadonnées (types, standarts,…), organisation, versions,… • Droit, confidentialité, déontologie : propriété intellectuelle, droits spécifiques,… • Sauvegarde et sécurité (pendant le projet) : Supports, flux, volumes, traçabilité,  intégrité,… • Conservation (après le projet) : lesquelles ? Où ? Pendant combien de temps ?  Responsable ? • Partage (pendant et après le projet) : Comment ? Avec qui ? Quand ? Toutes les rubriques ne doivent pas obligatoirement être remplies : quand on n’a pas  encore fait un choix, le dire et remplir plus tard Préciser et chiffrer tout ce qui peut l’être, en listant les ressources nécessaires  (pense bête sur http://www.data‐archive.ac.uk/media/247429/costing_v3.docx) :  les coûts nécessaires à la gestion des données, peuvent être inclus dans votre demande de  financement 20
  21. 21. C‐Utiliser un outil online pour Créer un PGD en fonction des exigences d’un  financeur ou d’un organisme  de nombreux modèles au choix (financeurs et/ou  organismes)  aides et exemples spécifiques en ligne Partager un PGD   avec des collaborateurs identifiés aux droits définis  (copropriétaire / éditeur / lecteur) ;  avec toutes les personnes de son organisme ;  avec tout le monde (publiquement). Télécharger votre PGD dans différents  formats (pdf, html, doc), à plusieurs reprises  (versions) 21
  22. 22. Utiliser un outil online comme DMP‐OPIDOR (France, INIST‐CNRS, basé sur  DMP Online) : Liste des 16 modèles de DMP En français, recommandé DMP Online (UK, DCC ‐ Digital Curation  Centre) : Liste des 17 modèles de DMP DMP‐Tool (US – University of California) :  Liste des 37 modèles de DMP 22
  23. 23. Focus DMP‐Opidor,  Pour mettre en valeur votre FAIR attitude (Modèle H2020) 23
  24. 24. FAIR : Où ranger quelles informations ? Redondances… Facile à trouver Accessible Interopérable Réutilisable •Identifiant (unique  et pérenne : DOI) •Versionning,  organisation et  nommage des  fichiers •Métadonnées et  vocabulaires (mot‐ clés) standardisés,  description  multilingue •Entrepôt choisi :  type de  recherches/moisso nnages offerts  (SQL, APIs,…) •Données librement  accessibles :  Lesquelles ? Où ? •Données non  librement  accessibles :  Pourquoi ?  Comment ?  Conditions,  Embargo,… •Documentation et  logiciel nécessaires  : fournis, open  source ? •Contacts et accès  pérennes •Formats de  données standards  et non  propriétaires •Métadonnées standardisées  et  de préférence  interdisciplinaires •Ou Lien (mapping)  vers des  vocabulaires  standards •Liens standardisé  vers d’autres  données  (relatedIdentifier,  relatedPublication) •Licence choisie •Processus  d’assurance qualité •Description fine de  la collecte et des  traitements •Documentation et  logiciel nécessaires  •Partage pendant et  après le projet : cf.  Accessible 24
  25. 25. DMP OPIDOR Courte présentation video :  https://www.youtube.com/watch?time_c ontinue=2&v=‐CP8QfCg34Q Contact : info‐opidor@inist.fr Accès : https://dmp.opidor.fr/ S’inscrire c’est (très) facile Créer un PGD c’est (très) facile Le remplir un peu moins… 21/09/2018 25
  26. 26. DMP OPIDOR : Utile mais Perfectible Description d’un ensemble de datasets difficile (possibilité d’intégrer des tableaux) Partages possibles mais fonctionnalités encore limitées (identité non visible, pas  de workflow de validation) Pas de gestion optimale de versions Cas particulier du modèle H2020 : Plus un outil de valorisation qu’un outil de gestion de données Le positionnement des différents informations dans les rubriques F.A.I.R. est  parfois peu explicite…  Aides en ligne (générale et des modèles choisis) et, pour les modèles FAIR : • Lignes directrices pour la gestion des données FAIR dans Horizon 2020. V3.0  (26/07/2016) • Reymonet, N., Moysan, M., Cartier, A., & Délémontez, R. (2018). Réaliser un plan de  gestion de données « FAIR » • A. Filatre, H. Hensens  (2017). Rédiger un Plan de Gestion de Données avec DMP  Opidor : atelier pratique, in Journée  Open Science & Open Data, Montpellier :   Agropolis International, 28 mars 2017 V. actualisée (2018) 26
  27. 27. D‐Respecter les usages de sa communauté  De son organisme, son pays, mais aussi de ses partenaires, de sa  thématique scientifique…  Science Europe a établi des recommandations facilitant la  rédaction et le contrôle des PGD grâce à l’établissement de  protocoles de données par domaine (DDP) : Science Europe. (2018). Science Europe Guidance.  Presenting a Framework for Discipline‐specific  Research Data Management.  27
  28. 28. E‐Consulter des exemples DCC : http://www.dcc.ac.uk/resources/data‐management‐ plans/guidance‐examples DMPTool : https://dmptool.org/public_plans Data‐partage Inra :  https://www6.inra.fr/datapartage/Gerer/Plan‐de‐ gestion/Exemples‐de‐plans Journal Research Ideas and Outcomes (RIO), Section DMP :  https://riojournal.com/browse_journal_articles.php?form_name =filter_articles&sortby=0&journal_id=17&search_in_=0&section _type[]=231 28
  29. 29. F‐S’autoévaluer avant l’évaluation externe ! Selon le financeur : •AHRC DMP Compliance Rubric (Draft) - DCC •BBSRC DMP Assessment Rubric v2.0 - fUniversity of Glasgow •CRUK Basic and Clinical Research DMP Assessment Rubric v2.0 - University of Glasgow •CRUK Population Research DMP Assessment Rubric v2.0 - University of Glasgow •EPSRC DMP Assessment Rubric v2.0 - University of Glasgow •H2020 DMP Compliance Rubric (Draft) - DCC •MRC DMP Compliance Rubric (Draft) - Newcastle University •Rubric to evaluate NERC data management plans - FigShare •Wellcome DMP assessment rubric v2.0 - University of Glasgow https://www.sheffield.ac.uk/library/rdm/dmp (conseils, exemples, autoévaluation) 29
  30. 30. Mes données sont‐elles FAIR ? Un outil d’auto‐évaluation 30 mis en place par le CSIRO, Commonwealth Scientific and Industrial Research Organisation, organisme gouvernemental australien pour la recherche scientifique :  http://oznome.csiro.au/5star/ Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18
  31. 31. G‐Partager, publier son PGD 31 Can wider exposure of DMPs better connect research  data production to preservation? A. Whyte, F. Murphy, N.  Meyers, K. Unsworth. Quebec 20 September 2017 Exposing Data Management Plans WG Exemple : PGD associé à une thèse : Data Management Plan for PhD Thesis "Climatic Limitation of Alien Weeds in New Zealand:  Enhancing Species Distribution Models with Field  Data« ,  J.L. Pannell, RIO. Research Ideas and  Outcomes 2: e10600  doi: 10.3897/rio.2.e10600 Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18 Recommandé et utile
  32. 32. Les plans de gestion de données ‐ S. Cocaud et D. L'Hostis, INRA. URFIST Paris ‐ 11/07/18 32 https://www.edugroepen.nl/sites/RDM_platform/SitePages/Ho me.aspx En résumé…
  33. 33. Conclusion :Un PGD, Pourquoi ? Pour tous…   Il est quelquefois obligatoire de produire un plan de gestion de  données, et de partager ses données,  mais c’est toujours vivement conseillé car :  Etablir un Plan de Gestion des données   Accroît l'efficience de la recherche, facilite l'accès et l'analyse  Assure la continuité et la reproductibilité de la recherche  Assure l'intégrité de la recherche  Réduit le risque de perte et le gaspillage des ressources  Accompagne l'évolution actuelle de la publication scientifique  Répond aux conditions de financement des projets  Atteste la responsabilité scientifique
  34. 34. Un PGD, Pourquoi ? Pour moi… Pour se poser toutes les questions dès le départ, quitte à évoluer dans les  réponses et : Identifier les risques, assurer la sécurité et la préservation des données Prévoir les budgets, matériels, logiciels, personnels,… nécessaires Signer les convention (interorganismes,…) indispensables Responsabiliser des personnes pour chacune des étapes Eviter les mauvaises surprises, les pertes de temps et de données Favoriser la diffusion et augmenter l'impact du projet (Google lance le moteur Dataset Search…) Une petite vidéo pour finir (université de Lausanne) Convaincus, j’espère !!!!!!!!
  35. 35. Quelques Références Tous mes remerciements à S. Cocaud et D. L'Hostis pour leur support, dont je me suis beaucoup inspirée  mais que je n’ai pas trouvé sur internet : Les plans de gestion de données, URFIST Paris, 11/07/18 35 A. Filatre, H. Hensens  (2017). Rédiger un Plan de Gestion de Données : atelier pratique, in Journée  Open Science &  Open Data, Montpellier :  Agropolis International, 28 mars 2017 et sa version actualisée (2018) CIRAD.‐Coopist : Découvrir les Plans de gestion de données. https://coop‐ist.cirad.fr/gestion‐de‐l‐information/gestion‐ des‐donnees‐de‐la‐recherche/decouvrir‐des‐plans‐de‐gestion‐de‐donnees‐de‐la‐recherche/1‐pourquoi‐gerer‐les‐ donnees‐de‐la‐recherche INRA.‐Datapartage : Plan de gestion des données. https://www6.inra.fr/datapartage/Gerer/Plan‐de‐gestion CNRS – Inist, 2014 : le PGD : une introduction à la gestion et au partage des données de la recherche – Le plan de  gestion des données. http://www.inist.fr/donnees/co/module_Donnees_recherche_26.html Agence Nationale pour la Recherche, 2015. Guide du déposant. http://www.agence‐nationale‐ recherche.fr/fileadmin/aap/2015/pa‐anr‐2015‐guide‐deposants.pdf Guidelines to the Rules on Open Access to Scientific Publications and Open Access to Research Data in Horizon 2020 (v.3.2, 2017) / Lignes directrices pour la gestion des données FAIR dans Horizon 2020. V3.0 (26/07/2016) : Trame de PGD commentée Et pour suivre les nouveautés, le blog : http://www.donneesdelarecherche.fr/
  36. 36. Merci pour votre attention… Et maintenant à vous ! vos questions, vos expériences, vos demandes… hanka.hensens@ird.fr http://intranet.ird.fr/ist http://www.mpl.ird.fr/documentation

×