Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Gérer et diffuser ses données:
principes et bonnes pratiques
1
Formation doctorale LASH et DESPEG
2e partie de la formatio...
Plan
1. Les données de la recherche et leur gestion
2. Produire ou réutiliser des données
3. Stocker ses données en sécuri...
1. Les données de la recherche et
leur gestion. De quoi parle-t-on?
3Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Définition élastique
❑Au sens strict: éléments discrets, structurés et
analysables sta...
Les données de la recherche en bref
Production et utilisation croissante
Mouvement général d'ouverture
❑à des fins de vali...
Les données de la recherche en bref
Différents modes de création
Expérience (en laboratoire, sur le terrain…)
Observation ...
Les données de la recherche en bref
Différentes formes
7Mathieu Saby - avril/mai 2016
Les données de la recherche en bref
Différents supports
Nativement numérique
Analogique (livres, cassettes, photos, objets...
Peut-on parler de "données" en SHS?
Dans vos recherches ou votre discipline, pensez-
vous produire ou réutiliser des donné...
Peut-on parler de "données" en SHS?
■ Dimension empirique variable selon les
disciplines et les approches méthodologiques
...
Peut-on parler de "données" en SHS?
Mais les approches numériques peuvent
renouveler plus ou moins profondément la manière...
Peut-on parler de "données" en SHS?
■ Tournant numérique soutenu par des
infrastructures et des réseaux, en France
❑ Human...
La gestion des données de la recherche
Une expression barbare…
Mais chaque chercheur fait de la
gestion des données comme
...
La gestion des données de la recherche
Ensemble de pratiques, parfois quotidiennes
parfois plus exceptionnelles, menées pa...
Le cycle de vie des données
15Mathieu Saby - avril/mai 2016
Pendant le projet
Après le projet
Préservation
des données
Réu...
Les plans de gestion de données
Besoin d'expliciter et de formaliser la gestion des
données
❑ Exemple: la base de données ...
Les plans de gestion de données
■ DMP (Data Management Plan)
■ Outil pour planifier la gestion des données et la
rendre pl...
Les plans de gestion de données
■ Document formel précisant la manière dont
seront produites, traitées, décrites, diffusée...
Les plans de gestion de données
Une utilité pour le projet lui-même
■ D’autant plus utile que les données sont
❑ Nombreuse...
Les plans de gestion de données
Une utilité administrative:
■ Répondre aux exigences de certains financeurs
❑ Systématique...
Les plans de gestion de données
■ Pas de modèle unique, mais des éléments et
rubriques qui se recoupent souvent
■ Pour réd...
Les plans de gestion de données
■ Un modèle britannique (Digital curation center, V.4, 2014)
❑ Informations administrative...
Les plans de gestion de données
■ Un modèle français (Paris Diderot et Paris Descartes, 2015)
❑ Informations relatives au ...
2. Produire ou réutiliser des données
24Mathieu Saby - avril/mai 2016
Réutiliser des données existantes
■ Le projet peut-il réutiliser des données
existantes ?
■ Intérêt et limites ?
■ Conditi...
Produire des données
■ Des données seront-elles produites ?
■ Elément central ou secondaire du projet ?
■ Combien de "jeux...
Réutiliser des données existantes
■ Plusieurs sources possibles
❑ Autres projets de recherche
❑ Organismes privés
❑ Donnée...
Produire des données
■ Mode de création ou de collecte
■ Type de données
■ Support
28Mathieu Saby - avril/mai 2016
Produire des données
■ Étapes et niveaux d’élaboration des données
au cours du projet ?
■ Ces étapes sont-elles documentée...
Produire des données
■ Exemple de projet (histoire maritime)
Navigocorpus
❑ 1 / archives
30Mathieu Saby - avril/mai 2016
D...
Produire des données
■ Exemple de projet : Navigocorpus
❑2/ codage et saisie dans une base de données
accessible en ligne
...
Produire des données
■ Exemple de projet : Navigocorpus
❑3/ données analysées et visualisées
32Mathieu Saby - avril/mai 20...
Produire des données
33Mathieu Saby - avril/mai 2016
■ Formats de fichiers
❑ Qui doit pouvoir les lire? Pour combien de te...
Produire des données
Ex. de formats à la pérennité garantie
34Mathieu Saby - avril/mai 2016
("PDF/A"
uniquement)
Sert de c...
Produire des données
Ex. de formats courants sans pérennité garantie
35Mathieu Saby - avril/mai 2016
Fichiers propriétaire...
3. Stocker ses données en sécurité
36Mathieu Saby - avril/mai 2016
Des risques à évaluer
37Mathieu Saby - avril/mai 2016
D'après vous, quels risques pèsent sur les
données pendant un projet?
Des risques à évaluer
38Mathieu Saby - avril/mai 2016
Perte (vol, destruction, défaillance matérielle ou logicielle, virus...
Bonnes pratiques
■ Stockage et sauvegarde sécurisée
■ Organisation adéquate
■ Documentation adéquate
39Mathieu Saby - avri...
Des risques à évaluer
40Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des di...
Stockage adapté
■ Usages désirés : partage des données avec
partenaires internes ou externes, stockage,
sauvegarde, ou pub...
Stockage adapté
42Mathieu Saby - avril/mai 2016
Supports de stockage Risques Avantages
Réseau sécurisé (université,
labora...
Sauvegarde méthodique
■ Même en cas de stockage adapté, nécessité de
sauvegardes régulières et fréquentes
■ Utile pour se ...
Protection
■ Mots de passe fiables. À ne jamais partager
■ Éviter les ordinateurs inconnus
■ Pour les données sensibles no...
Cryptage
■ Crypter les données les plus sensibles
❑ Logiciels de chiffrement: Ex : FileVault (Mac),
Veracrypt (Mac et PC),...
Des risques à évaluer
46Mathieu Saby - avril/mai 2016
Où stockez-vous vos données? Quels
avantages et inconvénients des di...
4. Organiser ses données
47Mathieu Saby - avril/mai 2016
Les principes
48Mathieu Saby - avril/mai 2016
■ Adopter des règles
■ Les expliciter
■ Les appliquer
Organiser sa documentation
49Mathieu Saby - avril/mai 2016
■ Utiliser Zotero ou un autre un gestionnaire de
références, po...
Organiser ses dossiers
50Mathieu Saby - avril/mai 2016
■ Organisation hiérarchique
■ Isoler et ne pas retoucher les donnée...
Organiser ses dossiers
51Mathieu Saby - avril/mai 2016
Projet01
Administratif
Planification
Subventions
Reunions
Budget
Ra...
Organiser ses dossiers
52Mathieu Saby - avril/mai 2016
 Plusieurs options:
❑ Type de matériel (données, publications,
doc...
Nommer et versionner ses fichiers
53Mathieu Saby - avril/mai 2016
■ Garantir la lecture sur différentes machines
❑ Noms re...
Nommer et versionner ses fichiers
54Mathieu Saby - avril/mai 2016
■ Noms uniques, cohérents et informatifs
Exemple: ensemb...
Nommer et versionner ses fichiers
55Mathieu Saby - avril/mai 2016
■ Eléments de construction possibles:
❑ Sujet
❑ Type de ...
Quelques outils pratiques
56Mathieu Saby - avril/mai 2016
■ Renommer en masse des fichiers: Bulk Rename Utility
(Windows),...
Organiser les données au sein d’un fichier
57Mathieu Saby - avril/mai 2016
Quel sont les problèmes dans ce fichier?
Ex de ...
5. Documenter ses données
58Mathieu Saby - avril/mai 2016
Des questions à anticiper
59Mathieu Saby - avril/mai 2016
■ Objectif(s) ?
❑ Utilisation pendant le projet
❑ Réutilisation ...
Différents niveaux de documentation
60Mathieu Saby - avril/mai 2016
■ Garder une trace...
❑ De leur signification
❑ De leu...
Pratiques variables selon les disciplines
61Mathieu Saby - avril/mai 2016
Quel type de documentation serait nécessaire
pou...
Pratiques variables selon les disciplines
62Mathieu Saby - avril/mai 2016
■ Documents généraux
❑Protocoles, méthodes
❑Docu...
Pratiques variables selon les disciplines
63Mathieu Saby - avril/mai 2016
Ex: documents exigés pour déposer une
enquête qu...
Redocumenter les données a posteriori
64Mathieu Saby - avril/mai 2016
■ Parfois nécessaire pour faciliter leur
compréhensi...
Une bonne pratique simple
65Mathieu Saby - avril/mai 2016
■ Fichier texte "readme.txt"
❑ Pour l'ensemble du projet
❑ Pour ...
Préparer la création de métadonnées
66Mathieu Saby - avril/mai 2016
■ Métadonnée : information structurée et
lisible infor...
Préparer la création de métadonnées
67Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148
Date de publication
Nu...
Préparer la création de métadonnées
68Mathieu Saby - avril/mai 2016
https://zenodo.org/record/48148/export/xd
■ Pour les m...
Préparer la création de métadonnées
69Mathieu Saby - avril/mai 2016
■ Un schéma de métadonnées simple mais
très utilisé: D...
6. Enjeux juridiques et éthiques
70Mathieu Saby - avril/mai 2016
Le statut des données de la recherche
71Mathieu Saby - avril/mai 2016
■ Qui est propriétaire des données?
■ Peut-on les ve...
Le statut des données de la recherche
72Mathieu Saby - avril/mai 2016
■ Analyse parfois délicate. Pas de règle juridique
u...
Le statut des données de la recherche
73Mathieu Saby - avril/mai 2016
■ Questions à poser avant de réutiliser, traiter,
cr...
Sécuriser les usages par une licence
■ En fonction du degré de réutilisation souhaité
❑ Licence ad hoc: si données particu...
Les principaux cas de figure (très simplifié)
75Mathieu Saby - avril/mai 2016
Pas de protection par la
propriété intellect...
Les principaux cas de figure
76Mathieu Saby - avril/mai 2016
■ Références principales
❑ Code de la propriété intellectuell...
Le traitement des données personnelles
■ Données personnelles
❑ Toutes les données permettant d’identifier une
personne ph...
Le traitement des données personnelles
78Mathieu Saby - avril/mai 2016
■ Principes à respecter pour tout traitement:
❑ Fin...
Le traitement des données personnelles
■ Conseil pratique pour limiter les formalités: ne
pas recueillir plus de données p...
Le traitement des données personnelles
80Mathieu Saby - avril/mai 2016
Pour en savoir plus, interlocuteur local et
intermé...
Un droit en évolution
81Mathieu Saby - avril/mai 2016
■ Principe récent (2013) : la recherche a pour
mission « L'organisat...
Un droit en évolution
82Mathieu Saby - avril/mai 2016
■ Vers une autorisation de la fouille de texte et de
données (Text a...
Enjeux éthiques
83Mathieu Saby - avril/mai 2016
■ Quels risques la collecte, le traitement et/ou
la diffusion des données ...
Enjeux éthiques
84Mathieu Saby - avril/mai 2016
■ La diffusion des données nuit-elle aux
relations entre le chercheur et l...
Enjeux éthiques
85Mathieu Saby - avril/mai 2016
■ Certaines données ne seront jamais partagées
■ Mais des solutions existe...
7. Partager et diffuser ses données
86Mathieu Saby - avril/mai 2016
Des questions à anticiper
■ Quelles données diffuser ?
■ Quand ?
■ Comment ?
■ À qui ?
■ Gratuitement ou pas ?
■ Sous quel...
Comment et où diffuser ses données
88Mathieu Saby - avril/mai 2016
■ Toutes les données sont dans la publication
■ Partage...
Les entrepôts de données
■ Plus de 1500 sur le registre Re3data
■ Critères de choix essentiels d'un entrepôt
❑ Reconnaissa...
Les entrepôts de données
■ Plusieurs types : spécialisés, disciplinaires,
institutionnels, généralistes
❑ Ex. français: Or...
Les entrepôts de données: exemple d'utilisation
91Mathieu Saby - avril/mai 2016
Fichier son
https://hal.archives-ouvertes....
Les entrepôts de données: exemple d'utilisation
92Mathieu Saby - avril/mai 2016
Fichier de données
https://zenodo.org/reco...
Citer et être citer
93Mathieu Saby - avril/mai 2016
■ Bonnes pratiques
❑ Citer les données comme tout autre document (dans...
Citer et être citer
94Mathieu Saby - avril/mai 2016
■ Réflexion internationale en cours
❑ Consortium DataCite
❑ Joint Decl...
Décrire ses données dans un "data paper"
95Mathieu Saby - avril/mai 2016
■ Pour faciliter leur réutilisation
■ Publication...
8. Stocker et archiver après le projet
96Mathieu Saby - avril/mai 2016
Une problématique spécifique
■ Les entrepôts de données ne résolvent pas tous
les problèmes:
❑ Toutes les données ne peuve...
Des choix à faire
98Mathieu Saby - avril/mai 2016
■ Quelles données conserver?
❑ A minima les données sur lesquelles se fo...
Du stockage à l’archivage pérenne
■ Stockage sécurisé
❑ Intégrité des fichiers garantie à moyen ou long terme
■ Archivage ...
Du stockage à l’archivage pérenne
■ L’archivage pérenne
❑ Est assuré par des professionnels
❑ Peut être complexe et coûteu...
Deux outils d’Humanum: Nakala et Nakalona
■ Outils proposés par Humanum
❑ Nakala (Stockage sécurisé, facilite l’archivage
...
L’archivage pérenne
■ Mission du CINES
■ Archive notamment:
❑ Thèses électroniques et articles déposés dans HAL
❑ Données ...
Contacts sur la gestion des données
■ Formations: URFIST de Nice
■ Conseils et accompagnement: Bibliothèque
universitaire ...
Crédits
104Mathieu Saby - avril/mai 2016
Icônes par Freepik, disponibles sur www.flaticon.com
Costume de scène du Bourgeoi...
Upcoming SlideShare
Loading in …5
×

Gérer et diffuser ses données: principes et bonnes pratiques

790 views

Published on

2e partie de la formation "Open Science et données de la recherche" proposée les 28 avril et 12 mai 2016 aux écoles doctorales LASH et DESPEG (Université de Nice Sophia-Antipolis)
Réalisée et assurée par Mathieu Saby, SCD de Nice Sophia-Antipolis
Plan:
- Les données de la recherche et leur gestion
- Produire ou réutiliser des données
- Stocker ses données en sécurité
- Organiser ses données
- Documenter ses données
- Enjeux juridiques et éthiques
- Partager et diffuser ses données
- Stocker et archiver après le projet
- Contacts sur la gestion des données

Published in: Education
  • Be the first to comment

  • Be the first to like this

Gérer et diffuser ses données: principes et bonnes pratiques

  1. 1. Gérer et diffuser ses données: principes et bonnes pratiques 1 Formation doctorale LASH et DESPEG 2e partie de la formation Open science et données de la recherche co-organisée par l’URFIST de Nice et le SCD de l’UNS Mathieu Saby SCD-BU UNS donnees-scd@unice.fr
  2. 2. Plan 1. Les données de la recherche et leur gestion 2. Produire ou réutiliser des données 3. Stocker ses données en sécurité 4. Organiser ses données 5. Documenter ses données 6. Enjeux juridiques et éthiques 7. Partager et diffuser ses données 8. Stocker et archiver après le projet 9. Contacts sur la gestion des données 2Mathieu Saby - avril/mai 2016
  3. 3. 1. Les données de la recherche et leur gestion. De quoi parle-t-on? 3Mathieu Saby - avril/mai 2016
  4. 4. Les données de la recherche en bref Définition élastique ❑Au sens strict: éléments discrets, structurés et analysables statistiquement, porteurs d'informations sur des faits ou objets du monde réel ❑Au sens large: tous les "matériaux" analysés ou interprétés lors d'une recherche 4Mathieu Saby - avril/mai 2016
  5. 5. Les données de la recherche en bref Production et utilisation croissante Mouvement général d'ouverture ❑à des fins de validation et de réutilisation ❑soutenu par des financeurs de la recherche (dont l'UE), des éditeurs, des universités, des organismes internationaux... 5Mathieu Saby - avril/mai 2016
  6. 6. Les données de la recherche en bref Différents modes de création Expérience (en laboratoire, sur le terrain…) Observation (par questionnaire, enquête, mesure, captation, recueil de traces...) Simulation ou modélisation numérique Extraction à partir de sources 6Mathieu Saby - avril/mai 2016
  7. 7. Les données de la recherche en bref Différentes formes 7Mathieu Saby - avril/mai 2016
  8. 8. Les données de la recherche en bref Différents supports Nativement numérique Analogique (livres, cassettes, photos, objets…) Numérisation de support analogique 8Mathieu Saby - avril/mai 2016
  9. 9. Peut-on parler de "données" en SHS? Dans vos recherches ou votre discipline, pensez- vous produire ou réutiliser des données? 9Mathieu Saby - avril/mai 2016
  10. 10. Peut-on parler de "données" en SHS? ■ Dimension empirique variable selon les disciplines et les approches méthodologiques ■ Vocabulaire riche pour désigner les matériaux de recherche : sources, corpus, traces, enquêtes… et parfois seulement « données » ■ Reproductibilité non revendiquée dans certaines disciplines ■ Les données « brutes » sont souvent déjà une « interprétation » du réel 10Mathieu Saby - avril/mai 2016
  11. 11. Peut-on parler de "données" en SHS? Mais les approches numériques peuvent renouveler plus ou moins profondément la manière d'appréhender les matériaux de recherche Quelques exemples français dans différentes disciplines: Cf. Myriam Posner (2015). Humanities data: a necessary contradiction 11Mathieu Saby - avril/mai 2016 Labex Transfers (plusieurs projets) Médialab (idem) Labex Obvil (idem) Symogih (idem) Labex Arts-H2H (idem) Biblissima (idem) Montaigne à l'oeuvre Colostrum Criminocorpus
  12. 12. Peut-on parler de "données" en SHS? ■ Tournant numérique soutenu par des infrastructures et des réseaux, en France ❑ Humanum ❑ Progedo ❑ OpenEdition ❑ Persée ❑ Maisons des Sciences de l'Homme ❑ Réseaux disciplinaires ■ Mais aussi en Europe et à l’étranger 12Mathieu Saby - avril/mai 2016
  13. 13. La gestion des données de la recherche Une expression barbare… Mais chaque chercheur fait de la gestion des données comme Monsieur Jourdain de la prose! 13Mathieu Saby - avril/mai 2016 il y a plus de quarante ans que je dis de la prose sans que j’en susse rien, et je vous suis le plus obligé du monde de m’avoir appris cela.
  14. 14. La gestion des données de la recherche Ensemble de pratiques, parfois quotidiennes parfois plus exceptionnelles, menées par les chercheurs et/ou par du personnel spécialisé, pour faciliter: ❑pendant le projet: l'exploitation et la sécurisation des données ❑après la fin du projet: leur préservation, leur partage et leur réutilisation 14Mathieu Saby - avril/mai 2016
  15. 15. Le cycle de vie des données 15Mathieu Saby - avril/mai 2016 Pendant le projet Après le projet Préservation des données Réutilisation des donnéesSociété Autres projets de recherche Création ou collecte de données brutes + Utilisation de données existantes Traitement, analyse, interprétation des données Publication (article, livre, thèse) + Partage des données Planification du projet + Planification de la gestion des données
  16. 16. Les plans de gestion de données Besoin d'expliciter et de formaliser la gestion des données ❑ Exemple: la base de données linguistique CLAPI (et site de méthodologie associée Corinte) 16Mathieu Saby - avril/mai 2016
  17. 17. Les plans de gestion de données ■ DMP (Data Management Plan) ■ Outil pour planifier la gestion des données et la rendre plus efficace ■ Pas exigé lors d’un doctorat, mais démarche qui peut être inspirante 17Mathieu Saby - avril/mai 2016
  18. 18. Les plans de gestion de données ■ Document formel précisant la manière dont seront produites, traitées, décrites, diffusées et conservées les données au cours et à l’issue du projet ❑ Pratique ❑ Synthétique ❑ Prospectif ❑ Évolutif 18Mathieu Saby - avril/mai 2016
  19. 19. Les plans de gestion de données Une utilité pour le projet lui-même ■ D’autant plus utile que les données sont ❑ Nombreuses, variées, complexes ❑ Uniques ❑ Couteuses ou difficiles à produire ❑ Sensibles ❑ Utiles à d’autres personnes ■ Et que le projet est ❑ Collaboratif ❑ Long 19Mathieu Saby - avril/mai 2016
  20. 20. Les plans de gestion de données Une utilité administrative: ■ Répondre aux exigences de certains financeurs ❑ Systématique aux USA et Royaume-Uni, mais très rare en France ❑ Agences de financements publiques et fondations ❑ Universités et organismes de recherche ❑ Union Européenne (projet pilote, pour certains projets du programme Horizon 2020) 20Mathieu Saby - avril/mai 2016
  21. 21. Les plans de gestion de données ■ Pas de modèle unique, mais des éléments et rubriques qui se recoupent souvent ■ Pour rédiger un PGD: ❑ Modèle imposé par le financeur ❑ A défaut, adopter un modèle existant en l’adaptant au besoin ❑ Des outils informatiques : DMPonline; DMPTool 21Mathieu Saby - avril/mai 2016
  22. 22. Les plans de gestion de données ■ Un modèle britannique (Digital curation center, V.4, 2014) ❑ Informations administratives ❑ Collecte des données, organisation ❑ Documentation et métadonnées ❑ Ethique et cadre légal ❑ Stockage, sauvegarde, sécurité ❑ Archivage ❑ Partage des données ❑ Responsabilités et moyens 22Mathieu Saby - avril/mai 2016 Après le projet
  23. 23. Les plans de gestion de données ■ Un modèle français (Paris Diderot et Paris Descartes, 2015) ❑ Informations relatives au projet ❑ Responsabilité des données : répartition des rôles ❑ Ressources nécessaires à la mise en œuvre ❑ Pour chaque jeu de données ■ Description du jeu de données ■ Stockage, accès et sécurité des données ■ Documentation et organisation des données ■ Dissémination du jeux de données (après le projet) ❑ Sélection et archivage 23Mathieu Saby - avril/mai 2016
  24. 24. 2. Produire ou réutiliser des données 24Mathieu Saby - avril/mai 2016
  25. 25. Réutiliser des données existantes ■ Le projet peut-il réutiliser des données existantes ? ■ Intérêt et limites ? ■ Conditions d'accès ? ■ Coût ? 25Mathieu Saby - avril/mai 2016
  26. 26. Produire des données ■ Des données seront-elles produites ? ■ Elément central ou secondaire du projet ? ■ Combien de "jeux de données" ou d'ensembles distincts ? ■ Quel degré de reproductibilité des données ? ■ Quel intérêt pour la recherche ou des acteurs de la société ? 26Mathieu Saby - avril/mai 2016
  27. 27. Réutiliser des données existantes ■ Plusieurs sources possibles ❑ Autres projets de recherche ❑ Organismes privés ❑ Données publiques Accès libre et gratuit : France, étranger, institutions internationales Accès restreint: Réseau Quételet (statistiques publiques et grandes enquêtes) Accès payant: certaines données INSEE ou IGN… Institutions culturelles (musées, bibliothèques, archives) : situation variable 27Mathieu Saby - avril/mai 2016
  28. 28. Produire des données ■ Mode de création ou de collecte ■ Type de données ■ Support 28Mathieu Saby - avril/mai 2016
  29. 29. Produire des données ■ Étapes et niveaux d’élaboration des données au cours du projet ? ■ Ces étapes sont-elles documentées et reproductibles (matériel, logiciels, méthodes, algorithmes, code informatique) ? 29Mathieu Saby - avril/mai 2016
  30. 30. Produire des données ■ Exemple de projet (histoire maritime) Navigocorpus ❑ 1 / archives 30Mathieu Saby - avril/mai 2016 DEDIEU, Jean-Pierre, MARZAGALLI, Silvia. Partage d'expérience. Navigocorpus. Un corpus de sources pour l'histoire de la navigation à l'époque moderne.Lettre de l'INSHS, 2013, p. 23-25.
  31. 31. Produire des données ■ Exemple de projet : Navigocorpus ❑2/ codage et saisie dans une base de données accessible en ligne 31Mathieu Saby - avril/mai 2016
  32. 32. Produire des données ■ Exemple de projet : Navigocorpus ❑3/ données analysées et visualisées 32Mathieu Saby - avril/mai 2016 MARZAGALLI, Silvia, “Navigocorpus database and eighteenth-century French world maritime networks”, in César Ducruet (ed.), Maritime Networks. Spatial structures and time dynamics, New York, Routledge, 2016, p. 92-111.
  33. 33. Produire des données 33Mathieu Saby - avril/mai 2016 ■ Formats de fichiers ❑ Qui doit pouvoir les lire? Pour combien de temps ■ Pour un usage à long terme, privilégier des formats ouverts ❑ Utilisables librement et gratuitement ❑ Bien documentés ❑ Non liés à un logiciel spécifique FACILE - Service de validation de formats du CINES Formats conseillés par Data Archive (UK)
  34. 34. Produire des données Ex. de formats à la pérennité garantie 34Mathieu Saby - avril/mai 2016 ("PDF/A" uniquement) Sert de cadre base à de très nombreux formats, avec des extensions diverses POR (Fichier SPSS portable)
  35. 35. Produire des données Ex. de formats courants sans pérennité garantie 35Mathieu Saby - avril/mai 2016 Fichiers propriétaires SPSS, STATA, SAS, NVIVO, Altas.ti etc.
  36. 36. 3. Stocker ses données en sécurité 36Mathieu Saby - avril/mai 2016
  37. 37. Des risques à évaluer 37Mathieu Saby - avril/mai 2016 D'après vous, quels risques pèsent sur les données pendant un projet?
  38. 38. Des risques à évaluer 38Mathieu Saby - avril/mai 2016 Perte (vol, destruction, défaillance matérielle ou logicielle, virus, mauvaise organisation, erreur de manipulation) Déterioration (défaillance ou logicielle, virus, erreur humaine) Lecture impossible (obsolescence du format ou du matériel) Compréhension impossible (mauvaise organisation, perte du contexte ou de la documentation associée) Accès non autorisé (sécurisation insuffisante, piratage, erreur humaine)
  39. 39. Bonnes pratiques ■ Stockage et sauvegarde sécurisée ■ Organisation adéquate ■ Documentation adéquate 39Mathieu Saby - avril/mai 2016
  40. 40. Des risques à évaluer 40Mathieu Saby - avril/mai 2016 Où stockez-vous vos données? Quels avantages et inconvénients des différentes solutions?
  41. 41. Stockage adapté ■ Usages désirés : partage des données avec partenaires internes ou externes, stockage, sauvegarde, ou publication ■ Caractéristiques des données : données publiques/confidentielles/secrètes? Quel dommage causerait leur perte ou leur diffusion? ■ Capacités ■ Tarifs 41Mathieu Saby - avril/mai 2016
  42. 42. Stockage adapté 42Mathieu Saby - avril/mai 2016 Supports de stockage Risques Avantages Réseau sécurisé (université, laboratoire) Pannes de serveur, erreur humaine sécurité, sauvegarde automatique Disque dur d'ordinateur personnel ou professionnel Pannes, vol, erreur humaine Cloud commercial, dont cloud proposé par l’université (OneDrive) Vol de mot de passe. Disparition des sociétés. Cadre juridique parfois flou. partage facilité synchronisation automatique avec PC Supports externes (clé USB, disque externe, CDROM, DVDROM) Détérioration des supports, perte, vol
  43. 43. Sauvegarde méthodique ■ Même en cas de stockage adapté, nécessité de sauvegardes régulières et fréquentes ■ Utile pour se protéger de ses propres erreurs ■ Idéalement 2 sauvegardes, sur supports différents, dont une stockée physiquement à distance (ex: cloud + disque externe) 43Mathieu Saby - avril/mai 2016
  44. 44. Protection ■ Mots de passe fiables. À ne jamais partager ■ Éviter les ordinateurs inconnus ■ Pour les données sensibles non cryptées, éviter ❑ Les supports amovibles ❑ Le cloud ❑ Les transferts par courriel 44Mathieu Saby - avril/mai 2016
  45. 45. Cryptage ■ Crypter les données les plus sensibles ❑ Logiciels de chiffrement: Ex : FileVault (Mac), Veracrypt (Mac et PC), CryptSync (PC) ❑ Cloud chiffré: Tresorit, Securesafe, Synch.com, Spideroak ❑ Attention aux effets secondaires du cryptage (perte définitive des fichiers…) 45Mathieu Saby - avril/mai 2016
  46. 46. Des risques à évaluer 46Mathieu Saby - avril/mai 2016 Où stockez-vous vos données? Quels avantages et inconvénients des différentes solutions?
  47. 47. 4. Organiser ses données 47Mathieu Saby - avril/mai 2016
  48. 48. Les principes 48Mathieu Saby - avril/mai 2016 ■ Adopter des règles ■ Les expliciter ■ Les appliquer
  49. 49. Organiser sa documentation 49Mathieu Saby - avril/mai 2016 ■ Utiliser Zotero ou un autre un gestionnaire de références, pour sa bibliographie et ses sources Ex: http://www.boiteaoutils.info/2012/11/gerer-la- documentation-ii-une-approcha/
  50. 50. Organiser ses dossiers 50Mathieu Saby - avril/mai 2016 ■ Organisation hiérarchique ■ Isoler et ne pas retoucher les données brutes ■ Pour faciliter ❑ L'exploitation des informations ❑ Les sauvegardes ❑ Le partage ❑ L'archivage après le projet
  51. 51. Organiser ses dossiers 51Mathieu Saby - avril/mai 2016 Projet01 Administratif Planification Subventions Reunions Budget Rapports Ethique_Droit CNIL Consentements Methodes Etat_de_l_art Donnees Enquetes Experiences DonneesBrutes Analyse Resultats Publications Communications Articles 2015-Art01 2016-Art02 These Ch1 Ch2 ■ Exemple fictif
  52. 52. Organiser ses dossiers 52Mathieu Saby - avril/mai 2016  Plusieurs options: ❑ Type de matériel (données, publications, documents administratifs, gestion de projet…) ❑ Activité de recherche (état de l’art, enquête, questionnaire…) ❑ Différents jeux de données ❑ Étapes de traitement des données ❑ Étape du projet ❑ Chronologie ❑ Géographie
  53. 53. Nommer et versionner ses fichiers 53Mathieu Saby - avril/mai 2016 ■ Garantir la lecture sur différentes machines ❑ Noms relativement brefs ❑ Pas de caractères spéciaux ni accentués ❑ Pas d’espaces ni de ponctuation ❑ Utiliser: azA-Z0-9_-
  54. 54. Nommer et versionner ses fichiers 54Mathieu Saby - avril/mai 2016 ■ Noms uniques, cohérents et informatifs Exemple: ensembles de fichiers fictifs ❑ 2012-03-07_SujetA_Audio.mp3 ❑ 2012-03-07_SujetA_Transcription-brut.docx ❑ 2012-03-07_SujetA_Transcription-relu.docx ❑ 2012-03-07_SujetA_Transcription-anonyme.docx ❑ 2012-04-22_SujetB_Audio.mp3 ❑ 2012-04-22_SujetB_Transcription-brut.docx ❑ Grille-entretien.docx ❑ Analyse_v01.docx ❑ Analyse_v02.docx ❑ Readme.txt
  55. 55. Nommer et versionner ses fichiers 55Mathieu Saby - avril/mai 2016 ■ Eléments de construction possibles: ❑ Sujet ❑ Type de données (questionnaire, test…) ❑ Variable mesurée ❑ Date et/ou heure ❑ Numérotation (saisir des 0 initiaux pour les tris) ❑ Etat de traitement des données ❑ Numéro ou nom d’instrument ❑ Versions (v01.2, v03.4… et « FINAL » pour le document validé pour diffusion)
  56. 56. Quelques outils pratiques 56Mathieu Saby - avril/mai 2016 ■ Renommer en masse des fichiers: Bulk Rename Utility (Windows), Advanced Renamer (Windows), Automator (Mac)… Ex: http://data.blogspot.fr/2016/02/using-bulk-rename-utility-in-digital.html ■ Comparer des fichiers: WinMerge Ex: http://data.blogspot.fr/2016/02/using-winmerge-to-manage-files-and.html
  57. 57. Organiser les données au sein d’un fichier 57Mathieu Saby - avril/mai 2016 Quel sont les problèmes dans ce fichier? Ex de conseils détaillés : http://data.research.cornell.edu/content/tabular- data
  58. 58. 5. Documenter ses données 58Mathieu Saby - avril/mai 2016
  59. 59. Des questions à anticiper 59Mathieu Saby - avril/mai 2016 ■ Objectif(s) ? ❑ Utilisation pendant le projet ❑ Réutilisation et la réplicabilité ❑ Diffusion et l'archivage ■ Public(s) visé(s)? ❑ Chercheurs membres du projet ❑ Chercheurs spécialistes ❑ Autres chercheurs ❑ Etudiants ❑ Autre public ❑ Ordinateur!
  60. 60. Différents niveaux de documentation 60Mathieu Saby - avril/mai 2016 ■ Garder une trace... ❑ De leur signification ❑ De leur contexte de création ❑ Des traitements et analyses effectuées ■ Quel niveau ? ❑ Ensemble des données du projet ❑ Chaque jeu de données ❑ Variables d'un jeu de données ■ Informations minimales ou explications détaillées?
  61. 61. Pratiques variables selon les disciplines 61Mathieu Saby - avril/mai 2016 Quel type de documentation serait nécessaire pour réutiliser vos données ?
  62. 62. Pratiques variables selon les disciplines 62Mathieu Saby - avril/mai 2016 ■ Documents généraux ❑Protocoles, méthodes ❑Documents administratifs ■ Recueil des données ❑Carnets de laboratoire, carnets de terrain ❑Consentement des participants ❑Questionnaire, grille d’entretien ■ Traitement et analyse des données ❑Fichier "readme" ❑Instructions de codage des réponses (codebook) ❑Dictionnaires de données
  63. 63. Pratiques variables selon les disciplines 63Mathieu Saby - avril/mai 2016 Ex: documents exigés pour déposer une enquête qualitative en SHS dans BeQuali https://cdsp.sciences-po.fr/page.php?&idRubrique=depot&lang=FR
  64. 64. Redocumenter les données a posteriori 64Mathieu Saby - avril/mai 2016 ■ Parfois nécessaire pour faciliter leur compréhension ■ Ex: « Enquêtes sur l’enquête » réalisés par BeQuali
  65. 65. Une bonne pratique simple 65Mathieu Saby - avril/mai 2016 ■ Fichier texte "readme.txt" ❑ Pour l'ensemble du projet ❑ Pour chaque fichier ou ensemble de fichiers ■ Informations sur ❑ les règles de nommage et d'organisation ❑ le contenu d'un ensemble de fichiers ❑ le contenu d'un fichier (entêtes des colonnes…) ❑ les logiciels ou codes informatiques nécessaires pour les lire ❑ précautions à prendre pour la réutilisation ❑ la personne à contacter pour plus d'informations Ex de modèles (très détaillé) à l'université de Cornell Ex réel : https://zenodo.org/record/49583 ;
  66. 66. Préparer la création de métadonnées 66Mathieu Saby - avril/mai 2016 ■ Métadonnée : information structurée et lisible informatiquement, portant sur une ressource quelconque (numérique ou physique) ■ En général créées par des archivistes, des documentalistes, ou des logiciels ■ Souvent à partir d'informations conservées sous forme moins structurée ❑ Ex: Guide du déposant du réseau Quételet
  67. 67. Préparer la création de métadonnées 67Mathieu Saby - avril/mai 2016 https://zenodo.org/record/48148 Date de publication Numéro d’identification Type de document Mode d’accès Déposant Licence Catégories Liens à des publications Titre Auteur Métadonnées sur chaque fichier: Nom, date, taille Description ■ Pour les humains…
  68. 68. Préparer la création de métadonnées 68Mathieu Saby - avril/mai 2016 https://zenodo.org/record/48148/export/xd ■ Pour les machines…
  69. 69. Préparer la création de métadonnées 69Mathieu Saby - avril/mai 2016 ■ Un schéma de métadonnées simple mais très utilisé: Dublin Core (15 éléments) ■ De nombreux schémas spécialisés parfois utilisés en complément: ❑ Version enrichie du Dublin Core ❑ Data Documentation Initiative (DDI) : surtout en sciences sociales ❑ Propres à un type de document (images, sons, vidéos), une discipline, etc.
  70. 70. 6. Enjeux juridiques et éthiques 70Mathieu Saby - avril/mai 2016
  71. 71. Le statut des données de la recherche 71Mathieu Saby - avril/mai 2016 ■ Qui est propriétaire des données? ■ Peut-on les vendre? contrôler leur utilisation? ■ Peut-on réutiliser les données produites par d'autres? A quelles conditions?
  72. 72. Le statut des données de la recherche 72Mathieu Saby - avril/mai 2016 ■ Analyse parfois délicate. Pas de règle juridique unique applicable aux données en général ■ Ex : que peut-on faire de ces données? Quels principes juridiques invoquent leurs auteurs? ❑ http://www.limc-france.fr/presentation (Conditions d'utilisation) ❑ https://criminocorpus.org/fr/ (DROITS en pied de page) ❑ http://dx.doi.org/10.7910/DVN/28674 (onglet TERMS) ❑ http://clapi.ish-lyon.cnrs.fr/ (Conditions d'utilisation)
  73. 73. Le statut des données de la recherche 73Mathieu Saby - avril/mai 2016 ■ Questions à poser avant de réutiliser, traiter, créer, diffuser tout document, donnée ou information : ❑ protection par la propriété intellectuelle ? ❑ protection particulières pour certaines données?
  74. 74. Sécuriser les usages par une licence ■ En fonction du degré de réutilisation souhaité ❑ Licence ad hoc: si données particulièrement complexes ou demandant une protection spéciale ❑ Licence CC (Creative Commons) ❑ Outil pour choisir une licence CC ❑ Idéalement CC-BY v 4 (simple obligation de créditer l'auteur) ❑ « Renonciation » CC-0. Réutilisation maximale. Idéale en absence de droit d'auteur clair sur les données ❑ Autres licences : OBDL, Licence Ouverte, etc. ❑ Pour les logiciels : GPLv3, MIT, BSD, CeCILL... 74Mathieu Saby - avril/mai 2016
  75. 75. Les principaux cas de figure (très simplifié) 75Mathieu Saby - avril/mai 2016 Pas de protection par la propriété intellectuelle Diffusion et réutilisation libre Protection par la propriété intellectuelle Diffusion et réutilisation limités (par défaut) Protection particulière notamment pour des données concernant Idées, faits, données brutes, sauf si bénéficient d'une protection particulière Oeuvres entrées dans le domaine public Informations publiques (issues de documents produits ou reçus par l'administration), sauf documents soumis à la PI ou informations bénéficiant d'une protection particulière Oeuvres non entrées dans le domaine public (textes, images, sons, vidéos, logiciels, etc.) Bases de données ("recueil d'oeuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen.") droit sui generis des bases de données + droit d'auteur sur la base elle-même + droit d'auteur sur ses éléments La vie privée de personnes physiques Le secret statistique Les secrets commerciaux ou industriels Les intérêts de l'Etat Respecter: le droit moral pour les oeuvres entrées dans le domaine public l'équivalent du droit moral pour les informations publiques Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et éventuels "droits voisins" Autorisation requise (et éventuellement rémunération): des détenteurs des les droits d'auteurs et "droits voisins" sur les oeuvres incluses de la base des détenteurs des droits d'auteurs sur la structure de la base du "producteur" de la base (s'il fait jouer son droit), sauf pour une extraction non substantielle Procédures spécifiques Déclaration à la CNIL ou au CIL Demande d'autorisation à la CNIL Organismes spécifiques
  76. 76. Les principaux cas de figure 76Mathieu Saby - avril/mai 2016 ■ Références principales ❑ Code de la propriété intellectuelle https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00 0006069414 ❑ Code des relations entre le public et l'administration (livre III) https://www.legifrance.gouv.fr/affichCode.do?cidTexte=LEGITEXT00 0031366350 ❑ Loi 1978-17 Informatique et liberté https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT0 00000886460
  77. 77. Le traitement des données personnelles ■ Données personnelles ❑ Toutes les données permettant d’identifier une personne physique, directement ou indirectement ■ Protection renforcée pour les données sensibles ou à risque ■ Définition large du "traitement » ❑ Collecte, enregistrement, organisation, conservation, modification, utilisation, communication, interconnexion… ■ Les traitements doivent être déclarées à la CNIL et doivent parfois être autorisés explicitement 77Mathieu Saby - avril/mai 2016
  78. 78. Le traitement des données personnelles 78Mathieu Saby - avril/mai 2016 ■ Principes à respecter pour tout traitement: ❑ Finalité explicite, précise et légitime ❑ Collecte loyale et licite ❑ Données adéquates à la finalité ❑ Limiter la conservation des données ❑ Sécuriser les données ❑ Respecter les droits des personnes: consentement, accès, rectification, opposition
  79. 79. Le traitement des données personnelles ■ Conseil pratique pour limiter les formalités: ne pas recueillir plus de données personnelles qu’il n’est nécessaire ❑ Ex : ville et non adresse précise. Tranche d’âge et non âge précis… 79Mathieu Saby - avril/mai 2016
  80. 80. Le traitement des données personnelles 80Mathieu Saby - avril/mai 2016 Pour en savoir plus, interlocuteur local et intermédiaire entre le chercheur et la CNIL : le Correspondant Informatique et libertés de l’université
  81. 81. Un droit en évolution 81Mathieu Saby - avril/mai 2016 ■ Principe récent (2013) : la recherche a pour mission « L'organisation de l'accès libre aux données scientifiques » (Code de la recherche : article L112‐1) ■ Projet de loi République numérique, art. 17 « II. - Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l'État, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. « III. - L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. « IV. - Les dispositions du présent article sont d'ordre public et toute clause contraire à celles-ci est réputée non écrite. »
  82. 82. Un droit en évolution 82Mathieu Saby - avril/mai 2016 ■ Vers une autorisation de la fouille de texte et de données (Text and data mining)? ❑ Forte demande des chercheurs ❑ Gouvernement opposé ❑ Assemblée nationale favorable ❑ Sénat favorable, mais de manière plus limité
  83. 83. Enjeux éthiques 83Mathieu Saby - avril/mai 2016 ■ Quels risques la collecte, le traitement et/ou la diffusion des données font peser sur ❑ les personnes ❑ les entreprises ❑ le patrimoine ❑ l'environnement?
  84. 84. Enjeux éthiques 84Mathieu Saby - avril/mai 2016 ■ La diffusion des données nuit-elle aux relations entre le chercheur et les participants à ses recherches? ■ La réutilisation des données d'un autre chercheur est-elle un pillage ou un hommage?
  85. 85. Enjeux éthiques 85Mathieu Saby - avril/mai 2016 ■ Certaines données ne seront jamais partagées ■ Mais des solutions existent pour contourner les obstacles: ❑ recueil de consentements ❑ suppression des informations sensibles ❑ anonymisation ❑ limitation du public ❑ accès restreint voire environnement contrôlé ❑ licences restrictives ❑ embargo
  86. 86. 7. Partager et diffuser ses données 86Mathieu Saby - avril/mai 2016
  87. 87. Des questions à anticiper ■ Quelles données diffuser ? ■ Quand ? ■ Comment ? ■ À qui ? ■ Gratuitement ou pas ? ■ Sous quelles conditions ? ■ En permettant quel usage ? ■ Sous quelle forme ? ■ Avec quelles informations complémentaires ? 87Mathieu Saby - avril/mai 2016
  88. 88. Comment et où diffuser ses données 88Mathieu Saby - avril/mai 2016 ■ Toutes les données sont dans la publication ■ Partage à la demande ■ Site du laboratoire ou du chercheur ❑ Ex: http://piketty.pse.ens.fr/fr/capital21c ■ Site de l’éditeur (« matériel d’accompagnement ») ❑ Ex : Revue Sociologie ■ Site du projet ❑ Ex: Navigocorpus ■ Entrepôt de données (préférable)
  89. 89. Les entrepôts de données ■ Plus de 1500 sur le registre Re3data ■ Critères de choix essentiels d'un entrepôt ❑ Reconnaissance par une communauté disciplinaire (cf. listes des groupe Nature et PLOS ONE ) ❑ Type et taille des fichiers acceptés ❑ Nature des métadonnées autorisées ❑ Possibilité de versionner les fichiers ❑ Attribution d’identifiants uniques pérennes (DOI, Handle, ARK...) ❑ Possibilité d’accès restreint ou d’embargo ❑ Fiabilité, garantie de pérennité de l’entrepôt ❑ Certification ❑ Prix 89Mathieu Saby - avril/mai 2016
  90. 90. Les entrepôts de données ■ Plusieurs types : spécialisés, disciplinaires, institutionnels, généralistes ❑ Ex. français: Ortholang (linguistique), MediHAL (images, sons, vidéos) ❑ Ex. internationaux : Dryad (biologie, environnement), ICPSR (sciences sociales) ■ Principaux entrepôts généralistes internationaux: ❑ Figshare (privé, lié à un groupe de presse) ❑ Zenodo (public, lié au CERN) 90Mathieu Saby - avril/mai 2016
  91. 91. Les entrepôts de données: exemple d'utilisation 91Mathieu Saby - avril/mai 2016 Fichier son https://hal.archives-ouvertes.fr/medihal-01242449 Thèse Etude, analyse et modélisation physique de la production de la parole avec applications aux troubles liés à une surdité profonde https://tel.archives-ouvertes.fr/tel-01269639
  92. 92. Les entrepôts de données: exemple d'utilisation 92Mathieu Saby - avril/mai 2016 Fichier de données https://zenodo.org/record/29239 Thèse Identification des indices acoustiques utilisés lors de la compréhension de la parole dégradée p. 183-5 https://tel.archives-ouvertes.fr/tel-01266326
  93. 93. Citer et être citer 93Mathieu Saby - avril/mai 2016 ■ Bonnes pratiques ❑ Citer les données comme tout autre document (dans le corps du texte et en note) ❑ Citer également les publications associées aux données ❑ Donner les informations nécessaires pour permettre la citation de ses données ■ Une citation doit permettre ❑ L’identification des données → titre, date, version, éditeur, identifiant pérenne ❑ L’attribution à leurs auteurs → nom des auteurs ❑ Une lecture par des machines → identifiant pérenne
  94. 94. Citer et être citer 94Mathieu Saby - avril/mai 2016 ■ Réflexion internationale en cours ❑ Consortium DataCite ❑ Joint Declaration of Data Citation Principles ■ Structuration et éléments importants ❑ Le format précis (ordre des éléments, ponctuation) peut varier selon les exigences des revues et des disciplines. ❑ Ex. : Auteur (Année), Titre, Entrepôt de données, Version (facultatif), Type de ressource (facultatif). Identifiant ❑ Un outil utile pour formater les citations (de données et de publications): http://crosscite.org/citeproc/
  95. 95. Décrire ses données dans un "data paper" 95Mathieu Saby - avril/mai 2016 ■ Pour faciliter leur réutilisation ■ Publication dans une revue scientifique ordinaire ■ Ou dans un "Data journal" publiant des articles scientifiques (revus par les pairs) décrivant des jeux de données ❑ généraliste : ■ Scientific Data ■ Research Ideas and Outcomes ❑ displinaire : ■ Journal of open archeology data ■ Journal of Open Psychology Data ■ Journal of open humanities data ■ Research Data Journal for the Humanities and Social Sciences
  96. 96. 8. Stocker et archiver après le projet 96Mathieu Saby - avril/mai 2016
  97. 97. Une problématique spécifique ■ Les entrepôts de données ne résolvent pas tous les problèmes: ❑ Toutes les données ne peuvent pas être diffusées dans un entrepôt de données ❑ Sauf exception les entrepôts de données ne garantissent pas un archivage durable des données ❑ On diffuse donc dans un entrepôt une copie des données, en sauvegardant l’original ailleurs 97Mathieu Saby - avril/mai 2016
  98. 98. Des choix à faire 98Mathieu Saby - avril/mai 2016 ■ Quelles données conserver? ❑ A minima les données sur lesquelles se fondent les analyses présentées dans les publications ou la thèse ❑ Eventuellement d'autres données (non exploitées complètement dans les publications) ■ Dans quelle version (brutes, traitées, analysées, anonymisées…) ? ■ Dans quel format? ■ Pour combien de temps?
  99. 99. Du stockage à l’archivage pérenne ■ Stockage sécurisé ❑ Intégrité des fichiers garantie à moyen ou long terme ■ Archivage pérenne ❑ Intégrité des fichiers garantie long terme (>30 ans) ❑ Lisibilité des fichiers garantie long terme ■ Migrations de formats ■ Émulations ❑ Utilisabilité des fichiers garantie long terme ■ Documentation poussée sur les données et leur contexte 99Mathieu Saby - avril/mai 2016
  100. 100. Du stockage à l’archivage pérenne ■ L’archivage pérenne ❑ Est assuré par des professionnels ❑ Peut être complexe et coûteux à organiser ❑ Ne concerne pas forcément toutes les données ❑ Doit être anticipé 100Mathieu Saby - avril/mai 2016
  101. 101. Deux outils d’Humanum: Nakala et Nakalona ■ Outils proposés par Humanum ❑ Nakala (Stockage sécurisé, facilite l’archivage pérenne, exposition de métadonnées, mais pas d’interface) ❑ Nakalona (Nakala+interface de consultation) ■ Exemple d’utilisation: Les archives du Centre Franco- Égyptien d’Étude des Temples de Karnak ■ Bénéficiaires: ❑ projets importants en SHS (collaboratifs) ❑ Pas pour les données d’une thèse ordinaire 101Mathieu Saby - avril/mai 2016
  102. 102. L’archivage pérenne ■ Mission du CINES ■ Archive notamment: ❑ Thèses électroniques et articles déposés dans HAL ❑ Données de projets importants en SHS, par l’intermédiaire d’Humanum: http://www.huma- num.fr/services-et-outils/archiver ❑ Données de grandes enquêtes qualitatives : BeQuali http://bequali.fr/ 102Mathieu Saby - avril/mai 2016
  103. 103. Contacts sur la gestion des données ■ Formations: URFIST de Nice ■ Conseils et accompagnement: Bibliothèque universitaire (donnees-scd@unice.fr) ■ Données personnelles : Correspondant informatique et liberté 103Mathieu Saby - avril/mai 2016
  104. 104. Crédits 104Mathieu Saby - avril/mai 2016 Icônes par Freepik, disponibles sur www.flaticon.com Costume de scène du Bourgeois Gentilhomme (domaine Public), disponible sur https://commons.wikimedia.org/wiki/File:Le-bourgeois-gentilhomme.jpg

×