Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

10 ans d’archivage numérique au CINES : premiers bilans et perspectives

1,225 views

Published on

Béchard

Published in: Technology
  • Be the first to comment

10 ans d’archivage numérique au CINES : premiers bilans et perspectives

  1. 1. 10 ans d’archivage numérique au CINES : premiers bilans et perspectives Lorène Béchard bechard@cines.fr Forum AAF - 30 mars 2016
  2. 2. • Evolution de la mission de préservation du CINES • Evolutions de la plateforme technique • Evolutions des ressources affectées à la préservation • Evolutions des usages et des usagers • Partenariats nationaux et internationaux • Perspectives Sommaire
  3. 3. Le Calcul de Haute Performance OCCIGEN 2,1 Pflops (2,1 millions de milliards d’opérations par seconde), 50 544 cœurs, 200 To de mémoire, 315000000 d’heures de calcul disponibles en 2015 La Conservation à long terme des données et documents numériques (Agrément du Service Interministériel des Archives de France) Des missions statutaires nationales stratégiques en synergie : Des infrastructures tier 3 / 4 Fortement sécurisées disponibles 24h/24, 7j/7 • 1500 m2 sur 5 salles machines protégées • 2000 m2 de locaux techniques • 2 lignes électriques ERDF : 2,5 MW et 10 MW onduleurs redondants + groupes électrogènes • accès réseaux à haut débit (10 Gbits/s) Des équipes (55) : expertise, support, formations, exploitation, astreinte Participation à des projets Européens Montpellier Hébergement = activité permettant de mutualiser les infrastructures Hébergement de plates-formes stratégiques de partenaires publics d’envergure nationale (ESR en priorité) : - Baies entières ou serveurs dans baies CINES. Facturation basée sur nombre de baies et conso. électrique - ABES, DSI Inserm, HPC@LR, Nœuds Renater et R3LR, ISSN, Cour des comptes, etc. - contraintes : ne pas contrarier l’évolution des missions et les procédures d’exploitation associés Infrastructure commune pour Données Calcul
  4. 4. La mission d’archivage du CINES en quelques dates… 2004 20082006 1ères réflexions sur l’archivage numérique Centre archiveur des thèses dans PAC-V1 Mission archivage confirmée dans lettre de cadrage + Mise en production de PAC_V2 2005 Prestation de conseil en Archivage Electronique  recrutement d’une archiviste 2007 Ouverture de PAC à d’autres projets  Persée, HAL, biblio univ, établissements de recherche, universités  Besoin agrément SIAF (2010)  Besoin agrément santé (2014) 2010 1ère convention avec durée de service illimitée 2014 Mise à jour des statuts du CINES  archivage pérenne mission statutaire
  5. 5. Les candidats à l’archivage Observations Résultats de calculs MailsDonnées de gestion Documents numériques ou numérisés conserver - Accélérateurs de particules - Séquenceurs de génomes - Capteurs utilisés en météorologie/climatologie - Points de tir en sismique pétrolière ou données spatiales - etc. - Simulations multi-physiques, multi échelles - Augmentation de la résolution des modèles - Nouvelles thématiques Avec des problèmes de - Taille des données (nombre de fichiers, taille des fichiers, …) - Métadonnées associées , identification unique - Sécurisation - Variété des formats (texte, image, son, vidéos, …) - Manuscrits anciens - Revues numérisées - Thèses numériques - etc. à des communautés distribuées diffuser et pour objectif de Archivage intermédiaire Archivage pérenne traiter
  6. 6. Evolutions* de la plateforme technique : au début Entrées Stockage & gestion des données Accès Administration Planification de la pérennisation Réception des données Validation métadonnées (schéma CINES) Validation formats fichiers (pdf, images, texte) Création PID-PAC Création AIP Validation SIP Recherches sur l’ensemble des MD indexées Stockage en plusieurs exemplaires sur disques + bandes + index BDDr Externalisation d’une copie  transfert manuel Vérification des données : au moins une copie OK Filtrage des accès Statistiques (* : liste non exhaustive)
  7. 7. Evolutions* de la plateforme technique : vers 2010 Entrées Stockage & gestion des données Accès Administration Planification de la pérennisation Réception des données Validation métadonnées (schéma CINES) + renforcement AQ (typage-MD, emprOri oblig…) Validation formats fichiers (pdf, images, texte, audio, vidéo…) + traitement BIR Création PID-PAC + ARK Création AIP Validation SIP Recherches sur l’ensemble des MD indexées Stockage en plusieurs exemplaires sur disques + bandes + index BDDr Externalisation d’une copie  transfert manuel Vérification des données : au moins une copie OK Règles de gestion : versionning… Migration de plateforme + Certification Gestion des risques Processus métier Migration logique PPDI Filtrage des accès Restitution des données au format SEDA Statistiques
  8. 8. Evolutions* de la plateforme technique : 2014/2015 Entrées Stockage & gestion des données Accès Administration Planification de la pérennisation Réception des données Validation métadonnées (CINES + SEDA) + renforcement AQ (typage-MD, emprOri oblig…) Validation formats fichiers + traitement BIR Création PID-PAC + ARK Création AIP Validation SIP Recherches sur l’ensemble des MD indexées Stockage en plusieurs exemplaires sur disques + bandes + index BDDr  Stockage modulable Externalisation d’une copie  transfert auto (site distant > 300km) Vérification des données : toutes les copies OK + index OK + contrôles métier Recherches via plan de classement Règles de gestion : versionning, DUA, communicabilité… Migrations plateformes + Certification + Renforcement sécurité (phys &logique) Gestion des risques Processus métier Migration logique PPDI Restitution des données au format SEDA Filtrage des accès Statistiques
  9. 9. Evolutions de la plateforme technique Prévision de forte augmentation de la volumétrie : • multiplication de données volumineuses (vidéos, images en haute définition, observations satellites, …) • prise en charge des « big data »
  10. 10. Evolutions de la plateforme technique
  11. 11. •RH : 13 agents dédiés en 2015 + mutualisation (systèmes, réseau, sécurité, infrastructures, …) Evolutions des ressources affectées à la préservation 0 2 4 6 8 10 12 14 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 3 4 5 5 7 11 11 12 12 12 13 13 Nombre de collaborateurs dédiés Equivalents Temps Pleins
  12. 12. Evolutions des usages et usagers • Thèses • Ouvrages numérisés (Persée, BUs) • Données de la recherche • Données spatiales Impacts : • Prise en compte des spécificités du Code du Patrimoine (SEDA, Communicabilité, etc.) • Constitution du bordereau de versement » & définition de formats-pivots plus difficile (moins standard)  implication de scientifiques dans les process • Adaptation des procédures quand elles ne sont pas directement applicables (format de fichier non validable, etc.)
  13. 13. 13 Groupes de travail nationaux : Groupes de travail internationaux : CG46-CN 4 CN 171 ISO : PDF Formations Collaborations SIAF (élimination, journaux de logs, SEDA, MEDONA, VITAM…) Pôles disciplinaires : ESGF (climato), THEIA Positionnement national et à l’international
  14. 14. Perspectives • Collaboration avec les autres opérateurs institutionnels - Partage d’expérience et des infrastructures avec des partenaires nationaux et internationaux • Inscrire la France & l’ESR dans l’excellence internationale en matière de préservation de l’information numérique. • Relever le défi de la migration logique • Sensibiliser / Convaincre les scientifiques de l’importance de l’archivage de leurs données • Faire face à l’explosion de la volumétrie
  15. 15. 15 bechard@cines.fr

×