SlideShare a Scribd company logo
1 of 19
Download to read offline
Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules
Problématique du devenir des données
au Centre de Calcul de l'IN2P3
Pascal CALVAT, 16 Janvier 2015
Plan
2
 L’avalanche numérique dans tous les domaines
 Présentation du Centre de calcul CCIN2P3
 Plan de management des données au CCIN2P3
Pistes d’améliorations de la gestion des données :
 Inventaire des données
 Point annuel avec les responsables des données
L’avalanche numérique dans tous les domaines
3
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis
sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scan de l’ensemble du ciel en trois nuits
(démarrage 2020)
•150 Po de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue publique
• http://www.lsst.org/
Physique des particules - LHC (CERN - Genève)
Astronomie - LSST (Chili)
Quelques exemples :
Le détecteur ATLAS au CERN (Genève)
4
Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent
de plus en plus de données, engendrant une avalanche numérique.
• Découverte du boson de Higgs
•15 Po de données brutes par an répartis
sur une grille de calcul mondiale
• 70000 processeurs
• http://home.web.cern.ch/
• Scanne de l’ensemble du ciel en trois nuits
(démarrage 2020)
•150 de données brutes sur 15 ans
• Base relationnelle de 15 Po
• Une partie des données sera rendue public
• http://www.lsst.org/
Physique des particules - LHC (CERN - Geneve)
Astronomie - LSST (Chili)
Quelques exemples :
L’avalanche numérique dans tous les domaines
5
Biologie – Séquenceur haut débit
BNF (Paris)
• Numérisation d’ouvrages
• 100 To par an
• Archivage pérenne
• Service de diffusion de données
• http://www.bnf.fr
• Séquençage de l’ADN
• 1 Po pour la plateforme informatique
• Machine de calcul parallèle
• Plusieurs To de mémoire pour l’analyse
• Données rendues publiques
• http://bioinfo.genotoul.fr/
Avalanche numérique : besoin de ressources informatiques mutualisées
Titre de la présentation 6
Pour faire face à cette avalanche numérique, les chercheurs doivent
avoir accès à des ressources informatiques mutualisées.
Laboratoire Centre de calcul
Grille de calcul
(plusieurs centres de calculs)
La gestion des données numériques devient un point
incontournable dans la réussite des projets scientifiques
Avantages d’une bonne gestion des données
Titre de la présentation Date 7
Mener un projet de recherche à son terme
Eviter la perte de données uniques ou difficilement reproductibles
Accélérer la recherche en mutualisant les efforts dans les équipes de recherche
Améliorer la qualité des données en réduisant les données orphelines
Intensifier la collaboration entre chercheurs en accédant à des données
structurées en ligne (gratuites ou pas)
Continuer à exploiter des données après la fin des projets :
Exploiter les données après l’arrêt d’un accélérateur
Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux)
Réduire les dépenses informatiques
Quels sont les avantages d’une bonne gestion des données?
Le Centre de calcul de l’IN2P3 en quelques mots
8
8
L’IN2P3 dispose d’un centre de calcul,
le CCIN2P3, installé à Lyon depuis
1986
La mission du CCIN2P3
est de fournir des services
informatiques aux laboratoires de
l’IN2P3 (CNRS) et l’IRFU (CEA)
Ouverture vers la biologie et les
sciences humaines et sociales
60 ingénieurs informaticiens
Services disponibles 24h/24
IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
Le CCIN2P3 : un gigantesque entrepôt de données
9
9
25 Po
Disque
20 000 cœurs de calcul pour
l’analyse des données et les
simulations
Bandes magnétiques
15 Po sur disque
Calcul
Le CCIN2P3 : un gigantesque entrepôt de données
10
Utilisateurs répartis dans différentes disciplines :
 Physique nucléaire et des particules (LHC au CERN)
 Astrophysique
 Ouverture interdisciplinaire : biologie, écologie, sciences humaines et
sociales (Huma-Num)
Au total :
 2500 utilisateurs répartis dans 170 groupes de recherche (groupe =
projet scientifique)
 40 Po répartis dans différentes technologies de stockage
Technologie Espace occupé Fichier en millions
GPFS 1.5 Po 476
AFS 3.5 To 3.5
HPSS 25 Po 49
iRODS 9 Po 60
DCACHE 8 Po -
TSM 1 Po -
Le CCIN2P3 : Type de fichiers
11
 Fichiers de données avec tout type de format
◦ Raw data (appareil de mesure, relevé de terrain)
◦ Banques de données communautaires
◦ Simulation
◦ Analyse
 Programmes informatiques (liés à un langage et un
environnement d’exécution)
 Codes de gestion du workflow
◦ Lancement des calculs
◦ Traitement sur les données (transfert, fusion de données)
Comment gérer efficacement une telle diversité de données?
Gestion des données : le Data Management Plan
12
Pour une gestion correcte des données, chaque projet devrait
définir un plan de gestion de données
 Le Data Management Plan (DMP) formalise la façon de gérer
les données liées à un projet de recherche
- Description des données, des métadonnées et du format
- Description du cycle de vie des données y compris après le projet
- Détail de la politique associée aux données (accès, diffusion,
confidentialité)
- Aspects budgétaires
 Exemple de DMP en français issu du projet Horizon 2020 :
http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p
gd_horizon_2020_tr_fr.pdf
Gestion des données: le plan de management « en vigueur » au CCIN2P3
13
 DMP (Data Management Plan) par défaut au CCIN2P3 :
o Recopie des données sur des supports récents. Cette opération est
effectuée de manière transparente par les experts du Centre de calcul.
o Les données sont accessibles pendant la durée du projet
o Pas de campagne systématique d'effacement des données (sauf
demande explicite) y compris en fin de projet
o Certaines zones de stockage peuvent être sauvegardées à la demande
o Désignation d’un responsable des données par projet
o Respect des engagements du MoU (Memorandum of understanding).
oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou
Les projets scientifiques disposent rarement d’un plan de management des données.
Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté
sur la préservation des octets et l’accès en ligne aux données
Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur
14
 Qualités
- Données accessibles en temps réel
- Garantie de relire les données dans le futur sur des médias récents
- Perte de temps minimale concernant la gestion des données
- Gain de temps pour faire de la recherche et écrire des publications
 Faiblesses
- Le CCIN2P3 ne connaît pas la criticité des données stockées
- Données temporaires ou orphelines pas supprimées entièrement
- Difficulté d’identification du propriétaire des données pour les projets terminés
- Lourdeur de la migration des données
- Pas de stockage au sens archivistique du terme
 Réaliser un inventaire des données stockées au CCIN2P3
 Faire un point annuel entre le CCIN2P3 et les responsables des
données côté projet
Pistes d’amélioration de la gestion des données :
L’inventaire des données
15
Un inventaire des données est réalisé quotidiennement sur
l’ensemble des systèmes de stockage du centre (40 Po)
Cet inventaire est à destination des ingénieurs du centre pour
avoir une vue détaillée des données, mais aussi à destination
des responsables des données dans le projet de recherche
Informations recueillies (si disponibles) :
 Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE)
 Propriétaire du fichier, nom du projet
 Répertoire parent
 Nombre de fichiers, sous-répertoires, liens
 Espace utilisé, quota alloué
 Date de dernière modification
 Date de dernier accès
Il a fallu plus de deux ans pour mettre en place l’inventaire
Inventaire des données : informations actuellement moissonnées
16
Propriét
aire
Fichiers Espace utilisé Répertoire
parent
Date de
dernier
accès
Date de
dernière
modification
Quota
AFS   
Par utilisateur

Par
utilisateur

Par
utilisateur

DCACHE 
Par projet

HPSS   
Par utilisateur

Par
utilisateur

Par
utilisateur
IRODS   
Par utilisateur
GPFS   
Par utilisateur

Par projet

Ces informations sont indispensables pour une curation efficace des
données.
Vocabulaire : curation = l'ensemble des activités et opérations nécessaires
à une gestion active des données de recherche numériques
Un point annuel sur les données
17
Le point sur les données a pour but d’identifier les actions de curation
prioritaires
 Réalisé avec le(s) responsable(s) des données au moins une fois par an
 Difficile à organiser avec 170 groupes de recherche répartis dans le
monde
o Réunion au CCIN2P3 ou dans le laboratoire de recherche
o Visio-conférence
o Téléphone
o Par mail
 Points abordés :
o Identification des comptes à fermer ou à prolonger
o Identification des actions de curation prioritaires
o Estimation des besoins en stockage pour l’année suivante
Devenir des données au CCIN2P3
18
Après la fin d’un projet, les données suivent des destins
différents selon la politique du projet :
Les données peuvent :
 Etre supprimées
 Restées accessibles en ligne pendant plusieurs années
 Exportées vers une base de données communautaire
 Sauvegardées avec un replica
Conclusion
19
 La gestion des données est une étape devenue incontournable dans les projets
scientifiques
 Le Data Management Plan doit être défini en amont du projet afin d’éviter de
mauvaises surprises
 La pérennisation et la mise à disposition des données doit être spécifiée
clairement dans le DMP d’un point de vue technique et financier
 L’inventaire des données et le point annuel sont indispensables pour enclencher
les actions de curation
Contact : calvat(at)in2p3(dot)fr
Groupe de réflexion sur le devenir des données au CCIN2P3:
Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat,
Rachid Lemrani, Jean-Yves Nief
MERCI

More Related Content

What's hot

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...Lesticetlart Invisu
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Lesticetlart Invisu
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...OCTO Technology
 
Présentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'EnssibPrésentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'EnssibABES
 
Gérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesGérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesMathieu Saby
 
Presentation demat bordeaux
Presentation demat bordeauxPresentation demat bordeaux
Presentation demat bordeauxAssociationAF
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big dataRomain Jouin
 
Jeaes gip silpc - poc
Jeaes   gip silpc - pocJeaes   gip silpc - poc
Jeaes gip silpc - pocAssociationAF
 
Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheMathieu Saby
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017Bertrand Tavitian
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Lesticetlart Invisu
 

What's hot (14)

L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...Construire des outils pour la gestion des données de la recherche dans une co...
Construire des outils pour la gestion des données de la recherche dans une co...
 
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
Softshake 2013 - Yarn dans la vraie vie, retour d'expérience et bonnes pratiq...
 
Projets de coopération en Information Scientifique et Technique (IST)_Marc Go...
Projets de coopération en Information Scientifique et Technique (IST)_Marc Go...Projets de coopération en Information Scientifique et Technique (IST)_Marc Go...
Projets de coopération en Information Scientifique et Technique (IST)_Marc Go...
 
Présentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'EnssibPrésentation de l'ABES aux élèves conservateurs à l'Enssib
Présentation de l'ABES aux élèves conservateurs à l'Enssib
 
Gérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiquesGérer et diffuser ses données: principes et bonnes pratiques
Gérer et diffuser ses données: principes et bonnes pratiques
 
Presentation demat bordeaux
Presentation demat bordeauxPresentation demat bordeaux
Presentation demat bordeaux
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Jeaes gip silpc - poc
Jeaes   gip silpc - pocJeaes   gip silpc - poc
Jeaes gip silpc - poc
 
Presentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonusPresentation entrepot polescience-v73-ssbonus
Presentation entrepot polescience-v73-ssbonus
 
Le projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la rechercheLe projet du SCD de Nice: une approche globale des données de la recherche
Le projet du SCD de Nice: une approche globale des données de la recherche
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
 
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...Accompagnement actif des chercheurs à la gestion et au partage des données de...
Accompagnement actif des chercheurs à la gestion et au partage des données de...
 

Viewers also liked

Datacenter conception Tier III - Location Baie Informatique
Datacenter conception Tier III - Location Baie InformatiqueDatacenter conception Tier III - Location Baie Informatique
Datacenter conception Tier III - Location Baie InformatiqueCyrès
 
Brochure datacenter efirack
Brochure datacenter efirackBrochure datacenter efirack
Brochure datacenter efirackEUROPAGES
 
Modern Datacenter : de la théorie à la pratique
Modern Datacenter : de la théorie à la pratique Modern Datacenter : de la théorie à la pratique
Modern Datacenter : de la théorie à la pratique Microsoft Technet France
 
LA VIRTUALISATION DANS TOUS SES ETATS ! Du datacenter au poste de travail
LA VIRTUALISATION DANS TOUS SES ETATS !Du datacenter au poste de travailLA VIRTUALISATION DANS TOUS SES ETATS !Du datacenter au poste de travail
LA VIRTUALISATION DANS TOUS SES ETATS ! Du datacenter au poste de travaillelud
 
Datacenter Operation Management
Datacenter Operation ManagementDatacenter Operation Management
Datacenter Operation ManagementSimon DUCHENE
 
Performance des entreprises des DOM
Performance des entreprises des DOMPerformance des entreprises des DOM
Performance des entreprises des DOMAFRIKASOURCES
 
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeració
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeracióUf2 nf1 transmissió q_bescanviadors nf2 refrigeració
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeracióPilar Gonzalez
 
Aura Monsalve - El Bosco
Aura Monsalve - El BoscoAura Monsalve - El Bosco
Aura Monsalve - El BoscoLiza Escudero
 
Atelier no4:Géomatique et développement économique - Base de données Parcs d...
Atelier no4:Géomatique et développement économique -  Base de données Parcs d...Atelier no4:Géomatique et développement économique -  Base de données Parcs d...
Atelier no4:Géomatique et développement économique - Base de données Parcs d...teleparc
 
Atelier no3: Urbanisme et INSPIRE
Atelier no3: Urbanisme et INSPIREAtelier no3: Urbanisme et INSPIRE
Atelier no3: Urbanisme et INSPIREteleparc
 
Alphabet
AlphabetAlphabet
Alphabetgrespag
 
Powerborings
PowerboringsPowerborings
PowerboringssQalo
 
Tribus De L Omo (1)2
Tribus De L Omo (1)2Tribus De L Omo (1)2
Tribus De L Omo (1)2jmartin
 
Universidad CatóLica De Temuco, Tarea 2
Universidad CatóLica De Temuco, Tarea 2Universidad CatóLica De Temuco, Tarea 2
Universidad CatóLica De Temuco, Tarea 2guestd4ebc
 

Viewers also liked (20)

Datacenter conception Tier III - Location Baie Informatique
Datacenter conception Tier III - Location Baie InformatiqueDatacenter conception Tier III - Location Baie Informatique
Datacenter conception Tier III - Location Baie Informatique
 
CV - TOHME, Mohamad
CV - TOHME, MohamadCV - TOHME, Mohamad
CV - TOHME, Mohamad
 
Brochure datacenter efirack
Brochure datacenter efirackBrochure datacenter efirack
Brochure datacenter efirack
 
Modern Datacenter : de la théorie à la pratique
Modern Datacenter : de la théorie à la pratique Modern Datacenter : de la théorie à la pratique
Modern Datacenter : de la théorie à la pratique
 
LA VIRTUALISATION DANS TOUS SES ETATS ! Du datacenter au poste de travail
LA VIRTUALISATION DANS TOUS SES ETATS !Du datacenter au poste de travailLA VIRTUALISATION DANS TOUS SES ETATS !Du datacenter au poste de travail
LA VIRTUALISATION DANS TOUS SES ETATS ! Du datacenter au poste de travail
 
Datacenter Operation Management
Datacenter Operation ManagementDatacenter Operation Management
Datacenter Operation Management
 
Performance des entreprises des DOM
Performance des entreprises des DOMPerformance des entreprises des DOM
Performance des entreprises des DOM
 
UF1 NF4. COGENERACIÓ
UF1 NF4. COGENERACIÓUF1 NF4. COGENERACIÓ
UF1 NF4. COGENERACIÓ
 
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeració
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeracióUf2 nf1 transmissió q_bescanviadors nf2 refrigeració
Uf2 nf1 transmissió q_bescanviadors nf2 refrigeració
 
Aura Monsalve - El Bosco
Aura Monsalve - El BoscoAura Monsalve - El Bosco
Aura Monsalve - El Bosco
 
Atelier no4:Géomatique et développement économique - Base de données Parcs d...
Atelier no4:Géomatique et développement économique -  Base de données Parcs d...Atelier no4:Géomatique et développement économique -  Base de données Parcs d...
Atelier no4:Géomatique et développement économique - Base de données Parcs d...
 
Atelier no3: Urbanisme et INSPIRE
Atelier no3: Urbanisme et INSPIREAtelier no3: Urbanisme et INSPIRE
Atelier no3: Urbanisme et INSPIRE
 
Alphabet
AlphabetAlphabet
Alphabet
 
Cooperativismo
CooperativismoCooperativismo
Cooperativismo
 
Gg
GgGg
Gg
 
Powerborings
PowerboringsPowerborings
Powerborings
 
Eixos principals del curs 2010-2011
Eixos principals del curs 2010-2011Eixos principals del curs 2010-2011
Eixos principals del curs 2010-2011
 
Tribus De L Omo (1)2
Tribus De L Omo (1)2Tribus De L Omo (1)2
Tribus De L Omo (1)2
 
Universidad CatóLica De Temuco, Tarea 2
Universidad CatóLica De Temuco, Tarea 2Universidad CatóLica De Temuco, Tarea 2
Universidad CatóLica De Temuco, Tarea 2
 
Bonbons
BonbonsBonbons
Bonbons
 

Similar to Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeureGov Innovation Center
 
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...ACSG Section Montréal
 
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...ACSG - Section Montréal
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...kmichel69
 
Jabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium CouperinJabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium CouperinABES
 
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES
 
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"ABES
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
JE USAGIS - Rennes 2016 : Mickael Beaufils
JE USAGIS - Rennes 2016 : Mickael BeaufilsJE USAGIS - Rennes 2016 : Mickael Beaufils
JE USAGIS - Rennes 2016 : Mickael Beaufilsgeo_in_geo
 
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Nicolas Baldeck
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifiqueGuillaume Cabanac
 
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectivesAssociationAF
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCIFrenchTechCentral
 
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...iaaldafrika
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...Alain Marois
 
Data sprint des archives
Data sprint  des archives   Data sprint  des archives
Data sprint des archives AssociationAF
 

Similar to Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015 (20)

Préservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le MeurPréservation et accès aux données du CERN - Jean-Yves Le Meur
Préservation et accès aux données du CERN - Jean-Yves Le Meur
 
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
 
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
Act 00018 architecture ouverte pour une gestion optimale de l’information géo...
 
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
Laurent COSTA : Plateformes géo-collaboratives et programmes de recherches hi...
 
Jabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium CouperinJabes 2013 - Poster du Consortium Couperin
Jabes 2013 - Poster du Consortium Couperin
 
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"
Jabes 2012 - Session plénière "L'Abes, à la croisée des chemins"
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
JE USAGIS - Rennes 2016 : Mickael Beaufils
JE USAGIS - Rennes 2016 : Mickael BeaufilsJE USAGIS - Rennes 2016 : Mickael Beaufils
JE USAGIS - Rennes 2016 : Mickael Beaufils
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
 
Interroger le texte scientifique
Interroger le texte scientifiqueInterroger le texte scientifique
Interroger le texte scientifique
 
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
 
Santé : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCISanté : accélérez avec la puissance du calcul intensif - GENCI
Santé : accélérez avec la puissance du calcul intensif - GENCI
 
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...Gestion le la Propriete Intellectuelle  et l’acces libre aux resultats de rec...
Gestion le la Propriete Intellectuelle et l’acces libre aux resultats de rec...
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...
Retour d’expérience : Correspondant IST au sein d’UMR SHS - Réunion des CoIST...
 
Data sprint des archives
Data sprint  des archives   Data sprint  des archives
Data sprint des archives
 

More from Lesticetlart Invisu

Zotero, journée de formation 19 janvier 2017
Zotero, journée de formation 19 janvier 2017Zotero, journée de formation 19 janvier 2017
Zotero, journée de formation 19 janvier 2017Lesticetlart Invisu
 
Kit de survie : Les bases de données
Kit de survie : Les bases de donnéesKit de survie : Les bases de données
Kit de survie : Les bases de donnéesLesticetlart Invisu
 
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériquesKit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériquesLesticetlart Invisu
 
Kit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériquesKit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériquesLesticetlart Invisu
 
OpenRefine: traitement de données en masse
OpenRefine: traitement de données en masseOpenRefine: traitement de données en masse
OpenRefine: traitement de données en masseLesticetlart Invisu
 
Images numériques et métadonnées, seconde partie du 10 mars 2016
Images numériques et métadonnées, seconde partie du 10 mars 2016Images numériques et métadonnées, seconde partie du 10 mars 2016
Images numériques et métadonnées, seconde partie du 10 mars 2016Lesticetlart Invisu
 
Gérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec ZoteroGérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec ZoteroLesticetlart Invisu
 
Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...Lesticetlart Invisu
 
Les TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNamesLes TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNamesLesticetlart Invisu
 
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la RechercheIdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la RechercheLesticetlart Invisu
 
Images numériques et métadonnées: traitement et diffusion, seconde partie
Images numériques et métadonnées: traitement et diffusion, seconde partieImages numériques et métadonnées: traitement et diffusion, seconde partie
Images numériques et métadonnées: traitement et diffusion, seconde partieLesticetlart Invisu
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Lesticetlart Invisu
 
Les Tic et l'art: images numériques, traitement et diffusion, 1
Les Tic et l'art: images numériques, traitement et diffusion, 1Les Tic et l'art: images numériques, traitement et diffusion, 1
Les Tic et l'art: images numériques, traitement et diffusion, 1Lesticetlart Invisu
 
Réaliser un plan de gestion de données
Réaliser un plan de gestion de donnéesRéaliser un plan de gestion de données
Réaliser un plan de gestion de donnéesLesticetlart Invisu
 

More from Lesticetlart Invisu (20)

Invisu plaquette 2017
Invisu plaquette 2017Invisu plaquette 2017
Invisu plaquette 2017
 
Zotero, journée de formation 19 janvier 2017
Zotero, journée de formation 19 janvier 2017Zotero, journée de formation 19 janvier 2017
Zotero, journée de formation 19 janvier 2017
 
Publier à quel prix?
Publier à quel prix? Publier à quel prix?
Publier à quel prix?
 
Plaquette InVisu 2016
Plaquette InVisu 2016Plaquette InVisu 2016
Plaquette InVisu 2016
 
Kit de survie : Les bases de données
Kit de survie : Les bases de donnéesKit de survie : Les bases de données
Kit de survie : Les bases de données
 
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériquesKit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
 
Kit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériquesKit de survie : Gestion et traitement des images numériques
Kit de survie : Gestion et traitement des images numériques
 
Atelier Zotero intermédiaire
Atelier Zotero intermédiaireAtelier Zotero intermédiaire
Atelier Zotero intermédiaire
 
OpenRefine: traitement de données en masse
OpenRefine: traitement de données en masseOpenRefine: traitement de données en masse
OpenRefine: traitement de données en masse
 
Images numériques et métadonnées, seconde partie du 10 mars 2016
Images numériques et métadonnées, seconde partie du 10 mars 2016Images numériques et métadonnées, seconde partie du 10 mars 2016
Images numériques et métadonnées, seconde partie du 10 mars 2016
 
Gérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec ZoteroGérer ses références bibliographiques avec Zotero
Gérer ses références bibliographiques avec Zotero
 
Dossier thématique droit cnrs
Dossier thématique droit cnrsDossier thématique droit cnrs
Dossier thématique droit cnrs
 
Plaquette InVisu 2015
Plaquette InVisu 2015Plaquette InVisu 2015
Plaquette InVisu 2015
 
Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...Structurer, relier et diffuser des données avec les technologies du web séman...
Structurer, relier et diffuser des données avec les technologies du web séman...
 
Les TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNamesLes TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art: Wikipedia et GeoNames
 
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la RechercheIdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
 
Images numériques et métadonnées: traitement et diffusion, seconde partie
Images numériques et métadonnées: traitement et diffusion, seconde partieImages numériques et métadonnées: traitement et diffusion, seconde partie
Images numériques et métadonnées: traitement et diffusion, seconde partie
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Les Tic et l'art: images numériques, traitement et diffusion, 1
Les Tic et l'art: images numériques, traitement et diffusion, 1Les Tic et l'art: images numériques, traitement et diffusion, 1
Les Tic et l'art: images numériques, traitement et diffusion, 1
 
Réaliser un plan de gestion de données
Réaliser un plan de gestion de donnéesRéaliser un plan de gestion de données
Réaliser un plan de gestion de données
 

Recently uploaded

gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptxSAID MASHATE
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptssusercbaa22
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 

Recently uploaded (16)

gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
666148532-Formation-Habilitation-ELECTRIQUE-ENTREPRISE-MARS-2017.pptx
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
MaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.pptMaintenanceLa Maintenance Corrective.ppt
MaintenanceLa Maintenance Corrective.ppt
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 

Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal CALVAT, 16 Janvier 2015

  • 1. Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules Problématique du devenir des données au Centre de Calcul de l'IN2P3 Pascal CALVAT, 16 Janvier 2015
  • 2. Plan 2  L’avalanche numérique dans tous les domaines  Présentation du Centre de calcul CCIN2P3  Plan de management des données au CCIN2P3 Pistes d’améliorations de la gestion des données :  Inventaire des données  Point annuel avec les responsables des données
  • 3. L’avalanche numérique dans tous les domaines 3 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scan de l’ensemble du ciel en trois nuits (démarrage 2020) •150 Po de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue publique • http://www.lsst.org/ Physique des particules - LHC (CERN - Genève) Astronomie - LSST (Chili) Quelques exemples :
  • 4. Le détecteur ATLAS au CERN (Genève) 4 Dans l’ensemble des disciplines scientifiques, les instruments de recherche produisent de plus en plus de données, engendrant une avalanche numérique. • Découverte du boson de Higgs •15 Po de données brutes par an répartis sur une grille de calcul mondiale • 70000 processeurs • http://home.web.cern.ch/ • Scanne de l’ensemble du ciel en trois nuits (démarrage 2020) •150 de données brutes sur 15 ans • Base relationnelle de 15 Po • Une partie des données sera rendue public • http://www.lsst.org/ Physique des particules - LHC (CERN - Geneve) Astronomie - LSST (Chili) Quelques exemples :
  • 5. L’avalanche numérique dans tous les domaines 5 Biologie – Séquenceur haut débit BNF (Paris) • Numérisation d’ouvrages • 100 To par an • Archivage pérenne • Service de diffusion de données • http://www.bnf.fr • Séquençage de l’ADN • 1 Po pour la plateforme informatique • Machine de calcul parallèle • Plusieurs To de mémoire pour l’analyse • Données rendues publiques • http://bioinfo.genotoul.fr/
  • 6. Avalanche numérique : besoin de ressources informatiques mutualisées Titre de la présentation 6 Pour faire face à cette avalanche numérique, les chercheurs doivent avoir accès à des ressources informatiques mutualisées. Laboratoire Centre de calcul Grille de calcul (plusieurs centres de calculs) La gestion des données numériques devient un point incontournable dans la réussite des projets scientifiques
  • 7. Avantages d’une bonne gestion des données Titre de la présentation Date 7 Mener un projet de recherche à son terme Eviter la perte de données uniques ou difficilement reproductibles Accélérer la recherche en mutualisant les efforts dans les équipes de recherche Améliorer la qualité des données en réduisant les données orphelines Intensifier la collaboration entre chercheurs en accédant à des données structurées en ligne (gratuites ou pas) Continuer à exploiter des données après la fin des projets : Exploiter les données après l’arrêt d’un accélérateur Eviter de faire plusieurs fois les mêmes expériences (notamment sur les animaux) Réduire les dépenses informatiques Quels sont les avantages d’une bonne gestion des données?
  • 8. Le Centre de calcul de l’IN2P3 en quelques mots 8 8 L’IN2P3 dispose d’un centre de calcul, le CCIN2P3, installé à Lyon depuis 1986 La mission du CCIN2P3 est de fournir des services informatiques aux laboratoires de l’IN2P3 (CNRS) et l’IRFU (CEA) Ouverture vers la biologie et les sciences humaines et sociales 60 ingénieurs informaticiens Services disponibles 24h/24 IN2P3 : Institut National de Physique Nucléaire et de Physique des Particules
  • 9. Le CCIN2P3 : un gigantesque entrepôt de données 9 9 25 Po Disque 20 000 cœurs de calcul pour l’analyse des données et les simulations Bandes magnétiques 15 Po sur disque Calcul
  • 10. Le CCIN2P3 : un gigantesque entrepôt de données 10 Utilisateurs répartis dans différentes disciplines :  Physique nucléaire et des particules (LHC au CERN)  Astrophysique  Ouverture interdisciplinaire : biologie, écologie, sciences humaines et sociales (Huma-Num) Au total :  2500 utilisateurs répartis dans 170 groupes de recherche (groupe = projet scientifique)  40 Po répartis dans différentes technologies de stockage Technologie Espace occupé Fichier en millions GPFS 1.5 Po 476 AFS 3.5 To 3.5 HPSS 25 Po 49 iRODS 9 Po 60 DCACHE 8 Po - TSM 1 Po -
  • 11. Le CCIN2P3 : Type de fichiers 11  Fichiers de données avec tout type de format ◦ Raw data (appareil de mesure, relevé de terrain) ◦ Banques de données communautaires ◦ Simulation ◦ Analyse  Programmes informatiques (liés à un langage et un environnement d’exécution)  Codes de gestion du workflow ◦ Lancement des calculs ◦ Traitement sur les données (transfert, fusion de données) Comment gérer efficacement une telle diversité de données?
  • 12. Gestion des données : le Data Management Plan 12 Pour une gestion correcte des données, chaque projet devrait définir un plan de gestion de données  Le Data Management Plan (DMP) formalise la façon de gérer les données liées à un projet de recherche - Description des données, des métadonnées et du format - Description du cycle de vie des données y compris après le projet - Détail de la politique associée aux données (accès, diffusion, confidentialité) - Aspects budgétaires  Exemple de DMP en français issu du projet Horizon 2020 : http://www.donneesdelarecherche.fr/IMG/pdf/lignes_directrices_p gd_horizon_2020_tr_fr.pdf
  • 13. Gestion des données: le plan de management « en vigueur » au CCIN2P3 13  DMP (Data Management Plan) par défaut au CCIN2P3 : o Recopie des données sur des supports récents. Cette opération est effectuée de manière transparente par les experts du Centre de calcul. o Les données sont accessibles pendant la durée du projet o Pas de campagne systématique d'effacement des données (sauf demande explicite) y compris en fin de projet o Certaines zones de stockage peuvent être sauvegardées à la demande o Désignation d’un responsable des données par projet o Respect des engagements du MoU (Memorandum of understanding). oExample MoU pour le LHC : http://wlcg.web.cern.ch/collaboration/mou Les projets scientifiques disposent rarement d’un plan de management des données. Pour l’ensemble des projets, le centre applique un plan de gestion des données orienté sur la préservation des octets et l’accès en ligne aux données
  • 14. Le CCIN2P3 : qualités et faiblesses du plan de gestion en vigueur 14  Qualités - Données accessibles en temps réel - Garantie de relire les données dans le futur sur des médias récents - Perte de temps minimale concernant la gestion des données - Gain de temps pour faire de la recherche et écrire des publications  Faiblesses - Le CCIN2P3 ne connaît pas la criticité des données stockées - Données temporaires ou orphelines pas supprimées entièrement - Difficulté d’identification du propriétaire des données pour les projets terminés - Lourdeur de la migration des données - Pas de stockage au sens archivistique du terme  Réaliser un inventaire des données stockées au CCIN2P3  Faire un point annuel entre le CCIN2P3 et les responsables des données côté projet Pistes d’amélioration de la gestion des données :
  • 15. L’inventaire des données 15 Un inventaire des données est réalisé quotidiennement sur l’ensemble des systèmes de stockage du centre (40 Po) Cet inventaire est à destination des ingénieurs du centre pour avoir une vue détaillée des données, mais aussi à destination des responsables des données dans le projet de recherche Informations recueillies (si disponibles) :  Type de technologie (AFS,HPSS, IRODS, GPFS, DCACHE)  Propriétaire du fichier, nom du projet  Répertoire parent  Nombre de fichiers, sous-répertoires, liens  Espace utilisé, quota alloué  Date de dernière modification  Date de dernier accès Il a fallu plus de deux ans pour mettre en place l’inventaire
  • 16. Inventaire des données : informations actuellement moissonnées 16 Propriét aire Fichiers Espace utilisé Répertoire parent Date de dernier accès Date de dernière modification Quota AFS    Par utilisateur  Par utilisateur  Par utilisateur  DCACHE  Par projet  HPSS    Par utilisateur  Par utilisateur  Par utilisateur IRODS    Par utilisateur GPFS    Par utilisateur  Par projet  Ces informations sont indispensables pour une curation efficace des données. Vocabulaire : curation = l'ensemble des activités et opérations nécessaires à une gestion active des données de recherche numériques
  • 17. Un point annuel sur les données 17 Le point sur les données a pour but d’identifier les actions de curation prioritaires  Réalisé avec le(s) responsable(s) des données au moins une fois par an  Difficile à organiser avec 170 groupes de recherche répartis dans le monde o Réunion au CCIN2P3 ou dans le laboratoire de recherche o Visio-conférence o Téléphone o Par mail  Points abordés : o Identification des comptes à fermer ou à prolonger o Identification des actions de curation prioritaires o Estimation des besoins en stockage pour l’année suivante
  • 18. Devenir des données au CCIN2P3 18 Après la fin d’un projet, les données suivent des destins différents selon la politique du projet : Les données peuvent :  Etre supprimées  Restées accessibles en ligne pendant plusieurs années  Exportées vers une base de données communautaire  Sauvegardées avec un replica
  • 19. Conclusion 19  La gestion des données est une étape devenue incontournable dans les projets scientifiques  Le Data Management Plan doit être défini en amont du projet afin d’éviter de mauvaises surprises  La pérennisation et la mise à disposition des données doit être spécifiée clairement dans le DMP d’un point de vue technique et financier  L’inventaire des données et le point annuel sont indispensables pour enclencher les actions de curation Contact : calvat(at)in2p3(dot)fr Groupe de réflexion sur le devenir des données au CCIN2P3: Osman Aïdel, David Bouvet, Yonnny Cardenas, Philippe Cheynet, Pascal Calvat, Rachid Lemrani, Jean-Yves Nief MERCI