Presentació a càrrec de Gonzalo Merino (PIC) duta a terme a la 23a edició de la Trobada de l'Anella Científica (TAC'19) celebrada el 20 de juny de 2019 a la Sala Francesc Cambó del Recinte Modernista de Sant Pau.
Anàlisi i preservació de dades científiques: experiència i reptes de futur
1. Anàlisi i preservació de dades científiques:
experiència i reptes de futur
Trobada de l’Anella Científica, 20 Juny 2019
G. Merino
2. Port d’Informació Científica
Fundat en 2003. Situat al campus de la UAB. Col.laboració entre IFAE i CIEMAT.
Missió
﹘ Participar al més alt nivell en la computació per l’LHC: Tier1 espanyol
﹘ Centre expert en serveis distribuïts de processament de dades científiques
﹘ Reutilitzar la experiència per donar suport a altres disciplines científiques
﹘ Minimitzar el cost mitjançant economies d’escala
﹘ Maximitzar qualitat de servei mitjançant innovació
3. Equip de persones
22 enginyers, tècnics i científics
B. Rodríguez, E. Acción, C. Acosta, R.
Cruz, F. López, V. Acín, E. Planas, J.
Casals, C. Neissner, J. Delgado,
M. Delfino, J. Carretero, P. Tallada, F.
Torradeflot, M. Eriksen, A. Pacheco,
A. Vedaee, A. Pérez-Calero, J. Flix, C.
Dengra, M. Porto, G. Merino
4. LHC: pioner en grans volums de dades
Ritme de col.lisions ~109
/s
Cada “imatge” ~1MB
Generació de dades ~1PB/s
Filtre en temps real ~1GB/s
~50 PB/any per preservar i
analitzar
7. Connectivitat
El PIC és probablement el node de la xarxa acadèmica amb més trànsit de dades
60 Petabytes transferits en 2018 (+33% respecte 2017)
2008 - enllaç de 10 Gpbs
2015 - enllaç de 2x 10 Gbps
2020 - 100 Gbps?
8. HL-LHC: el nou tsunami que s’apropa
LHC tornarà a engegar en 2021 per 3 anys: les dades acumulades es doblaran
Després de l’aturada tècnica LS3 (2024-2025), el 2026 començarà la fase
HL-LHC on s’espera que el ritme de generació de dades creixi un factor 10 (!)
9. Servei d’emmagatzemament massiu
Llibreria automatitzada de cinta magnètica
- 6630 slots
- Capacitat instal.lada 25 PB
- 18 lectores (fins a 64)
- 1570 slots lliures ~ +19 PB (LTO8)
Pros
Baix cost de la cinta
Baix consum elèctric
Cons
Cost operacional
Mercat reduït
TCO actual al PIC:
cinta ~ ⅓ disc
10. Ús intensiu de la cinta magnètica
Suport efectiu per dades
que es llegeixen:
- pocs cops l’any
- de forma ordenada
Cada lectora pot
llegir/escriure a ~250MB/s
12. Adaptació a l’entorn tecnològic
Emmagatzemament en cinta al PIC
PIC: 25 PB cinta,
10 PB disc,
60 PB I/O per any
13. Expansió al núvol (cloud bursting)
Possibilitat de “llogar” capacitat per
cobrir pics de demanda.
﹘ Transparent pels usuaris
Adaptar el serveis de processament de
dades científiques als serveis
comercials
﹘ Preu variable en funció de criticitat
﹘ Cost del moviment de dades
És important simplificar al màxim el model financer
Evolució del rol del PIC: proveïdor de serveis - gestor de recursos en entorn “híbrid”.
nodes
AWS
PIC
15. Transferència i interdisciplinarietat
Telescopis MAGIC al ORM (La Palma)
300 TB de dades per any - repositori principal al PIC des de 2009
Col.laboració internacional - servei de distribució de dades
16. Cosmologia: PAU
Repositori principal de dades al PIC
Desenvolupament del sistema complet de gestió de dades:
transferència, emmagatzemament, reducció, calibració, anàlisi i distribució
17. Un Univers Virtual
EUCLID “Flagship” el catàleg de galàxies sintètic més gran que s’ha fet fins ara.
﹘ Input: simulació rècord de 2.3 trilions de partícules de matèria fosca - catàleg
de 44 bilions de halos (5.5 TB)
﹘ SciPIC: Processament de dades amb Spark, desenvolupament del PIC
﹘ Output: catàleg de galàxies amb 9 bilions de galàxies cobrint ⅓ del cel (3TB)
﹘ Datasets allotjats a CosmoHUB, una plataforma per anàlisi i accés a dades
Piz Daint supercomputer at CSCS
18. CosmoHUB
Plataforma de distribució i anàlisi de dades basada en Hadoop/Hive
4000 catàlegs generats per més de
250 usuaris de tot el món.
Visualització i exploració interactiva
de catàlegs públics
﹘ GAIA (1.1 B obj)
﹘ DES (370 k obj)
﹘ CFHTLenS (6.2 M obj)
﹘ COSMOS (400 k obj)
﹘ DEEP2 (50 k obj)
https://cosmohub.pic.es
21. Resum i idees finals
Les dades són l’actiu més valuós de la recerca: la seva gestió és fonamental per
﹘ Obtenir resultats científics competitius i amortitzar les inversions
﹘ Connectar amb la comunitat científica i amb el públic general
El PIC té una llarga experiència en gestió de dades en diferents àmbits
﹘ Física de partícules, astrofísica, cosmologia, imatge mèdica
﹘ Desenvolupament, integració i operacions
Explora noves tecnologies per desenvolupar serveis de dades amb valor afegit
﹘ Objectiu: accelerar la recerca científica