SlideShare a Scribd company logo
1 of 21
Download to read offline
Anàlisi i preservació de dades científiques:
experiència i reptes de futur
Trobada de l’Anella Científica, 20 Juny 2019
G. Merino
Port d’Informació Científica
Fundat en 2003. Situat al campus de la UAB. Col.laboració entre IFAE i CIEMAT.
Missió
﹘ Participar al més alt nivell en la computació per l’LHC: Tier1 espanyol
﹘ Centre expert en serveis distribuïts de processament de dades científiques
﹘ Reutilitzar la experiència per donar suport a altres disciplines científiques
﹘ Minimitzar el cost mitjançant economies d’escala
﹘ Maximitzar qualitat de servei mitjançant innovació
Equip de persones
22 enginyers, tècnics i científics
B. Rodríguez, E. Acción, C. Acosta, R.
Cruz, F. López, V. Acín, E. Planas, J.
Casals, C. Neissner, J. Delgado,
M. Delfino, J. Carretero, P. Tallada, F.
Torradeflot, M. Eriksen, A. Pacheco,
A. Vedaee, A. Pérez-Calero, J. Flix, C.
Dengra, M. Porto, G. Merino
LHC: pioner en grans volums de dades
Ritme de col.lisions ~109
/s
Cada “imatge” ~1MB
Generació de dades ~1PB/s
Filtre en temps real ~1GB/s
~50 PB/any per preservar i
analitzar
170 centres
1 milió cpu cores
1 Exabyte
Worldwide LHC
Computing Grid
PIC Tier-1: custòdia de les dades
Connectivitat
El PIC és probablement el node de la xarxa acadèmica amb més trànsit de dades
60 Petabytes transferits en 2018 (+33% respecte 2017)
2008 - enllaç de 10 Gpbs
2015 - enllaç de 2x 10 Gbps
2020 - 100 Gbps?
HL-LHC: el nou tsunami que s’apropa
LHC tornarà a engegar en 2021 per 3 anys: les dades acumulades es doblaran
Després de l’aturada tècnica LS3 (2024-2025), el 2026 començarà la fase
HL-LHC on s’espera que el ritme de generació de dades creixi un factor 10 (!)
Servei d’emmagatzemament massiu
Llibreria automatitzada de cinta magnètica
- 6630 slots
- Capacitat instal.lada 25 PB
- 18 lectores (fins a 64)
- 1570 slots lliures ~ +19 PB (LTO8)
Pros
Baix cost de la cinta
Baix consum elèctric
Cons
Cost operacional
Mercat reduït
TCO actual al PIC:
cinta ~ ⅓ disc
Ús intensiu de la cinta magnètica
Suport efectiu per dades
que es llegeixen:
- pocs cops l’any
- de forma ordenada
Cada lectora pot
llegir/escriure a ~250MB/s
Tecnología de cinta magnètica
Bon ritme de millora tecnològica
“Roadmap” sòlid pels propers
5-6 anys
Lectores: mercat dominat per
IBM (retirada d’Oracle)
Cintes: batalla de patents entre
Sony i Fujifilm per LTO-8
Mercat en contracció i amb poca
competència - factor de risc
©2016 Information Storage Industry Consortium
Adaptació a l’entorn tecnològic
Emmagatzemament en cinta al PIC
PIC: 25 PB cinta,
10 PB disc,
60 PB I/O per any
Expansió al núvol (cloud bursting)
Possibilitat de “llogar” capacitat per
cobrir pics de demanda.
﹘ Transparent pels usuaris
Adaptar el serveis de processament de
dades científiques als serveis
comercials
﹘ Preu variable en funció de criticitat
﹘ Cost del moviment de dades
És important simplificar al màxim el model financer
Evolució del rol del PIC: proveïdor de serveis - gestor de recursos en entorn “híbrid”.
nodes
AWS
PIC
Integració de recursos heterogenis
Bridge
services
Transferència i interdisciplinarietat
Telescopis MAGIC al ORM (La Palma)
300 TB de dades per any - repositori principal al PIC des de 2009
Col.laboració internacional - servei de distribució de dades
Cosmologia: PAU
Repositori principal de dades al PIC
Desenvolupament del sistema complet de gestió de dades:
transferència, emmagatzemament, reducció, calibració, anàlisi i distribució
Un Univers Virtual
EUCLID “Flagship” el catàleg de galàxies sintètic més gran que s’ha fet fins ara.
﹘ Input: simulació rècord de 2.3 trilions de partícules de matèria fosca - catàleg
de 44 bilions de halos (5.5 TB)
﹘ SciPIC: Processament de dades amb Spark, desenvolupament del PIC
﹘ Output: catàleg de galàxies amb 9 bilions de galàxies cobrint ⅓ del cel (3TB)
﹘ Datasets allotjats a CosmoHUB, una plataforma per anàlisi i accés a dades
Piz Daint supercomputer at CSCS
CosmoHUB
Plataforma de distribució i anàlisi de dades basada en Hadoop/Hive
4000 catàlegs generats per més de
250 usuaris de tot el món.
Visualització i exploració interactiva
de catàlegs públics
﹘ GAIA (1.1 B obj)
﹘ DES (370 k obj)
﹘ CFHTLenS (6.2 M obj)
﹘ COSMOS (400 k obj)
﹘ DEEP2 (50 k obj)
https://cosmohub.pic.es
Eines per fer ciència amb dades obertes
Eines per fer ciència amb dades obertes
Resum i idees finals
Les dades són l’actiu més valuós de la recerca: la seva gestió és fonamental per
﹘ Obtenir resultats científics competitius i amortitzar les inversions
﹘ Connectar amb la comunitat científica i amb el públic general
El PIC té una llarga experiència en gestió de dades en diferents àmbits
﹘ Física de partícules, astrofísica, cosmologia, imatge mèdica
﹘ Desenvolupament, integració i operacions
Explora noves tecnologies per desenvolupar serveis de dades amb valor afegit
﹘ Objectiu: accelerar la recerca científica

More Related Content

Similar to Anàlisi i preservació de dades científiques: experiència i reptes de futur

CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)
CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)
CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)Congrés Govern Digital
 
C:\Users\Alumne\Desktop\Supercomputador Marenostrum
C:\Users\Alumne\Desktop\Supercomputador MarenostrumC:\Users\Alumne\Desktop\Supercomputador Marenostrum
C:\Users\Alumne\Desktop\Supercomputador Marenostrumadriteck94
 
ICMAB Premi Solar 2010
ICMAB  Premi Solar 2010ICMAB  Premi Solar 2010
ICMAB Premi Solar 2010icmabcsic
 
Preservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisPreservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisRicard de la Vega
 
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris.
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris. Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris.
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris. Museu Marítim de Barcelona
 
The need of a High Tech Innovation model in Catalonia
The need of a High Tech Innovation model in CataloniaThe need of a High Tech Innovation model in Catalonia
The need of a High Tech Innovation model in CataloniaArtur Serra
 
Mf0228 3 uf1869 analisi del mercat de productes de comunicacions iii - alumne
Mf0228 3 uf1869   analisi del mercat de productes de comunicacions iii - alumneMf0228 3 uf1869   analisi del mercat de productes de comunicacions iii - alumne
Mf0228 3 uf1869 analisi del mercat de productes de comunicacions iii - alumneThor Pe
 
Projecte científic trash trek. FLL
Projecte científic trash trek. FLLProjecte científic trash trek. FLL
Projecte científic trash trek. FLLlluís nater
 

Similar to Anàlisi i preservació de dades científiques: experiència i reptes de futur (20)

Activitats del CSUC en matèria de gestió documental
Activitats del CSUC en matèria de gestió documentalActivitats del CSUC en matèria de gestió documental
Activitats del CSUC en matèria de gestió documental
 
L'experimentació a baix cost
L'experimentació a baix costL'experimentació a baix cost
L'experimentació a baix cost
 
Preservació digital com a servei (SaaS)
Preservació digital com a servei (SaaS)Preservació digital com a servei (SaaS)
Preservació digital com a servei (SaaS)
 
Jornada CCUC 2021: Els serveis del CSUC per a la comunitat CCUC
Jornada CCUC 2021: Els serveis del CSUC per a la comunitat CCUC Jornada CCUC 2021: Els serveis del CSUC per a la comunitat CCUC
Jornada CCUC 2021: Els serveis del CSUC per a la comunitat CCUC
 
25 anys de l'Anella Científica: més que una xarxa
25 anys de l'Anella Científica: més que una xarxa25 anys de l'Anella Científica: més que una xarxa
25 anys de l'Anella Científica: més que una xarxa
 
Càlcul industrial al CSUC
Càlcul industrial al CSUCCàlcul industrial al CSUC
Càlcul industrial al CSUC
 
CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)
CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)
CGD2019 - Sessió: "L'estratègia blockchain de Catalunya i un cas d'ús" (2/2)
 
C:\Users\Alumne\Desktop\Supercomputador Marenostrum
C:\Users\Alumne\Desktop\Supercomputador MarenostrumC:\Users\Alumne\Desktop\Supercomputador Marenostrum
C:\Users\Alumne\Desktop\Supercomputador Marenostrum
 
ICMAB Premi Solar 2010
ICMAB  Premi Solar 2010ICMAB  Premi Solar 2010
ICMAB Premi Solar 2010
 
New space a Catalunya
New space a CatalunyaNew space a Catalunya
New space a Catalunya
 
Preservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisPreservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositoris
 
Estat del futur sistema compartit de gestió de biblioteques
Estat del futur sistema compartit de gestió de bibliotequesEstat del futur sistema compartit de gestió de biblioteques
Estat del futur sistema compartit de gestió de biblioteques
 
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris.
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris. Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris.
Ponència sobre la Preservació i difusió de fotografies mitjançant repositoris.
 
The need of a High Tech Innovation model in Catalonia
The need of a High Tech Innovation model in CataloniaThe need of a High Tech Innovation model in Catalonia
The need of a High Tech Innovation model in Catalonia
 
Mf0228 3 uf1869 analisi del mercat de productes de comunicacions iii - alumne
Mf0228 3 uf1869   analisi del mercat de productes de comunicacions iii - alumneMf0228 3 uf1869   analisi del mercat de productes de comunicacions iii - alumne
Mf0228 3 uf1869 analisi del mercat de productes de comunicacions iii - alumne
 
Super Computadors
Super ComputadorsSuper Computadors
Super Computadors
 
Millorant la visibilitat de la documentació municipal amb BCNExplora
Millorant la visibilitat de la documentació municipal amb BCNExploraMillorant la visibilitat de la documentació municipal amb BCNExplora
Millorant la visibilitat de la documentació municipal amb BCNExplora
 
Els Serveis del CSUC per a la comunitat CCUC
Els Serveis del CSUC per a la comunitat CCUCEls Serveis del CSUC per a la comunitat CCUC
Els Serveis del CSUC per a la comunitat CCUC
 
Projecte científic trash trek. FLL
Projecte científic trash trek. FLLProjecte científic trash trek. FLL
Projecte científic trash trek. FLL
 
MuseumPlus
MuseumPlusMuseumPlus
MuseumPlus
 

More from CSUC - Consorci de Serveis Universitaris de Catalunya

More from CSUC - Consorci de Serveis Universitaris de Catalunya (20)

Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
 
Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)
 
Publicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de RecercaPublicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de Recerca
 
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
 
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
 
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
 
Security Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademySecurity Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademy
 
The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
 
La gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolasLa gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolas
 
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
 
Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...
 
Enginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fonsEnginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fons
 
Transformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IATransformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IA
 
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de BarcelonaDifusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
 
Fons de discos perforats de cartró
Fons de discos perforats de cartróFons de discos perforats de cartró
Fons de discos perforats de cartró
 
Biblioteca Digital Gencat
Biblioteca Digital GencatBiblioteca Digital Gencat
Biblioteca Digital Gencat
 
El fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusióEl fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusió
 
El CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físicsEl CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físics
 
Els serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUCEls serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUC
 

Anàlisi i preservació de dades científiques: experiència i reptes de futur

  • 1. Anàlisi i preservació de dades científiques: experiència i reptes de futur Trobada de l’Anella Científica, 20 Juny 2019 G. Merino
  • 2. Port d’Informació Científica Fundat en 2003. Situat al campus de la UAB. Col.laboració entre IFAE i CIEMAT. Missió ﹘ Participar al més alt nivell en la computació per l’LHC: Tier1 espanyol ﹘ Centre expert en serveis distribuïts de processament de dades científiques ﹘ Reutilitzar la experiència per donar suport a altres disciplines científiques ﹘ Minimitzar el cost mitjançant economies d’escala ﹘ Maximitzar qualitat de servei mitjançant innovació
  • 3. Equip de persones 22 enginyers, tècnics i científics B. Rodríguez, E. Acción, C. Acosta, R. Cruz, F. López, V. Acín, E. Planas, J. Casals, C. Neissner, J. Delgado, M. Delfino, J. Carretero, P. Tallada, F. Torradeflot, M. Eriksen, A. Pacheco, A. Vedaee, A. Pérez-Calero, J. Flix, C. Dengra, M. Porto, G. Merino
  • 4. LHC: pioner en grans volums de dades Ritme de col.lisions ~109 /s Cada “imatge” ~1MB Generació de dades ~1PB/s Filtre en temps real ~1GB/s ~50 PB/any per preservar i analitzar
  • 5. 170 centres 1 milió cpu cores 1 Exabyte Worldwide LHC Computing Grid
  • 6. PIC Tier-1: custòdia de les dades
  • 7. Connectivitat El PIC és probablement el node de la xarxa acadèmica amb més trànsit de dades 60 Petabytes transferits en 2018 (+33% respecte 2017) 2008 - enllaç de 10 Gpbs 2015 - enllaç de 2x 10 Gbps 2020 - 100 Gbps?
  • 8. HL-LHC: el nou tsunami que s’apropa LHC tornarà a engegar en 2021 per 3 anys: les dades acumulades es doblaran Després de l’aturada tècnica LS3 (2024-2025), el 2026 començarà la fase HL-LHC on s’espera que el ritme de generació de dades creixi un factor 10 (!)
  • 9. Servei d’emmagatzemament massiu Llibreria automatitzada de cinta magnètica - 6630 slots - Capacitat instal.lada 25 PB - 18 lectores (fins a 64) - 1570 slots lliures ~ +19 PB (LTO8) Pros Baix cost de la cinta Baix consum elèctric Cons Cost operacional Mercat reduït TCO actual al PIC: cinta ~ ⅓ disc
  • 10. Ús intensiu de la cinta magnètica Suport efectiu per dades que es llegeixen: - pocs cops l’any - de forma ordenada Cada lectora pot llegir/escriure a ~250MB/s
  • 11. Tecnología de cinta magnètica Bon ritme de millora tecnològica “Roadmap” sòlid pels propers 5-6 anys Lectores: mercat dominat per IBM (retirada d’Oracle) Cintes: batalla de patents entre Sony i Fujifilm per LTO-8 Mercat en contracció i amb poca competència - factor de risc ©2016 Information Storage Industry Consortium
  • 12. Adaptació a l’entorn tecnològic Emmagatzemament en cinta al PIC PIC: 25 PB cinta, 10 PB disc, 60 PB I/O per any
  • 13. Expansió al núvol (cloud bursting) Possibilitat de “llogar” capacitat per cobrir pics de demanda. ﹘ Transparent pels usuaris Adaptar el serveis de processament de dades científiques als serveis comercials ﹘ Preu variable en funció de criticitat ﹘ Cost del moviment de dades És important simplificar al màxim el model financer Evolució del rol del PIC: proveïdor de serveis - gestor de recursos en entorn “híbrid”. nodes AWS PIC
  • 14. Integració de recursos heterogenis Bridge services
  • 15. Transferència i interdisciplinarietat Telescopis MAGIC al ORM (La Palma) 300 TB de dades per any - repositori principal al PIC des de 2009 Col.laboració internacional - servei de distribució de dades
  • 16. Cosmologia: PAU Repositori principal de dades al PIC Desenvolupament del sistema complet de gestió de dades: transferència, emmagatzemament, reducció, calibració, anàlisi i distribució
  • 17. Un Univers Virtual EUCLID “Flagship” el catàleg de galàxies sintètic més gran que s’ha fet fins ara. ﹘ Input: simulació rècord de 2.3 trilions de partícules de matèria fosca - catàleg de 44 bilions de halos (5.5 TB) ﹘ SciPIC: Processament de dades amb Spark, desenvolupament del PIC ﹘ Output: catàleg de galàxies amb 9 bilions de galàxies cobrint ⅓ del cel (3TB) ﹘ Datasets allotjats a CosmoHUB, una plataforma per anàlisi i accés a dades Piz Daint supercomputer at CSCS
  • 18. CosmoHUB Plataforma de distribució i anàlisi de dades basada en Hadoop/Hive 4000 catàlegs generats per més de 250 usuaris de tot el món. Visualització i exploració interactiva de catàlegs públics ﹘ GAIA (1.1 B obj) ﹘ DES (370 k obj) ﹘ CFHTLenS (6.2 M obj) ﹘ COSMOS (400 k obj) ﹘ DEEP2 (50 k obj) https://cosmohub.pic.es
  • 19. Eines per fer ciència amb dades obertes
  • 20. Eines per fer ciència amb dades obertes
  • 21. Resum i idees finals Les dades són l’actiu més valuós de la recerca: la seva gestió és fonamental per ﹘ Obtenir resultats científics competitius i amortitzar les inversions ﹘ Connectar amb la comunitat científica i amb el públic general El PIC té una llarga experiència en gestió de dades en diferents àmbits ﹘ Física de partícules, astrofísica, cosmologia, imatge mèdica ﹘ Desenvolupament, integració i operacions Explora noves tecnologies per desenvolupar serveis de dades amb valor afegit ﹘ Objectiu: accelerar la recerca científica