Infraestructures per dades de recercaRicard de la VegaCap de Portals i Repositoris24-04-13
2Centre de Serveis Científics i Acadèmics de Catalunya (CESCA)2
Dades de recercaLes dades de recerca estancomençant a reconèixer com unafont de coneixement propia iindependent de les pub...
4Open Acces i Research Data4Font: Consulta a Google Trends (24-04-13)
5Big Data is a collection of data sets so large and complex that itbecomes dificult to process using on-hand database manag...
6Research data80.000 estructures en 3D de molècules69 personesAprox. 150 GB6Font: http://www.slideshare.net/gigaom/the-3vs...
7Requisits (Strategy for a European Data Infrastructure):• Accés a les dades (cicle de vida, seguretat, data curation) i c...
8SostenibilitatCostos elevats tant d’adquisició com de manteniment de lesinfraestructures (1 ordre de magnitud més que les...
9Ecosistema de les dades de recerca9Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf
10http://www.cesca.cat/ca/difusio-i-formacio/publicacions/revista-teraflophttp://www.cesca.cat/sites/default/files/docs/in...
Upcoming SlideShare
Loading in …5
×

Infraestructures per dades de recerca

248 views
191 views

Published on

Participació a una taula en el marc de la Big Data Week (http://bigdataweek.com/2013/04/07/les-dades-i-la-recerca)

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
248
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Infraestructures per dades de recerca

  1. 1. Infraestructures per dades de recercaRicard de la VegaCap de Portals i Repositoris24-04-13
  2. 2. 2Centre de Serveis Científics i Acadèmics de Catalunya (CESCA)2
  3. 3. Dades de recercaLes dades de recerca estancomençant a reconèixer com unafont de coneixement propia iindependent de les publicacionsque poden ser usades en la validaciódels resultats d’investigació publicatsen articles, per generar nouconeixent i per ser explotats demanera interdisciplinar.Font: http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf
  4. 4. 4Open Acces i Research Data4Font: Consulta a Google Trends (24-04-13)
  5. 5. 5Big Data is a collection of data sets so large and complex that itbecomes dificult to process using on-hand database managementtools or traditional data processing applications (wikipedia)Velocitat• Sistemes de distribució de processos• (MapReduce, Hadoop, Solr...)Volum• Sistemes de fitxers distribuits• (cabines de discs...)Varietat• BBDD no relacionalsExemples• 340 M de tuits/dia• 1.000 M de consultes/dia a Google• Large Hadron Collider (LHC)• European Bioinformatics InstituteBig data5Font: http://assets.outliers.es/bdw13/bigdata/BDW_BigData.pdf
  6. 6. 6Research data80.000 estructures en 3D de molècules69 personesAprox. 150 GB6Font: http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012Worldwide Protein Data Bank ArchivePatrimoni Digital de Catalunya300K captures de 60K webs380M fitxers en aprox. 20 TBwww.padicat.cat
  7. 7. 7Requisits (Strategy for a European Data Infrastructure):• Accés a les dades (cicle de vida, seguretat, data curation) i capacitat decàlcul (data mining, data processing...)• Preservació de les dades a llarg termini (mecanismes autenticitat,qualitat...)• Distribució de les dades (x preservació i optimització accés)• Compatició (data share, data citation)HW: Sistemes d’emmagatzematge, Sistemes de distribució de processos,balancejadors de càrrega, ample de banda, redundància...SW: DSpace (Dryad...), Invenio (Eudat Simple Store), Dataverse (JuanMarch...), altres...Arquitectura7Difusió Gestió PreservacióFont: http://www.csc.fi/english/pages/parade/whitepaper
  8. 8. 8SostenibilitatCostos elevats tant d’adquisició com de manteniment de lesinfraestructures (1 ordre de magnitud més que les de publicacions)El cost del disc cada vegada és més barat, i el de la preservació?(sempre incremental, diverses còpies, migracions de formats i desuports, etc...) Necessitat de finançament a llarg termini, doncs lesdades són acumulatives i es preserven més enllà dels ciclestecnològicsEn les propostes de finançament de projectes, s’hauriade detallar un pla de gestió de les dades incloent laseva viabilitat econòmicaSelecció de dades (curation) i economies d’escala(compartició de costos + augment sinergies entre investigadors i disciplines)8Font: http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf
  9. 9. 9Ecosistema de les dades de recerca9Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf
  10. 10. 10http://www.cesca.cat/ca/difusio-i-formacio/publicacions/revista-teraflophttp://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf

×