Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Infraestructures per dades de recercaRicard de la VegaCap de Portals i Repositoris24-04-13
2Centre de Serveis Científics i Acadèmics de Catalunya (CESCA)2
Dades de recercaLes dades de recerca estancomençant a reconèixer com unafont de coneixement propia iindependent de les pub...
4Open Acces i Research Data4Font: Consulta a Google Trends (24-04-13)
5Big Data is a collection of data sets so large and complex that itbecomes dificult to process using on-hand database manag...
6Research data80.000 estructures en 3D de molècules69 personesAprox. 150 GB6Font: http://www.slideshare.net/gigaom/the-3vs...
7Requisits (Strategy for a European Data Infrastructure):• Accés a les dades (cicle de vida, seguretat, data curation) i c...
8SostenibilitatCostos elevats tant d’adquisició com de manteniment de lesinfraestructures (1 ordre de magnitud més que les...
9Ecosistema de les dades de recerca9Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf
10http://www.cesca.cat/ca/difusio-i-formacio/publicacions/revista-teraflophttp://www.cesca.cat/sites/default/files/docs/in...
Upcoming SlideShare
Loading in …5
×

Infraestructures per dades de recerca

319 views

Published on

Participació a una taula en el marc de la Big Data Week (http://bigdataweek.com/2013/04/07/les-dades-i-la-recerca)

  • Be the first to comment

  • Be the first to like this

Infraestructures per dades de recerca

  1. 1. Infraestructures per dades de recercaRicard de la VegaCap de Portals i Repositoris24-04-13
  2. 2. 2Centre de Serveis Científics i Acadèmics de Catalunya (CESCA)2
  3. 3. Dades de recercaLes dades de recerca estancomençant a reconèixer com unafont de coneixement propia iindependent de les publicacionsque poden ser usades en la validaciódels resultats d’investigació publicatsen articles, per generar nouconeixent i per ser explotats demanera interdisciplinar.Font: http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf
  4. 4. 4Open Acces i Research Data4Font: Consulta a Google Trends (24-04-13)
  5. 5. 5Big Data is a collection of data sets so large and complex that itbecomes dificult to process using on-hand database managementtools or traditional data processing applications (wikipedia)Velocitat• Sistemes de distribució de processos• (MapReduce, Hadoop, Solr...)Volum• Sistemes de fitxers distribuits• (cabines de discs...)Varietat• BBDD no relacionalsExemples• 340 M de tuits/dia• 1.000 M de consultes/dia a Google• Large Hadron Collider (LHC)• European Bioinformatics InstituteBig data5Font: http://assets.outliers.es/bdw13/bigdata/BDW_BigData.pdf
  6. 6. 6Research data80.000 estructures en 3D de molècules69 personesAprox. 150 GB6Font: http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012Worldwide Protein Data Bank ArchivePatrimoni Digital de Catalunya300K captures de 60K webs380M fitxers en aprox. 20 TBwww.padicat.cat
  7. 7. 7Requisits (Strategy for a European Data Infrastructure):• Accés a les dades (cicle de vida, seguretat, data curation) i capacitat decàlcul (data mining, data processing...)• Preservació de les dades a llarg termini (mecanismes autenticitat,qualitat...)• Distribució de les dades (x preservació i optimització accés)• Compatició (data share, data citation)HW: Sistemes d’emmagatzematge, Sistemes de distribució de processos,balancejadors de càrrega, ample de banda, redundància...SW: DSpace (Dryad...), Invenio (Eudat Simple Store), Dataverse (JuanMarch...), altres...Arquitectura7Difusió Gestió PreservacióFont: http://www.csc.fi/english/pages/parade/whitepaper
  8. 8. 8SostenibilitatCostos elevats tant d’adquisició com de manteniment de lesinfraestructures (1 ordre de magnitud més que les de publicacions)El cost del disc cada vegada és més barat, i el de la preservació?(sempre incremental, diverses còpies, migracions de formats i desuports, etc...) Necessitat de finançament a llarg termini, doncs lesdades són acumulatives i es preserven més enllà dels ciclestecnològicsEn les propostes de finançament de projectes, s’hauriade detallar un pla de gestió de les dades incloent laseva viabilitat econòmicaSelecció de dades (curation) i economies d’escala(compartició de costos + augment sinergies entre investigadors i disciplines)8Font: http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf
  9. 9. 9Ecosistema de les dades de recerca9Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf
  10. 10. 10http://www.cesca.cat/ca/difusio-i-formacio/publicacions/revista-teraflophttp://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf

×