SlideShare a Scribd company logo
1 of 18
Download to read offline
Situació i reptes de la gestió del Big Data en ciències de la vida 
TISUC 
Toni Espinosa, Gonzalo Vera 
Departament Arquitectura de Computadors i Sistemes operatius 
UAB, 2 de Desembre 2014
Creixement exponencial de volum de dades d’un determinat àmbit científic/tecnològic 
Determinats anàlisis són problemàtics amb pocs Gigabytes (MSA) 
Transformació digital de l’activitat humana 
The second machine age: digital operations 
Acceleració que produeix resultats difícils de predir: Google car, uber.com , airbnb.com 
Què és el Big Data? 
The second machine age: ERIK BRYNJOLFSSON, ANDREW MCAFEE. W.W.Norton, 2014
Social Point Case 
Game Data Scientist 
Working with Game Teams to provide insights into how our customers are playing the games 
Reporting results directly to the Head of Analytics, the Product Owners of the Games, the CEOs and other C-level executives 
Conducting predictive analytics to assist the Game Teams to forecast how users will behave to changes in the Game 
Working with Analytics Data Lab team, the Game Teams to ensure our data is precisely specified, understood and consistent
Director 
Dades 
Científic de dades 
Bio curador 
Desen- volupador 
Admin 
Perfils Big Data
Treball del científic de dades 
Doing Data Science: CATHY O’NEIL, RACHEL SCHUTT, O’Reilly, 2014
Eines que es fan servir per construir pipelines/workflows de processament son bones per resoldre problemes concrets 
No funcionen bé a gran escala 
Desenvolupar eines que escalin és una feina complexa i multi-disciplinar 
Cal ser expert en compressió de genomes per fer una tesi doctoral biomèdica al CRG/IRB? 
Problemàtiques
Infraestructures de grans volums son costoses 
Cloud és un model de lloguer amb limitacions i avantatges (viure en un hotel) 
Inversions en plataforma s’han de plantejar des d’un principi 
Quantes dades s’han d’emmagatzemar 
Quin temps d’anàlisi es necessitarà 
Quin serà el cost (energia, manteniment, gestió) 
Com planificar el creixement 
El talent està en els professionals no en les màquines 
Infraestructures
Pressupost Big Data NIH: fer més amb menys
Genòmica i –òmiques 
Clíniques 
Apropant-se a la digitalització (projecte VISC+) 
Ambientals i m-health 
Social media 
Agenda digital Europea: 
http://ec.europa.eu/digital-agenda/en/eu-policy-ehealth 
Proper Repte: La integració
Cada recurs es una sitja amb les seves característiques pròpies de formats i eines 
Necessitat de construir ponts entre els mons bio i clínic 
Janet Thornton, EBI: “Data Silos” no permeten transferència de coneixement 
La integració de les dades és el gran problema 
Infraestructura de dades del genoma humà i ratolí diferents 
Construir plataformes per compartir resultats té un cost creixent afegit: responsabilitats, visibilitat, estàndars, ... 
On som?
Alt cost infraestructura 
Redundància de serveis 
Poca coordinació per promoure la integració 
Interface d'accés a les dades és complex 
Manca de bones pràctiques per a la gestió de dades: totes les dades són iguals? 
Articles mencionen dades que ja no existeixen als pocs anys: publicar i oblidar ja no serveix 
Obsolescència dels mètodes actuals
Impossibilitat de plantejar un esquema manual 
Procediments de validació dirigits per una comunitat 
Ontologies definides per usuaris 
Fomentar polítiques de Open Data per buscar col·laboracions semblants a Yelp 
Cas de Philip Bourne (NIH) i Meredith 
CERN Open Data Portal 
Donar suport a carreres de perfils emergents 
Bio-curador: professional de la qualitat de les dades 
Incrementar la qualitat de les dades
Grups a Catalunya amb eines bioinformàtiques d’utilització internacional 
T-coffee (CRG) , GEM tools (CNAG) , ... 
Com millorar aquest entorn? 
Performance / computational deployment / storage no són trivials 
Com construir una plataforma per comparar grans volums de dades amb aquestes eines? 
High Quality data provider (Protein data bank) 
Situació particular a Catalunya
Cost d’infraestructura 
Eficiència d’utilització del sistema propi 
Models de compartició de sistemes 
Data Labs necessiten pressuposts continuats 
Planificar plataformes a mig i llarg termini 
Seguretat de les dades 
Open Data Access 
Integració i esforços posats en comú 
Problemes existents
Galaxy com a plataforma de serveis bioinformàtics 
Usegalaxy.org 
En producció avui! 
Sistema de facturació per ús dels serveis 
Serveis bioinformàtics 
De repositori de dades 
D’anàlisi de dades 
Galaxy @ CRAG 
GigaScience Journal
Les dades no es mouen, els experiments si 
Validació i reproductibilitat 
Open data 
Eina del Broad Institute Genome Platform 
MIT / Harvard 
Galaxy workflow tool
Associar la computació a les dades de forma més consistent 
APIs més consistents i accessibles (Google Genome APIs) 
Construir plataformes útils 
col·laboració 
solucions integrades 
Millorar accessibilitat als repositoris públics de dades i avançar amb iniciatives Open Data 
Nous models de negoci associats amb les dades 
Fem comunitat Big Data Bio
Situació i reptes de la gestió del Big Data en ciències de la vida

More Related Content

Similar to Situació i reptes de la gestió del Big Data en ciències de la vida

CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...Congrés Govern Digital
 
'L'"Uberització" de l'economia'
'L'"Uberització" de l'economia''L'"Uberització" de l'economia'
'L'"Uberització" de l'economia'Antoni
 
Preservació de recursos digitals
Preservació de recursos digitalsPreservació de recursos digitals
Preservació de recursos digitalsNúria Gallart
 
Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents Iniciativa Barcelona Open Data
 
Màster Enginyeria Programari Lliure
Màster Enginyeria Programari LliureMàster Enginyeria Programari Lliure
Màster Enginyeria Programari LliureCarles Mateu
 
Ivrateq Ponencia Green It
Ivrateq   Ponencia Green ItIvrateq   Ponencia Green It
Ivrateq Ponencia Green Itivangt
 
An Outline of the Application of Agents to Digital Preservation and an Introd...
An Outline of the Application of Agents to Digital Preservation and an Introd...An Outline of the Application of Agents to Digital Preservation and an Introd...
An Outline of the Application of Agents to Digital Preservation and an Introd...Jose Antonio Olvera
 
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...Congrés Govern Digital
 
La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!Jordi Serra Serra
 
Les possibilitats del machine learning, big data i blockchain en la docència...
Les possibilitats del machine learning, big data i blockchain en la docència...Les possibilitats del machine learning, big data i blockchain en la docència...
Les possibilitats del machine learning, big data i blockchain en la docència...Francesc Balagué
 
Big data Curs del Cibernarium de Barcelona 2013
Big data Curs del Cibernarium de Barcelona 2013Big data Curs del Cibernarium de Barcelona 2013
Big data Curs del Cibernarium de Barcelona 2013Marc Pous
 
7x7 Eines TIC per a empreses
7x7 Eines TIC per a empreses7x7 Eines TIC per a empreses
7x7 Eines TIC per a empresesTICAnoia
 
7x7 Eines Tic Per A Empreses 20090925
7x7 Eines Tic Per A Empreses 200909257x7 Eines Tic Per A Empreses 20090925
7x7 Eines Tic Per A Empreses 20090925guestdacc070
 

Similar to Situació i reptes de la gestió del Big Data en ciències de la vida (20)

Curs 2.4 Institucions Intel·ligents
Curs 2.4 Institucions Intel·ligentsCurs 2.4 Institucions Intel·ligents
Curs 2.4 Institucions Intel·ligents
 
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
 
'L'"Uberització" de l'economia'
'L'"Uberització" de l'economia''L'"Uberització" de l'economia'
'L'"Uberització" de l'economia'
 
Preservació de recursos digitals
Preservació de recursos digitalsPreservació de recursos digitals
Preservació de recursos digitals
 
Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents
 
ARlab RESEARCH | Digital Preservation
ARlab RESEARCH | Digital PreservationARlab RESEARCH | Digital Preservation
ARlab RESEARCH | Digital Preservation
 
Màster Enginyeria Programari Lliure
Màster Enginyeria Programari LliureMàster Enginyeria Programari Lliure
Màster Enginyeria Programari Lliure
 
Curs 2.4. Institucions Intel·ligents
Curs 2.4. Institucions Intel·ligentsCurs 2.4. Institucions Intel·ligents
Curs 2.4. Institucions Intel·ligents
 
Ivrateq Ponencia Green It
Ivrateq   Ponencia Green ItIvrateq   Ponencia Green It
Ivrateq Ponencia Green It
 
Tendències TIC
Tendències TICTendències TIC
Tendències TIC
 
An Outline of the Application of Agents to Digital Preservation and an Introd...
An Outline of the Application of Agents to Digital Preservation and an Introd...An Outline of the Application of Agents to Digital Preservation and an Introd...
An Outline of the Application of Agents to Digital Preservation and an Introd...
 
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
 
Les possibilitats del Machine Learning, el big data i el Blockchain en la doc...
Les possibilitats del Machine Learning, el big data i el Blockchain en la doc...Les possibilitats del Machine Learning, el big data i el Blockchain en la doc...
Les possibilitats del Machine Learning, el big data i el Blockchain en la doc...
 
L'experiència de l'ICC en la preservació de dades digitals
L'experiència de l'ICC en la preservació de dades digitalsL'experiència de l'ICC en la preservació de dades digitals
L'experiència de l'ICC en la preservació de dades digitals
 
La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!
 
Les possibilitats del machine learning, big data i blockchain en la docència...
Les possibilitats del machine learning, big data i blockchain en la docència...Les possibilitats del machine learning, big data i blockchain en la docència...
Les possibilitats del machine learning, big data i blockchain en la docència...
 
Industria 4.0: On som?
Industria 4.0: On som?Industria 4.0: On som?
Industria 4.0: On som?
 
Big data Curs del Cibernarium de Barcelona 2013
Big data Curs del Cibernarium de Barcelona 2013Big data Curs del Cibernarium de Barcelona 2013
Big data Curs del Cibernarium de Barcelona 2013
 
7x7 Eines TIC per a empreses
7x7 Eines TIC per a empreses7x7 Eines TIC per a empreses
7x7 Eines TIC per a empreses
 
7x7 Eines Tic Per A Empreses 20090925
7x7 Eines Tic Per A Empreses 200909257x7 Eines Tic Per A Empreses 20090925
7x7 Eines Tic Per A Empreses 20090925
 

More from CSUC - Consorci de Serveis Universitaris de Catalunya

More from CSUC - Consorci de Serveis Universitaris de Catalunya (20)

Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
 
Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)
 
Publicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de RecercaPublicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de Recerca
 
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
 
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
 
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
 
Security Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademySecurity Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademy
 
The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
 
La gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolasLa gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolas
 
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
 
Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...
 
Enginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fonsEnginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fons
 
Transformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IATransformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IA
 
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de BarcelonaDifusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
 
Fons de discos perforats de cartró
Fons de discos perforats de cartróFons de discos perforats de cartró
Fons de discos perforats de cartró
 
Biblioteca Digital Gencat
Biblioteca Digital GencatBiblioteca Digital Gencat
Biblioteca Digital Gencat
 
El fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusióEl fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusió
 
El CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físicsEl CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físics
 
Els serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUCEls serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUC
 

Situació i reptes de la gestió del Big Data en ciències de la vida

  • 1. Situació i reptes de la gestió del Big Data en ciències de la vida TISUC Toni Espinosa, Gonzalo Vera Departament Arquitectura de Computadors i Sistemes operatius UAB, 2 de Desembre 2014
  • 2. Creixement exponencial de volum de dades d’un determinat àmbit científic/tecnològic Determinats anàlisis són problemàtics amb pocs Gigabytes (MSA) Transformació digital de l’activitat humana The second machine age: digital operations Acceleració que produeix resultats difícils de predir: Google car, uber.com , airbnb.com Què és el Big Data? The second machine age: ERIK BRYNJOLFSSON, ANDREW MCAFEE. W.W.Norton, 2014
  • 3. Social Point Case Game Data Scientist Working with Game Teams to provide insights into how our customers are playing the games Reporting results directly to the Head of Analytics, the Product Owners of the Games, the CEOs and other C-level executives Conducting predictive analytics to assist the Game Teams to forecast how users will behave to changes in the Game Working with Analytics Data Lab team, the Game Teams to ensure our data is precisely specified, understood and consistent
  • 4. Director Dades Científic de dades Bio curador Desen- volupador Admin Perfils Big Data
  • 5. Treball del científic de dades Doing Data Science: CATHY O’NEIL, RACHEL SCHUTT, O’Reilly, 2014
  • 6. Eines que es fan servir per construir pipelines/workflows de processament son bones per resoldre problemes concrets No funcionen bé a gran escala Desenvolupar eines que escalin és una feina complexa i multi-disciplinar Cal ser expert en compressió de genomes per fer una tesi doctoral biomèdica al CRG/IRB? Problemàtiques
  • 7. Infraestructures de grans volums son costoses Cloud és un model de lloguer amb limitacions i avantatges (viure en un hotel) Inversions en plataforma s’han de plantejar des d’un principi Quantes dades s’han d’emmagatzemar Quin temps d’anàlisi es necessitarà Quin serà el cost (energia, manteniment, gestió) Com planificar el creixement El talent està en els professionals no en les màquines Infraestructures
  • 8. Pressupost Big Data NIH: fer més amb menys
  • 9. Genòmica i –òmiques Clíniques Apropant-se a la digitalització (projecte VISC+) Ambientals i m-health Social media Agenda digital Europea: http://ec.europa.eu/digital-agenda/en/eu-policy-ehealth Proper Repte: La integració
  • 10. Cada recurs es una sitja amb les seves característiques pròpies de formats i eines Necessitat de construir ponts entre els mons bio i clínic Janet Thornton, EBI: “Data Silos” no permeten transferència de coneixement La integració de les dades és el gran problema Infraestructura de dades del genoma humà i ratolí diferents Construir plataformes per compartir resultats té un cost creixent afegit: responsabilitats, visibilitat, estàndars, ... On som?
  • 11. Alt cost infraestructura Redundància de serveis Poca coordinació per promoure la integració Interface d'accés a les dades és complex Manca de bones pràctiques per a la gestió de dades: totes les dades són iguals? Articles mencionen dades que ja no existeixen als pocs anys: publicar i oblidar ja no serveix Obsolescència dels mètodes actuals
  • 12. Impossibilitat de plantejar un esquema manual Procediments de validació dirigits per una comunitat Ontologies definides per usuaris Fomentar polítiques de Open Data per buscar col·laboracions semblants a Yelp Cas de Philip Bourne (NIH) i Meredith CERN Open Data Portal Donar suport a carreres de perfils emergents Bio-curador: professional de la qualitat de les dades Incrementar la qualitat de les dades
  • 13. Grups a Catalunya amb eines bioinformàtiques d’utilització internacional T-coffee (CRG) , GEM tools (CNAG) , ... Com millorar aquest entorn? Performance / computational deployment / storage no són trivials Com construir una plataforma per comparar grans volums de dades amb aquestes eines? High Quality data provider (Protein data bank) Situació particular a Catalunya
  • 14. Cost d’infraestructura Eficiència d’utilització del sistema propi Models de compartició de sistemes Data Labs necessiten pressuposts continuats Planificar plataformes a mig i llarg termini Seguretat de les dades Open Data Access Integració i esforços posats en comú Problemes existents
  • 15. Galaxy com a plataforma de serveis bioinformàtics Usegalaxy.org En producció avui! Sistema de facturació per ús dels serveis Serveis bioinformàtics De repositori de dades D’anàlisi de dades Galaxy @ CRAG GigaScience Journal
  • 16. Les dades no es mouen, els experiments si Validació i reproductibilitat Open data Eina del Broad Institute Genome Platform MIT / Harvard Galaxy workflow tool
  • 17. Associar la computació a les dades de forma més consistent APIs més consistents i accessibles (Google Genome APIs) Construir plataformes útils col·laboració solucions integrades Millorar accessibilitat als repositoris públics de dades i avançar amb iniciatives Open Data Nous models de negoci associats amb les dades Fem comunitat Big Data Bio