Antonio Espinosa, de la UAB, exposa el seu projecte per gestionar grans conjunts de dades, especialment en el camp de ciències de la vida.
Aquesta presentació ha tingut lloc a la TSIUC'14, celebrada a la Universitat Autònoma de Barcelona el passat 2 de desembre de 2014, sota el títol "Reptes en Big Data a la universitat i la Recerca".
Situació i reptes de la gestió del Big Data en ciències de la vida
1. Situació i reptes de la gestió del Big Data en ciències de la vida
TISUC
Toni Espinosa, Gonzalo Vera
Departament Arquitectura de Computadors i Sistemes operatius
UAB, 2 de Desembre 2014
2. Creixement exponencial de volum de dades d’un determinat àmbit científic/tecnològic
Determinats anàlisis són problemàtics amb pocs Gigabytes (MSA)
Transformació digital de l’activitat humana
The second machine age: digital operations
Acceleració que produeix resultats difícils de predir: Google car, uber.com , airbnb.com
Què és el Big Data?
The second machine age: ERIK BRYNJOLFSSON, ANDREW MCAFEE. W.W.Norton, 2014
3. Social Point Case
Game Data Scientist
Working with Game Teams to provide insights into how our customers are playing the games
Reporting results directly to the Head of Analytics, the Product Owners of the Games, the CEOs and other C-level executives
Conducting predictive analytics to assist the Game Teams to forecast how users will behave to changes in the Game
Working with Analytics Data Lab team, the Game Teams to ensure our data is precisely specified, understood and consistent
5. Treball del científic de dades
Doing Data Science: CATHY O’NEIL, RACHEL SCHUTT, O’Reilly, 2014
6. Eines que es fan servir per construir pipelines/workflows de processament son bones per resoldre problemes concrets
No funcionen bé a gran escala
Desenvolupar eines que escalin és una feina complexa i multi-disciplinar
Cal ser expert en compressió de genomes per fer una tesi doctoral biomèdica al CRG/IRB?
Problemàtiques
7. Infraestructures de grans volums son costoses
Cloud és un model de lloguer amb limitacions i avantatges (viure en un hotel)
Inversions en plataforma s’han de plantejar des d’un principi
Quantes dades s’han d’emmagatzemar
Quin temps d’anàlisi es necessitarà
Quin serà el cost (energia, manteniment, gestió)
Com planificar el creixement
El talent està en els professionals no en les màquines
Infraestructures
9. Genòmica i –òmiques
Clíniques
Apropant-se a la digitalització (projecte VISC+)
Ambientals i m-health
Social media
Agenda digital Europea:
http://ec.europa.eu/digital-agenda/en/eu-policy-ehealth
Proper Repte: La integració
10. Cada recurs es una sitja amb les seves característiques pròpies de formats i eines
Necessitat de construir ponts entre els mons bio i clínic
Janet Thornton, EBI: “Data Silos” no permeten transferència de coneixement
La integració de les dades és el gran problema
Infraestructura de dades del genoma humà i ratolí diferents
Construir plataformes per compartir resultats té un cost creixent afegit: responsabilitats, visibilitat, estàndars, ...
On som?
11. Alt cost infraestructura
Redundància de serveis
Poca coordinació per promoure la integració
Interface d'accés a les dades és complex
Manca de bones pràctiques per a la gestió de dades: totes les dades són iguals?
Articles mencionen dades que ja no existeixen als pocs anys: publicar i oblidar ja no serveix
Obsolescència dels mètodes actuals
12. Impossibilitat de plantejar un esquema manual
Procediments de validació dirigits per una comunitat
Ontologies definides per usuaris
Fomentar polítiques de Open Data per buscar col·laboracions semblants a Yelp
Cas de Philip Bourne (NIH) i Meredith
CERN Open Data Portal
Donar suport a carreres de perfils emergents
Bio-curador: professional de la qualitat de les dades
Incrementar la qualitat de les dades
13. Grups a Catalunya amb eines bioinformàtiques d’utilització internacional
T-coffee (CRG) , GEM tools (CNAG) , ...
Com millorar aquest entorn?
Performance / computational deployment / storage no són trivials
Com construir una plataforma per comparar grans volums de dades amb aquestes eines?
High Quality data provider (Protein data bank)
Situació particular a Catalunya
14. Cost d’infraestructura
Eficiència d’utilització del sistema propi
Models de compartició de sistemes
Data Labs necessiten pressuposts continuats
Planificar plataformes a mig i llarg termini
Seguretat de les dades
Open Data Access
Integració i esforços posats en comú
Problemes existents
15. Galaxy com a plataforma de serveis bioinformàtics
Usegalaxy.org
En producció avui!
Sistema de facturació per ús dels serveis
Serveis bioinformàtics
De repositori de dades
D’anàlisi de dades
Galaxy @ CRAG
GigaScience Journal
16. Les dades no es mouen, els experiments si
Validació i reproductibilitat
Open data
Eina del Broad Institute Genome Platform
MIT / Harvard
Galaxy workflow tool
17. Associar la computació a les dades de forma més consistent
APIs més consistents i accessibles (Google Genome APIs)
Construir plataformes útils
col·laboració
solucions integrades
Millorar accessibilitat als repositoris públics de dades i avançar amb iniciatives Open Data
Nous models de negoci associats amb les dades
Fem comunitat Big Data Bio