SlideShare a Scribd company logo
1 of 152
Download to read offline
DATA IS THE NEW SCIENCE
DATAISTHENEWSCIENCE
Giulia Annovi
Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015
??
COSA SONOCOSA SONO
I BIG DATAI BIG DATA
UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E
ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZA
DANNO ORIGINE A STORIE
BIG DATA
USA: 32
FRANCIA: 19
GERMANIA: 15
REGNO UNITO: 22
ITALIA: 11
CHI PARLA DI BIG DATA?
http://goo.gl/HrBywv
1997
I BIG DATA PRENDONO ORIGINE DALLE STELLE
Google
https://www.google.it/trends/explore#q=big%20data
MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI
BANCHE: 29%
INDUSTRIE: 21%
MEDIA: 14%
PA E SANITÀ: 9%
CHI PRODUCE BIG DATA IN ITALIA
ENTRO IL 2020
SI PREVEDE UN AUMENTO DEI BIG DATA
DEL 4300%
I PUNTI CRITICII PUNTI CRITICI
IDENTITY
PARADOX
TRASPARENCY PARADOX
POWER PARADOX
È UNA QUESTIONE DI
DIMENSIONI
MA NON SOLO
BIG DATA E SCIENZABIG DATA E SCIENZA
TWITTER
YOU TUBE
ASTRONOMIA
GENETICA
PRENDIAMO LE MISURE
Astronomical data is and has always been “big data”
IL FUTURO SARÀ RACCOGLIERE 30
Tb OGNI NOTTE
20 PETABITE DI DATI20 PETABITE DI DATI
ALL'ANNOALL'ANNO
LA FISICA CI HA DATO UNA LENTE
BLU PER GUARDARE I DATI:
STATA, ALGORITMI E OPENESS
SE LA SCIENZASE LA SCIENZA
COMPRENDECOMPRENDE
IL POTERE DEI DATIIL POTERE DEI DATI
Elaborazione
Archiviazione
Classificazione
Condivisione
Analisi
Creazione tools
Disseminazione
EMBL-EBI
BIG DATA WORKER
PIÚ DATI PIÚ INFO
http://senseable.mit.edu/bbva/
RIDUCI
RICICLA
RIUSA
È sostenibile e fattibile il coinvolgimento della popolazione?
Integrazione con informazioni spaziali e ambientali
Occorre trasformare le informazioni real time in previsione
Facilitàdi uso da parte degli utenti
[https://www.influenzanet.eu/]
Coinvolgimento di diverse figure professionali: data scientist,
comunicatori scientifici oltre a medici, agenzie
di sorveglianza, informatici,ricercatori
BIG DATA E BIOLOGIABIG DATA E BIOLOGIA
http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-t
imeline/#27685
EMBL-EBI
3Omics: http://3omics.cmdm.tw/
LA NECESSITÀ DI FARE SINTESI
Metscape: http://metscape.ncibi.org/
DI VISUALIZZARE
60 MILA
2
5 8
33
http://www.personalgenomes.org/harvard/data
http://www.ncbi.nlm.nih.gov/Traces/sra/
FARMACOLOGIA
OPEN
CONTRO IL CANCRO
https://clinicaltrials.gov
MONITORARE I TRIALS CLINICI

Require that all drug trials in Europe are registered before they begin
on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published
on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was
found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set
up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does
not adhere to these new laws.
LE MALATTIE INFETTIVE
7 su 355
➔
Sorveglianza
➔
Previsione andamento epidemia
Letteratura
Web
GenBank
http://www.healthmap.org/en
Aggregatori di news online (google news),
testimonianze, discussioni curate
da esperti (PROMED) e report ufficiali
(WHO)
http://www.gbif.org/
UN MIX DI DATI PER
L'ECOLOGIA
PROBLEMI SE:
●
i dati non correttamente georeferenziati;
●
insieme di dati solo relativi a un certo luogo;
●
classificazioni tassonomiche errate;
●
problemi di denominazione;
●
preconcetti in fase di campionamento
http://www.supersmart-project.org/
SUPERSMART
permette ai
ricercatori di
trovare dati
genetici pubblici,
dati ecologici e
geografici tutti in
un unico portale e
in più di caricare i
propri dai
personali.
http://www.csmon-life.eu/
https://www.zooniverse.org/
VALIDARE
DISEGNARE NUOVI ESPERIMENTI
INTERPRETARE
AMPLIARE IL CAMPIONE
RIDURRE GLI ESPERIMENTI
CREARE MODELLI
BIOLOGO OGGIBIOLOGO OGGI
●
INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER
L'ANALISI DEI DATI,
●
INSTALLARE E LANCIARE SOFTWARE,
●
NAVIGARE TRAMITE LINEA DI COMANDO,
●
COMPARARE VARI TOOL DI ANALISI,
●
SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,
MANEGGIARE GRANDI DATA SET
RAW DATA AND METADATA
STORE SEPARATELY
STABILISCI LO SCOPO DEL TUO PROGETTO
SERVE PER DIRIGERE I CALCOLI
NELLA GIUSTA TRAIETTORIA
UN'ANALISI
TROPPI SOFTWARE
Controllare
La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti
cambiando software e variabili interne
Di aver REGISTRATO TUTTI i passaggi e le variazioni
Di aver INDIVIDUATO LA VARIABILE più importante del dataset
Individuare le variabili non importanti
Fare la PROVA DEL NOVE per i propri risultati
Procurarsi un campione di dati di CONTROLLO, di cui si conosce il
risultato atteso
RIPRODUCI
GitHub, GitLab,
BitBucket, or R
ArXiv or PeerJ
Beautiful
Technnical
Exciting
BUT WHAT DOES
IT MEAN?
LE APPLICAZIONILE APPLICAZIONI
LÀ FUORILÀ FUORI
GLI OSPEDALI HANNO BISOGNO DI DATI PER
MONITORARE LE PROPRIE PERFORMANCE,
CAPIRE DOVE MIGLIORARE I SERVIZI,
RISPARMIARE
IN CLINICA OGGI VENGONO CREATI ALGORITMI
CAPACI DI MONITORARE I PAZIENTI E
RICONOSCERE I SEGNALI DI RISCHIO
LE CASE FARMACEUTICHE HANNO INIZIATO A
CONDIVIDERE DATI RELATIVI A FARMACI E
RISPOSTE ALLE TERAPIE
I PAZIENTI FANNO PREVENZIONE E SI
MONITORANO DA SOLI TRAMITE LA TECNOLOGIA.
IN QUESTO MODO PERO' FORNISCONO ANCHE
DATI
http://doveticuri.mitecube.com/
http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapp
GUARDANDO I DATASET
GENETICI DERIVATI DA
CIRCA 2500 PAZIENTI
AFFETTI DA DIABETE, SONO
STATI INDIVIDUATI TRE
SOTTOTIPI DI DIABETE TIPO
2, CON IMPLICAZIONI
DIVERSE PER LA SALUTE,
CHE PERO' NON ERANO MAI
STATE INDIVIDUATE DAL
PUNTO DI VISTA CLINICO.
OASIS – IL SENSORE
CHE MONITORA LA
FISIOLOGIA
DELLE PERSONE E
DELL'AMBIENTE
“My recommendation to the next generation of scientists
to be competitive is to establish a broad
interdisciplinary foundation
of math and science as well as strong communication skills”
Michael C. Schatz
Bibliografia e sitografia
Big data
Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore
THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King
Guide to open access – EU Commission – 2015
#Scidata15: Big data: Challenges create opportunities – blog Nature
Malattie infettive:
Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the
HealthMap Project
John S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl
Big Data Opportunities for Global Infectious Disease Surveillance
Simon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein
The quantified self: Fundamental disruption in big data science and biological discovery
- M Swan
Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene e
xpression data
Alla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo
Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian
Athey, and Gilbert S. Omenn
Metabolomics Workbench: An international repository for metabolomics data and metadata, meta
bolite standards, protocols, tutorials and training, and analysis tools
Manish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur
Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar
Subramaniam
SIGNOR: a database of causal relationships between biological entities
Livia Perfetto et al.
Wired Co.UK 23andMe sharing data with big pharma
Biological data sciences in genome research- Michael C. Schatz
An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project
Consortium
Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,
Big Data: Astronomical or Genomical? - Zachary D. Stephens et al
Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao
Big universe, big data, astronomical opportunities – The Guardian
Clinical trials: clearer rules, better protection for patients
Big Pharma Opens New Chapter On Big Data Collaboration– Forbes
The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial D
ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer
Kald Abdallaha et al.
Open source data a boon to malaria research- Emily Mullin
SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al
Data sharing: Fewer experiments, more knowledge– Nature Blog
4 big reasons why healthcare needs data science – 7Data
Identification of type 2 diabetes subgroups through topological analysis of patient similarity
Li Li1, Wei-Yi Cheng
OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO
Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal
DATA IS THE NEW SCIENCE
DATAISTHENEWSCIENCE
Giulia Annovi
Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015
??
COSA SONOCOSA SONO
I BIG DATAI BIG DATA
Cosa sono secondo voi i big data?
Se dovessimo definirli con un brain storming quali parole scegliereste?
UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E
ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI,
DANNO ORIGINE A STORIE
I big data sono un insieme complesso di numeri, algoritmi,
Rilevazioni che finiscono per raccontarci una storia.
Sono grafici che divetano parole
BIG DATA
Un'altra definizione romantica di big data li assimila
Al pane affettato. Come l'invenzione del pane affettato
Ha cambiato il modo di mangiare, ha permesso di sfamare
Più persone con una sola pagnotta, così anceh i big data
Si possono affettare e possono dare innumerevoli informazioni
I big data sono definiti tramite 3V: volume (hanno un
volume così grande che è stata una sfida anche per le
grandi compagnie tecnologiche maneggiarli), grande
varietà (non sono solo dati strutturati ma un ampio
range di dati digitali), e alta velocità (quella a cui i dati
sono generati e trasmessi).
Esistono però altre V per definirli: la vaghezza (quello
che rende i BD vaghi li rende anche esatti e certi: per
conoscere la conoscenza devi conoscere anche
l'inconoscibile. I BD raccolgono tutto); vendibili; vaticini;
voracità; veridicità (la qualità o la perdita della qualità
dei dati matters data la grande varietà con cui si
presentano)
Fare business oggi con i big data significa includere
errori e confusione. Ma la varietà, il volume e la
velocità tendono a superare la presenza si questi
errori. La casualità e l'universalità sono importanti,
mentre la confusione può essere tollerata.
USA: 32
FRANCIA: 19
GERMANIA: 15
REGNO UNITO: 22
ITALIA: 11
CHI PARLA DI BIG DATA?
Dove vanno di moda? Soprattutto in India è uno sei
termini più citati nelle ricerche di google. In Italia non
suscitano ancora grandissimo interesse rispetto ad
altri paesi europei. Gli stati uniti sono a quota 32 su
100. A questo si aggiungono aree del tutto escluse da
questo discorso (es regioni africane)
http://goo.gl/HrBywv
1997
I BIG DATA PRENDONO ORIGINE DALLE STELLE
Nel 1997 si è avuta la prima occasione per parlare
di big data: ma la storia poi continua da vent'anni.
Negli anni successivi venne creato il substrato su
cui i big data si sono sviluppati: ovvero le
infrastrutture capaci di supportarli
Nel 2009 avviene un'altra piccola rivoluzione con
l'introduzione dei linked data, cioè con il concetto
che i dati in rete devono essere tra loro
interconnessi per fornire maggiori informazioni
Un momento in cui si incomincia a riflettere
criticamente sui big data è il 2012, perché in
quell'anno esce Critical Question for Big Data.
Google
https://www.google.it/trends/explore#q=big%20data
MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI
l termine Big Data, secondo google trends, è
incominciato ad apparire nel tardo 2010. Sebbene il
termine big data nei trends delle parole più
ricercate sia in declino perché è un concetto difficile
da definire, i dati raccolti sono sempre più
BANCHE: 29%
INDUSTRIE: 21%
MEDIA: 14%
PA E SANITÀ: 9%
CHI PRODUCE BIG DATA IN ITALIA
In Italia i big data sono soprattutto diffusi nelle
banche (29%), seguiti dalle industrie (21%), dai
media (14 %) e per IL 9% dalla PA e sanità. Di minor
importanza sono i big data che riguardano i servizi
(8%), la GDO (8%), le assicurazioni (5%)
ENTRO IL 2020
SI PREVEDE UN AUMENTO DEI BIG DATA
DEL 4300%
I big data saranno lo strumento del futuro per prendere
data driven decision making.
Per il futuro si prevede un aumento dei big data del
4300% andare al 2020
Ci serviranno per monitorare e quindi per conservare
risorse preziose (biodiversità); per tracciare malattie e
curare infezioni (es ebola, influenza); per vivere in
modo più sicuro. Quindi i big data non sono solo per
le aziende.
I PUNTI CRITICII PUNTI CRITICI
IDENTITY
PARADOX
Reclamano il fatto di voler identificare, ma di fatto
appiattiscono la società. Non considerano
l'individuo, ma piuttosto il comportamento di massa
[il paradosso dell'identità]
TRASPARENCY PARADOX
Chiedono a noi di fare tutto nella massima
trasparenza. Qualsiasi cosa facciamo è tracciabile,
qualsiasi acquisto, qualsiasi click, qualsiasi contatto.
Eppure i dati raccolti non sono per noi accessibili.
Questo anche per un motivo di privacy, ma governi
e istituzioni dovrebbero domandarsi come
rispondere a tale problema.
POWER PARADOX
Infine c'è il paradosso del potere: il fatto di avere
le informazioni accessibili ci sembra ci dia un
grosso potere. Pensiamo alla primavera araba:
tutto è stato organizzato tramite i social network,
ma il potere dei social network non è nelle nostre
mani, non è controllato da noi. Basta che ci levino
questo strumento che noi non ne siamo più in
possesso.
È UNA QUESTIONE DI
DIMENSIONI
MA NON SOLO
Un'altra criticità legata ai big data è la dimensione,
Lo spazio che occupano.
Si stima che ogni giorno vengano prodotti 2.5
quintilioni di bytes (cioè 2.5 seguito da 18 zero!).
Un altro problema potrebbe essere lagato al fatto
che i dati raccolti potrebbero andare perduti per
l'obsolescenza dei formati
BIG DATA E SCIENZABIG DATA E SCIENZA
TWITTER
YOU TUBE
ASTRONOMIA
GENETICA
Che differenza c'è tra i big data raccolti da twitter
youtube l'astronomia e la biologia? Twitter e
youtube sono attivi dal 2005-2006 rispettivamente e
sono utilizzati quotidianamente da milioni di utenti.
L'astronomia sono 20 anni che raccoglie big data.
Eppure la biologia in quanto a record resta la
prima.
Oggi per i dati genetici prodotti dai 20 maggiori
istituti si richiede l'uso di 100 petabites all'anno,
contro gli 0,5 di twitter e esattamente come
youtube.
PRENDIAMO LE MISURE
Confrontando gli ordini di grandezza ecco quanti dati vengono
Conservati.
Qui sotto invece vediamo la figura di quanti exabites saranno
Necessari andare al 2025.
Come vedete, se adesso youtube usa la stessa quantità di byte
Del genoma, fra 10 anni il volume dei dati sarà di gran lunga
Superiore.
Perché pensiamo una cosa del genere?
Qante paia di basi contiene il genoma umano? 3 miliardi di bp
Si pensa che possano essere sequenziate 35 petabasi
all'anno.In futuro si potrà arrivare a 2 petabasi
I problemi connessi all'uso dei big data in biologia riguardano
lo storage perché sono una grande quantità, la capacità di
processamento (ad esempio allineare le sequenze di due
genomi implica l'utilizzo di circa 100-CPU ore.
Nel 2014 abbiamo raggiunto i 250 mila genomi umani
sequenziati (secondo una stima del MIT) in tutto il mondo. Nel
2017 raggiungeremo 1,6 milioni di genomi
Bene, considerate che ogni 4 basi sequenziate occupiamo un
bite.
Astronomical data is and has always been “big data”
Ma prima di insistere sulla biologia, perché questa viene
Confrontata con l'astronomia?
Perché come dice il Guardian ha sempre prodotto big data.
IL FUTURO SARÀ RACCOGLIERE 30
Tb OGNI NOTTE
Ecco i dati prodotti dall'astronomia: Gli astronomi
che usano il telescopio Keplero prendono
informazioni riguardo a 200,000 stelle ogni 30
secondi, cosa che ha reso possibile la scoperta del
primo pianeta simile alla terra fuori dal sistema
solare.
Lo SDSS è uno dei database aperti accessibili con
la maggior quantità di dati, ma non è nulla al
confronto con quello che verrà lanciato nei
prossimi anni, l'LSST che avrà la possibilità di
raccogliere 30 Tb ogni notte.
20 PETABITE DI DATI20 PETABITE DI DATI
ALL'ANNOALL'ANNO
Un altro ambito che è stato fondamentale per lo
sviluppo dei
Big data è stata sicuramente la fisica.
al CERN vengon prodotti 20 petabite di dati ogni
anno. Hanno creato un'ifrastruttura: la
worldwide LHC computing grid che è stata in
grado di raccogliere elaborare e analizzare tutti i
dati prodotti.
I dati sono stati messi nel cloud tramite
openstack e sono accessibili
LA FISICA CI HA DATO UNA LENTE
BLU PER GUARDARE I DATI:
STATA, ALGORITMI E OPENESS
I dati grezzi per evento generato al CERN sono circa 1
milione di bite. Per secondo si producono circa 600
milioni di eventi. Il Worldwide LHC Computing Grid
maneggia questa montagna di dati in due stadi.
Primo fa partire un algoritmo che seleziona gli eventi
più significativi. Lo stesso principio dovrebbe essere
abbracciato anche da altre scienze. Poi gli stessi dati
sono analizzati statisticamente una volta ripuliti e
questo può portare a risultati migliori.
Pulire i dati significa rimuovere i duplicati, le voci
parziali, i valori nulli, concatenare i dati, o separarli in
più righe o più colonne, aggregare i risultati.
Il CERN è anche caratterizzato dalla cultura
dell'openess: c'è un servizio di cloud in cui i dati
possono esser condivisi con una Bring Your Own
Device (BYOD) policy per assicurare che la proprietà
intellettuale venga rispettata
Se guardiamo il mondo attraverso un vetro blu, lo
vediamo blu. Ecco perché è importante scegliere il
corretto metodo statistico. La pioniera in questo è stata
la fisica
SE LA SCIENZASE LA SCIENZA
COMPRENDECOMPRENDE
IL POTERE DEI DATIIL POTERE DEI DATI
Equesto è un altro problema della scienza in genere: una volta
Che gli scienziati hanno i dati devono decidere cosa farne:
Condividerli oppure mantenerli segreti fino alla pubblicazione.
La condivisione poi implica la definizione di standard affinché
I dati siano confrontabili e soprattutto occorre stabilire una policy
Per garantire la prprietà intellettuale
Elaborazione
Archiviazione
Classificazione
Condivisione
Analisi
Creazione tools
Disseminazione
EMBL-EBI
Questa è una figura tratta dal sito dell'EMBL che
Dimostra come i dati vengano processati una volta che sono
Affidati a questo grande ente di bioinformatica.
Gli istituti come l'EBI lavoreranno sempre di più in futuro per
assicurare anche la privacy sui dati. Ad esempio potrebbero
creare team interni capaci di rielaborare i dati crudi solo a fini di
presentazione degli stessi
BIG DATA WORKER
Come si può vedere dunque big data implica anche nuove
Figure professionali le cui caratteristiche sono molto varie.
È stato stimato che in futuro ci sarà bisogno dalle 150 mila alle 190
mila unità.
PIÚ DATI PIÚ INFO
Altro fattore che genarano questi dati è l'enorma
aumento del traffico su web
http://senseable.mit.edu/bbva/
Questo è un esempio di come mettendo in relazione i dati
e visualizzandoli correttamente si possano trarre molte
informazioni.
Ad esempio dai dati raccolti in real time durante la pasqua
2011 in Spagna è uscito questo video. Pensate se si
potesse fare qualcosa del genere monitorando gli
scompensi che avvengono nei 15 giorni che prevengono
l'infarto. Che cosa accadrebbe se si misurasse la qualità
del sonno come dato predittivo per l'insorgenza del
diabete?
RIDUCI
RICICLA
RIUSA
Eppure anche per i dati scientifici vale la regola delle
3R: riduci ricicla riusa. Condividere i dati non vuol dire
solo salvare dei soldi ma anche l'ambiente perché
riduce la quantità di esperimenti necessari. Questo
accelererà anche l'aumento della conoscenza
generata, diminuendo il tempo sprecato a costruire
dataset equivalenti
È sostenibile e fattibile il coinvolgimento della popolazione?
Integrazione con informazioni spaziali e ambientali
Occorre trasformare le informazioni real time in previsione
Facilitàdi uso da parte degli utenti
[https://www.influenzanet.eu/]
Coinvolgimento di diverse figure professionali: data scientist,
comunicatori scientifici oltre a medici, agenzie
di sorveglianza, informatici,ricercatori
La scienza poi rispetto agli altri campi deve chiedersi queste coser
BIG DATA E BIOLOGIABIG DATA E BIOLOGIA
Nel caso della biologia ci sono diversi modi di
approcciarsi ai dati
C'è l'analisi tradizionale dei prorpri campioni, del
paziente. La scienza è Hypothesis driven, m potrebbe
diventare data driven.
Tuttavia la tecnica ci ha messo a disposizione la
possibilità di produrre una grande quantità di dati
Ci sono le analisi che riguardano le componenti
cellulari, le omics.
Queste però hanno lo svantaggio dei costi della ricerca
(es il sequenziamento) e il costo di immagazzinamento
dei dati. In più richiedono un certo numero di campioni.
Ci sono -omics accessibili già al pubblico: i progetti più
noti sono 23and Me per scoprire il proprio assetto
cromosomico; ubiome per avere l'analisi del proprio
microbioma; talking20 per avere l'analisi del sangue fai
da te.
Infine c'è la medicina ove i dati li raccoglie direttamente
il paziente.
http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-t
imeline/#27685
EMBL-EBI
Queste sono le banche dati tradizionali che sono
state create dallo sviluppo delle omics.
il fatto più rilevante accaduto nell'ambito della
genetica negli ultimi 20 anni è stato il
sequenziamento dell'interno genoma. Nei prossimi
vent'anni ci aspettiamo di sequenziare un miliardo
di genomi.
La velocità con cui acquisiamo queste informazioni
è legata al fatto che le macchine e le tecniche si
sono enormemente sviluppate: DNA sequencing
instruments, super-resolution digital microscopy,
mass spectrometry, magnetic resonance imagery,
or even satellite imagery used for studying
biological systems with greater throughput and
resolution than ever before. Tuttavia manca la
capacità di queste macchine di interpretare i dati.
I dati biologici hanno qualcosa in più rispetto agli
altri big data: sono gerarchici perché generati a
diversi livelli (molecolare, cellulare, fisiologico) sono
eterogenei perché sono generati con metodi
differenti (genetica, fisiologia, patologia, imaging)
sono complessi (i dati possono essere registrati
simultaneamente da informazioni multi-livello e da
migliaia di cellule e sono dinamici, cioè associati a
processi che cambiano nel tempo. Occorre dunque
individuare le forze che governano e le relazioni
causali tra gli elementi biologici per fare un uso
completo dei big data e per decifrare i meccanismi
che governano processi o malattie come il cancro, il
diabete o l'Alzheimer.
Oggi non ci limitiamo al sequenziamento del
genoma: una tecnica applicabile anche con una
spesa relativamente ridotta rispetto all'inizio. Il vero
problema è come rilevare i meccanismi esserenziali
dei sistemi biologici, andando a rimuovere il rumore
di fondo dei dati.
Si creano database sempre più comprensivi, che
raccolgono informazioni tratte da diverse tecniche
sperimentali, come mass spectrometry (MS) e
nuclear magnetic resonance spectrometry (NMR),
con dati che raccolgono 20 differenti specie, che
coprono le maggiori categorie tassonomiche.
.
3Omics: http://3omics.cmdm.tw/
LA NECESSITÀ DI FARE SINTESI
Oggi si sta andando nella direzione della sintesi, verso
piattaforme che integrano dati tra loro in relazione,
anche perché spesso può essere complicato fare una
relazione tra un sistema di classificazione e l'altro.
Ci sono quindi database che mettono insieme
informazioni provenienti dalla letteratura, dalla
genomica, dalla proteomica e le visualizzano nei loro
rapporti e relazioni.
Metscape: http://metscape.ncibi.org/
DI VISUALIZZARE
60 MILA
Spesso all'interno dei database sono compresi
anche tools statistici che consentono
l'elaborazione dei dati o di visualizzazione delle
relazioni.
La vera sfida dei big data è il passaggio dagli studi associativi agli studi
causativi. E in questo è importante la biologia computazionale, quella
che crea modelli. Lo studio delle interazioni piuttosto che dei singoli
elementi cattura le componenti inosservate del network e le dinamiche.
Quindi sia per gli aspetti teorici che clinici, i big data in biologia si
stanno eveolvendo dalle singole molecole verso le molecole multiple, a
quelle associate a quelle interattive. E lospostamento dell'interesse è
anche dovuto all'avvento dei big data.
Ci sono poi sistemi che tentano di fare sintesi tra diversi database,
come ad esempio SIGNOR ( SIGnaling Network Open Resource) che
si occupa di interazioni tra molecole o meglio di attivazioni di segnale
che fanno accadere o che impediscano che accada cose nelle cellule.
Anche nella rappresentazione di questi segnali ci sono due modelli: i
modelli logici vs i modella basati sulle reazioni. I pathway sono
rappresentati come una catena di reazioni chimiche dove ogni variante
di un certo componente è assegnata a un nodo. Intervengono poi
elementi regolatori per favorire il passaggio da un nodo all'altro. Di fatto
questi modelli rappresentano l'equazione differenziale di una reazione
chimica.
Nei modelli logici le molecole sono connesse tutte con nodi, che
rappresentano anche le interazioni regolatorie. Lo stato di ogni nodo
dipende da quello che gli sta a monte. SIGNOR segue 12 000
relazioni causali tra i componenti cellulari.
Quantified self data Servono a tracciare le
caratteristiche di un individuo in generale o per
monitorare e magari curare una patologia o per
aumentare performace fisiche (pensiamo alle app che
tracciano i nostri percorsi a piedi o in bici) o mentali.
Il 66% degli americani usa sistemi tipo questi per
monitorare la propria dieta, il proprio peso o parametri
legati alla salute.
Questi fanno parte dei small data che comunque sono
troppo larghi e difficili da maneggiare per il singolo
utente, che ha bisogno di tools (spesso online) capaci
di misurare correttamente e visualizzare. Inoltre sono
parametri interessanti anche perché raccolti
direttamente dall'utente.
In questo tipo di rilevazione gli individui realizzano
studi, applicando i risultati per migliorare la propria
vita.
Ci sono -omics accessibili già al pubblico: i progetti più
noti sono 23and Me per scoprire il proprio assetto
cromosomico; ubiome per avere l'analisi del proprio
microbioma; talking20 per avere l'analisi del sangue
fai da te.
2
5 8
33
I vantaggi della QS science: permette una raccolta random di
dati, permette una raccolta di un gran numero di dati, questo
tipo di ricerca può fornire nuove idee alla ricerca tradizionale;
serve a stratificare la popolazione in diverse categorie;
unisce insieme diverse categorie di scienze come la biologia,
la statistica, i big data, la capacità di calcolo, la sociologia.
Potrebbe diventare sempre più importante per profilare
l'eterogeneità dei tumori prime e durante la chemoterapia.
http://www.personalgenomes.org/harvard/data
Anche per la raccolta di questi dati ci sono problemi di
accessibilità e usabilità: ad esempio sono accessibili solo i
dati di personal genome, un progetto di Harvard e
dell'American Gut project, mentre altri dati sono accessibili
solo sotto supervisione dei ricercatori come in MyZeo:
questo perché a volte sono i ricercatori ad essere restii nel
condividere i propri dati, in altri casi perché occorre
rispettare la privacy del paziente. Altri problemi riguardano
poi le caratteristiche del dato: ogni dato raccolto dovrebbe
essere sempre accompagnato da un file che potremmo
chiamare di metadati che ci dice come i dati sono stati
raccolti, in quali condizioni e quali sono le caratteristiche
del paziente.
Resta poi da aggiungere che servirebbe un gruppo di
confronto, il così detto campione sano chedeve essere
scelto opportunamente come in ogni fase sperimentale.
Anche dalla parte dell'utente ad esempio ci deve essere
automazione, facilità, ricompensa per poter partecipare.
http://www.ncbi.nlm.nih.gov/Traces/sra/
Qui si vede l'effetto nel caso dei dati gentici: in molti studi sono
derivati da un'attività social
FARMACOLOGIA
OPEN
CONTRO IL CANCRO
C'è anche un aspetto applicativo dei big data, come
ad esempio la scoperta di nuovi farmaci. Anche
l'apertura delle banche dati delle case
farmaceutiche è un fatto sorico spesso voluto
addirittura dai governi per accellerare le scoperte in
tale ambito.
Ne sono un esempio le azioni intraprese per la
terapia del cancro: ci sono due approcci principali:
quello di he patients like me che si è associato a
una casa farmaceutica per poter raccogliere
informazioni direttamente dai pazienti. In con questo
metodo sono già 2000 le malattie monitorate tramite
le informazioni rilasciate dai pazienti. Nel caso di the
project data sphere sono invece stati uniti i
database di diverse case farmaceutiche: ci sono per
ora più di 900 utenti autorizzati che hanno accesso
a 49 dataset che rappresentano 27000 pazienti che
vivono in una vasta area e con differenti tipi di
tumori.
Un caso analogo si è avuto con l'apertura dei dati
relativi alla malaria: iniziato da una casa
farm,aceutica poi si sono formati proprio banche
dati dedicate come a esempio malaria box
https://clinicaltrials.gov
MONITORARE I TRIALS CLINICI
Oltre a queste cose c'è anche un sito internet che segue
invece i trials di farmaci che si stanno verificando in questo
momento. ClinicalTrials.gov è una risorsa del web che fornisca
ai pazienti e ai loro familiari, ai medici, ai ricercatori e al
pubblico un accesso facile alle informazioni sugli studi clinici
pubblici e privati, di una vasta gamma di patologie e
condizioni. Il sito web è curato da National Library of Medicine
(NLM) e dal National Institutes of Health (NIH).
ClinicalTrials.gov contiene anche voci che descrivono studi
osservazionali e forniscono anche informazioni su farmaci al di
fuori dei trial clinici.

Require that all drug trials in Europe are registered before they begin
on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published
on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was
found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set
up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does
not adhere to these new laws.
Questa cosa è di interesse perché è questo che
l'Europa ha richiesto in merito agli studi clinici e solo
portai come questo possono fare il tentativo di
rispondere a questi bisogni
LE MALATTIE INFETTIVE
7 su 355
➔
Sorveglianza
➔
Previsione andamento epidemia
I dati scientifici possono essere mescolati anche con altre
informazioni.
Facciamo un esempio della malattiei infettive.
nel 2013 si diceva che solo 7 malattie su 355 infettive sono
state mappate. Se si acquisissero conoscenze geografiche
più precise nella distribuzione delle malattie si otterrebbe
maggiore sorveglianza e una più precisa capacità
previsionale
Letteratura
Web
GenBank
Nel caso delle mappe fatte in precedenza come nel caso della
dengue, prima si rilevavano le informazioni a partire dalla
letteratura dal web report o da genbank. Poi queste si
localizzano. Per inferenza si deducono le aree non infette.
Infine si sovrappongono dati spaziali (ad esempio le
temperature o le piogge) in questo modo è possibile prevedere
qual è la localizzazione più probabile di un virus. Ma questo,
come si capisce, rende le cose poco aggiornate.
http://www.healthmap.org/en
/
Aggregatori di news online (google news),
testimonianze, discussioni curate
da esperti (PROMED) e report ufficiali
(WHO)
La mappa di HealthMap è attiva dal 2006. Il sistema è
studiato per l'estrazione, la categorizzazione, la filtrazione,
e l'integrazione dei report, facilitando l'amministrazione
delle informazioni e la rapidità nella rilevazione. Occorre
che i dati identifichino correttamente a) la malattia e la sua
localizzaione (b) la rilevanza della cosa segnalata, cioè se
corrisponde davvero a un'epidemia (c) occorre
raggruppare segnalazioni simili rimuovendo i duplicati. Una
volta che il rapporto è stato creato automaticamente poi
intervengono curatori che ne controllano la significatività.
http://www.gbif.org/
UN MIX DI DATI PER
L'ECOLOGIA
PROBLEMI SE:
●
i dati non correttamente georeferenziati;
●
insieme di dati solo relativi a un certo luogo;
●
classificazioni tassonomiche errate;
●
problemi di denominazione;
●
preconcetti in fase di campionamento
Gli stessi dati possono essere facilmente integrati negli studi
ecologici o per preservare la biodiversità. Attraverso la
rilevazione di dati come il tempo e lo spazio è possibile
seguire i processi ecologici e quindi stimare i limiti dei territori,
le relazioni tra le specie la divergenza nel tempo
SUPERSMART permette ai ricercatori di trovare dati genetici
pubblici, dati ecologici e geografici tutti in un unico portale e in
più di caricare i propri dai personali.
Global Biodiversity Information Facility (GBIF;
http://www.gbif.org),è il principale portale per la raccolta dati
da diverse località. Aggrega dati relativi alla storia naturale, e
di specie osservate. E orma conta l' 85% (c. 381 milioni) di dati
georeferenziati.
Ci possono essere cinque problemi che possono impedire la
diffusione di un così vasto ammontare di dati: i dati non
correttamente georeferenziati; insieme di dati solo relativi a un
certo luogo; classificazioni tassonomiche errate; problemi di
denominazione e preconcetti in fase di campionamento
http://www.supersmart-project.org/
SUPERSMART
permette ai
ricercatori di
trovare dati
genetici pubblici,
dati ecologici e
geografici tutti in
un unico portale e
in più di caricare i
propri dai
personali.
SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici
tutti in un unico portale e in più di caricare i propri dai personali.
http://www.csmon-life.eu/
CSMON-LIFE (Citizen Science MONitoring) è il primo progetto
italiano di citizen science sulla biodiversità, finanziato in Italia
dalla Commissione Europea nell’ambito del programma LIFE+.
L’iniziativa prevede la partecipazione del grande pubblico e si
propone di coinvolgere i cittadini nello studio, nella gestione e
nella conservazione della biodiversità, creando un’attiva
collaborazione tra i cittadini, la comunità scientifica e le
istituzioni.
Alla base del progetto ci sono 4 concetti fondamentali, che
costituiscono i pilastri della citizen science:
coinvolgimento (dei cittadini)
comprensione (delle problematiche legate alla conservazione
della natura)
collaborazione (nello sviluppo di soluzioni efficaci, in quanto
condivise)
cambiamento (dei nostri comportamenti nei confronti
dell’ambiente)
https://www.zooniverse.org/
Zooniverse si espande anche in altri campi
Occorre però sempre Bisogna però tener conto
dell'effettiva capacità di coinvolgere le persone in questo
processo che può essere di raccolta attiva
(crowdsourcing) o passiva. Occorre poi considerare
l'affidabilità di questi dati.
Nel caso delle mappe generate in modo passivo o attivo
(crowdsourcing) è necessario che il dato sia affidabile e
quindi che gli venga dato un peso in base all'affidabilità o
a altri parametri statistici
Poi bisogna che venga coinvolta in modo opportuno la
popolazione e che vengano coinvolte diverse figure
professionali.
VALIDARE
DISEGNARE NUOVI ESPERIMENTI
INTERPRETARE
AMPLIARE IL CAMPIONE
RIDURRE GLI ESPERIMENTI
CREARE MODELLI
I big data in ambito scientifico servono per
l'interpretazione dei risultati, per disegnare nuovi
esperimenti, per capire in quale direzione deve andare
la ricerca. I big data potrebbero servire per validare
dati ottenuti in laboratorio, per ampliare il proprio
campione. Inoltre servono perché la condivisione dei
dati potrebbe ridurre il numero di esperimenti e
aumentare la velocità nel processo dicreazione della
conoscenza.
Il fatto di avere dai aperti e disponibili e in grandi
quantità può aiutare la biologia di sistema, che
teorizza i processi cellulari, tramite modelli matematici
in modo da rappresentare quello che avviene in
natura con algoritmi. Perché usare questi sitemi?
Perché spesso non è possibile seguire questo tipo di
reazioni in vivo o in vitro.
MA per fare questo cosa occorre? Di fatto che vengano
assicurati tutti questi passaggi.
BIOLOGO OGGIBIOLOGO OGGI
●
INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER
L'ANALISI DEI DATI,
●
INSTALLARE E LANCIARE SOFTWARE,
●
NAVIGARE TRAMITE LINEA DI COMANDO,
●
COMPARARE VARI TOOL DI ANALISI,
●
SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,
MANEGGIARE GRANDI DATA SET
RAW DATA AND METADATA
STORE SEPARATELY
STABILISCI LO SCOPO DEL TUO PROGETTO
SERVE PER DIRIGERE I CALCOLI
NELLA GIUSTA TRAIETTORIA
UN'ANALISI
TROPPI SOFTWARE
Controllare
La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti
cambiando software e variabili interne
Di aver REGISTRATO TUTTI i passaggi e le variazioni
Di aver INDIVIDUATO LA VARIABILE più importante del dataset
Individuare le variabili non importanti
Fare la PROVA DEL NOVE per i propri risultati
Procurarsi un campione di dati di CONTROLLO, di cui si conosce il
risultato atteso
RIPRODUCI
GitHub, GitLab,
BitBucket, or R
ArXiv or PeerJ
Beautiful
Technnical
Exciting
BUT WHAT DOES
IT MEAN?
LE APPLICAZIONILE APPLICAZIONI
LÀ FUORILÀ FUORI
GLI OSPEDALI HANNO BISOGNO DI DATI PER
MONITORARE LE PROPRIE PERFORMANCE,
CAPIRE DOVE MIGLIORARE I SERVIZI,
RISPARMIARE
IN CLINICA OGGI VENGONO CREATI ALGORITMI
CAPACI DI MONITORARE I PAZIENTI E
RICONOSCERE I SEGNALI DI RISCHIO
LE CASE FARMACEUTICHE HANNO INIZIATO A
CONDIVIDERE DATI RELATIVI A FARMACI E
RISPOSTE ALLE TERAPIE
I PAZIENTI FANNO PREVENZIONE E SI
MONITORANO DA SOLI TRAMITE LA TECNOLOGIA.
IN QUESTO MODO PERO' FORNISCONO ANCHE
DATI
http://doveticuri.mitecube.com/
http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped
GUARDANDO I DATASET
GENETICI DERIVATI DA
CIRCA 2500 PAZIENTI
AFFETTI DA DIABETE, SONO
STATI INDIVIDUATI TRE
SOTTOTIPI DI DIABETE TIPO
2, CON IMPLICAZIONI
DIVERSE PER LA SALUTE,
CHE PERO' NON ERANO MAI
STATE INDIVIDUATE DAL
PUNTO DI VISTA CLINICO.
OASIS – IL SENSORE
CHE MONITORA LA
FISIOLOGIA
DELLE PERSONE E
DELL'AMBIENTE
“My recommendation to the next generation of scientists
to be competitive is to establish a broad
interdisciplinary foundation
of math and science as well as strong communication skills”
Michael C. Schatz
Bibliografia e sitografia
Big data
Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore
THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King
Guide to open access – EU Commission – 2015
#Scidata15: Big data: Challenges create opportunities – blog Nature
Malattie infettive:
Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the
HealthMap Project
John S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl
Big Data Opportunities for Global Infectious Disease Surveillance
Simon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein
The quantified self: Fundamental disruption in big data science and biological discovery
- M Swan
Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene e
xpression data
Alla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo
Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian
Athey, and Gilbert S. Omenn
Metabolomics Workbench: An international repository for metabolomics data and metadata, meta
bolite standards, protocols, tutorials and training, and analysis tools
Manish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur
Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar
Subramaniam
SIGNOR: a database of causal relationships between biological entities
Livia Perfetto et al.
Wired Co.UK 23andMe sharing data with big pharma
Biological data sciences in genome research- Michael C. Schatz
An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project
Consortium
Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,
Big Data: Astronomical or Genomical? - Zachary D. Stephens et al
Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao
Big universe, big data, astronomical opportunities – The Guardian
Clinical trials: clearer rules, better protection for patients
Big Pharma Opens New Chapter On Big Data Collaboration– Forbes
The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Da
ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer
Kald Abdallaha et al.
Open source data a boon to malaria research- Emily Mullin
SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al
Data sharing: Fewer experiments, more knowledge– Nature Blog
4 big reasons why healthcare needs data science – 7Data
Identification of type 2 diabetes subgroups through topological analysis of patient similarity
Li Li1, Wei-Yi Cheng
OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO
Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

More Related Content

Similar to Big data and science

La mappatura dei bisogni - seconda parte (Giorgio Visentin)
La mappatura dei bisogni - seconda parte (Giorgio Visentin)La mappatura dei bisogni - seconda parte (Giorgio Visentin)
La mappatura dei bisogni - seconda parte (Giorgio Visentin)csermeg
 
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...Cristian Randieri PhD
 
LA BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA
LA  BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA LA  BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA
LA BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA Gabriele Micozzi
 
Quale sanità per il cittadino. Nuova domanda di empowerment.
Quale sanità per il cittadino.  Nuova domanda di empowerment. Quale sanità per il cittadino.  Nuova domanda di empowerment.
Quale sanità per il cittadino. Nuova domanda di empowerment. Giuseppe Fattori
 
Fiat Data - Dai Big Data all'intelligenza artificiale
Fiat Data - Dai Big Data all'intelligenza artificialeFiat Data - Dai Big Data all'intelligenza artificiale
Fiat Data - Dai Big Data all'intelligenza artificialeRoberto Villa
 
La salute nell'era di internet
La salute nell'era di internetLa salute nell'era di internet
La salute nell'era di internetCristina Da Rold
 
Introduzione alla digital health
Introduzione alla digital healthIntroduzione alla digital health
Introduzione alla digital healthAdriano Fontanari
 
2012 10-04af
2012 10-04af2012 10-04af
2012 10-04afimartini
 
R. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
R. Bellotti, Reti complesse per l'analisi di dati economici e biomediciR. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
R. Bellotti, Reti complesse per l'analisi di dati economici e biomediciIstituto nazionale di statistica
 
Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiVincenzo Manzoni
 
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...Giuseppe Fattori
 
Linux day 2021 Analisi Open Source dei dati pandemici
Linux day 2021 Analisi Open Source dei dati pandemiciLinux day 2021 Analisi Open Source dei dati pandemici
Linux day 2021 Analisi Open Source dei dati pandemiciDaniele Mondello
 

Similar to Big data and science (20)

La mappatura dei bisogni - seconda parte (Giorgio Visentin)
La mappatura dei bisogni - seconda parte (Giorgio Visentin)La mappatura dei bisogni - seconda parte (Giorgio Visentin)
La mappatura dei bisogni - seconda parte (Giorgio Visentin)
 
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...
131 Curarsi con la tecnologia - Il punto di vista di Intellisystem Technologi...
 
LA BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA
LA  BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA LA  BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA
LA BUSINESS INTELLIGENCE E L'ANALISI PREDITTIVA
 
I big data per la medicina di precisione
I big data per la medicina di precisioneI big data per la medicina di precisione
I big data per la medicina di precisione
 
Quale sanità per il cittadino. Nuova domanda di empowerment.
Quale sanità per il cittadino.  Nuova domanda di empowerment. Quale sanità per il cittadino.  Nuova domanda di empowerment.
Quale sanità per il cittadino. Nuova domanda di empowerment.
 
Libro tesi
Libro tesiLibro tesi
Libro tesi
 
MedEtech
MedEtechMedEtech
MedEtech
 
Fiat Data - Dai Big Data all'intelligenza artificiale
Fiat Data - Dai Big Data all'intelligenza artificialeFiat Data - Dai Big Data all'intelligenza artificiale
Fiat Data - Dai Big Data all'intelligenza artificiale
 
Medicine goes digital
Medicine goes digitalMedicine goes digital
Medicine goes digital
 
La salute nell'era di internet
La salute nell'era di internetLa salute nell'era di internet
La salute nell'era di internet
 
Introduzione alla digital health
Introduzione alla digital healthIntroduzione alla digital health
Introduzione alla digital health
 
2012 10-04af
2012 10-04af2012 10-04af
2012 10-04af
 
La salute e i big data
La salute e i big dataLa salute e i big data
La salute e i big data
 
Covid19 - Contac tracing e privacy
Covid19 - Contac tracing e privacyCovid19 - Contac tracing e privacy
Covid19 - Contac tracing e privacy
 
R. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
R. Bellotti, Reti complesse per l'analisi di dati economici e biomediciR. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
R. Bellotti, Reti complesse per l'analisi di dati economici e biomedici
 
Big data and iot
Big data and iotBig data and iot
Big data and iot
 
Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei dati
 
intellogenza artificiale.pdf
intellogenza artificiale.pdfintellogenza artificiale.pdf
intellogenza artificiale.pdf
 
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...
Marketing Sociale tra nuovi media e salute: ripensare nuove strategie di comu...
 
Linux day 2021 Analisi Open Source dei dati pandemici
Linux day 2021 Analisi Open Source dei dati pandemiciLinux day 2021 Analisi Open Source dei dati pandemici
Linux day 2021 Analisi Open Source dei dati pandemici
 

More from Giulia Annovi

In vitro models of stroke
In vitro models of strokeIn vitro models of stroke
In vitro models of strokeGiulia Annovi
 
Dati ambientali e comunicazione online
Dati ambientali e comunicazione onlineDati ambientali e comunicazione online
Dati ambientali e comunicazione onlineGiulia Annovi
 
Comunicare i dati realizzando infografiche
Comunicare i dati realizzando infograficheComunicare i dati realizzando infografiche
Comunicare i dati realizzando infograficheGiulia Annovi
 
The communicator's art
The communicator's artThe communicator's art
The communicator's artGiulia Annovi
 
Social media and data collection for citizen science
Social media and data collection for citizen scienceSocial media and data collection for citizen science
Social media and data collection for citizen scienceGiulia Annovi
 
An introduction to social media
An introduction to social mediaAn introduction to social media
An introduction to social mediaGiulia Annovi
 
Get online week 2016
Get online week 2016Get online week 2016
Get online week 2016Giulia Annovi
 
Uso di twitter per la salute
Uso di twitter per la saluteUso di twitter per la salute
Uso di twitter per la saluteGiulia Annovi
 
La vitamina K che ruolo ha?
La vitamina K che ruolo ha?La vitamina K che ruolo ha?
La vitamina K che ruolo ha?Giulia Annovi
 
La corsa della fisica
La corsa della fisica La corsa della fisica
La corsa della fisica Giulia Annovi
 
Tra scienza e scuola c'è di mezzo il web
Tra scienza e scuola c'è di mezzo il webTra scienza e scuola c'è di mezzo il web
Tra scienza e scuola c'è di mezzo il webGiulia Annovi
 
The role of fibroblast in ectopic calcification
The role of fibroblast in ectopic calcificationThe role of fibroblast in ectopic calcification
The role of fibroblast in ectopic calcificationGiulia Annovi
 
Annovi HRM and Epigenetics
Annovi HRM and EpigeneticsAnnovi HRM and Epigenetics
Annovi HRM and EpigeneticsGiulia Annovi
 
Newsdiffs giulia annovi
Newsdiffs giulia annoviNewsdiffs giulia annovi
Newsdiffs giulia annoviGiulia Annovi
 

More from Giulia Annovi (14)

In vitro models of stroke
In vitro models of strokeIn vitro models of stroke
In vitro models of stroke
 
Dati ambientali e comunicazione online
Dati ambientali e comunicazione onlineDati ambientali e comunicazione online
Dati ambientali e comunicazione online
 
Comunicare i dati realizzando infografiche
Comunicare i dati realizzando infograficheComunicare i dati realizzando infografiche
Comunicare i dati realizzando infografiche
 
The communicator's art
The communicator's artThe communicator's art
The communicator's art
 
Social media and data collection for citizen science
Social media and data collection for citizen scienceSocial media and data collection for citizen science
Social media and data collection for citizen science
 
An introduction to social media
An introduction to social mediaAn introduction to social media
An introduction to social media
 
Get online week 2016
Get online week 2016Get online week 2016
Get online week 2016
 
Uso di twitter per la salute
Uso di twitter per la saluteUso di twitter per la salute
Uso di twitter per la salute
 
La vitamina K che ruolo ha?
La vitamina K che ruolo ha?La vitamina K che ruolo ha?
La vitamina K che ruolo ha?
 
La corsa della fisica
La corsa della fisica La corsa della fisica
La corsa della fisica
 
Tra scienza e scuola c'è di mezzo il web
Tra scienza e scuola c'è di mezzo il webTra scienza e scuola c'è di mezzo il web
Tra scienza e scuola c'è di mezzo il web
 
The role of fibroblast in ectopic calcification
The role of fibroblast in ectopic calcificationThe role of fibroblast in ectopic calcification
The role of fibroblast in ectopic calcification
 
Annovi HRM and Epigenetics
Annovi HRM and EpigeneticsAnnovi HRM and Epigenetics
Annovi HRM and Epigenetics
 
Newsdiffs giulia annovi
Newsdiffs giulia annoviNewsdiffs giulia annovi
Newsdiffs giulia annovi
 

Big data and science

  • 1. DATA IS THE NEW SCIENCE DATAISTHENEWSCIENCE Giulia Annovi Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015
  • 2. ?? COSA SONOCOSA SONO I BIG DATAI BIG DATA
  • 3. UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZA DANNO ORIGINE A STORIE
  • 5.
  • 6. USA: 32 FRANCIA: 19 GERMANIA: 15 REGNO UNITO: 22 ITALIA: 11 CHI PARLA DI BIG DATA?
  • 7. http://goo.gl/HrBywv 1997 I BIG DATA PRENDONO ORIGINE DALLE STELLE
  • 9. BANCHE: 29% INDUSTRIE: 21% MEDIA: 14% PA E SANITÀ: 9% CHI PRODUCE BIG DATA IN ITALIA
  • 10. ENTRO IL 2020 SI PREVEDE UN AUMENTO DEI BIG DATA DEL 4300%
  • 11. I PUNTI CRITICII PUNTI CRITICI
  • 15. È UNA QUESTIONE DI DIMENSIONI MA NON SOLO
  • 16. BIG DATA E SCIENZABIG DATA E SCIENZA
  • 19.
  • 20. Astronomical data is and has always been “big data”
  • 21. IL FUTURO SARÀ RACCOGLIERE 30 Tb OGNI NOTTE
  • 22. 20 PETABITE DI DATI20 PETABITE DI DATI ALL'ANNOALL'ANNO
  • 23. LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS
  • 24. SE LA SCIENZASE LA SCIENZA COMPRENDECOMPRENDE IL POTERE DEI DATIIL POTERE DEI DATI
  • 25.
  • 26.
  • 32. È sostenibile e fattibile il coinvolgimento della popolazione? Integrazione con informazioni spaziali e ambientali Occorre trasformare le informazioni real time in previsione Facilitàdi uso da parte degli utenti [https://www.influenzanet.eu/] Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori
  • 33. BIG DATA E BIOLOGIABIG DATA E BIOLOGIA
  • 34.
  • 37.
  • 38.
  • 41.
  • 42.
  • 48.  Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.  Require that a summary of the results from these trials is published on the register within a year of the trial’s end.  Require that a summary understandable to a lay person of what was found in the trial is published on the register.  Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.  Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws.
  • 49. LE MALATTIE INFETTIVE 7 su 355 ➔ Sorveglianza ➔ Previsione andamento epidemia
  • 51. http://www.healthmap.org/en Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO)
  • 52. http://www.gbif.org/ UN MIX DI DATI PER L'ECOLOGIA PROBLEMI SE: ● i dati non correttamente georeferenziati; ● insieme di dati solo relativi a un certo luogo; ● classificazioni tassonomiche errate; ● problemi di denominazione; ● preconcetti in fase di campionamento
  • 53. http://www.supersmart-project.org/ SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali.
  • 56. VALIDARE DISEGNARE NUOVI ESPERIMENTI INTERPRETARE AMPLIARE IL CAMPIONE RIDURRE GLI ESPERIMENTI CREARE MODELLI
  • 57.
  • 59. ● INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER L'ANALISI DEI DATI, ● INSTALLARE E LANCIARE SOFTWARE, ● NAVIGARE TRAMITE LINEA DI COMANDO, ● COMPARARE VARI TOOL DI ANALISI, ● SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI, MANEGGIARE GRANDI DATA SET
  • 60. RAW DATA AND METADATA STORE SEPARATELY
  • 61. STABILISCI LO SCOPO DEL TUO PROGETTO SERVE PER DIRIGERE I CALCOLI NELLA GIUSTA TRAIETTORIA
  • 63. Controllare La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne Di aver REGISTRATO TUTTI i passaggi e le variazioni Di aver INDIVIDUATO LA VARIABILE più importante del dataset Individuare le variabili non importanti Fare la PROVA DEL NOVE per i propri risultati Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso
  • 67. GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI
  • 70. GUARDANDO I DATASET GENETICI DERIVATI DA CIRCA 2500 PAZIENTI AFFETTI DA DIABETE, SONO STATI INDIVIDUATI TRE SOTTOTIPI DI DIABETE TIPO 2, CON IMPLICAZIONI DIVERSE PER LA SALUTE, CHE PERO' NON ERANO MAI STATE INDIVIDUATE DAL PUNTO DI VISTA CLINICO.
  • 71.
  • 72. OASIS – IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE
  • 73. “My recommendation to the next generation of scientists to be competitive is to establish a broad interdisciplinary foundation of math and science as well as strong communication skills” Michael C. Schatz
  • 74. Bibliografia e sitografia Big data Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King Guide to open access – EU Commission – 2015 #Scidata15: Big data: Challenges create opportunities – blog Nature Malattie infettive: Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap Project John S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl Big Data Opportunities for Global Infectious Disease Surveillance Simon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein The quantified self: Fundamental disruption in big data science and biological discovery - M Swan
  • 75. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene e xpression data Alla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn Metabolomics Workbench: An international repository for metabolomics data and metadata, meta bolite standards, protocols, tutorials and training, and analysis tools Manish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam SIGNOR: a database of causal relationships between biological entities Livia Perfetto et al. Wired Co.UK 23andMe sharing data with big pharma Biological data sciences in genome research- Michael C. Schatz An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen, Big Data: Astronomical or Genomical? - Zachary D. Stephens et al Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao Big universe, big data, astronomical opportunities – The Guardian
  • 76. Clinical trials: clearer rules, better protection for patients Big Pharma Opens New Chapter On Big Data Collaboration– Forbes The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial D ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al. Open source data a boon to malaria research- Emily Mullin SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al Data sharing: Fewer experiments, more knowledge– Nature Blog 4 big reasons why healthcare needs data science – 7Data Identification of type 2 diabetes subgroups through topological analysis of patient similarity Li Li1, Wei-Yi Cheng OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal
  • 77. DATA IS THE NEW SCIENCE DATAISTHENEWSCIENCE Giulia Annovi Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015
  • 78. ?? COSA SONOCOSA SONO I BIG DATAI BIG DATA Cosa sono secondo voi i big data? Se dovessimo definirli con un brain storming quali parole scegliereste?
  • 79. UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI, DANNO ORIGINE A STORIE I big data sono un insieme complesso di numeri, algoritmi, Rilevazioni che finiscono per raccontarci una storia. Sono grafici che divetano parole
  • 80. BIG DATA Un'altra definizione romantica di big data li assimila Al pane affettato. Come l'invenzione del pane affettato Ha cambiato il modo di mangiare, ha permesso di sfamare Più persone con una sola pagnotta, così anceh i big data Si possono affettare e possono dare innumerevoli informazioni
  • 81. I big data sono definiti tramite 3V: volume (hanno un volume così grande che è stata una sfida anche per le grandi compagnie tecnologiche maneggiarli), grande varietà (non sono solo dati strutturati ma un ampio range di dati digitali), e alta velocità (quella a cui i dati sono generati e trasmessi). Esistono però altre V per definirli: la vaghezza (quello che rende i BD vaghi li rende anche esatti e certi: per conoscere la conoscenza devi conoscere anche l'inconoscibile. I BD raccolgono tutto); vendibili; vaticini; voracità; veridicità (la qualità o la perdita della qualità dei dati matters data la grande varietà con cui si presentano) Fare business oggi con i big data significa includere errori e confusione. Ma la varietà, il volume e la velocità tendono a superare la presenza si questi errori. La casualità e l'universalità sono importanti, mentre la confusione può essere tollerata.
  • 82. USA: 32 FRANCIA: 19 GERMANIA: 15 REGNO UNITO: 22 ITALIA: 11 CHI PARLA DI BIG DATA? Dove vanno di moda? Soprattutto in India è uno sei termini più citati nelle ricerche di google. In Italia non suscitano ancora grandissimo interesse rispetto ad altri paesi europei. Gli stati uniti sono a quota 32 su 100. A questo si aggiungono aree del tutto escluse da questo discorso (es regioni africane)
  • 83. http://goo.gl/HrBywv 1997 I BIG DATA PRENDONO ORIGINE DALLE STELLE Nel 1997 si è avuta la prima occasione per parlare di big data: ma la storia poi continua da vent'anni. Negli anni successivi venne creato il substrato su cui i big data si sono sviluppati: ovvero le infrastrutture capaci di supportarli Nel 2009 avviene un'altra piccola rivoluzione con l'introduzione dei linked data, cioè con il concetto che i dati in rete devono essere tra loro interconnessi per fornire maggiori informazioni Un momento in cui si incomincia a riflettere criticamente sui big data è il 2012, perché in quell'anno esce Critical Question for Big Data.
  • 84. Google https://www.google.it/trends/explore#q=big%20data MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI l termine Big Data, secondo google trends, è incominciato ad apparire nel tardo 2010. Sebbene il termine big data nei trends delle parole più ricercate sia in declino perché è un concetto difficile da definire, i dati raccolti sono sempre più
  • 85. BANCHE: 29% INDUSTRIE: 21% MEDIA: 14% PA E SANITÀ: 9% CHI PRODUCE BIG DATA IN ITALIA In Italia i big data sono soprattutto diffusi nelle banche (29%), seguiti dalle industrie (21%), dai media (14 %) e per IL 9% dalla PA e sanità. Di minor importanza sono i big data che riguardano i servizi (8%), la GDO (8%), le assicurazioni (5%)
  • 86. ENTRO IL 2020 SI PREVEDE UN AUMENTO DEI BIG DATA DEL 4300% I big data saranno lo strumento del futuro per prendere data driven decision making. Per il futuro si prevede un aumento dei big data del 4300% andare al 2020 Ci serviranno per monitorare e quindi per conservare risorse preziose (biodiversità); per tracciare malattie e curare infezioni (es ebola, influenza); per vivere in modo più sicuro. Quindi i big data non sono solo per le aziende.
  • 87. I PUNTI CRITICII PUNTI CRITICI
  • 88. IDENTITY PARADOX Reclamano il fatto di voler identificare, ma di fatto appiattiscono la società. Non considerano l'individuo, ma piuttosto il comportamento di massa [il paradosso dell'identità]
  • 89. TRASPARENCY PARADOX Chiedono a noi di fare tutto nella massima trasparenza. Qualsiasi cosa facciamo è tracciabile, qualsiasi acquisto, qualsiasi click, qualsiasi contatto. Eppure i dati raccolti non sono per noi accessibili. Questo anche per un motivo di privacy, ma governi e istituzioni dovrebbero domandarsi come rispondere a tale problema.
  • 90. POWER PARADOX Infine c'è il paradosso del potere: il fatto di avere le informazioni accessibili ci sembra ci dia un grosso potere. Pensiamo alla primavera araba: tutto è stato organizzato tramite i social network, ma il potere dei social network non è nelle nostre mani, non è controllato da noi. Basta che ci levino questo strumento che noi non ne siamo più in possesso.
  • 91. È UNA QUESTIONE DI DIMENSIONI MA NON SOLO Un'altra criticità legata ai big data è la dimensione, Lo spazio che occupano. Si stima che ogni giorno vengano prodotti 2.5 quintilioni di bytes (cioè 2.5 seguito da 18 zero!). Un altro problema potrebbe essere lagato al fatto che i dati raccolti potrebbero andare perduti per l'obsolescenza dei formati
  • 92. BIG DATA E SCIENZABIG DATA E SCIENZA
  • 93. TWITTER YOU TUBE ASTRONOMIA GENETICA Che differenza c'è tra i big data raccolti da twitter youtube l'astronomia e la biologia? Twitter e youtube sono attivi dal 2005-2006 rispettivamente e sono utilizzati quotidianamente da milioni di utenti. L'astronomia sono 20 anni che raccoglie big data. Eppure la biologia in quanto a record resta la prima. Oggi per i dati genetici prodotti dai 20 maggiori istituti si richiede l'uso di 100 petabites all'anno, contro gli 0,5 di twitter e esattamente come youtube.
  • 94. PRENDIAMO LE MISURE Confrontando gli ordini di grandezza ecco quanti dati vengono Conservati. Qui sotto invece vediamo la figura di quanti exabites saranno Necessari andare al 2025. Come vedete, se adesso youtube usa la stessa quantità di byte Del genoma, fra 10 anni il volume dei dati sarà di gran lunga Superiore. Perché pensiamo una cosa del genere?
  • 95. Qante paia di basi contiene il genoma umano? 3 miliardi di bp Si pensa che possano essere sequenziate 35 petabasi all'anno.In futuro si potrà arrivare a 2 petabasi I problemi connessi all'uso dei big data in biologia riguardano lo storage perché sono una grande quantità, la capacità di processamento (ad esempio allineare le sequenze di due genomi implica l'utilizzo di circa 100-CPU ore. Nel 2014 abbiamo raggiunto i 250 mila genomi umani sequenziati (secondo una stima del MIT) in tutto il mondo. Nel 2017 raggiungeremo 1,6 milioni di genomi Bene, considerate che ogni 4 basi sequenziate occupiamo un bite.
  • 96. Astronomical data is and has always been “big data” Ma prima di insistere sulla biologia, perché questa viene Confrontata con l'astronomia? Perché come dice il Guardian ha sempre prodotto big data.
  • 97. IL FUTURO SARÀ RACCOGLIERE 30 Tb OGNI NOTTE Ecco i dati prodotti dall'astronomia: Gli astronomi che usano il telescopio Keplero prendono informazioni riguardo a 200,000 stelle ogni 30 secondi, cosa che ha reso possibile la scoperta del primo pianeta simile alla terra fuori dal sistema solare. Lo SDSS è uno dei database aperti accessibili con la maggior quantità di dati, ma non è nulla al confronto con quello che verrà lanciato nei prossimi anni, l'LSST che avrà la possibilità di raccogliere 30 Tb ogni notte.
  • 98. 20 PETABITE DI DATI20 PETABITE DI DATI ALL'ANNOALL'ANNO Un altro ambito che è stato fondamentale per lo sviluppo dei Big data è stata sicuramente la fisica. al CERN vengon prodotti 20 petabite di dati ogni anno. Hanno creato un'ifrastruttura: la worldwide LHC computing grid che è stata in grado di raccogliere elaborare e analizzare tutti i dati prodotti. I dati sono stati messi nel cloud tramite openstack e sono accessibili
  • 99. LA FISICA CI HA DATO UNA LENTE BLU PER GUARDARE I DATI: STATA, ALGORITMI E OPENESS I dati grezzi per evento generato al CERN sono circa 1 milione di bite. Per secondo si producono circa 600 milioni di eventi. Il Worldwide LHC Computing Grid maneggia questa montagna di dati in due stadi. Primo fa partire un algoritmo che seleziona gli eventi più significativi. Lo stesso principio dovrebbe essere abbracciato anche da altre scienze. Poi gli stessi dati sono analizzati statisticamente una volta ripuliti e questo può portare a risultati migliori. Pulire i dati significa rimuovere i duplicati, le voci parziali, i valori nulli, concatenare i dati, o separarli in più righe o più colonne, aggregare i risultati. Il CERN è anche caratterizzato dalla cultura dell'openess: c'è un servizio di cloud in cui i dati possono esser condivisi con una Bring Your Own Device (BYOD) policy per assicurare che la proprietà intellettuale venga rispettata Se guardiamo il mondo attraverso un vetro blu, lo vediamo blu. Ecco perché è importante scegliere il corretto metodo statistico. La pioniera in questo è stata la fisica
  • 100. SE LA SCIENZASE LA SCIENZA COMPRENDECOMPRENDE IL POTERE DEI DATIIL POTERE DEI DATI
  • 101. Equesto è un altro problema della scienza in genere: una volta Che gli scienziati hanno i dati devono decidere cosa farne: Condividerli oppure mantenerli segreti fino alla pubblicazione. La condivisione poi implica la definizione di standard affinché I dati siano confrontabili e soprattutto occorre stabilire una policy Per garantire la prprietà intellettuale
  • 102.
  • 103. Elaborazione Archiviazione Classificazione Condivisione Analisi Creazione tools Disseminazione EMBL-EBI Questa è una figura tratta dal sito dell'EMBL che Dimostra come i dati vengano processati una volta che sono Affidati a questo grande ente di bioinformatica. Gli istituti come l'EBI lavoreranno sempre di più in futuro per assicurare anche la privacy sui dati. Ad esempio potrebbero creare team interni capaci di rielaborare i dati crudi solo a fini di presentazione degli stessi
  • 104. BIG DATA WORKER Come si può vedere dunque big data implica anche nuove Figure professionali le cui caratteristiche sono molto varie. È stato stimato che in futuro ci sarà bisogno dalle 150 mila alle 190 mila unità.
  • 105. PIÚ DATI PIÚ INFO Altro fattore che genarano questi dati è l'enorma aumento del traffico su web
  • 106. http://senseable.mit.edu/bbva/ Questo è un esempio di come mettendo in relazione i dati e visualizzandoli correttamente si possano trarre molte informazioni. Ad esempio dai dati raccolti in real time durante la pasqua 2011 in Spagna è uscito questo video. Pensate se si potesse fare qualcosa del genere monitorando gli scompensi che avvengono nei 15 giorni che prevengono l'infarto. Che cosa accadrebbe se si misurasse la qualità del sonno come dato predittivo per l'insorgenza del diabete?
  • 107. RIDUCI RICICLA RIUSA Eppure anche per i dati scientifici vale la regola delle 3R: riduci ricicla riusa. Condividere i dati non vuol dire solo salvare dei soldi ma anche l'ambiente perché riduce la quantità di esperimenti necessari. Questo accelererà anche l'aumento della conoscenza generata, diminuendo il tempo sprecato a costruire dataset equivalenti
  • 108. È sostenibile e fattibile il coinvolgimento della popolazione? Integrazione con informazioni spaziali e ambientali Occorre trasformare le informazioni real time in previsione Facilitàdi uso da parte degli utenti [https://www.influenzanet.eu/] Coinvolgimento di diverse figure professionali: data scientist, comunicatori scientifici oltre a medici, agenzie di sorveglianza, informatici,ricercatori La scienza poi rispetto agli altri campi deve chiedersi queste coser
  • 109. BIG DATA E BIOLOGIABIG DATA E BIOLOGIA
  • 110. Nel caso della biologia ci sono diversi modi di approcciarsi ai dati C'è l'analisi tradizionale dei prorpri campioni, del paziente. La scienza è Hypothesis driven, m potrebbe diventare data driven. Tuttavia la tecnica ci ha messo a disposizione la possibilità di produrre una grande quantità di dati Ci sono le analisi che riguardano le componenti cellulari, le omics. Queste però hanno lo svantaggio dei costi della ricerca (es il sequenziamento) e il costo di immagazzinamento dei dati. In più richiedono un certo numero di campioni. Ci sono -omics accessibili già al pubblico: i progetti più noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te. Infine c'è la medicina ove i dati li raccoglie direttamente il paziente.
  • 112. EMBL-EBI Queste sono le banche dati tradizionali che sono state create dallo sviluppo delle omics. il fatto più rilevante accaduto nell'ambito della genetica negli ultimi 20 anni è stato il sequenziamento dell'interno genoma. Nei prossimi vent'anni ci aspettiamo di sequenziare un miliardo di genomi. La velocità con cui acquisiamo queste informazioni è legata al fatto che le macchine e le tecniche si sono enormemente sviluppate: DNA sequencing instruments, super-resolution digital microscopy, mass spectrometry, magnetic resonance imagery, or even satellite imagery used for studying biological systems with greater throughput and resolution than ever before. Tuttavia manca la capacità di queste macchine di interpretare i dati.
  • 113. I dati biologici hanno qualcosa in più rispetto agli altri big data: sono gerarchici perché generati a diversi livelli (molecolare, cellulare, fisiologico) sono eterogenei perché sono generati con metodi differenti (genetica, fisiologia, patologia, imaging) sono complessi (i dati possono essere registrati simultaneamente da informazioni multi-livello e da migliaia di cellule e sono dinamici, cioè associati a processi che cambiano nel tempo. Occorre dunque individuare le forze che governano e le relazioni causali tra gli elementi biologici per fare un uso completo dei big data e per decifrare i meccanismi che governano processi o malattie come il cancro, il diabete o l'Alzheimer.
  • 114. Oggi non ci limitiamo al sequenziamento del genoma: una tecnica applicabile anche con una spesa relativamente ridotta rispetto all'inizio. Il vero problema è come rilevare i meccanismi esserenziali dei sistemi biologici, andando a rimuovere il rumore di fondo dei dati. Si creano database sempre più comprensivi, che raccolgono informazioni tratte da diverse tecniche sperimentali, come mass spectrometry (MS) e nuclear magnetic resonance spectrometry (NMR), con dati che raccolgono 20 differenti specie, che coprono le maggiori categorie tassonomiche. .
  • 115. 3Omics: http://3omics.cmdm.tw/ LA NECESSITÀ DI FARE SINTESI Oggi si sta andando nella direzione della sintesi, verso piattaforme che integrano dati tra loro in relazione, anche perché spesso può essere complicato fare una relazione tra un sistema di classificazione e l'altro. Ci sono quindi database che mettono insieme informazioni provenienti dalla letteratura, dalla genomica, dalla proteomica e le visualizzano nei loro rapporti e relazioni.
  • 116. Metscape: http://metscape.ncibi.org/ DI VISUALIZZARE 60 MILA Spesso all'interno dei database sono compresi anche tools statistici che consentono l'elaborazione dei dati o di visualizzazione delle relazioni.
  • 117. La vera sfida dei big data è il passaggio dagli studi associativi agli studi causativi. E in questo è importante la biologia computazionale, quella che crea modelli. Lo studio delle interazioni piuttosto che dei singoli elementi cattura le componenti inosservate del network e le dinamiche. Quindi sia per gli aspetti teorici che clinici, i big data in biologia si stanno eveolvendo dalle singole molecole verso le molecole multiple, a quelle associate a quelle interattive. E lospostamento dell'interesse è anche dovuto all'avvento dei big data. Ci sono poi sistemi che tentano di fare sintesi tra diversi database, come ad esempio SIGNOR ( SIGnaling Network Open Resource) che si occupa di interazioni tra molecole o meglio di attivazioni di segnale che fanno accadere o che impediscano che accada cose nelle cellule. Anche nella rappresentazione di questi segnali ci sono due modelli: i modelli logici vs i modella basati sulle reazioni. I pathway sono rappresentati come una catena di reazioni chimiche dove ogni variante di un certo componente è assegnata a un nodo. Intervengono poi elementi regolatori per favorire il passaggio da un nodo all'altro. Di fatto questi modelli rappresentano l'equazione differenziale di una reazione chimica. Nei modelli logici le molecole sono connesse tutte con nodi, che rappresentano anche le interazioni regolatorie. Lo stato di ogni nodo dipende da quello che gli sta a monte. SIGNOR segue 12 000 relazioni causali tra i componenti cellulari.
  • 118. Quantified self data Servono a tracciare le caratteristiche di un individuo in generale o per monitorare e magari curare una patologia o per aumentare performace fisiche (pensiamo alle app che tracciano i nostri percorsi a piedi o in bici) o mentali. Il 66% degli americani usa sistemi tipo questi per monitorare la propria dieta, il proprio peso o parametri legati alla salute. Questi fanno parte dei small data che comunque sono troppo larghi e difficili da maneggiare per il singolo utente, che ha bisogno di tools (spesso online) capaci di misurare correttamente e visualizzare. Inoltre sono parametri interessanti anche perché raccolti direttamente dall'utente. In questo tipo di rilevazione gli individui realizzano studi, applicando i risultati per migliorare la propria vita. Ci sono -omics accessibili già al pubblico: i progetti più noti sono 23and Me per scoprire il proprio assetto cromosomico; ubiome per avere l'analisi del proprio microbioma; talking20 per avere l'analisi del sangue fai da te.
  • 119. 2 5 8 33 I vantaggi della QS science: permette una raccolta random di dati, permette una raccolta di un gran numero di dati, questo tipo di ricerca può fornire nuove idee alla ricerca tradizionale; serve a stratificare la popolazione in diverse categorie; unisce insieme diverse categorie di scienze come la biologia, la statistica, i big data, la capacità di calcolo, la sociologia. Potrebbe diventare sempre più importante per profilare l'eterogeneità dei tumori prime e durante la chemoterapia.
  • 120. http://www.personalgenomes.org/harvard/data Anche per la raccolta di questi dati ci sono problemi di accessibilità e usabilità: ad esempio sono accessibili solo i dati di personal genome, un progetto di Harvard e dell'American Gut project, mentre altri dati sono accessibili solo sotto supervisione dei ricercatori come in MyZeo: questo perché a volte sono i ricercatori ad essere restii nel condividere i propri dati, in altri casi perché occorre rispettare la privacy del paziente. Altri problemi riguardano poi le caratteristiche del dato: ogni dato raccolto dovrebbe essere sempre accompagnato da un file che potremmo chiamare di metadati che ci dice come i dati sono stati raccolti, in quali condizioni e quali sono le caratteristiche del paziente. Resta poi da aggiungere che servirebbe un gruppo di confronto, il così detto campione sano chedeve essere scelto opportunamente come in ogni fase sperimentale. Anche dalla parte dell'utente ad esempio ci deve essere automazione, facilità, ricompensa per poter partecipare.
  • 121. http://www.ncbi.nlm.nih.gov/Traces/sra/ Qui si vede l'effetto nel caso dei dati gentici: in molti studi sono derivati da un'attività social
  • 122. FARMACOLOGIA OPEN CONTRO IL CANCRO C'è anche un aspetto applicativo dei big data, come ad esempio la scoperta di nuovi farmaci. Anche l'apertura delle banche dati delle case farmaceutiche è un fatto sorico spesso voluto addirittura dai governi per accellerare le scoperte in tale ambito. Ne sono un esempio le azioni intraprese per la terapia del cancro: ci sono due approcci principali: quello di he patients like me che si è associato a una casa farmaceutica per poter raccogliere informazioni direttamente dai pazienti. In con questo metodo sono già 2000 le malattie monitorate tramite le informazioni rilasciate dai pazienti. Nel caso di the project data sphere sono invece stati uniti i database di diverse case farmaceutiche: ci sono per ora più di 900 utenti autorizzati che hanno accesso a 49 dataset che rappresentano 27000 pazienti che vivono in una vasta area e con differenti tipi di tumori. Un caso analogo si è avuto con l'apertura dei dati relativi alla malaria: iniziato da una casa farm,aceutica poi si sono formati proprio banche dati dedicate come a esempio malaria box
  • 123. https://clinicaltrials.gov MONITORARE I TRIALS CLINICI Oltre a queste cose c'è anche un sito internet che segue invece i trials di farmaci che si stanno verificando in questo momento. ClinicalTrials.gov è una risorsa del web che fornisca ai pazienti e ai loro familiari, ai medici, ai ricercatori e al pubblico un accesso facile alle informazioni sugli studi clinici pubblici e privati, di una vasta gamma di patologie e condizioni. Il sito web è curato da National Library of Medicine (NLM) e dal National Institutes of Health (NIH). ClinicalTrials.gov contiene anche voci che descrivono studi osservazionali e forniscono anche informazioni su farmaci al di fuori dei trial clinici.
  • 124.  Require that all drug trials in Europe are registered before they begin on the publicly accessible EU clinical trials register.  Require that a summary of the results from these trials is published on the register within a year of the trial’s end.  Require that a summary understandable to a lay person of what was found in the trial is published on the register.  Establish a new publicly accessible EU clinical trials register, to be set up and run by the European Medicines Agency.  Impose financial penalties on anyone running a clinical trial who does not adhere to these new laws. Questa cosa è di interesse perché è questo che l'Europa ha richiesto in merito agli studi clinici e solo portai come questo possono fare il tentativo di rispondere a questi bisogni
  • 125. LE MALATTIE INFETTIVE 7 su 355 ➔ Sorveglianza ➔ Previsione andamento epidemia I dati scientifici possono essere mescolati anche con altre informazioni. Facciamo un esempio della malattiei infettive. nel 2013 si diceva che solo 7 malattie su 355 infettive sono state mappate. Se si acquisissero conoscenze geografiche più precise nella distribuzione delle malattie si otterrebbe maggiore sorveglianza e una più precisa capacità previsionale
  • 126. Letteratura Web GenBank Nel caso delle mappe fatte in precedenza come nel caso della dengue, prima si rilevavano le informazioni a partire dalla letteratura dal web report o da genbank. Poi queste si localizzano. Per inferenza si deducono le aree non infette. Infine si sovrappongono dati spaziali (ad esempio le temperature o le piogge) in questo modo è possibile prevedere qual è la localizzazione più probabile di un virus. Ma questo, come si capisce, rende le cose poco aggiornate.
  • 127. http://www.healthmap.org/en / Aggregatori di news online (google news), testimonianze, discussioni curate da esperti (PROMED) e report ufficiali (WHO) La mappa di HealthMap è attiva dal 2006. Il sistema è studiato per l'estrazione, la categorizzazione, la filtrazione, e l'integrazione dei report, facilitando l'amministrazione delle informazioni e la rapidità nella rilevazione. Occorre che i dati identifichino correttamente a) la malattia e la sua localizzaione (b) la rilevanza della cosa segnalata, cioè se corrisponde davvero a un'epidemia (c) occorre raggruppare segnalazioni simili rimuovendo i duplicati. Una volta che il rapporto è stato creato automaticamente poi intervengono curatori che ne controllano la significatività.
  • 128. http://www.gbif.org/ UN MIX DI DATI PER L'ECOLOGIA PROBLEMI SE: ● i dati non correttamente georeferenziati; ● insieme di dati solo relativi a un certo luogo; ● classificazioni tassonomiche errate; ● problemi di denominazione; ● preconcetti in fase di campionamento Gli stessi dati possono essere facilmente integrati negli studi ecologici o per preservare la biodiversità. Attraverso la rilevazione di dati come il tempo e lo spazio è possibile seguire i processi ecologici e quindi stimare i limiti dei territori, le relazioni tra le specie la divergenza nel tempo SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali. Global Biodiversity Information Facility (GBIF; http://www.gbif.org),è il principale portale per la raccolta dati da diverse località. Aggrega dati relativi alla storia naturale, e di specie osservate. E orma conta l' 85% (c. 381 milioni) di dati georeferenziati. Ci possono essere cinque problemi che possono impedire la diffusione di un così vasto ammontare di dati: i dati non correttamente georeferenziati; insieme di dati solo relativi a un certo luogo; classificazioni tassonomiche errate; problemi di denominazione e preconcetti in fase di campionamento
  • 129. http://www.supersmart-project.org/ SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali. SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici tutti in un unico portale e in più di caricare i propri dai personali.
  • 130. http://www.csmon-life.eu/ CSMON-LIFE (Citizen Science MONitoring) è il primo progetto italiano di citizen science sulla biodiversità, finanziato in Italia dalla Commissione Europea nell’ambito del programma LIFE+. L’iniziativa prevede la partecipazione del grande pubblico e si propone di coinvolgere i cittadini nello studio, nella gestione e nella conservazione della biodiversità, creando un’attiva collaborazione tra i cittadini, la comunità scientifica e le istituzioni. Alla base del progetto ci sono 4 concetti fondamentali, che costituiscono i pilastri della citizen science: coinvolgimento (dei cittadini) comprensione (delle problematiche legate alla conservazione della natura) collaborazione (nello sviluppo di soluzioni efficaci, in quanto condivise) cambiamento (dei nostri comportamenti nei confronti dell’ambiente)
  • 131. https://www.zooniverse.org/ Zooniverse si espande anche in altri campi Occorre però sempre Bisogna però tener conto dell'effettiva capacità di coinvolgere le persone in questo processo che può essere di raccolta attiva (crowdsourcing) o passiva. Occorre poi considerare l'affidabilità di questi dati. Nel caso delle mappe generate in modo passivo o attivo (crowdsourcing) è necessario che il dato sia affidabile e quindi che gli venga dato un peso in base all'affidabilità o a altri parametri statistici Poi bisogna che venga coinvolta in modo opportuno la popolazione e che vengano coinvolte diverse figure professionali.
  • 132. VALIDARE DISEGNARE NUOVI ESPERIMENTI INTERPRETARE AMPLIARE IL CAMPIONE RIDURRE GLI ESPERIMENTI CREARE MODELLI I big data in ambito scientifico servono per l'interpretazione dei risultati, per disegnare nuovi esperimenti, per capire in quale direzione deve andare la ricerca. I big data potrebbero servire per validare dati ottenuti in laboratorio, per ampliare il proprio campione. Inoltre servono perché la condivisione dei dati potrebbe ridurre il numero di esperimenti e aumentare la velocità nel processo dicreazione della conoscenza. Il fatto di avere dai aperti e disponibili e in grandi quantità può aiutare la biologia di sistema, che teorizza i processi cellulari, tramite modelli matematici in modo da rappresentare quello che avviene in natura con algoritmi. Perché usare questi sitemi? Perché spesso non è possibile seguire questo tipo di reazioni in vivo o in vitro.
  • 133. MA per fare questo cosa occorre? Di fatto che vengano assicurati tutti questi passaggi.
  • 135. ● INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER L'ANALISI DEI DATI, ● INSTALLARE E LANCIARE SOFTWARE, ● NAVIGARE TRAMITE LINEA DI COMANDO, ● COMPARARE VARI TOOL DI ANALISI, ● SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI, MANEGGIARE GRANDI DATA SET
  • 136. RAW DATA AND METADATA STORE SEPARATELY
  • 137. STABILISCI LO SCOPO DEL TUO PROGETTO SERVE PER DIRIGERE I CALCOLI NELLA GIUSTA TRAIETTORIA
  • 139. Controllare La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti cambiando software e variabili interne Di aver REGISTRATO TUTTI i passaggi e le variazioni Di aver INDIVIDUATO LA VARIABILE più importante del dataset Individuare le variabili non importanti Fare la PROVA DEL NOVE per i propri risultati Procurarsi un campione di dati di CONTROLLO, di cui si conosce il risultato atteso
  • 143. GLI OSPEDALI HANNO BISOGNO DI DATI PER MONITORARE LE PROPRIE PERFORMANCE, CAPIRE DOVE MIGLIORARE I SERVIZI, RISPARMIARE IN CLINICA OGGI VENGONO CREATI ALGORITMI CAPACI DI MONITORARE I PAZIENTI E RICONOSCERE I SEGNALI DI RISCHIO LE CASE FARMACEUTICHE HANNO INIZIATO A CONDIVIDERE DATI RELATIVI A FARMACI E RISPOSTE ALLE TERAPIE I PAZIENTI FANNO PREVENZIONE E SI MONITORANO DA SOLI TRAMITE LA TECNOLOGIA. IN QUESTO MODO PERO' FORNISCONO ANCHE DATI
  • 146. GUARDANDO I DATASET GENETICI DERIVATI DA CIRCA 2500 PAZIENTI AFFETTI DA DIABETE, SONO STATI INDIVIDUATI TRE SOTTOTIPI DI DIABETE TIPO 2, CON IMPLICAZIONI DIVERSE PER LA SALUTE, CHE PERO' NON ERANO MAI STATE INDIVIDUATE DAL PUNTO DI VISTA CLINICO.
  • 147.
  • 148. OASIS – IL SENSORE CHE MONITORA LA FISIOLOGIA DELLE PERSONE E DELL'AMBIENTE
  • 149. “My recommendation to the next generation of scientists to be competitive is to establish a broad interdisciplinary foundation of math and science as well as strong communication skills” Michael C. Schatz
  • 150. Bibliografia e sitografia Big data Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King Guide to open access – EU Commission – 2015 #Scidata15: Big data: Challenges create opportunities – blog Nature Malattie infettive: Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the HealthMap Project John S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl Big Data Opportunities for Global Infectious Disease Surveillance Simon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein The quantified self: Fundamental disruption in big data science and biological discovery - M Swan
  • 151. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene e xpression data Alla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian Athey, and Gilbert S. Omenn Metabolomics Workbench: An international repository for metabolomics data and metadata, meta bolite standards, protocols, tutorials and training, and analysis tools Manish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar Subramaniam SIGNOR: a database of causal relationships between biological entities Livia Perfetto et al. Wired Co.UK 23andMe sharing data with big pharma Biological data sciences in genome research- Michael C. Schatz An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project Consortium Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen, Big Data: Astronomical or Genomical? - Zachary D. Stephens et al Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao Big universe, big data, astronomical opportunities – The Guardian
  • 152. Clinical trials: clearer rules, better protection for patients Big Pharma Opens New Chapter On Big Data Collaboration– Forbes The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Da ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer Kald Abdallaha et al. Open source data a boon to malaria research- Emily Mullin SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al Data sharing: Fewer experiments, more knowledge– Nature Blog 4 big reasons why healthcare needs data science – 7Data Identification of type 2 diabetes subgroups through topological analysis of patient similarity Li Li1, Wei-Yi Cheng OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal