Big data and science

DATA IS THE NEW SCIENCE
DATAISTHENEWSCIENCE
Giulia Annovi
Università degli Studi di Modena e Reggio Emilia – 3 Dicembre 2015

??
COSA SONOCOSA SONO
I BIG DATAI BIG DATA

UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E
ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZA
DANNO ORIGINE A STORIE

USA: 32
FRANCIA: 19
GERMANIA: 15
REGNO UNITO: 22
ITALIA: 11
CHI PARLA DI BIG DATA?

http://goo.gl/HrBywv
1997
I BIG DATA PRENDONO ORIGINE DALLE STELLE

Google
https://www.google.it/trends/explore#q=big%20data
MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI

BANCHE: 29%
INDUSTRIE: 21%
MEDIA: 14%
PA E SANITÀ: 9%
CHI PRODUCE BIG DATA IN ITALIA

ENTRO IL 2020
SI PREVEDE UN AUMENTO DEI BIG DATA
DEL 4300%

I PUNTI CRITICII PUNTI CRITICI

È UNA QUESTIONE DI
DIMENSIONI
MA NON SOLO

BIG DATA E SCIENZABIG DATA E SCIENZA

TWITTER
YOU TUBE
ASTRONOMIA
GENETICA

Astronomical data is and has always been “big data”

IL FUTURO SARÀ RACCOGLIERE 30
Tb OGNI NOTTE

20 PETABITE DI DATI20 PETABITE DI DATI
ALL'ANNOALL'ANNO

LA FISICA CI HA DATO UNA LENTE
BLU PER GUARDARE I DATI:
STATA, ALGORITMI E OPENESS

SE LA SCIENZASE LA SCIENZA
COMPRENDECOMPRENDE
IL POTERE DEI DATIIL POTERE DEI DATI

Elaborazione
Archiviazione
Classificazione
Condivisione
Analisi
Creazione tools
Disseminazione
EMBL-EBI

http://senseable.mit.edu/bbva/

È sostenibile e fattibile il coinvolgimento della popolazione?
Integrazione con informazioni spaziali e ambientali
Occorre trasformare le informazioni real time in previsione
Facilitàdi uso da parte degli utenti
[https://www.influenzanet.eu/]
Coinvolgimento di diverse figure professionali: data scientist,
comunicatori scientifici oltre a medici, agenzie
di sorveglianza, informatici,ricercatori

BIG DATA E BIOLOGIABIG DATA E BIOLOGIA

http://wellcomelibrary.org/collections/digital-collections/makers-of-modern-genetics/genetics-t
imeline/#27685

3Omics: http://3omics.cmdm.tw/
LA NECESSITÀ DI FARE SINTESI

Metscape: http://metscape.ncibi.org/
DI VISUALIZZARE
60 MILA

http://www.personalgenomes.org/harvard/data

http://www.ncbi.nlm.nih.gov/Traces/sra/

FARMACOLOGIA
OPEN
CONTRO IL CANCRO

https://clinicaltrials.gov
MONITORARE I TRIALS CLINICI


Require that all drug trials in Europe are registered before they begin
on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published
on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was
found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set
up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does
not adhere to these new laws.

LE MALATTIE INFETTIVE
7 su 355
➔
Sorveglianza
➔
Previsione andamento epidemia

http://www.healthmap.org/en
Aggregatori di news online (google news),
testimonianze, discussioni curate
da esperti (PROMED) e report ufficiali
(WHO)

http://www.gbif.org/
UN MIX DI DATI PER
L'ECOLOGIA
PROBLEMI SE:
●
i dati non correttamente georeferenziati;
●
insieme di dati solo relativi a un certo luogo;
●
classificazioni tassonomiche errate;
●
problemi di denominazione;
●
preconcetti in fase di campionamento

http://www.supersmart-project.org/
SUPERSMART
permette ai
ricercatori di
trovare dati
genetici pubblici,
dati ecologici e
geografici tutti in
un unico portale e
in più di caricare i
propri dai
personali.

VALIDARE
DISEGNARE NUOVI ESPERIMENTI
INTERPRETARE
AMPLIARE IL CAMPIONE
RIDURRE GLI ESPERIMENTI
CREARE MODELLI

●
INSERIRE IL CALCOLO TRA LE PROCEDURE STANDARD PER
L'ANALISI DEI DATI,
●
INSTALLARE E LANCIARE SOFTWARE,
●
NAVIGARE TRAMITE LINEA DI COMANDO,
●
COMPARARE VARI TOOL DI ANALISI,
●
SCRIVERE NOTE SENSATE RIGUARDO AI PROPRI CALCOLI,
MANEGGIARE GRANDI DATA SET

RAW DATA AND METADATA
STORE SEPARATELY

STABILISCI LO SCOPO DEL TUO PROGETTO
SERVE PER DIRIGERE I CALCOLI
NELLA GIUSTA TRAIETTORIA

Controllare
La SENSIBILITÀ DELL'ANALISI: quanto i dati sono differenti
cambiando software e variabili interne
Di aver REGISTRATO TUTTI i passaggi e le variazioni
Di aver INDIVIDUATO LA VARIABILE più importante del dataset
Individuare le variabili non importanti
Fare la PROVA DEL NOVE per i propri risultati
Procurarsi un campione di dati di CONTROLLO, di cui si conosce il
risultato atteso

RIPRODUCI
GitHub, GitLab,
BitBucket, or R
ArXiv or PeerJ

Beautiful
Technnical
Exciting
BUT WHAT DOES
IT MEAN?

LE APPLICAZIONILE APPLICAZIONI
LÀ FUORILÀ FUORI

GLI OSPEDALI HANNO BISOGNO DI DATI PER
MONITORARE LE PROPRIE PERFORMANCE,
CAPIRE DOVE MIGLIORARE I SERVIZI,
RISPARMIARE
IN CLINICA OGGI VENGONO CREATI ALGORITMI
CAPACI DI MONITORARE I PAZIENTI E
RICONOSCERE I SEGNALI DI RISCHIO
LE CASE FARMACEUTICHE HANNO INIZIATO A
CONDIVIDERE DATI RELATIVI A FARMACI E
RISPOSTE ALLE TERAPIE
I PAZIENTI FANNO PREVENZIONE E SI
MONITORANO DA SOLI TRAMITE LA TECNOLOGIA.
IN QUESTO MODO PERO' FORNISCONO ANCHE
DATI

http://doveticuri.mitecube.com/

http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapp

GUARDANDO I DATASET
GENETICI DERIVATI DA
CIRCA 2500 PAZIENTI
AFFETTI DA DIABETE, SONO
STATI INDIVIDUATI TRE
SOTTOTIPI DI DIABETE TIPO
2, CON IMPLICAZIONI
DIVERSE PER LA SALUTE,
CHE PERO' NON ERANO MAI
STATE INDIVIDUATE DAL
PUNTO DI VISTA CLINICO.

OASIS – IL SENSORE
CHE MONITORA LA
FISIOLOGIA
DELLE PERSONE E
DELL'AMBIENTE

“My recommendation to the next generation of scientists
to be competitive is to establish a broad
interdisciplinary foundation
of math and science as well as strong communication skills”
Michael C. Schatz

Bibliografia e sitografia
Big data
Il mercato italiano analytics vale 790 milioni di euro – Il sole 24 ore
THREE PARADOXES OF BIG DATA - Neil M. Richards Jonathan H. King
Guide to open access – EU Commission – 2015
#Scidata15: Big data: Challenges create opportunities – blog Nature
Malattie infettive:
Surveillance Sans Frontières: Internet-Based Emerging Infectious Disease Intelligence and the
HealthMap Project
John S Brownstein, Clark C Freifeld, Ben Y Reis, Kenneth D Mandl
Big Data Opportunities for Global Infectious Disease Surveillance
Simon I. Hay , Dylan B. George, Catherine L. Moyes, John S. Brownstein
The quantified self: Fundamental disruption in big data science and biological discovery
- M Swan

Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene e
xpression data
Alla Karnovsky, Terry Weymouth,Tim Hull,V. Glenn Tarcea, Giovanni Scardoni, Carlo
Laudanna, Maureen A. Sartor, Kathleen A. Stringer, H. V. Jagadish, Charles Burant, Brian
Athey, and Gilbert S. Omenn
Metabolomics Workbench: An international repository for metabolomics data and metadata, meta
bolite standards, protocols, tutorials and training, and analysis tools
Manish Sud1, Eoin Fahy, Dawn Cotter, Kenan Azam, Ilango Vadivelu, Charles Burant, Arthur
Edison, Oliver Fiehn, Richard Higashi, K. Sreekumaran Nair, Susan Sumner and Shankar
Subramaniam
SIGNOR: a database of causal relationships between biological entities
Livia Perfetto et al.
Wired Co.UK 23andMe sharing data with big pharma
Biological data sciences in genome research- Michael C. Schatz
An Integrated Encyclopedia of DNA Elements in the Human Genome - The ENCODE Project
Consortium
Big Biological Data: Challenges and Opportunities - Yixue Li, Luonan Chen,
Big Data: Astronomical or Genomical? - Zachary D. Stephens et al
Astronomy in the Big Data Era - Authors: Yanxia Zhang , Yongheng Zhao
Big universe, big data, astronomical opportunities – The Guardian

Clinical trials: clearer rules, better protection for patients
Big Pharma Opens New Chapter On Big Data Collaboration– Forbes
The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial D
ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer
Kald Abdallaha et al.
Open source data a boon to malaria research- Emily Mullin
SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al
Data sharing: Fewer experiments, more knowledge– Nature Blog
4 big reasons why healthcare needs data science – 7Data
Identification of type 2 diabetes subgroups through topological analysis of patient similarity
Li Li1, Wei-Yi Cheng
OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO
Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

??
COSA SONOCOSA SONO
I BIG DATAI BIG DATA
Cosa sono secondo voi i big data?
Se dovessimo definirli con un brain storming quali parole scegliereste?

UN INSIEME DI DATI PIÚ O MENO INTERCONNESSI E
ORGANIZZATI CHE, SE OPPORTUNAMENTE ANALIZZATI,
DANNO ORIGINE A STORIE
I big data sono un insieme complesso di numeri, algoritmi,
Rilevazioni che finiscono per raccontarci una storia.
Sono grafici che divetano parole

BIG DATA
Un'altra definizione romantica di big data li assimila
Al pane affettato. Come l'invenzione del pane affettato
Ha cambiato il modo di mangiare, ha permesso di sfamare
Più persone con una sola pagnotta, così anceh i big data
Si possono affettare e possono dare innumerevoli informazioni

I big data sono definiti tramite 3V: volume (hanno un
volume così grande che è stata una sfida anche per le
grandi compagnie tecnologiche maneggiarli), grande
varietà (non sono solo dati strutturati ma un ampio
range di dati digitali), e alta velocità (quella a cui i dati
sono generati e trasmessi).
Esistono però altre V per definirli: la vaghezza (quello
che rende i BD vaghi li rende anche esatti e certi: per
conoscere la conoscenza devi conoscere anche
l'inconoscibile. I BD raccolgono tutto); vendibili; vaticini;
voracità; veridicità (la qualità o la perdita della qualità
dei dati matters data la grande varietà con cui si
presentano)
Fare business oggi con i big data significa includere
errori e confusione. Ma la varietà, il volume e la
velocità tendono a superare la presenza si questi
errori. La casualità e l'universalità sono importanti,
mentre la confusione può essere tollerata.

USA: 32
FRANCIA: 19
GERMANIA: 15
REGNO UNITO: 22
ITALIA: 11
CHI PARLA DI BIG DATA?
Dove vanno di moda? Soprattutto in India è uno sei
termini più citati nelle ricerche di google. In Italia non
suscitano ancora grandissimo interesse rispetto ad
altri paesi europei. Gli stati uniti sono a quota 32 su
100. A questo si aggiungono aree del tutto escluse da
questo discorso (es regioni africane)

http://goo.gl/HrBywv
1997
I BIG DATA PRENDONO ORIGINE DALLE STELLE
Nel 1997 si è avuta la prima occasione per parlare
di big data: ma la storia poi continua da vent'anni.
Negli anni successivi venne creato il substrato su
cui i big data si sono sviluppati: ovvero le
infrastrutture capaci di supportarli
Nel 2009 avviene un'altra piccola rivoluzione con
l'introduzione dei linked data, cioè con il concetto
che i dati in rete devono essere tra loro
interconnessi per fornire maggiori informazioni
Un momento in cui si incomincia a riflettere
criticamente sui big data è il 2012, perché in
quell'anno esce Critical Question for Big Data.

Google
https://www.google.it/trends/explore#q=big%20data
MA SI PARLERÀ DI LORO MOLTO PIÚ TARDI
l termine Big Data, secondo google trends, è
incominciato ad apparire nel tardo 2010. Sebbene il
termine big data nei trends delle parole più
ricercate sia in declino perché è un concetto difficile
da definire, i dati raccolti sono sempre più

BANCHE: 29%
INDUSTRIE: 21%
MEDIA: 14%
PA E SANITÀ: 9%
CHI PRODUCE BIG DATA IN ITALIA
In Italia i big data sono soprattutto diffusi nelle
banche (29%), seguiti dalle industrie (21%), dai
media (14 %) e per IL 9% dalla PA e sanità. Di minor
importanza sono i big data che riguardano i servizi
(8%), la GDO (8%), le assicurazioni (5%)

ENTRO IL 2020
SI PREVEDE UN AUMENTO DEI BIG DATA
DEL 4300%
I big data saranno lo strumento del futuro per prendere
data driven decision making.
Per il futuro si prevede un aumento dei big data del
4300% andare al 2020
Ci serviranno per monitorare e quindi per conservare
risorse preziose (biodiversità); per tracciare malattie e
curare infezioni (es ebola, influenza); per vivere in
modo più sicuro. Quindi i big data non sono solo per
le aziende.

IDENTITY
PARADOX
Reclamano il fatto di voler identificare, ma di fatto
appiattiscono la società. Non considerano
l'individuo, ma piuttosto il comportamento di massa
[il paradosso dell'identità]

TRASPARENCY PARADOX
Chiedono a noi di fare tutto nella massima
trasparenza. Qualsiasi cosa facciamo è tracciabile,
qualsiasi acquisto, qualsiasi click, qualsiasi contatto.
Eppure i dati raccolti non sono per noi accessibili.
Questo anche per un motivo di privacy, ma governi
e istituzioni dovrebbero domandarsi come
rispondere a tale problema.

POWER PARADOX
Infine c'è il paradosso del potere: il fatto di avere
le informazioni accessibili ci sembra ci dia un
grosso potere. Pensiamo alla primavera araba:
tutto è stato organizzato tramite i social network,
ma il potere dei social network non è nelle nostre
mani, non è controllato da noi. Basta che ci levino
questo strumento che noi non ne siamo più in
possesso.

È UNA QUESTIONE DI
DIMENSIONI
MA NON SOLO
Un'altra criticità legata ai big data è la dimensione,
Lo spazio che occupano.
Si stima che ogni giorno vengano prodotti 2.5
quintilioni di bytes (cioè 2.5 seguito da 18 zero!).
Un altro problema potrebbe essere lagato al fatto
che i dati raccolti potrebbero andare perduti per
l'obsolescenza dei formati

TWITTER
YOU TUBE
ASTRONOMIA
GENETICA
Che differenza c'è tra i big data raccolti da twitter
youtube l'astronomia e la biologia? Twitter e
youtube sono attivi dal 2005-2006 rispettivamente e
sono utilizzati quotidianamente da milioni di utenti.
L'astronomia sono 20 anni che raccoglie big data.
Eppure la biologia in quanto a record resta la
prima.
Oggi per i dati genetici prodotti dai 20 maggiori
istituti si richiede l'uso di 100 petabites all'anno,
contro gli 0,5 di twitter e esattamente come
youtube.

PRENDIAMO LE MISURE
Confrontando gli ordini di grandezza ecco quanti dati vengono
Conservati.
Qui sotto invece vediamo la figura di quanti exabites saranno
Necessari andare al 2025.
Come vedete, se adesso youtube usa la stessa quantità di byte
Del genoma, fra 10 anni il volume dei dati sarà di gran lunga
Superiore.
Perché pensiamo una cosa del genere?

Qante paia di basi contiene il genoma umano? 3 miliardi di bp
Si pensa che possano essere sequenziate 35 petabasi
all'anno.In futuro si potrà arrivare a 2 petabasi
I problemi connessi all'uso dei big data in biologia riguardano
lo storage perché sono una grande quantità, la capacità di
processamento (ad esempio allineare le sequenze di due
genomi implica l'utilizzo di circa 100-CPU ore.
Nel 2014 abbiamo raggiunto i 250 mila genomi umani
sequenziati (secondo una stima del MIT) in tutto il mondo. Nel
2017 raggiungeremo 1,6 milioni di genomi
Bene, considerate che ogni 4 basi sequenziate occupiamo un
bite.

Astronomical data is and has always been “big data”
Ma prima di insistere sulla biologia, perché questa viene
Confrontata con l'astronomia?
Perché come dice il Guardian ha sempre prodotto big data.

IL FUTURO SARÀ RACCOGLIERE 30
Tb OGNI NOTTE
Ecco i dati prodotti dall'astronomia: Gli astronomi
che usano il telescopio Keplero prendono
informazioni riguardo a 200,000 stelle ogni 30
secondi, cosa che ha reso possibile la scoperta del
primo pianeta simile alla terra fuori dal sistema
solare.
Lo SDSS è uno dei database aperti accessibili con
la maggior quantità di dati, ma non è nulla al
confronto con quello che verrà lanciato nei
prossimi anni, l'LSST che avrà la possibilità di
raccogliere 30 Tb ogni notte.

20 PETABITE DI DATI20 PETABITE DI DATI
ALL'ANNOALL'ANNO
Un altro ambito che è stato fondamentale per lo
sviluppo dei
Big data è stata sicuramente la fisica.
al CERN vengon prodotti 20 petabite di dati ogni
anno. Hanno creato un'ifrastruttura: la
worldwide LHC computing grid che è stata in
grado di raccogliere elaborare e analizzare tutti i
dati prodotti.
I dati sono stati messi nel cloud tramite
openstack e sono accessibili

LA FISICA CI HA DATO UNA LENTE
BLU PER GUARDARE I DATI:
STATA, ALGORITMI E OPENESS
I dati grezzi per evento generato al CERN sono circa 1
milione di bite. Per secondo si producono circa 600
milioni di eventi. Il Worldwide LHC Computing Grid
maneggia questa montagna di dati in due stadi.
Primo fa partire un algoritmo che seleziona gli eventi
più significativi. Lo stesso principio dovrebbe essere
abbracciato anche da altre scienze. Poi gli stessi dati
sono analizzati statisticamente una volta ripuliti e
questo può portare a risultati migliori.
Pulire i dati significa rimuovere i duplicati, le voci
parziali, i valori nulli, concatenare i dati, o separarli in
più righe o più colonne, aggregare i risultati.
Il CERN è anche caratterizzato dalla cultura
dell'openess: c'è un servizio di cloud in cui i dati
possono esser condivisi con una Bring Your Own
Device (BYOD) policy per assicurare che la proprietà
intellettuale venga rispettata
Se guardiamo il mondo attraverso un vetro blu, lo
vediamo blu. Ecco perché è importante scegliere il
corretto metodo statistico. La pioniera in questo è stata
la fisica

Equesto è un altro problema della scienza in genere: una volta
Che gli scienziati hanno i dati devono decidere cosa farne:
Condividerli oppure mantenerli segreti fino alla pubblicazione.
La condivisione poi implica la definizione di standard affinché
I dati siano confrontabili e soprattutto occorre stabilire una policy
Per garantire la prprietà intellettuale

Elaborazione
Archiviazione
Classificazione
Condivisione
Analisi
Creazione tools
Disseminazione
EMBL-EBI
Questa è una figura tratta dal sito dell'EMBL che
Dimostra come i dati vengano processati una volta che sono
Affidati a questo grande ente di bioinformatica.
Gli istituti come l'EBI lavoreranno sempre di più in futuro per
assicurare anche la privacy sui dati. Ad esempio potrebbero
creare team interni capaci di rielaborare i dati crudi solo a fini di
presentazione degli stessi

BIG DATA WORKER
Come si può vedere dunque big data implica anche nuove
Figure professionali le cui caratteristiche sono molto varie.
È stato stimato che in futuro ci sarà bisogno dalle 150 mila alle 190
mila unità.

PIÚ DATI PIÚ INFO
Altro fattore che genarano questi dati è l'enorma
aumento del traffico su web

http://senseable.mit.edu/bbva/
Questo è un esempio di come mettendo in relazione i dati
e visualizzandoli correttamente si possano trarre molte
informazioni.
Ad esempio dai dati raccolti in real time durante la pasqua
2011 in Spagna è uscito questo video. Pensate se si
potesse fare qualcosa del genere monitorando gli
scompensi che avvengono nei 15 giorni che prevengono
l'infarto. Che cosa accadrebbe se si misurasse la qualità
del sonno come dato predittivo per l'insorgenza del
diabete?

RIDUCI
RICICLA
RIUSA
Eppure anche per i dati scientifici vale la regola delle
3R: riduci ricicla riusa. Condividere i dati non vuol dire
solo salvare dei soldi ma anche l'ambiente perché
riduce la quantità di esperimenti necessari. Questo
accelererà anche l'aumento della conoscenza
generata, diminuendo il tempo sprecato a costruire
dataset equivalenti

È sostenibile e fattibile il coinvolgimento della popolazione?
Integrazione con informazioni spaziali e ambientali
Occorre trasformare le informazioni real time in previsione
Facilitàdi uso da parte degli utenti
[https://www.influenzanet.eu/]
Coinvolgimento di diverse figure professionali: data scientist,
comunicatori scientifici oltre a medici, agenzie
di sorveglianza, informatici,ricercatori
La scienza poi rispetto agli altri campi deve chiedersi queste coser

Nel caso della biologia ci sono diversi modi di
approcciarsi ai dati
C'è l'analisi tradizionale dei prorpri campioni, del
paziente. La scienza è Hypothesis driven, m potrebbe
diventare data driven.
Tuttavia la tecnica ci ha messo a disposizione la
possibilità di produrre una grande quantità di dati
Ci sono le analisi che riguardano le componenti
cellulari, le omics.
Queste però hanno lo svantaggio dei costi della ricerca
(es il sequenziamento) e il costo di immagazzinamento
dei dati. In più richiedono un certo numero di campioni.
Ci sono -omics accessibili già al pubblico: i progetti più
noti sono 23and Me per scoprire il proprio assetto
cromosomico; ubiome per avere l'analisi del proprio
microbioma; talking20 per avere l'analisi del sangue fai
da te.
Infine c'è la medicina ove i dati li raccoglie direttamente
il paziente.

EMBL-EBI
Queste sono le banche dati tradizionali che sono
state create dallo sviluppo delle omics.
il fatto più rilevante accaduto nell'ambito della
genetica negli ultimi 20 anni è stato il
sequenziamento dell'interno genoma. Nei prossimi
vent'anni ci aspettiamo di sequenziare un miliardo
di genomi.
La velocità con cui acquisiamo queste informazioni
è legata al fatto che le macchine e le tecniche si
sono enormemente sviluppate: DNA sequencing
instruments, super-resolution digital microscopy,
mass spectrometry, magnetic resonance imagery,
or even satellite imagery used for studying
biological systems with greater throughput and
resolution than ever before. Tuttavia manca la
capacità di queste macchine di interpretare i dati.

I dati biologici hanno qualcosa in più rispetto agli
altri big data: sono gerarchici perché generati a
diversi livelli (molecolare, cellulare, fisiologico) sono
eterogenei perché sono generati con metodi
differenti (genetica, fisiologia, patologia, imaging)
sono complessi (i dati possono essere registrati
simultaneamente da informazioni multi-livello e da
migliaia di cellule e sono dinamici, cioè associati a
processi che cambiano nel tempo. Occorre dunque
individuare le forze che governano e le relazioni
causali tra gli elementi biologici per fare un uso
completo dei big data e per decifrare i meccanismi
che governano processi o malattie come il cancro, il
diabete o l'Alzheimer.

Oggi non ci limitiamo al sequenziamento del
genoma: una tecnica applicabile anche con una
spesa relativamente ridotta rispetto all'inizio. Il vero
problema è come rilevare i meccanismi esserenziali
dei sistemi biologici, andando a rimuovere il rumore
di fondo dei dati.
Si creano database sempre più comprensivi, che
raccolgono informazioni tratte da diverse tecniche
sperimentali, come mass spectrometry (MS) e
nuclear magnetic resonance spectrometry (NMR),
con dati che raccolgono 20 differenti specie, che
coprono le maggiori categorie tassonomiche.
.

3Omics: http://3omics.cmdm.tw/
LA NECESSITÀ DI FARE SINTESI
Oggi si sta andando nella direzione della sintesi, verso
piattaforme che integrano dati tra loro in relazione,
anche perché spesso può essere complicato fare una
relazione tra un sistema di classificazione e l'altro.
Ci sono quindi database che mettono insieme
informazioni provenienti dalla letteratura, dalla
genomica, dalla proteomica e le visualizzano nei loro
rapporti e relazioni.

Metscape: http://metscape.ncibi.org/
DI VISUALIZZARE
60 MILA
Spesso all'interno dei database sono compresi
anche tools statistici che consentono
l'elaborazione dei dati o di visualizzazione delle
relazioni.

La vera sfida dei big data è il passaggio dagli studi associativi agli studi
causativi. E in questo è importante la biologia computazionale, quella
che crea modelli. Lo studio delle interazioni piuttosto che dei singoli
elementi cattura le componenti inosservate del network e le dinamiche.
Quindi sia per gli aspetti teorici che clinici, i big data in biologia si
stanno eveolvendo dalle singole molecole verso le molecole multiple, a
quelle associate a quelle interattive. E lospostamento dell'interesse è
anche dovuto all'avvento dei big data.
Ci sono poi sistemi che tentano di fare sintesi tra diversi database,
come ad esempio SIGNOR ( SIGnaling Network Open Resource) che
si occupa di interazioni tra molecole o meglio di attivazioni di segnale
che fanno accadere o che impediscano che accada cose nelle cellule.
Anche nella rappresentazione di questi segnali ci sono due modelli: i
modelli logici vs i modella basati sulle reazioni. I pathway sono
rappresentati come una catena di reazioni chimiche dove ogni variante
di un certo componente è assegnata a un nodo. Intervengono poi
elementi regolatori per favorire il passaggio da un nodo all'altro. Di fatto
questi modelli rappresentano l'equazione differenziale di una reazione
chimica.
Nei modelli logici le molecole sono connesse tutte con nodi, che
rappresentano anche le interazioni regolatorie. Lo stato di ogni nodo
dipende da quello che gli sta a monte. SIGNOR segue 12 000
relazioni causali tra i componenti cellulari.

Quantified self data Servono a tracciare le
caratteristiche di un individuo in generale o per
monitorare e magari curare una patologia o per
aumentare performace fisiche (pensiamo alle app che
tracciano i nostri percorsi a piedi o in bici) o mentali.
Il 66% degli americani usa sistemi tipo questi per
monitorare la propria dieta, il proprio peso o parametri
legati alla salute.
Questi fanno parte dei small data che comunque sono
troppo larghi e difficili da maneggiare per il singolo
utente, che ha bisogno di tools (spesso online) capaci
di misurare correttamente e visualizzare. Inoltre sono
parametri interessanti anche perché raccolti
direttamente dall'utente.
In questo tipo di rilevazione gli individui realizzano
studi, applicando i risultati per migliorare la propria
vita.
Ci sono -omics accessibili già al pubblico: i progetti più
noti sono 23and Me per scoprire il proprio assetto
cromosomico; ubiome per avere l'analisi del proprio
microbioma; talking20 per avere l'analisi del sangue
fai da te.

2
5 8
33
I vantaggi della QS science: permette una raccolta random di
dati, permette una raccolta di un gran numero di dati, questo
tipo di ricerca può fornire nuove idee alla ricerca tradizionale;
serve a stratificare la popolazione in diverse categorie;
unisce insieme diverse categorie di scienze come la biologia,
la statistica, i big data, la capacità di calcolo, la sociologia.
Potrebbe diventare sempre più importante per profilare
l'eterogeneità dei tumori prime e durante la chemoterapia.

http://www.personalgenomes.org/harvard/data
Anche per la raccolta di questi dati ci sono problemi di
accessibilità e usabilità: ad esempio sono accessibili solo i
dati di personal genome, un progetto di Harvard e
dell'American Gut project, mentre altri dati sono accessibili
solo sotto supervisione dei ricercatori come in MyZeo:
questo perché a volte sono i ricercatori ad essere restii nel
condividere i propri dati, in altri casi perché occorre
rispettare la privacy del paziente. Altri problemi riguardano
poi le caratteristiche del dato: ogni dato raccolto dovrebbe
essere sempre accompagnato da un file che potremmo
chiamare di metadati che ci dice come i dati sono stati
raccolti, in quali condizioni e quali sono le caratteristiche
del paziente.
Resta poi da aggiungere che servirebbe un gruppo di
confronto, il così detto campione sano chedeve essere
scelto opportunamente come in ogni fase sperimentale.
Anche dalla parte dell'utente ad esempio ci deve essere
automazione, facilità, ricompensa per poter partecipare.

http://www.ncbi.nlm.nih.gov/Traces/sra/
Qui si vede l'effetto nel caso dei dati gentici: in molti studi sono
derivati da un'attività social

FARMACOLOGIA
OPEN
CONTRO IL CANCRO
C'è anche un aspetto applicativo dei big data, come
ad esempio la scoperta di nuovi farmaci. Anche
l'apertura delle banche dati delle case
farmaceutiche è un fatto sorico spesso voluto
addirittura dai governi per accellerare le scoperte in
tale ambito.
Ne sono un esempio le azioni intraprese per la
terapia del cancro: ci sono due approcci principali:
quello di he patients like me che si è associato a
una casa farmaceutica per poter raccogliere
informazioni direttamente dai pazienti. In con questo
metodo sono già 2000 le malattie monitorate tramite
le informazioni rilasciate dai pazienti. Nel caso di the
project data sphere sono invece stati uniti i
database di diverse case farmaceutiche: ci sono per
ora più di 900 utenti autorizzati che hanno accesso
a 49 dataset che rappresentano 27000 pazienti che
vivono in una vasta area e con differenti tipi di
tumori.
Un caso analogo si è avuto con l'apertura dei dati
relativi alla malaria: iniziato da una casa
farm,aceutica poi si sono formati proprio banche
dati dedicate come a esempio malaria box

https://clinicaltrials.gov
MONITORARE I TRIALS CLINICI
Oltre a queste cose c'è anche un sito internet che segue
invece i trials di farmaci che si stanno verificando in questo
momento. ClinicalTrials.gov è una risorsa del web che fornisca
ai pazienti e ai loro familiari, ai medici, ai ricercatori e al
pubblico un accesso facile alle informazioni sugli studi clinici
pubblici e privati, di una vasta gamma di patologie e
condizioni. Il sito web è curato da National Library of Medicine
(NLM) e dal National Institutes of Health (NIH).
ClinicalTrials.gov contiene anche voci che descrivono studi
osservazionali e forniscono anche informazioni su farmaci al di
fuori dei trial clinici.


Require that all drug trials in Europe are registered before they begin
on the publicly accessible EU clinical trials register.

Require that a summary of the results from these trials is published
on the register within a year of the trial’s end.

Require that a summary understandable to a lay person of what was
found in the trial is published on the register.

Establish a new publicly accessible EU clinical trials register, to be set
up and run by the European Medicines Agency.

Impose financial penalties on anyone running a clinical trial who does
not adhere to these new laws.
Questa cosa è di interesse perché è questo che
l'Europa ha richiesto in merito agli studi clinici e solo
portai come questo possono fare il tentativo di
rispondere a questi bisogni

LE MALATTIE INFETTIVE
7 su 355
➔
Sorveglianza
➔
Previsione andamento epidemia
I dati scientifici possono essere mescolati anche con altre
informazioni.
Facciamo un esempio della malattiei infettive.
nel 2013 si diceva che solo 7 malattie su 355 infettive sono
state mappate. Se si acquisissero conoscenze geografiche
più precise nella distribuzione delle malattie si otterrebbe
maggiore sorveglianza e una più precisa capacità
previsionale

Letteratura
Web
GenBank
Nel caso delle mappe fatte in precedenza come nel caso della
dengue, prima si rilevavano le informazioni a partire dalla
letteratura dal web report o da genbank. Poi queste si
localizzano. Per inferenza si deducono le aree non infette.
Infine si sovrappongono dati spaziali (ad esempio le
temperature o le piogge) in questo modo è possibile prevedere
qual è la localizzazione più probabile di un virus. Ma questo,
come si capisce, rende le cose poco aggiornate.

http://www.healthmap.org/en
/
Aggregatori di news online (google news),
testimonianze, discussioni curate
da esperti (PROMED) e report ufficiali
(WHO)
La mappa di HealthMap è attiva dal 2006. Il sistema è
studiato per l'estrazione, la categorizzazione, la filtrazione,
e l'integrazione dei report, facilitando l'amministrazione
delle informazioni e la rapidità nella rilevazione. Occorre
che i dati identifichino correttamente a) la malattia e la sua
localizzaione (b) la rilevanza della cosa segnalata, cioè se
corrisponde davvero a un'epidemia (c) occorre
raggruppare segnalazioni simili rimuovendo i duplicati. Una
volta che il rapporto è stato creato automaticamente poi
intervengono curatori che ne controllano la significatività.

http://www.gbif.org/
UN MIX DI DATI PER
L'ECOLOGIA
PROBLEMI SE:
●
i dati non correttamente georeferenziati;
●
insieme di dati solo relativi a un certo luogo;
●
classificazioni tassonomiche errate;
●
problemi di denominazione;
●
preconcetti in fase di campionamento
Gli stessi dati possono essere facilmente integrati negli studi
ecologici o per preservare la biodiversità. Attraverso la
rilevazione di dati come il tempo e lo spazio è possibile
seguire i processi ecologici e quindi stimare i limiti dei territori,
le relazioni tra le specie la divergenza nel tempo
SUPERSMART permette ai ricercatori di trovare dati genetici
pubblici, dati ecologici e geografici tutti in un unico portale e in
più di caricare i propri dai personali.
Global Biodiversity Information Facility (GBIF;
http://www.gbif.org),è il principale portale per la raccolta dati
da diverse località. Aggrega dati relativi alla storia naturale, e
di specie osservate. E orma conta l' 85% (c. 381 milioni) di dati
georeferenziati.
Ci possono essere cinque problemi che possono impedire la
diffusione di un così vasto ammontare di dati: i dati non
correttamente georeferenziati; insieme di dati solo relativi a un
certo luogo; classificazioni tassonomiche errate; problemi di
denominazione e preconcetti in fase di campionamento

http://www.supersmart-project.org/
SUPERSMART
permette ai
ricercatori di
trovare dati
genetici pubblici,
dati ecologici e
geografici tutti in
un unico portale e
in più di caricare i
propri dai
personali.
SUPERSMART permette ai ricercatori di trovare dati genetici pubblici, dati ecologici e geografici
tutti in un unico portale e in più di caricare i propri dai personali.

http://www.csmon-life.eu/
CSMON-LIFE (Citizen Science MONitoring) è il primo progetto
italiano di citizen science sulla biodiversità, finanziato in Italia
dalla Commissione Europea nell’ambito del programma LIFE+.
L’iniziativa prevede la partecipazione del grande pubblico e si
propone di coinvolgere i cittadini nello studio, nella gestione e
nella conservazione della biodiversità, creando un’attiva
collaborazione tra i cittadini, la comunità scientifica e le
istituzioni.
Alla base del progetto ci sono 4 concetti fondamentali, che
costituiscono i pilastri della citizen science:
coinvolgimento (dei cittadini)
comprensione (delle problematiche legate alla conservazione
della natura)
collaborazione (nello sviluppo di soluzioni efficaci, in quanto
condivise)
cambiamento (dei nostri comportamenti nei confronti
dell’ambiente)

https://www.zooniverse.org/
Zooniverse si espande anche in altri campi
Occorre però sempre Bisogna però tener conto
dell'effettiva capacità di coinvolgere le persone in questo
processo che può essere di raccolta attiva
(crowdsourcing) o passiva. Occorre poi considerare
l'affidabilità di questi dati.
Nel caso delle mappe generate in modo passivo o attivo
(crowdsourcing) è necessario che il dato sia affidabile e
quindi che gli venga dato un peso in base all'affidabilità o
a altri parametri statistici
Poi bisogna che venga coinvolta in modo opportuno la
popolazione e che vengano coinvolte diverse figure
professionali.

VALIDARE
DISEGNARE NUOVI ESPERIMENTI
INTERPRETARE
AMPLIARE IL CAMPIONE
RIDURRE GLI ESPERIMENTI
CREARE MODELLI
I big data in ambito scientifico servono per
l'interpretazione dei risultati, per disegnare nuovi
esperimenti, per capire in quale direzione deve andare
la ricerca. I big data potrebbero servire per validare
dati ottenuti in laboratorio, per ampliare il proprio
campione. Inoltre servono perché la condivisione dei
dati potrebbe ridurre il numero di esperimenti e
aumentare la velocità nel processo dicreazione della
conoscenza.
Il fatto di avere dai aperti e disponibili e in grandi
quantità può aiutare la biologia di sistema, che
teorizza i processi cellulari, tramite modelli matematici
in modo da rappresentare quello che avviene in
natura con algoritmi. Perché usare questi sitemi?
Perché spesso non è possibile seguire questo tipo di
reazioni in vivo o in vitro.

MA per fare questo cosa occorre? Di fatto che vengano
assicurati tutti questi passaggi.

http://www.theguardian.com/news/datablog/interactive/2014/feb/14/cancer-mortality-worldwide-mapped

Clinical trials: clearer rules, better protection for patients
Big Pharma Opens New Chapter On Big Data Collaboration– Forbes
The Prostate Cancer DREAM Challenge: A Community-Wide Effort to Use Open Clinical Trial Da
ta for the Quantitative Prediction of Outcomes in Metastatic Prostate Cancer
Kald Abdallaha et al.
Open source data a boon to malaria research- Emily Mullin
SUPERSMART: Ecology and Evolution in the Era of Big Data Antonelli A. et al
Data sharing: Fewer experiments, more knowledge– Nature Blog
4 big reasons why healthcare needs data science – 7Data
Identification of type 2 diabetes subgroups through topological analysis of patient similarity
Li Li1, Wei-Yi Cheng
OASIS- A networked device to monitor your health, and the earth's too. - INDIEGOGO
Computing Workflows for Biologists: A Roadmap - Ashley Shade, Tracy K. Teal

Big data and science

Recommended

Recommended

More Related Content

Similar to Big data and science

Similar to Big data and science (20)

More from Giulia Annovi

More from Giulia Annovi (14)

Big data and science