OpenAIRE2020: l'infrastruttura per l'aggregazione dei risultati accademici e ...
Big data e ricerca scientifica
1. Scienza e Big Data
Vantaggi, problemi e novità nati dall’utilizzo dei big data nella ricerca
scientifica
2. Big Data: cosa sono?
• Volume
• Velocità
• Varietà
• Valore
• Tecnologie e metodi appositi
3. Perché sono importanti?
• Mondo economico e aziendale: se debitamente analizzati, possono
aiutare a prevedere sviluppi futuri dell’ambiente e indirizzare verso le
soluzioni più vantaggiose per un’azienda
• Ambito governativo: lo stato può garantire migliori servizi ai cittadini,
un miglior sviluppo e funzionamento delle infrastrutture
• Progresso scientifico: possono aiutare l’analisi dei ricercatori fornendo
una più ampia gamma di informazioni ed evidenziando correlazioni
altrimenti non immediatamente evidenti.
4. Il quarto paradigma?
• Dopo le certe dimostrazioni e le sensate esperienze di Galileo
• Dopo l’era della simulazione dei computer
• Nel 2007 Jim Gray ipotizza i big data come quarto paradigma
epistemologico della scienza
• I big data vanno analizzati con un metodo abduttivo: differenza tra
dati, informazione e conoscenza
• Royal society: sono necessari sviluppo, apertura e libero accesso alle
tecnologie per la gestione dei big data
5. La quantità di dati che stiamo accumulando grazie ai progressi nella ricerca
scientifica e nelle tecnologie sta aumentando a velocità vertiginose:
• L’European Bioinformatics Institute (EBI) nel 2008
conteneva 1 exabyte, quadruplicato in due anni
• Nel 2012 un progetto islandese ha sequenziato il genoma completo di più
di 2600 persone. Cina e USA progettano di sequenziare il genoma di un
milione di persone.
• Un esperimento con LHC al CERN di Ginevra raccoglie dati
per 40 terabyte al secondo
• Il telescopio LSST raccoglierà fino a 30 terabyte di dati
ogni notte
Sempre più dati
6. Troppi?
I big data permettono di avere un quadro completo di un paziente e di
prescrivere cure mirate. Tuttavia, proprio la correlazione tra fattori
tanto diversi nell’insieme delle componenti di una persona può essere
fuorviante
Bisogna imparare a dare il giusto valore ai dati
7. Raccolta dei dati
• Non solo dagli esperimenti
• Dalle persone
• Fisica: dati più completi
• Scienze sociali: dati più ‘’sinceri’’
• Medicina: raccolta meno invasiva
8. Analisi dei dati
Processo di ispezione, pulizia, trasformazione e modellazione di dati con il fine di
evidenziare informazioni che suggeriscano conclusioni e supportino le decisioni
strategiche aziendali.
Diverse tecniche:
• Analisi dei dati esplorativa
• Analisi dei dati di conferma
• Analisi predittiva
• Data mining: insieme di tecniche e metodologie per l'estrazione da grandi
quantità di dati di informazioni utili, attraverso metodi automatici o semi-
automatici e loro utilizzo scientifico, aziendale/industriale o operativo. Permette
di evidenziare correlazioni non immediatamente visibili nell’insieme di dati.
9. • Dati vari: studiare dati longitudinali che forniscono informazioni sugli individui
durante l’arco della loro vita e non solo durante una malattia permette predizioni
sull’evoluzione degli stati di salute e quindi di mettere in atto misure di
prevenzione, anche tramite lo sviluppo di nuovi farmaci.
Nel 2017 Leroy Hood (Institute for Systems Biology di Seattle) ha monitorato 108
persone per 9 mesi, misurando valori diversi 3 volte al giorno. Sono state raccolte
molte informazioni sul sistema cardiovascolare, i rischi del diabete, la nutrizione, lo
stress, le misure genetiche e le misure che il paziente porta da sé con sensori e altri
dispositivi.
• Curare è più faticoso e costoso che prevenire.
• Predizioni: sarà possibile analizzare modelli di diffusione delle malattie e
monitorare i focolai per migliorare la sorveglianza della salute pubblica e
incrementare la velocità di risposta alle emergenze
John Snow: nel 1854 rintraccia l’origine dell’epidemia di colera a Soho
10. Il valore dei dati
• Accessibilità
• Usabilità
• Valore della produzione
• Valore della diffusione
• Valore economico: per giustificare il valore economico assegnato ad un progetto
bisogna produrre velocemente una grande mole di dati.
11. Conservazione
La conservazione dei dati diventa cruciale.
Servono risorse che
• Possano contenere grandi moli di dati
• Vengano costantemente aggiornate contro i rischi di obsolescenza
• Rendano i dati accessibili e utilizzabili ad altri scienziati come ai
‘’profani’’ (Open Data)
• Rendano i dati accessibili e utilizzabili in futuro
• Siano possibilmente gratuite
12. Big data per la ricerca, ricerca per i big data
Il DNA come banca dati
• Dal 2013, lo Swiss Federal Institute of Technology (Zurigo)
• Codifica quaternaria, facilmente convertibile in binaria e viceversa
• Studi per aumentare la longevità del DNA
I computer quantici come strumenti per elaborare i dati
• Sfruttando la sovrapposizione degli stati di una particella
13. Curation
Attività di gestione necessarie per mantenere i dati di ricerca a lungo termine in modo che siano
disponibili per il riutilizzo e la conservazione.
Nella scienza: processo di estrazione di informazioni importanti da testi scientifici (articoli di
ricerca) per essere convertiti in formato elettronico
Biocuration: attività per l’organizzazione, la rappresentazione e l’apertura delle informazioni
biologiche per la ricerca scientifica sia alle macchine che agli esseri umani
•Fondi, sviluppo, riconoscimento da parte di istituzioni e comunità scientifica
•Accessibilità: facilitare lo scambio di dati tra pubblicazioni su riviste e database
•Gestione e diffusione: i database online sono diventati importanti luoghi di diffusione e
conservazione
•Analisi e standardizzazione: estrarre, catalogare secondo dizionari standard e rappresentare i dati
pubblicati sono i compiti più importanti e costosi del curator
•Collaborazione: di ricercatori autori, riviste e curatori e pubblico. Inoltre, servono strutture
riconosciute per permettere lo sviluppo di un metodo sistematico ed efficace.
•Curator come professione: da pubblicizzare, servono nuovi studi e incentivi
14. BioDBcoret: is a community-defined,
uniform, generic description of the core
attributes of biological databases
15.
16. • Nuovi strumenti: database per la condivisione
• Nuovi ricercatori: biocurator, figure ibride, che necessitano di
preparazione specifica.
• Nuovi fenomeni: cyberbullismo
• Nuove discipline: antropologia digitale, studia come la digitalizzazione
influenzi l’essere umano.
• Nuovi metodi di ricerca: netnografia, metodo di ricerca online volto a
comprendere le interazioni sociali nel contesto della comunicazione
sociale. Tenendo come base l’osservazione partecipante, si serve di
tecniche legate alla raccolta, analisi, rappresentazione di dati.