Presentazione di "Summary of NebulOS: A Big Data framework for astrophysics"
1. Summary of “NebulOS: A Big
Data framework for
Astrophysics”
Marzia Paschini
Bibliografia: Stickley Nathaniel R., Aragon-Calvo Miguel A.,
“NebulOS: A Big Data framework for Astrophysics”,
Department of Physics and Astronomy,
University of California, USA, 2016
2. Introduzione
Big Data
Crescita esponenziale dei
dati da analizzare:
ordine del petabyte
(1015 bytes)
Framework
data-aware
Strumento informatico
adeguato a elaborarli
NebulOS
Piattaforma per i dati da
analizzare in astrofisica
3. Descrizione di NebulOS
Framework applicativo
data-aware
Kernel distribuito
File system
distribuito
Esecuzione di ciascun nodo operativo con
accesso locale alla parte di banca dati strettamente necessaria
Banca dati (immagini e dati numerici ottenuti da rilevazioni e simulazioni)
architettura logica di
supporto per lo sviluppo di
programmi
software che gestisce le
risorse di calcolo del nodo
su cui è eseguito
parte del Sistema Operativo
per la memorizzazione dei
file e delle risorse
4. Architettura di NebulOS
Gestore delle risorse di calcolo:
CPU, memoria (RAM e
virtuale), spazio su disco
Apache Mesos
File system: fornisce l’accesso ad
alta velocità ai dati ed è adatto a
data set di grandi dimensioni
Hadoop Distributed File System (HDFS)
processo
gestore
processo
secondario
esecutoreschedulatore
processo
NameNode
processo
DataNode
cronologico DFS-aware dati
5. Architettura di
NebulOS:
Apache Mesos
e HDFS
Panoramica:
● processi gestori eseguiti su
nodi gestori
● processi secondari eseguiti
su nodi operativi
● HDFS montato su ogni nodo
6. Implementazioni: due casi
Processo batch delle immagini
● schedulatore DFS-aware
● filename e directory in input
● elaborazione delle immagini
● salvataggio dei risultati
nella directory specificata
MapReduce
● due schedulatori interagenti
● analisi di file in input di map
● elaborazione di reduce
● ottenimento di un file
riassuntivo
8. Risultati: prestazioni
● Raggruppamento dei nodi in
cluster di diverse dimensioni
● Effetto dell’overhead
● Numero di processi da eseguire
● La velocità di lettura dei dati è proporzionale
al numero di nodi operativi in un cluster
soltanto nei casi in cui cluster grandi leggano
molti file (linee nera, rossa, verde), poi non
c’è più linearità (linee blu, azzurra, viola)
9. Risultati: tolleranza ai guasti
Guasti su un nodo Soluzioni
● sistema di replicazione
● notifica al NameNode
● notifica allo schedulatore
HDFS
Mesos
● “heartbeats” assenti
● checksum variato
● irraggiungibilità
10. Conclusione
NebulOS:
➢ facile utilizzo: libreria C++ e modulo Python
➢ utilizzo di software per analisi dati preesistenti nella banca dati,
senza bisogno di modifiche
➢ elaborazione di immagini immagazzinate utilizzando i principali
formato dati usati nell’astrofisica
➢ basso traffico di rete
➢ alta velocità di lettura dati