SlideShare a Scribd company logo
1 of 10
Summary of “NebulOS: A Big
Data framework for
Astrophysics”
Marzia Paschini
Bibliografia: Stickley Nathaniel R., Aragon-Calvo Miguel A.,
“NebulOS: A Big Data framework for Astrophysics”,
Department of Physics and Astronomy,
University of California, USA, 2016
Introduzione
Big Data
Crescita esponenziale dei
dati da analizzare:
ordine del petabyte
(1015 bytes)
Framework
data-aware
Strumento informatico
adeguato a elaborarli
NebulOS
Piattaforma per i dati da
analizzare in astrofisica
Descrizione di NebulOS
Framework applicativo
data-aware
Kernel distribuito
File system
distribuito
Esecuzione di ciascun nodo operativo con
accesso locale alla parte di banca dati strettamente necessaria
Banca dati (immagini e dati numerici ottenuti da rilevazioni e simulazioni)
architettura logica di
supporto per lo sviluppo di
programmi
software che gestisce le
risorse di calcolo del nodo
su cui è eseguito
parte del Sistema Operativo
per la memorizzazione dei
file e delle risorse
Architettura di NebulOS
Gestore delle risorse di calcolo:
CPU, memoria (RAM e
virtuale), spazio su disco
Apache Mesos
File system: fornisce l’accesso ad
alta velocità ai dati ed è adatto a
data set di grandi dimensioni
Hadoop Distributed File System (HDFS)
processo
gestore
processo
secondario
esecutoreschedulatore
processo
NameNode
processo
DataNode
cronologico DFS-aware dati
Architettura di
NebulOS:
Apache Mesos
e HDFS
Panoramica:
● processi gestori eseguiti su
nodi gestori
● processi secondari eseguiti
su nodi operativi
● HDFS montato su ogni nodo
Implementazioni: due casi
Processo batch delle immagini
● schedulatore DFS-aware
● filename e directory in input
● elaborazione delle immagini
● salvataggio dei risultati
nella directory specificata
MapReduce
● due schedulatori interagenti
● analisi di file in input di map
● elaborazione di reduce
● ottenimento di un file
riassuntivo
Risultati: prestazioni
Elementi
● tipo di schedulatori: i
DFS-aware sono più
efficienti
● file multi-blocco: la
lettura dei dati è più
lenta
Risultati: prestazioni
● Raggruppamento dei nodi in
cluster di diverse dimensioni
● Effetto dell’overhead
● Numero di processi da eseguire
● La velocità di lettura dei dati è proporzionale
al numero di nodi operativi in un cluster
soltanto nei casi in cui cluster grandi leggano
molti file (linee nera, rossa, verde), poi non
c’è più linearità (linee blu, azzurra, viola)
Risultati: tolleranza ai guasti
Guasti su un nodo Soluzioni
● sistema di replicazione
● notifica al NameNode
● notifica allo schedulatore
HDFS
Mesos
● “heartbeats” assenti
● checksum variato
● irraggiungibilità
Conclusione
NebulOS:
➢ facile utilizzo: libreria C++ e modulo Python
➢ utilizzo di software per analisi dati preesistenti nella banca dati,
senza bisogno di modifiche
➢ elaborazione di immagini immagazzinate utilizzando i principali
formato dati usati nell’astrofisica
➢ basso traffico di rete
➢ alta velocità di lettura dati

More Related Content

Similar to Presentazione di "Summary of NebulOS: A Big Data framework for astrophysics"

Presentazione Emc Data Domain Remota
Presentazione Emc Data Domain RemotaPresentazione Emc Data Domain Remota
Presentazione Emc Data Domain Remotamodestini
 
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...DavideFegez
 
MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009Massimiliano Dessì
 
Evoluzioni architetturali a partire da Hadoop
Evoluzioni architetturali a partire da HadoopEvoluzioni architetturali a partire da Hadoop
Evoluzioni architetturali a partire da HadoopData Driven Innovation
 
Oltre il modello relazionale
Oltre il modello relazionaleOltre il modello relazionale
Oltre il modello relazionalefcami87
 
Data profiling
Data profilingData profiling
Data profilingdodo_91
 
Hadoop [software architecture recovery]
Hadoop [software architecture recovery]Hadoop [software architecture recovery]
Hadoop [software architecture recovery]gioacchinolonardo
 
Cloud storage in azienda: perche` Riak ci e` piaciuto
Cloud storage in azienda: perche` Riak ci e` piaciutoCloud storage in azienda: perche` Riak ci e` piaciuto
Cloud storage in azienda: perche` Riak ci e` piaciutoBioDec
 
SQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkSQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkAlessio Biasiutti
 
Cassandra DB - Linux Day 2019 - Catania - Italy
Cassandra DB - Linux Day 2019 - Catania - ItalyCassandra DB - Linux Day 2019 - Catania - Italy
Cassandra DB - Linux Day 2019 - Catania - ItalyFabrizio Spataro
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataVincenzo Fogliaro
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech LabUgo Landini
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1MongoDB
 
Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Codemotion
 
Quanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseQuanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseMarco Pozzan
 

Similar to Presentazione di "Summary of NebulOS: A Big Data framework for astrophysics" (20)

Presentazione Emc Data Domain Remota
Presentazione Emc Data Domain RemotaPresentazione Emc Data Domain Remota
Presentazione Emc Data Domain Remota
 
Presentazione bd2
Presentazione bd2Presentazione bd2
Presentazione bd2
 
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
Utilizzo di tecnologie big data per addestramento di metamodelli matematici p...
 
MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009
 
Evoluzioni architetturali a partire da Hadoop
Evoluzioni architetturali a partire da HadoopEvoluzioni architetturali a partire da Hadoop
Evoluzioni architetturali a partire da Hadoop
 
Oltre il modello relazionale
Oltre il modello relazionaleOltre il modello relazionale
Oltre il modello relazionale
 
Data profiling
Data profilingData profiling
Data profiling
 
Hadoop in action!
Hadoop in action!Hadoop in action!
Hadoop in action!
 
Hadoop SAR
Hadoop SARHadoop SAR
Hadoop SAR
 
Hadoop [software architecture recovery]
Hadoop [software architecture recovery]Hadoop [software architecture recovery]
Hadoop [software architecture recovery]
 
Cloud storage in azienda: perche` Riak ci e` piaciuto
Cloud storage in azienda: perche` Riak ci e` piaciutoCloud storage in azienda: perche` Riak ci e` piaciuto
Cloud storage in azienda: perche` Riak ci e` piaciuto
 
Data grid
Data gridData grid
Data grid
 
SQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkSQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with Spark
 
Cassandra DB - Linux Day 2019 - Catania - Italy
Cassandra DB - Linux Day 2019 - Catania - ItalyCassandra DB - Linux Day 2019 - Catania - Italy
Cassandra DB - Linux Day 2019 - Catania - Italy
 
Oracle 1
Oracle 1Oracle 1
Oracle 1
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdata
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech Lab
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 1
 
Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015
 
Quanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless SynapseQuanto mi costa SQL Pool Serverless Synapse
Quanto mi costa SQL Pool Serverless Synapse
 

Presentazione di "Summary of NebulOS: A Big Data framework for astrophysics"

  • 1. Summary of “NebulOS: A Big Data framework for Astrophysics” Marzia Paschini Bibliografia: Stickley Nathaniel R., Aragon-Calvo Miguel A., “NebulOS: A Big Data framework for Astrophysics”, Department of Physics and Astronomy, University of California, USA, 2016
  • 2. Introduzione Big Data Crescita esponenziale dei dati da analizzare: ordine del petabyte (1015 bytes) Framework data-aware Strumento informatico adeguato a elaborarli NebulOS Piattaforma per i dati da analizzare in astrofisica
  • 3. Descrizione di NebulOS Framework applicativo data-aware Kernel distribuito File system distribuito Esecuzione di ciascun nodo operativo con accesso locale alla parte di banca dati strettamente necessaria Banca dati (immagini e dati numerici ottenuti da rilevazioni e simulazioni) architettura logica di supporto per lo sviluppo di programmi software che gestisce le risorse di calcolo del nodo su cui è eseguito parte del Sistema Operativo per la memorizzazione dei file e delle risorse
  • 4. Architettura di NebulOS Gestore delle risorse di calcolo: CPU, memoria (RAM e virtuale), spazio su disco Apache Mesos File system: fornisce l’accesso ad alta velocità ai dati ed è adatto a data set di grandi dimensioni Hadoop Distributed File System (HDFS) processo gestore processo secondario esecutoreschedulatore processo NameNode processo DataNode cronologico DFS-aware dati
  • 5. Architettura di NebulOS: Apache Mesos e HDFS Panoramica: ● processi gestori eseguiti su nodi gestori ● processi secondari eseguiti su nodi operativi ● HDFS montato su ogni nodo
  • 6. Implementazioni: due casi Processo batch delle immagini ● schedulatore DFS-aware ● filename e directory in input ● elaborazione delle immagini ● salvataggio dei risultati nella directory specificata MapReduce ● due schedulatori interagenti ● analisi di file in input di map ● elaborazione di reduce ● ottenimento di un file riassuntivo
  • 7. Risultati: prestazioni Elementi ● tipo di schedulatori: i DFS-aware sono più efficienti ● file multi-blocco: la lettura dei dati è più lenta
  • 8. Risultati: prestazioni ● Raggruppamento dei nodi in cluster di diverse dimensioni ● Effetto dell’overhead ● Numero di processi da eseguire ● La velocità di lettura dei dati è proporzionale al numero di nodi operativi in un cluster soltanto nei casi in cui cluster grandi leggano molti file (linee nera, rossa, verde), poi non c’è più linearità (linee blu, azzurra, viola)
  • 9. Risultati: tolleranza ai guasti Guasti su un nodo Soluzioni ● sistema di replicazione ● notifica al NameNode ● notifica allo schedulatore HDFS Mesos ● “heartbeats” assenti ● checksum variato ● irraggiungibilità
  • 10. Conclusione NebulOS: ➢ facile utilizzo: libreria C++ e modulo Python ➢ utilizzo di software per analisi dati preesistenti nella banca dati, senza bisogno di modifiche ➢ elaborazione di immagini immagazzinate utilizzando i principali formato dati usati nell’astrofisica ➢ basso traffico di rete ➢ alta velocità di lettura dati