SlideShare a Scribd company logo
1 of 38
Download to read offline
1 
Big Data Stack Tecnologico 
Data
BD-ST 
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache. 
Abstract
Team Leader presso Consulthink SpA 
https://www.linkedin.com/in/massimoromano 
Relatore 
BD-ST
BD-ST 
Definizione?
BD-ST 
•Big data è il termine utilizzato per descrivere una raccolta di dati così grande e complessa da richiedere strumenti differenti da quelli tradizionali per il loro trattamento, in tutte le fasi del processo: dall'acquisizione, alla curation, passando per condivisione, analisi e visualizzazione. 
•Le caratteristiche principali dei big data, si possono riassumere nelle tre "V”: 
1.Volume: nel senso di ingenti quantitativi di dati non gestibili con i database tradizionali; 
2.Velocità: dati che sono generati e richiedono di essere processati a ritmi sostenuti (o in tempo reale); 
3.Varietà: elementi di diversa natura e non necessariamente strutturati come testi, audio, video, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere. 
Definizione (wikipedia)
•Solo in Italia ogni giorno sono creati 2,5 quintilioni di byte di dati, il 90% dei quali è stato creato solo negli ultimi due anni (IBM). 1 quintilione = 1000000000000000000000000000000 = 1E30 
•L’utilizzo delle piattaforme tradizionali per la gestione di tale mole di informazioni non è una opzione “impossibile” dal punto di vista tecnologico, ma significa “convertire” dati non strutturati e/o poco correlati in una forma gestibile dai database relazionali per il loro trattamento. 
•Tale processo di conversione richiede una tale quantità di tempo e costi talmente elevati rispetto all’obiettivo perseguito che l’opzione risulta semplicemente: “Economicamente Non Sostenibile”. 
Motivazioni 
BD-ST
•Google: estrazione degli indici dei documenti; 
•Facebook: profilazione degli utenti; 
•Amazon: fornire suggerimenti di acquisto; 
•Walmart: analisi del comportamento di acquisto dei propri clienti (Teradata); 
•AT&T: pianifica la riparazione delle celle in base alla Customer Experience; 
•Germania: analisi dei propri avversari nei mondiali di Brasile 2014 (SAP); 
•Mediaset: sentiment analisi incrociando social media ed altre fonti (IBM); 
•Telecom Italia: monitoraggio della rete e produzione di KPI; 
•Agenzia delle Entrate: elaborazione dati sul reddito; 
Esempi 
BD-ST
•Migliori prestazioni perché dovuti all’eliminazione di eventuali colli di bottiglia. 
•L’infrastruttura di rete deve essere adeguata al trasferimento di dataset di dimensioni dell’ordine di qualche terabyte. 
•Sicurezza, al backup e ripristino dei dati, alla governance. 
Infrastruttura (Shared Nothing) 
BD-ST 
•Richiedono un approccio basato su un modello decentralizzato. 
•Utilizzo di tanti “commodity server” di piccole dimensioni con risorse di storage gestiti localmente. 
•Maggiore flessibilità (costi e scalabilità) perché si utilizzano migliaia di server di fascia bassa piuttosto che migliaia di server enterprise e storage condiviso. 
SMP: Symmetric Multi Processing 
MPP: Massive Parallel Processing
Tecnologie 
BD-ST 
BigData 
Acquisizione 
Calcolo / Analisi 
Integrazione / Arricchimento 
Immagazzinamento 
Organizzazione 
http://wiki.apache.org/hadoop/PoweredBy
•Hadoop è un framework per il calcolo parallelo di dataset molto grandi (ordine dei petabyte) su un elevato numero di nodi (poche decine a diverse migliaia) composti da server “standard” (basso costo). 
•Il suo utilizzo in scenari tradizionali (elaborazione di singoli record, OLTP) è fortemente sconsigliato e non avrebbe senso; 
•Orientato all’elaborazione batch (Twitter Storm per elaborazione Real-Time). 
•Modello di computazione adottato è Map Reduce (Dean e Ghemawat) basato sul principio “divide et impera” ed ispirato alle funzioni map() e reduce() del LISP. 
•165 organizzazioni censite sulla pagina ufficiale: Twitter, Google, Spotify, LinkedIn, Last.fm, IBM, Facebook, Ebay, Adobe, etc. 
Hadoop 
BD-ST
•Pensato per realizzare un sistema distribuito di larga scala, senza preoccuparsi dei problemi legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo dei fallimenti dei nodi, gestione della comunicazione i nodi. 
•Rispetto a modelli tradizionali di calcolo parallelo (Grid Computing): 
•Utilizza risorse locali e non aree di storage condivise; 
•Offre librerie di programmazione semplici e di alto livello; 
•Gestisce problemi a livello applicativo invece di sfruttare sistemi hardware di alta affidabilità; 
Hadoop 
BD-ST
•Hadoop common (strato software comune con funzioni di supporto); 
•YARN (framework per calcolo distribuito si occupa della gestione delle risorse); 
•Hadoop Distributed File System (HDFS - derivato da Google's GFS) 
•Hadoop MapReduce Framework (derivato da Google's MapReduce). 
Hadoop 
BD-ST 
HADOOP 
Distributed Storage 
(HDFS) 
Distributed Processing 
(MapReduce) 
Common 
YARN
Architettura Hadoop 
BD-ST 
MASTER 
Node Name 
Job Tracker 
SLAVE 
Data Name 
Task Tracker 
SLAVE 
Data Name 
Task Tracker 
CLIENT APP. 
1000s 
Svincola dai problemi relativi a: 
-Collocazione dei file; 
-Gestione dei fallimenti; 
-Scomposizione del calcolo; 
-Gestione della scalabilità;
HDFS 
BD-ST 
Ogni file è suddiviso in blocchi (64MB o 128MB) ridondati su più nodi (default 3 copie) ospitati su rack differenti; 
•La ridondanza garantisce l’affidabilità ma anche l’efficienza nel recupero dei file (coinvolto il nodo più vicino); 
•Fornisce al programmatore un modello di storage virtualmente infinito; 
•Progettato per gestire un numero elevato di file di dimensioni ragguardevoli (terabyte); 
•Identificazione dei guasti e recovery dei dati è la sua caratteristica principale;
HDFS 
BD-ST 
•Name Node: sono due uno attivo, l’altro in standby. Gestisce il file system: 
•Il namespace ovvero elenco dei file e dei blocchi in cui sono suddivisi; 
•Le strategie di replica e allocazione dei blocchi; 
•Verifica la presenza dei nodi per l’affidabilità. 
•Costituisce un single point of failure;
HDFS 
BD-ST 
•Secondary Name Node: di supporto al NameNode (per l’efficienza) esegue le operazioni di checkpoint (Checkpoint Node); 
•Backup Node: simile al CheckpointNode ma mantiene il namespace in memoria e lo aggiorna continuamente.
HDFS 
BD-ST 
•Data Node: gestisce fisicamente lo storage e soddisfa le richieste dei client. 
•Inviano un heartbeat (ogni 3sec) al NameNode con un block report. Se il nodo è giù o i blocchi corrotti è avviata la procedura di replica; 
•I client contattano il Name Node per conoscere quale Data Node contiene le informazioni richieste;
MapReduce 
BD-ST 
•MapReduce è basato sul concetto di functional programming dove c’è scarsa codivisione dei dati; 
•Prevede la suddivisione del calcolo in diverse parti (divide et impera) processabili in modo autonomo; 
•L’implementazione consiste nello specificare: input, output e funzioni map e reduce come implementazioni di classi java. 
•L’output finale può essere input di un nuovo job MapReduce.
Word Count 
BD-ST 
Map(k1,v1) → list(k2,v2) map(String name, String document) { // name: document name // document: document contents for each word w in document: emit (w, 1) } 
Reduce(k2, list (v2)) → list(v3) 
reduce(String word, Iterator partialCounts){ 
// word: a word 
// partialCounts: list of aggregated partial counts 
sum = 0 
for each pc in partialCounts: 
sum += ParseInt(pc) 
emit (word, sum) 
}
MapReduce 
BD-ST 
•JobTracker: Execution Plane e Coordination; 
•Si occupa della gestione del ciclo di vita dei job MapReduce; 
•Privilegia i nodi che contengono i dati o altrimenti seleziona un nodo nello stesso rack; 
•In caso di fault si fa carico della ripetizione del job; 
•TaskTracker: eseguono i task (di map o reduce) sotto la direzione del JobTracker;
MapReduce 
BD-ST 
1.Client sottomette e job al JobTracker e copia i file binari (jar) in HDFS; 
2.JobTracker interroga il NameNode per conoscere dove sono collocati i dati necessari; 
3.JobTracker identifica i nodi più vicini ai dati e verifica che abbiano slot disponibili (data-local, rack-local, cross-rack) quindi crea un piano di esecuzione; 
4.TaskTracker esegue il job e riporta al JobTracker attraverso heartbeat;
Ecosistema Hadoop 
BD-ST 
•The Hadoop Ecosystem Table http://hadoopecosystemtable.github.io/ 
•Big Data Ecosystem http://hadoopilluminated.com/hadoop_illuminated/Bigdata_Ecosystem. html
HDFS 
(Hadoop Distributed File System) 
HCatalog 
(Table & Schema Management) 
Mapreduce 
(Distributed Programming Framework) 
HIVE 
(SQL) 
PIG 
(Data Flow) 
Flume/Sqoop/Tika 
(Data integration) 
Hbase 
(Columnar NoSQL Store) 
Zookeeper 
(Coordination) 
Ambari 
(Management) 
Ecosistema Hadoop
Tika 
BD-ST 
•Strumento per la l’identificazione e l’esrtazione di metadati e testo danumerosi tipi di documenti; 
•Formati: HTML, XML, Microsoft Office, PDF, RTF, EPUB, OpenDocument, ZIP, TXT, Immagini, Audio, Video, JAR, MBOX, etc. 
•Funzionalità di Mime Type detection, parsing ed estrazione lingua. 
•Utilizzabile sia per la fase di acquisizione che per quella di integrazione/arricchimento. 
•Facilmente integrabile con Apache Solar.
Flume 
BD-ST 
•Strumento per la movimentazione di grosse quantità di dati da una sorgente verso una destinazione; 
•Sorgente: File di testo, TCP o UDP, Avro, Altro Agent, Personalizabili (in java); 
•Destinazioni: HDFS, Hbase, Logger, Avro, Altro Agent, Personalizzabili (in java); 
•Scalabile orizzontalmente e dispone di meccanismi di failover e recovery che garantiscono il delivery dei dati; 
•Basata sul concetto di Agent che esegue le seguenti operazioni: raccolta dei dati (source), passaggio e conservazione (channel) e instradamento(sink); 
•Utilizzo tipico è la lettura dei log da diversi server ed il loro instradamento verso HDFS, dopo averli aggregati.
Sqoop 
BD-ST 
•Strumento per il trasferimento dei dati tra database relazionali (RDBMS) e Hadoop (HDFS, Hbase, Hive); 
•Database supportati: Teradata, Netezza, Oracle, MySQL, Postgres, and HSQLDB; 
•Architettura basata su connettori che consente l’estensione attraverso l’implementazione di plug-in; 
•Utilizza job MapReduce per l’import parallelo dei dati opportunamente partizionati; 
•Utilizza l’introspezione per ottenere i metadati necessari all’import. 
•La classe java generata può essere utilizzata per elaborazione MapReduce. 
sqoop import –connect dbc:mysql://…. –username user –password password –table tab1 –targhet-dir /folder_hdfs1/folder_hdfs2
HCatalog 
BD-ST 
•Hadoop consente la gestione dei dati indipendentemente dal loro formato grazie alla mancanza di uno schema fisso; 
•Lo schema è applicato nel momento in cui sono utilizzati attraverso l’applicazione di uno strato di metadati che consentono, agli strati applicativi, di interagire con i dati con linguaggi di query; 
•Compito di HCatalog è si semplificare la creazione e gestione dei metadati e la loro esposizione agli strumenti che li utilizzano; 
•Fornisce un layer di metadati che consente di avere una visione relazionale dei dati, organizzandoli in tabelle e database;
Hive 
BD-ST 
•Strumento di data warehousing in grado di manipolare grandi quantità di dati presenti in sistemi distribuiti (OLTP vs OLAP); 
•ETL: caricamento e manipolazione dei dati; 
•Consente una strutturazione relazionale dei dati; 
•Linguaggio simile a SQL (HiveQL); 
•L’output del compilatore è una serie di job MapReduce che si occupano dell’esecuzione delle query; 
•Si avvale di un repository (metastore) che conserva i metadati di ciascuna tabella oppure utilizza HCatalog; 
•Lento quindi non adatto ad interrogazioni real-time; 
•Non destinato a rimpiazzare SQL ma è uno strumento per creare job su grandi moli di dati;
HBase 
BD-ST 
•Schemaless, Wide Table, Denormalized; 
•Studiato per lavorare su cluster di nodi, ognuno con il proprio storage, la propria cache e la propria capacità di computazione; 
•Consente l’accesso rapido (random, low latency) ad una singola riga fra miliardi di record, diversamente HDFS consente un accesso batch ai dati (high latency). 
•Un Data Base distribuito (modellata su BigTable di Google) column-oriented, lavora sopra HDFS; 
•Tratta sia dati strutturati che non strutturati; 
•E’ un database relazionale ma consente una modellazione flessibile e dinamica dei dati in quanto non si cura dei tipi;
HBase 
BD-ST 
•Fortemente basato su HDSF; 
•In corrispondenza dei NodeName e dei DataNode sono presenti le istanze dei servizi HMaster e RegionServer; 
•HMaster ha funzioni di monitoraggio, gestisce le modifiche ai metadati, load balancing, assegnazione region; 
•I RegionServer gestiscono le cosiddette region, elemento di base per la distribuzione delle tabelle; 
•I dati sono organizzati in una gerarchia Tabella->Region->…
Pig 
BD-ST 
•Piattaforma per semplificare l’analisi e manipolazione di grandi quantità di dati; 
•Come Hive, nasce per evitare la realizzazione job MapReduce che può risultare oneroso; 
•Basato su: 
•PigLatin: linguaggio di script per la gestione di flussi di dati; 
•Pig Engine: parsa, ottimizza ed esegue gli script PigLatin come una serie di job MapReduce che poi sottomette al cluster Hadoop; 
•Consente l’utilizzo di Hadoop a quanti con conoscono Java e MapReduce offrendo un approccio semplificato; 
•Non richiede nessuna installazione sui cluster in quanto si compone semplicemente di un client che sottomette e monitorizza i job creati;
Pig 
BD-ST 
•Notevole incremento della produttività.
Zookeeper 
BD-ST 
•Fornisce una infrastruttura centralizzata e dei servizi che consentono il coordinamento di applicazioni distribuite (Distributed Coordination Service); 
•Configurazione centralizzata dei nodi; 
•Sincronizzazione degli oggetti comuni nel cluster; 
•Serializzazione; 
•Consistenza sequenziale; 
•Atomicità; 
•Immagine singola del sistema; 
•Affidabilità; 
•Tempestività.
Ambari 
BD-ST 
•Strumento di gestione e monitoraggio del cluster Hadoop; 
•Fornisce una interfaccia web per l’amministrazione; 
•Supporta: HDFS, MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig, Sqoop; 
•Utilizza dei wizard per l’installazione; 
•Fornisce tool per l’avvio e l’arresto dei servizi sui vari nodi; 
•Effettua monitoraggio e reporting anche tramite alert e-mail.
Altro 
BD-ST 
•Oozie: motore di workflow; 
•Cassandra: database column-oriented (Amazon); 
•Mahount: libreria per machine learning; 
•Hue: interfaccia web per l’analisi dei dati con hadoop; 
•Whirr: librerie per eseguire cloud services; 
•Knox: rest api gateway per l’interazione conl cluster hadoop; 
•Kafka: message broker distribuito per gestione di feed in real-time; 
•Storm: real-time computation system; 
•Spark: data analytic cluster computing framework; Non Apache 
•R: software per analisi statistiche di base ed avanzate (librerie RHive e RHadoop); 
•Impala: motore di esecuzione di query distribuite (Cloudera) con prestazioni real- time; 
•HAWQ: motore di esecuzione di query distribuite (Pivotal);
BD-ST 
Bibliografia ed Approfondimenti 
•http://hadoop.apache.org/ 
•http://hadoopecosystemtable.github.io/ 
•http://storm.incubator.apache.org/ 
•J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusetrs, in OSDI’04: 137-150. 
•Alessandro Rezzani: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati. 
•Oracle BigData Virtual Machine http://www.oracle.com/technetwork/database/bigdata- appliance/oracle-bigdatalite-2104726.html 
•Hortonworks Sandbox http://hortonworks.com/products/hortonworks-sandbox/
40 
Grazie per l’attenzione 
Contatti 
Web: www.consulthink.it 
Mail: info@consulthink.it 
Telefono:+39-06 4549 2416 
Fax:+39-06 4549 2454
BD-ST 
Bibliografia ed Approfondimenti 
•http://hadoop.apache.org/ 
•http://hadoopecosystemtable.github.io/ 
•http://storm.incubator.apache.org/ 
•J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusetrs, in OSDI’04: 137-150. 
•Alessandro Rezzani: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati.

More Related Content

What's hot

Oltre il modello relazionale
Oltre il modello relazionaleOltre il modello relazionale
Oltre il modello relazionalefcami87
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech LabUgo Landini
 
Ottimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudOttimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudNicolò Carandini
 
MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large ClustersMapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large ClustersGiovanni Grano
 
Benchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQLBenchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQLEDB
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataVincenzo Fogliaro
 
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL Cluster
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL ClusterMySQL Tech Tour 2015 - Progettare, installare e configurare MySQL Cluster
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL ClusterPar-Tec S.p.A.
 
Introduzione a google_app_engine_datastore
Introduzione a google_app_engine_datastoreIntroduzione a google_app_engine_datastore
Introduzione a google_app_engine_datastorefirenze-gtug
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMJürgen Ambrosi
 

What's hot (13)

Oltre il modello relazionale
Oltre il modello relazionaleOltre il modello relazionale
Oltre il modello relazionale
 
Hadoop in action!
Hadoop in action!Hadoop in action!
Hadoop in action!
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech Lab
 
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 Big Data Analytics, Giovanni Delussu e Marco Enrico Piras  Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
Big Data Analytics, Giovanni Delussu e Marco Enrico Piras
 
Ottimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudOttimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloud
 
The Google File System
The Google File SystemThe Google File System
The Google File System
 
MapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large ClustersMapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large Clusters
 
Benchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQLBenchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQL
 
Erlug
ErlugErlug
Erlug
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdata
 
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL Cluster
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL ClusterMySQL Tech Tour 2015 - Progettare, installare e configurare MySQL Cluster
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL Cluster
 
Introduzione a google_app_engine_datastore
Introduzione a google_app_engine_datastoreIntroduzione a google_app_engine_datastore
Introduzione a google_app_engine_datastore
 
Db2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBMDb2 11.1: l'evoluzione del Database secondo IBM
Db2 11.1: l'evoluzione del Database secondo IBM
 

Viewers also liked

Internet of Things for Dummies
Internet of Things for DummiesInternet of Things for Dummies
Internet of Things for DummiesPaolo Aliverti
 
Soluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftSoluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftMassimo Bonanni
 
Using Hadoop and Hive to Optimize Travel Search , WindyCityDB 2010
Using Hadoop and Hive to Optimize Travel Search, WindyCityDB 2010Using Hadoop and Hive to Optimize Travel Search, WindyCityDB 2010
Using Hadoop and Hive to Optimize Travel Search , WindyCityDB 2010Jonathan Seidman
 
Internet of things
Internet of thingsInternet of things
Internet of thingsSara Scotti
 
Internet of Things: mercato, tecnologie, applicazioni e competenze
Internet of Things: mercato, tecnologie, applicazioni e competenzeInternet of Things: mercato, tecnologie, applicazioni e competenze
Internet of Things: mercato, tecnologie, applicazioni e competenzeArmando Martin
 
Industria 4.0 e IoT: Panorama, Leggende e Standard
Industria 4.0 e IoT: Panorama, Leggende e StandardIndustria 4.0 e IoT: Panorama, Leggende e Standard
Industria 4.0 e IoT: Panorama, Leggende e Standarduninfoit
 
Integration of HIve and HBase
Integration of HIve and HBaseIntegration of HIve and HBase
Integration of HIve and HBaseHortonworks
 

Viewers also liked (10)

Hug Italy- 30 Sept 2014, Milan
Hug Italy- 30 Sept 2014, MilanHug Italy- 30 Sept 2014, Milan
Hug Italy- 30 Sept 2014, Milan
 
Hug Milano September 2014: Hadoop Summit Europe Impressions
Hug Milano September 2014: Hadoop Summit Europe ImpressionsHug Milano September 2014: Hadoop Summit Europe Impressions
Hug Milano September 2014: Hadoop Summit Europe Impressions
 
Internet of Things
Internet of ThingsInternet of Things
Internet of Things
 
Internet of Things for Dummies
Internet of Things for DummiesInternet of Things for Dummies
Internet of Things for Dummies
 
Soluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie MicrosoftSoluzioni IoT con le tecnologie Microsoft
Soluzioni IoT con le tecnologie Microsoft
 
Using Hadoop and Hive to Optimize Travel Search , WindyCityDB 2010
Using Hadoop and Hive to Optimize Travel Search, WindyCityDB 2010Using Hadoop and Hive to Optimize Travel Search, WindyCityDB 2010
Using Hadoop and Hive to Optimize Travel Search , WindyCityDB 2010
 
Internet of things
Internet of thingsInternet of things
Internet of things
 
Internet of Things: mercato, tecnologie, applicazioni e competenze
Internet of Things: mercato, tecnologie, applicazioni e competenzeInternet of Things: mercato, tecnologie, applicazioni e competenze
Internet of Things: mercato, tecnologie, applicazioni e competenze
 
Industria 4.0 e IoT: Panorama, Leggende e Standard
Industria 4.0 e IoT: Panorama, Leggende e StandardIndustria 4.0 e IoT: Panorama, Leggende e Standard
Industria 4.0 e IoT: Panorama, Leggende e Standard
 
Integration of HIve and HBase
Integration of HIve and HBaseIntegration of HIve and HBase
Integration of HIve and HBase
 

Similar to Big data - stack tecnologico

Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologicoMassimo Romano
 
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDBPolyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDBSteve Maraspin
 
Operational Data Store vs Data Lake
Operational Data Store vs Data LakeOperational Data Store vs Data Lake
Operational Data Store vs Data LakeMongoDB
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & AnalyticsDavide Mauri
 
Industrial iot: dalle parole ai fatti
Industrial iot: dalle parole ai fatti Industrial iot: dalle parole ai fatti
Industrial iot: dalle parole ai fatti Riccardo Zamana
 
Kubernetes as HA time series server, a proposal
Kubernetes as HA time series server, a proposalKubernetes as HA time series server, a proposal
Kubernetes as HA time series server, a proposalGiuliano Latini
 
Big Data e la forza degli eventi - Intervento di Melen
Big Data e la forza degli eventi - Intervento di MelenBig Data e la forza degli eventi - Intervento di Melen
Big Data e la forza degli eventi - Intervento di Melencomunicareonline
 
Open Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioOpen Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioPar-Tec S.p.A.
 
VMUGIT Roma 2016 - vROps Design - Pietro Piutti
VMUGIT Roma 2016 - vROps Design - Pietro PiuttiVMUGIT Roma 2016 - vROps Design - Pietro Piutti
VMUGIT Roma 2016 - vROps Design - Pietro PiuttiVMUG IT
 
Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Fabio Armani
 
MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009Massimiliano Dessì
 
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Clouditalia Telecomunicazioni
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL DatabaseEmanuele Zanchettin
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biMarco Pozzan
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseGianluca Hotz
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL DatabaseEmanuele Zanchettin
 
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQL
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQLMySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQL
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQLPar-Tec S.p.A.
 

Similar to Big data - stack tecnologico (20)

Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologico
 
Appunti di big data
Appunti di big dataAppunti di big data
Appunti di big data
 
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDBPolyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB
Polyglot Persistance con PostgreSQL, CouchDB, MongoDB, Redis e OrientDB
 
Operational Data Store vs Data Lake
Operational Data Store vs Data LakeOperational Data Store vs Data Lake
Operational Data Store vs Data Lake
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
Industrial iot: dalle parole ai fatti
Industrial iot: dalle parole ai fatti Industrial iot: dalle parole ai fatti
Industrial iot: dalle parole ai fatti
 
Kubernetes as HA time series server, a proposal
Kubernetes as HA time series server, a proposalKubernetes as HA time series server, a proposal
Kubernetes as HA time series server, a proposal
 
Big Data e la forza degli eventi - Intervento di Melen
Big Data e la forza degli eventi - Intervento di MelenBig Data e la forza degli eventi - Intervento di Melen
Big Data e la forza degli eventi - Intervento di Melen
 
Open Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioOpen Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studio
 
VMUGIT Roma 2016 - vROps Design - Pietro Piutti
VMUGIT Roma 2016 - vROps Design - Pietro PiuttiVMUGIT Roma 2016 - vROps Design - Pietro Piutti
VMUGIT Roma 2016 - vROps Design - Pietro Piutti
 
Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)Design Patterns - Enterprise Patterns (part 2)
Design Patterns - Enterprise Patterns (part 2)
 
MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009MongoDB SpringFramework Meeting september 2009
MongoDB SpringFramework Meeting september 2009
 
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
 
Google File System - GFS
Google File System - GFSGoogle File System - GFS
Google File System - GFS
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL Database
 
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database2014.11.14 Implementare e mantenere un progetto Azure SQL Database
2014.11.14 Implementare e mantenere un progetto Azure SQL Database
 
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQL
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQLMySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQL
MySQL Tech Tour 2015 - Soluzioni di alta disponibilità con MySQL
 

More from Consulthinkspa

GDPR - Il Nuovo Regolamento Generale sulla Protezione dei Dati
GDPR - Il Nuovo Regolamento Generale sulla Protezione dei DatiGDPR - Il Nuovo Regolamento Generale sulla Protezione dei Dati
GDPR - Il Nuovo Regolamento Generale sulla Protezione dei DatiConsulthinkspa
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data Consulthinkspa
 
Pensiero Analogico e Microservizi
Pensiero Analogico  e MicroserviziPensiero Analogico  e Microservizi
Pensiero Analogico e MicroserviziConsulthinkspa
 
DevOps - Come diventare un buon DevOpper
DevOps -  Come diventare un buon DevOpperDevOps -  Come diventare un buon DevOpper
DevOps - Come diventare un buon DevOpperConsulthinkspa
 
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...Consulthinkspa
 
Scenari introduzione Application Service Governance in Azienda
Scenari introduzione Application Service Governance in AziendaScenari introduzione Application Service Governance in Azienda
Scenari introduzione Application Service Governance in AziendaConsulthinkspa
 
Droidcon it 2015: Android Lollipop for Enterprise
Droidcon it 2015: Android Lollipop for EnterpriseDroidcon it 2015: Android Lollipop for Enterprise
Droidcon it 2015: Android Lollipop for EnterpriseConsulthinkspa
 
Test Driven Development
Test Driven DevelopmentTest Driven Development
Test Driven DevelopmentConsulthinkspa
 
IPv6 - Breve panoramica tra mito e realtà
IPv6 - Breve panoramica tra mito e realtàIPv6 - Breve panoramica tra mito e realtà
IPv6 - Breve panoramica tra mito e realtàConsulthinkspa
 
Quality Software Development LifeCycle
Quality Software Development LifeCycleQuality Software Development LifeCycle
Quality Software Development LifeCycleConsulthinkspa
 
Consulthink @ GDG Meets U - L'Aquila2014 - Codelab: Android Security -Il ke...
Consulthink @ GDG Meets U -  L'Aquila2014  - Codelab: Android Security -Il ke...Consulthink @ GDG Meets U -  L'Aquila2014  - Codelab: Android Security -Il ke...
Consulthink @ GDG Meets U - L'Aquila2014 - Codelab: Android Security -Il ke...Consulthinkspa
 
Android Security - Key Management at GDG DevFest Rome 2013
Android Security - Key Management at GDG DevFest Rome 2013 Android Security - Key Management at GDG DevFest Rome 2013
Android Security - Key Management at GDG DevFest Rome 2013 Consulthinkspa
 
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendali
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendaliPrevenzione degli attacchi informatici che coinvolgono dati sensibili aziendali
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendaliConsulthinkspa
 

More from Consulthinkspa (17)

GDPR - Il Nuovo Regolamento Generale sulla Protezione dei Dati
GDPR - Il Nuovo Regolamento Generale sulla Protezione dei DatiGDPR - Il Nuovo Regolamento Generale sulla Protezione dei Dati
GDPR - Il Nuovo Regolamento Generale sulla Protezione dei Dati
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data
 
Data Science
Data ScienceData Science
Data Science
 
Hot trend 2017
Hot trend 2017Hot trend 2017
Hot trend 2017
 
Pensiero Analogico e Microservizi
Pensiero Analogico  e MicroserviziPensiero Analogico  e Microservizi
Pensiero Analogico e Microservizi
 
DevOps - Come diventare un buon DevOpper
DevOps -  Come diventare un buon DevOpperDevOps -  Come diventare un buon DevOpper
DevOps - Come diventare un buon DevOpper
 
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...
Increasing Android app security for free - Roberto Gassirà, Roberto Piccirill...
 
Consulthink Overview
Consulthink OverviewConsulthink Overview
Consulthink Overview
 
Scenari introduzione Application Service Governance in Azienda
Scenari introduzione Application Service Governance in AziendaScenari introduzione Application Service Governance in Azienda
Scenari introduzione Application Service Governance in Azienda
 
Droidcon it 2015: Android Lollipop for Enterprise
Droidcon it 2015: Android Lollipop for EnterpriseDroidcon it 2015: Android Lollipop for Enterprise
Droidcon it 2015: Android Lollipop for Enterprise
 
Test Driven Development
Test Driven DevelopmentTest Driven Development
Test Driven Development
 
IPv6 - Breve panoramica tra mito e realtà
IPv6 - Breve panoramica tra mito e realtàIPv6 - Breve panoramica tra mito e realtà
IPv6 - Breve panoramica tra mito e realtà
 
BitCoin Protocol
BitCoin ProtocolBitCoin Protocol
BitCoin Protocol
 
Quality Software Development LifeCycle
Quality Software Development LifeCycleQuality Software Development LifeCycle
Quality Software Development LifeCycle
 
Consulthink @ GDG Meets U - L'Aquila2014 - Codelab: Android Security -Il ke...
Consulthink @ GDG Meets U -  L'Aquila2014  - Codelab: Android Security -Il ke...Consulthink @ GDG Meets U -  L'Aquila2014  - Codelab: Android Security -Il ke...
Consulthink @ GDG Meets U - L'Aquila2014 - Codelab: Android Security -Il ke...
 
Android Security - Key Management at GDG DevFest Rome 2013
Android Security - Key Management at GDG DevFest Rome 2013 Android Security - Key Management at GDG DevFest Rome 2013
Android Security - Key Management at GDG DevFest Rome 2013
 
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendali
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendaliPrevenzione degli attacchi informatici che coinvolgono dati sensibili aziendali
Prevenzione degli attacchi informatici che coinvolgono dati sensibili aziendali
 

Recently uploaded

presentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptxpresentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptxmichelacaporale12345
 
Piccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docxPiccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docxpalestiniaurora
 
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptxTeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptxteccarellilorenzo
 
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptxPalestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptxpalestiniaurora
 
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptxPancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptxpalestiniaurora
 
PalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docxPalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docxpalestiniaurora
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxpalestiniaurora
 
TeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdfTeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdfteccarellilorenzo
 
Gli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda presGli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda prespalestiniaurora
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024IISGiovanniVallePado
 
a scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAPa scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAPDamiano Orru
 
Le forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docxLe forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docxpalestiniaurora
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...Nguyen Thanh Tu Collection
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticanico07fusco
 
Pancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docxPancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docxpalestiniaurora
 
TeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docxTeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docxteccarellilorenzo
 
Educazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpointEducazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpointpalestiniaurora
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxsasaselvatico
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereMarco Chizzali
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxpalestiniaurora
 

Recently uploaded (20)

presentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptxpresentazione varietà allotropiche del carbonio.pptx
presentazione varietà allotropiche del carbonio.pptx
 
Piccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docxPiccole Personetestoitaliano-AuroraPalestini.docx
Piccole Personetestoitaliano-AuroraPalestini.docx
 
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptxTeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
TeccarelliLorenzo-PrimadiSteveJobselasuaconcorrenza.pptx
 
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptxPalestini Aurora-Steve Jobs,Olivetti e Gates.pptx
Palestini Aurora-Steve Jobs,Olivetti e Gates.pptx
 
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptxPancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
Pancia Asia-La vita di Steve Jobs-Adriano Olivetti-Bill Gates.pptx
 
PalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docxPalestiniAurora-la conoscenzatestoita.docx
PalestiniAurora-la conoscenzatestoita.docx
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptx
 
TeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdfTeccarelliLorenzo-Mitodella.cavernaa.pdf
TeccarelliLorenzo-Mitodella.cavernaa.pdf
 
Gli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda presGli isotopi scienze naturale seconda pres
Gli isotopi scienze naturale seconda pres
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
 
a scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAPa scuola di biblioVerifica: come utilizzare il test TRAAP
a scuola di biblioVerifica: come utilizzare il test TRAAP
 
Le forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docxLe forme allotropiche del C-Palestini e Pancia.docx
Le forme allotropiche del C-Palestini e Pancia.docx
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
Pancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docxPancia Asia_relazione laboratorio(forza d'attrito).docx
Pancia Asia_relazione laboratorio(forza d'attrito).docx
 
TeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docxTeccarelliLorenzo-i4stilidellapitturaromana.docx
TeccarelliLorenzo-i4stilidellapitturaromana.docx
 
Educazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpointEducazione civica-Asia Pancia powerpoint
Educazione civica-Asia Pancia powerpoint
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 
magia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptxmagia, stregoneria, inquisizione e medicina.pptx
magia, stregoneria, inquisizione e medicina.pptx
 

Big data - stack tecnologico

  • 1. 1 Big Data Stack Tecnologico Data
  • 2. BD-ST Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache. Abstract
  • 3. Team Leader presso Consulthink SpA https://www.linkedin.com/in/massimoromano Relatore BD-ST
  • 5. BD-ST •Big data è il termine utilizzato per descrivere una raccolta di dati così grande e complessa da richiedere strumenti differenti da quelli tradizionali per il loro trattamento, in tutte le fasi del processo: dall'acquisizione, alla curation, passando per condivisione, analisi e visualizzazione. •Le caratteristiche principali dei big data, si possono riassumere nelle tre "V”: 1.Volume: nel senso di ingenti quantitativi di dati non gestibili con i database tradizionali; 2.Velocità: dati che sono generati e richiedono di essere processati a ritmi sostenuti (o in tempo reale); 3.Varietà: elementi di diversa natura e non necessariamente strutturati come testi, audio, video, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere. Definizione (wikipedia)
  • 6. •Solo in Italia ogni giorno sono creati 2,5 quintilioni di byte di dati, il 90% dei quali è stato creato solo negli ultimi due anni (IBM). 1 quintilione = 1000000000000000000000000000000 = 1E30 •L’utilizzo delle piattaforme tradizionali per la gestione di tale mole di informazioni non è una opzione “impossibile” dal punto di vista tecnologico, ma significa “convertire” dati non strutturati e/o poco correlati in una forma gestibile dai database relazionali per il loro trattamento. •Tale processo di conversione richiede una tale quantità di tempo e costi talmente elevati rispetto all’obiettivo perseguito che l’opzione risulta semplicemente: “Economicamente Non Sostenibile”. Motivazioni BD-ST
  • 7. •Google: estrazione degli indici dei documenti; •Facebook: profilazione degli utenti; •Amazon: fornire suggerimenti di acquisto; •Walmart: analisi del comportamento di acquisto dei propri clienti (Teradata); •AT&T: pianifica la riparazione delle celle in base alla Customer Experience; •Germania: analisi dei propri avversari nei mondiali di Brasile 2014 (SAP); •Mediaset: sentiment analisi incrociando social media ed altre fonti (IBM); •Telecom Italia: monitoraggio della rete e produzione di KPI; •Agenzia delle Entrate: elaborazione dati sul reddito; Esempi BD-ST
  • 8. •Migliori prestazioni perché dovuti all’eliminazione di eventuali colli di bottiglia. •L’infrastruttura di rete deve essere adeguata al trasferimento di dataset di dimensioni dell’ordine di qualche terabyte. •Sicurezza, al backup e ripristino dei dati, alla governance. Infrastruttura (Shared Nothing) BD-ST •Richiedono un approccio basato su un modello decentralizzato. •Utilizzo di tanti “commodity server” di piccole dimensioni con risorse di storage gestiti localmente. •Maggiore flessibilità (costi e scalabilità) perché si utilizzano migliaia di server di fascia bassa piuttosto che migliaia di server enterprise e storage condiviso. SMP: Symmetric Multi Processing MPP: Massive Parallel Processing
  • 9. Tecnologie BD-ST BigData Acquisizione Calcolo / Analisi Integrazione / Arricchimento Immagazzinamento Organizzazione http://wiki.apache.org/hadoop/PoweredBy
  • 10. •Hadoop è un framework per il calcolo parallelo di dataset molto grandi (ordine dei petabyte) su un elevato numero di nodi (poche decine a diverse migliaia) composti da server “standard” (basso costo). •Il suo utilizzo in scenari tradizionali (elaborazione di singoli record, OLTP) è fortemente sconsigliato e non avrebbe senso; •Orientato all’elaborazione batch (Twitter Storm per elaborazione Real-Time). •Modello di computazione adottato è Map Reduce (Dean e Ghemawat) basato sul principio “divide et impera” ed ispirato alle funzioni map() e reduce() del LISP. •165 organizzazioni censite sulla pagina ufficiale: Twitter, Google, Spotify, LinkedIn, Last.fm, IBM, Facebook, Ebay, Adobe, etc. Hadoop BD-ST
  • 11. •Pensato per realizzare un sistema distribuito di larga scala, senza preoccuparsi dei problemi legati alla sua gestione: partizionamento dei dati, scheduling dei thread, controllo dei fallimenti dei nodi, gestione della comunicazione i nodi. •Rispetto a modelli tradizionali di calcolo parallelo (Grid Computing): •Utilizza risorse locali e non aree di storage condivise; •Offre librerie di programmazione semplici e di alto livello; •Gestisce problemi a livello applicativo invece di sfruttare sistemi hardware di alta affidabilità; Hadoop BD-ST
  • 12. •Hadoop common (strato software comune con funzioni di supporto); •YARN (framework per calcolo distribuito si occupa della gestione delle risorse); •Hadoop Distributed File System (HDFS - derivato da Google's GFS) •Hadoop MapReduce Framework (derivato da Google's MapReduce). Hadoop BD-ST HADOOP Distributed Storage (HDFS) Distributed Processing (MapReduce) Common YARN
  • 13. Architettura Hadoop BD-ST MASTER Node Name Job Tracker SLAVE Data Name Task Tracker SLAVE Data Name Task Tracker CLIENT APP. 1000s Svincola dai problemi relativi a: -Collocazione dei file; -Gestione dei fallimenti; -Scomposizione del calcolo; -Gestione della scalabilità;
  • 14. HDFS BD-ST Ogni file è suddiviso in blocchi (64MB o 128MB) ridondati su più nodi (default 3 copie) ospitati su rack differenti; •La ridondanza garantisce l’affidabilità ma anche l’efficienza nel recupero dei file (coinvolto il nodo più vicino); •Fornisce al programmatore un modello di storage virtualmente infinito; •Progettato per gestire un numero elevato di file di dimensioni ragguardevoli (terabyte); •Identificazione dei guasti e recovery dei dati è la sua caratteristica principale;
  • 15. HDFS BD-ST •Name Node: sono due uno attivo, l’altro in standby. Gestisce il file system: •Il namespace ovvero elenco dei file e dei blocchi in cui sono suddivisi; •Le strategie di replica e allocazione dei blocchi; •Verifica la presenza dei nodi per l’affidabilità. •Costituisce un single point of failure;
  • 16. HDFS BD-ST •Secondary Name Node: di supporto al NameNode (per l’efficienza) esegue le operazioni di checkpoint (Checkpoint Node); •Backup Node: simile al CheckpointNode ma mantiene il namespace in memoria e lo aggiorna continuamente.
  • 17. HDFS BD-ST •Data Node: gestisce fisicamente lo storage e soddisfa le richieste dei client. •Inviano un heartbeat (ogni 3sec) al NameNode con un block report. Se il nodo è giù o i blocchi corrotti è avviata la procedura di replica; •I client contattano il Name Node per conoscere quale Data Node contiene le informazioni richieste;
  • 18. MapReduce BD-ST •MapReduce è basato sul concetto di functional programming dove c’è scarsa codivisione dei dati; •Prevede la suddivisione del calcolo in diverse parti (divide et impera) processabili in modo autonomo; •L’implementazione consiste nello specificare: input, output e funzioni map e reduce come implementazioni di classi java. •L’output finale può essere input di un nuovo job MapReduce.
  • 19. Word Count BD-ST Map(k1,v1) → list(k2,v2) map(String name, String document) { // name: document name // document: document contents for each word w in document: emit (w, 1) } Reduce(k2, list (v2)) → list(v3) reduce(String word, Iterator partialCounts){ // word: a word // partialCounts: list of aggregated partial counts sum = 0 for each pc in partialCounts: sum += ParseInt(pc) emit (word, sum) }
  • 20. MapReduce BD-ST •JobTracker: Execution Plane e Coordination; •Si occupa della gestione del ciclo di vita dei job MapReduce; •Privilegia i nodi che contengono i dati o altrimenti seleziona un nodo nello stesso rack; •In caso di fault si fa carico della ripetizione del job; •TaskTracker: eseguono i task (di map o reduce) sotto la direzione del JobTracker;
  • 21. MapReduce BD-ST 1.Client sottomette e job al JobTracker e copia i file binari (jar) in HDFS; 2.JobTracker interroga il NameNode per conoscere dove sono collocati i dati necessari; 3.JobTracker identifica i nodi più vicini ai dati e verifica che abbiano slot disponibili (data-local, rack-local, cross-rack) quindi crea un piano di esecuzione; 4.TaskTracker esegue il job e riporta al JobTracker attraverso heartbeat;
  • 22. Ecosistema Hadoop BD-ST •The Hadoop Ecosystem Table http://hadoopecosystemtable.github.io/ •Big Data Ecosystem http://hadoopilluminated.com/hadoop_illuminated/Bigdata_Ecosystem. html
  • 23. HDFS (Hadoop Distributed File System) HCatalog (Table & Schema Management) Mapreduce (Distributed Programming Framework) HIVE (SQL) PIG (Data Flow) Flume/Sqoop/Tika (Data integration) Hbase (Columnar NoSQL Store) Zookeeper (Coordination) Ambari (Management) Ecosistema Hadoop
  • 24. Tika BD-ST •Strumento per la l’identificazione e l’esrtazione di metadati e testo danumerosi tipi di documenti; •Formati: HTML, XML, Microsoft Office, PDF, RTF, EPUB, OpenDocument, ZIP, TXT, Immagini, Audio, Video, JAR, MBOX, etc. •Funzionalità di Mime Type detection, parsing ed estrazione lingua. •Utilizzabile sia per la fase di acquisizione che per quella di integrazione/arricchimento. •Facilmente integrabile con Apache Solar.
  • 25. Flume BD-ST •Strumento per la movimentazione di grosse quantità di dati da una sorgente verso una destinazione; •Sorgente: File di testo, TCP o UDP, Avro, Altro Agent, Personalizabili (in java); •Destinazioni: HDFS, Hbase, Logger, Avro, Altro Agent, Personalizzabili (in java); •Scalabile orizzontalmente e dispone di meccanismi di failover e recovery che garantiscono il delivery dei dati; •Basata sul concetto di Agent che esegue le seguenti operazioni: raccolta dei dati (source), passaggio e conservazione (channel) e instradamento(sink); •Utilizzo tipico è la lettura dei log da diversi server ed il loro instradamento verso HDFS, dopo averli aggregati.
  • 26. Sqoop BD-ST •Strumento per il trasferimento dei dati tra database relazionali (RDBMS) e Hadoop (HDFS, Hbase, Hive); •Database supportati: Teradata, Netezza, Oracle, MySQL, Postgres, and HSQLDB; •Architettura basata su connettori che consente l’estensione attraverso l’implementazione di plug-in; •Utilizza job MapReduce per l’import parallelo dei dati opportunamente partizionati; •Utilizza l’introspezione per ottenere i metadati necessari all’import. •La classe java generata può essere utilizzata per elaborazione MapReduce. sqoop import –connect dbc:mysql://…. –username user –password password –table tab1 –targhet-dir /folder_hdfs1/folder_hdfs2
  • 27. HCatalog BD-ST •Hadoop consente la gestione dei dati indipendentemente dal loro formato grazie alla mancanza di uno schema fisso; •Lo schema è applicato nel momento in cui sono utilizzati attraverso l’applicazione di uno strato di metadati che consentono, agli strati applicativi, di interagire con i dati con linguaggi di query; •Compito di HCatalog è si semplificare la creazione e gestione dei metadati e la loro esposizione agli strumenti che li utilizzano; •Fornisce un layer di metadati che consente di avere una visione relazionale dei dati, organizzandoli in tabelle e database;
  • 28. Hive BD-ST •Strumento di data warehousing in grado di manipolare grandi quantità di dati presenti in sistemi distribuiti (OLTP vs OLAP); •ETL: caricamento e manipolazione dei dati; •Consente una strutturazione relazionale dei dati; •Linguaggio simile a SQL (HiveQL); •L’output del compilatore è una serie di job MapReduce che si occupano dell’esecuzione delle query; •Si avvale di un repository (metastore) che conserva i metadati di ciascuna tabella oppure utilizza HCatalog; •Lento quindi non adatto ad interrogazioni real-time; •Non destinato a rimpiazzare SQL ma è uno strumento per creare job su grandi moli di dati;
  • 29. HBase BD-ST •Schemaless, Wide Table, Denormalized; •Studiato per lavorare su cluster di nodi, ognuno con il proprio storage, la propria cache e la propria capacità di computazione; •Consente l’accesso rapido (random, low latency) ad una singola riga fra miliardi di record, diversamente HDFS consente un accesso batch ai dati (high latency). •Un Data Base distribuito (modellata su BigTable di Google) column-oriented, lavora sopra HDFS; •Tratta sia dati strutturati che non strutturati; •E’ un database relazionale ma consente una modellazione flessibile e dinamica dei dati in quanto non si cura dei tipi;
  • 30. HBase BD-ST •Fortemente basato su HDSF; •In corrispondenza dei NodeName e dei DataNode sono presenti le istanze dei servizi HMaster e RegionServer; •HMaster ha funzioni di monitoraggio, gestisce le modifiche ai metadati, load balancing, assegnazione region; •I RegionServer gestiscono le cosiddette region, elemento di base per la distribuzione delle tabelle; •I dati sono organizzati in una gerarchia Tabella->Region->…
  • 31. Pig BD-ST •Piattaforma per semplificare l’analisi e manipolazione di grandi quantità di dati; •Come Hive, nasce per evitare la realizzazione job MapReduce che può risultare oneroso; •Basato su: •PigLatin: linguaggio di script per la gestione di flussi di dati; •Pig Engine: parsa, ottimizza ed esegue gli script PigLatin come una serie di job MapReduce che poi sottomette al cluster Hadoop; •Consente l’utilizzo di Hadoop a quanti con conoscono Java e MapReduce offrendo un approccio semplificato; •Non richiede nessuna installazione sui cluster in quanto si compone semplicemente di un client che sottomette e monitorizza i job creati;
  • 32. Pig BD-ST •Notevole incremento della produttività.
  • 33. Zookeeper BD-ST •Fornisce una infrastruttura centralizzata e dei servizi che consentono il coordinamento di applicazioni distribuite (Distributed Coordination Service); •Configurazione centralizzata dei nodi; •Sincronizzazione degli oggetti comuni nel cluster; •Serializzazione; •Consistenza sequenziale; •Atomicità; •Immagine singola del sistema; •Affidabilità; •Tempestività.
  • 34. Ambari BD-ST •Strumento di gestione e monitoraggio del cluster Hadoop; •Fornisce una interfaccia web per l’amministrazione; •Supporta: HDFS, MapReduce, Hive, HCatalog, HBase, Zookeeper, Oozie, Pig, Sqoop; •Utilizza dei wizard per l’installazione; •Fornisce tool per l’avvio e l’arresto dei servizi sui vari nodi; •Effettua monitoraggio e reporting anche tramite alert e-mail.
  • 35. Altro BD-ST •Oozie: motore di workflow; •Cassandra: database column-oriented (Amazon); •Mahount: libreria per machine learning; •Hue: interfaccia web per l’analisi dei dati con hadoop; •Whirr: librerie per eseguire cloud services; •Knox: rest api gateway per l’interazione conl cluster hadoop; •Kafka: message broker distribuito per gestione di feed in real-time; •Storm: real-time computation system; •Spark: data analytic cluster computing framework; Non Apache •R: software per analisi statistiche di base ed avanzate (librerie RHive e RHadoop); •Impala: motore di esecuzione di query distribuite (Cloudera) con prestazioni real- time; •HAWQ: motore di esecuzione di query distribuite (Pivotal);
  • 36. BD-ST Bibliografia ed Approfondimenti •http://hadoop.apache.org/ •http://hadoopecosystemtable.github.io/ •http://storm.incubator.apache.org/ •J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusetrs, in OSDI’04: 137-150. •Alessandro Rezzani: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati. •Oracle BigData Virtual Machine http://www.oracle.com/technetwork/database/bigdata- appliance/oracle-bigdatalite-2104726.html •Hortonworks Sandbox http://hortonworks.com/products/hortonworks-sandbox/
  • 37. 40 Grazie per l’attenzione Contatti Web: www.consulthink.it Mail: info@consulthink.it Telefono:+39-06 4549 2416 Fax:+39-06 4549 2454
  • 38. BD-ST Bibliografia ed Approfondimenti •http://hadoop.apache.org/ •http://hadoopecosystemtable.github.io/ •http://storm.incubator.apache.org/ •J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusetrs, in OSDI’04: 137-150. •Alessandro Rezzani: Architettura, tecnologie e metodi per l’utilizzo di grandi basi di dati.