Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Viene illustrato il problema della raccolta efficiente e scalabile dei dati da potenziali sorgenti di Big Data. Inoltre verrà fatta una carrellata su alcuni tra i più popolari software utilizzabili in una pipeline di data streaming in realtime e/o batch analysis.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
La presentazione è stata realizzato per un seminario da tenere durante il corso di Sistemi Operativi Avanzati. Durante la presentazione si è discusso di Hadoop partendo dalle origini fino ad arrivare a parlare di qualche dettaglio più approfondito. Non si è scelto di entrare troppo nel dettaglio in quanto in seguito alla presentazione si è tenuta una demo sull'utilizzo di Hadoop su un cluster da noi allestito all'interno dell'università.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Viene illustrato il problema della raccolta efficiente e scalabile dei dati da potenziali sorgenti di Big Data. Inoltre verrà fatta una carrellata su alcuni tra i più popolari software utilizzabili in una pipeline di data streaming in realtime e/o batch analysis.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
La presentazione è stata realizzato per un seminario da tenere durante il corso di Sistemi Operativi Avanzati. Durante la presentazione si è discusso di Hadoop partendo dalle origini fino ad arrivare a parlare di qualche dettaglio più approfondito. Non si è scelto di entrare troppo nel dettaglio in quanto in seguito alla presentazione si è tenuta una demo sull'utilizzo di Hadoop su un cluster da noi allestito all'interno dell'università.
Talk divulgativo sull’evoluzione dei sistemi database nel corso negli anni, dalla nascita del modello relazionale fino alla definizione di nuovi modelli per la gestione di dati non strutturati ed esecuzione di elaborazioni dati parallele; in particolare vedremo insieme:
- Proprietà e limiti modello relazionale
- Big Data, Google e Hadoop
- Sharding, Amazon e NoSQL
- Database documentali
- Database a grafo
- Database orientati alle colonne
- Database In-Memory
Introduzione ai Big Data e alla scienza dei dati - Big DataVincenzo Manzoni
Lezione 5 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quinta e ultima lezione si introducono le tecnologie dei Big Data.
Ottimizzazione della gestione dei dati sul cloudNicolò Carandini
Lo spazio dei dati (3Vs): Volume, Velocità e Varietà
Il CAP theorem
Data Modeling
Data Platform Azure solutions
Big Data and ML Azure solutions
Cosmos DB
More Data Consistency options: Bounded staleness, Session, Consistent Prefix
Cosmos DB Security & Compliance
Quality Assurance with TLA+
A Case Study: Venice Time Machine
Per il corso di Sistemi Operativi Avanzati ho studiato l'articolo "Google File System" scritto da Sanjay Ghemawat, Howard Gobioff, e Shun-Tak Leung, inquadrandone il contesto storico, gli obiettivi, le prestazioni e le principali differenze con l'HDFS.
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL ClusterPar-Tec S.p.A.
Il TechAdvisor Mirko Conte spiega come progettare, installare e configurare MySQL Cluster, la versione di punta del database open source più utilizzato al mondo.
Durante la presentazione, Mirko ha condiviso numerose informazioni teoriche e pratiche per comprendere dove, come e quando utilizzare al meglio MySQL Cluster. In questa sessione ha trattato i seguenti punti:
- Valutare MySQL Cluster nel proprio progetto
- Esempi di architettura
- Requisiti hardware/network
- Sessione hands-on
Per saperne di più, scaricate le slide e guardate il video della presentazione del nostro TechAdvisor su http://www.par-tec.it/progettare-installare-gestire-e-ottimizzare-mysql-cluster#progettare
Database come PostgreSQL non possono girare su Kubernetes. Questo è il ritornello che sentiamo continuamente, ma al tempo stesso la motivazione per noi di EDB di abbattere questo muro, una volta per tutte.
In questo webinar parleremo della nostra avventura finora per portare PostgreSQL su Kubernetes. Scopri perché crediamo che fare benchmark di storage e del database prima di andare in produzione porti a una più sana e longeva vita di un DBMS, anche su Kubernetes.
Condivideremo il nostro processo, i risultati fin qui ottenuti e sveleremo i nostri piani per il futuro con Cloud Native PostgreSQL.
The first presentation of the HUG Italy.. The first part is brief description of the last news presented at the Europe Hadoop Summit 2014.
In the second part we talk about some technology for SQL on-hadoop in particular Hive on Tez and Impala
How Big Data and Hadoop Integrated into BMC ControlM at CARFAXBMC Software
Learn how CARFAX utilized the power of Control-M to help drive big data processing via Cloudera. See why it was a no-brainer to choose Control-M to help manage workflows through Hadoop, some of the challenges faced, and the benefits the business received by using an existing, enterprise-wide workload management system instead of choosing “yet another tool.”
Talk divulgativo sull’evoluzione dei sistemi database nel corso negli anni, dalla nascita del modello relazionale fino alla definizione di nuovi modelli per la gestione di dati non strutturati ed esecuzione di elaborazioni dati parallele; in particolare vedremo insieme:
- Proprietà e limiti modello relazionale
- Big Data, Google e Hadoop
- Sharding, Amazon e NoSQL
- Database documentali
- Database a grafo
- Database orientati alle colonne
- Database In-Memory
Introduzione ai Big Data e alla scienza dei dati - Big DataVincenzo Manzoni
Lezione 5 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quinta e ultima lezione si introducono le tecnologie dei Big Data.
Ottimizzazione della gestione dei dati sul cloudNicolò Carandini
Lo spazio dei dati (3Vs): Volume, Velocità e Varietà
Il CAP theorem
Data Modeling
Data Platform Azure solutions
Big Data and ML Azure solutions
Cosmos DB
More Data Consistency options: Bounded staleness, Session, Consistent Prefix
Cosmos DB Security & Compliance
Quality Assurance with TLA+
A Case Study: Venice Time Machine
Per il corso di Sistemi Operativi Avanzati ho studiato l'articolo "Google File System" scritto da Sanjay Ghemawat, Howard Gobioff, e Shun-Tak Leung, inquadrandone il contesto storico, gli obiettivi, le prestazioni e le principali differenze con l'HDFS.
MySQL Tech Tour 2015 - Progettare, installare e configurare MySQL ClusterPar-Tec S.p.A.
Il TechAdvisor Mirko Conte spiega come progettare, installare e configurare MySQL Cluster, la versione di punta del database open source più utilizzato al mondo.
Durante la presentazione, Mirko ha condiviso numerose informazioni teoriche e pratiche per comprendere dove, come e quando utilizzare al meglio MySQL Cluster. In questa sessione ha trattato i seguenti punti:
- Valutare MySQL Cluster nel proprio progetto
- Esempi di architettura
- Requisiti hardware/network
- Sessione hands-on
Per saperne di più, scaricate le slide e guardate il video della presentazione del nostro TechAdvisor su http://www.par-tec.it/progettare-installare-gestire-e-ottimizzare-mysql-cluster#progettare
Database come PostgreSQL non possono girare su Kubernetes. Questo è il ritornello che sentiamo continuamente, ma al tempo stesso la motivazione per noi di EDB di abbattere questo muro, una volta per tutte.
In questo webinar parleremo della nostra avventura finora per portare PostgreSQL su Kubernetes. Scopri perché crediamo che fare benchmark di storage e del database prima di andare in produzione porti a una più sana e longeva vita di un DBMS, anche su Kubernetes.
Condivideremo il nostro processo, i risultati fin qui ottenuti e sveleremo i nostri piani per il futuro con Cloud Native PostgreSQL.
The first presentation of the HUG Italy.. The first part is brief description of the last news presented at the Europe Hadoop Summit 2014.
In the second part we talk about some technology for SQL on-hadoop in particular Hive on Tez and Impala
How Big Data and Hadoop Integrated into BMC ControlM at CARFAXBMC Software
Learn how CARFAX utilized the power of Control-M to help drive big data processing via Cloudera. See why it was a no-brainer to choose Control-M to help manage workflows through Hadoop, some of the challenges faced, and the benefits the business received by using an existing, enterprise-wide workload management system instead of choosing “yet another tool.”
1° Seminario CRUI - GARR: Una Cloud federata per università e ricerca, come u...Jürgen Ambrosi
Il webinar presenterà la cloud federata GARR e i servizi che offre alla comunità dell’università e della ricerca. Il seminario sarà l’occasione per illustrare concretamente come ottenere ed utilizzare i servizi e in che modo le organizzazioni che fanno parte della comunità GARR possano partecipare mettendo in comune le proprie risorse.
Il servizio di Cloud Computing federato realizzato da GARR è disponibile da qualche settimana all'indirizzo cloud.garr.it. ed è stato sviluppato per rispondere alle esigenze della comunità della ricerca e dell’istruzione emerse nel corso di una consultazione pubblica condotta nei mesi scorsi.
Attualmente sono disponibili servizi IaaS (Macchine Virtuali e Virtual Datacenter) e PaaS (self-service deployment di applicazioni cloud).
Con il servizio di Virtual Datacenter un’organizzazione può ottenere una determinata quantità di risorse di calcolo e storage da gestire in autonomia,suddividendole tra progetti e assegnandole ai propri utenti, esattamente come se disponesse di una propria infrastruttura cloud.
Il servizio di self-service deployment, permette agli utenti di installare pacchetti che compongono applicazioni cloud complete.Ad esempio, il pacchetto “Moodle in the Cloud”, consente con un click di installare in modo automatico tutto quanto serve per mettere in esercizio sul cloud un sito di e-learning basato su Moodle.
Circa 200 pacchetti sono già disponibili ed altri possono essere sviluppati e condivisi da GARR stesso o dalla comunità di utilizzatori, a supporto di attività di formazione e scientifica, ad esempio per la realizzazione di laboratori didattici o progetti di ricerca.
La piattaforma e i servizi sono basati su tecnologie open source e in particolare su OpenStack, la piattaforma cloud più diffusa e sostenuta da una comunità di oltre 40.000 sviluppatori.
Le macchine virtuali possono utilizzare sistemi operativi sia Linux che Windows.
Una specificità della cloud GARR è la sua architettura federata, aperta alla partecipazione da parte di gruppi o istituzioni, che possono attivare una regione della cloud e mettere a disposizione le proprie risorse attraverso un’operazione semplice e guidata. Questo approccio vuole favorire la nascita di una comunità di utenti e specialisti che condividano esperienze nell'ambito del cloud computing.
Master Informatica del Testo – Edizione elettronica - Arezzo - 2012Walter Volpi
Università degli studi di Siena – Sede di Arezzo
Dipartimento di Teoria e documentazione delle tradizioni culturali
Master Informatica del Testo – Edizione elettronica
2012
Simple Cloud API: accesso semplificato al cloud computingFrancesca1980
In questa sessione verrà presentato il progetto open source Simple Cloud API per l'accesso semplificato ai servizi di cloud computing. Il progetto, nato dalla volontà di Zend Technologies, IBM e Microsoft, offre un API semplificata per l'accesso a differenti servizi di cloud computing. I servizi attualmente implementati sono di File Storage, Document Storage e Simple Queue sui sistemi cloud di Amazon, Windows Azure e Nirvanix (in futuro anche Rackspace e GoGrid). Nella presentazione, dopo una breve introduzione ai servizi di cloud computing ed alla loro rilevanza dal punto di vista dello sviluppo delle applicazioni web, verranno presentati degli esempi in PHP per l'utilizzo del Simple Cloud API
MySQL Tech Tour 2016 - Database-as-a-Service con MySQL e Oracle OpenstackPar-Tec S.p.A.
In occasione dell’Oracle MySQL Tech Tour 2016, il TechAdvisor Daniele Marcocci ha illustrato come Oracle OpenStack e MySQL Enterprise Edition permettono di realizzare un DBaaS funzionale e produttivo.
Nella sessione introduttiva sono stati trattati i seguenti punti:
- Capiamo l’architettura
- Approfondimenti
- Database-as-a-Service
Per saperne di più, scaricate le slide e guardate il video della presentazione del nostro TechAdvisor su http://www.par-tec.it/database-as-a-service-con-mysql-e-oracle-openstack
2. Qualcosa su di me…
Messina, 21/03/2015 Dario Catalano
dario@catalano.email
Linkedin
Google+
Twitter
3. Di cosa parleremo
Messina, 21/03/2015 Dario Catalano
• Cos’è Apache Hadoop?
• Un po’ di storia
• L’algoritmo Map-Reduce
• L’architettura
• Cloudera
• Esempio Applicativo
• Configurazione
• Amministrazione
• Sicurezza
• «Estensioni» di Hadoop
• Bibliografia
4. Cosa è Hadoop?
Messina, 21/03/2015 Dario Catalano
Framework
Cluster
Big Data
Map ReduceDistribuited File
System
API
Fault tollerant
Cloud
Scalable
Cost effective
Extensible
Flexibile
Java
5. Un po’ di storia
Messina, 21/03/2015 Dario Catalano
2003 Google File System
6. Un po’ di storia
Messina, 21/03/2015 Dario Catalano
2004 Google Map Reduce
7. Un po’ di storia
Messina, 21/03/2015 Dario Catalano
2005
Doug Cutting Mike Cafarella
8. Un po’ di storia
Messina, 21/03/2015 Dario Catalano
2006 2011 2013
9. Map Reduce » Step I
Messina, 21/03/2015 Dario Catalano
…
…
…
…
…
Mapper
Mapper
Mapper
Mapper
Datas
…
Intermediate Datas
Record
Record
Record
Record
Record
Record
Record
Partitionated Datas
Record
Record
Record
Record
Record
Record
Record
Record
Record
Map Tasks
(K1,Va) (K2,Vb)
(K3,Vc) (K4,Vd)
(K5,Ve) (K6,Vf)
…
(K1,Vc) (K5,Vc)
(K5,Vf) (K2,Vd)
(K1,Ve) (K1,Vf)
…
(K3,Va) (K2,Va)
(K1,Vc) (K7,Vd)
(K2,Vb) (K3,Vf)
…
(K4,Va) (K2,Vb)
(K8,Vc) (K7,Vf)
(K2,Ve) (K5,Vf)
10. Map Reduce » Step II
Messina, 21/03/2015 Dario Catalano
…
Intermediate Datas
(K1,Va) (K2,Vb)
(K3,Vc) (K4,Vd)
(K5,Ve) (K6,Vf)
…
(K1,Vc) (K5,Vc)
(K5,Vf) (K2,Vd)
(K1,Ve) (K1,Vf)
…
(K3,Va) (K2,Va)
(K1,Vc) (K7,Vd)
(K2,Vb) (K3,Vf)
…
(K4,Va) (K1,Vb)
(K8,Vc) (K7,Vf)
(K2,Ve) (K5,Vf)
K1 Va Ve
K2
K3
K4
Vf Vb
K5 Ve Vf Vc Vf
K6
K7 Vd
K8 Vc
Vc
Vb
Vc
Va Vd Ve Vb
Vc Va Vf
Vd Va
Vf
Vf
Intermediate DatasShuffle, Partitionig and Sorting
11. Map Reduce » Step III
Messina, 21/03/2015 Dario Catalano
K1 Va Ve
K2
K3
K4
Vf Vb
K5 Ve Vf Vc Vf
K6
K7 Vd
K8 Vc
Vc
Vb
Vc
Va Vd Ve Vb
Vc Va Vf
Vd Va
Vf
Vf
Intermediate Datas
Reducer …
Record
Record
Reducer …
Record
Record
Reduce Tasks
…
Record
Record
Record
Record
Record
Record
Record
Record
Output Datas
16. Architettura » HDFS » NameNode
Messina, 21/03/2015 Dario Catalano
• Ruolo Master
• Responsabile dei Metadata
Struttura directory, file e relativi permessi
Posizione dei blocchi
Stato dei files
Identità dei DataNode caricata al boot
Filename dei blocchi nei fs locale dei DataNode
• Dati in memoria
24. Architettura » Map Reduce v1
Messina, 21/03/2015 Dario Catalano
• Master / Slave
• TaskTracker:
Creazione task slot-based
JVM fork
Heartbeat
• JobTracker:
Responsabile/Gestore del Job
Colloquia con il NameNode
Effettua recovery di task falliti
Punto debole dell’architettura
25. Architettura » Master / Slave
Messina, 21/03/2015 Dario Catalano
• Hdfs e MapReduce nello stesso nodo = minore traffico di rete = maggiore
performance
26. Architettura » YARN
Messina, 21/03/2015 Dario Catalano
• Container
Unità computazionale
Controlla CPU e RAM assegnate
• Node Manager
Riceve richieste del RS (Slave)
Gestisce ciclo vita dei container
Gestisce logging e servizi ausiliari
• Resource Manager:
Riceve richieste da AM
Schedula con politiche variabili (Fair,
Capacity,…)
• Application Master
Dipende dal tipo di applicazione
Separazione delle responsabilità =
Scalabilità
27. Architettura » YARN
Messina, 21/03/2015 Dario Catalano
1. CL -> RM (inizio applicazione)
2. RM -> NM (richiesta nuovo AM)
3. AM -> RM (registrazione)
4. AM -> RM (richiesta risorse)
5. AM -> NM(s) (avvio containers)
6. CS -> AM (containers eseguono il
codice ed inviano checks)
7. CL -> AM (client chiede stato
applicazione)
8. AM -> RM (shutdown)
28. Architettura » YARN
Messina, 21/03/2015 Dario Catalano
Hadoop 1.x Hadoop 2.x
Tipo di elaborazione Solo Map Reduce Implementazioni multiple
Gestione delle risorse
e delle elaborazioni
Unica (JobTracker)
Separata (ResourceManager e
Application Master)
Scalabilità di HDFS Singolo NameNode HDFS Federation
Affidabilità di HDFS Singolo NameNode HDFS High Availability
Limite Nodi 4.000 10.000
29. HostHost
Processo
Modalità di Esecuzione
Messina, 21/03/2015 Dario Catalano
Singolo Processo
NameNode
Job
Tracker
Task
Tracker
Pseudo Distribuita
Data
Node
Secondary
NameNode
Host
NN
JT
Host
DN
TT
M
Host
DN
TT
R
Distribuita
30. Prima del codice…
Messina, 21/03/2015 Dario Catalano
• Servizi, architetture e
formazione su Apache Hadoop
• Apache Main Contributor
• CDH (Cloudera Distribution
with Hadoop)
31. Cloudera Quickstart VM
Messina, 21/03/2015 Dario Catalano
• CDH 5 è basata su Linux Centos 6.4
• Contiene:
HDFS, MapReduce, Hadoop Common, Hbase, Hive, Pig, Oozie, Sqoop, Flume,
ZooKeeper, Hue, Whirr, Mahout, Cloudera Manager
• Disponibile per VMWare, KVM, Oracle Virtualbox
• Requisititi Minimi:
4 Gb RAM (8 raccomandati)
64 bit host OS
• Scaricabile da:
http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-
x.html
32. Word Count API «vecchia»
Messina, 21/03/2015 Dario Catalano
import java.io.IOException;
...
import org.apache.hadoop.mapred.TextOutputFormat;
public class WordCountOldAPI {
public static void main(String[] args) throws Exception {
JobConf conf = new JobConf(WordCountOldAPI.class);
conf.setJobName("wordcount");
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
conf.setMapperClass(MyMapper.class);
conf.setCombinerClass(MyReducer.class);
conf.setReducerClass(MyReducer.class);
conf.setNumReduceTasks(1);
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);
FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
JobClient.runJob(conf);
}
33. Word Count API «vecchia»
Messina, 21/03/2015 Dario Catalano
public static class MyMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text,
IntWritable> {
public void map(LongWritable key, Text value,OutputCollector<Text, IntWritable> output, Reporter
reporter) throws IOException {
output.collect(new Text(value.toString()), new IntWritable(1));
}
}
public static class MyReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text,
IntWritable> {
public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output,
Reporter reporter) throws IOException {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
}
}
34. La «nuova» API
Messina, 21/03/2015 Dario Catalano
• Introdotta con Hadoop 0.20 (2009)
• Nuovo package
• Più concisa e compatta
• Più pulita e leggibile
• Permette un controllo del Job più completo ed accurato
• Non confondere versione API con versione dell’architettura (1.x o
2.x)
35. Word Count API «nuova»
Messina, 21/03/2015 Dario Catalano
import java.io.IOException;
...
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class WordCountNewAPI {
public static void main(String[] args) throws Exception {
Job job = Job.getInstance(new Configuration());
job.setJarByClass(WordCountNewAPI.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
boolean status = job.waitForCompletion(true);
if (status) System.exit(0)
else System.exit(1);
}
36. Word Count API «nuova»
Messina, 21/03/2015 Dario Catalano
public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
public void map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException {
String w = value.toString();
context.write(new Text(w), new IntWritable(1));
}
}
public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException,
InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
context.write(key, new IntWritable(sum));
}
}
}
38. Configurazione
Messina, 21/03/2015 Dario Catalano
• Configurazione XML per ogni nodo
• *-default.xml nei JAR di Hadoop, *-site.xml nella cartella di
configurazione
• 4 tipi file principali:
core-*.xml
hdfs-*.xml
mapred-*.xml
yarn-*.xml
• Precedenza delle proprietà definite in varie posizioni:
Oggetto Job o JobConf all’interno del codice
File *-site.xml all’interno del nodo Client
File *-site.xml all’interno del nodo Slave
File *-default.xml nei JAR (uguali in tutti i nodi)
39. Amministrazione e Monitoring
Messina, 21/03/2015 Dario Catalano
• Command Line Interface
• Log files
• Interfacce Web per ogni processo
• YARN REST API
• JMX
• Manager Tools
Cloudera Manager
Ambari
40. Sicurezza
Messina, 21/03/2015 Dario Catalano
• Inizialmente trascurata (solo dati pubblici)
• Hadoop solo su reti private
• Sviluppo software di terze parti:
Cloudera Sentry, IBM InfoSphere Optim Data Masking, Intel's secure Hadoop distribution,
DataStax Enterprise, DataGuise for Hadoop,ecc.
• Dalla versione 0.20.x:
Autenticazione tra servizi Kerberos
Autenticazione Web Console personalizzabile
HDFS Permessi ed ACL
Autenticazioni Token based per diminuire overhead
Possibile crittazione delle connessioni
• Problemi ancora da risolvere
HDFS non crittato
Difficile integrazione in ambienti non Kerberos
Regole di autorizzazione non sufficientemente flessibili
Modello complessivo della sicurezza complicato
• Intel Project Rhino
43. HIVE
Messina, 21/03/2015 Dario Catalano
• Database
• Data wharehouse e BI
• Linguaggio dichiarativo
• Tabelle -> File su HDFS
• SQL-like query -> MapReduce
• Tabelle (managed ed esterne),
viste, partizioni, … = flessibilità
organizzativa.
44. Pig
Messina, 21/03/2015 Dario Catalano
• Scripting
• Data flow e Pipelining
• ETL oriented
• Linguaggio procedurale
• LOAD, FILTER, JOIN, GROUP,
STORE,… = controllo del dato
step by step
45. HCatalog
Messina, 21/03/2015 Dario Catalano
• Integrazione di varie
tecnologie Hadoop based
(HIVE, Pig, MapReduce)
• Astrazione per rendere
uniformi BI e ETL
• REST API
50. Bibliografia
Messina, 21/03/2015 Dario Catalano
• Libri
Pro Hadoop Second Edition, Sameer Wadkar, Madhu Siddalingaiah, Jason Venner , Apress
Hadoop: The Definitive Guide Third Edition, Tom White, O’ Reilly
• Web
Apache Hadoop Official Site, https://hadoop.apache.org/
What is Hadoop?, http://www-01.ibm.com/software/data/infosphere/hadoop/
Cloudera, http://www.cloudera.com/
Introduzione ad Hadoop, https://paolobernardi.wordpress.com/2011/10/09/introduzione-ad-hadoop/
Introduction to Hadoop 2.0 and advantages of Hadoop 2.0, http://www.edureka.co/blog/introduction-to-
hadoop-2-0-and-advantages-of-hadoop-2-0/
The New Hadoop API 0.20.x, http://sonerbalkir.blogspot.it/2010/01/new-hadoop-api-020x.html
Big Data Security: The Evolution of Hadoop’s Security Model,
http://www.infoq.com/articles/HadoopSecurityModel