A Seminar Presentation on Big Data for Students.
Big data refers to a process that is used when traditional data mining and handling techniques cannot uncover the insights and meaning of the underlying data. Data that is unstructured or time sensitive or simply very large cannot be processed by relational database engines. This type of data requires a different processing approach called big data, which uses massive parallelism on readily-available hardware.
This presentation discusses the following topics:
Hadoop Distributed File System (HDFS)
How does HDFS work?
HDFS Architecture
Features of HDFS
Benefits of using HDFS
Examples: Target Marketing
HDFS data replication
Big Data & Analytics (Conceptual and Practical Introduction)Yaman Hajja, Ph.D.
A 3-day interactive workshop for startups involve in Big Data & Analytics in Asia. Introduction to Big Data & Analytics concepts, and case studies in R Programming, Excel, Web APIs, and many more.
DOI: 10.13140/RG.2.2.10638.36162
This is an exam cheat sheet hopes to cover all keys points for GCP Data Engineer Certification Exam
Let me know if there is any mistake and I will try to update it
A Seminar Presentation on Big Data for Students.
Big data refers to a process that is used when traditional data mining and handling techniques cannot uncover the insights and meaning of the underlying data. Data that is unstructured or time sensitive or simply very large cannot be processed by relational database engines. This type of data requires a different processing approach called big data, which uses massive parallelism on readily-available hardware.
This presentation discusses the following topics:
Hadoop Distributed File System (HDFS)
How does HDFS work?
HDFS Architecture
Features of HDFS
Benefits of using HDFS
Examples: Target Marketing
HDFS data replication
Big Data & Analytics (Conceptual and Practical Introduction)Yaman Hajja, Ph.D.
A 3-day interactive workshop for startups involve in Big Data & Analytics in Asia. Introduction to Big Data & Analytics concepts, and case studies in R Programming, Excel, Web APIs, and many more.
DOI: 10.13140/RG.2.2.10638.36162
This is an exam cheat sheet hopes to cover all keys points for GCP Data Engineer Certification Exam
Let me know if there is any mistake and I will try to update it
A gentle introduction to Apache Spark from the theorem of Resilient Distributed Datasets to deploying software to the core platform, Spark Streaming, and Spark SQL
Hyperspace: An Indexing Subsystem for Apache SparkDatabricks
At Microsoft, we store datasets (both from internal teams and external customers) ranging from a few GBs to 100s of PBs in our data lake. The scope of analytics on these datasets ranges from traditional batch-style queries (e.g., OLAP) to explorative, ‘finding needle in a haystack’ type of queries (e.g., point-lookups, summarization etc.).
eBay has one of the largest Hadoop clusters in the industry with many petabytes of data. This talk will give an overview of how Hadoop and HBase have been used within eBay, the lessons we have learned from supporting large-scale production clusters, as well as how we plan to use and improve Hadoop and HBase moving forward. Specific use cases, production issues and platform improvement work will be discussed.
In the past decade a number of technologies have revolutionized the way we do analytics in banking. In this talk we would like to summarize this journey from classical statistical offline modeling to the latest real-time streaming predictive analytical techniques.
In particular, we will look at hadoop and how this distributing computing paradigm has evolved with the advent of in-memory computing. We will introduce Spark, an engine for large-scale data processing optimized for in-memory computing.
Finally, we will describe how to make data science actionable and how to overcome some of the limitations of current batch processing with streaming analytics.
The data lake has become extremely popular, but there is still confusion on how it should be used. In this presentation I will cover common big data architectures that use the data lake, the characteristics and benefits of a data lake, and how it works in conjunction with a relational data warehouse. Then I’ll go into details on using Azure Data Lake Store Gen2 as your data lake, and various typical use cases of the data lake. As a bonus I’ll talk about how to organize a data lake and discuss the various products that can be used in a modern data warehouse.
An short introduction on Big Query. With this presentation you'll quickly discover :
How load data in BigQuery
How to build dashboard using BigQuery
How to work with BigQuery
and, at last but not least, we've added some best practices
We hope you'll enjoy this presentation and that it will help you to start exploring this wonderful solution. Don't hesitate to send us your feedbacks or questions
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
A gentle introduction to Apache Spark from the theorem of Resilient Distributed Datasets to deploying software to the core platform, Spark Streaming, and Spark SQL
Hyperspace: An Indexing Subsystem for Apache SparkDatabricks
At Microsoft, we store datasets (both from internal teams and external customers) ranging from a few GBs to 100s of PBs in our data lake. The scope of analytics on these datasets ranges from traditional batch-style queries (e.g., OLAP) to explorative, ‘finding needle in a haystack’ type of queries (e.g., point-lookups, summarization etc.).
eBay has one of the largest Hadoop clusters in the industry with many petabytes of data. This talk will give an overview of how Hadoop and HBase have been used within eBay, the lessons we have learned from supporting large-scale production clusters, as well as how we plan to use and improve Hadoop and HBase moving forward. Specific use cases, production issues and platform improvement work will be discussed.
In the past decade a number of technologies have revolutionized the way we do analytics in banking. In this talk we would like to summarize this journey from classical statistical offline modeling to the latest real-time streaming predictive analytical techniques.
In particular, we will look at hadoop and how this distributing computing paradigm has evolved with the advent of in-memory computing. We will introduce Spark, an engine for large-scale data processing optimized for in-memory computing.
Finally, we will describe how to make data science actionable and how to overcome some of the limitations of current batch processing with streaming analytics.
The data lake has become extremely popular, but there is still confusion on how it should be used. In this presentation I will cover common big data architectures that use the data lake, the characteristics and benefits of a data lake, and how it works in conjunction with a relational data warehouse. Then I’ll go into details on using Azure Data Lake Store Gen2 as your data lake, and various typical use cases of the data lake. As a bonus I’ll talk about how to organize a data lake and discuss the various products that can be used in a modern data warehouse.
An short introduction on Big Query. With this presentation you'll quickly discover :
How load data in BigQuery
How to build dashboard using BigQuery
How to work with BigQuery
and, at last but not least, we've added some best practices
We hope you'll enjoy this presentation and that it will help you to start exploring this wonderful solution. Don't hesitate to send us your feedbacks or questions
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Business Intelligence e Business Analytics sono termini che ricorrono ormai quotidianemente. Cosa significano? Che valore portano in una azienda? Come si crea una soluzione di Business Intelligece e di Business Analytics? Che strumenti mette a disposizione la piattaforma Microsoft? In questa sessione andremo ad introdurre tutti gli attori, gli strumenti e le tecnologie che concorrono a realizzare tali soluzioni, vendendone alcune "dal vivo" per capire come si usano ed il grande valore aggiunto che, in una società sempre più affamata di informazioni, ma ricca solo di dati, possono portare.
Come funzionano i Retrieval-Augmented Generators (RAG) e quanto i database vettoriali sono fondamentali per poter memorizzare e utilizzare le sorgenti dati aziendali e personali?
Introduzione ai Big Data e alla scienza dei dati - Big DataVincenzo Manzoni
Lezione 5 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quinta e ultima lezione si introducono le tecnologie dei Big Data.
La presentazione è stata realizzato per un seminario da tenere durante il corso di Sistemi Operativi Avanzati. Durante la presentazione si è discusso di Hadoop partendo dalle origini fino ad arrivare a parlare di qualche dettaglio più approfondito. Non si è scelto di entrare troppo nel dettaglio in quanto in seguito alla presentazione si è tenuta una demo sull'utilizzo di Hadoop su un cluster da noi allestito all'interno dell'università.
Webinar - https://redis.com/webinars-on-demand/redis-non-solo-cache/
Redis è il sistema di caching più utilizzato e conosciuto, sia a livello community, che in ambito enterprise.
Tuttavia i suoi utilizzi non si limitano alla sola cache.
In questo webinar, vedremo come disegnare architetture per sistemi di code, messaging e event-stream.
Inoltre, parte della presentazione sarà dedicata ad una demo che evidenzia step-by-step come implementare Redis per le event-driven-architecture, prendendo spunto da un caso d'uso specifico.
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSAmazon Web Services
Ai giorno nostri, le informazioni sono una risorsa che deve ancora essere esplorata. Con l’evoluzione dei social media e della tecnologia, la raccolta di dati sta crescendo costantemente, raddoppiando ogni due anni poiché viene creato un numero sempre maggiore di flussi di dati. L’utente di Internet medio nel 2017 generava 1,5 GB di dati al giorno, un numero che raddoppia ogni 18 mesi. Un veicolo autonomo può generare da solo 4 TB al giorno. Ogni stabilimento di produzione "smart" genera 1PB al giorno. Tuttavia, il potenziale di utilizzo di questa abbondanza di dati deve ancora concretizzarsi, poiché sempre più compagnie e tecnologie di intelligenza artificiale stanno usando questi dati per fare scoperte e influenzare decisioni chiave. In questa sessione esamineremo lo stato attuale dei Big Data all'interno di AWS e analizzeremo in profondità gli ultimi trend in materia di Big Data, oltre che alcuni casi d'uso industriale. Scopriremo la gamma di servizi AWS per i dati gestiti che permettono ai clienti di concentrarsi sul rendere utili i dati, tra cui Amazon Aurora, RDS, DynamoDB, Redshift, Spectrum, ElastiCache, Kinesis, EMR, Elasticsearch Service e Gluehow. In questa sessione parleremo di questi servizi, mostrando come vengono utilizzati oggi dai nostri clienti e condivideremo la nostra visione per l’innovazione.
Speaker: Giorgio Nobile, Solutions Architect, AWS
Db2 11.1: l'evoluzione del Database secondo IBMJürgen Ambrosi
La gestione dei dati è indubbiamente un segmento chiave per la strategia IBM dei prossimi anni insieme con le tematiche Cognitive e Cloud. In tale ambito la gestione nelle basi dati è soggetta ad una evoluzione significativa verso la convergenza degli ambienti Analitici e Transazionali cosi da portare nei prossimi mesi ad una significativa semplificazione del disegno architetturale. A differenza dei tipici ambienti di business ove i processi transazionali ed analitici sono basati su distinte architetture, l'hybrid transactional analytical processin (HTAP) consentirà di eseguire analisi e transazioni sullo stesso Database senza impattare le prestazioni di tali ambienti. L'obiettivo di tale disegno strategico è abilitare i nostri clienti ad estrarre più valore dai propri dati, fornendo strumenti di analisi dati real-time nel punto esatto di generazione dei dati stessi.
Apache Hadoop HDFS Re-documentation taking into account both the source code of both the existing documentation available to https://hadoop.apache.org/ site. They were identified known software patterns that exist between NameNode and DataNode for the distributed file system management.
Interfacce applicative al Sistema di Catalogazione del progetto MESSIAHCostantino Landino
Progettazione e sviluppo dell’interfaccia di consultazione del sistema di catalogazione.
Concept Web 2.0
Interoperabilità del sistema di catalogazione con il Portale Italiano della Cultura (PICO) del Ministero dei Beni Culturali.
Framework di interoperabilità basata su standard OAI-PMH
Connettività basata su Web Services
Implementazione di Profili Applicativi su Metadati Dublin Core
Interrogazione di Ontologie dei beni culturali
Compatibilità verso standard descrittivi catalografici, geografici, documentali (ICCD, CIDOC, EXIF, DC,..)
2. Cosa è Big Data
La gestione dei dati può comportare query su dati strutturati all’interno di database di
grandi dimensioni, oppure ricerche su file system distribuiti od infine operazioni di
manipolazione, visualizzazione, trasferimento e cancellazione di file e directory
distribuite su più server.
L’analisi computazionale comporta lo sviluppo di metodi ed algoritmi scalabili per la
gestione e l'analisi di Big Data. Per scalabilità, intendiamo metodi che rimangono
veloci, flessibili ed efficienti anche quando la dimensione dell'insieme di dati cresce.
L'analisi dei dati e la modellazione può comportare la riduzione dimensionale, la
suddivisione (clustering), la classificazione (ranking), la previsione e la possibilità di
future estrazioni.
La Visualizzazione può coinvolgere modalità grafiche che forniscono informazioni su
grandi quantità di dati, ricchi di informazioni visive con riepiloghi dei risultati, dove
l’analisi visuale talvolta è il momento stesso in cui i dati vengono valutati.
3. Le 3V – varietà, velocità, volume
Varietà: i dati possono essere strutturati e non strutturati, provenienti da sorgenti
interne, esterna o pubbliche
Velocità: di generazione, di acquisizione, di processamento e gestione
Volume: la quantità dei dati prodotti
Da valutare anche
Complessità: intesa come differenti formati, diverse strutture e diverse sorgenti di
provenienza.
Valore: costo del dato, sia la produzione, l’immagazzinamento e talvolta l’acquisto.
La veridicità del dato: è importante chi certifica il dato.
Il BIG DATA di oggi sarà il LITTLE DATA di domani (tutto dipende dalla capacità
computazionale a disposizione)
4. Big Data Analytics
Analitico : è la scoperta di modelli significativi all’interno dei dati (meangiful
pattern)
Le analisi analitiche possono portare a riconoscere modelli di dati che possono
essere utili per predire eventi futuri oppure spiegare eventi passati
ad esempio l’incrocio di banche dati fiscali è servito a rintracciare comportamenti
fraudolenti
Invece l’analisi dei comportamenti utente su un sevizio di WEB-TV o IP-TV, serve
a predire le loro abitudine televisive
Per approfondire:
http://stattrak.amstat.org/2014/07/01/bigdatasets/
6. Come affrontare BIG DATA
L’esplosione della produzione ed immagazzinamento di dati che si è avuto negli
ultimi venti anni ha portato allo sviluppo di molteplici metodologie, algoritmi e
tecnologie per affrontare queste problematiche
Big data analytics: l’utilizzo di algoritmi matematici, statistiche e machine learning
(apprendimento evolutivo di sistemi computazionali) per analizzare dati prodotti
sempre con maggiore velocità, varietà, volume e complessità
Big models: sviluppo di nuove teorie e metodi che si basano su modelli finalizzati
all’utilizzo ed interpretazione del dato
New Insights: provvedere a ridurre le differenze tra teoria e pratica fornendo
soluzioni che offrono un modello collaborativo tra organizzazioni interconnesse e
multidisciplinari
7. GESTIRE BIG DATA CON HADOOP
SQL, HADOOP e MAP REDUCE sono tre strumenti comuni per gestire grandi
quantità di dati
HADOOP si compone di diversi tool
HDFS (HADDOP DISTRIBUTED FILE SYSTEM) è un file system distribuito su cluster
o su cloud
HADOOP MAP REDUCE è un pattern per analizzare dati in ambienti cloud
APACHE PIG è un framework costruito in ambiente HADOOP (per scherzare si
può dire che come un maiale mangia dati e produce report e non si butta via
niente)
APACHE SPARK è un motore di ricerca per processare dati distribuiti in larga scala
8. Apache Hadoop
Apache Hadoop è un framework che consente l'elaborazione distribuita di grandi
insiemi di dati attraverso cluster di servers, oppure sui servizi di cloud computing,
come Amazon Elastic Compute Cloud (EC2). Questo è possibile attraverso
l’utilizzo di modelli di programmazione semplici. È stato progettato per scalare
da singolo server a migliaia di macchine distribuite, ognuna delle quali offre
capacità di calcolo e di immagazzinamento. Rileva e gestisce gli errori a livello di
strato applicativo.
I suoi principali componenti sono
HDFS
MAP REDUCE
9. Confronto MAP REDUCE - SQL
HADOOP può gestire sia dati strutturati che non strutturati
Se lavori con dati strutturati le due tecnologie sono complementari, in quanto
SQL si può utilizzare su HADOOP come motore di ricerca
Mentre HADOOP lavora su cluster esistenti (ad esempio raccogliendo file di log
da batterie di server) per avere un RDBMS relazionale devi comprare un
Hardware apposito
Hadoop utilizza il principio key-value invece della relazione fra tabelle
SQL è un linguaggio dichiarativo di alto livello mentre MAP REDUCE si basa su
linguaggi funzionali
10. Come funziona HDFS
Blocchi: un file in ingresso viene suddiviso in blocchi e salvato su più nodi cluster
Ogni blocco è scritto una solo volta e può essere processato attraverso MAP
REDUCE framework
I dati sono automaticamente replicati in caso di problemi
I nodi si dividono in nodi nome e nodi data
Sui nodi nome è annotato a che file appartiene e dove è salvato il blocco
Sui nodi data sono salvati i blocchi
11. L’ecosistema del BIG DATA
I BIG DATA presentano diverse framework, librerie, strumenti e piattaforme con cui
poter operare
Frameworks: Hadoop Ecosystem, Apache Spark, Apache Storm, Apache Pig,
Facebook Presto
Patterns: Map Reduce, Actor Model, Data Pipeline
Piattoforme: Cloudera, Pivotal, Amazon Redshift, Google Compute Engine,
Elastichsearch
Tra questi sottolineiamo
Apache Mahout: una libreria per machine learning e data mining
Apache Pig: un linguaggio di alto livello ed un framework per l’analisi di flussi dati e
calcolo parallelo
Apache Spark: un motore di ricerca veloce per Hadoop. Spark fornisce un semplice
modello di programmazione che supporta diverse tipologie di applicazioni tra cui ETL
(Extract, Transform, Load), machine learning, stream processing e calcolo di grafici.
12. DATA SCHEMA
I dati possono essere acquisiti in vari formati strutturati,
non strutturati, testo, binari, ….
Hadoop utilizza una nuova gestione del dato chiamato
schema: lo schema è un insieme di istruzioni o un
template che a partire dal dato immagazzinato tira fuori
un risultato da mostrare all’utente finale o da sottoporre
a nuove trasformazioni
Rispetto all’immagazzinamento relazionale il dato viene
salvato una sola volta e quello che cambia è la
visualizzazione che ne viene prodotta verso l’utente
finale
Schema possono utilizzare molti modelli computazionali
come ad esempio le reti neurali, la logica fuzzy, ..
13. Il modello MAP REDUCE (map reduce
pattern)
Si compone di tre fasi
MAPPA (Map)
Rimescola (Shuffle)
Riduci (Reduce)
Nel video della pagina seguente questi fasi sono presentate per un algoritmo che
calcolo quante volte un anno è presente in un file immagazzinato in HDFS. Il file
è diviso in più blocchi, ognuno salvato su un differente nodo.
Si vuole sapere quante volte ad esempio il 2002 è citato
15. Apache PIG
Apache PIG si basa su HDFS e Map Reduce
Può processare dati in ogni formato tabellare, tab separetd, formati nativi. Possono
essere aggiunte primitive per il processamento dei dati
Operazioni sui dati: relazionali, cartelle nidificate, semistrutturati, destrutturati
Può girare su macchina singola, in pseudo-cluster, cluster o in ambiente cloud
Fornisce un motore di ricerca per effettuare analisi su flussi di dati con le modalità del
calcolo parallelo
Include un linguaggio Latin Pig per eseguire operazioni su i dati
Pig latin include operazioni con Keyword comuni come FILTER, JOIN SORT, GROUP,
FOREACH, LOAD, STORE, … per facilitare l’apprendimento per chi viene da linguaggi
tipo script o SQL
È un linguaggio molto potente che riduce i tempi di sviluppo ed esprime complesse
trasformazioni di dati in poche righe di codice
16. PIG LATIN
Pig LATIN è un linguaggio che permette di descrivere come il dato proveniente
da uno o più input deve essere processato, immagazzinato e veicolato verso uno
o più output.
PIG LATIN è un linguaggio a grafo aciclico diretto (DAG), in altre parole non ha
cicli come l’SQL. Quindi non ci sono istruziono tipo: if, loop, for
PIG LATIN permette di addizionare User Defined Functions (UDF) da altri
linguaggi, questo permette di avere librerie con funzioni per i calcoli statistici e
data mining
Un classico script in PIG Latin si compone di
Un’operazione di LOAD che carica I dati da uno o più sorgenti
Una serie di trasformazioni sul dato (FILTER, GROUP, FOREACH,..)
Un’operazione di STORE che immagazina il risultato finale
Un’operazione di DUMP che mostra il risultato verso l’utente finale
17. Apache SPARK
Spark è un framework open-source. È scritto in Scala che è un linguaggio
funzionale implementato per girare su una Java Virtual machine
Evita colli di bottiglia in quanto il dato è distribuito quando si immagazzina
È simile ad Hadoop Map Reducer in quanto alloca gli ordini di processamento sui
nodi dove il dato è immagazzinato
Può immagazzinare i dati nella memoria dei nodi dato
È molto versatile in quanto può utilizzare una ricca collezione di API fornite
tramite JAVA, SCALA, PYTHON. Dispone anche di shell, scritte in PYTHON e
SCALA
Occorrono meno righe di codice se confrontato con Hadoop MR
In SPARK si possono utilizzare in unico ambiente: SQL, primitive per il flusso dati
ed algoritmi analitici complessi
18. Set di dati distribuiti resilienti (Resilient
Distributed Datasets - RDD)
In ingegneria, la resilienza è la capacità di un materiale di assorbire energia di
deformazione elastica
Ogni driver Spark ha la possibilità di lanciare operazioni in parallelo su un cluster
Il driver è il programma che contiene la funzione main(). Definisce anche quali
sono gli insiemi dei dati dove eseguire le operazioni
Per eseguire le operazioni Spark gestisce un insieme di nodi (esecutori), così le
operazioni verranno eseguite in parallelo su di essi
Il programma Driver per accedere a Spark usa un oggetto SparkContext, che
agisce come connettore verso il cloud. Una volta che viene inizializzato può
iniziare a costruire un RDD (Resilient Distributed Datasets)
19. RDD in Spark
Un RDD è una collezione di elementi distribuita
Spark crea un RDD, oppure lo trasforma, oppure esegue dei calcoli su un RDD
per avere un risultato
Gli RDD sono
Collezioni di oggetti sparsi all’interno di un cluster o di un cloud
Collezioni derivate da trasformazioni ( ad esempio la mappature o la lista estratta
da oggetti immagazzinati in precedenza)
Spark provvede alla capacità di controllare la persistenza di questi oggetti (ad
esempio alcuni possono essere in RAM)
Se alcuni RDD vengono fortuitamente distrutti, Spark provvede a ricostruirli
20. Operazioni SPARK su RDD
Le operazioni che si possono fare in Spark
sugli RDD sono di due tipi
Trasformazioni: da un RDD ritorna un altro
RDD attraverso operazioni tipo map, filter,
join
Azioni: operazioni che ritornano un
risultato o lo immagazzinano come ad
esempio count, reduce, collect.
21. FINE PRESENTAZIONE
Grazie per la cortese attenzione
Fonti. BIG DATA from data to decisions. Queensland University of Technology