Watch full webinar here: https://bit.ly/2KFC4j6
Storicamente il data lake viene strutturato come una piattaforma centralizzata di archiviazione dei dati al fine di consentire l'analisi e la gestione di grandi quantitativi di dati, per esempio da parte dei data scientist, e per ridurre i costi di archiviazione.
Al giorno d'oggi, avere successo con questo metodo di lavoro orientato su una repository di dati centralizzata, è reso più problematico dall'esplosione del big data, dalle nuove regole sulla privacy dei dati e dalle restrizioni intra-dipartimentali. In questo webinar discuteremo del perché i data lake multifunzionali e decentralizzati sono il futuro dell'analisi dei dati.
Partecipa a questa sessione per imparare:
- Le restrizioni del data lake fisico monofunzionale;
- Come costruire un Logical Datalake multifunzionale per i business users aziendali;
- I casi d'uso più recenti che rendono necessari un data lake multifunzionale e decentralizzato;
GenAI y el futuro de la gestión de datos: mitos y realidades
Logical Data Lake: polifunzionale e decentralizzato per l'analisi dei dati
1. Logical Data Lake
Costruire un Data Lake polifunzionale e
decentralizzato per l'analisi dei dati
Paolo Crivelli
Technical Sales Director Italy, Denodo
Andrea Zinno
Data Evangelist, Denodo
3. 3
Una definizione di Data Lake - Wiktionary
https://en.wiktionary.org/wiki/data_lake
Etimologia
Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake»,
descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data
Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per
un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale,
dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago
possono per immergersi, per fare una nuotata o per prelevare campioni»
4. 4
Una definizione di Data Lake - Wiktionary
https://en.wiktionary.org/wiki/data_lake
Etimologia
Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake»,
descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data
Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per
un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale,
dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago
possono per immergersi, per fare una nuotata o per prelevare campioni»
5. 5
I laghi sono belli, ma attenti alle insidie…
Un Data Lake, quindi, nella sua libertà di consentire usi differenti è qualcosa di molto
potente, ma, al contempo, ci espone a qualche rischio e, ad esempio, sempre
riprendendo l’analogia con lo specchio d’acqua, alcune delle sorgenti potrebbero
essere sporche o addirittura inquinate, oppure ci potrebbero essere delle correnti
improvvise o degli scogli affioranti.
In definitiva, quindi, dobbiamo sempre ricordare che, citando un celebre spot del
1994, «la potenza è nulla senza il controllo».
6. 6
Data Lake – Il ruolo di Hadoop
Un Data Lake è un repository che contiene una
grande quantità di dati grezzi, nel loro formato
nativo. La struttura e i requisiti dei dati non sono
definiti fino a quando i dati non sono necessari e,
quindi, utilizzati
Le esigenze di analisi che siano
realmente Data Driven e quelle che ci
arrivano dalla Data Science,
alimentano e sostengono questo
concetto, proprio per la sua semplicità,
potenza e versatilità
Hadoop e il suo ecosistema
forniscono le fondamenta di ciò che
un Data Lake richiede: capacità di
memorizzazione e potenza
elaborativa
Un approccio basato sui Data Lake,
sembra inoltre favorire un approccio
ELT piuttosto che ETL, cioè «carica e
poi trasforma», piuttosto che il
contrario
7. 7
Data Lake – Non è tutto oro quel che luccica…
La loro natura è «fisica»
• Sono basati sulla replica e ogni Data Lake richiede che i dati siano copiati all’interno
del suo storage
• La necessità di replica si riflette su tempi di sviluppo maggiori e costi più alti
• Non tutti i dati ben si prestano alla replica
• Dati in realtime: sensori, Cloud, SaaS APIs
• Volumi elevati: Data Warehouse
• Vincoli normativi e politiche interne
Sono quasi sempre pensati per un unico scopo
• L’uso è spesso monopolizzato dai Data Scientists
• Sono nuovi silos di dati e non c’è quai mai un percorso chiaro per come rendere
disponibili i dati ai Business User
• Mancanza della Governance, sicurezza e qualità alle quali sono normalmente abituati i
Business User (ad esempio, quelli offerti da un Data Warehouse)
9. 9
Rick Van der Lans, R20 Consultancy
Multi‐purpose data lakes are data delivery environments developed to support a
broad range of users, from traditional self‐service BI users (e.g. finance, marketing,
human resource, transport) to sophisticated data scientists.
Multi‐purpose data lakes allow a broader and deeper use of the data lake
investment without minimizing the potential value for data science and without
making it an inflexible environment.
10. 10
Il «Multi-Purpose Data Lake» e la Data Virtualization
Natura logica, non fisica
• La replica dei dati è un’opzione, non più una necessità
• Accesso ai dati ampio e flessibile, tempi di sviluppo ridotti, migliore comprensione dei risultati
• Forte integrazione con i sistemi Big Data, garantendo prestazioni eccellenti con grandi volumi di dati
Multi-Purpose
• Migliore accesso e consumo da parte dei Business User
• Governance e monitoraggio migliori e più semplici
• Miglioramento del ROI
11. 11
“Amulti-purpose data lake can become an organization’s universal data delivery system”
Architecting the Multi-Purpose Data Lake with Data Virtualization , Rick Van der Lans, April 2018
Il «Multi-Purpose Data Lake» e la Data Virtualization
12. 12
Virtual Data Lake – Accesso a tutte le sorgenti dati
Punto unico di accesso per tutte le risorse dati,
interne o esterne che siano
▪ Physical Data Lake (tipicamente basati su SQL-
on-Hadoop systems)
▪ Altri database (EDW, ODS, applicazioni, ...)
▪ SaaS APIs (Salesforce, Google, Social Media, …)
▪ Files (in locale, S3, Azure, …)
13. 13
Virtual Data Lake – Prestazioni e ottimizzazione
L'ottimizzatore di Denodo garantisce un'integrazione
nativa con i sistemi MPP, fornendo così
un’importante e ulteriore funzionalità, la Query
Acceleration
Denodo, quando richiesto, può spostare
l'elaborazione all’interno del MPP durante
l'esecuzione di una query
▪ La Potenza del parallelismo all’interno del Virtual Layer
▪ L'elaborazione non viene rallentata nel caso i buffer di
elaborazione non possano essere mantenuti nella
memoria riservata a Denodo (swapping)
14. 14
Virtual Data Lake - Benefici
▪ Un Virtual Data Lake migliora il processo decisionale e accorcia i cicli di
sviluppo
▪ Fa emergere tutti i dati dell'azienda, indipendentemente dalla loro
collocazione fisica e senza la necessità di una loro replica
▪ Elimina i silos di dati, consentendo la loro combinazione a partire da
sorgenti multiple
▪ Un Virtual Data Lake amplia l’adozione rispetto ad uno fisico, migliorando il
ROI e la diffusione delle informazioni
▪ Migliora la Governance e la gestione dei metadati, evitando che il
«lago» si trasformi in «palude»
▪ Estende l’accesso e il consumo da parte dei Business User
▪ Un Virtual Data Lake garantisce le prestazioni necessarie in contesti Big Data
▪ Sfrutta la capacità computazione delle infrastrutture esistenti, senza
interventi specifici, ma grazie alla capacità del ottimizzatore di Denodo
15. 15
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical
Needs, May 2018
When designed properly, DV can speed data integration, lower data latency,
offer flexibility and reuse, and reduce data sprawl across dispersed data
sources.
Due to its many benefits, DV is often the first step for organizations evolving a
traditional, repository-style data warehouse into a Logical Architecture
18. 18
Scenario Demo
Sources
Combine,
Transform
&
Integrate
Consume
Base View
Source
Abstraction
join
group by state
join
Sales Campaign Customer
Qual è l'impatto di una nuova campagna
di marketing a livello nazionale?
• «Offloading» dei Dati storici di in un
cluster Hadoop per ridurre i costi del DWH
• «Campagne di marketing gestite in
un'applicazione cloud esterna»
• «La Nazione di riferimento fa parte della
tabella dei dettagli del cliente,
memorizzata nel DW»
20. 20
Cinque punti da non dimenticare
UNO
Non necessariamente tutti i dati devono confluire in un Data Lake fisico
e una forzatura in tal senso non è consigliabile
DUE
I progetti di Data Lake rappresentano scenari molto complessi, che
possono trarre vantaggio da un livello di «delivery» virtuale del dato
TRE
La virtualizzazione garantisce una solida infrastruttura di Governance,
necessaria per una corretta implementazione di un Data Lake
QUATTRO
La virtualizzazione dei dati non è solo un «Data Access Layer» o un
«Service Layer». È un componente chiave per ogni Data Lake
UNO
DUE
TRE
QUATTRO
22. Next steps
22
Accedi alla piattaforma Denodo Platform in Cloud!
Provala con i nostri Test Drive!
www.denodo.com/TestDrive
INIZIA OGGI STESSO
Google Cloud PlatformAzureAWS