SlideShare a Scribd company logo
1 of 23
Download to read offline
Logical Data Lake
Costruire un Data Lake polifunzionale e
decentralizzato per l'analisi dei dati
Paolo Crivelli
Technical Sales Director Italy, Denodo
Andrea Zinno
Data Evangelist, Denodo
Agenda1. Data Virtualization: Introduzione
2. Demo
3. Q&A
4. Next steps
3
Una definizione di Data Lake - Wiktionary
https://en.wiktionary.org/wiki/data_lake
Etimologia
Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake»,
descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data
Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per
un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale,
dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago
possono per immergersi, per fare una nuotata o per prelevare campioni»
4
Una definizione di Data Lake - Wiktionary
https://en.wiktionary.org/wiki/data_lake
Etimologia
Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake»,
descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data
Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per
un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale,
dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago
possono per immergersi, per fare una nuotata o per prelevare campioni»
5
I laghi sono belli, ma attenti alle insidie…
Un Data Lake, quindi, nella sua libertà di consentire usi differenti è qualcosa di molto
potente, ma, al contempo, ci espone a qualche rischio e, ad esempio, sempre
riprendendo l’analogia con lo specchio d’acqua, alcune delle sorgenti potrebbero
essere sporche o addirittura inquinate, oppure ci potrebbero essere delle correnti
improvvise o degli scogli affioranti.
In definitiva, quindi, dobbiamo sempre ricordare che, citando un celebre spot del
1994, «la potenza è nulla senza il controllo».
6
Data Lake – Il ruolo di Hadoop
Un Data Lake è un repository che contiene una
grande quantità di dati grezzi, nel loro formato
nativo. La struttura e i requisiti dei dati non sono
definiti fino a quando i dati non sono necessari e,
quindi, utilizzati
Le esigenze di analisi che siano
realmente Data Driven e quelle che ci
arrivano dalla Data Science,
alimentano e sostengono questo
concetto, proprio per la sua semplicità,
potenza e versatilità
Hadoop e il suo ecosistema
forniscono le fondamenta di ciò che
un Data Lake richiede: capacità di
memorizzazione e potenza
elaborativa
Un approccio basato sui Data Lake,
sembra inoltre favorire un approccio
ELT piuttosto che ETL, cioè «carica e
poi trasforma», piuttosto che il
contrario
7
Data Lake – Non è tutto oro quel che luccica…
La loro natura è «fisica»
• Sono basati sulla replica e ogni Data Lake richiede che i dati siano copiati all’interno
del suo storage
• La necessità di replica si riflette su tempi di sviluppo maggiori e costi più alti
• Non tutti i dati ben si prestano alla replica
• Dati in realtime: sensori, Cloud, SaaS APIs
• Volumi elevati: Data Warehouse
• Vincoli normativi e politiche interne
Sono quasi sempre pensati per un unico scopo
• L’uso è spesso monopolizzato dai Data Scientists
• Sono nuovi silos di dati e non c’è quai mai un percorso chiaro per come rendere
disponibili i dati ai Business User
• Mancanza della Governance, sicurezza e qualità alle quali sono normalmente abituati i
Business User (ad esempio, quelli offerti da un Data Warehouse)
8
La nascita delle «Logical Architectures»
9
Rick Van der Lans, R20 Consultancy
Multi‐purpose data lakes are data delivery environments developed to support a
broad range of users, from traditional self‐service BI users (e.g. finance, marketing,
human resource, transport) to sophisticated data scientists.
Multi‐purpose data lakes allow a broader and deeper use of the data lake
investment without minimizing the potential value for data science and without
making it an inflexible environment.
10
Il «Multi-Purpose Data Lake» e la Data Virtualization
Natura logica, non fisica
• La replica dei dati è un’opzione, non più una necessità
• Accesso ai dati ampio e flessibile, tempi di sviluppo ridotti, migliore comprensione dei risultati
• Forte integrazione con i sistemi Big Data, garantendo prestazioni eccellenti con grandi volumi di dati
Multi-Purpose
• Migliore accesso e consumo da parte dei Business User
• Governance e monitoraggio migliori e più semplici
• Miglioramento del ROI
11
“Amulti-purpose data lake can become an organization’s universal data delivery system”
Architecting the Multi-Purpose Data Lake with Data Virtualization , Rick Van der Lans, April 2018
Il «Multi-Purpose Data Lake» e la Data Virtualization
12
Virtual Data Lake – Accesso a tutte le sorgenti dati
Punto unico di accesso per tutte le risorse dati,
interne o esterne che siano
▪ Physical Data Lake (tipicamente basati su SQL-
on-Hadoop systems)
▪ Altri database (EDW, ODS, applicazioni, ...)
▪ SaaS APIs (Salesforce, Google, Social Media, …)
▪ Files (in locale, S3, Azure, …)
13
Virtual Data Lake – Prestazioni e ottimizzazione
L'ottimizzatore di Denodo garantisce un'integrazione
nativa con i sistemi MPP, fornendo così
un’importante e ulteriore funzionalità, la Query
Acceleration
Denodo, quando richiesto, può spostare
l'elaborazione all’interno del MPP durante
l'esecuzione di una query
▪ La Potenza del parallelismo all’interno del Virtual Layer
▪ L'elaborazione non viene rallentata nel caso i buffer di
elaborazione non possano essere mantenuti nella
memoria riservata a Denodo (swapping)
14
Virtual Data Lake - Benefici
▪ Un Virtual Data Lake migliora il processo decisionale e accorcia i cicli di
sviluppo
▪ Fa emergere tutti i dati dell'azienda, indipendentemente dalla loro
collocazione fisica e senza la necessità di una loro replica
▪ Elimina i silos di dati, consentendo la loro combinazione a partire da
sorgenti multiple
▪ Un Virtual Data Lake amplia l’adozione rispetto ad uno fisico, migliorando il
ROI e la diffusione delle informazioni
▪ Migliora la Governance e la gestione dei metadati, evitando che il
«lago» si trasformi in «palude»
▪ Estende l’accesso e il consumo da parte dei Business User
▪ Un Virtual Data Lake garantisce le prestazioni necessarie in contesti Big Data
▪ Sfrutta la capacità computazione delle infrastrutture esistenti, senza
interventi specifici, ma grazie alla capacità del ottimizzatore di Denodo
15
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical
Needs, May 2018
When designed properly, DV can speed data integration, lower data latency,
offer flexibility and reuse, and reduce data sprawl across dispersed data
sources.
Due to its many benefits, DV is often the first step for organizations evolving a
traditional, repository-style data warehouse into a Logical Architecture
Demo
Denodo Data Virtualization Platform
16
Technical Sales Director Italy, Denodo
Paolo Crivelli
Demo
17
18
Scenario Demo
Sources
Combine,
Transform
&
Integrate
Consume
Base View
Source
Abstraction
join
group by state
join
Sales Campaign Customer
Qual è l'impatto di una nuova campagna
di marketing a livello nazionale?
• «Offloading» dei Dati storici di in un
cluster Hadoop per ridurre i costi del DWH
• «Campagne di marketing gestite in
un'applicazione cloud esterna»
• «La Nazione di riferimento fa parte della
tabella dei dettagli del cliente,
memorizzata nel DW»
Conclusioni
19
20
Cinque punti da non dimenticare
UNO
Non necessariamente tutti i dati devono confluire in un Data Lake fisico
e una forzatura in tal senso non è consigliabile
DUE
I progetti di Data Lake rappresentano scenari molto complessi, che
possono trarre vantaggio da un livello di «delivery» virtuale del dato
TRE
La virtualizzazione garantisce una solida infrastruttura di Governance,
necessaria per una corretta implementazione di un Data Lake
QUATTRO
La virtualizzazione dei dati non è solo un «Data Access Layer» o un
«Service Layer». È un componente chiave per ogni Data Lake
UNO
DUE
TRE
QUATTRO
Q&A
Next steps
22
Accedi alla piattaforma Denodo Platform in Cloud!
Provala con i nostri Test Drive!
www.denodo.com/TestDrive
INIZIA OGGI STESSO
Google Cloud PlatformAzureAWS
Grazie!
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and
microfilm, without prior the written authorization from Denodo Technologies.

More Related Content

What's hot

Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Denodo
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliDenodo
 
Cloud computing e data center cenni sulle tecnologie orientate al green
Cloud computing e data center cenni sulle tecnologie orientate al green Cloud computing e data center cenni sulle tecnologie orientate al green
Cloud computing e data center cenni sulle tecnologie orientate al green VMEngine
 
The Logical Data Fabric: un posto unico per la data integration (Italian)
The Logical Data Fabric: un posto unico per la data integration (Italian)The Logical Data Fabric: un posto unico per la data integration (Italian)
The Logical Data Fabric: un posto unico per la data integration (Italian)Denodo
 
2011.06.30 scenari applicativi per il cloud computing
2011.06.30   scenari applicativi per il cloud computing2011.06.30   scenari applicativi per il cloud computing
2011.06.30 scenari applicativi per il cloud computingMarco Parenzan
 
Datacenter Dinamics Converged 2014 - Analizzare il Cloud pubblico, privato e...
Datacenter Dinamics Converged 2014  - Analizzare il Cloud pubblico, privato e...Datacenter Dinamics Converged 2014  - Analizzare il Cloud pubblico, privato e...
Datacenter Dinamics Converged 2014 - Analizzare il Cloud pubblico, privato e...VMEngine
 
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rotta
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rottaSe la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rotta
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rottaDenodo
 
Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big DataSolidQIT
 
Wiki for Governance Risk and Compliance
Wiki for Governance Risk and ComplianceWiki for Governance Risk and Compliance
Wiki for Governance Risk and ComplianceFrancesco Magagnino
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & AnalyticsDavide Mauri
 
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...Antonio Di Cecio
 
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...Antonio Di Cecio
 
Smau milano 2012 fabrizio amarilli architettura
Smau milano 2012 fabrizio amarilli architetturaSmau milano 2012 fabrizio amarilli architettura
Smau milano 2012 fabrizio amarilli architetturaSMAU
 
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...Istituto nazionale di statistica
 
Cloud computing, cosa cambia per l'IT?
Cloud computing, cosa cambia per l'IT?Cloud computing, cosa cambia per l'IT?
Cloud computing, cosa cambia per l'IT?Gianluigi Cogo
 
CloudInAction Innovazione Semplice - Marco Salvagno - Kelyan
CloudInAction Innovazione Semplice - Marco Salvagno - KelyanCloudInAction Innovazione Semplice - Marco Salvagno - Kelyan
CloudInAction Innovazione Semplice - Marco Salvagno - KelyanClouditalia Telecomunicazioni
 
Sharing data in a complex organization: the Data Hub pattern applied to the N...
Sharing data in a complex organization: the Data Hub pattern applied to the N...Sharing data in a complex organization: the Data Hub pattern applied to the N...
Sharing data in a complex organization: the Data Hub pattern applied to the N...Data Driven Innovation
 
Cloud Computing: La nuvola intelligente 2016
Cloud Computing: La nuvola intelligente 2016Cloud Computing: La nuvola intelligente 2016
Cloud Computing: La nuvola intelligente 2016Lorenzo Carnevale
 
Cloud Computing: La nuvola intelligente 2015
Cloud Computing: La nuvola intelligente 2015Cloud Computing: La nuvola intelligente 2015
Cloud Computing: La nuvola intelligente 2015Lorenzo Carnevale
 

What's hot (20)

Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
Dati distribuiti e rappresentazione centralizzata, ovvero come valorizzare il...
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendali
 
Cloud computing e data center cenni sulle tecnologie orientate al green
Cloud computing e data center cenni sulle tecnologie orientate al green Cloud computing e data center cenni sulle tecnologie orientate al green
Cloud computing e data center cenni sulle tecnologie orientate al green
 
The Logical Data Fabric: un posto unico per la data integration (Italian)
The Logical Data Fabric: un posto unico per la data integration (Italian)The Logical Data Fabric: un posto unico per la data integration (Italian)
The Logical Data Fabric: un posto unico per la data integration (Italian)
 
2011.06.30 scenari applicativi per il cloud computing
2011.06.30   scenari applicativi per il cloud computing2011.06.30   scenari applicativi per il cloud computing
2011.06.30 scenari applicativi per il cloud computing
 
Datacenter Dinamics Converged 2014 - Analizzare il Cloud pubblico, privato e...
Datacenter Dinamics Converged 2014  - Analizzare il Cloud pubblico, privato e...Datacenter Dinamics Converged 2014  - Analizzare il Cloud pubblico, privato e...
Datacenter Dinamics Converged 2014 - Analizzare il Cloud pubblico, privato e...
 
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rotta
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rottaSe la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rotta
Se la meta è la Self-Service Analytics, il Logical Data Warehouse ne è la rotta
 
Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big Data
 
Wiki for Governance Risk and Compliance
Wiki for Governance Risk and ComplianceWiki for Governance Risk and Compliance
Wiki for Governance Risk and Compliance
 
Business Intelligence & Analytics
Business Intelligence & AnalyticsBusiness Intelligence & Analytics
Business Intelligence & Analytics
 
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...
C.Box Cloud archiviare e gestire con efficienza e con semplicità i contenuti ...
 
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...
Archiviare e gestire con efficienza e con semplicità i contenuti enterprise i...
 
Smau milano 2012 fabrizio amarilli architettura
Smau milano 2012 fabrizio amarilli architetturaSmau milano 2012 fabrizio amarilli architettura
Smau milano 2012 fabrizio amarilli architettura
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...
S. Piunno, Piattaforma Digitale Nazionale Dati - Sessione come l'accesso ai m...
 
Cloud computing, cosa cambia per l'IT?
Cloud computing, cosa cambia per l'IT?Cloud computing, cosa cambia per l'IT?
Cloud computing, cosa cambia per l'IT?
 
CloudInAction Innovazione Semplice - Marco Salvagno - Kelyan
CloudInAction Innovazione Semplice - Marco Salvagno - KelyanCloudInAction Innovazione Semplice - Marco Salvagno - Kelyan
CloudInAction Innovazione Semplice - Marco Salvagno - Kelyan
 
Sharing data in a complex organization: the Data Hub pattern applied to the N...
Sharing data in a complex organization: the Data Hub pattern applied to the N...Sharing data in a complex organization: the Data Hub pattern applied to the N...
Sharing data in a complex organization: the Data Hub pattern applied to the N...
 
Cloud Computing: La nuvola intelligente 2016
Cloud Computing: La nuvola intelligente 2016Cloud Computing: La nuvola intelligente 2016
Cloud Computing: La nuvola intelligente 2016
 
Cloud Computing: La nuvola intelligente 2015
Cloud Computing: La nuvola intelligente 2015Cloud Computing: La nuvola intelligente 2015
Cloud Computing: La nuvola intelligente 2015
 

Similar to Logical Data Lake: polifunzionale e decentralizzato per l'analisi dei dati

La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...Denodo
 
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Clouditalia Telecomunicazioni
 
Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Davide Mauri
 
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...VMUG IT
 
IBM FlashSystem soluzioni storage già pronte per il futuro
IBM FlashSystem soluzioni storage già pronte per il futuroIBM FlashSystem soluzioni storage già pronte per il futuro
IBM FlashSystem soluzioni storage già pronte per il futuroPRAGMA PROGETTI
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Data Driven Innovation
 
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014AFB Net
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSAmazon Web Services
 
Potenzialità degli strumenti di gestione del portafoglio ICT
Potenzialità degli strumenti di gestione del portafoglio ICTPotenzialità degli strumenti di gestione del portafoglio ICT
Potenzialità degli strumenti di gestione del portafoglio ICTAgenda digitale Umbria
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologicoMassimo Romano
 
TBIZ 2012- Dell: La spending review nel data center (2)
TBIZ 2012- Dell: La spending review nel data center (2)TBIZ 2012- Dell: La spending review nel data center (2)
TBIZ 2012- Dell: La spending review nel data center (2)TechnologyBIZ
 
Il percorso verso un real-time business
Il percorso verso un real-time businessIl percorso verso un real-time business
Il percorso verso un real-time businessDedagroup
 
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQLMySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQLPar-Tec S.p.A.
 
Netflix: cos'è, come funziona
Netflix: cos'è, come funzionaNetflix: cos'è, come funziona
Netflix: cos'è, come funzionaFloriana Benedetti
 

Similar to Logical Data Lake: polifunzionale e decentralizzato per l'analisi dei dati (20)

La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
 
No Sql Intro
No Sql IntroNo Sql Intro
No Sql Intro
 
Presentazione bd2
Presentazione bd2Presentazione bd2
Presentazione bd2
 
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
Partner Day Milano - dicembre 2015 - Software Difined Storage. Disaster recov...
 
Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)Datarace: IoT e Big Data (Italian)
Datarace: IoT e Big Data (Italian)
 
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...
Dai tradizionali SAN e NAS allo Storage VM-aware: come Clouditalia ha evoluto...
 
IBM FlashSystem soluzioni storage già pronte per il futuro
IBM FlashSystem soluzioni storage già pronte per il futuroIBM FlashSystem soluzioni storage già pronte per il futuro
IBM FlashSystem soluzioni storage già pronte per il futuro
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
Datamart.pptx
Datamart.pptxDatamart.pptx
Datamart.pptx
 
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014
Data Core e Virtualizzazione dello Storage - Evento Firenze 17 giugno 2014
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
 
Power bi
Power biPower bi
Power bi
 
Data flow
Data flowData flow
Data flow
 
Potenzialità degli strumenti di gestione del portafoglio ICT
Potenzialità degli strumenti di gestione del portafoglio ICTPotenzialità degli strumenti di gestione del portafoglio ICT
Potenzialità degli strumenti di gestione del portafoglio ICT
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologico
 
TBIZ 2012- Dell: La spending review nel data center (2)
TBIZ 2012- Dell: La spending review nel data center (2)TBIZ 2012- Dell: La spending review nel data center (2)
TBIZ 2012- Dell: La spending review nel data center (2)
 
Data Lake
Data LakeData Lake
Data Lake
 
Il percorso verso un real-time business
Il percorso verso un real-time businessIl percorso verso un real-time business
Il percorso verso un real-time business
 
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQLMySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
MySQL Day Milano 2017 - Dalla replica a InnoDB Cluster: l’HA secondo MySQL
 
Netflix: cos'è, come funziona
Netflix: cos'è, come funzionaNetflix: cos'è, come funziona
Netflix: cos'è, come funziona
 

More from Denodo

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoDenodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerDenodo
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?Denodo
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeDenodo
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Denodo
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationDenodo
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Denodo
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardDenodo
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Denodo
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Denodo
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?Denodo
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsDenodo
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityDenodo
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesDenodo
 

More from Denodo (20)

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in Denodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services Layer
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business Landscape
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory Compliance
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me Anything
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usability
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidades
 

Logical Data Lake: polifunzionale e decentralizzato per l'analisi dei dati

  • 1. Logical Data Lake Costruire un Data Lake polifunzionale e decentralizzato per l'analisi dei dati Paolo Crivelli Technical Sales Director Italy, Denodo Andrea Zinno Data Evangelist, Denodo
  • 2. Agenda1. Data Virtualization: Introduzione 2. Demo 3. Q&A 4. Next steps
  • 3. 3 Una definizione di Data Lake - Wiktionary https://en.wiktionary.org/wiki/data_lake Etimologia Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake», descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale, dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago possono per immergersi, per fare una nuotata o per prelevare campioni»
  • 4. 4 Una definizione di Data Lake - Wiktionary https://en.wiktionary.org/wiki/data_lake Etimologia Si deve a James Dixon , CTO di Pentaho, l’aver coniato il termine «Data Lake», descrivendolo, in un post sul suo blog, nel seguente modo: «se si considera un Data Mart come un negozio di acqua in bottiglia - pulito, impacchettato e strutturato per un facile consumo - il Data Lake, al contrario, è un grande specchio d'acqua naturale, dove l’acqua che riempie il lago arriva impetuosa da più sorgenti e gli utenti del lago possono per immergersi, per fare una nuotata o per prelevare campioni»
  • 5. 5 I laghi sono belli, ma attenti alle insidie… Un Data Lake, quindi, nella sua libertà di consentire usi differenti è qualcosa di molto potente, ma, al contempo, ci espone a qualche rischio e, ad esempio, sempre riprendendo l’analogia con lo specchio d’acqua, alcune delle sorgenti potrebbero essere sporche o addirittura inquinate, oppure ci potrebbero essere delle correnti improvvise o degli scogli affioranti. In definitiva, quindi, dobbiamo sempre ricordare che, citando un celebre spot del 1994, «la potenza è nulla senza il controllo».
  • 6. 6 Data Lake – Il ruolo di Hadoop Un Data Lake è un repository che contiene una grande quantità di dati grezzi, nel loro formato nativo. La struttura e i requisiti dei dati non sono definiti fino a quando i dati non sono necessari e, quindi, utilizzati Le esigenze di analisi che siano realmente Data Driven e quelle che ci arrivano dalla Data Science, alimentano e sostengono questo concetto, proprio per la sua semplicità, potenza e versatilità Hadoop e il suo ecosistema forniscono le fondamenta di ciò che un Data Lake richiede: capacità di memorizzazione e potenza elaborativa Un approccio basato sui Data Lake, sembra inoltre favorire un approccio ELT piuttosto che ETL, cioè «carica e poi trasforma», piuttosto che il contrario
  • 7. 7 Data Lake – Non è tutto oro quel che luccica… La loro natura è «fisica» • Sono basati sulla replica e ogni Data Lake richiede che i dati siano copiati all’interno del suo storage • La necessità di replica si riflette su tempi di sviluppo maggiori e costi più alti • Non tutti i dati ben si prestano alla replica • Dati in realtime: sensori, Cloud, SaaS APIs • Volumi elevati: Data Warehouse • Vincoli normativi e politiche interne Sono quasi sempre pensati per un unico scopo • L’uso è spesso monopolizzato dai Data Scientists • Sono nuovi silos di dati e non c’è quai mai un percorso chiaro per come rendere disponibili i dati ai Business User • Mancanza della Governance, sicurezza e qualità alle quali sono normalmente abituati i Business User (ad esempio, quelli offerti da un Data Warehouse)
  • 8. 8 La nascita delle «Logical Architectures»
  • 9. 9 Rick Van der Lans, R20 Consultancy Multi‐purpose data lakes are data delivery environments developed to support a broad range of users, from traditional self‐service BI users (e.g. finance, marketing, human resource, transport) to sophisticated data scientists. Multi‐purpose data lakes allow a broader and deeper use of the data lake investment without minimizing the potential value for data science and without making it an inflexible environment.
  • 10. 10 Il «Multi-Purpose Data Lake» e la Data Virtualization Natura logica, non fisica • La replica dei dati è un’opzione, non più una necessità • Accesso ai dati ampio e flessibile, tempi di sviluppo ridotti, migliore comprensione dei risultati • Forte integrazione con i sistemi Big Data, garantendo prestazioni eccellenti con grandi volumi di dati Multi-Purpose • Migliore accesso e consumo da parte dei Business User • Governance e monitoraggio migliori e più semplici • Miglioramento del ROI
  • 11. 11 “Amulti-purpose data lake can become an organization’s universal data delivery system” Architecting the Multi-Purpose Data Lake with Data Virtualization , Rick Van der Lans, April 2018 Il «Multi-Purpose Data Lake» e la Data Virtualization
  • 12. 12 Virtual Data Lake – Accesso a tutte le sorgenti dati Punto unico di accesso per tutte le risorse dati, interne o esterne che siano ▪ Physical Data Lake (tipicamente basati su SQL- on-Hadoop systems) ▪ Altri database (EDW, ODS, applicazioni, ...) ▪ SaaS APIs (Salesforce, Google, Social Media, …) ▪ Files (in locale, S3, Azure, …)
  • 13. 13 Virtual Data Lake – Prestazioni e ottimizzazione L'ottimizzatore di Denodo garantisce un'integrazione nativa con i sistemi MPP, fornendo così un’importante e ulteriore funzionalità, la Query Acceleration Denodo, quando richiesto, può spostare l'elaborazione all’interno del MPP durante l'esecuzione di una query ▪ La Potenza del parallelismo all’interno del Virtual Layer ▪ L'elaborazione non viene rallentata nel caso i buffer di elaborazione non possano essere mantenuti nella memoria riservata a Denodo (swapping)
  • 14. 14 Virtual Data Lake - Benefici ▪ Un Virtual Data Lake migliora il processo decisionale e accorcia i cicli di sviluppo ▪ Fa emergere tutti i dati dell'azienda, indipendentemente dalla loro collocazione fisica e senza la necessità di una loro replica ▪ Elimina i silos di dati, consentendo la loro combinazione a partire da sorgenti multiple ▪ Un Virtual Data Lake amplia l’adozione rispetto ad uno fisico, migliorando il ROI e la diffusione delle informazioni ▪ Migliora la Governance e la gestione dei metadati, evitando che il «lago» si trasformi in «palude» ▪ Estende l’accesso e il consumo da parte dei Business User ▪ Un Virtual Data Lake garantisce le prestazioni necessarie in contesti Big Data ▪ Sfrutta la capacità computazione delle infrastrutture esistenti, senza interventi specifici, ma grazie alla capacità del ottimizzatore di Denodo
  • 15. 15 Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, May 2018 When designed properly, DV can speed data integration, lower data latency, offer flexibility and reuse, and reduce data sprawl across dispersed data sources. Due to its many benefits, DV is often the first step for organizations evolving a traditional, repository-style data warehouse into a Logical Architecture
  • 16. Demo Denodo Data Virtualization Platform 16 Technical Sales Director Italy, Denodo Paolo Crivelli
  • 18. 18 Scenario Demo Sources Combine, Transform & Integrate Consume Base View Source Abstraction join group by state join Sales Campaign Customer Qual è l'impatto di una nuova campagna di marketing a livello nazionale? • «Offloading» dei Dati storici di in un cluster Hadoop per ridurre i costi del DWH • «Campagne di marketing gestite in un'applicazione cloud esterna» • «La Nazione di riferimento fa parte della tabella dei dettagli del cliente, memorizzata nel DW»
  • 20. 20 Cinque punti da non dimenticare UNO Non necessariamente tutti i dati devono confluire in un Data Lake fisico e una forzatura in tal senso non è consigliabile DUE I progetti di Data Lake rappresentano scenari molto complessi, che possono trarre vantaggio da un livello di «delivery» virtuale del dato TRE La virtualizzazione garantisce una solida infrastruttura di Governance, necessaria per una corretta implementazione di un Data Lake QUATTRO La virtualizzazione dei dati non è solo un «Data Access Layer» o un «Service Layer». È un componente chiave per ogni Data Lake UNO DUE TRE QUATTRO
  • 21. Q&A
  • 22. Next steps 22 Accedi alla piattaforma Denodo Platform in Cloud! Provala con i nostri Test Drive! www.denodo.com/TestDrive INIZIA OGGI STESSO Google Cloud PlatformAzureAWS
  • 23. Grazie! © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.