Watch full webinar here: https://buff.ly/3Fmc74I
Affinché i progetti di data science abbiano successo, i Data Scientist e i Business Analysts hanno bisogno di accedere a una molteplicità di dati. Tuttavia, consentire l'accesso a tutti i dati tramite un repository centrale integrato è un compito spesso arduo, che può richiedere fino all'80% del tempo del progetto in attività di acquisizione, esplorazione, comprensione e preparazione dei dati.
La Gestione Logica dei dati può aiutare i Data Scientist e i Business Analyst ad accelerare alcune delle attività più tediose e onerose, consentendo loro di concentrarsi sui loro obiettivi e su come i dati consentono di raggiungerli. Poiché la piattaforma di Gestione Logica dei dati dei dati si integra agilmente nell'ecosistema aziendale, i Data scientist o i Business Analyst possono continuare a utilizzare gli strumenti che conoscono, senza dover acquisire nuove competenze per sfruttare compiutamente i dati disponibili.
In questa sessione on-demand, scopriremo insieme come la Gestione Logica dei dati permetta di:
- fornire tutti i dati aziendali, in tempo reale e senza repliche;
- creare e condividere più modelli logici con un semplici operazioni di drag and drop;
- disporre di un catalogo attraverso il quale comprendere facilmente il significato dei dati, le loro relazioni reciproche e la loro origine.
GenAI y el futuro de la gestión de datos: mitos y realidades
La gestione logica dei dati come chiave del successo per Data Scientist e Business Analyst
1. Dati più veloci, analisi più profonde
La gestione logica dei dati come chiave del
successo per Data Scientist e Business Analyst
WEBINAR
Andrea Zinno
Data Evangelist | Denodo
Paolo Crivelli
Technical Sales Director | Denodo
2. AGENDA
• I progetti di Data Science
• Le architetture logiche per la gestione dei dati
• La Data Virtualization
• Demo della Denodo Data Platform
• Domande e risposte
3. I progetti di Data Science
Presto e bene, raro avviene…
5. 5
Come in un viaggio, si perde tempo a fare i bagagli…
La necessità di avere un
campione significativo di dati si
contrappone al costo e al tempo
necessari per averlo, sempre
ammesso che sia possibile farlo
Tuttavia è proprio l’oculata
scelta dei dati e la loro
preparazione che consentono
controllare elementi quali, ad
esempio, la rappresentatività, i
bias, la rilevanza statistica
7. E’ sempre una questione di
aspettative…
Ruoli diversi, aspettative diverse, competenze diverse
8. 8
Data Steward e Data Engineer
• Creare un modello semantico «vivo» che descriva i
dati disponibili.
• Integrare rapidamente nuove fonti dati
• Astrarre dalla diversa struttura tecnica dei dati
• Integrare, modellare, arricchire, descrivere i dati con
un approccio low-code / no-code
• Definire le regole di visibilità e accesso in modo
centralizzato e indipendente dalla natura fisica dei
dati
• Arricchire i dati con elementi caratterizzanti che ne
agevolino la ricerca
Data Scientist e Business Analyst
• Consapevolezza dei dati disponibili
• Facilità nel comprendere cosa i dati
rappresentano, da dove provengono e quali sono
le relazioni con altri dati
• Poter esplorare i dati, sia nella loro componente
logica (intensionale) che fisica (estensionale)
• Ricevere suggerimenti su dati di potenziale
interesse
• Condividere e valutare i dati
• Creare nuovi dati «privati» sulla base di quelli
disponibili
Essere al servizio del guidatore, del meccanico e del progettista
Due ambiti di intervento
9. 9
Due modi diversi di lavorare con e sui dati – Data Steward e Data Engineer
Semplificare la modellazione e l’integrazione dei dati
10. 10
Due modi diversi di lavorare con e sui dati – Data Scientist e Business Analyst
Semplificare la ricerca, la comprensione e l’uso dei dati
12. 12
Due approcci diversi alla gestione dei dati
APPROCCIO «TRADIZIONALE» - ELT/ETL
DATA
SOURCES
Apps Streaming SaaS
Files
OLAP
Hadoop
& NoSQL
Cloud
Stores
Traditional
DB & DW
DATA
USES
Enterprise
Applications
Business
Intelligence
Reporting Portals
Enterprise
Service Bus Web
Mobile
IoT /
Streaming
Data
DATA REPLICATION
Data Warehouse
ETL / ELT
Data Warehouse Data Warehouse
TRANSFORM
APPROCCIO «LOGICO» - DENODO
VIRTUAL
LAYER
DATA
SOURCES
Apps Streaming SaaS
Files
OLAP
Hadoop
& NoSQL
Cloud
Stores
Traditional
DB & DW
DATA
USES
Enterprise
Applications
Business
Intelligence
Reporting Portals
Enterprise
Service Bus Web
Mobile
IoT /
Streaming
Data
No data replication
Real-time data
access
Enterprise-wide
accessibility
13. 13
L’essenza delle architetture logiche
“With the logical centralization of data access,
logical centralization of data governance, audit
trails, security and monitoring is possible.”
– Gartner: Assessing the Relevance of Data Virtualization in Modern Data
Architectures, June 2021
Le architetture logiche
• I Data Consumer accedono ai dati attraverso modelli
semantici, disaccoppiati dalla posizione fisica dei dati e
dalla loro rappresentazione tecnica
Benefici
• Business friendly: i dati sono rappresentati nel
linguaggio di business e non in quello tecnico
• Semplice: semantica, sicurezza e governance
unificate
• Future Proof: in grado di gestire l'evoluzione della
tecnologia e i cambiamenti dell'infrastruttura
annullandone gli impatti sui Data Consumer
Stop collecting, start connecting.
14. 14
Gartner Magic Quadrant for Data Integration Tools, August 2022
When data is constantly produced in massive
quantities and is always in motion and constantly
changing (e.g., IoT platforms and data lakes),
attempts to collect all this data are neither practical
nor viable. This is driving an increase in demand for
connection to data, not just the collection of it.”
15. 15
L’essenza della Data Virtualization
1. Definire un unico punto di accesso per esplorare e interrogare
tutti i dati
• Minimizzare il tempo di ricerca nelle varie fonti di dati
• Arricchire la rappresentazione dei dati con elementi che ne facilitino la comprensione
e l’utilizzo
2. Diffondere una cultura «self-service» per i consumatori dei dati
• Accesso ai dati semplificato, senza necessità di skill di programmazione né di
eccessive interazioni con l’IT
• I Data Consumer possono utilizzare gli strumenti che preferiscono
3. Garantire sicurezza e governance dei dati, rispetto a molteplici
sistemi
• Ridurre le copie di dati, con riduzione del rischio di una loro violazione o di non
conformità
• Evitare rappresentazioni molteplici e incongruenti della realtà
L'IT si focalizza sulla raccolta, l'archiviazione,
la qualità e la sicurezza dei dati
Il Data Consumer si concentra sul consumo dei dati,
sulla loro analisi e sulle decisioni strategiche
Tempi
di
risposta
Volume
dei
dati
16. 16
Denodo per la Data Science - Il concetto di Multi-Purpose Data Lake
“Amulti-purpose data lake can become an organization’s universal data delivery system”
Architecting the Multi-Purpose Data Lake with Data Virtualization , Rick Van der Lans, April 2018
20. 20
https://flic.kr/p/CYT7SS
Fattori esterni che possono influenzare l’utilizzo
• Meteo
• Temperatura
• Pioggia
• Neve
• Momento (Tempo)
• Momento nell’anno, stagione
• Giorno della settimana
• Weekend, vananze
• Altro…
21. 21
Metodo e Strumenti
Identify useful
data
Modify data into
a useful format Analyze data
Execute Data
science algorithms
(ML, AI, etc.)
Use / Share with
business users
Prepare for
ML algorithm
Data Catalog:
Content and
Metadata Search,
Data Preview
Design Tool:
Data Modeling,
Cleansing and
Transformations
Zeppelin notebooks:
Preview charts
Design Tool:
Transformation to tailor
data for
ML algorithm
Zeppelin notebooks:
Execute data
science algorithms
(Python)
Data Catalog & API
API calls & Share with
business users results
Il Flusso di Lavoro di un Data Scientist … e il supporto di Denodo nelle varie fasi
23. 23
Il modello logico
Denodo verrà utilizzato per modellare i dati,
senza renderne obbligatoria la replica
Utilizzo delle biciclette: Amazon S3
Informazioni Meteo: API pubblica
Informazioni sulle Date: EDW, dimensione
delle date
Sources
Combine,
Transform
&
Integrate
Consume
Base View
Source
Abstraction
join
transform
join
Bike rides Weather Date
30. DENODO DATAFEST EMEA 2023
The Agile Data Management
and Analytics Conference
OCTOBER 25-26 2023 | BARCELONA, SPAIN
REGISTER NOW
www.denododatafest.com/EMEA