Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Framework tecnologici per i Big Data: Data Lake & Data River

395 views

Published on

Perchè ogni data lake senza un data river associato è destinato a diventare ben presto una palude (data swamp)

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Framework tecnologici per i Big Data: Data Lake & Data River

  1. 1. Workshop Framework tecnologici per i Big data Andrea Gioia 27/6/2016 Osservatorio Big Data del Politecnico di Milano
  2. 2. Il mondo che conosciamo EAI: SOA (WS + ESB) Data storage: Relazionali (OLAP + DWH) Landscape applicativo: Applicazioni mature e consolidate nel tempo
  3. 3. Il futuro non è più (solo) quello di una volta Persone (Social) Organizzazioni (Data Monetization, Open Data) Cose (IoT) Chi produce i dati?Lungo quali dimensioni cresce la complessità?
  4. 4. Il mondo che verrà EAI: Microservices Data storage: Relazionali (OLAP + DWH) Landscape applicativo: In continua evoluzione
  5. 5. Un mondo ricco di opportunità…
  6. 6. …per chi sa coglierle Martec’s Law
  7. 7. Rimanere fermi è un rischio Le nuove tecnologie sebbene spesso immature crescono a ritmi esponenziali (technology trigger). Se ben impiegate possono garantire un incremento incredibile di vantaggio competitivo (disruptive innovation) Le vecchie tecnologie sebbene consolidate crescono poco (plateau of productivity). Anche se utilizzate al meglio garantiscono un incremento marginale di vantaggio competitivo (incremental innovation)
  8. 8. L’esempio (negativo) di Kodak
  9. 9. Come gestire la complessità Data Bus (es.Kafka) Data System Data System Data System Data System App App Spaghetti Architecture Data Bus Architecture
  10. 10. Data lake e data river Senza un data river il data lake diventa ben presto una palude
  11. 11. Il data lake e il dwh Data Lake 1. Dati non aggregati 2. Dati Strutturati e non 3. Computazione batch DWH 1. Dati aggregati 2. Dati Strutturati 3. Computazione online Uno non sostituisce l’altro. Data Bus Data Lake DWH
  12. 12. Data governance • L’importanza della qualità del dato rimane centrale (l’ETL non è morto) • Metadati nel data river per l’interazione tra le componenti (schema registry) e data lineage • Metadati nel DL per il data discovery (informed data lake)
  13. 13. Conclusioni • Non rimanere fermi • Data platform (data bus e data governance) • Processo agile (iterazioni corte, MVC e non temere di svoltare quando serve) • Sperimentare nuove strade (disruptive innovation vs incremental innovation) • Selezionare con cura i propri compagni di viaggio
  14. 14. GRAZIE!
  15. 15. @andrea_gioia andrea.gioia@quantyca.it @quantycabi www.quantyca.it

×