"Hybrid Architectures, Data Lakes + Data Warehouse"
The big data discussion continues and the practice shows that Data Lakes do not replace but complement Data Warehouse. Which new scenarios are possible? What are the strengths of hybrid architectures, ie the combination of Data Lakes and Data Warehouses?
Spark RDD-DF-SQL-DS-Spark Hadoop User Group Munich Meetup 2016
Data lake vs Data Warehouse: Hybrid Architectures
1. Alfred Schlaucher, Oracle
November 2018
Data Lakes vs./plus Data Warehouse
Nicht Technologie-Bashing sondern
hybride Architekturen
mit Synergieen führen zum Ziel
20. ETL
dump
dump
Schema on
Write
Schema on
Read
Data Lake
Objekt Storage
20
• Spezielle Datenarten
CDRs, Bondaten, Logdaten,
Click-Daten, Messwertdaten
20
H y b r i d D a t a L a k e + D a t a W a r e h o u s e
• Archive im Sinn von ILM
• Filter-Funktion für Stage
• Log-Funktion für ETL
• Lager für schwach-relevante Daten
• Operational Data Store
Funktion
• Zusätzliche Datenarten
Bilder, Filme, Texte, Sprache
Enterprise Layer
Core - DWH / Info Pool
User View
Layer
Integration Layer
(Stage) Strategische Sichten Taktische Sichten
GenETL
• Auslagern von
• Partitionen
großer
Tabellen
offload
Tr
Tr
D
D P1 D
P2
P3
P4
21. 21
• Anforderungen prüfen
• Technologie entsprechend der Anforderungen einsetzen
(und nicht Trend-gesteuert)
• „Schema on Read / Write“ im Hinterkopf haben
• Infrastruktur nicht auf eine bestimmte Technologie festlegen
• Inseln vermeiden
• Warehouse-Systeme sind und bleiben fester Bestandteil
der Informationsversorgung im Unternehmen. Sie müssen
weiterentwickelt werden.
Zusammenfassung