Successfully reported this slideshow.
Your SlideShare is downloading. ×

Modern Data Stack – Buzzword oder echter Game-Changer?

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 30 Ad

Modern Data Stack – Buzzword oder echter Game-Changer?

Download to read offline

Was verbirgt sich hinter dem Trend 'Modern Data Stack' und wie gut eignet er sich für den Aufbau von Analytics-Plattformen? Wir berichten über erste Erfahrungen im Aufbau und der Nutzung des Modern Data Stacks, stellen eine Architektur mit allen Komponenten vor und demonstrieren sie praktisch. Wir gehen auf die Trennung von Ingestion (EL) und Transformation (T) ein, sowie weitere Ideen, wie 'Metrics Store' und 'Reverse ETL'. Abschließend berichten wir von Problemen und Einstiegshürden bei Deployment, Einsatz und der Integration der Komponenten.

Was verbirgt sich hinter dem Trend 'Modern Data Stack' und wie gut eignet er sich für den Aufbau von Analytics-Plattformen? Wir berichten über erste Erfahrungen im Aufbau und der Nutzung des Modern Data Stacks, stellen eine Architektur mit allen Komponenten vor und demonstrieren sie praktisch. Wir gehen auf die Trennung von Ingestion (EL) und Transformation (T) ein, sowie weitere Ideen, wie 'Metrics Store' und 'Reverse ETL'. Abschließend berichten wir von Problemen und Einstiegshürden bei Deployment, Einsatz und der Integration der Komponenten.

Advertisement
Advertisement

More Related Content

Recently uploaded (20)

Advertisement

Modern Data Stack – Buzzword oder echter Game-Changer?

  1. 1. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 1 Buzzword oder echter Game-Changer? 20.06.2022 – TDWI München Fabian Hardt und Dr. Jens Bleiholder MODERN DATA STACK
  2. 2. © OPITZ CONSULTING 2022 / Öffentlich INHALT Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 2 EINFÜHRUNG 01 WAS IST DER MODERN DATA STACK 02 FAZIT 04 HANDS ON / DEMO 03
  3. 3. © OPITZ CONSULTING 2022 / Öffentlich DAS SIND WIR: Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 3 Jahre Erfahrung Komplexität meistern Budgetsicherheit & Transparenz Skalierbarkeit Exzellente Preis-Leistung Kooperation auf Augenhöhe Als deutschlandweit einer der führenden Partner der Digitalisierung bilden unser technologisches Know-how, jahrzehntelange Erfahrung und begeisterte Kolleginnen und Kollegen das Fundament für den Erfolg unserer Kunden. Unsere Fähigkeit, komplexe Projekte mit agilen Methoden und exzellentem Fachwissen zum Erfolg zu führen, verschafft unseren Kunden Wettbewerbsvorteile. Mit einer fairen Risikoverteilung sind wir in der Lage, die Kosten für Risiken zu minimieren und Lösungen mit einem ausgezeichneten Preis-Leistungs-Verhältnis anzubieten. Mit ca. 500 Mitarbeitern ist OPITZ CONSULTING in der Lage, das Projektteam so zu skalieren, dass es einen termingerechten Projektabschluss jederzeit unterstützt. Durch unsere flexiblen Engagement- Modelle für agile Projekte erhalten Sie Transparenz und Kontrolle über die Projektkosten. Wir arbeiten mit unseren Kunden partnerschaftlich zusammen – auf Augenhöhe! 30+
  4. 4. © OPITZ CONSULTING 2022 / Öffentlich #TECHNOLOGIE & KOMPETENZEN Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 4 CONSULTING nachhaltig-langfristig- erfolgreich APPLICATIONS innovativ-herausragend- benutzerfreundlich INTEGRATION flexibel-automatisiert- performt ANALYTICS smart-intelligent- verlässlich INFRASTRUCTURE cloud-hybrid- elastisch CHANGE nachhaltig-achtsam- verbindlich  Serverless Microservices  DevOps  Modernisierung  Entkopplung  API first  Bi-Modal  UX-Design  Lifecycle  Cloud Based Integration  Sensor Data  IoT / Industrie 4.0  API-Management  Integration Third Party Apps  Process Integration  Application Integration  Data Lakes  Big Data & Fast Data  AI & Machine Learning  Intelligent Automation  Analytics für IoT  Data Labs  Data Governance  Open Data  Hybride Architekturen  Infrastructure as Code  Cloud Consumption  Multi-Cloud Management  Sicherheit der Cloud  Shared Cloud Services  Compliance  Managed Services  Vision & Sinn  Rolle und Identität  Werte & Glaubenssätze  Umwelt  Fähigkeiten und Verhalten  Culture Gardening  Digital Awareness  Digitalisierungsstrategie  Digitale Transformation  Innovation  Digitale Roadmap  Governance  Lizenzberatung DIGITALE PLATTFORM basierend auf dynamikrobusten Architekturen der Digitalisierung Künstliche Intelligenz mit dem Fokus auf Automatisierung & Entscheidungsvorbereitung
  5. 5. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 5 EINFÜHRUNG 01
  6. 6. © OPITZ CONSULTING 2022 / Öffentlich BEOBACHTUNG: ES IST VIEL GELD IM UMLAUF… Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 6 Quelle: u.a. https://future.com/data50/
  7. 7. © OPITZ CONSULTING 2022 / Öffentlich „THE UNBUNDLING OF AIRFLOW“ Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 7  Craigslist-Effekt → Zunehmende Spezialisierung  Aber auch Gegenbewegung: BI+AI und DWH+Data Lake (siehe z.B. Snowflake/Databricks) Quelle Grafiken: https://blog.fal.ai/the-unbundling-of-airflow-2/
  8. 8. © OPITZ CONSULTING 2022 / Öffentlich Data Lake und DWH wachsen zusammen Genauso wachsen BI und AI zusammen, siehe z.B. Snowflake und Databricks. Gegenbewegung zur zunehmenden Spezialisierung. Generell: es bewegt sich viel. WAS WIR AKTUELL WAHRNEHMEN… Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 8 Viel Geld im Umlauf Damit zunehmende Zersplitterung der Funktionalitäten; jedes neue Startup kümmert sich um eine Spezialfunktion. Dadurch Verteilung einzelner Funktionalitäten in separate Tools. Cloud ist Standard Kaum jemand baut analytische Architekturen noch On- Premises. Es gibt aber Ausnahmen. Das Hadoop- Ökosystem verliert an Bedeutung; Data Lakes zunehmend auf Object Storage in der Public Cloud. Verwendung von Best Practices aus der Softwareentwicklung Auch als Folge der Migration in die Cloud. Also Infrastructure as Code, Automatisierung, CI/CD. Zunehmende Sympathien für Code-First und Open Source, Rückkehr der Frameworks, des DIY, des SQL only (Skills!).
  9. 9. © OPITZ CONSULTING 2022 / Öffentlich ENTER: „THE MODERN DATA STACK“ Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 9  In diesem Umfeld kam der Begriff Modern Data Stack auf.  Aber:  Was verbirgt sich dahinter?  Was ist modern am „Modern Data Stack“?  Welche Komponenten und Prinzipien verstecken sich dahinter?  Wie arbeitet man damit?  Taugt das was? Quelle Grafik: https://continual.ai/post/the-modern-data-stack-ecosystem-fall-2021-edition
  10. 10. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 10 MODERN DATA STACK 02
  11. 11. © OPITZ CONSULTING 2022 / Öffentlich WAS IST EIN DATA STACK? Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 11  Def.: Ein Data Stack ist die Sammlung der Tools und Anwendungen, mit denen in einem Unternehmen Daten verarbeitet und Analytics betrieben wird. Quelle: https://future.com/emerging-architectures-modern-data-infrastructure/
  12. 12. © OPITZ CONSULTING 2022 / Öffentlich WAS IST „MODERN“ AM „MODERN DATA STACK“? Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 12 Automatisierung und Operationalisierung Es halten Grundparadigmen moderner Softwareentwicklung Einzug, u.a. GitOps, CI/CD, Container, automatisiertes Testen. Best of Breed und Modular Ein Modern Data Stack ist modular aufgebaut. Einzelne Komponenten lassen sich austauschen. EL+T sind getrennt. Für jede Disziplin wird das beste Tool ausgewählt. Cloud DWH Zentrale Datenspeicher-Komponente des Modern Data Stack. Verbindet Vorteile von Data Lake und Data Warehouse. SaaS / IaC Fokus auf Wartbarkeit und geringer Time to Market. Mittels SaaS Services der Cloudanbieter, oder Automatisierung mittels IaC kann dies erreicht werden.
  13. 13. © OPITZ CONSULTING 2022 / Öffentlich DIE VIELFALT DA DRAUßEN… Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 13  Modern Data Stack ≠ Modern Data Stack  Architekturen und Komponenten leicht unterschiedlich  Oft Fokus auf der eigenen Technologie, dem eigenen Tool, der eigenen Lösung  Oha, doch Marketing-Hype?  Verbindende Elemente:  Ingest, Extraktion, Tracking, Streaming  Storage, Transformation  Data Science, Reporting, Reverse ETL  Orchestration, Testing, Observability, Catalog, Governance Quelle: Google Bildersuche
  14. 14. © OPITZ CONSULTING 2022 / Öffentlich UNSERE WAHL: KOMPONENTEN Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 14
  15. 15. © OPITZ CONSULTING 2022 / Öffentlich SNOWFLAKE Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 15  Cloud Data Warehouse  Seit 2012 mit Fokus auf DWH Workloads  Wartungsarm, SQL als Abfragesprache  Einfach Skalierbar, Trennung von Storage und Compute  Verfügbar bei drei großen Cloud-Anbietern (GCP, Azure, AWS)  Speicherung relationaler und semi-strukturierter Daten (JSON)  Python, Data Sharing, Visualisierung, … weiter Ausbau zur Datenplattform  Vergleich zu On-Premise  Vorteile der Cloud gelten auch hier…  Mögliche Alternativen: Big Query, Redshift, Databricks, Synapse, …
  16. 16. © OPITZ CONSULTING 2022 / Öffentlich AZURE KUBERNETES SERVICE (AKS) Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 16  Managed Kubernetes Service in Azure Cloud  Kubernetes Cluster mit Integration zu anderen Azure Komponenten  Netzwerke, Azure CNI, Load Balancer, …  Autoscaling von Worker Nodes möglich (Node Pools)  Vollständig von Azure verwaltete Master Nodes  Kubernetes (K8s)  Open Source, ursprünglich von Google entwickelt, heute CNCF  Zur automatisierten Bereitstellung, Skalierung und Verwaltung von Container-Applikationen  Sehr weit verbreitet in der modernen Applikationsentwicklung  Mögliche Alternativen: Oracle - OKE, AWS – EKS, Google – GKE, VMware Tanzu
  17. 17. © OPITZ CONSULTING 2022 / Öffentlich AIRBYTE Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 17  Data Ingest  Viele Standard-Konnektoren vorhanden  Saas, Cloud, APIs, Datenbanken,…  Facebook, Google, Salesforce, Redshift, Snowflake, BigQuery, …  Eigene Konnektoren mit Python Connector Development Kit  Einfache Transformationen möglich  SaaS (nur USA) und Open Source zur eigenen Installation  Containerbasierter Betrieb  Trennung Plattform/Konnektoren (Server, UI, Scheduler, …)  Eigener Container je Konnektor  Mögliche Alternativen: Stitch, Fivetran, Singer, Meltano, …
  18. 18. © OPITZ CONSULTING 2022 / Öffentlich DBT Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 18  Datentransformation („Data Build Tool“)  Nur „T“ in EL+T – Extraktion separat  ELT Ansatz, sog. Modelle werden für Zielplattform (z.B. Cloud DWH, Snowflake) kompiliert und dort ausgeführt  Code-first, SQL mit Jinja (Templating)  Wachsende Community vorhanden, Erweiterungen downloadbar  SaaS und Open Source (Python)  Entwicklungsumgebung cloud.getdbt.com  Lokal beliebiger Editor nutzbar, CLI vorhanden (dbt-core)  Deployment  VM, Docker Container, fast überall einbindbar  Mögliche Alternativen: Azure Data Factory, Talend, Informatica, …
  19. 19. © OPITZ CONSULTING 2022 / Öffentlich LIGHTDASH Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 19  Self-Service Reporting Tool  Sehr einfache Charts und Dashboards  Rudimentäre Funktionalität  Basierend auf Definitionen in dbt Projekten  Nutzt die Idee des Metric Store in dbt  Konfiguration: dbt Projekt und Verbindung Cloud DWH  SaaS (in beta) und Open Source  Aktuell nicht konkurrenzfähig…  Mögliche Alternativen: Looker, Power BI, Apache Superset, Metabase, Tableau, …
  20. 20. © OPITZ CONSULTING 2022 / Öffentlich APACHE AIRFLOW Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 20  Workflow Management System  Ursprünglich von Airbnb entwickelt  Ausführung eines DAG (Directed Acyclic Graph)  Knoten enthalten Operatoren, können Code ausführen, aber auch andere Tools steuern  Populär zum Erstellen/Ausführen von Data Pipelines  Bestens für GitOps geeignet / Einbindung in Pipelines  Managed Varianten verfügbar und Open Source  Astronomer, Managed Airflow bei AWS, Google  Bestehend aus: Scheduler, Worker, UI, DB, Flower (Celery, Redis)  Parallele Abarbeitung auf mehreren Workern möglich  Skaliert dank Containertechnologie  Mögliche Alternativen: Dagster, Luigi, Prefect, …
  21. 21. © OPITZ CONSULTING 2022 / Öffentlich  Rückrichtung, Datenfluss aus dem Data Warehouse hinein in die Quellsysteme, bzw. weitere konsumierende Systeme  Bereinigte und integrierte Daten werden Salesforce, Email-Marketingtools und anderen Systemen zur Verfügung gestellt, oft über Standardkonnektoren  Hightouch und Census als Beispiele für SaaS QUERBEZÜGE UND WEITERE BEGRIFFE IM DUNSTKREIS Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 21  Zusammen mit dem Modern Data Stack entstehen neue Architekturkomponenten und Rollenbilder. Aber nicht alles hängt zusammen, Lakehouse und Data Mesh sind getrennt zu betrachten. Data Apps, SQL Notebooks und Data Observability gehören aber wieder dazu. Reverse ETL  Auch Metrics Layer oder Headless BI genannt  Verlagert die Definition von Kennzahlen, Fakten, Dimensionen, Filtern, etc. in eine gemeinsame, geteilte Schicht oder Komponente  Projektberichte und Umsetzungen von AirBnB (Minerva) und LinkedIn, auch eigene Firmen (Supergrain, Transform)  Hier: dbt/lightdash (noch sehr rudimentär) Metrics Store  Neue Rollendefinition zur Abgrenzung gegenüber vorhandenen Rollen. Vertreten von dbt und der Modern Data Stack Community  Grob gesagt: Irgendetwas zwischen Data Engineer und Data Analyst mit einem Touch Softwareentwickler  Kann SQL, greift auf Quelldaten zu und stellt anderen aufbereitete Daten zur Verfügung Analytics Engineering
  22. 22. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 22 HANDS ON / DEMO 03
  23. 23. © OPITZ CONSULTING 2022 / Öffentlich KEYWORD – INFRASTRUCTURE AS CODE Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 Seite 23  IaC  Prozess zum Verwalten und Provisionieren von Computern, VM‘s, Netzwerken  Versionierte Infrastruktur-Definitionen  Wiederholbar und zuverlässig  Viele Plugins und Module verfügbar  Frameworks  Hashicorp Terraform  Puppet  SaltStack  RedHat Ansible, …
  24. 24. © OPITZ CONSULTING 2022 / Öffentlich HELM UND BUILD PIPELINES Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 24  HELM  Paketmanager für Kubernetes  Charts basieren auf Templates für K8s Ressourcen  Übernimmt Deployment und Updates (patches) von K8s Objekten  Stateful – Aktueller State wird direkt im K8s gesichert  Build Pipeline (IaC und Infrastruktur Deployment)  Führt die nötigen Befehle in korrekter Reihenfolge aus  Idealerweise idempotent aufgebaut  Mit der Fähigkeit ausgeführte Aktionen auch wieder rückgängig zu machen  Beispiel: GitLab CI/CD
  25. 25. © OPITZ CONSULTING 2022 / Öffentlich DEMO Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 Seite 25
  26. 26. © OPITZ CONSULTING 2022 / Öffentlich DEMO Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 26
  27. 27. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 27 FAZIT 04
  28. 28. © OPITZ CONSULTING 2022 / Öffentlich  Dbt als Transformationstool ist eine Bereicherung der Landschaft von ETL/ELT Tools  Data Ingest Tools schon gut verwendbar, Standardkonnektoren hilfreich und haben guten Stand  Reverse ETL, Metrics Store und neue Reporting- Tools: hier gibt es noch Nachholbedarf FAZIT – BUZZWORD ODER ECHTER GAMECHANGER? Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 28  There‘s a whole new world out there…  Data Twitter, Substacks, Blogs, Konferenzen, und viele neue Firmen und Tools  Genau hinsehen: Funktionalität sollte natürlich zu den eigenen Anforderungen passen Reifegrad  Modularität kann Fluch und Segen sein. Gute Einzellösungen vs. komplexere Landschaft.  Auswahl und Pflege wird nicht einfacher  Oft sowohl SaaS als auch Open Source Varianten verfügbar. Selbermachen vs. Aufwandslos. Modularität  IaC, GitOps, Containerisierung, DevOps, Data Observability, Automatisches Testen und CI/CD gehören nun automatisch dazu  Viel kommt durch die Migration in die Cloud  Skills sollten dann aber auch vorhanden sein Methoden / Techniken
  29. 29. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 29 ZEIT FÜR IHRE FRAGEN
  30. 30. © OPITZ CONSULTING 2022 / Öffentlich Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 30 www.opitz-consulting.com KONTAKT Dr. Jens Bleiholder Senior Manager Corporate Development Jens.Bleiholder@opitz-consulting.com +49 151 42130835 https://www.xing.com/profile/Jens_Bleiholder/ https://www.linkedin.com/in/jensbleiholder/ Fabian Hardt Solution Architect Fabian.Hardt@opitz-consulting.com https://twitter.com/fabian_hardt https://www.xing.com/profile/Fabian_Hardt https://www.linkedin.com/in/fabian-hardt-0956b1b1

×