BigData-Architekturen

6,324 views
6,335 views

Published on

Mehr dazu in meinem Blogbeitrag in dem ich mich auf die Suche nach der idealen Software-Architketur für Big Data begebe: http://bit.ly/Z-Blog_BigDataArch.

Die Vernetzung von Geräten und die Cloud führen zu neuen Anforderungen an die Architekturen und an die Architekten. Wie lassen sich die Trade-Offs am besten auflösen? Und wie geht man mit Betriebskosten und Datenschutzrecht bei Cloud-Architekturen richtig um? Ausgehend von den spezifischen Herausforderungen zeigen wir Ihnen den Weg zur passenden Architektur.
Vortrag von Georg Molter beim Seminare "Willkommen im Datenrausch: Produkte vernetzen - mit BigData und der Cloud neue Schätze heben"

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,324
On SlideShare
0
From Embeds
0
Number of Embeds
2,190
Actions
Shares
0
Downloads
93
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide
  • Datenrate absolut gesehen macht noch keine Aussagen über die zeitiche VerteilungSpezialfall:Retransmits nach Fehlersituationen
  • Auflösung des Trade-Offs zwischen Durchsatz und VerarbeitungslatenzNathan Marz: Entwickler / technischer Begründer von BackType zur Verknpüfung von Social Media-ProfilenStartup, später von Twitter übernommen
  • Auflösung des Trade-Offs zwischen Durchsatz und Verarbeitungslatenz
  • Auflösung des Trade-Offs zwischen Durchsatz und Verarbeitungslatenz
  • For comparison: a 30TB NAS costs about € 3.000,-
  • BigData-Architekturen

    1. 1. © Zühlke 2013 Dr. Georg Molter Big-Data-Architekturen: Herausforderungen und Lösungen 9. Juli 2013 Folie 1
    2. 2. © Zühlke 2013 Übersicht • Big-Data-Architekturen: Anforderungen und Trade-Offs • Rahmenarchitektur und Lösungsbausteine • Von den Anforderungen zur Architektur 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 2
    3. 3. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Anforderungen und Trade-Offs 9. Juli 2013 Folie 3
    4. 4. © Zühlke 2013 Anforderungen und Trade-Offs: Volume, Velocity und Variety Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Volume/Datenmenge Velocity / Geschwindigkeit der Analyse Tiefe(*) Analyse Vorhersage-Modelle (*) Tief: Bis zu 10.000 mal größer Schnell: Bis zu 10.000 mal schneller 9. Juli 2013 Variety: „Big Data geht über strukturierte Daten hinaus, schließt unstrukturierte Daten aller Arten mit ein: Text, Audio, Video, Click Streams, Logdateien und mehr.“ IBM, Bringing Big Data to the Enterprise Folie 4 Schnelle(*) Entscheidungen Reaktive Analyse Echtzeit-Bearbeitung von Analyse-Aufgaben
    5. 5. © Zühlke 2013 Anforderungen und Trade-Offs: Analyse-Stufen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Explorative Analyse  Experimentieren mit den Daten  Untersuchung der Daten aus verschiedenen Blickwinkeln  Schneiden und Projektion der Daten entlang verschiedener, teilweise nichttrivialer Dimensionen Modellbildung und –Validierung  Ableitung und Validierung in sich geschlossener Erklärungsmodelle  Optimierung der Modelle zur Steigerung von Aussagekraft und Trennschärfe Modellanwendung / Automatisierte Analyse  Anwendung der Modelle im Produktivbetrieb zur Routine-Analyse realer Datensätze Folie 5  Große Datenmengen erforderlich  Geschwindigkeit ist nicht absolut kritisch  Potenziell große Datenmengen, aber Vorfilterung möglich  Geschwindigkeit ist extrem wichtig
    6. 6. © Zühlke 2013 Anforderungen und Trade-Offs: Datenspeicherung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 6 Speicherung aller in Frage kommender Daten Speicherung der jeweils erforderlichen Daten Keine Datenspeicherung Anwendungen  Explorative Analyse und Modellvalidierung  Archivierung Auswirkungen  Großes Datenvolumen, hohe Kosten für Speicherung, hoher Ballast für die Verarbeitung, keine optimierte Strukturierung Anwendungen  Gezielte, optimierte Analyse für einen spezifischen Zweck gemäß zuvor identifizierter Modelle  Selektion und Filterung zur Begrenzung der Datenmenge Auswirkungen  Geringere Unterstützung für explorative Analyse Anwendungen  Streaming Analytics: optimierte Analyse für spezifische Zwecke, zeitnah zur Datenentstehung  Stream Mining für explorative Analyse Auswirkungen  Keine Speicherungskosten  Keine Möglichkeit für nachträgliche weitere Analyse
    7. 7. © Zühlke 2013 Anforderungen und Trade-Offs: Datenrate und -Verteilung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 7 Datenrate und Burstiness • Mit welcher Rate werden die Daten erzeugt? • Mit welcher zeitlichen Verteilung werden die Daten erzeugt? Performance-Optimierung • Peak Performance • Guaranteed Performance • Opportunistic Performance Analyse-Geschwindigkeit („Velocity“) • Innerhalb welcher Zeitspanne muss ein Analyseergebnis vorliegen? – Bedingt durch physische Prozesse – Bedingt durch die Reaktion von Menschen
    8. 8. © Zühlke 2013 Anforderungen und Trade-Offs: Überblick 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 8 Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit
    9. 9. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Lösungsbausteine 9. Juli 2013 Folie 9
    10. 10. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur1 • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data) Folie 10 1Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning 2012
    11. 11. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data) Folie 11
    12. 12. © Zühlke 2013 Die Lambda-Architektur als Rahmen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Herausforderung • (Beinahe-)Echtzeit-Analyse großer Datenmengen Batch Layer Serving Layer Speed LayerNew Data All Data Batch Views Realtime Views Queries Lösungsansatz: Lambda-Architektur • Inkrementelle Berechnung der Analysefunktion mit „eventual accuracy“: query = λ(all data) = λbatch(old data) ⊕ λspeed(recent data)  Effiziente, tiefe und exakte Analyse großer Datenmengen  Zeitversatz ist akzeptabel  Bereitstellung der Batch-Ergebnisse ("Batch Views") für Queries  Zeitnahe Analyse neuer Daten mit speziell dafür geeigneten Mechanismen  Reduzierte Anforderungen bzgl. Genauigkeit oder Tiefe Folie 12
    13. 13. © Zühlke 2013 Lösungsbausteine: Data Warehouse und OLAP 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 13 Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Automatisierte und explorative Analyse • Mittelgroße Datenmengen • Mittlere Velocity Integration von Daten aus unterschiedlichen Quellen Bereitstellung für verschiedene dispositive Zwecke Originaldaten Data Warehouse Reporting & Analytics Data Mining Applications
    14. 14. © Zühlke 2013 Lösungsbausteine: Data Warehouse und OLAP 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Automatisierte und explorative Analyse • Mittelgroße Datenmengen • Mittlere Velocity Integration von Daten aus unterschiedlichen Quellen Bereitstellung für verschiedene dispositive Zwecke Originaldaten Data Warehouse Reporting & Analytics Data Mining Applications Folie 14 Technologie-/Produktalternativen • On-premise DWH: SAP BW, Oracle, MS SQL Server • Cloud DWH: Redshift, Teradata • Data Mining: R, WEKA (Waikato Environment for Knowledge Analysis), RapidMiner (früher YALE)
    15. 15. © Zühlke 2013 Data Warehouse Alternative Datenkategorien und -Quellen 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Reporting & Analytics Data Mining Folie 15 ? •Keine strukturierte Datenspeicherung erforderlich: Unmittelbare Verarbeitung, ggfs. Aufbewahrung für Archivierungszwecke •Hohe Skalierbarkeit erforderlich Applications Social Media Connected Products
    16. 16. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 16
    17. 17. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 17 Problemfeld • Batch-Verarbeitung von großen Datenmengen Lösungsprinzipien • Gliederung der Aufgabenstellung in einzelne Verarbeitungsschritte • Massive Parallelisierung ( verteilte Ausführung) • Lokalität (Speicherung und Query-Ausführung räumlich eng verknüpft) Beispiel-Problemstellung • Auswertung von automatisch übertragenen Zählerständen • Einzelner Ablesewert ist ein Schnappschuss, der nach Übermittlung – nur noch Dokumentationscharakter hat – nicht im Online-Zugriff stehen muss • Zielfunktion der Auswertung: Kumulierter Verbrauch pro Verbrauchsstelle und pro Kunde
    18. 18. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 18 Map: Verdichtung pro Zähler Zwischenergebnisse: Verbrauchswerte pro Zähler Reduce: Kumu- lierter Verbrauch pro Kunde Endergebnis: Kumulierter Verbrauch
    19. 19. © Zühlke 2013 Alternative Datenkategorien und -Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 19 Map: Verdichtung pro Zähler Zwischenergebnisse: Verbrauchswerte pro Zähler Reduce: Kumu- lierter Verbrauch pro Kunde Endergebnis: Kumulierter Verbrauch • Zur Analyse derselben Business-Fragestellung gibt es viele verschiedene Abbildungsmöglichkeiten auf Map / Reduce. • Geeignete Wahl der Map- und Reduce-Funktionen ist kritisch, – um die Vorteile der Lokalität zu nutzen – um Parallelisierbarkeit und Skalierbarkeit sicherzustellen • … sie hat weitreichende Auswirkungen auf Performance und Datentransfer … • … und damit auf Kosten!
    20. 20. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Connected Products Folie 20 Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Geeignet für • Explorative und auto- matisierte Analyse • Große Datenmengen • Batchverarbeitung • Vorverarbeitung von Daten
    21. 21. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Map / Reduce-Auswertung 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Geeignet für • Explorative und auto- matisierte Analyse • Große Datenmengen • Batchverarbeitung • Vorverarbeitung von Daten Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Folie 21 Connected Products Technologie-/Produktalternativen • Hadoop in verschiedenen Open-Source- Distributionen und als Bestandteil verschiedener kommerzieller Produkte: Hortonworks, Cloudera; MS Daytona / HDInsight; SAP HANA • Hadoop-Cluster in der Cloud: Elastic MapReduce • Explorative Analyse: Apache Pig, Apache Hive (Hadoop-basiertes DWH)
    22. 22. © Zühlke 2013 Alternative Datenkategorien und –Quellen: Stream Processing, CEP, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 22 Problemfeld • Mustererkennung und regelbasierte Verarbeitung für einen Strom aus vielen Einzel-Ereignissen • Filterung, Korrelation und Aggregation von Ereignissen Lösung mit einer Complex Event Processing (CEP)-Engine • Beschreibung von Mustern und Regeln häufig mit SQL-ähnliche Sprachen: z.B. CQL (Continuous Query Language), EPL (Event Processing Language) „Wenn Ereignis A eintritt, unmittelbar gefolgt von Ereignis B, und innerhalb eines Zeitfensters von einer Stunde nicht Ereignis C, dann erzeuge ein neues Ereignis vom Typ X“
    23. 23. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Folie 23 Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Adaption
    24. 24. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Folie 24 Geeignet für •Automatisierte Analyse •Große Datenmengen •Hohe Velocity Adaption
    25. 25. © Zühlke 2013 Alternative Datenkategorien und –Quellen: CEP, Stream Analytics, Online Analytics 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Geschäftsanwendungen Operative Datenbanken Extraktion Extraktion TransformationTransformation Integration Data Warehouse Reporting & Analytics Data Mining Applications Weitere Anwendungen Social Media Connected Products CEP Engine  Filterung  Aggregation  Korrelation Geeignet für •Automatisierte Analyse •Große Datenmengen •Hohe Velocity Technologie-/Produktalternativen • Trident / Twitter Storm, Esper • Microsoft StreamInsight, Oracle CEP Adaption Folie 25
    26. 26. © Zühlke 2013 Lösungsbausteine: In Memory-Datenbanken Lösungsansatz • Datenablage und -Verarbeitung im Hauptspeicher • Geringere Zugriffs-Latenzen, höhere Bandbreite, bessere Vorhersagbarkeit • Unterstützung für parallele Abfragebearbeitung • Speicherkapazität im Terabyte-Bereich (z.B. HANA-Deployment bei Red Bull mit 8TB RAM1) • Persistenzsicherung mit Hilfe von Logdateien, Schnappschüssen und Replikation Technologie- / Produktalternativen • SAP HANA, Oracle TimesTen, SAG Terracotta • MySQL, Apache Derby, MonetDB 1 siehe http://reshaping-datacenter.de.ts.fujitsu.com/fileadmin/user_upload/documents/Downloads_DE/ps-hana-case-study-Red-Bull-em-en.pdf 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 26
    27. 27. © Zühlke 2013 Lösungsbausteine: DWH / Analytics Appliances DWH / Analytics Appliance • Vorgefertigte Kombination aus Hardware (Server, Storage) und Software (Betriebssystem, Middleware, Datenbanksystem, Analytics-Software) • Spezial- oder Standard-Hard- und Software Spezifische Eigenschaften • Hohe Performance durch parallele Abfragebearbeitung • Hohe Skalierbarkeit • Schnelles Setup Beispiele • IBM PureData System for Hadoop, IBM Netezza / IBM PureData System for Analytics • Oracle Exadata / Exalytics • Teradata Data Warehouse Appliance • Microsoft Parallel Data Warehouse 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter • Für ein DWH mit 128TB Kapazität Kosten von € 500.000,- aufwärts1 1http://www.valueprism.com/resources/resources/ Resources/PDW%20Compete%20Pricing%20FINAL.pdf Folie 27
    28. 28. © Zühlke 2013 Oracle Big Data Appliance: „Engineered system optimized for acquiring, organizing and loading unstructured data into Oracle Database 11g“ • Oracle NoSQL • Hadoop, Oracle Hadoop Adapter, Oracle Loader for Hadoop • R als Statistik- und Grafiksprache • Oracle Enterprise Linux and Oracle HotSpot VM • Einsatzgebiet: „Analyse der von Blogs, Social-Media- Feeds, Smart-Metern, Sensoren und anderen Geräten erzeugten großen Datenmengen, die sich mit klassischen Data Warehouses und Business- Intelligence-Software so nicht erfassen lassen“ Lösungsbausteine: DWH / Analytics Appliances 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 28 http://techsatwork.com/blog/?p=743
    29. 29. © Zühlke 2013 Oracle Exadata: „Engineered“ MPP-DBMS für OLTP-, OLAP- und gemischte Anwendungen • Bis zu 8 Datenbankserver, bis zu 128 CPU-Cores und 2TB Memory • 14 Oracle Exadata Storage Servers, bis zu 168 storage-nahe CPU-Cores für SQL- Verarbeitung • Bis zu 5.3TB Exadata Smart Flash Cache • Unkomprimierte Kapazität pro Rack bis zu 432TB • Hybrid Columnar Compression mit Kompressionsraten von 10 bis 15 • Maximaler Stromverbrauch: 17,0kW Oracle Exalytics / Exalogic: In-memory BI-Appliance • Ergänzt Oracle BI Enterprise Edition und die Exadata-Systeme • Bis zu 1TB und 40 CPU-Cores • Oracle TimesTen In-Memory DB Lösungsbausteine: DWH / Analytics Appliances 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 29
    30. 30. © Zühlke 2013 Einordnung der Lösungsbausteine Klassisches DWH / OLAP OLAP-Unter- stützung Z.B. Cube- Berechnung Klassische Vor- berechnung Map/ Reduce Hochparallele Analyse großer Datenmengen Kernanwendung Kernanwendung CEP / Stream Processing Stream Analytics Kernanwendung Kernanwendung In Memory- Verarbeitung Schnelle Analyse im Haupt- speicher Reaktionsschnelle automatisierte Analyse Hoher Batch- Durchsatz im Hauptspeicher Schnelle Analyse im Haupt- speicher Analytics Appliances Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Hochoptimiertes Gesamtsystem Explorative Analyse Automatisierte Analyse Batch- Verarbeitung Speed- Verarbeitung Folie 31                  9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
    31. 31. © Zühlke 2013 Einordnung der Lösungsbausteine Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business-Anwendungen Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Datenvolumen, hohe Skalierbarkeit Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalierbarkeit, großes Datenvolumen Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Velocity Lambda-Architektur 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 32
    32. 32. © Zühlke 2013 Big Data-Architekturen: Herausforderungen und Lösungen Dr. Georg Molter Lösungsdesign 9. Juli 2013 Folie 33
    33. 33. © Zühlke 2013 Von den Anforderungen zur Architektur 9. Juli 2013 Folie 34 Identifikation und Herausarbeiten der wesentlichen Business- Fragestellungen Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business- Anwendungen Explorative und automatisierte Analyse Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Daten- volumen, hohe Skalierbarkeit Explorative und automatisierte Analyse Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Automatisierte Analyse Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Explorative und automatisierte Analyse Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalier- barkeit, großes Datenvolumen Explorative und automatisierte Analyse Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Analyse- szenario Velocity Lambda- Architektur Mapping auf geeignete technische Lösungen Identifikation der Anforderungen und Trade-Offs der spezifischen Anwendung Unternehmensarchitektur als Randbedingung  Zu unterstützende Businessprozesse  Informationsarchitektur (Informationshoheit, Charakteristika der Daten wie Langlebigkeit, Stammdaten vs. aggregierte Daten, dispositive vs. operative Daten, Schutzcharakteristik) Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
    34. 34. © Zühlke 2013 Von den Anforderungen zur Architektur 9. Juli 2013 Identifikation und Herausarbeiten der wesentlichen Business- Fragestellungen Volume Velocity Sensibilität der Daten Datenspeicherung Datenrate Performance-Optimierung Analyseszenario Variety / Strukturiertheit der Daten E M A Flexibilität Skalierbarkeit Klassisches DWH / OLAP Integration, Zusammenarbeit mit Business- Anwendungen Explorative und automatisierte Analyse Mittlere Velocity; Zeitversatz ist übliche Praxis Batch Layer Map/ Reduce Großes Daten- volumen, hohe Skalierbarkeit Explorative und automatisierte Analyse Mittlere Velocity Batch Layer CEP / Stream Processing Großes Datenvolumen, keine Speicherung Automatisierte Analyse Hohe Velocity Speed Layer In Memory- Verarbeitung „Kleines“ Datenvolumen Explorative und automatisierte Analyse Hohe Velocity Batch Layer und Speed Layer Analytics Appliances Hohe Skalier- barkeit, großes Datenvolumen Explorative und automatisierte Analyse Hohe Performance durch parallele Abfragebearbeitung Batch Layer und Speed Layer Optimierung Analyse- szenario Velocity Lambda- Architektur Mapping auf geeignete technische Lösungen Identifikation der Anforderungen und Trade-Offs der spezifischen Anwendung Unternehmensarchitektur als Randbedingung  Zu unterstützende Businessprozesse  Informationsarchitektur (Informationshoheit, Charakteristika der Daten wie Langlebigkeit, Stammdaten vs. aggregierte Daten, dispositive vs. operative Daten, Schutzcharakteristik) Folie 35 Visualisierung Automatisierung Data Mining  Etablieren einer auf interdisziplinärer Zusammenarbeit beruhenden Vorgehensweise mit kurzen Feedbackzyklen  Team bestehend aus Fachexperten, Analyse- Spezialisten, Visualisierungs- Spezialisten und Entwicklern Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter
    35. 35. © Zühlke 2013 Informationsquellen Lambda-Architektur und Big-Data-Architekturen • Nathan Marz and James Warren: Big Data - Principles and best practices of scalable realtime data systems, Manning 2012 • James Kinley: The Lambda Architecture: principles for architecting realtime Big Data systems, http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for-architecting • Nathan Marz: The Secrets of Building Realtime Big Data Systems, http://de.slideshare.net/nathanmarz/the-secrets-of-building-realtime-big-data-systems • Chris Eaton, Dirk Deroos, Tom Deutsch, George Lapis, Paul Zikopoulos: Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, McGraw Hill 2012 Map / Reduce • Jeffrey Dean und Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google Labs 2004, http://research.google.com/archive/mapreduce.html Rechtliche Aspekte • Safe Harbor-Framework des US-Department of Commerce: http://export.gov/safeharbor/index.asp • Arnd Böken: Patriot Act und Cloud Computing: Zugriff auf Zuruf? iX 01/2012, http://www.heise.de/ix/artikel/Zugriff-auf-Zuruf-1394430.html 9. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 36
    36. 36. © Zühlke 20139. Juli 2013Big Data-Architekturen: Herausforderungen und Lösungen | Dr. Georg Molter Folie 37 Georg Molter

    ×