Business intelligence in_der_cloud_hauswald_mai2011

620 views
577 views

Published on

Der klassische Ansatz für Business Intelligence bedient sich der Prinzipien aus der Batchverarbeitung und all ihrer Nachteile, wie die mangelnde Echtzeitfähigkeit, die starke Kopplung an die Quellen und hohe Investitionskosten. Mit modernen Ansätzen wie Map/Reduce und der Rechenleistung der vorhandenen Rechenzentren können existierende Quellen schneller und kostengünstiger analysiert werden. Dabei ist es nicht zwingend notwendig, Cloud Computing einzusetzen. Dennoch ist es möglich die Datenverarbeitung und -auswertung dort durchführen zu lassen.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
620
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Business intelligence in_der_cloud_hauswald_mai2011

  1. 1. Besiege die DatenflutBusiness Intelligence in der Cloud Folie 1 17. Mai 2011 Alexander Hauswald © Zühlke 2011
  2. 2. HeuteBesiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 2 © Zühlke 2011
  3. 3. Datenmengen bei Facebook und Twitter2009• +200B pageviews/month • 600 requests /sec• >3.9T feed actions /day • avg200-300 connections /sec; peak at 800• +300M active users • MySQL handles 2,400 requests /sec• >1B chat mesgs/day • 30+ processes for handling odd jobs• 100M search queries /day • process a request in 200 milliseconds in Rails• >6B minutes spent /day • average time spent in the database is 50-100 milliseconds• +20B photos, +2B/month growth • +16 GB of memcached• 600,000 photos served /sec• 25TB log data /day processed thru Scribe• 120M queries /sec on memcacheBesiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 3 © Zühlke 2011
  4. 4. Alles geht in die Cloud… Alexander Hauswald Image: Chris SharpZühlke 2011 © / FreeDigitalPhotos.net
  5. 5. Cloud Computing• Noch keine akzeptierte Definition gefunden• NIST Definition of Cloud Computing, Version 15, 7.10.2009 – “Cloud computing is a model for enabling convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. This cloud model promotes availability and is composed of five essential characteristics, three service models, and four deployment models.”• häufig genannte Aspekte: – Skalierbar: imaginär unendlich viele Ressourcen – Flexibel: dynamische Anforderung von mehr oder weniger Ressourcen – Automatisiert: alles kann gescripted werden – Business Modell: Pay-per-UseBesiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 5 © Zühlke 2011
  6. 6. Service ModelleIaaS, PaaS, SaaS © Microsoft 2010Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 6 © Zühlke 2011
  7. 7. Typische Einsatzszenarien• Internet scale Web Applikationen – Nutzerbasis weltweit – Integration mit existierenden APIs – Transient campaigns• Mobile Geräte mit der Cloud verbinden – Gerade im Energiemarkt bereits im Einsatz• Entwicklungs/Test Umgebungen – Dynamic provisioning of dev/test resources – Pay for usage• Last zu Spitzenzeiten – Web Applikationen• Large scale Datenanalyse – eScience, Financial risk calculations, Government statistical data, Business IntelligenceBesiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 7 © Zühlke 2011
  8. 8. Large Scale Datenanalyse mit Hilfe vonBatches und Cloud Computing Batches Cloud Pay-per-Use Nur zeitweise genutzt Flexibel skalierbar Hohe Rechenkapazitäten benötigt Ausführung auf Commodity-HardwareBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 25. Januar 2011 Folie 8 © Zühlke 2011
  9. 9. Grenzen der Batchverarbeitung• Skalierung – Mehr Hardware?• Speed – Keine Echtzeitfähigkeit• Integration – Mehr Quellen• Datenmenge – Je mehr Daten, desto länger laufen die BerechnungenBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 9 © Zühlke 2011
  10. 10. Was ist Hadoop? • Plattform für parallele Datenverarbeitung auf Commodity- Hardware • Konzepte aus der funktionalen Welt • inspiriert durch Google-Technologien • Apache Top-Level-ProjektBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 25. Januar 2011 Folie 10 © Zühlke 2011
  11. 11. MapReduceProgrammieransatz zur parallelen Datenverarbeitung map(k,v) [(K1,V1), (K2,V2)…] reduce(Kn, [Vi,Vj…]) (K, R) Folie 11 25. Januar 2011 map reduce Masanori Fujita
  12. 12. Hadoop-Zoo Hive HBase Pig HDFS Commons Zookeeper Chukwa MahoutBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 25. Januar 2011 Folie 12 © Zühlke 2011
  13. 13. Einsatzszenarien ETL Data Mining Reporting IndizierungBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 25. Januar 2011 Folie 13 © Zühlke 2011
  14. 14. Business Intelligence klassisch Dashboards, Reporting, OLAP Cubes Datawarehouse ETL DatenquellenBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 14 © Zühlke 2011
  15. 15. Business Intelligence klassischNachteile• Zeit – Batchläufe – Sind die Daten aktuell oder werden sie gerade noch geladen• Lizenzkosten – Kosten explodieren mit steigender Datenmenge• Hardwarekosten• Geschwindigkeit – Viele Inserts• Datenmenge – Anzahl der Datenquellen nimmt stark zu – Relationale Datenbanken als Datenbasis sind nicht mehr ausreichendBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 15 © Zühlke 2011
  16. 16. Hadoop Zoo kann helfen• Ökosystem – Spezialisierte Frameworks für Teilaufgaben• Transparenz der Datenquellen – XML, CSV, EDI, JSON, Log, Objects, SQL, Text, Binary• Performance – Map/Reduce + Skalierung• Unstrukturierte Daten in strukturierte Daten überführen – Z.B. LogfilesBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 16 © Zühlke 2011
  17. 17. Business Intelligence mit Hadoop Zoo Dashboards, Reporting, OLAP, BAM Hive / Pig HBase Hadoop HDFS Datenquellen (csv, json, XML, …)Besiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 17 © Zühlke 2011
  18. 18. Zielumgebung Desktop Führt Hive / Pig Abfragen aus Ab in die Cloud ! #1 #2 #3 #4 ClusterBesiege die Datenflut - BI und die Cloud | Alexander Hauswald © Zühlke 2011
  19. 19. Zusammenfassung• Relationale Datenbanken sind keine Schweizer Taschenmesser – Aber jede Technologie hat Ihre Stärken – Auch Kombinationen können spannend sein• Hadoop Zoo – Lizenzkostenfrei – Echtzeitfähigkeit – Integration – Datenmenge (v.a. für unstrukturierte Daten)• Cloud – Flexibilität – Skalierbarkeit – Kostentransparenz – Einfach wenn Daten bereits in der Cloud vorhanden sind…Besiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 19 © Zühlke 2011
  20. 20. Bei Fragen und AnmerkungenAlexander Hauswald• Business Unit Manager Enterprise Computing• Kontaktdaten:Telefon: +49 89 30 90 52 64 52Email: aha@zuehlke.comTwitter://soa_axelhttps://www.xing.com/profile/Alexander_HauswaldBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 20 © Zühlke 2011
  21. 21. Tags BU Enterprise Computing• Architektur Reviews (eigene Methodologie auf ATAM basierend)• Performance Analyse/Architektur von verteilten Systemen• Cloud Computing Workshops• Mobile Solutions mit Android, iOS, Windows Phone 7• Client Solutions mit Eclipse RCP• Usability Engineering• Requirements EngineeringBesiege die Datenflut - BI und die Cloud | Alexander Hauswald 17. Mai 2011 Folie 21 © Zühlke 2011

×