Big Data 10.000 ft

1,240 views
1,008 views

Published on

Dr. Roberto Rao, Principal Architect bei der axxessio GmbH, eröffnete am Donnerstag, den 20. Februar 2014 die Veranstaltung „Big Data – Die neue Goldgräberzeit in der IT“ und gab einen Überblick zum Thema „Big Data 10.000 ft“.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,240
On SlideShare
0
From Embeds
0
Number of Embeds
175
Actions
Shares
0
Downloads
23
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Big Data 10.000 ft

  1. 1. Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH
  2. 2. Inhalte • Big Data – Was ist das? • Anwendungsfälle für Big Data • Big Data Architektur • Big Data Anbieter • Was passiert in Zukunft mit Big Data? 2
  3. 3. Big Data – Was ist das?
  4. 4. Rohstoffe wie Gold sind nur in einer geringen Dichte vorhanden 300 Kg Erz + 20 Tonnen Giftstoffe (u.a. Cyanid) + … 2.700 Kg an Ressourcen müssen aufgewendet werden um einen Goldring herzustellen 4
  5. 5. Spaltbares Uran muss aufwendig getrennt werden 235U 238U 100 % 99,3 % Spaltbares Material 235U 0,7 % Natururan 1000 Kg Uranerz ergeben 1 Kg Uran Gaszentrifugen 5
  6. 6. Big Data ist ähnlich zur Rohstoffgewinnung Internet Seiten, Web-Foren, Blogs Social Networks, eMails, Sensoren Aus enorm vielen Daten sollen nur die wertvollen Informationen extrahiert werden. Dokumente Bilder Text • • • • • • Volume (Datenvolumen) Variety (Vielfalt) Velocity (Tempo) Value (Wert) Veracity (Datenqualität) Volatility (Aufbewahrung) Wertvolle Information 6 Aufwendige Trennung von wertlosen und wertvollen Informationen
  7. 7. Vielfältige Daten Kunde Name Vorname Kundennummer Ort Artikel Bezeichnung - Attribute - Tupel EAN Preis MwSt KundenNr EAN Netto MwSt Brutto Datum 98273891 DE28309810 12,21 19% 24,05 19.04.13 83691817 DE94839928 81,77 19% 97,31 22.04.13 63879287 DE87687628 2,31 7% 2,47 29.04.13 SQL Query: Relationale DB SELECT SUM(BRUTTO) WHERE KUNDENNR = 123456789 7
  8. 8. Mit Big Data hat die Goldgräberzeit auch in der IT begonnen LOW DENSITY DATA LOW VALUE Hallo Martha, Du musst 1 Kg Mehl und 3 Eier nehmen. Du rührst dann 10 Minuten und backst es. Hallo Stefan, wie geht es dir? Wir hatten gestern einen schönen Abend. Das Fußballspiel morgen ist der Hammer! Das dürfen wir nicht verpassen. VG Micky Sehr geehrter Herr Mayer, Leider kann ich morgen nicht da sein, da ich einen wichtigen Termin habe. HIGH DENSITY DATA HIGH VALUE Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs. Hi Gerd, Die Schule fällt morgen aus. Was wollen wir machen? TAXONOMIE CLUSTERING FILTER Regierung abschaffen Bombe 8 Die Politiker haben einen Schatten. Wird mal Zeit, dass wir sie abschaffen. Eine neue Regierung wär Die Bombe müssten wir dann um ca. 11 Uhr zünden. Da sind die meisten Leute unterwegs.
  9. 9. Erst große Plattenspeicher machen Big Data möglich 9
  10. 10. Anwendungsfälle für Big Data
  11. 11. Anwendungsfälle Finanzdienstleister Versicherungen Telekommunikation • Erkennung betrügerischer Transaktionen in Echtzeit, Risikoabschätzungen, beschleunigte Fallbearbeitung, individualisierte Dienstleistungen • Beschleunigte Fallbearbeitung, bessere Risikoabschätzung, verhaltensbezogene Bepreisung • Qualitätssicherung, individualisierte Ansprache und Dienstleistungen, Betrugserkennung, neue Produkte Produktion • Präventive Wartung und Überwachung, vernetzte Geräte, individualisierte Dienstleistungen, Marktüberwachung Energie • Kurzfristige Bedarfsprognosen, vernetzte, individualisierte Geräte, vorausschauende Steuerung Handel • Prognosen für die Absatzplanung, dynamische Preisbildung, Marktüberwachung und individualisierte Ansprache Öffentliche Sicherheit Gesundheit Mobilität • Schnelle Lageerfassung und Früherkennung gefährlicher Ereignisse • Vernetzte Geräte, präventive Steuerung, effizientes Fallmanagement, datengetriebene Entwicklung • Vernetzte Autos, Navigation, Stauhilfe 11
  12. 12. Beispiel: Kreditkartenmissbrauch Kreditkartenunternehmen erstellen ein Muster aus den Zahlungsdaten Visa hat ca. 2 Mrd. Kreditkarten weltweit Werden einige Tage später Einkäufe im Reiseland getätigt, liegt evtl. ein Missbrauch vor! Durch Big Data hat sich die Dauer der Analyse von 45 Min. auf 4 Sek. verkürzt Quelle: Bild der Wissenschaft, Ulrich Schmitz 12
  13. 13. Versicherungsbetrug Aus Terabytes an personen- und raumbezogenen Daten kann Versicherungsbetrug aufgedeckt werden. NetReveal von Detica setzt Personen zueinander in Beziehung und korreliert sie mit Ereignissen (z.B. Schadensmeldungen) Identische Personen, Brüder, Neffen, Vettern hatten in der selben Region Schadenersatz nach einem Auffahrunfall geltend gemacht  Fingierte Auffahrunfälle Quelle: Bild der Wissenschaft, Ulrich Schmitz 13
  14. 14. Energiewirtschaft Smart Meter für 40 Mio Haushalte ab 2020 Künftig (mögliches Szenario) Heute Standard Last Profil (SLP) Registrierende Leistungsmessung (RLM) • Eine Ablesung pro Jahr • 40 Mio. Datensätze / Jahr • 40 TB / Jahr • Ein Datensatz pro 15 Min • 1,5 Billionen Datensätze / Jahr • 1,5 Exabytes / Jahr 14
  15. 15. Big Data Architektur
  16. 16. Traditionelle Architektur Strukturierte Daten System 1 System 2 Integration DWH System 3 16 Analytics
  17. 17. Big Data Architektur Strukturierte und unstrukturierte Daten System 1 System 2 Distributed File System Map / Reduce DWH System 3 Analytics 17
  18. 18. Hadoop Ökosystem MAHOUT PIG Key-Value DB Scripting von MapReduce jobs HBASE HDFS machine learning, Bibliothek von Algorithmen z.B. Clustering HIVE HQL für MapReduce MapReduce Hadoop distributed file system * Es existieren weitere Komponenten des Hadoop Ökosystems, die hier nicht dargestellt sind (Oozi, Ambari, ZooKeeper, Hcatalog, Scoop, Flume, etc.) 18 Java frame work
  19. 19. HDFS (hadoop distributed file system) Client Node File.txt 1 TB A B A auf Node 1 B auf Node 2 C auf Node 3 Name Node C A Data Node 1 B C Data Node 2 Data Node 3 19 Data Node N
  20. 20. MapReduce local remote Worker Worker Worker Worker Aggregation Worker Worker Worker Zwischenergebnisse Verteilte Daten MAP PHASE REDUCE PHASE 20 Endergebnis
  21. 21. MapReduce am WordCount-Beispiel 21
  22. 22. Big Data Anbieter
  23. 23. Anbieter IBM Microsoft HP Oracle EMC2 Exasol Teradata … 23
  24. 24. Was passiert in Zukunft mit Big Data?
  25. 25. Welche Chancen und Risiken ergeben sich in Zukunft Grippe-Trends weltweit verfolgen Google hat festgestellt, dass die Häufigkeit bestimmter Suchbegriffe Anhaltspunkt für die Häufigkeit von Grippefällen sein kann. Für die Google Grippe-Trends werden Daten der Google-Suche gesammelt und ausgewertet. Auf Grundlage der Ergebnisse wird anschließend die Häufigkeit von Grippefällen geschätzt. 25
  26. 26. Chancen und Risiken in der Medizin Chancen Klinische Studien Risiken Krankenakten Klinische Studien Krankenakten Wissenschaftliche Veröffentlichungen Wissenschaftliche Veröffentlichungen Errechnen von RisikoPatienten Neue Zusammenhänge erlauben neue Therapien 26
  27. 27. Vielen Dank für Ihre Aufmerksamkeit Unsere Standorte Hauptsitz Bonn Niederlassung Köln Niederlassung Darmstadt Niederlassung Bern Kurfürstenallee 5 53177 Bonn Tel +49 228 – 76 36 31 0 Fax +49 228 –76 36 31 3 Wilhelmstraße 3 51143 Köln Tel +49 22 03 – 91 22 0 Fax +49 22 03 – 91 22 23 Kasinostraße 60 64293 Darmstadt Tel +49 61 51 – 78 90 0 Fax +49 61 51 – 78 90 23 0 Frohbergweg 7 3012 Bern Tel +41 31 – 534 07 06 Fax +41 31 – 536 69 78

×