Your SlideShare is downloading. ×
IBM - Big Value from Big Data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

IBM - Big Value from Big Data

1,558
views

Published on

Die BigData Plattform der IBM

Die BigData Plattform der IBM

Published in: Business

1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total Views
1,558
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
136
Comments
1
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Wilfried HogeLeading Technical Sales ProfessionalSenior IT Architect Information ManagementIBM Deutschland Big Value from Big Data Fertig werden mit den 3 wichtigsten Herausforderungen: Volume, Velocity und Variety [=V3] Seite : 1
  • 2. Information Management Was ist Big Data? 2020 •  Datenmengen wachsen immer schneller – in allen Unternehmen 44x mehr Daten im 35 zettabytes und in allen Branchen kommenden Jahrzehnt •  Die Daten werden häufig von einer großen Anzahl Menschen (z.B. Social Media) oder von 80% der Daten sind Maschinen (z.B. Ticker oder unstrukturiert Messgeräte) generiert •  Die meisten Daten sind nicht einfach strukturiert sondern 2009 haben komplexe oder 800,000 petabytes unbekannte Strukturen und der Aufwand für die Analyse und Anpassung der Strukturierung ist sehr groß •  Informationen in diesen Daten enthalten große Chancen und großen Wert und daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung •  Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die Verarbeitungsgeschwindigkeit Seite : 2
  • 3. Information Management Die Big Data Herausforderung Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht möglich gewesen. Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von BigData zu beherrschen: Variety, Velocity, Volume (=V3) Verarbeitung der Komplexität von relationalen und nicht- Variety relationalen Datentypen und Schemas Analyse von Daten direkt Velocity während sie entstehen Effizientes skalieren für große Volume Datenmengen Seite : 3
  • 4. Information Management Volume und Velocity – zwei Dimensionen für Big Data Exa Wind Turbine Placement & Operation Up to 10,000 PBs of data Times Analysis time to 3 days from 3 weeks Peta larger 1220 IBM iDataPlex nodes Data Scale DeepQA Tera 100s GB for Deep Analytics Data at RestData Scale 3 sec/decision Power7, 15TB memory Giga Telco Promotions 100,000 records/sec, 6B/day Traditional Data 10 ms/decision Mega Warehouse and 270TB for Deep Analytics Business Intelligence Up to 10,000 Data in Motion times faster Security 600,000 records/sec, 50B/day Kilo 1-2 ms/decision yr mo wk day hr min sec … ms µs 320TB for Deep Analytics Occasional Frequent Real-time Decision Frequency Seite : 4
  • 5. Information Management Massiv parallele Verarbeitung für Volume und Velocity •  Divide and conquer ist eine bewährte Methode zur Bewältigung von umfangreichen Berechnungen •  Jeder Knoten verwaltet einen Teil der Daten •  Jeder Knoten kann Algorithmen auf seinen Daten ausführen •  Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen •  Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten Anfrageknoten Berechnungs-/Speicherknoten Seite : 5
  • 6. Information Management Variety – Speicherung und Analyse neuer Datentypen •  Daten aus den Quellen Web (z.B. Logs, Clickstream), Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML, Spatial) werden in vielen Unternehmen bereits gesammelt •  Die Datenstrukturen sind in den wenigsten Fällen geeignet für die Verarbeitung in traditionellen DWH Umgebungen, die meist auf relationale Datenstrukturen beschränkt sind •  Aufwändige ETL Prozesse und/oder Betrachtung von Ausschnitten machen sie konsumierbar •  Diese Daten aber in Gänze zu analysieren erfordert eine direkte Verarbeitung von komplexeren Datentypen •  Hinzu kommen Datentypen, die nicht leicht in relationale Strukturen zu überführen sind und daher i.d.R. gar nicht berücksichtigt wurden (z.B. Audio, Bilder, Video) •  Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt direkt zu behandeln, und Algorithmen, die diese Daten verarbeiten, sind notwendig. Seite : 6
  • 7. Information Management Variety – Explorative Analysen für Big Data •  IBM Research hat Algorithmen zur explorativen Analyse entwickelt •  Diese Algorithmen erlauben die Analyse von Daten in ihrem ursprünglichen Datenformat Text Statistics Image & Video Mining Acoustic Predictive Times Series Financial Geospatial Mathematical IBM macht den Unterschied – signifikante Investitionen in die Forschung und Entwicklung von Analysealgorithmen für Big Data Seite : 7
  • 8. Information Management Big  Data  Ansatz  ergänzt  das  bisherige  Vorgehensmodell     Traditionelles Vorgehen Big Data Vorgehen Strukturierung & Wiederholbare Analyse Iterative & Forschende Analyse Fachbereich IT Bestimmen, welche Stellen eine Plattform Fragen gestellt werden für kreative Erkundung bereit IT Fachbereich Strukturiert die Daten, Erkundet, welche um die Fragen zu Informationen in den beantworten Daten stecken Monatlicher Umsatz Reputation der Marke Profitabilität Produkt Strategie Kundenanalyse Maximierung der Ausutzung Seite : 8
  • 9. Information Management Eine Kombination von zwei Technologien für Big Data •  Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht zu werden ist eine Kombination von zwei Technologien sinnvoll •  Analyse von Big Data während der Entstehung – Streaming Analytics •  Die Daten werden analysiert sobald sie im System ankommen •  Die einfließenden Datenströme werden analysiert und können mit gespeicherten Informationen in Verbindung gebracht werden •  Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet ➯  InfoSphere Streams •  Speicherung von großen Datenmengen und flexible Analyse dieser Daten – Internet Scale Analytics •  Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit •  Operationen auf diesen Daten können effizient ausgeführt werden •  Basiert auf dem Hadoop Framework ➯  InfoSphere BigInsights Seite : 9
  • 10. Information Management IBM Big Data Platform IBM Big Data Client and Partner Marketing Solutions Solutions IBM Unica Big Data Accelerators Content Analytics ECM Text Statistics Financial Geospatial Acoustic Image/Video Mining Times Series Mathematical Business Analytics Cognos & SPSS Connectors Applications Blueprints Warehouse InforSphere Information Server Appliance Big Data Enterprise Engines IBM Netezza Master Data Management InfoSphere MDM InfoSphere Streams InfoSphere BigInsights Data Warehouse Productivity Tools and Optimization InfoSphere Warehouse Workload Management Consumability and and Optimization Management Tools Database DB2 Open Source Foundation Compnents Data Growth Management Eclipse Oozie Hadoop HBase Pig Lucene Jaql InfoSphere Optim Seite : 10
  • 11. Information Management IBM Netezza für Big Data Analyse •  IBM Netezza ist eine DWH Appliance mit MPP Architektur, Hardware basierender Abfragebeschleunigung und in-Datenbank Ausführung von Analysealgorithmen •  Das Appliance Konzept ermöglicht extrem hohe Analyse Leistung ohne Tuning •  Ideal geeignet für Big Data Analyse auf Daten, die im relationalen Modell untergebracht werden können •  In-Database Analysen (z.B. Data Mining, Spatial, Predictive Analysis) out of the box •  Zusätzlich Unterstützung von Hadoop Map/Reduce Algorithmen direkt auf Netezza Seite : 11
  • 12. Information Management Integration von IBM Data Warehouse und BigInsights Netezza Infosphere Warehouse SQL Cubing services DB2 JDBC Connector Jaql client JaqlSubmit UDF HDFSRead UDF Http Http Infosphere BigInsights Jaql server Persistent data (MapReduce repository) Seite : 12
  • 13. Information Management Streams und BigInsights – Verfeinerung eines Analysemodells •  Da die Algorithmen sowohl in Streams als auch in Visualisierung sowohl von BigInsights verwendet werden können lassen Echzeit-Analysen als auch sich closed-loop Projekte leicht umsetzen von Analysen auf Basis historischer Daten InfoSphere InfoSphere Streams BigInsights & Data Warehouse 1.  Daten laden Daten 2.  Modell erzeugen und verfeinern Daten- Integration, Laden von Daten, Data Mining, Datenaufbereitung, Control Machine Echtzeit-Analyse, flow Learning, Modell Validierung Statistical Modelling 3.  Adaptives analytisches Modell Seite : 13
  • 14. Information Management Big Data muss ein integrierter Bestandteil der Informationsarchitektur eines Unternehmens sein Enterprise Business Analytics Content Management Information Integration & Federation Data Warehouse Big Data Big Data Information Data Governance Management Seite : 14
  • 15. Information Management BigInsights in der IBM SmartCloud Enterprise •  Ihr eigener Hadoop Cluster in der IBM Cloud in weniger als 30 Minuten •  Benötigt keine eigene Hardware, keine Installation, keine Wartung •  Hadoop Cluster kann in einem beliebigen IBM Cloud Data Center platziert werden •  Geringe Gebühren, die pro Stunde berechnet werden •  Start mit lizenzfreiem BigInsights Basic und einfache Umstellung auf die BigInsights Enterprise Version Seite : 15
  • 16. Information Management BigInsights in der Cloud Einfaches Kennenlernen von Hadoop •  Online Kurs erlaubt das Lernen am Standort ihrer Wahl mit freier Zeiteinteilung •  Kurse und Kursmaterial kostenfrei •  Cloud basierte Sandbox für Übungen •  Bereits mehr als 8500 Teilnehmer Seite : 16
  • 17. Information Management Big Data und Watson Big Data Technology wurde genutzt um die Watson kann Informationen aus Big Data Wissensdatenbank von Watson zu bauen! zur erweiterten Analyse konsumieren! Watson verwendete das Apache Hadoop Framework zur Verteilung der Workload beim Laden der Informationen CRM Data in das Memory" POS Data Social Media ~200 Millionen Textseiten (Um Jeopardy zu spielen!) Analyseergebnisse -  Kaufverhalten -  Soziale Beziehungen -  Trends InfoSphere BigInsights Watson‘s Memory Erweiterte Analyse und Suche Seite : 17
  • 18. THINKInformation Management Variety Nutzen sie bereits das Potential ihrer unstrukturierten Daten? Können sie durch Analyse in Echtzeit besser Velocity werden? Sammeln sie die Daten nur oder nutzen sie Volume diese auch? ibm.com/bigdata Seite : 18
  • 19. Wilfried HogeLeading Technical Sales ProfessionalSenior IT Architect Information ManagementIBM Deutschland Seite : 19