Your SlideShare is downloading. ×
0
H a m b u r g , J u n e 2 0 1 4
QUARTERLY TECHNOLOGY
BRIEFING
Moin!
2
3
4
AGENDA
▫︎Was ist ‘Big Data’
▫︎Preis Informationen im Einzelhandel
!
▫︎Agile Analytics
▫︎Data Engineer und Data Scientist
!...
WAS IST ‘BIG DATA’
6
VOLUME
VELOCITY
9
VARIABILITY
10
VERACITY
11
VALUE
12
GRUPPO PAM
THE CHALLENGE: PREISINFORMATIONSSYSTEM
!
!
▫︎ Datewarehouse auf TerraData Basis
!
▫︎ Business Requirements änderten sich -...
MICROSERVICES ON STEROIDS
14
…… …
2010 2011 2014
~150 Instanzen
1 Server
200.000.000 Zeilen / Instanz
AGILE ANALYTICS
15
AGILE ANALYTICS
16
analytics
technologies
agile delivery
lean learning
`
fast
results
17
Value
Complexity
descriptive
diagnostic
predictive
prescriptive
Was ist passiert?
Warum ist es passiert?
Was wird gesch...
AGILE ANALYTICS
IN ACTION
18
19
Data Lab Operationalisierung
2 Wochen 2 Monate
!
!
Brainstorming
Datenanalyse ~1.000.000 Edges
Experimente / Spikes (Ge...
20
Netzwerk 1. Grades
21
Netzwerk 2. Grades
NEO4J
!
▫︎“Natural fit” für Graphen basierte Queries
!
▫︎Basis Graph Algorithmen “on-board”
▫︎Shortest Path, Centrality, Pa...
23
Data Lab Operationalisierung
2 Wochen 2 Monate
!
!
Neo4j als Datastore
Batch Import (14 Jahre) aus MSSQL
- ~95.000.000 ...
ROLLEN: WER MACHT WAS?
!
▫︎Ergänzung zur klassischen IT
!
▫︎Kernkompetenzen
24
data
engineer
data
scientist
DATA ENGINEER
!
!
▫︎Implementiert das analytische Modell in Produktion
!
▫︎Schnittstelle zur Softwareentwicklung
!
▫︎Exper...
DATA SCIENCE
26
data
engineering
scientific
method
math
domain
expertise
data
science
statistics
hacker
mindset
visualizati...
“SEXIEST JOB OF THE 21ST CENTURY”
Hat Annahmen und überprüft diese
!
“Hacker-Mentalität”
!
Hilft durch fundierte Informati...
DATA SCIENTIST
Machine Learning
Support Vector Machines
Decision Trees
Clustering, ...
Domain-Wissen
Geschäftliches Detail...
BEISPIEL ANALYSE
Multiple-Choice
!
▫︎ 10 Fragen
▫︎ 4 mögliche Antworten
!
ergibt 40 dimensionalen Vektor
!
!
!
Welches Wis...
K-MODES CLUSTERING
!
▫︎ Für kategoriale Daten
▫︎ Ähnlich K-Means, modifiziert @ Bell Labs
!
!
!
!
!
Quelle: Weston Pace (Wi...
K-MEANS VS K-MODES
!
!
▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz
!
▫︎ Stattdessen: Abzählen der erfolgreichst...
VEREINFACHUNG ALS VORTEIL
!
!
!
K-Modes erzwingt eine klarere Cluster-Bildung
!
!
Schlechte Performance bei schwacher Korr...
33
GOOGLE BIG QUERY
!
!
▫︎Queries über Milliarden von Zeilen in Sekunden
!
▫︎Gut zum analysieren, aber nicht zum modifizieren
...
AUTOTRADER UK / GOOGLE BIG QUERY
!
▫︎3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen)
!
▫︎Queries via ...
SOCIAL IMPACT
36
ETHISCHE GESICHTSPUNKTE
!
!
!
▫︎Daten als neue Währung
!
▫︎Technologischer Fortschritt im Konflikt mit gesellschaftlicher N...
ETHISCHE GESICHTSPUNKTE
“How Target Figured Out A
Teen Girl Was Pregnant
Before Her Father Did”
38
INFORMATIONELLE SELBSTBESTIMMUNG
!
!
Rechtliche Anforderung, § 3a BSDG
!
Aktuelle Themen
NSA-Affäre
Datendiebstahl
!
Betriff...
DOE VERSUS NETFLIX
▫︎$1.000.000 Wettbewerb um das Netflix Recommendation-System zu
verbessern
!
▫︎Veröffentlichung eines pse...
DATENSPARSAMKEIT
!
Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig
41
KONKRETE LÖSUNGEN
!
!
▫︎Unique visitors?
▫︎Gehashte IP-Adressen
!
▫︎Geo-IP Zuordnung
▫︎Auslassen des 4. Oktetts
!
!
!
Quel...
…
43
thoughtworks.com/join
DANKE!
CREDITS
Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg
Clustering: http://www.wired.com/...
Upcoming SlideShare
Loading in...5
×

Quarterly Technology Briefing - Big Data - Germany

4,353

Published on

ThoughtWorks Quarterly Technology Briefing on Big Data, featuring Ashok Subramanian and Dave Elliman. Hamburg, June 2014

Published in: Technology
1 Comment
3 Likes
Statistics
Notes
No Downloads
Views
Total Views
4,353
On Slideshare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
22
Comments
1
Likes
3
Embeds 0
No embeds

No notes for slide

Transcript of "Quarterly Technology Briefing - Big Data - Germany"

  1. 1. H a m b u r g , J u n e 2 0 1 4 QUARTERLY TECHNOLOGY BRIEFING Moin!
  2. 2. 2
  3. 3. 3
  4. 4. 4
  5. 5. AGENDA ▫︎Was ist ‘Big Data’ ▫︎Preis Informationen im Einzelhandel ! ▫︎Agile Analytics ▫︎Data Engineer und Data Scientist ! ▫︎AutoTrader und BigQuery ! ▫︎Social Backlash und Datensparsamkeit 5
  6. 6. WAS IST ‘BIG DATA’ 6
  7. 7. VOLUME
  8. 8. VELOCITY
  9. 9. 9 VARIABILITY
  10. 10. 10 VERACITY
  11. 11. 11 VALUE
  12. 12. 12 GRUPPO PAM
  13. 13. THE CHALLENGE: PREISINFORMATIONSSYSTEM ! ! ▫︎ Datewarehouse auf TerraData Basis ! ▫︎ Business Requirements änderten sich - IT kam nicht mit ! ▫︎ ~50 analytische Vektoren ! ▫︎ 12 Stunden -> Realtime 13
  14. 14. MICROSERVICES ON STEROIDS 14 …… … 2010 2011 2014 ~150 Instanzen 1 Server 200.000.000 Zeilen / Instanz
  15. 15. AGILE ANALYTICS 15
  16. 16. AGILE ANALYTICS 16 analytics technologies agile delivery lean learning ` fast results
  17. 17. 17 Value Complexity descriptive diagnostic predictive prescriptive Was ist passiert? Warum ist es passiert? Was wird geschehen? Wie können wir es eintreten lassen?
  18. 18. AGILE ANALYTICS IN ACTION 18
  19. 19. 19 Data Lab Operationalisierung 2 Wochen 2 Monate ! ! Brainstorming Datenanalyse ~1.000.000 Edges Experimente / Spikes (Gephi) Tests mit Mitarbeitern
  20. 20. 20 Netzwerk 1. Grades
  21. 21. 21 Netzwerk 2. Grades
  22. 22. NEO4J ! ▫︎“Natural fit” für Graphen basierte Queries ! ▫︎Basis Graph Algorithmen “on-board” ▫︎Shortest Path, Centrality, Pattern Matching ! ▫︎Java API mit guter Performance ▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde 22
  23. 23. 23 Data Lab Operationalisierung 2 Wochen 2 Monate ! ! Neo4j als Datastore Batch Import (14 Jahre) aus MSSQL - ~95.000.000 Edges Dropwizard (REST, HealtChecks) - read only A/B Testing via Email
  24. 24. ROLLEN: WER MACHT WAS? ! ▫︎Ergänzung zur klassischen IT ! ▫︎Kernkompetenzen 24 data engineer data scientist
  25. 25. DATA ENGINEER ! ! ▫︎Implementiert das analytische Modell in Produktion ! ▫︎Schnittstelle zur Softwareentwicklung ! ▫︎Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur (Hadoop...) ! ▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung 25
  26. 26. DATA SCIENCE 26 data engineering scientific method math domain expertise data science statistics hacker mindset visualization advanced computing
  27. 27. “SEXIEST JOB OF THE 21ST CENTURY” Hat Annahmen und überprüft diese ! “Hacker-Mentalität” ! Hilft durch fundierte Informationen Entscheidungen zu treffen ! Validiert das Alleinstellungsmerkmal des Produktes ! Weiss wie man die richtigen Fragen stellt 27
  28. 28. DATA SCIENTIST Machine Learning Support Vector Machines Decision Trees Clustering, ... Domain-Wissen Geschäftliches Detailwissen Statistische Modellierung Bayes-Klassifikation K-Nearest-Neighbour, ... Programmierung R, Matlab, Python, ... 28
  29. 29. BEISPIEL ANALYSE Multiple-Choice ! ▫︎ 10 Fragen ▫︎ 4 mögliche Antworten ! ergibt 40 dimensionalen Vektor ! ! ! Welches Wissen im Datensatz? 29
  30. 30. K-MODES CLUSTERING ! ▫︎ Für kategoriale Daten ▫︎ Ähnlich K-Means, modifiziert @ Bell Labs ! ! ! ! ! Quelle: Weston Pace (Wikimedia Commons, cc-by-sa) 30
  31. 31. K-MEANS VS K-MODES ! ! ▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz ! ▫︎ Stattdessen: Abzählen der erfolgreichsten Antwort (“mode”) ! ▫︎ Einfache Distanz: Anzahl der Verschiedenen Antworten 31
  32. 32. VEREINFACHUNG ALS VORTEIL ! ! ! K-Modes erzwingt eine klarere Cluster-Bildung ! ! Schlechte Performance bei schwacher Korrelation 32
  33. 33. 33
  34. 34. GOOGLE BIG QUERY ! ! ▫︎Queries über Milliarden von Zeilen in Sekunden ! ▫︎Gut zum analysieren, aber nicht zum modifizieren ! ▫︎Keine eigene Infrastruktur benötigt ! ▫︎Einfaches Setup durch gutes Tooling: gsutil / bq 34
  35. 35. AUTOTRADER UK / GOOGLE BIG QUERY ! ▫︎3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen) ! ▫︎Queries via BigQuery WebConsole, später API ! ▫︎Google App Engine Frontend mit Google Charts 35
  36. 36. SOCIAL IMPACT 36
  37. 37. ETHISCHE GESICHTSPUNKTE ! ! ! ▫︎Daten als neue Währung ! ▫︎Technologischer Fortschritt im Konflikt mit gesellschaftlicher Norm 37
  38. 38. ETHISCHE GESICHTSPUNKTE “How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did” 38
  39. 39. INFORMATIONELLE SELBSTBESTIMMUNG ! ! Rechtliche Anforderung, § 3a BSDG ! Aktuelle Themen NSA-Affäre Datendiebstahl ! Betrifft alle die private Daten speichern und verarbeiten 39
  40. 40. DOE VERSUS NETFLIX ▫︎$1.000.000 Wettbewerb um das Netflix Recommendation-System zu verbessern ! ▫︎Veröffentlichung eines pseudonymisierter Datensets ! ▫︎Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com ! ▫︎Ermöglichte Zuordnung zu bekannten Benutzerprofilen 40
  41. 41. DATENSPARSAMKEIT ! Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig 41
  42. 42. KONKRETE LÖSUNGEN ! ! ▫︎Unique visitors? ▫︎Gehashte IP-Adressen ! ▫︎Geo-IP Zuordnung ▫︎Auslassen des 4. Oktetts ! ! ! Quelle: Martin Fowler “Datensparsamkeit” 42
  43. 43. … 43
  44. 44. thoughtworks.com/join DANKE!
  45. 45. CREDITS Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg Clustering: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker2_large.jpg Chris + Wife: http://i.huffpost.com/gen/1579914/thumbs/o-OKCUPID-LOVE-facebook.jpg Kassenbon: http://www.kundenkunde.de/wp-content/uploads/2011/06/kassenbon_kaufland_gross.jpg Data Science: http://upload.wikimedia.org/wikipedia/commons/4/44/DataScienceDisciplines.png K-Means http://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg und folgende 45
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×