• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Big Data - Eine Tour d'Horizon
 

Big Data - Eine Tour d'Horizon

on

  • 1,576 views

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Slides von meine Keynote auf der Fachtagung "Big Data & Social Media Research. Marktforschung im Exabyte-Zeitalter" von BVM und AG Social Media

Statistics

Views

Total Views
1,576
Views on SlideShare
1,546
Embed Views
30

Actions

Likes
6
Downloads
0
Comments
0

2 Embeds 30

http://tecpunk.com 29
http://tecpunk.wordpress.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

Big Data - Eine Tour d'Horizon Big Data - Eine Tour d'Horizon Presentation Transcript

  • Big Data – Eine Tour d‘Horizon Benedikt Koehler, d.core GmbH Twitter: @furukamaVortrag auf der Fachtagung von BVM / AG Social Media „Big Data and Social Media Research“, 15. Mai 2012
  • Big Data = Große Herausforderungen?
  • Der „Big-Data-Sweetspot“
  • Big Data als Geschäftsmodell Acquired by IBM for $1.7 B Acquired by EMC Acquired by Oracle Acquired by Teradata for $263 M IPO $230 MQuelle: Crunchbase
  • Big Data als GeschäftsmodellDaten: Crunchbase, eigene Darstellung
  • Big Data als ArbeitsmarktBig-Data-Stellenanzeigen in Deutschland auf monster.de (n=165), 11.5.2012
  • Die drei Big-Data-Probleme1. Volume – „Sehr sehr große Datenmengen“ – Norvig: Data Center → Data Warehouse → Internet Scale – Typische Größenordnung: Milliarden bis Billionen Fälle, Millionen bis Milliarden Variablen – Beispiel: Twitter 1 Mrd. Tweets in der Woche – Technologien: MapReduce, HDFS, Project Voldemort
  • Die drei Big-Data-Probleme1. Volume2. Velocity – Sehr sehr schnelle Datenströme – Sensordaten, Smartphones, Social Media → Datendurchsatz – Typische Größenordnungen: 15k-300k/s – Echtzeit-Inputs → Echtzeit Outputs – Stream/Event Processing – Technologien: Storm, S4, Esper
  • Die drei Big-Data-Probleme1. Volume2. Velocity3. Variety / Variability – Sehr sehr vielfältige und veränderbare Datenstrukturen – Datenbereinigung >> Datenanalyse – Datenmarktplätze z.B. Datasift, GNIP – Schemafreie Datenbanken / NoSQL, Netzwerkdatenbanken
  • Velocity
  • Mehr Daten statt bessere Algorithmen• Sehr große Datenmengen: – Einfache Mathematik statt komplexe statistische Modelle (Häufigkeiten, Korrelationen, lineare Algebra) – Parallelisierung von Algorithmen• Sehr schnelle Datenströme – Näherungswerte vs. exakte Zahlen – Caching• Sehr unterschiedliche Formate – Datenbereinigung größerer Aufwand als Datenanalyse – NoSQL-Datenbanken
  • Trainingsdaten >> Algorithmus • Vergleich unterschiedlicher Algorithmen für die Disambiguierung von Begriffen • Trainingsdatensatz mit 1 Mrd. Wörtern • Trade-off zwischen Umfang der Trainingsdaten und Algorithmus • Größere Datenbasis wichtiger als Verbesserung AlgorithmenMichele Banko und Eric Brill 2001: http://acl.ldc.upenn.edu/P/P01/P01-1005.pdf
  • Agnostisches VorgehenGoogle Correlate Ergebnis für die amtl. Arbeitslosenzahlen in Deutschland, http://www.google.com/trends/correlate
  • Verteiltes Machine Learning
  • Velocity
  • Shitstorm-Meter • BrandTweet- Markenmonitoring auf Twitter: Tracking der Häufigkeiten von Markennennungen • Analyse von Trends und Zyklen • „Shitstorm“-Warnung bei Abweichungen von Volumen und Sentimen von der Baseline-AktivitätQuelle: http://brandtweet.com
  • App-Network • Auswertung der Empfehlungen des iTunes Appstores • Welche Apps werden häufig gemeinsam installiert? • Ergebnis: Netzwerk von Apps und sprachlich, inhaltlich und soziodemographischen Clustern
  • Passiver Wahl-o-mat • Text-Mining von Wahlprogrammen • Darstellung der inhaltlichen Nähe von Parteien anhand der Kosinus-Ähnlichkeit • „Passiver Wahl-o-mat“ ermöglicht Einordnung anderer Corpora (z.B. Blog, Twitter-Timeline) in politisches SpektrumPiraten 0,14108935Gruene 0,12956345SPD 0,08088609CDU 0,06258422Linke 0,09733024FDP 0,04376875
  • Funnel plots • Funnel Plots in der Meta- Analyse von Medikamentenstudien • Schiefe Verteilungen können auf Publikationsbias hinweisen
  • Predictive Policing • „Predictive Policing“-Projekt in Santa Cruz, CA • Vorhersage künftiger Verbrechenswahrschein- lichkeiten („Aftercrimes“) analog zur Erdbeben- prognose
  • VelocityD3
  • Vielen Dank!Twitter: @furukamaBlog: beautifuldata.comWeb: www.dcore.de