Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Datenanalyse in der Praxis

806 views

Published on

I love to teach and share my knowledge with others. In 2014 I was invited to teach at Informatica Feminale in Bremen which is an annual summer university for female computer scientists. My lecture was about modern data analytics and data sciences.
The participants had a broad background, some were students and some were already active data analysts. Together we worked on the subjects:

Big Data
OLAP
Data Warehouse architectures
NoSQL
Self Service BI

Published in: Technology
  • Überprüfen Sie die Quelle ⇒ www.WritersHilfe.com ⇐ . Diese Seite hat mir geholfen, eine Diplomarbeit zu schreiben.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Datenanalyse in der Praxis

  1. 1. Datenanalyse in der Praxis
  2. 2. Agenda  Datenanalyse am Beispiel  Datenanalyse im Enterprise Bereich
  3. 3. Datenanalyse am Beispiel  Aufgabe:  Wo begegnet uns Datenanalyse ?  Sammelt Beispiele aus eurem Wissen!
  4. 4. Kursziel  Einblick in Datenanalyse  Architekturen kennen  Methoden und Konzepte Kennenlernen  Gelerntes praktisch ausprobieren  Ausprägungen kennen lernen
  5. 5. Agenda des Kurses  Grundlagen von Datenanalyse und Beispiele  Datenanalyse in Unternehmen  Freie Daten und Datenquellen  Datenanalyse am Beispiel mit Power *  Andere Formen der Datenanalyse
  6. 6. Ausprägungen von Datenanalyse
  7. 7. Data Warehouse Systeme Motivation Datenanalyse im Enterprise Bereich
  8. 8. Folienherkunft  Teile der Folien im folgenden Abschnitt stammen aus der Vorlesung Datenmanagement im Gesundheitssystem aus dem Jahr 2011ff an der Universität Oldenburg, die von mir mitentwickelt und gehalten worden ist
  9. 9. Beispielhaftes Szenario Dipl.-Inform. Yvette Teiken 06.03.2016
  10. 10. Entwicklung DB Schema Dipl.-Inform. Yvette Teiken 06.03.2016
  11. 11. DB Nutzung  Anfragen:  Wie viele Flaschen Cola wurden letzten Monat verkauft?  Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?  Wer sind unsere Top-Kunden?  Von welchem Lieferanten beziehen wir die meisten Kisten?  Probleme  Nutzung externer Quellen (Kundendatenbank, Konsumdaten,... )  Daten mit zeitlichem Bezug Dipl.-Inform. Yvette Teiken 06.03.2016
  12. 12. Erweitertes Szenario Dipl.-Inform. Yvette Teiken 06.03.2016
  13. 13. DB Nutzung II  Anfragen  Verkaufen wir in Hannover mehr Bier als in Oldenburg?  Wie viel Cola wurde im Sommer in ganz Niedersachsen verkauft?  Mehr als Wasser?  Probleme  Anfragen über mehrere Datenbanken  Anfragen mit Geographiebezug Dipl.-Inform. Yvette Teiken 06.03.2016
  14. 14. Mögliche Lösungen  Variante 1: „Verteilte DB“  Globale Anfrage über mehrere DBs Views mit Union  Nachteil: aufwändige verteilte Anfrageausführung  Variante 2: „Zentrale DB“  Änderungen über einer zentralen DB  Nachteil: lange Antwortzeiten im operativen Betrieb Dipl.-Inform. Yvette Teiken 06.03.2016
  15. 15. Lösung: Data Warehouse (DWH) Dipl.-Inform. Yvette Teiken 06.03.2016
  16. 16. Beispiele aus der Praxis  Wal-Mart (www.wal-mart.com)  Marktführer im amerikanischen Einzelhandel  Unternehmensweites Data Warehouse  Größe: ca. 300 TB (2003)  [Jim Gray, Computer Zeitung 17/2003]  Täglich bis zu 20.000 DW-Anfragen  Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten)  Basis für Warenkorbanalyse, Kundenklassifizierung, . . .  Ebay  Data Warehouse  6+ Petabyte mit 17 * 10^12 Datensätzen  täglich 150 * 10^9 Aktualisierungen  2 Petabyte Data Warehouse zu Analysezwecken  [North 2010], [DBMS2 2009] Dipl.-Inform. Yvette Teiken 06.03.2016
  17. 17. Beispiele aus der Praxis  Bundesagentur für Arbeit  Öffentliche Verwaltung  Unternehmensweites Data Warehouse  Größe: ca. 17 TB (2010),  [Bauer Günzel, 2009]  15.000 Anwender  Integriert 80 Datenquellen und führt monatliche Aktualisierungen um Umfang von 250GB durch  Basis für Arbeitsmarktberichterstattung und Controlling  Keine Basisdatenbank fürs DWH  DWH wird direkt aus den Externen und internen Quellen geladen Dipl.-Inform. Yvette Teiken 06.03.2016
  18. 18. Beispielhafte Fragestellungen  Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern  Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen  Untersuchung der Wirksamkeit von Marketing-Aktionen  Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc.  Analyse des Lagerbestands  Warenkorbanalyse mit Hilfe der Kassenbons  Erstellung von Statistiken, Publikationen und Analysen sowie Controlling  Wie viele Personen waren in einem Gebiet arbeitslos?  Wie ist die prozentuale Verteilung bezogen auf alle Arbeitssuchenden?  Wurden die vordefinierten Ziele zur Vermittlungsquote Bundesweit, Landesweit oder Gebietsweit erfüllt? Dipl.-Inform. Yvette Teiken 06.03.2016
  19. 19. Beispiel Gesundheitswesen  Beispiel Epidemiologisches Krebsregister Niedersachsen (EKN)  EKN ist ein DWH (Auswertungsplattform MUSTANG)  Quelldaten:  Keine direkten Quellsysteme  Explizite Datenerfassung, Meldungen über Neuerkrankungen  Beispiele für Analysefragestellungen:  Erfasste Neuerkrankungen  Erkrankungsalter  Nach Diagnosen Dipl.-Inform. Yvette Teiken 06.03.2016
  20. 20. Beispiel EKN Analyse Dipl.-Inform. Yvette Teiken 06.03.2016
  21. 21. Technische Einführung Dr. Yvette Teiken
  22. 22. Agenda  Klassische Architekturen / Referenzarchitektur  Ausprägungen in der Praxis
  23. 23. Anforderungen an ein DWH  Unabhängigkeit zwischen Datenquellen und Analysesystemen, Daten im DWH sind redundant  Dauerhafte Bereitstellung integrierter Daten  Einheitliche Sicht auf bereitgestellte Daten  Mehrfachverwendung der bereitgestellten Daten  Durchführung beliebiger Anfragen  Erweiterbarkeit (insb. neue Datenquellen)  Automatisierung Dipl.-Inform. Yvette Teiken 06.03.2016
  24. 24. Definition Data Warehouse (1)  Data Warehouse (DWH) =  “A subject oriented, integrated, nonvolatile, time variant collection of data organized to support management needs” [Inmon 1993]  Merkmale:  Themenorientierung  Integration und Vereinheitlichung  Dauerhaftigkeit, Stabilität  Zeitorientierung der Informationen  Analyse und Entscheidungsunterstützung für das Management Dipl.-Inform. Yvette Teiken 06.03.2016
  25. 25. Charakteristika von DWH  Themenorientierung (subject-oriented):  Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels (Produkte, Kunden)  Integrierte Datenbasis (integrated):  Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern)  Nicht-flüchtige Datenbasis (non-volatile):  stabile, persistente Datenbasis  Daten im DWH werden nicht mehr entfernt oder geändert  Zeitbezogene Daten (time-variant):  Speicherung über längeren Zeitraum  Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Dipl.-Inform. Yvette Teiken 06.03.2016
  26. 26. Definition Data Warehouse (2)  Data Warehouse (DWH) =  “Physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt. Im Unterschied zur Basisdatenbank, steht der Auswertungsaspekt (analyseorientiertes Schema) im Mittelpunkt, der sich oft in einem multidimensionalen Schema widerspiegelt. Häufig, aber nicht notwendigerweise findet eine Historisierung der Daten statt, indem in periodischen Abständen Daten hinzugeladen, aber nicht modifiziert werden.” [Bauer Günzel 2009]  Wichtige Unterscheidung zu Inmon:  Es fehlt „to support management needs“  Z.B. Datenanalyse von Patientendaten fördert Behandlungswissen, nicht Management Dipl.-Inform. Yvette Teiken 06.03.2016
  27. 27. Weitere Begriffe  Data Warehousing  „Data Warehousing ist kein Produkt, sondern der Prozess der Zusammenführung und des Managements von Daten aus verschiedenen Quellen mit dem Zweck, eine einheitliche, detaillierte Sicht auf den einzelnen Geschäftsbereich oder das gesamte Unternehmen zu erhalten.“[Jung, Winter 2000]  „alle Schritte des Datenbeschaffungsprozesses, das Speichern und Analysieren der Daten“ [Bauer Günzel 2009]  Data Mart  externe (Teil-)Sicht auf das Data Warehouse  durch Kopieren  anwendungsbereichsspezifisch  OLAP (Online Analytical Processing) (Paradigma)  explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells  Business Intelligence  …. Dipl.-Inform. Yvette Teiken 06.03.2016
  28. 28. Referenzarchtiektur nach [Bauer Günzel 2001] 06.03.2016Dipl.-Inform. Yvette Teiken Daten- quelle(n) Arbeits- bereich Basis- datenbank Data Warehouse Extraktion Laden Laden Analyse Transformation Monitor Data-Warehouse- Manager Metadaten- Manager Repository Datenfluss Kontrollfluss Data-Warehouse-System Bereich der Datenbeschaffung
  29. 29. Bedeutung für die Praxis
  30. 30. Referenzarchitektur  Jede Datenanalyse basiert auf dieser Architektur  Selten vollständig  Techniken und Konzepte sind identisch, egal  EDW, PDW, Analytisches Data Warehouse  Big Data  Desktop Analyse
  31. 31. Beispiel aus der Praxis I  Krankenkasse  Besonderheit:  Gesundheitsrelevante Daten  Fachbereich
  32. 32. Beispiel aus der Praxis II  Handelskonzern  Besonderheit: Lagerlogistik und Bestellwesen
  33. 33. Beispiel aus der Praxis III  Krankenkasse  Besonderheit: Spezialauswertung für Leihprozesse
  34. 34. Beispiel aus der Praxis IV  Amazon Redshift  http://aws.amazon.com/de/redshift/  Frage:  Was wird angeboten?  Wobei hilft es?  Welche Probleme löst es nicht
  35. 35. BI-Reifegradmodelle Dipl.-Inform. Yvette Teiken 06.03.2016
  36. 36. Datenanalyse am Beispiel
  37. 37. Self Service BI  Idee: Nutzer ohne große BI Infrastruktur Daten Analysieren zu lassen Extrahieren Säubern Transformieren Auswerten Teilen
  38. 38. Power BI  Neue Strategie für Datenanalyse bei Microsoft  Grundlage: Microsoft Excel  Bestandteile  Power Query (Extract und Transform)  Power Pivot (Transformieren)  Powerview (Auswerten)  Power Map (Geografische Analyse)  Vorteil  In vielen Firmen verfügbar  Nutzer sind vertraut mit Verwendung  Lässt sich in Infrastruktur integrieren
  39. 39. Power Query I  Laden von verschiedenen Datenquellen  Interaktive und wiederholbare Anfragen erstellen
  40. 40. Power Query II
  41. 41. Datenquelle Web: wikipedia http://de.wikipedia.org/wiki/Krankenhaus
  42. 42. Krankenhaus Daten laden I
  43. 43. Krankenhaus Daten laden II
  44. 44. Krankenhaus Daten auswerten
  45. 45. Demo http://de.wikipedia.org/wiki/Krankenhaus
  46. 46. Laden aus Api: XML http://daten.berlin.de/datensaetze/liste-der-badestellen-badegew%C3%A4sserqualit%C3%A4t
  47. 47. XML Struktur Analysieren http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
  48. 48. Drill Down zur Tabelle
  49. 49. Demo http://www.berlin.de/badegewaesser/baden-details/index.php/index/all.xml?q=
  50. 50. Weitere Anbindungsmöglichkeiten
  51. 51. Transformation
  52. 52. Transformations
  53. 53. Große Übung Datenanalyse
  54. 54. Große Übung  Ziel: Analyse der Straßenunfälle in UK  Ausfälligkeiten  Tage  Alter  Straßen  Tageszeiten  Beispiel stammt von Chris Webb (http://blog.crossjoin.co.uk/) Einreichung zum PowerBi Wettbewerb. Demo von ihm: https://www.youtube.com/watch?v=War1pSs2LAM
  55. 55. Vorgehen  Extrahieren: Daten laden und dem Modell hinzufügen  Säubern: Nicht notwendig  Transformieren  Zeit Hierarchie  Dimensionstabellen verknüpfen  Auswerten  Interaktive Diagramme erstellen Extrahieren Säubern Transformieren Auswerten Teilen
  56. 56. Datenintegration  Lade Daten mittels Ordner  Ins Datenmodell laden  Verknüpfen  Ein Jahr sollte zunächst reichen
  57. 57. Ergebnisse prüfen
  58. 58. Power View aufrufen
  59. 59. Ergebnis Datenintegration
  60. 60. Aggregation  Verdichten oder detaillieren Daten  Beliebtes Beispiel Zeit Jahr Monat Tag
  61. 61. Dimensionstabelle Zeit
  62. 62. Dimensionstabelle Zeit  Zeit zum Datenmodell hinzufügen  Verknüpfung mit Datensätzen auf niedrigster Ebene  Erstellung von Hierarchien
  63. 63. Datenmodell mit Zeitdimension
  64. 64. Transformieren  Aufgaben  Daten in das Ziel Format übertragen  Daten vereinheitlichen (Geschlecht)  Daten auflösen
  65. 65. Dimensionstabellen I
  66. 66. Dimensionstabellen II  Müssen zum Datenmodell hinzugefügt werden  Müssen verknüpft werden  IDs ausblenden  Dimensionen nach Analysezweck auswählen
  67. 67. Vollständiges Modell mit Dimensionen
  68. 68. Meine Ergebnisse
  69. 69. Unfälle nach Jahr als Tabelle
  70. 70. Vergleich über Jahre
  71. 71. KPI definieren
  72. 72. Analyse nach Alter
  73. 73. Farbscala
  74. 74. Gefährliche Tage
  75. 75. Fußgängerunfälle
  76. 76. Auswertung nach Wochentagen
  77. 77. Daten und freie Daten
  78. 78. Woher kommen Daten  Offene Datenquellen (Open data)  Non Open Data
  79. 79. Open (Government) Data  „Offene Daten sind Daten, die von jedem/r frei benutzt, weiterverwendet und geteilt werden können – die einzige Einschränkung betrifft die Verpflichtung auf die Nennung des Urhebers“
  80. 80. 10 Prinzipien  Vollständigkeit  Primärquelle  Zeitliche Nähe  Leichter Zugang  Maschinenlesbarkeit  Diskriminierungsfreiheit  Verwendung offener Standards  Offene Lizenzierung  Dauerhaftigkeit  Kostenfreiheit http://sunlightfoundation.com/policy/documents/ten-open-data-principles/
  81. 81. Warum ?  Neelie Kroes  EU Kommissarin für digitale Agenda  „Geben Sie ihre Daten frei, um Arbeitsplätze und Wachstum zu schaffen“
  82. 82. Nutzen  Wirtschaftlicher Nutzen  Bürger-Nutzen  Transparenz  Verwaltung
  83. 83. Arten von Daten  1. Umweltdaten (Feinstaub, CO2, Pollen) 2. Märkte (Wochen-, Floh-, Weihnachtsmärkte) 3. Events (Straßenfeste, Konzerte, Lange Nacht der …, Sportereignisse) 4. Entsorgung (Termin in meiner Straße, Recyclinghöfe, Containerstandorte, Sondermüll) 5. Infrastruktur (Radwege, Toiletten, Briefkästen, Geldautomaten, Telefone) 6. Verkehr (Baustellen, Staus, Sperrungen) 7. Nahverkehr (Fahrpläne, Verspätungen, Zugausfälle, Sonderfahrten) 8. Öffnungszeiten (Bibliotheken, Museen, Ausstellungen) 9. Verwaltung (Formulare, Zuständigkeiten, Ämter, Öffnungszeiten) 10. Verbraucherberatung, Schuldnerberatung 11. Familie (Horte, Kindergärten) 12. Bildung (Schulen, Volkshochschulen, Hochschulen und Unis) 13. Wohnen (Wohngeld, Mietspiegel, Immobilien, Grundstückspreise) 14. Gesundheit (Krankenhäuser, Apotheken, Notdienst, Spezialisten, Beratungsstellen, Blutspende) 15. Haustiere (Tierärzte, Tierheim, Tierpflege) 16. Kontrolle (Badegewässer, Lebensmittel, Gaststätten, Preise) 17. Recht (Gesetze, Vorschriften, Beratung, Schlichter, Gutachter) 18. Polizeiticker (aktuelle Vorfälle, Fahndung, Kriminalitätsatlas) 19. Stadtplanung (Flächennutzungsplan, Bauvorhaben, Verkehr, Flughäfen) 20. Bevölkerung (Zahl, regionale Verteilung, Demografie, Kaufkraft, Beschäftigung/Arbeitslosigkeit, Kinder) 21. Finanzdaten (Budgets, Aufträge, Verträge)
  84. 84. Crowd Sourcing http://codefor.de/
  85. 85. Beispiel Berlin http://daten.berlin.de/datensaetze
  86. 86. Open Data Berlin  885 Datensätze in 22 Kategorien  Beispiele  Finanzamt Atlas Berlin  Straßen und Volksfester  Liste der Badestellen  Denkmalliste  Arbeitslosenquote
  87. 87. Weltbank  Idee: Globale Zusammenhänge verstehen
  88. 88. Datenportal für Deutschland https://www.govdata.de/
  89. 89. Datenportal der EU http://publicdata.eu/
  90. 90. Datenportal UK http://data.gov.uk/
  91. 91. (Inoffizieller) Metakatalog für Open Data in Deutschland https://offenedaten.de/
  92. 92. Open Data Klassifikation http://5stardata.info/
  93. 93. 1 Stern  Daten sind verfügbar, egal in welchem Format, aber nutzt offene Lizenz
  94. 94. 1 Stern - Vorteile  Als Datenkonsument  Daten können angesehen werden  Drucken  Lokal speicherbar  Ändern wie man will  Man kann es jedem teilen  Als Daten Bereitsteller  Einfach zu veröffentlichen  Man muss die Verwendung nicht erläutern
  95. 95. 2 Sterne  Daten sind als strukturierte Daten verfügbar  Z. B. Excel statt einem pdf
  96. 96. 2 Sterne Vorteile  Als Datenkonsument  Mann kann alles wie unter 1 Stern und  Daten können direkt mit Software verarbeitet werden (Berechnungen, Visualisierungen)  Es kann zu anderen Formaten exportiert werden  Als Daten Bereitsteller  Publizieren ist immer noch einfach
  97. 97. 3 Sterne  Es werden urheberrechtliche nicht geschützte Formate verwendet  CSV statt Excel
  98. 98. 3 Sterne Vorteile  Als Datenkonsument  Alles was mit 2 Sterne geht  Daten können auf beliebige Weise manipuliert werden  Kann mit beliebiger Software manipuliert werden  Als Daten Bereitsteller  Es werden ggf. Plug-Ins zum Publizieren benötigt  Immer noch relativ einfache Bereitstellung
  99. 99. 4 Sterne  Verwende Uris um Daten zugreifbar zu machen, damit Leute das verweisen können
  100. 100. 4 Sterne Vorteile  Als Datenkonsument  Daten können verlinked werden  Man kann es Bookmarken  Teile der Daten wieder verwenden  Kann Daten mit anderen Daten kombinieren  Als Daten Bereitsteller  Granularere Kontrolle über Daten  Andere Bereitsteller können die Daten verlinken
  101. 101. 5 Sterne  Verlinkte Daten zu anderen und liefere Kontext
  102. 102. 5 Sterne Vorteile  Als Datenkonsument  Mehr verknüpfte Daten finden wenn man Daten verwendet  Man muss mit kaputten Links umgehen  Sicherheitsrisiko wenn Daten von fremden Quellen importiert werden  Als Daten Bereitsteller  Daten sind entdeckbar  Wert der Daten erhöht sich  Man profitiert genauso wie der Konsument
  103. 103. Übung zu Open Data  Ziel: Überblick über offene Datenquellen zu bekommen  Fragen  Welche Art von Daten werden bereitgestellt?  Welche Daten findet ihr besonders interessant und warum?  Wie granular sind die Daten?  Wie sind die zugänglich?  Bewertung der Datenquelle  Präsentation im Plenum  Gruppen  Global: Weltbank.org  UK: Data.gov  Deutschland: govdata.de  EU: http://opendata.eu/
  104. 104. Non Open Data
  105. 105. Andere Datenquellen  Unternehmensdaten  Internet Dienste  Haben meistens eine API  Registrieren  Zugriff über Web Schnittstellen
  106. 106. Facebook Graph API
  107. 107. Demo Facebook API  me  erminasde/posts  ewebaskets/posts
  108. 108. Beispiel: Social Media Analyse
  109. 109. Quelle: Facebook Datenströme
  110. 110. Verabeitung der Daten mit Hadoop
  111. 111. Analyse der Ergebnisse mit Excel
  112. 112. Andere Visualisierung
  113. 113. Twitter
  114. 114. Twitter Visualisierung http://tweetping.net/
  115. 115. Twitter: Mehr lernen  http://blogs.ischool.berkeley.edu/i290-abdt- s12/
  116. 116. fitbit
  117. 117. Trakt.tv
  118. 118. Weitere Quellen  http://www.programmableweb.com/
  119. 119. Datenanalyse mit Tableau
  120. 120. Big Data
  121. 121. Agenda  Überblick  Was ist Hadoop  Hive  Map Reduce  Pig
  122. 122. Die 3 Vs Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
  123. 123. Was ist Big Data ?
  124. 124. Was ist Big Data?
  125. 125. Warum Big Data –Neue Zahlen  2008: Google processes 20 PB a day  2009: Facebook has 2.5 PB user data + 15 TB/day  2009: eBay has 6.5 PB user data + 50 TB/day  2011: Yahoo! has 180-200 PB of data  2012: Facebook ingests 500 TB/day
  126. 126. Datenspeicherung  Data storage is not trivial  Data volumes are massive  Reliably storing PBs of data is challenging  Disk/hardware/network failures  Probability of failure event increases with number ofmachines  For example:  1000 hosts, each with 10 disks  a disk lasts 3 year  how many failures per day?
  127. 127. Ursprünge  Hadoop is an open-source implementation based on GFS and MapReduce from Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003)  The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004)  MapReduce: Simplified Data Processing on Large Clusters OSDI 2004
  128. 128. Architektur
  129. 129. Eigeschaften  A distributed file system  Redundant storage  Designed to reliably store data using commodity hardware  Designed to expect hardware failures  Intended for large files  Designed for batch inserts  The Hadoop Distributed File System
  130. 130. HDFS - files and blocks  Files are stored as a collection of blocks  Blocks are 64 MB chunks of a file (configurable)  Blocks are replicated on 3 nodes (configurable)  The NameNode (NN) manages metadata about files and blocks  The SecondaryNameNode (SNN) holds a backup of the NN data  DataNodes (DN) store and serve blocks
  131. 131. Replication  Multiple copies of a block are stored  Replication strategy:  Copy #1 on another node on same rack  Copy #2 on another node on different rack
  132. 132. Schreiben in HDFS
  133. 133. Lesen in HDFS
  134. 134. Ausfall Datenknoten  DNs check in with the NN to report health  Upon failure NN orders DNs to replicate under-replicated blocks
  135. 135. Arbeiten mit HDFS
  136. 136. Name Node  Tool for browng HDFS
  137. 137. Job Tracker
  138. 138. Hive
  139. 139. Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legend Red = Core Hadoop Blue = Data processing Purple = Microsoft integration points and value adds Orange = Data Movement Green = Packages HDInsight / Hadoop Eco-System
  140. 140. Beispiel: Social Media Analyse
  141. 141. Quelle: Facebook Graph API
  142. 142. Verabeitung der Daten mit Hadoop
  143. 143. Analyse der Ergebnisse mit Excel
  144. 144. Eigene Map Reduce Tasks
  145. 145. Beispiel: Analyse von Freitext
  146. 146. Quelle: Plenarprotokolle Bundestag
  147. 147. Verarbeitung der Daten mit Hadoop
  148. 148. Analyse der Ergebnisse mit Excel
  149. 149. Zusammenfassung  Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12/  Niemand in Deutschland hat Big Data!

×