Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data Governance

1,503 views

Published on

This presentation deals with to topic of Big Data Governance and how companies can establish a holistic Big Data Governance framework which is suited for the organizational day to day business.

Published in: Technology
  • Be the first to comment

Big Data Governance

  1. 1. Big Data Governance in der Praxis München, 26.06.2017, Rüdiger Eberlein
  2. 2. 2Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Capgemini’s Bereich Insights&Data hat weltweit 13.000 Berater, davon 600+ in Projekten in Deutschland und Österreich Nearshore Wroclaw Offshore Mumbai Bangalore Hamburg Düsseldorf Köln/Bonn Stuttgart München Frankfurt Nürnberg Hannover Berlin Wien Kolkata 45% 10% 45% Mitarbeiter Onshore Nearshore Offshore Public Sector Manufacturing, Retail& Distribution Telecom,Media & Entertainment Automotive Energy, Utilities & Chemicals Financial Services Auswahl an ReferenzkundenfürInformationManagement,Business Intelligence,Data Warehouse,Big Data Analytics
  3. 3. 3Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  4. 4. 4Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Die Funktionen eines Information Governance Frameworks Industry standards, Reference Data Mgmt (internal& external reference data) Legal& regulatory data compliance practices, e-Discovery Information lifecycle: Data Retention, Disposition Data Quality rules,policies & scorecards Masterdata policies & workflows Data Architecture, Data Modelling, Metadata Management, Lineage & Traceability Data classifications &hierarchies, Naming &coding conventions IG organization, decision-making & accountability IG culture, awareness Business glossary, data attributes roadmap, socialdata,open data, IoT data,M2M data Information exploitation (internal, external) IGprogram reach:Data domains,systems, Programs in scope Data Privacy, Data Protection, Information Security,Data Masking
  5. 5. 5Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Motivation für eine Big Data spezifische Governance Data Governance Neue Datenquellen Externe Daten Unstrukturierte Daten Echtzeit- Verarbeitung Neue Analytics- Ansätze Agiles Vorgehen
  6. 6. 6Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Prinzipien  Daten sind ein wertvollerRohstoff Wichtige Prinzipien der Datenarchitektur*  Daten werden geteilt(Datendemokratie)  Daten werden nutzbarbereitgestellt  Die Qualität der Daten wird gesichert  Unternehmensweites Business Glossar  Die Daten sind gesichert vorMißbrauch *TOGAF Data Principles
  7. 7. 7Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Architektur für Big Data: Schwerpunkt auf Big Data Lake und NoSQL Manage Process Analyze Information Source data Data ExplorationReporting Ad-hoc Querying Search, Retrieval Structured data  tables Unstructured Data  Text, speech, … Semistructured data  JSON, XML, … Data Warehouse Data Asset Catalog  Index  Tags  Metadata Data Lake NoSQL databases Key value store Document store Column store Graph store SQL databases Row based Column based Streaming, Event Processing File system Adv. Analytics, Machine Learning Next Best Action Data ingestionETL/ELT Adv. Visualization Data virtualization Data preparation  Data governance and security  Data privacy  Compliance  Collaboration  Value generation  Program delivery  Data-driven culture  Information strategy  Skill development  Master data mgmt  Metadata mgmt  Data quality mgmt  Operations, SLA’s  Orchestration
  8. 8. 8Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Die wesentlichen Prozesse für Big Data Governance Lieferung, Ingestion Sicherheit Katalogisierung Aufbereitung Nutzung Qualitäts- management Stammdaten- management Lifecycle- Management
  9. 9. 9Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Stakeholder in der Big Data Governance Governance Rollen • Chief Data Officer • Data GovernanceAusschuss • Data Steward • Dateneigentümer • Datenlieferant • Data Risk Officer • Rechtsabteilung Nutzerrollen • Data Scientist • Data Engineer • Entwickler • Power User • Informationskonsument
  10. 10. 10Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  11. 11. 11Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Governance aufBig Data Agilität gegen Governance – Sie müssen die richtige Balance finden !  Agilitätist ein hauptsächlicher Treiberin Big Data Analyticsund hatGovernance Paradigmenin den Hintergrund gedrängt.  Governancewird eherals Bremse denn als Enablergesehen:“Irgendeinezentrale Einheiterzähltmir, dass ich nichtdie Dinge tun kann, die ich tun sollte.”  Umwälzungenam Markt geschehen und warten nichtauf Governance Prozesse.  DerFachbereich willmit Big Data Analytics fix unterwegs sein und möchteRegulation loswerden.  Data Scientists brauchenFlexibilität in ihrer Arbeitum große Erkenntnissezu machen.  Governanceistwie Sie anfangenDinge im Großen zu tun.  Unternehmensagilität istnicht,wenn man alles tun kann, was man will. Unternehmensagilität ist,das Rad nicht mehrfach zu erfinden,wenn man anfängt Datenquellen zu erschließen oderSysteme zu integrieren.  „Garbage in – Garbage out“gilt immer noch!  Wenn man die Bedeutung seinerGroßen Daten nichtkennt,riskiert man Fehlinterpretation und falscheSchlüsse aus den Daten. Agilitätfür Big Data Analytics
  12. 12. 12Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Einige Paradigmen für Agilität in Big Data Analytics • Ermutige Datenlieferanten ihre Daten im unternehmensweiten Data Lake bereitzustellen Mimimal formal governance • Lade Daten einfach in den Data Lake mit Quasi-Null-Aufwand für die ITData Ingestion • Lade (quasi) alle ggf. relevanten Daten in den Data LakeLoad all data • Lade Daten ohne jede strukturelle ÄnderungSchema-on-read • Lade die Daten (quasi) in roher Form, ohne inhaltsändernde Verarbeitung oder AggregationRaw data • Strukturiere und transformiere Daten erst bei BedarfProcess data on-the-fly • Ermögliche Data Scientists und Engineers ein Arbeiten im Self Service ModeSelf Service
  13. 13. 13Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Die Art der Zusammenarbeit zwischen IT und Fachbereich ist bei Big Data Analytics anders als bei traditioneller Business Intelligence Time-to-production Traditional BI New Analytics Provide me these new data sources in HDFS pls Seems that I need a new report Done Exploring the data. Trial and error. Specifying the solution outline Implementing Wow, that’s what I was looking for Go and specify what exactly you need ! Don’t know exactly. Better request all. That’s too complicated to implement No. That’s not what I want. You need to do it another way ! Why didn’t you say that at the beginning? IT Business
  14. 14. 14Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  15. 15. 15Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Grundlegende Fragestellungen der Nutzer des Data Lake  Welche Daten sind im Data Lake verfügbar?  Welche relevanten Daten gibt es zu meiner fachlichen Fragestellung?  Wo liegen die betreffenden Daten?  Woher stammen diese Daten?  Über welchen Weg sind die Daten in den Data Lake gelangt?  Wie wurden sie verarbeitet?  Wie sind die Daten strukturiert?  Welche Bedeutung haben die Daten?  Wofür kann ich die Daten nutzen? Gibt es Einschränkungen bzgl. Datenqualität oder Nutzungsrechten?
  16. 16. 16Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Grobkonzept für effizientes Teilen von Daten im Unternehmen unter Nutzung eines Data Asset Catalog Business Data Science Enterprise Taxonomy Enterprise Data AssetSearch Enterprise Data AssetCatalog Data Provider Data Steward / Information Curator 1 2 3 4 6 5
  17. 17. 17Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Die fachliche Taxonomie definiert Kategorien für die Klassifizierung der Data Assets des unternehmensweiten Data Lake Typische Kategorien sind: Business taxonomy Business processes Customer journey Business areas and segments Products and services Organisation including regions and countries Time
  18. 18. 18Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Data Asset Catalog Data Asset Catalog Data Hadoop, Database, Files, 3rd Party Data, Things, Data in motion, Analyticsresults Index Builder Metadata Connector Catalog Data asset information on data structure, type, relationship, data profile, … Index Asset search User Data Scientist, Data Engineer Data Profiler Asset discovery Classification, tags, profile, lineage, … Business Taxonomy Data Steward Data Lineage Analyzer Data Provider Classification, Tagging Business Architect Data Processing Data Engineer
  19. 19. 19Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Definition fachlicher Metadaten im Data Asset Catalog basierend auf der Unternehmenstaxonomie … 1) Basic and extended metadata attributes are modelled as user-defined tags 2) And then attached to a data file or data field BEISPIEL
  20. 20. 20Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 … ermöglicht Data Scientists und Data Engineers die für ihre Fragestellung relevanten Daten zu suchen … Waterline provides search form incorporating custom defined search criteria (tags and origins concepts) BEISPIEL
  21. 21. 21Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 … und diese Data Assets innerhalb des unternehmensweiten Data Lake zu finden Waterline provides an Amazon like multi-faceted search with both predefined facets as well as custom defined facets BEISPIEL
  22. 22. 22Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Mit Data Discovery können die einzelnen Datenfelder bezüglich Nutzbarkeit bewertet werden Waterline interface displays profile information (e.g. Data type, min, max, cardinality) on field level to assist data scientists in data discovery BEISPIEL
  23. 23. 23Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  24. 24. 24Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Klassifizierung der Daten bezüglich Sicherheit  Sensible Daten  PersonenbezogeneDaten  Gesundheitsdaten  Kreditkartendaten  IntellectualProperty  Wenigersensible Daten  UnsensibleDaten Datensicherheitsklassen  Anonymisierung  Pseudonymisierung (VerschlüsselungsalgorithmusoderLookup Tabellen)  Verschlüsselung am Speicherplatz(z.B. HDFS encryption)  Verschlüsselung fürden Datentransfer  Datenzugriffskontrolle Sicherheitsmaßnahmen
  25. 25. 25Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  26. 26. 26Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Werkzeuge für Big Data Governance  DerReifegrad derangebotenen Werkzeuge für Big Data Governanceistheute noch begrenzt.  Es gibt viele Werkzeuge mit mehroderweniger vielen funktionalenÜberlappungen.  Es gibt kein Werkzeug,das in der Breite alle Anforderungenbzgl.BDG abdeckt.  Es gibt viele Anbieter.DerMarkt entwickeltsich schnell. Situation  GewichtenSie Ihre eigenen funktionalen Anforderungenan Big Data Governance.  SuchenSie dazu passende Best-of-Breed- Produkte.  Ermitteln Sie den Scope dereinbezogenen Datenlokationen (Hadoop,RDBMS,…).  Fordern und prüfenSie die Integrationsfähigkeit derfavorisiertenBDG Produkte.Insbesondere mit Hadoop-Kernkomponentenwie HCatalog muss die Integration gegebensein.  Nutzen Sie die BDG Funktionalitäten,die mit dervon Ihnen ausgewählten Hadoop- Distribution (Cloudera,HortonWorks,MapR) mitkommen. Empfehlung
  27. 27. 27Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Produktanbieter für Big Data Governance ApacheHadoop wurde ursprünglichnichtbzgl.Big Data Governancekonzipiert. Fehlende Funktionalitätenwurden und werden von Version zu Version eingebracht. WesentlicheKomponentensind:  HCatalog  Hive Metastore  Solr Hadoop Core Die Hadoop Distributorenreichern den HadoopKern mit eigenen Komponenten fürBDG entsprechend derAnforderungen von Unternehmen an (Enterprise Edition). Teilweise versuchen sie auch diese Komponenten in den HadoopCore zu bringen.  Cloudera:Navigator,Sentry,…  HortonWorks:Atlas,Falcon, Ranger  MapR Hadoop Distributoren  Informatica  IBM  WaterlineData  Alation  Collibra  Tamr  Talend  Zaloni  Trifacta  Adaptive  Dataguise  Data Advantage Group  SAP  Attivio  … Dritte
  28. 28. 28Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Agenda  Übersicht  Agilität  Datenkatalog  Datensicherheit  Werkzeuge  Zusammenfassung
  29. 29. 29Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Die wesentlichen Prozesse für Big Data Governance Lieferung, Ingestion Sicherheit Katalogisierung Aufbereitung Nutzung Qualitäts- management Stammdaten- management Lifecycle- Management
  30. 30. 30Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Verweise  Big Data Governance: Big Data Governance: Modern Data Management Principles for Hadoop, NoSQL & Big DataAnalytics; Peter Ghavami; Paperback  Data Management Body of Knowledge (DMBOK2)  TOGAF: Data Principles, The Open Group  Big Data Governance, Rüdiger Eberlein, CIO Magazine
  31. 31. 31Copyright © Capgemini 2017. All Rights Reserved Big Data Governance in der Praxis | 26.06.2017 Ihr Ansprechpartner zu Big Data Governance bei Capgemini Rüdiger Eberlein Insights & Data Advisory & Architecture ruediger.eberlein@capgemini.com Capgemini München Mobile +49 160 9787 2295
  32. 32. www.capgemini.com The information contained in this presentation is proprietary. © 2016 Capgemini. All rights reserved. Rightshore® is a trademark belonging to Capgemini. About Capgemini With more than 190,000 people in over 40 countries, Capgemini is one of the world's foremost providers of consulting, technology and outsourcing services. The Group reported 2016 global revenues of EUR 12.5 billion. Together with its clients, Capgemini creates and delivers business, technology and digital solutions that fit their needs, enabling them to achieve innovation and competitiveness. A deeply multicultural organization, Capgemini has developed its own way of working, the Collaborative Business ExperienceTM, and draws on Rightshore®, its worldwide delivery model.

×