ITMoov 2012 - Data governance en data quality

606
-1

Published on

Filip Cuppens (DynApps, ABC-Groep) geeft u enkele tips en ideeën die u laten nadenken over datakwaliteit en data governance. Bedoeling is dat de presentatie de lezer aanzet tot nadenken om de nodige stappen te ondernemen om in het eigen bedrijf de kwaliteit van de data die gebruikt wordt voor het maken van beslissingen te verbeteren

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
606
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

ITMoov 2012 - Data governance en data quality

  1. 1. Kasteel van Brasschaat 29 Maart 2012 2e editie
  2. 2. DATA GOVERNANCE & DATA QUALITYTIPS & TRICKSFILIP CUPPENS
  3. 3. AGENDA• Biografie• Wat verstaat men onder data governance en data kwaliteit• Data governance workflow• Data issues in een data warehouse• Conclusies
  4. 4. BIOGRAFIE• Business Intelligence Consultant sinds 2002• Werk voor DynApps sinds mei 2011• Carrière pad • BI Developer • BI Analyst • BI Project Lead • BI Unit Manager• Projecten • DHL Aviation • Johnson & Johnson • SD Worx • Nutricia
  5. 5. DATA GOVERNANCE ENDATA KWALITEIT• Data • Gestructureerd: databases • Ongestructureerd: mails, word-docs, PDF, internet• Beslissingen op basis van data • Kwaliteit van die data ? • Is de data betrouwbaar genoeg om beslissingen te nemen ? • Hoe kunnen we zeker zijn dat de data betrouwbaar is ?• Data Governance • Afspraken, tools, beslissingen die tot doel hebben de data kwaliteit te verbeteren • Personen verantwoordelijk voor de kwaliteit van de data
  6. 6. DATA GOVERNANCE ENDATA KWALITEIT ?• Data Kwaliteit • Operationele data • Negatieve connotatie • Defecten, issues • Slechte data kwaliteit • Data stewards• “Poor data quality is amongst Top 5 reasons why data warehouse projects fail”• Data Governance • BI Projecten • Data warehouse projecten
  7. 7. DATA GOVERNANCE ENDATA KWALITEIT !• Data Kwaliteit • Data Definities • Afspraken • Meta data • Verbeter processen• Niet enkel in een data warehouse, maar voor alle data • Ook operationele data
  8. 8. DATA GOVERNANCEWORKFLOW Data No Decision on Quality Create/Update Address the solving the Rules Meta Data issues defects AccurateYes Create Inventory List of Defects Give all issues Revisit an Impact Profile Data Documentation Report Findings Weight and Weights
  9. 9. DATA GOVERNANCEWORKFLOW Data No Decision on Quality Create/Update Address the solving the Rules Meta Data issues defects AccurateYes Create Inventory List of Defects Give all issues Revisit an Impact Profile Data Documentation Report Findings Weight and Weights
  10. 10. DATA DEFINITIES• Data Definities CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity CustomerName CustomerZIP CustomerCity 1 CAS CASA CASA 2000 Antwerpen 2000 Antwerpen 2 BLO Blokker Blokker 1080 Brussel 1080 Brussel 3 AL Aldi Aldi 1040 Brussel 1040 Brussel 4 LID Lidl Lidl 2100 Deurne 2100 Deurne 5 KRF Krefel Krefel 3600 Genk 3600 Genk 6 VDB Van den Borre Van den Borre 8000 Gent 8000 Gent 7 KRE Krefel Krefel 3600 Genk 3600 Genk 8 CAR Carrefour Carrefour 10000 Brussel 10000 Brussel
  11. 11. DATA DEFINITIES• Data definitie tips • Men kan enkel spreken over een defect indien er een regel bestaat omtrent de correctheid van de data • Data kwaliteit regels dienen bepaald te worden door de business, NIET door IT • Data kwaliteit wordt NIET gedefinieerd op data storage level • Data kwaliteit wordt geïmplementeerd op data storage level
  12. 12. DATA GOVERNANCEWORKFLOW Data No Decision on Quality Create/Update Address the solving the Rules Meta Data issues defects AccurateYes Create Inventory List of Defects Give all issues Revisit an Impact Profile Data Documentation Report Findings Weight and Weights
  13. 13. DATA PROFILING• Met behulp van specifieke tools een inzicht krijgen in de structuur en kwaliteit van de data• Proces met als bedoeling informatie te krijgen over de data in plaats van informatie uit de data halen• Voorbeeld: BE postcode pattern = ‘B-9999’
  14. 14. DATA GOVERNANCEWORKFLOW Data No Decision on Quality Create/Update Address the solving the Rules Meta Data issues defects AccurateYes Create Inventory List of Defects Give all issues Revisit an Impact Profile Data Documentation Report Findings Weight and Weights
  15. 15. DATA ISSUE OPLOSSEN ?• Kost om issue op te lossen ? • Kosten voor de business (als issue niet wordt opgelost) • Kost om issue op te lossen• Risico’s indien issue niet opgelost worden ?• Waar het defect oplossen ?• Business beslissingen, geen IT beslissingen
  16. 16. DATA ISSUE OPLOSSEN ?• Een voorbeeld Klanten Leverancier 5 Warehouses Gent Brugge Antwerpen Transport Hasselt Transport Leuven
  17. 17. DATA ISSUE OPLOSSEN ?• Een voorbeeld CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity 1 CAS CASA 2000 Antwerpen 2 BLO Blokker 1080 Brussel 3 AL Aldi 1040 Brussel 4 LID Lidl 2100 Deurne 5 KRF Krefel 3600 Genk 6 VDB Van den Borre 8000 Gent 7 KRE Krefel 3600 Genk 8 CAR Carrefour 10000 Brussel 10000 Brussel Operationele kost: extra transport kost = € 0,00 Analyse: nieuw warehouse te openen in de regio Brussel
  18. 18. DATA ISSUE OPLOSSEN?ZIP Subcity City Revenue/Year 10000 Brussel € 760.000,00 1040 Etterbeek Brussel € 299.600,00 1080 Sint-Jans-Molenbeek Brussel € 297.600,00 1070 Anderlecht Brussel € 160.000,00 1000 Brussel Brussel € 159.900,00 ZIP Subcity City Revenue/Year 1180 Ukkel Brussel € 760.000,00 1040 Etterbeek Brussel € 299.600,00 1080 Sint-Jans-Molenbeek Brussel € 297.600,00 1070 Anderlecht Brussel € 160.000,00 1000 Brussel Brussel € 159.900,00
  19. 19. DATA ISSUES IN EENDATA WAREHOUSE• Is per definitie data in een data warehouse niet ‘proper’ ?• ETL: veel aandacht besteed aan data kwaliteit• BI initiatieven gaan vaak gepaard met master data management initiatieven• Maar toch …
  20. 20. DATA ISSUES IN EENDATA WAREHOUSE• Voorbeeld: tijdsregistratie Datum Persoon Omschrijving• Afwezigheid 10/01/2012 Filip C. Vakantie • code 100 20/01/2012 Filip C. Ziek • Omschrijving: vrij tekst veld 07/02/2012 Filip C. Verlof • Guidelines voor omschrijving 22/02/2012 Filip C. Sociaal Verlof • Vakantie • Ziek • Sociaal verlof Key Omschrijving 1 Vakantie 2 Ziek 3 Sociaal Verlof 4 Verlof
  21. 21. DATA ISSUES IN EENDATA WAREHOUSE• Business voorstel voor oplossing • ETL blokt nieuwe waarden • Workflow voor creatie van nieuwe waarden New absence Request to enter Request approval Approved ? value ? in dimTable Typical Time Frame: 2 weeks Workload + Follow-Up: manuallyZekerheid omtrent correctheid van maandelijks rapport ?
  22. 22. DATA GOVERNANCEWORKFLOW Data No Decision on Quality Create/Update Address the solving the Rules Meta Data issues defects AccurateYes Create Inventory List of Defects Give all issues Revisit an Impact Profile Data Documentation Report Findings Weight and Weights
  23. 23. WAAR DATA ISSUESOPLOSSEN ?• In operationeel systeem ?• In ETL ?• In data warehouse ?• Twee belangrijke factoren • Kost • Risico
  24. 24. WAAR DATA ISSUESOPLOSSEN ?• Voorbeeld: afwezigheidsregistratie systeem• ‘Eenvoudige’ oplossing • Beschrijving = drop down met voorgedefinieerde velden • Maar … externe applicatie • Change duurt 3 maanden • Kost voor change € 10K• Alternatieve oplossing • Interne ETL oplossing • Zekerheid over correctheid van data ? • Kosten / Risico’s indien rapporten niet correct zijn ? • Andere ETL procedure nodig ?
  25. 25. CONCLUSIES• Data kwaliteit en data governance zijn ook een Business issue • Business neemt de beslissingen • IT implementeert• Data kwaliteit begint bij definities van hoe de data er moet uitzien• Data issues komen ook en vaak voor in data warehouses. • Beperk U bij data governance projecten dus niet tot monitoren van opeartionele systemen• Bij elke onderkende issue is het nodig om te evalueren wat kost en risico’s zijn voor het fixen van de issue • Kijk daarbij verder dan Uw neus lang is

×