SlideShare a Scribd company logo
1 of 31
Download to read offline
Workshop
Datakwaliteit en Data Profiling voor Testers
Armando Dörsek, Ferran Rohaan, Peter Endema
11 mei 2016
Programma
 Introductie en opbouw van deze workshop
 Theoretisch gedeelte
 Soorten data
 Kwaliteit
 Oorzaak en gevolg
 Data Profiling
 Hands on gedeelte
 Te bestuderen data
 Software
 Opdrachten
 Afronding
Introductie en opbouw van deze workshop
 Over ons
 Doelgroep
 Doelstellingen
Over ons
• Armando Dörsek
• Verified.nl
• @adorsek
• Peter Endema
• Closesure
• @endemapeter
• Ferran Rohaan
• Closesure
• @frohaan
Doelgroep
• Data Steward
• Data Scientist
• Business Analyst
• Information Analyst
• ETL Developer
• Report- and Dashboard Developer
• Test Analyst
• Test Lead, Test Coordinator, Test Manager
• QA Manager
Doelstelling
• Na het volgen van deze workshop beschik je over meer kennis en vaardigheden waarmee je de
datakwaliteit kunt bepalen in je project of beheersituatie.
• Met deze kennis en vaardigheden ben je in staat om eerder in het traject analysewerkzaamheden
uit te voeren en waar nodig kwaliteitsmaatregelen voor te stellen
• Na deze workshop:
• Ken je de verschillende soorten data
• Ken je de belangrijkste oorzaken en gevolgen van gebrekkige datakwaliteit
• Ken je verschillende dimensies van datakwaliteit
• Ken je verschillende DQ- en Data Profiling tools
• Kun je zelfstandig Data Profiling uitvoeren op een dataset
Programma
 Introductie en opbouw van deze workshop
 Theoretisch gedeelte
 Soorten data
 Kwaliteit
 Oorzaak en gevolg
 Data Profiling
 Verbeterprogramma’s
 Hands on gedeelte
 Te bestuderen data
 Software
 Opdrachten
 Afronding
Wat is Data?
• Data : 1) Symbols, numbers or other representation of facts; 2)
The raw material from which information is produced when it is
put in a context that gives it meaning. See also Information.
(Larry English)
• Information : 1) Data in context, i.e., the meaning given to data
or the interpretation of data based on its context; 2) the finished
product as a result of processing, presentation and
interpretation of data. (Larry English)
• Bron: http://iaidq.org/main/glossary.shtml#D
Soorten Data
Bron: Danette McGilvray , 7-2008, IDQ Newsletter Vol 4 Issue 3.
• Master Data
• Transactional Data
• Reference Data
• Meta Data
Soorten Data – Hoe beïnvloeden ze elkaar?
Bron: Danette McGilvray , 7-2008, IDQ Newsletter Vol 4 Issue 3.
Wat is Datakwaliteit?
Definities van datakwaliteit
• Fit for Use: Voldoet aan de eisen voor gebruik waarvoor ze bedoeld zijn
• Uitgedrukt in kwaliteitsattributen, bijvoorbeeld volgens:
• TMap Next
• NEN-ISO 9126 / 25010
• (6) Kwaliteitsattributen voor Data Kwaliteit > IDQ Model (Valori)
• Of uitgedrukt in dimensies, bijvoorbeeld volgens:
• Danette McGilvray (12 Dimensies)
• Strong/Lee/Wang (4 categorieën, 15 dimensies)
• Olsen (6), Loshin (8), Piney Bowes (6), CIHI (5)
• E.v.a.
Wat missen de traditionele kwaliteitsattributen?
IDQ Model voor Datakwaliteit (Valori)
Bron: Valori. Het IDQ model maakt deel uit van het IPS kwaliteitsmodel.
Top 5 Data Quality Issues
• Incomplete Data
• Incorrect / Wrong Data
• Aging Data
• Duplicate Data
• Data Reconciliation between Sources
Bron: Oracle
Oorzaken Datakwaliteitsissues
• Fouten in de Bron
• Fouten bij de invoer in de bron
• Bv. onvoldoende validatie op schermen
• Ander gebruik van een attribuut door verschillende afdelingen
• Fouten in de verwerking binnen de bron
• Ingevoerde gegevens worden niet (volledig) opgeslagen
• Gegevens raken verloren of verminkt bij verwerking
• Conversies, migraties e.d.
• B.v. upgrades van bronsystemen, import/export van datasets, “harde updates” door
functioneel- of technisch beheer zonder toepassing van de juiste validaties, aangepaste
naamgeving van attributen door de tijd heen, verwerking naar het datawarehouse
• Verouderen van data
Kosten van slechte datakwaliteit (1)
Poor quality customer data costs U.S.
companies $611 billion annually in
postage, printing and staff expense
(TDWI)
The cost of poor data quality can
reach as high as 15% to 25% of
operating profit
(TDWI)
At least 25% of critical data within Fortune
1000 companies will be inaccurate
(Gartner)
50% to 80% of computerized criminal
records in the U.S. were found to be
inaccurate,
incomplete, or ambiguous.
Strong, Lee and Wang (1997)
Kosten van slechte datakwaliteit (2)
The SiriusDecisions 1-10-100 Rule by W. Edwards Deming is a good starting place to finding the source of the
bad data costs. The rule is simple, it costs about $1 to verify a record as it is entered, about $10 dollars to fix it
later, and $100 if nothing is done, as the ramifications of the mistakes are felt over and over again.
IT departments are also affected with as much as 50% of their IT budget going toward “information scrap and
rework” related to dealing with poor data quality (Larry English). These statistics are what help form a popular
opinion of data experts, namely Thomas Redman, Jack Olson and Larry English, that approximately 15-45% of
operating expense of almost all organizations are wasted due to data quality issues.
http://www.datablueprint.com/cost-of-bad-data-by-the-numbers/
(Chelsea Wilson, 10-3-2014)
(…) Now I’m going to try the bad data quality tag line “Get your $3 trillion back America”, which is the estimated
cost of bad data on the US government according to Hollis Tibbets. For those who are more interested in their
own bottom line it would go more along the lines of “Get your $611 Billion back America”. Which is TDWI’s
estimates of how much solely bad customer data costs U.S. businesses each year. These numbers are high
enough that according to Gartner, “Fortune 1000 enterprises will lose more money in operational inefficiency
due to data quality issues than they will spend on data warehouse and customer relationship management
(CRM) initiatives.”
Opbrengsten van goede Datakwaliteit
• “… a data quality strategy and targeted data quality improvement efforts that solve conflicts at the
source can lead to a 25% increase converting inquiries to marketing-qualified leads” (In:
destinationcrm.com)
• Voorbeeld uit de praktijk bij een Nederlandse ziektekostenverzekeraar:
Voor elk geverifieerde BSN draagt de overheid EUR 1000,- bij, voor elk niet-geverifieerde BSN in het
backoffice systeem mist de verzekeraar dus EUR 1000 per verzekerde. Ergo: bij slechts 100 (alsnog)
geverifieerde BSN’s ontvangt de organisatie een extra EUR 100.000 (!). De moeite waard…
Impact van slechte datakwaliteit
• Ontwikkelfase
• Documentatie (IA/BA) bijstellen
• Herstelwerkzaamheden brondata, ETL en/of Rapportages
• Ontwikkelwerkzaamheden en (her)testen loopt uit
• Implementatiefase
• Ontevreden eindgebruikers, heropleveringen, herstel van data in bronsystemen,
datawarehouses etc., uitloop van implementatie
• Extra inspanningen van functioneel beheerders en kennishebbers
• Productiefase
• Afgebroken laadprocessen, overschrijding van deadlines, herstelwerkzaamheden
• Extra belasting van ontwikkel- en beheerteam, analisten en beheerders van bronnen
• Verlies van klanten, boetes van toezichthouders, reputatieschade
Dus…
Data Profiling
• Methode voor data analyse die inzicht levert in de waarden, structuur en kwaliteit van de
gegevens
• Voldoet de data aan de bedoelingen van de organisatie (fit for use)
• Zou integraal onderdeel moeten zijn van het (ETL) analyse- en ontwerpproces (…maar is vaak een
ondergeschoven kindje)
• Veel bouwwerk te vermijden door bv. tijdig signaleren van uitzonderingen
• Controles, cleansing, verrijken en herstellen te vermijden (mits de bron het aanpakt)
• Wanneer?
• Tijdens ontwerp- en ontwikkelproces (vooraf) incl. testen
• Tijdens beheerfase (periodiek, permanent) incl. testen
Data Profiling
• Het datatype en het domein, de mogelijk waarden vaststellen (cf. documentatie)
• Zonder oordeel vaststellen van de daadwerkelijke voorkomens in de bronsystemen:
51% “Man”
40% “Vrouw”
5% “Jongen”
2% “Meisje”
1% “Onbekend”
0.7% NULL
0.1% “X”
0.1% “-”
0.1% 99999
• Acties bepalen
Data Profiling: Waarmee?
• Nu vaak in de praktijk: ad hoc SQL queries
• Ook beschikbaar:
• Features in BI/ETL suites, zoals Informatica DQ
en SAP BO Information Steward, Talend Data
Quality en losse (open source) tools zoals
DataCleaner
• Uitbreiding van suites voor subsetting en
anonimisering, zoals DatProf Analyzer (In
Beta).
Programma
 Introductie en opbouw van deze workshop
 Theoretisch gedeelte
 Soorten data
 Kwaliteit
 Oorzaak en gevolg
 Data Profiling
 Hands on gedeelte
 Te bestuderen data
 Software
 Opdrachten
 Afronding
Hands on gedeelte
• Te bestuderen data
• Voorbeeld database gebaseerd op Microsoft’s demo database Adventureworks
• Verbinding via RDP, zie USB-stick met voorgeconfigureerde RDP-client.
• Gebruikte software
• SQL tool (op remote desktop)
• Data profiling tool: Datacleaner (op remote desktop)
• Opdrachten workshop
• Losse opdrachten, ook op USB beschikbaar
• Uitvoeren en telkens aansluitend plenair te bespreken
• Stel gerust vragen!
Cases
Wifi:
Voorjaarsevenement2016
Wachtwoord:
congres2016
Programma
 Introductie en opbouw van deze workshop
 Theoretisch gedeelte
 Soorten data
 Kwaliteit
 Oorzaak en gevolg
 Data Profiling
 Hands on gedeelte
 Te bestuderen data
 Software
 Opdrachten
 Afronding
Opvolging
• Nu:
• Als nuttig ervaren?
• Pluspunten en suggesties welkom
• Straks:
• Ervaringen in je project?
• Ideeën voor cases?
• Andere of nieuwe tools?
Deel het met ons!
Leessuggesties
• Instituten zoals TDWI, DMBOK en specialisten zoals
Dank jullie wel!
• Armando Dörsek
• Verified.nl
• @adorsek
• Peter Endema
• Closesure
• @endemapeter
• Ferran Rohaan
• Closesure
• @frohaan
• armando.dorsek@verified.nl
• www.verified.nl
• peter.endema@closesure.nl
• www.closesure.nl
• ferran.rohaan@closesure.nl
• www.closesure.nl

More Related Content

Viewers also liked

Utopia Kasauli Location Map Price List Site Floor Layout Plan Review Brochure
Utopia Kasauli Location Map Price List Site Floor Layout Plan Review BrochureUtopia Kasauli Location Map Price List Site Floor Layout Plan Review Brochure
Utopia Kasauli Location Map Price List Site Floor Layout Plan Review BrochureAliva Kar
 
Certificate of Appointment & POST certification
Certificate of Appointment & POST certificationCertificate of Appointment & POST certification
Certificate of Appointment & POST certificationCharles Wolfe
 
media pembelajaran
media pembelajaranmedia pembelajaran
media pembelajaranwulanhasanah
 
Presentazione visit ferrara 23 giugno
Presentazione visit ferrara 23 giugnoPresentazione visit ferrara 23 giugno
Presentazione visit ferrara 23 giugnovisitferrara
 
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04Cafe twin show ctv fx dc hub music & science bridge slidsshare 04
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04Avi Dey
 

Viewers also liked (12)

neha new
neha newneha new
neha new
 
Cavitazione Cellulite
Cavitazione Cellulite
Cavitazione Cellulite
Cavitazione Cellulite
 
Utopia Kasauli Location Map Price List Site Floor Layout Plan Review Brochure
Utopia Kasauli Location Map Price List Site Floor Layout Plan Review BrochureUtopia Kasauli Location Map Price List Site Floor Layout Plan Review Brochure
Utopia Kasauli Location Map Price List Site Floor Layout Plan Review Brochure
 
Certificate of Appointment & POST certification
Certificate of Appointment & POST certificationCertificate of Appointment & POST certification
Certificate of Appointment & POST certification
 
Diplom Master
Diplom MasterDiplom Master
Diplom Master
 
Scaling july 2014 4.key
Scaling july 2014 4.keyScaling july 2014 4.key
Scaling july 2014 4.key
 
Stadiul implementării Programului Operaţional Regional 2007-2013 - 18 iunie 2015
Stadiul implementării Programului Operaţional Regional 2007-2013 - 18 iunie 2015Stadiul implementării Programului Operaţional Regional 2007-2013 - 18 iunie 2015
Stadiul implementării Programului Operaţional Regional 2007-2013 - 18 iunie 2015
 
media pembelajaran
media pembelajaranmedia pembelajaran
media pembelajaran
 
Presentazione visit ferrara 23 giugno
Presentazione visit ferrara 23 giugnoPresentazione visit ferrara 23 giugno
Presentazione visit ferrara 23 giugno
 
LaTiaradiCervo
LaTiaradiCervoLaTiaradiCervo
LaTiaradiCervo
 
Activ win8 rtm_all
Activ win8 rtm_allActiv win8 rtm_all
Activ win8 rtm_all
 
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04Cafe twin show ctv fx dc hub music & science bridge slidsshare 04
Cafe twin show ctv fx dc hub music & science bridge slidsshare 04
 

Similar to Testnet - Workshop Data Profiling voor Testers 20160511 - DEF

Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the sceneJurjen Helmus
 
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...OrangeValley
 
DDMA / Fortis: Datakwaliteit
DDMA / Fortis: DatakwaliteitDDMA / Fortis: Datakwaliteit
DDMA / Fortis: DatakwaliteitDDMA
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Tom Berger
 
Gegevenskwaliteit – een raamwerk vanuit NORA
Gegevenskwaliteit – een raamwerk vanuit NORAGegevenskwaliteit – een raamwerk vanuit NORA
Gegevenskwaliteit – een raamwerk vanuit NORADanny Greefhorst
 
FB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofFB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofPrudenza B.V
 
Van ruwe data naar inzichten én acties
Van ruwe data naar inzichten én actiesVan ruwe data naar inzichten én acties
Van ruwe data naar inzichten én actiesOrangeValley
 
Shopping tomorrow presentatie datakwaliteit w griffiioen
Shopping tomorrow presentatie datakwaliteit w griffiioenShopping tomorrow presentatie datakwaliteit w griffiioen
Shopping tomorrow presentatie datakwaliteit w griffiioenWim Griffioen
 
Gegevenskwaliteit in de omgevingswet
Gegevenskwaliteit in de omgevingswetGegevenskwaliteit in de omgevingswet
Gegevenskwaliteit in de omgevingswetDanny Greefhorst
 
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsIvo Everts
 
Innovatiereeks presentatie geautomatiseerd testen van data warehouses
Innovatiereeks   presentatie geautomatiseerd testen van data warehousesInnovatiereeks   presentatie geautomatiseerd testen van data warehouses
Innovatiereeks presentatie geautomatiseerd testen van data warehousesKadenza Plus
 
Deloitte Webwinkel Vakdagen
Deloitte Webwinkel VakdagenDeloitte Webwinkel Vakdagen
Deloitte Webwinkel Vakdagenwebwinkelvakdag
 
Pres Ip Label Newtest Octobre 2008 Nl (2)
Pres Ip Label Newtest Octobre 2008 Nl (2)Pres Ip Label Newtest Octobre 2008 Nl (2)
Pres Ip Label Newtest Octobre 2008 Nl (2)runderkamp
 
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)Webanalisten .nl
 
Technology Update : Data Governance
Technology Update : Data GovernanceTechnology Update : Data Governance
Technology Update : Data GovernanceMedia Perspectives
 
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategie
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategieManpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategie
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategieBigDataExpo
 
Asl bi sl metrics themasessie 2013 devops sogeti
Asl bi sl metrics themasessie 2013   devops sogetiAsl bi sl metrics themasessie 2013   devops sogeti
Asl bi sl metrics themasessie 2013 devops sogetiHarold van Heeringen
 

Similar to Testnet - Workshop Data Profiling voor Testers 20160511 - DEF (20)

Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the scene
 
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...
Marketing_Trend_Event_2023_-_AI__De_impact_van_technologie_-_Data_gestuurde_t...
 
Datakwaliteit
DatakwaliteitDatakwaliteit
Datakwaliteit
 
DDMA / Fortis: Datakwaliteit
DDMA / Fortis: DatakwaliteitDDMA / Fortis: Datakwaliteit
DDMA / Fortis: Datakwaliteit
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021
 
Data quality in BtB
Data quality in BtBData quality in BtB
Data quality in BtB
 
Gegevenskwaliteit – een raamwerk vanuit NORA
Gegevenskwaliteit – een raamwerk vanuit NORAGegevenskwaliteit – een raamwerk vanuit NORA
Gegevenskwaliteit – een raamwerk vanuit NORA
 
FB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofFB_24-31_Ronald Damhof
FB_24-31_Ronald Damhof
 
Van ruwe data naar inzichten én acties
Van ruwe data naar inzichten én actiesVan ruwe data naar inzichten én acties
Van ruwe data naar inzichten én acties
 
Shopping tomorrow presentatie datakwaliteit w griffiioen
Shopping tomorrow presentatie datakwaliteit w griffiioenShopping tomorrow presentatie datakwaliteit w griffiioen
Shopping tomorrow presentatie datakwaliteit w griffiioen
 
Over datakwaliteit in nl
Over datakwaliteit in nlOver datakwaliteit in nl
Over datakwaliteit in nl
 
Gegevenskwaliteit in de omgevingswet
Gegevenskwaliteit in de omgevingswetGegevenskwaliteit in de omgevingswet
Gegevenskwaliteit in de omgevingswet
 
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo Everts
 
Innovatiereeks presentatie geautomatiseerd testen van data warehouses
Innovatiereeks   presentatie geautomatiseerd testen van data warehousesInnovatiereeks   presentatie geautomatiseerd testen van data warehouses
Innovatiereeks presentatie geautomatiseerd testen van data warehouses
 
Deloitte Webwinkel Vakdagen
Deloitte Webwinkel VakdagenDeloitte Webwinkel Vakdagen
Deloitte Webwinkel Vakdagen
 
Pres Ip Label Newtest Octobre 2008 Nl (2)
Pres Ip Label Newtest Octobre 2008 Nl (2)Pres Ip Label Newtest Octobre 2008 Nl (2)
Pres Ip Label Newtest Octobre 2008 Nl (2)
 
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)
Google Analytics geïnstalleerd en dan? (GAUC / Clickvalue)
 
Technology Update : Data Governance
Technology Update : Data GovernanceTechnology Update : Data Governance
Technology Update : Data Governance
 
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategie
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategieManpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategie
Manpower - Best-practices: de vernieuwingsslag naar een data-gedreven strategie
 
Asl bi sl metrics themasessie 2013 devops sogeti
Asl bi sl metrics themasessie 2013   devops sogetiAsl bi sl metrics themasessie 2013   devops sogeti
Asl bi sl metrics themasessie 2013 devops sogeti
 

Testnet - Workshop Data Profiling voor Testers 20160511 - DEF

  • 1. Workshop Datakwaliteit en Data Profiling voor Testers Armando Dörsek, Ferran Rohaan, Peter Endema 11 mei 2016
  • 2. Programma  Introductie en opbouw van deze workshop  Theoretisch gedeelte  Soorten data  Kwaliteit  Oorzaak en gevolg  Data Profiling  Hands on gedeelte  Te bestuderen data  Software  Opdrachten  Afronding
  • 3. Introductie en opbouw van deze workshop  Over ons  Doelgroep  Doelstellingen
  • 4. Over ons • Armando Dörsek • Verified.nl • @adorsek • Peter Endema • Closesure • @endemapeter • Ferran Rohaan • Closesure • @frohaan
  • 5. Doelgroep • Data Steward • Data Scientist • Business Analyst • Information Analyst • ETL Developer • Report- and Dashboard Developer • Test Analyst • Test Lead, Test Coordinator, Test Manager • QA Manager
  • 6. Doelstelling • Na het volgen van deze workshop beschik je over meer kennis en vaardigheden waarmee je de datakwaliteit kunt bepalen in je project of beheersituatie. • Met deze kennis en vaardigheden ben je in staat om eerder in het traject analysewerkzaamheden uit te voeren en waar nodig kwaliteitsmaatregelen voor te stellen • Na deze workshop: • Ken je de verschillende soorten data • Ken je de belangrijkste oorzaken en gevolgen van gebrekkige datakwaliteit • Ken je verschillende dimensies van datakwaliteit • Ken je verschillende DQ- en Data Profiling tools • Kun je zelfstandig Data Profiling uitvoeren op een dataset
  • 7. Programma  Introductie en opbouw van deze workshop  Theoretisch gedeelte  Soorten data  Kwaliteit  Oorzaak en gevolg  Data Profiling  Verbeterprogramma’s  Hands on gedeelte  Te bestuderen data  Software  Opdrachten  Afronding
  • 8. Wat is Data? • Data : 1) Symbols, numbers or other representation of facts; 2) The raw material from which information is produced when it is put in a context that gives it meaning. See also Information. (Larry English) • Information : 1) Data in context, i.e., the meaning given to data or the interpretation of data based on its context; 2) the finished product as a result of processing, presentation and interpretation of data. (Larry English) • Bron: http://iaidq.org/main/glossary.shtml#D
  • 9. Soorten Data Bron: Danette McGilvray , 7-2008, IDQ Newsletter Vol 4 Issue 3. • Master Data • Transactional Data • Reference Data • Meta Data
  • 10. Soorten Data – Hoe beïnvloeden ze elkaar? Bron: Danette McGilvray , 7-2008, IDQ Newsletter Vol 4 Issue 3.
  • 12. Definities van datakwaliteit • Fit for Use: Voldoet aan de eisen voor gebruik waarvoor ze bedoeld zijn • Uitgedrukt in kwaliteitsattributen, bijvoorbeeld volgens: • TMap Next • NEN-ISO 9126 / 25010 • (6) Kwaliteitsattributen voor Data Kwaliteit > IDQ Model (Valori) • Of uitgedrukt in dimensies, bijvoorbeeld volgens: • Danette McGilvray (12 Dimensies) • Strong/Lee/Wang (4 categorieën, 15 dimensies) • Olsen (6), Loshin (8), Piney Bowes (6), CIHI (5) • E.v.a.
  • 13. Wat missen de traditionele kwaliteitsattributen?
  • 14. IDQ Model voor Datakwaliteit (Valori) Bron: Valori. Het IDQ model maakt deel uit van het IPS kwaliteitsmodel.
  • 15. Top 5 Data Quality Issues • Incomplete Data • Incorrect / Wrong Data • Aging Data • Duplicate Data • Data Reconciliation between Sources Bron: Oracle
  • 16. Oorzaken Datakwaliteitsissues • Fouten in de Bron • Fouten bij de invoer in de bron • Bv. onvoldoende validatie op schermen • Ander gebruik van een attribuut door verschillende afdelingen • Fouten in de verwerking binnen de bron • Ingevoerde gegevens worden niet (volledig) opgeslagen • Gegevens raken verloren of verminkt bij verwerking • Conversies, migraties e.d. • B.v. upgrades van bronsystemen, import/export van datasets, “harde updates” door functioneel- of technisch beheer zonder toepassing van de juiste validaties, aangepaste naamgeving van attributen door de tijd heen, verwerking naar het datawarehouse • Verouderen van data
  • 17. Kosten van slechte datakwaliteit (1) Poor quality customer data costs U.S. companies $611 billion annually in postage, printing and staff expense (TDWI) The cost of poor data quality can reach as high as 15% to 25% of operating profit (TDWI) At least 25% of critical data within Fortune 1000 companies will be inaccurate (Gartner) 50% to 80% of computerized criminal records in the U.S. were found to be inaccurate, incomplete, or ambiguous. Strong, Lee and Wang (1997)
  • 18. Kosten van slechte datakwaliteit (2) The SiriusDecisions 1-10-100 Rule by W. Edwards Deming is a good starting place to finding the source of the bad data costs. The rule is simple, it costs about $1 to verify a record as it is entered, about $10 dollars to fix it later, and $100 if nothing is done, as the ramifications of the mistakes are felt over and over again. IT departments are also affected with as much as 50% of their IT budget going toward “information scrap and rework” related to dealing with poor data quality (Larry English). These statistics are what help form a popular opinion of data experts, namely Thomas Redman, Jack Olson and Larry English, that approximately 15-45% of operating expense of almost all organizations are wasted due to data quality issues. http://www.datablueprint.com/cost-of-bad-data-by-the-numbers/ (Chelsea Wilson, 10-3-2014) (…) Now I’m going to try the bad data quality tag line “Get your $3 trillion back America”, which is the estimated cost of bad data on the US government according to Hollis Tibbets. For those who are more interested in their own bottom line it would go more along the lines of “Get your $611 Billion back America”. Which is TDWI’s estimates of how much solely bad customer data costs U.S. businesses each year. These numbers are high enough that according to Gartner, “Fortune 1000 enterprises will lose more money in operational inefficiency due to data quality issues than they will spend on data warehouse and customer relationship management (CRM) initiatives.”
  • 19. Opbrengsten van goede Datakwaliteit • “… a data quality strategy and targeted data quality improvement efforts that solve conflicts at the source can lead to a 25% increase converting inquiries to marketing-qualified leads” (In: destinationcrm.com) • Voorbeeld uit de praktijk bij een Nederlandse ziektekostenverzekeraar: Voor elk geverifieerde BSN draagt de overheid EUR 1000,- bij, voor elk niet-geverifieerde BSN in het backoffice systeem mist de verzekeraar dus EUR 1000 per verzekerde. Ergo: bij slechts 100 (alsnog) geverifieerde BSN’s ontvangt de organisatie een extra EUR 100.000 (!). De moeite waard…
  • 20. Impact van slechte datakwaliteit • Ontwikkelfase • Documentatie (IA/BA) bijstellen • Herstelwerkzaamheden brondata, ETL en/of Rapportages • Ontwikkelwerkzaamheden en (her)testen loopt uit • Implementatiefase • Ontevreden eindgebruikers, heropleveringen, herstel van data in bronsystemen, datawarehouses etc., uitloop van implementatie • Extra inspanningen van functioneel beheerders en kennishebbers • Productiefase • Afgebroken laadprocessen, overschrijding van deadlines, herstelwerkzaamheden • Extra belasting van ontwikkel- en beheerteam, analisten en beheerders van bronnen • Verlies van klanten, boetes van toezichthouders, reputatieschade
  • 22. Data Profiling • Methode voor data analyse die inzicht levert in de waarden, structuur en kwaliteit van de gegevens • Voldoet de data aan de bedoelingen van de organisatie (fit for use) • Zou integraal onderdeel moeten zijn van het (ETL) analyse- en ontwerpproces (…maar is vaak een ondergeschoven kindje) • Veel bouwwerk te vermijden door bv. tijdig signaleren van uitzonderingen • Controles, cleansing, verrijken en herstellen te vermijden (mits de bron het aanpakt) • Wanneer? • Tijdens ontwerp- en ontwikkelproces (vooraf) incl. testen • Tijdens beheerfase (periodiek, permanent) incl. testen
  • 23. Data Profiling • Het datatype en het domein, de mogelijk waarden vaststellen (cf. documentatie) • Zonder oordeel vaststellen van de daadwerkelijke voorkomens in de bronsystemen: 51% “Man” 40% “Vrouw” 5% “Jongen” 2% “Meisje” 1% “Onbekend” 0.7% NULL 0.1% “X” 0.1% “-” 0.1% 99999 • Acties bepalen
  • 24. Data Profiling: Waarmee? • Nu vaak in de praktijk: ad hoc SQL queries • Ook beschikbaar: • Features in BI/ETL suites, zoals Informatica DQ en SAP BO Information Steward, Talend Data Quality en losse (open source) tools zoals DataCleaner • Uitbreiding van suites voor subsetting en anonimisering, zoals DatProf Analyzer (In Beta).
  • 25. Programma  Introductie en opbouw van deze workshop  Theoretisch gedeelte  Soorten data  Kwaliteit  Oorzaak en gevolg  Data Profiling  Hands on gedeelte  Te bestuderen data  Software  Opdrachten  Afronding
  • 26. Hands on gedeelte • Te bestuderen data • Voorbeeld database gebaseerd op Microsoft’s demo database Adventureworks • Verbinding via RDP, zie USB-stick met voorgeconfigureerde RDP-client. • Gebruikte software • SQL tool (op remote desktop) • Data profiling tool: Datacleaner (op remote desktop) • Opdrachten workshop • Losse opdrachten, ook op USB beschikbaar • Uitvoeren en telkens aansluitend plenair te bespreken • Stel gerust vragen!
  • 28. Programma  Introductie en opbouw van deze workshop  Theoretisch gedeelte  Soorten data  Kwaliteit  Oorzaak en gevolg  Data Profiling  Hands on gedeelte  Te bestuderen data  Software  Opdrachten  Afronding
  • 29. Opvolging • Nu: • Als nuttig ervaren? • Pluspunten en suggesties welkom • Straks: • Ervaringen in je project? • Ideeën voor cases? • Andere of nieuwe tools? Deel het met ons!
  • 30. Leessuggesties • Instituten zoals TDWI, DMBOK en specialisten zoals
  • 31. Dank jullie wel! • Armando Dörsek • Verified.nl • @adorsek • Peter Endema • Closesure • @endemapeter • Ferran Rohaan • Closesure • @frohaan • armando.dorsek@verified.nl • www.verified.nl • peter.endema@closesure.nl • www.closesure.nl • ferran.rohaan@closesure.nl • www.closesure.nl