SlideShare a Scribd company logo
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
DATOVÁ KVALITA SE SAS
16.03.2016
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
CO OD NICH MŮŽEME ČEKAT?
• Víme, jak se zachová?
• Co o něm vlastně víme?
• Víme, kdo to je?
DATA!
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ZAČÍNÁ TO U DAT
Jméno František
Příjmení Novotný
datum narození 22.1.1957
Rodné číslo 5501222/1361
místo narození Malé Mrtvice
Stav neznámý
počet dětí ??
zaměstnání Nezaměstnaný
Jméno Frank
Příjmení Newman
datum narození * 1958
zaměstnání Neuvedeno
příjem Neuvedeno
Bude to dobrý klient?
Je třeba mít dobré informace
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
CO ČEKÁME OD DAT
 Poskytnout správnou informaci
 Poskytnou spolehlivou informaci
 Poskytnou dostatečnou informaci
Datová kvalita
• Správnost
• Úplnost
• Konsistence
• Jednoznačnost
• Aktuálnost
• Relevance
• Srozumitelnost
• Spolehlivost
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
NEKVALITA DAT CO TO ZNAMENÁ
1. Nesprávně zapsaná data
• Překlepy
• Přeslechy
• Odlišné zápisy
(case, diakritika, ...)
Jméno Příjmení Dat. narození Místo narození
Karel Novák ml. 12/4/1942Brandýs n.l.
Lojza Bingo Dvořák, ing. 68-03-2218000 Praha 8
inž Marie KRATOCHVILOVA 99/99/99
Frant. Kopecký 21.6.1976Praha - Nusle
Jarislav Schneider 02-05-03Benešov u Prahy
JIRI CERVENKA 1. LEDEN 1971PRAHA IV
Procházková Božena 34.13.3008Podolí
• Nesprávné hodnoty
(chyby, různé
doplněné texty...)
• Nestandardní
hodnoty
• Údaje v
nesprávných polích
• Údaje v nesprávném
pořadí
• ...
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
Hypotéka
Leasing automobilu
Spotřební úvěr
Data
o klientovi
____
_______
________
_________
Spotřební úvěr
Spotřební úvěr
Spotřební úvěr
Data
o klientovi
____
_______
________
_________
Podnikatelský úvěr
Data
o klientovi
____
_______
________
_________
Nesplácení
Data
o klientovi
____
_______
________
_________
Insolvence
Data
o klientovi
____
_______
________
_________
Jméno František
Příjmení Novotný
datum narození 22.1.1957
Rodné číslo 570122/1361
místo narození Malé Mrtvice
Stav Svobodný
počet dětí 6
zaměstnání Konsultant
VÝZVA: IDENTIFIKACE VZTAHŮ
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
NEKVALITA DAT CO TO ZNAMENÁ - DUPLICITY
2. Duplicitní a nekonsistentní data
• Data z různých systémů
• Různá (správné) zápisy týchž dat
• Nerozpoznané duplicitní záznamy
• Data týchž subjektů s různými údaji
Systém ID Jméno Příjmení Titul Bydliště - město Dat.narození RČ
S1 - ŽP 123345František Šnajdr Ing. Ostrava 23.11.1965 651123/0341
S2 - HA H-0120011František Šnajdr Ostrava - Poruba 1965-11-23 6511230341
S2 - HA H-0137289František Schneider Ing. Ostrava 4 1965-11-23 6511230431
S3 - F 19873FRANTISEK SNAJDR ING ----- ----- 6511230000
S3 - F 87174Fratišek Šnajdr Ing. ----- 23.11.1965 6511230341
S4 - PM M-0089098Frant. Šnajdr Ústí nad Labem ----- 651123/0341
S4- PM M-0001456František Šnajder Ing. Ústí n.L. ----- 651123/0341
S5- PP PP0037545AFrantišek Šnajdr ing. 708 00 Ostrava 23.11.1965 IČ12398723
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
PŘÍKLAD
ZE ŽIVOTA
BRANDYS N/L. BRANDÝS NAD LABEN BRANDÝS P AD LABE
BRANDÝS N/L. BRANDÝS NAD LABEOM BRANDÝS P L.
BRANDYS N/LAB. BRANDÝS NAD LABEOŠEM BRANDÝS P LAB.
BRANDÝS N/LAB. BRANDYS NAD LABI BRANDÝS P LABEM
BRANDÝS N/LABEM BRANDÝS NAD LABLEM BRANDÝS PNAD LAB.
BRANDÝS BRANDÝS N/LB BRANDYS NAD LABN BRANDÝS PNAD LABEM
BRANDYS AD LAB. BRANDÝS N:L. BRANDÝS NAD LABN BRANDÝS.N.LAB.
BRANDÝS AD LABEM BRANDYS NA LABEM BRANDÝS NAD LABO BRANDÝS/LAB
BRANDYS N. L BRANDÝS NA LABEM BRANDYS NAD LABO BRANDÝS/LABE
BRANDÝS N. L- BRANDÝS NAD BRANDYS NAD LABRM BRANDÝS/LABEM
BRANDÝS N. L, BRANDÝS NAD ABEM BRANDÝS NAD LABRM BRANDÝSA NAD LABEM
BRANDÝS N. L. BRANDÝS NAD ALBEM BRANDÝS NAD LABWN BRANDÝSB NAD LABEM
BRANDÝS N.- L. BRANDÝS NAD BLAEM BRANDÝS NAD LAE BRANDÝSN AD LAB.
BRANDÝS N. L.. BRANDÝS NAD BLAM BRANDÝS NAD LAEBMM BRANDÝSN NAD LAB.
BRANDYS N. LAB. BRANDÝS NAD KABEM BRANDÝS NAD LAĚM BRANDÝSN. L.
BRANDÝS N. LAB. BRANDÝS NAD L. BRANDÝS NAD LBAEM BRANDÝSN.L.
BRANDÝS N. LABE BRANDYS NAD LA BRANDÝS NAD LBAEME BRANDÝSNAD LAB.
BRANDÝS N. LABE- BRANDÝS NAD LA BRANDÝS NAD LBEM BRANDÝSNAD LABE
BRANDÝS N. LABEM BRANDYS NAD LAB BRANDÝS NAD LBM BRANDÝSNAD LABEM
BRANDÝS N. LABEM0 BRANDÝS NAD LAB BRANDÝS NAD LEBAM BRANDÝSP AD LAB.
BRANDYS N. LABI BRANDÝS NAD LAB## BRANDÝS NAD. LAB. BRANDÝSP NAD LAB.
BRANDÝS N. LABI BRANDYS NAD LAB. BRANDÝS NAD. LABALAM BRANDÝSVNAD LABEM
BRANDÝS N. LBŠŤEM BRANDÝS NAD LAB. BRANDÝS NAD. LABALEM
BRANDÝS N.. L. BRANDÝS NAD LAB., BRANDÝS NAD. LABAM
BRANDÝS N.BRANDÝS BRANDÝS NAD LABAMA BRANDÝS NAD. LABEM
BRANDÝS N.L BRANDÝS NAD LABE BRANDÝS NAD.LAB.
BRANDÝS N.L- BRANDÝS NAD LABE, BRANDÝS NAD.LABEM
BRANDÝS N-.L- BRANDÝS NAD LABĚEM BRANDÝS NADLÁB
BRANDÝS N.L, BRANDÝS NAD LABEM BRANDÝS NADLABEM
BRANDYS N.L. BRANDÝS NAD LAB''EM BRANDÝS NAND LAB.
BRANDÝS N.L.; BRANDÝS NAD LABĚM BRANDÝS NASD LABEM
BRANDÝS N.LAB BRANDÝS NAD LÁBÉM BRANDÝS ND LAB.
BRANDÝS N.LAB. BRANDÝS NAD LABEM1 BRANDYS NDA LABEM
BRANDÝS N.LAB.. BRANDÝS NAD LABEM3 BRANDÝS NDA LABEM
BRANDÝS N.LABE BRANDÝS NAD LABEMOKL. P-VYCHOD BRANDYS NDAD LABEM
BRANDÝS N.LABEM BRANDÝS NAD LABEM, CZ BRANDÝS NDAD LABEM
BRANDÝS N.LB BRANDÝS NAD LABEM; BRANDÝS NL.
BRANDÝS N/L BRANDÝS NAD LABEM0 BRANDÝS N-L.
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
Vztahy mezi subjekty
• Rodina
• Domácnost
• Spolupracovníci
• Obchodní vztahy
VÝZVA: IDENTIFIKACE VZTAHŮ
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
DALŠÍ VÝZVY
• Identifikace lokalit
• Adresy – rizikové oblasti…
• Identifikace účtů
• Identifikace vozidel
• …
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
JDE O PENÍZE JAK VYPADAJÍ VE SKUTEČNOSTI PODNIKOVÁ DATA
• Data o klientech – osoby: 20 – 40% nekvalitních dat
• Data o klientech – organisace: 20 – 60% nekvalitních dat
• …
Larry English:
• Data jsou vždy v horším stavu, než jak
na první pohled vypadají:
• Ve skutečnosti 2- 3x více
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
Financial Assets Human Assets Data Assets
Podnikové finance HR Péče o data
• Správa dat, procesy, standardy, monitorování, analysa, řízení
• Sdílení klíčových dat, autorita referenčních dat
• Čištění, konsolidace, údržba kvality dat
• Integrace, přesunování, propojování, transformace dat
• Ukládání, zpřístupnění, zabezpečení, ochrana dat
DATA MANAGEMENT KONTEXT PÉČE O DATA
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
INFORMACE A BOHATSTVÍ
• Dnes existuje jen málo businessů, jež nejsou odkázány na vysoce
kvalitní informace
• Do získávání, uchovávání a správy informací se investovaly velké
peníze
• V jakém stavu je naše
informační bohatství ?
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
JDE O PENÍZE DOPADY NEKVALITNÍCH DAT
• Špatná data  špatné výsledky zpracování
• Špatné výsledky zpracování  špatně funguje business (procesy)
• Špatně fungují procesy  přicházíme o peníze
• Kromě toho správa (špatných) dat stojí také peníze
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
CO DATOVÁ NEKVALITA ZPŮSOBUJE
• Správa a zpracování nekvalitních, nadbytečných a chybných dat
• Nedoručené zásilky (marketing, fakturace...)
• Není jednotný pohled na klienta (CVM, nabídka produktů, kampaně, rizika,...)
• Nesprávné výsledky zpracování (Reporting, analýzy, datamining...)
• Špatné fungování systému (nekompatibilita ...)
• Znemožnění návazných agend:
Geocoding, Householding ...
• Je to ošklivé, ztráta image
Ale hlavně: Stojí to peníze!
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
DATOVÁ KVALITA TYPICKÉ BUSINESS INICIATIVY, KTERÝCH SE TÝKÁ
• Kompletní a jednotná a informace o klientovi (osoby, organisace, adresy,
kontakty…):
• Obchod & Marketing: oslovování, segmentace, CVM, kampaně, mailingy…
• Risk & Fraud management, AML: Klasifikace, vazby, identifikace …
• Operace, logistika…: doručování, oslovování…
• Korektní informace o produktu:
• SCM: Identifikace produktu, referenční data, klasifikace, …
• Product Management: hierarchie, bundling, taxonomie, referenční data
• Podpora rozhodování, reporting, analýzy, BI:
• Jednoznačná korektní data → korektní výstupy
• Korporátní reporting
• Regulatorní reporting: Basel II, Solvency II…
• Podnikové procesy, systémy, provoz IT:
• Znemožnění návazných agend (geokódování, householding…)
• Náklady na správu (nekvalitních) dat
• Náklady na opravy defektů a řešení konfliktů a dopadů
• Nekompatibilita, zhoršená funkce …
• Další dopady
• Ztráta image, je to ošklivé, důvěra v procesy…
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
BI & ANALYTICS KONCEPTUÁLNÍ ARCHITEKTURA
Analytic
Data
Store
Analysa
Visualisace
Reporting
…
Integrace
a konsolidace
dat
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
BUSINESS
PROBLEM
BUSINESS
DECISION
20%80%
Příprava (dat)
pro řešení problému
Řešení
problému
BI & ANALYTICS TYPICKÁ ÚLOHA
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
CO S TÍM? SAS DATA QUALITY!
DataFlux
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ŘEŠENÍ STANDARDNÍ ÚLOHY DATOVÉ KVALITY
Profiling, analýza
Porozumění kvalitě zdrojových dat
Standardizace, čištění
Zlepšení stavu dat, náprava defektů
Integrace, unifikace, deduplikace
Konsolidace a propojení souvisejících dat
Obohacení, doplnění
Obohacení dat z externích zdrojů
Sledování, monitorování
Automatické sledování problémů s datovou kvalitou
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
HODNOCENÍ GARTNER HODNOTÍ
Přednosti DataFlux:
• Široký záběr DQ iniciativ
• použití v celém spektru úlog od BI, MDM? Až
migracím
• Nevídaný růst
• Velký počet nových zákazníků, projekt Unity
• Věrní a spokojení zákazníci
• 95% maintenance renewal rate
• Poměr investic do R&D
• Mezi dodavateli IT jeden z nepříznivějších poměrů
Gatrnet Magic Quadrant for Data Quality Tools
• Integrace plné šíře funkcí do jedné platformy
• Profiling, čištění, monitirování, správa
metadat…
• Velká síla: využévání funkcí SAS
• Uikátní posílení platformy dDataFlux
• Vývoj akcelerátorů
• Customer Analysis, Materials classification…
• Zákazníci oceňují jednoduchou instalace a
integraci
• Zákazníci oceňují vysokou úroveň technické
podpory
Citát ze studie:
„Dodavatel (DataFlux) neustále posunuje hranice
nástrojů datové kvality i celého trhu datové kvality,
což vede k jeho opětovné vedoucí posici v tomto roce
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ANALÝZA EXPLORACE DAT
• Zjištění struktur dat
• Entity, atributy, datové typy
• Zkoumání obsahu dat
• Rozlišení druhu informací v datech (organisace
vs. individuum, adresa, telefon…)
• Zkoumání vztahů v datech
• Vztahy mezi datovými objekty (tabulky,
soubory)
• Vztahy mezi položkami a atributy
• Reference v datech
• Metody
• Využití známých metadat
• Odhady neznámých metadat
• Porovnání obsahu dat (fuzzy matching)
• Visualisace struktur a vztahů
• Porozumět datům
• Podklad pro detailní analysu dat
Cíl
Výstup
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ANALÝZA DATA PROFILIG
• Analysa stavu dat
• Vytvoření profilu dat
• Identifikace osiřelých a redundantních dat
(vazby, asociace)
• Analýza frekvencí, vzorů a typů dat
• Měření úplnosti záznamů (nulls, blanks, ...)
• Identifikace, kvantifikace, klasifikace a
analýza chyb a problémů v datech
• Defekty
• Anomálie a výjimky
• Chybějící data
• Metody
• Statistiky o datech
• Visualisace a historisace
• Srovnávací analysa
• Drill-through funkce
• Standardní a uživatelské metriky kvality dat
• Zjistit stav dat
• Identifkovat problémy kvality dat
• Podklady pro design oprav dat
• Podklady pro řízení kvality dat
Cíle
Výstupy
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ČIŠTĚNÍ OPRAVA A STANDARDISACE DAT
• Automatické čištění
• Rozpoznání (parsing) obsahu datových položek
• Rozpoznání (sub)typu entity (identifikace)
• Opravy (překlepy, nesprávné zápisy, formáty …)
• Doplnění chybějících položek, je-li to možné
• Standardizace
• Převod na
jednotný formát
• Náhrada/doplnění
standardních
hodnot
 Zdroje (QKB)
 Parse definition
 Slovníky, gramatiky,
dělící tabulky, regexlib
 Standardization definion
 Standardizační schémata,
regexlib
• Opravit defekty v datech
• Standardisovat hodnoty dat
• Data v jednotné podobě
• Data odpovídající standardům
Cíle
Výstupy
Parsing
Identifikace
Standardisace
Gender Analysis
Casing
Formátování
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ENTITY
RESOLUTION
VERIFIKACE
• Verifikace adres
• Adresy z různých zdrojů
v různých formátech
• Parsing – získání adresních komponent
• Normalisace pro vyhledávání
• Vyhledání v adresním registru (RUIAN)
• Porovnání na základě pravidel (matching, clustering)
• Standardisace a obohacení adresy
• Data z referenčních záznamů
• Verifikace organisací
• Rozpoznání typů a subtypů subjektu
• právnická / fysická osoba / individuální podnikatel,
právní forma, odvozená právní subjektivita …
• Vyhledání v registru /registrech organisací
• RES, Obchodní rejstřík…
• Obdobně jiné entity
• Zdroje
• Definice QKB
• Parse, Identification, Match, Standardize
• Předdefinované procesní úlohy (joby)
• Nalézt referenční záznamy
v registrech (referenčních DB…)
• Referenční ID záznamu
• Referenční hodnoty záznamu
Cíl
Výstupy
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
AUGMENTATION OBOHACENÍ DAT
• Přidání hodnoty existujícím datovým zdrojům
• Odvození nových informací z existujících dat
• Rozšířené informace o adrese
• Doplnění souřadnic
• Informace o risikových zónách
• Odvození informací z existujících atributů
• Blacklisty, watchlisty
• Rating
• Klasifikace produktů
• Analytické informace (segment, risiková skupina,
CVM…
• Zdroje
• Analytické systémy, ODS, datamarty
• Externí zdroje
• Externí služby
• Přidání nových informací
k verifikovaným záznamům z
dalších zdrojů
• Nové datové položky
Cíl
Výstupy
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
MONITORING SLEDOVÁNÍ STAVU DAT
• Okamžitý stav kvality
dat v daném čase
• Ukazuje na spolehlivost
analýz, správnost reportingu,
účinnost kampaní atd. v danou chvíli
• Úzká a problémová místa řízení kvality dat
• např. které systémy, lidé, pobočky … data „špiní“ více než
jiné
• Trendy vývoje datové kvality
• Konsistentní měření v časových řadách
• Účinnost nápravných a preventivních opatření a procesů
• Průběžné měření kvality dat
• Zachycení anomálií a defektů
• Reporty, dashboardy
• Alerty, akce, události
Cíle
Výstupy
• Vestavěný rule engine
• Obecná pravidla
• Pravidla DQ
• Akce:
• Zápis do logu
• Vyrozumění (alert),
email,…
• Spuštění úlohy,
programu, workflow…
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ZNALOSTNÍ BÁZE QUALITY KNOWLEDGE BASE (QKB)
• Formalisovaný interní subsystém
• Typy entit, definice, struktury
• Pravidla, standardy …
Co to je
Výstupy
• Obsah:
• Obecné datové typy a entity
• Jméno, adresa, město, RČ, ...
• Definice (Pravidla)
• Parsing
• Standardisace
• Matching
• Gender Analýza
• Casing
• Knihovny a slovníky
• Slovníky
• Překladová schemata
• Gramatiky
• Fonetiky
• Knihovny regulárních výrazů
• Dělící tabulky (mapy znaků)
• Definice, knihovny a slovníky
• vytvořeny pro všechny datové typy
• Úplnost a variabilita
• Jazykové mutace (locales: 80+)
• Správa: modul Customize
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ŘEŠENÍ TYPY ÚLOH (ARCHITEKTURY ŘEŠENÍ)
• Dávkové čištění a konsolidace dat
• ETL – konsolidace klientů, adres, produktů – dimense
• Dávkový vstup dat + datové toky, transformace
• Konsolidace více zdrojů
• Různé systémy
• Různé úlohy
• Akvisice, slučování firem – konsolidace kmene zákazníků…
• Integrace externích zdrojů – blacklisty, watchlisty, registry
(adresy, firmy), geocoding…
• Proaktivní - on/line čištění a konsolidace v reálném čase
• On-line kontroly a opravy při vstupu dat (aplikace, internet…)
• Verifikace/identifikace – identifikace subjektu
• Kompletace informace – nalezení všech informací
o klientovi (profil, produkty, kampaně, risika, household)
• Blacklisty, whitelisty, watchlisty…
• Reporting
• Regulatorní
• Kontroling
• Master Data Management
• Data Governance…
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
ŘEŠENÍ SAS
VLASTNOSTI PLATFORMY DATOVÉ KVALITY
(DATAFLUX)
 Kompletní a komplexní funkcionalita
 Umí vše, co má umět:
 Profiling, Parsing, Standardizace,
Match, Merge, Enrichment, DQ
Monitoring & Reporting
 Unikátní technická řešení
 Generování universálního matching key
 Dynamicky nastavitelná sensitivita
 ...
 Podpora věcně orientovaných uživatelů
 Modularita, srozumitelnost a přehlednost
 Nic se nekóduje
 Inteligentní znalostní báze QKB
 Různé režimy práce
 Batch i on-line
 Identické joby
 Otevřenost, flexibilita, variabilita
 Různé datové zdroje a režimy práce
 Obecné datové typy, kompositní datové typy
...
 Různé provozní platformy
 Integrace s jinými technologiemi (ETL, OS,
ERP ...)
 Lokalizace
 …
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
DATA MANAGEMENT PŘEHLED NÁSTROJŮ
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
PŘÍNOSY ŘEŠENÍ SHRNUTÍ PŘÍNOSŮ NAVRHOVANÉHO PŘÍSTUPU
• Robustní ověřená technologická platforma, extensivní podpora produktu
• Kompletní funkcionalita
• Škálovatelný výkon
• Řešení plně pod kontrolou technických a business uživatelů
• Přehlednost, transparentnost, otevřenost, fexibilita
• Otevřená znalostní báze
• Vysoká produktivita
• Efektivní implementace řešení v prostředí DM Studio/DM Server
• Využití hotových komponent, pravidel, úloh a služeb
• Snadné změny a rozšiřitelnost řešení
• Efektivita
• Modulární stavebnicové řešení
• Koncept evoluční realisace po etapách „bez ztráty květinky“
• Zkušenosti a podpora
• Velké množství referencí (Corporate DQ standard)
• Vývoj a certifikace znalostních bází DQ (QKB)
• Zázemí mezinárodní firmy (rozvoj, podpora, partneři…)
32
Produktivita
Flexibilta
Efektivita
Kontrola
Copyr ight © 2012, SAS Institute Inc. All rights reser ved.
POZVÁNKA SNÍDANĚ S DATY … A SASem
31.3.2016:
SAS DQ DataFlux – Chytrá technologie pro čištění a konsolidaci dat
7.4.2016:
SAS Master Data Management – řešení, které roste s vašimi potřebami
21.4.2016:
SAS Data Governance – Péče o podniková data prakticky
2.6.2016:
SAS DM4VA – Datová elegance: Integrace, konsolidace, analysa
a visualisace dat v jednom
16.6.2015:
SAS pro Hadoop – I práce s Velkými daty může být snadná
Copyright © 2012, SAS Institute Inc. All rights reser ved.

More Related Content

Viewers also liked

Uma discussão moral sobre o altruísmo
Uma discussão moral sobre o altruísmoUma discussão moral sobre o altruísmo
Uma discussão moral sobre o altruísmo
Carlos Nepomuceno (Nepô)
 
Making of MaaS - AWS meetup Stockholm 2016-08
Making of MaaS - AWS meetup Stockholm 2016-08Making of MaaS - AWS meetup Stockholm 2016-08
Making of MaaS - AWS meetup Stockholm 2016-08
Sami Pippuri
 
Probability - Probability and Number Theory
Probability - Probability and Number TheoryProbability - Probability and Number Theory
Probability - Probability and Number Theory
2IIM
 
BPTX_2013_2_11410_0_351995_0_146959
BPTX_2013_2_11410_0_351995_0_146959BPTX_2013_2_11410_0_351995_0_146959
BPTX_2013_2_11410_0_351995_0_146959Ember Smith
 
Závěrečný úkol KPI
Závěrečný úkol KPIZávěrečný úkol KPI
Závěrečný úkol KPIHonza Buchta
 

Viewers also liked (7)

SEL CBT 101 - Certificate
SEL CBT 101 - CertificateSEL CBT 101 - Certificate
SEL CBT 101 - Certificate
 
Uma discussão moral sobre o altruísmo
Uma discussão moral sobre o altruísmoUma discussão moral sobre o altruísmo
Uma discussão moral sobre o altruísmo
 
Making of MaaS - AWS meetup Stockholm 2016-08
Making of MaaS - AWS meetup Stockholm 2016-08Making of MaaS - AWS meetup Stockholm 2016-08
Making of MaaS - AWS meetup Stockholm 2016-08
 
AdaptacióN
AdaptacióNAdaptacióN
AdaptacióN
 
Probability - Probability and Number Theory
Probability - Probability and Number TheoryProbability - Probability and Number Theory
Probability - Probability and Number Theory
 
BPTX_2013_2_11410_0_351995_0_146959
BPTX_2013_2_11410_0_351995_0_146959BPTX_2013_2_11410_0_351995_0_146959
BPTX_2013_2_11410_0_351995_0_146959
 
Závěrečný úkol KPI
Závěrečný úkol KPIZávěrečný úkol KPI
Závěrečný úkol KPI
 

Similar to Datová kvalita se SAS

SAS - Vydělejte na svých datech
SAS - Vydělejte na svých datechSAS - Vydělejte na svých datech
SAS - Vydělejte na svých datech
MarketingArrowECS_CZ
 
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
Targito
 
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Profinit
 
women in business
women in businesswomen in business
women in business
AgenturaHelas
 
Google Medic Update
Google Medic UpdateGoogle Medic Update
Google Medic Update
Taste Medio
 
Profil_ATC_2016
Profil_ATC_2016Profil_ATC_2016
Profil_ATC_2016Petr Vanek
 
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
Milad Iss
 
Jiří Štěpán: Personalizace digitální komunikace
Jiří Štěpán: Personalizace digitální komunikaceJiří Štěpán: Personalizace digitální komunikace
Jiří Štěpán: Personalizace digitální komunikace
KISK FF MU
 

Similar to Datová kvalita se SAS (9)

SAS - Vydělejte na svých datech
SAS - Vydělejte na svých datechSAS - Vydělejte na svých datech
SAS - Vydělejte na svých datech
 
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
Jan Baštýř | VIVmail.cz | Kde hledat kouzlo dat? K čemu všemu je možné je již...
 
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
Big Data: reálné aplikace pro business - Odborna snidane 30. 11. 2016
 
women in business
women in businesswomen in business
women in business
 
Google Medic Update
Google Medic UpdateGoogle Medic Update
Google Medic Update
 
Profil_ATC_2016
Profil_ATC_2016Profil_ATC_2016
Profil_ATC_2016
 
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
Životopis budoucnosti – jak si získat každého šéfa přes sociální síť? | LIDÉ ...
 
Jak jsem pochopil finanční řízení
Jak jsem pochopil  finanční řízeníJak jsem pochopil  finanční řízení
Jak jsem pochopil finanční řízení
 
Jiří Štěpán: Personalizace digitální komunikace
Jiří Štěpán: Personalizace digitální komunikaceJiří Štěpán: Personalizace digitální komunikace
Jiří Štěpán: Personalizace digitální komunikace
 

More from MarketingArrowECS_CZ

INFINIDAT InfiniGuard - 20220330.pdf
INFINIDAT InfiniGuard - 20220330.pdfINFINIDAT InfiniGuard - 20220330.pdf
INFINIDAT InfiniGuard - 20220330.pdf
MarketingArrowECS_CZ
 
Využijte svou Oracle databázi na maximum!
Využijte svou Oracle databázi na maximum!Využijte svou Oracle databázi na maximum!
Využijte svou Oracle databázi na maximum!
MarketingArrowECS_CZ
 
Jak konsolidovat Vaše databáze s využitím Cloud služeb?
Jak konsolidovat Vaše databáze s využitím Cloud služeb?Jak konsolidovat Vaše databáze s využitím Cloud služeb?
Jak konsolidovat Vaše databáze s využitím Cloud služeb?
MarketingArrowECS_CZ
 
Chráníte správně svoje data?
Chráníte správně svoje data?Chráníte správně svoje data?
Chráníte správně svoje data?
MarketingArrowECS_CZ
 
Oracle databáze – Konsolidovaná Data Management Platforma
Oracle databáze – Konsolidovaná Data Management PlatformaOracle databáze – Konsolidovaná Data Management Platforma
Oracle databáze – Konsolidovaná Data Management Platforma
MarketingArrowECS_CZ
 
Nové vlastnosti Oracle Database Appliance
Nové vlastnosti Oracle Database ApplianceNové vlastnosti Oracle Database Appliance
Nové vlastnosti Oracle Database Appliance
MarketingArrowECS_CZ
 
Infinidat InfiniGuard
Infinidat InfiniGuardInfinidat InfiniGuard
Infinidat InfiniGuard
MarketingArrowECS_CZ
 
Infinidat InfiniBox
Infinidat InfiniBoxInfinidat InfiniBox
Infinidat InfiniBox
MarketingArrowECS_CZ
 
Novinky ve světě Oracle DB a koncept konvergované databáze
Novinky ve světě Oracle DB a koncept konvergované databázeNovinky ve světě Oracle DB a koncept konvergované databáze
Novinky ve světě Oracle DB a koncept konvergované databáze
MarketingArrowECS_CZ
 
Základy licencování Oracle software
Základy licencování Oracle softwareZáklady licencování Oracle software
Základy licencování Oracle software
MarketingArrowECS_CZ
 
Garance 100% dostupnosti dat! Kdo z vás to má?
Garance 100% dostupnosti dat! Kdo z vás to má?Garance 100% dostupnosti dat! Kdo z vás to má?
Garance 100% dostupnosti dat! Kdo z vás to má?
MarketingArrowECS_CZ
 
Využijte svou Oracle databázi naplno
Využijte svou Oracle databázi naplnoVyužijte svou Oracle databázi naplno
Využijte svou Oracle databázi naplno
MarketingArrowECS_CZ
 
Oracle Data Protection - 2. část
Oracle Data Protection - 2. částOracle Data Protection - 2. část
Oracle Data Protection - 2. část
MarketingArrowECS_CZ
 
Oracle Data Protection - 1. část
Oracle Data Protection - 1. částOracle Data Protection - 1. část
Oracle Data Protection - 1. část
MarketingArrowECS_CZ
 
Benefity Oracle Cloudu (4/4): Storage
Benefity Oracle Cloudu (4/4): StorageBenefity Oracle Cloudu (4/4): Storage
Benefity Oracle Cloudu (4/4): Storage
MarketingArrowECS_CZ
 
Benefity Oracle Cloudu (3/4): Compute
Benefity Oracle Cloudu (3/4): ComputeBenefity Oracle Cloudu (3/4): Compute
Benefity Oracle Cloudu (3/4): Compute
MarketingArrowECS_CZ
 
InfiniBox z pohledu zákazníka
InfiniBox z pohledu zákazníkaInfiniBox z pohledu zákazníka
InfiniBox z pohledu zákazníka
MarketingArrowECS_CZ
 
Exadata z pohledu zákazníka a novinky generace X8M - 2. část
Exadata z pohledu zákazníka a novinky generace X8M - 2. částExadata z pohledu zákazníka a novinky generace X8M - 2. část
Exadata z pohledu zákazníka a novinky generace X8M - 2. část
MarketingArrowECS_CZ
 
Exadata z pohledu zákazníka a novinky generace X8M - 1. část
Exadata z pohledu zákazníka a novinky generace X8M - 1. částExadata z pohledu zákazníka a novinky generace X8M - 1. část
Exadata z pohledu zákazníka a novinky generace X8M - 1. část
MarketingArrowECS_CZ
 
Úvod do Oracle Cloud infrastruktury
Úvod do Oracle Cloud infrastrukturyÚvod do Oracle Cloud infrastruktury
Úvod do Oracle Cloud infrastruktury
MarketingArrowECS_CZ
 

More from MarketingArrowECS_CZ (20)

INFINIDAT InfiniGuard - 20220330.pdf
INFINIDAT InfiniGuard - 20220330.pdfINFINIDAT InfiniGuard - 20220330.pdf
INFINIDAT InfiniGuard - 20220330.pdf
 
Využijte svou Oracle databázi na maximum!
Využijte svou Oracle databázi na maximum!Využijte svou Oracle databázi na maximum!
Využijte svou Oracle databázi na maximum!
 
Jak konsolidovat Vaše databáze s využitím Cloud služeb?
Jak konsolidovat Vaše databáze s využitím Cloud služeb?Jak konsolidovat Vaše databáze s využitím Cloud služeb?
Jak konsolidovat Vaše databáze s využitím Cloud služeb?
 
Chráníte správně svoje data?
Chráníte správně svoje data?Chráníte správně svoje data?
Chráníte správně svoje data?
 
Oracle databáze – Konsolidovaná Data Management Platforma
Oracle databáze – Konsolidovaná Data Management PlatformaOracle databáze – Konsolidovaná Data Management Platforma
Oracle databáze – Konsolidovaná Data Management Platforma
 
Nové vlastnosti Oracle Database Appliance
Nové vlastnosti Oracle Database ApplianceNové vlastnosti Oracle Database Appliance
Nové vlastnosti Oracle Database Appliance
 
Infinidat InfiniGuard
Infinidat InfiniGuardInfinidat InfiniGuard
Infinidat InfiniGuard
 
Infinidat InfiniBox
Infinidat InfiniBoxInfinidat InfiniBox
Infinidat InfiniBox
 
Novinky ve světě Oracle DB a koncept konvergované databáze
Novinky ve světě Oracle DB a koncept konvergované databázeNovinky ve světě Oracle DB a koncept konvergované databáze
Novinky ve světě Oracle DB a koncept konvergované databáze
 
Základy licencování Oracle software
Základy licencování Oracle softwareZáklady licencování Oracle software
Základy licencování Oracle software
 
Garance 100% dostupnosti dat! Kdo z vás to má?
Garance 100% dostupnosti dat! Kdo z vás to má?Garance 100% dostupnosti dat! Kdo z vás to má?
Garance 100% dostupnosti dat! Kdo z vás to má?
 
Využijte svou Oracle databázi naplno
Využijte svou Oracle databázi naplnoVyužijte svou Oracle databázi naplno
Využijte svou Oracle databázi naplno
 
Oracle Data Protection - 2. část
Oracle Data Protection - 2. částOracle Data Protection - 2. část
Oracle Data Protection - 2. část
 
Oracle Data Protection - 1. část
Oracle Data Protection - 1. částOracle Data Protection - 1. část
Oracle Data Protection - 1. část
 
Benefity Oracle Cloudu (4/4): Storage
Benefity Oracle Cloudu (4/4): StorageBenefity Oracle Cloudu (4/4): Storage
Benefity Oracle Cloudu (4/4): Storage
 
Benefity Oracle Cloudu (3/4): Compute
Benefity Oracle Cloudu (3/4): ComputeBenefity Oracle Cloudu (3/4): Compute
Benefity Oracle Cloudu (3/4): Compute
 
InfiniBox z pohledu zákazníka
InfiniBox z pohledu zákazníkaInfiniBox z pohledu zákazníka
InfiniBox z pohledu zákazníka
 
Exadata z pohledu zákazníka a novinky generace X8M - 2. část
Exadata z pohledu zákazníka a novinky generace X8M - 2. částExadata z pohledu zákazníka a novinky generace X8M - 2. část
Exadata z pohledu zákazníka a novinky generace X8M - 2. část
 
Exadata z pohledu zákazníka a novinky generace X8M - 1. část
Exadata z pohledu zákazníka a novinky generace X8M - 1. částExadata z pohledu zákazníka a novinky generace X8M - 1. část
Exadata z pohledu zákazníka a novinky generace X8M - 1. část
 
Úvod do Oracle Cloud infrastruktury
Úvod do Oracle Cloud infrastrukturyÚvod do Oracle Cloud infrastruktury
Úvod do Oracle Cloud infrastruktury
 

Datová kvalita se SAS

  • 1. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. DATOVÁ KVALITA SE SAS 16.03.2016
  • 2. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. CO OD NICH MŮŽEME ČEKAT? • Víme, jak se zachová? • Co o něm vlastně víme? • Víme, kdo to je? DATA!
  • 3. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ZAČÍNÁ TO U DAT Jméno František Příjmení Novotný datum narození 22.1.1957 Rodné číslo 5501222/1361 místo narození Malé Mrtvice Stav neznámý počet dětí ?? zaměstnání Nezaměstnaný Jméno Frank Příjmení Newman datum narození * 1958 zaměstnání Neuvedeno příjem Neuvedeno Bude to dobrý klient? Je třeba mít dobré informace
  • 4. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. CO ČEKÁME OD DAT  Poskytnout správnou informaci  Poskytnou spolehlivou informaci  Poskytnou dostatečnou informaci Datová kvalita • Správnost • Úplnost • Konsistence • Jednoznačnost • Aktuálnost • Relevance • Srozumitelnost • Spolehlivost
  • 5. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. NEKVALITA DAT CO TO ZNAMENÁ 1. Nesprávně zapsaná data • Překlepy • Přeslechy • Odlišné zápisy (case, diakritika, ...) Jméno Příjmení Dat. narození Místo narození Karel Novák ml. 12/4/1942Brandýs n.l. Lojza Bingo Dvořák, ing. 68-03-2218000 Praha 8 inž Marie KRATOCHVILOVA 99/99/99 Frant. Kopecký 21.6.1976Praha - Nusle Jarislav Schneider 02-05-03Benešov u Prahy JIRI CERVENKA 1. LEDEN 1971PRAHA IV Procházková Božena 34.13.3008Podolí • Nesprávné hodnoty (chyby, různé doplněné texty...) • Nestandardní hodnoty • Údaje v nesprávných polích • Údaje v nesprávném pořadí • ...
  • 6. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. Hypotéka Leasing automobilu Spotřební úvěr Data o klientovi ____ _______ ________ _________ Spotřební úvěr Spotřební úvěr Spotřební úvěr Data o klientovi ____ _______ ________ _________ Podnikatelský úvěr Data o klientovi ____ _______ ________ _________ Nesplácení Data o klientovi ____ _______ ________ _________ Insolvence Data o klientovi ____ _______ ________ _________ Jméno František Příjmení Novotný datum narození 22.1.1957 Rodné číslo 570122/1361 místo narození Malé Mrtvice Stav Svobodný počet dětí 6 zaměstnání Konsultant VÝZVA: IDENTIFIKACE VZTAHŮ
  • 7. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. NEKVALITA DAT CO TO ZNAMENÁ - DUPLICITY 2. Duplicitní a nekonsistentní data • Data z různých systémů • Různá (správné) zápisy týchž dat • Nerozpoznané duplicitní záznamy • Data týchž subjektů s různými údaji Systém ID Jméno Příjmení Titul Bydliště - město Dat.narození RČ S1 - ŽP 123345František Šnajdr Ing. Ostrava 23.11.1965 651123/0341 S2 - HA H-0120011František Šnajdr Ostrava - Poruba 1965-11-23 6511230341 S2 - HA H-0137289František Schneider Ing. Ostrava 4 1965-11-23 6511230431 S3 - F 19873FRANTISEK SNAJDR ING ----- ----- 6511230000 S3 - F 87174Fratišek Šnajdr Ing. ----- 23.11.1965 6511230341 S4 - PM M-0089098Frant. Šnajdr Ústí nad Labem ----- 651123/0341 S4- PM M-0001456František Šnajder Ing. Ústí n.L. ----- 651123/0341 S5- PP PP0037545AFrantišek Šnajdr ing. 708 00 Ostrava 23.11.1965 IČ12398723
  • 8. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. PŘÍKLAD ZE ŽIVOTA BRANDYS N/L. BRANDÝS NAD LABEN BRANDÝS P AD LABE BRANDÝS N/L. BRANDÝS NAD LABEOM BRANDÝS P L. BRANDYS N/LAB. BRANDÝS NAD LABEOŠEM BRANDÝS P LAB. BRANDÝS N/LAB. BRANDYS NAD LABI BRANDÝS P LABEM BRANDÝS N/LABEM BRANDÝS NAD LABLEM BRANDÝS PNAD LAB. BRANDÝS BRANDÝS N/LB BRANDYS NAD LABN BRANDÝS PNAD LABEM BRANDYS AD LAB. BRANDÝS N:L. BRANDÝS NAD LABN BRANDÝS.N.LAB. BRANDÝS AD LABEM BRANDYS NA LABEM BRANDÝS NAD LABO BRANDÝS/LAB BRANDYS N. L BRANDÝS NA LABEM BRANDYS NAD LABO BRANDÝS/LABE BRANDÝS N. L- BRANDÝS NAD BRANDYS NAD LABRM BRANDÝS/LABEM BRANDÝS N. L, BRANDÝS NAD ABEM BRANDÝS NAD LABRM BRANDÝSA NAD LABEM BRANDÝS N. L. BRANDÝS NAD ALBEM BRANDÝS NAD LABWN BRANDÝSB NAD LABEM BRANDÝS N.- L. BRANDÝS NAD BLAEM BRANDÝS NAD LAE BRANDÝSN AD LAB. BRANDÝS N. L.. BRANDÝS NAD BLAM BRANDÝS NAD LAEBMM BRANDÝSN NAD LAB. BRANDYS N. LAB. BRANDÝS NAD KABEM BRANDÝS NAD LAĚM BRANDÝSN. L. BRANDÝS N. LAB. BRANDÝS NAD L. BRANDÝS NAD LBAEM BRANDÝSN.L. BRANDÝS N. LABE BRANDYS NAD LA BRANDÝS NAD LBAEME BRANDÝSNAD LAB. BRANDÝS N. LABE- BRANDÝS NAD LA BRANDÝS NAD LBEM BRANDÝSNAD LABE BRANDÝS N. LABEM BRANDYS NAD LAB BRANDÝS NAD LBM BRANDÝSNAD LABEM BRANDÝS N. LABEM0 BRANDÝS NAD LAB BRANDÝS NAD LEBAM BRANDÝSP AD LAB. BRANDYS N. LABI BRANDÝS NAD LAB## BRANDÝS NAD. LAB. BRANDÝSP NAD LAB. BRANDÝS N. LABI BRANDYS NAD LAB. BRANDÝS NAD. LABALAM BRANDÝSVNAD LABEM BRANDÝS N. LBŠŤEM BRANDÝS NAD LAB. BRANDÝS NAD. LABALEM BRANDÝS N.. L. BRANDÝS NAD LAB., BRANDÝS NAD. LABAM BRANDÝS N.BRANDÝS BRANDÝS NAD LABAMA BRANDÝS NAD. LABEM BRANDÝS N.L BRANDÝS NAD LABE BRANDÝS NAD.LAB. BRANDÝS N.L- BRANDÝS NAD LABE, BRANDÝS NAD.LABEM BRANDÝS N-.L- BRANDÝS NAD LABĚEM BRANDÝS NADLÁB BRANDÝS N.L, BRANDÝS NAD LABEM BRANDÝS NADLABEM BRANDYS N.L. BRANDÝS NAD LAB''EM BRANDÝS NAND LAB. BRANDÝS N.L.; BRANDÝS NAD LABĚM BRANDÝS NASD LABEM BRANDÝS N.LAB BRANDÝS NAD LÁBÉM BRANDÝS ND LAB. BRANDÝS N.LAB. BRANDÝS NAD LABEM1 BRANDYS NDA LABEM BRANDÝS N.LAB.. BRANDÝS NAD LABEM3 BRANDÝS NDA LABEM BRANDÝS N.LABE BRANDÝS NAD LABEMOKL. P-VYCHOD BRANDYS NDAD LABEM BRANDÝS N.LABEM BRANDÝS NAD LABEM, CZ BRANDÝS NDAD LABEM BRANDÝS N.LB BRANDÝS NAD LABEM; BRANDÝS NL. BRANDÝS N/L BRANDÝS NAD LABEM0 BRANDÝS N-L.
  • 9. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. Vztahy mezi subjekty • Rodina • Domácnost • Spolupracovníci • Obchodní vztahy VÝZVA: IDENTIFIKACE VZTAHŮ
  • 10. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. DALŠÍ VÝZVY • Identifikace lokalit • Adresy – rizikové oblasti… • Identifikace účtů • Identifikace vozidel • …
  • 11. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. JDE O PENÍZE JAK VYPADAJÍ VE SKUTEČNOSTI PODNIKOVÁ DATA • Data o klientech – osoby: 20 – 40% nekvalitních dat • Data o klientech – organisace: 20 – 60% nekvalitních dat • … Larry English: • Data jsou vždy v horším stavu, než jak na první pohled vypadají: • Ve skutečnosti 2- 3x více
  • 12. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. Financial Assets Human Assets Data Assets Podnikové finance HR Péče o data • Správa dat, procesy, standardy, monitorování, analysa, řízení • Sdílení klíčových dat, autorita referenčních dat • Čištění, konsolidace, údržba kvality dat • Integrace, přesunování, propojování, transformace dat • Ukládání, zpřístupnění, zabezpečení, ochrana dat DATA MANAGEMENT KONTEXT PÉČE O DATA
  • 13. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. INFORMACE A BOHATSTVÍ • Dnes existuje jen málo businessů, jež nejsou odkázány na vysoce kvalitní informace • Do získávání, uchovávání a správy informací se investovaly velké peníze • V jakém stavu je naše informační bohatství ?
  • 14. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. JDE O PENÍZE DOPADY NEKVALITNÍCH DAT • Špatná data  špatné výsledky zpracování • Špatné výsledky zpracování  špatně funguje business (procesy) • Špatně fungují procesy  přicházíme o peníze • Kromě toho správa (špatných) dat stojí také peníze
  • 15. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. CO DATOVÁ NEKVALITA ZPŮSOBUJE • Správa a zpracování nekvalitních, nadbytečných a chybných dat • Nedoručené zásilky (marketing, fakturace...) • Není jednotný pohled na klienta (CVM, nabídka produktů, kampaně, rizika,...) • Nesprávné výsledky zpracování (Reporting, analýzy, datamining...) • Špatné fungování systému (nekompatibilita ...) • Znemožnění návazných agend: Geocoding, Householding ... • Je to ošklivé, ztráta image Ale hlavně: Stojí to peníze!
  • 16. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. DATOVÁ KVALITA TYPICKÉ BUSINESS INICIATIVY, KTERÝCH SE TÝKÁ • Kompletní a jednotná a informace o klientovi (osoby, organisace, adresy, kontakty…): • Obchod & Marketing: oslovování, segmentace, CVM, kampaně, mailingy… • Risk & Fraud management, AML: Klasifikace, vazby, identifikace … • Operace, logistika…: doručování, oslovování… • Korektní informace o produktu: • SCM: Identifikace produktu, referenční data, klasifikace, … • Product Management: hierarchie, bundling, taxonomie, referenční data • Podpora rozhodování, reporting, analýzy, BI: • Jednoznačná korektní data → korektní výstupy • Korporátní reporting • Regulatorní reporting: Basel II, Solvency II… • Podnikové procesy, systémy, provoz IT: • Znemožnění návazných agend (geokódování, householding…) • Náklady na správu (nekvalitních) dat • Náklady na opravy defektů a řešení konfliktů a dopadů • Nekompatibilita, zhoršená funkce … • Další dopady • Ztráta image, je to ošklivé, důvěra v procesy…
  • 17. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. BI & ANALYTICS KONCEPTUÁLNÍ ARCHITEKTURA Analytic Data Store Analysa Visualisace Reporting … Integrace a konsolidace dat
  • 18. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. BUSINESS PROBLEM BUSINESS DECISION 20%80% Příprava (dat) pro řešení problému Řešení problému BI & ANALYTICS TYPICKÁ ÚLOHA
  • 19. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. CO S TÍM? SAS DATA QUALITY! DataFlux
  • 20. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ŘEŠENÍ STANDARDNÍ ÚLOHY DATOVÉ KVALITY Profiling, analýza Porozumění kvalitě zdrojových dat Standardizace, čištění Zlepšení stavu dat, náprava defektů Integrace, unifikace, deduplikace Konsolidace a propojení souvisejících dat Obohacení, doplnění Obohacení dat z externích zdrojů Sledování, monitorování Automatické sledování problémů s datovou kvalitou
  • 21. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. HODNOCENÍ GARTNER HODNOTÍ Přednosti DataFlux: • Široký záběr DQ iniciativ • použití v celém spektru úlog od BI, MDM? Až migracím • Nevídaný růst • Velký počet nových zákazníků, projekt Unity • Věrní a spokojení zákazníci • 95% maintenance renewal rate • Poměr investic do R&D • Mezi dodavateli IT jeden z nepříznivějších poměrů Gatrnet Magic Quadrant for Data Quality Tools • Integrace plné šíře funkcí do jedné platformy • Profiling, čištění, monitirování, správa metadat… • Velká síla: využévání funkcí SAS • Uikátní posílení platformy dDataFlux • Vývoj akcelerátorů • Customer Analysis, Materials classification… • Zákazníci oceňují jednoduchou instalace a integraci • Zákazníci oceňují vysokou úroveň technické podpory Citát ze studie: „Dodavatel (DataFlux) neustále posunuje hranice nástrojů datové kvality i celého trhu datové kvality, což vede k jeho opětovné vedoucí posici v tomto roce
  • 22. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ANALÝZA EXPLORACE DAT • Zjištění struktur dat • Entity, atributy, datové typy • Zkoumání obsahu dat • Rozlišení druhu informací v datech (organisace vs. individuum, adresa, telefon…) • Zkoumání vztahů v datech • Vztahy mezi datovými objekty (tabulky, soubory) • Vztahy mezi položkami a atributy • Reference v datech • Metody • Využití známých metadat • Odhady neznámých metadat • Porovnání obsahu dat (fuzzy matching) • Visualisace struktur a vztahů • Porozumět datům • Podklad pro detailní analysu dat Cíl Výstup
  • 23. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ANALÝZA DATA PROFILIG • Analysa stavu dat • Vytvoření profilu dat • Identifikace osiřelých a redundantních dat (vazby, asociace) • Analýza frekvencí, vzorů a typů dat • Měření úplnosti záznamů (nulls, blanks, ...) • Identifikace, kvantifikace, klasifikace a analýza chyb a problémů v datech • Defekty • Anomálie a výjimky • Chybějící data • Metody • Statistiky o datech • Visualisace a historisace • Srovnávací analysa • Drill-through funkce • Standardní a uživatelské metriky kvality dat • Zjistit stav dat • Identifkovat problémy kvality dat • Podklady pro design oprav dat • Podklady pro řízení kvality dat Cíle Výstupy
  • 24. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ČIŠTĚNÍ OPRAVA A STANDARDISACE DAT • Automatické čištění • Rozpoznání (parsing) obsahu datových položek • Rozpoznání (sub)typu entity (identifikace) • Opravy (překlepy, nesprávné zápisy, formáty …) • Doplnění chybějících položek, je-li to možné • Standardizace • Převod na jednotný formát • Náhrada/doplnění standardních hodnot  Zdroje (QKB)  Parse definition  Slovníky, gramatiky, dělící tabulky, regexlib  Standardization definion  Standardizační schémata, regexlib • Opravit defekty v datech • Standardisovat hodnoty dat • Data v jednotné podobě • Data odpovídající standardům Cíle Výstupy Parsing Identifikace Standardisace Gender Analysis Casing Formátování
  • 25. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ENTITY RESOLUTION VERIFIKACE • Verifikace adres • Adresy z různých zdrojů v různých formátech • Parsing – získání adresních komponent • Normalisace pro vyhledávání • Vyhledání v adresním registru (RUIAN) • Porovnání na základě pravidel (matching, clustering) • Standardisace a obohacení adresy • Data z referenčních záznamů • Verifikace organisací • Rozpoznání typů a subtypů subjektu • právnická / fysická osoba / individuální podnikatel, právní forma, odvozená právní subjektivita … • Vyhledání v registru /registrech organisací • RES, Obchodní rejstřík… • Obdobně jiné entity • Zdroje • Definice QKB • Parse, Identification, Match, Standardize • Předdefinované procesní úlohy (joby) • Nalézt referenční záznamy v registrech (referenčních DB…) • Referenční ID záznamu • Referenční hodnoty záznamu Cíl Výstupy
  • 26. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. AUGMENTATION OBOHACENÍ DAT • Přidání hodnoty existujícím datovým zdrojům • Odvození nových informací z existujících dat • Rozšířené informace o adrese • Doplnění souřadnic • Informace o risikových zónách • Odvození informací z existujících atributů • Blacklisty, watchlisty • Rating • Klasifikace produktů • Analytické informace (segment, risiková skupina, CVM… • Zdroje • Analytické systémy, ODS, datamarty • Externí zdroje • Externí služby • Přidání nových informací k verifikovaným záznamům z dalších zdrojů • Nové datové položky Cíl Výstupy
  • 27. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. MONITORING SLEDOVÁNÍ STAVU DAT • Okamžitý stav kvality dat v daném čase • Ukazuje na spolehlivost analýz, správnost reportingu, účinnost kampaní atd. v danou chvíli • Úzká a problémová místa řízení kvality dat • např. které systémy, lidé, pobočky … data „špiní“ více než jiné • Trendy vývoje datové kvality • Konsistentní měření v časových řadách • Účinnost nápravných a preventivních opatření a procesů • Průběžné měření kvality dat • Zachycení anomálií a defektů • Reporty, dashboardy • Alerty, akce, události Cíle Výstupy • Vestavěný rule engine • Obecná pravidla • Pravidla DQ • Akce: • Zápis do logu • Vyrozumění (alert), email,… • Spuštění úlohy, programu, workflow…
  • 28. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ZNALOSTNÍ BÁZE QUALITY KNOWLEDGE BASE (QKB) • Formalisovaný interní subsystém • Typy entit, definice, struktury • Pravidla, standardy … Co to je Výstupy • Obsah: • Obecné datové typy a entity • Jméno, adresa, město, RČ, ... • Definice (Pravidla) • Parsing • Standardisace • Matching • Gender Analýza • Casing • Knihovny a slovníky • Slovníky • Překladová schemata • Gramatiky • Fonetiky • Knihovny regulárních výrazů • Dělící tabulky (mapy znaků) • Definice, knihovny a slovníky • vytvořeny pro všechny datové typy • Úplnost a variabilita • Jazykové mutace (locales: 80+) • Správa: modul Customize
  • 29. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ŘEŠENÍ TYPY ÚLOH (ARCHITEKTURY ŘEŠENÍ) • Dávkové čištění a konsolidace dat • ETL – konsolidace klientů, adres, produktů – dimense • Dávkový vstup dat + datové toky, transformace • Konsolidace více zdrojů • Různé systémy • Různé úlohy • Akvisice, slučování firem – konsolidace kmene zákazníků… • Integrace externích zdrojů – blacklisty, watchlisty, registry (adresy, firmy), geocoding… • Proaktivní - on/line čištění a konsolidace v reálném čase • On-line kontroly a opravy při vstupu dat (aplikace, internet…) • Verifikace/identifikace – identifikace subjektu • Kompletace informace – nalezení všech informací o klientovi (profil, produkty, kampaně, risika, household) • Blacklisty, whitelisty, watchlisty… • Reporting • Regulatorní • Kontroling • Master Data Management • Data Governance…
  • 30. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. ŘEŠENÍ SAS VLASTNOSTI PLATFORMY DATOVÉ KVALITY (DATAFLUX)  Kompletní a komplexní funkcionalita  Umí vše, co má umět:  Profiling, Parsing, Standardizace, Match, Merge, Enrichment, DQ Monitoring & Reporting  Unikátní technická řešení  Generování universálního matching key  Dynamicky nastavitelná sensitivita  ...  Podpora věcně orientovaných uživatelů  Modularita, srozumitelnost a přehlednost  Nic se nekóduje  Inteligentní znalostní báze QKB  Různé režimy práce  Batch i on-line  Identické joby  Otevřenost, flexibilita, variabilita  Různé datové zdroje a režimy práce  Obecné datové typy, kompositní datové typy ...  Různé provozní platformy  Integrace s jinými technologiemi (ETL, OS, ERP ...)  Lokalizace  …
  • 31. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. DATA MANAGEMENT PŘEHLED NÁSTROJŮ
  • 32. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. PŘÍNOSY ŘEŠENÍ SHRNUTÍ PŘÍNOSŮ NAVRHOVANÉHO PŘÍSTUPU • Robustní ověřená technologická platforma, extensivní podpora produktu • Kompletní funkcionalita • Škálovatelný výkon • Řešení plně pod kontrolou technických a business uživatelů • Přehlednost, transparentnost, otevřenost, fexibilita • Otevřená znalostní báze • Vysoká produktivita • Efektivní implementace řešení v prostředí DM Studio/DM Server • Využití hotových komponent, pravidel, úloh a služeb • Snadné změny a rozšiřitelnost řešení • Efektivita • Modulární stavebnicové řešení • Koncept evoluční realisace po etapách „bez ztráty květinky“ • Zkušenosti a podpora • Velké množství referencí (Corporate DQ standard) • Vývoj a certifikace znalostních bází DQ (QKB) • Zázemí mezinárodní firmy (rozvoj, podpora, partneři…) 32 Produktivita Flexibilta Efektivita Kontrola
  • 33. Copyr ight © 2012, SAS Institute Inc. All rights reser ved. POZVÁNKA SNÍDANĚ S DATY … A SASem 31.3.2016: SAS DQ DataFlux – Chytrá technologie pro čištění a konsolidaci dat 7.4.2016: SAS Master Data Management – řešení, které roste s vašimi potřebami 21.4.2016: SAS Data Governance – Péče o podniková data prakticky 2.6.2016: SAS DM4VA – Datová elegance: Integrace, konsolidace, analysa a visualisace dat v jednom 16.6.2015: SAS pro Hadoop – I práce s Velkými daty může být snadná
  • 34. Copyright © 2012, SAS Institute Inc. All rights reser ved.