Prezentace z odborná snídaně na téma Datová architektura -
obecné pojetí datové architektury, její hlavní prvky, logický datový model organizace, Master Data Management, téma datové kvality a metodu Data Landscape Mapping.
4. 4
Proč datová architektura?
Data jsou v čím dál větší míře základními
stavebními prvky každé moderní
organizace – od malého e-shopu až po
velké globální obchodní společnosti.
Stejně jako se všechny stavby budují podle
plánů vytvořených architektem, tak pro
datově orientované organizace je nezbytná
dobře rozmyšlená a řízená datová
architektura.
7. 7
Co nás dnes čeká
› Nejprve budeme diskutovat roli datové architektury a její začlenění
v organizační struktuře společnosti
› Zmíníme přínosy datové architektury a to s využitím případových studií
a projektových zkušeností z bankovnictví, telekomunikací a pojišťovnictví
› Představíme některé prvky datové architektury: logický datový model
organizace, master data management a řízení datové kvality
› Představíme metodu Data Landscape Mapping a nabídneme postupy
jak vytvořit a udržovat Logický datový model, metadata a další komponenty
datové architektury
8. 8
Co je naším cílem?
› Data-driven company
– Business řízený daty / Business provozovaný
prostřednictvím dat / Business založený na
datech
– Všechna rozhodnutí v rámci všech úrovní
managementu jsou prováděna na základě dat
a výsledky těchto rozhodnutí jsou opět zpětně
pomocí dat vyhodnocovány a měřeny
› Metadata-driven data governance
– Data řízená metadaty
– Všechna data v rámci organizace jsou popsána
daty (=metadaty)
– Celá (nejen datová) architektura organizace je
též (meta)datově popsána a řízena
12. 12
5 otázek
› Proč bychom měli investovat do vzniku Logického datového
modelu organizace?
› Co obsahuje Logický datový model organizace?
› Jaký je vztah mezi Logickým modelem organizace a modelem
jádra datového skladu?
› Jak vznikne Logický datový model organizace?
› Jak měřit a hodnotit model?
13. 13
Proč bychom měli investovat do vzniku Logického
datového modelu organizace?
› Abychom se domluvili navzájem
– Obchodní oddělení, právní oddělení, controlling, legacy, bezpečnost
› Abychom se domluvili s ostatními
– Požadavky externích institucí versus interní systémy
› Abychom popsali, co chceme
– Přenos byznys požadavků do IT
› Abychom našli, co potřebujeme
– Identifikace entit
– Vazba mezi byznys termíny a technickým řešením
14. 14
Co obsahuje Logický datový model organizace?
› Byznys definice entit
› Identifikace entit
› Popis struktury entit (atributy, vazby)
› Požadavky na spravované data
› Vrstvy modelu
– Byznys slovník, informační model, logický datový model, fyzické modely
› Model nejsou obrázky, model je komunikace
15. 15
Jaký je vztah mezi Logickým modelem organizace
a modelem jádra datového skladu?
› Často vznikají společně - DWH vyžaduje nějaký datový model
› Často se zaměňují
› Shody
– Model musí být srozumitelný pro co největší počet pracovníků
› Rozdíly
– S modely pracují různé skupiny pracovníků
– DWH modely používají složité modelovacích techniky, umožňující uložit
skoro jakákoliv data, Logický model musí být jednoduchý a přímočarý
– Pro DWH modely existují hotové industriální modely, Logický model
organizace je vždy unikátní a daný byznys architekturou
17. 17
Jak vznikne Logický datový model organizace?
› From Scratch
› Source Systems Oriented Models
› Industrial Logical Data Models
› Kimbal, Inmon
› DataVault methodology
18. 18
FSLDM – Definice základních oblastí a vazeb
PARTY
(People / Org.
of interest & their
relationships)
http://mike2.openmethodology.org/wiki/Guidelines_for_Using_the_FSLDM
LOCATION
CAMPAIGN
ARRANGEMENT
(Accounts, etc)
EVENT
(Contact/TXN, etc)
FEATURES
PRODUCTORGANIZATION
CHANNEL
(ATM, Kiosk, etc)
19. 19
Data Vault – identifikace entit
LINKHUB SATHUB
SAT HUB LINK SAT
SATSAT SAT HUB SAT
20. 20
Metriky modelů. Jak měřit a hodnotit model?
› Kolik oddělení (pracovníků) modelu rozumí
› Kolik pracovníků model používá? V kolika rozvojových projektech
a iniciativách je využit?
› Kolik obsahuje entit? (čtverečků při zobrazení)
› Kolik jednotlivé entity mají instancí?
22. 22
Čím z oboru MDM začít?
› Správa číselníků (Reference Data
Management)
› Jednotná identita u hlavních entit
23. 23
Reference Data Management
› Správa všech kategorických oborů hodnot
› Zásadní je napojení na organizační dimenzi (vlastnictví, garantství)
› Hlavní a sjednocené dimenze datového modelu
– Klíčové např. pro entitu Product, Service (návaznost na produktový katalog,
katalog služeb apod.)
› V rámci organizace se může jednat o stovky číselníků
24. 24
Identita záznamů hlavních datových entit
› Ideální je zavedení interních identifikátorů
– Přednost před přirozenými klíči z vnějšího světa – např. rodné číslo, číslo pasu atd.
– Klíčové entity: Party, Contract, Transaction, ve finančnictví např. Security
› Rozhodnutí, zda a jak budeme fyzicky udržovat tzv. master záznamy
– Fyzické vs. logické master záznamy?
– Přiřazování jen master IDs nebo sestavování tzv. zlatých záznamů?
– Zpětná propagace master IDs a vyčištěných dat do původních systémů?
Original (duplicated) recordsOriginal (duplicated) recordsOriginal (duplicated) records
Master IDs
Original (duplicated) recordsOriginal (duplicated) records
Golden RecordsGolden
records
Master
Ids
28. Proč čistit data?
Perspektiva
dat
Perspektiva
uživatele
Perspektiva
společnosti
Chyba v pravopisu Informace není dostupná Rozhodnutí učiněná na základě
špatných informací
Duplicitní záznam Informace je těžko
agregovatelná
Drahé a neúčinné marketingové
kampaně
Nesprávná hodnota Informace je nesprávná Odliv zákazníků díky špatné kvalitě
služeb
Zastaralá informace Na data se nelze spolehnout Vysoká náročnost nalezení
požadovaných informací
Nesprávný formát Data zachycují jen část celku Zpoždění projektů implementace
nových systémů
Chybějící záznam Data obsahují logické
nekonzistence
Problémy s compliance
29. Kdy data čistit?
› Pokud se objeví problém s datovou kvalitou, je třeba porovnávat přínosy
a náklady na čištění
Fin. ztráty způsobené
nekvalitou dat
Náklady na zlepšení
datové kvality
– Náklady na dodatečnou
verifikaci dat
– Náklady na data re-entry
– Kompenzace
– Pokuty
– Náklady způsobené
zhoršenou reputací
– Náklady způsobené
špatným rozhodnutím
– Náklady na školení
– Náklady na pravidelný
monitoring
– Náklady na deployment
DQ
– Náklady na analýzu
– Náklady na plánování
a implementaci opravy
30. Kdy jsou data kvalitní? – Dimenze datové kvality
Dimenze Popis
Dostupnost Data jsou k dispozici nebo snadno získatelné
Odpovídající granularita Granularita dat odpovídá zadané úloze
Věrohodnost Data jsou pravdivá a pochází z důvěryhodného zdroje
Úplnost Žádná data nechybí
Interpretovatelnost Data lze interpretovat bez složitých transformací – jsou ve správném
jazyce, jednotkách, apod.
Relevantnost Data jsou použitelná a užitečná pro vykonávané úlohy
Konzistence Data jsou ve správné logické provázanosti
Včasnost Data jsou k dispozici včas
Srozumitelnost Data jsou snadno pochopitelná a srozumitelná
Přidaná hodnota Data jsou přínosná
Unikátnost Data jsou unikátní
31. Jak zvýšit kvalitu dat? – DQ proces
Identify &
Assess
Improve &
Cleanse
Maintain
& Monitor
32. 32
Důvody nekvality dat
› Chyby uživatelů
› Zastarávání dat
› Změna zvnějšku, kterou
nereflektujeme ve svých
systémech
› Nesprávně provedená migrace dat
› Špatně nastavená datová
integrace
› Úprava IT systémů (přehledné
uživatelské prostředí, nápovědy,
číselníky)
› Manuální / automatická úprava dat
› Zavedení governance
› Školení uživatelů
Náprava
33. Datová kvalita – Nikdy nekončící proces
› Je třeba monitorovat výsledky čištění
› Dělat pravidelný profiling, abych včasně odhalila negativní trend
› Dělat pravidelné review všech DQ dokumentů, zejména Datových standardů
a Datových slovníků
› Datovou kvalitu řešit v primárních systémech, nikoli až v DWH!
› Vždy je možné zlepšit kvalitu dat, nikdy nedosáhnu 100% kvality ve všech
systémech, mohu se jen tomuto stavu přibližovat