SlideShare a Scribd company logo
www.codec.pl
Hubert Kobierzewski
Warszawa, 21 maja 2018 r.
Jakość danych w organizacji
www.codec.pl
• BI Practice Lead w Codec (ponad 10 lat)
• Specjalizacja: Hurtownie danych, procesy ETL i
Business Intelligence
• Dawniej programista
• Certyfikaty branżowe, głównie MS SQL Server (MCDBA,
MCTS, MCITP, MCSE – BI, MCT)
• Współprowadzący warszawski oddział Data Community
• Współprowadzący Warsaw Power BI User Group
• Wykładowca na ALK
Hubert K. Kobierzewski
www.codec.pl
Agenda
 Integracja danych
 Podejście strategiczne
 Definiowanie i monitorowanie jakości danych
 Zarządzanie danymi
www.codec.pl
Integracja danych
www.codec.pl
Hurtownia danych
 Hurtownia danych jest systemem, który importuje, oczyszcza,
dostosowuje i dostarcza dane do wielowymiarowej bazy, która
wspiera wykonywanie zapytań oraz analizę w celu podejmowania
decyzji.
 Najbardziej widoczną częścią jest
- wykonywanie zapytań oraz analizę
 Najbardziej czasochłonną i złożoną częścią jest
- importuje, oczyszcza, dostosowuje i dostarcza
www.codec.pl
Sposoby importowania danych
 Skrypty
 Programy eksportujące
 Kodowanie (C#, Java, Visual Basic)
 Wewnętrzne narzędzie ETL
 Zakupione i wdrożone narzędzie ETL
www.codec.pl
System ładowania danych
 Zarządzalność
 Transparentność
 Skalowalność
 Elastyczność
 Złożoność
 Audyt
 Ponawialność prac
 Testowanie
www.codec.pl
ETL
 Extract – Transform – Load
 Extract
- Wydobywanie danych z system źródłowego w możliwie
najefektywniejszy sposób
 Transform
- Wykonywanie przekształceń danych (oczyszczanie, łączenie,
obliczenia)
 Load
- Ładowanie danych do wyznaczonej bazy
www.codec.pl
Wartość ETL
 Usuwanie błędów
 Mierzenie zaufania do danych
 Dostosowanie danych z różnych źródeł do jednolitego formatu
 Struktury przeznaczone do użycia przez narzędzia BI
 W dalszych etapach umożliwia analizę danych
www.codec.pl
Przepływ danych do analizy
Dane
źródłowe
Integracja Analiza Prezentacja
www.codec.pl
Podejście
www.codec.pl
Zarządzanie informacją - komponenty
Ludzie
Procedury
Narzędzia
 Automatyzacja
(szybkość,
niezawodność)
 Wymuszenie
stosowania procedur
 Standaryzacja procesów i
czynności
 Zapewnienie integralności
danych
 Uniezależnienie od konkretnych
osób
 Analiza potrzeb informacyjnych
 Wyznaczanie standardów i
procedur
 Obsługa sytuacji wyjątkowych
www.codec.pl
Kilka tematów
Ludzie
Procedury
Narzędzia
 Centrum Kompetencyjne
 MDM
 DG
 DQ
 Źródła danych dla raportów
 Networked BI
 BI vs EPM
www.codec.pl
Centrum/Centra Kompetencyjne
 Fizyczny / wirtualny zespół z
określonymi rolami
- BI COE DirectorManager
- Technical Liaison
- BI Evangelist
- Business Analyst
- Data Stewards
 Regularne spotkania
- Zarządzanie strategią
- Utrzymanie i ocena Business Cases-ów
- Adaptacja rozwiązań przez
użytkowników
- Sprzedaż i adaptacja
www.codec.pl
BI
Standard
Reporting
ETL
Source Systems
BI CoE
EDW
Master Data
Management
Data
Governance
OnPremise and/or
Cloud
Big
Data
Analytics Data Science
MDM
www.codec.pl
Master Data Management
 Definicja Master Data
 MDM Operacyjny vs
Analityczny
 Active vs Passive Governance
 MDM będąc składową
inicjatywy BI przynosi
korzyści, z BI można
wyciągnąć wnioski pod kątem
MDM
www.codec.pl
MDM, DG
www.codec.pl
Master Data Management
www.codec.pl
Data Quality Management
www.codec.pl
Źródła danych
www.codec.pl
Networked BI
Data
Warehouse
Clouds Database
ERP, CRM, SCM
AppsExisting Data
Stores
Big Data
Marketing EMEA APACSales
 Zapobieganie silosom
 Decentralizacja w oparciu o
wspólne definicje
 Mash-ups, blendings
 Unikanie duplikacji
 Uproszczenie procesów DG
 Odblokowanie inicjatywy
www.codec.pl
EDW
Korporacyjny Model Danych vs Departamentalne Potrzeby
Jak zneutralizować ryzyko powstania kolejnych silosów, skoro gros potrzeb powstaje w
konkretnych departamentach?
 Centrum Kompetencyjne (ludzie)
 Wspólne, globalne środowisko tworzenia HD (procedury)
 MDM, DG, DQ (procedury)
 Stały proces Agile DW loop (procedury)
 Odpowiednie oprogramowanie wspomagające procedury (narzędzia)
www.codec.pl
Każdy projekt jest częścią Hurtowni Danych
www.codec.pl
Definiowanie i monitorowanie jakości danych
www.codec.pl
Merytoryczne wymiary jakości danych. Jak oceniać?
Kompletność
Porównywanie zagregowanych danych
z rekordami kontrolnymi
Zgodność czasowa
Porównanie czasu otrzymania
danych z planowanym czasem
dostarczenia
Poprawność
Porównywanie wartości danych z
wartościami dozwolonymi w domenie
Spójność
Porównanie rozkładu nowych danych
z danymi historycznymi
Integralność
Potwierdzenie umiejscowienia
danych względem referencyjnych
zestawów danych
Unikalność
Badanie duplikatów
Wg DAMA UK, październik 2003
www.codec.pl
Merytoryczne wymiary jakości danych. Co oceniać?
Kompletność
Suma załadowanych wypłat
odszkodowań vs rekord kontrolny
Zgodność czasowa
Czas dostarczenia danych względem
udokumentowanego SLA
Poprawność
Zgodność załadowanych kodów
krajów z listą poprawnych kodów
krajów
Spójność
Procent rozkładu każdego z kodów
krajów zgodny z jego historycznym
rozkładem
Integralność
Załadowane kody produktów obecne
w tablicach słownikowych
Unikalność
Mierzenie ilości duplikatów
Wg DAMA UK, październik 2003
www.codec.pl
Kolejność wykonywania pomiarów
Kompletność
• Czy wszystkie zestawy danych są zapisane?
Integralność
• Czy dane “pasują” do pozostałych tabel?
Unikalność
• Czy nie duplikujemy danych bez potrzeby lub błędnie?
Poprawność
• Czy dane odpowiadają nałożonym regułom?
Spójność
• Czy dane odzwierciedlają zestaw, do którego należą?
www.codec.pl
Kompletność
 Konieczna definicja potencjalnego 100% kompletności
 Miarą jest brak wartości pustych bądź pustych łańcuchów
 Zakres: 0 – 100%
 Jednostka: Procent
 Typ miary: ocena
 Interpretacja zależy od nałożonej zasady zezwalającej na
wartość pustą
www.codec.pl
Unikalność
 Nie zapisujemy elementów więcej niż jeden raz
 Miarą jest stosunek ilości elementów w “świecie rzeczywistym”
do ilości elementów w zestawie danych
 Zakres: 0 – 100%
 Jednostka: Procent
 Typ miary: dyskretna
www.codec.pl
Zgodność czasowa
 Stopień, w jakim dane reprezentują świat rzeczywisty z
wymaganego punktu w czasie
 Miarą jest różnica w czasie
 Mierzone mogą być zarówno rekordy, tabele jak i bazy danych
 Jednostka: Czas
 Typ miary: ocena i ciągłość
www.codec.pl
Poprawność
 Dane są poprawne jeśli spełniają zasady (format, typ, zakres)
 Miarą jest stosunek rekordów poprawnych do wszystkich
 Mierzone są wartości w kolumnach lub całe rekordy
 Jednostka: Procent
 Typ miary: ocena, ciągłość, dyskretna
www.codec.pl
Spójność
 Stopień, w jakim dane odzwierciedlają rzeczywistość
 Wymagana jest wiedza dziedzinowa i definicja zasad
 Miarą jest stosunek rekordów “rzeczywistych” do wszystkich
 Mierzone są wartości w kolumnach lub całe rekordy
 Jednostka: Procent
 Typ miary: ocena, ciągłość, dyskretna
 Dane niespełniające zasad spójności są bezużyteczne
www.codec.pl
Integralność
 Braki lub różnice w trakcie porównywania dwóch lub więcej
zbiorów reprezentujących ten sam rodzaj informacji
 Miarą jest stosunek rekordów zgodnych z referencją do
wszystkich
 Mierzone są wartości w kolumnach, rekordy, tabele i całe bazy
danych
 Jednostka: Procent
 Typ miary: ocena, dyskretna
 Dane niespełniające zasad spójności są bezużyteczne
www.codec.pl
Wymiary związane z zarządzaniem danymi
 Dostępność
 Definicja (jednoznaczna)
 Granulacja
 Precyzja
 Adekwatność
 Dostępność w czasie
www.codec.pl
 największy operator
krajowych linii
autobusowych w Wielkiej
Brytanii
 18,5 miliona pasażerów
rocznie
 1800 pracowników
Hurtownia danych:
 600 GB danych od roku 2003
 15 kostek (w tym 4 wirtualne)
i 32 wymiary
 8 odrębnych źródeł danych
 ok. 100 użytkowników w 12
grupach
www.codec.pl
National Express
ETL Control and Audit
Stage1
Stage2
Stage3
Rejection
s
Facttablesfor
DataMarts
Dimension
s
www.codec.pl
Monitorowanie jakości danych
Audyt jako wymiar w hurtowni danych (Kimball)
 Metadane procesu ETL
 Miary
- statystyka załadowanych danych: źródło vs data mart
- błędy
 Dwie struktury (lub więcej)
- Tabela wystąpień procesów ładowania
- Tabela faktów przechowująca miary
- Tabela ze słownikiem rodzajów ładowanych danych
www.codec.pl
Zarządzanie danymi w kontekście ich jakości
www.codec.pl
Pojęcia
 Zarządzanie danymi
- Funkcja biznesowa
- Ciągły program
- Dyscyplina
 Zarządzanie informacją w przedsiębiorstwie
 Architektura danych
- Modele danych
- Część architektury rozwiązań IT
- Fizyczna technologia (serwery, oprogramowanie, itp.)
www.codec.pl
EIM
DG IM
www.codec.pl
Zarządzanie łańcuchem dostaw
Audyt i
kontrola
Zarządzanie
zapasami
www.codec.pl
Rozwiązania
 Zarządzanie danymi podstawowymi
 Jakość danych
 Business Intelligence
 Zasady
 Polityki
 Cała organizacja
 Program a nie projekt
 Ewolucja vs rewolucja
 Będą zmiany
www.codec.pl
Dojrzałość w zarządzaniu informacją
• Pojedyncze osoby zarządzają swoimi danymi
• Chaos i brak zasadPoczątkowa
• Normą są dane na poziome departamentu
• Analityka jest wąska i kosztownaPowtarzalna
• Początek struktur obejmujących całą organizację, pojawia sie integracja
• Ewoluuje kwestia zaufania do danych, pojawiają sie standardyZdefiniowana
• Przepływ danych jest śledzony a procesy są udokumentowane
• Jakość danych jest wbudowanaZarządzana
• Nie ma potrzeby ustalania czy aktywa informacji są zarządzane
• Zarządzanie informacją wspiera poprawę procesów i innowacjeZoptymalizowana
www.codec.pl
Zarządzanie vs kierowanie
Dane,
informacje,
…
Zarządzanie –
zapewnienie, że
informacje są
“kierowane”
prawidłowo
Kierowanie –
“kierowanie”
danymi, aby
osiągać cele
biznesowe
www.codec.pl
Funkcje programu zarządzania danymi
 Zarządzanie informacją na poziomie organizacji
 Federacja – specyfikowanie standardów organizacyjnych
 Efektywność informacyjna – odpowiednie dane, dostępne, we
właściwym miejscu, we właściwym formacie, dla uprawnionych
użytkowników, zoptymalizowane kosztowo
 Zgodność z biznesem
 Jakość informacji
 Zarządzanie ryzykiem
 Współpraca
www.codec.pl
Metryki
 Indeks IMM
 Postępy data stewardów
 Efektywność data stewardów
 Jakość danych
 Wartość biznesowa!
www.codec.pl
Implementacja zarządzania informacją
Zakres i
inicjalizacja
Ocena
Wizja
Dopasowanie do
biznesu
Projekt
funkcjonalny
Projekt struktury
zarządzania
Plan
implementacji
(Road Map)
Wdrożenie i
utrzymanie
www.codec.pl
Projekt funkcjonalny
Ustalenie podstawowych zasad informacyjnych
Ustalenie podstawowych polityk zarządzania danymi oraz procesów wspierających biznes
Identyfikacja/poprawienie funkcji i procesów zarządzania informacją
Identyfikacja odpowiedzialności i właścicielstwa modeli
Zaprezentowanie kierownictwu funkcjonalnego modelu zarządzania informacją
Jakość danych, audyt
Podział prac w
jakości danych
www.codec.pl
Identyfikacja odpowiedzialności i właścicielstwa
modeli
www.codec.pl
Zarządzanie vs kierowanie
Dane,
informacje,
…
Zarządzanie –
zapewnienie, że
informacje są
“kierowane”
prawidłowo
Kierowanie –
“kierowanie”
danymi, aby
osiągać cele
biznesowe
www.codec.pl
Funkcje planistyczne
Zarządzanie
• Wizja zarządzania danymi i kierunek
rozwoju
• Definiowanie odpowiedzialności
• Dostosowanie zasad i implementacja
• Zapewnienie zgodności z celami
biznesowymi
• Monitorowanie dojrzałości
informacyjnej
Kierowanie
• Dopasowanie architektury systemów
informacyjnych do strategii
biznesowej organizacji
• Ustalenie priorytetów dla projektów
• Ocena dojrzałości informacyjnej
www.codec.pl
Funkcje projektowe (design)
Zarządzanie
• Definicja polityk i procesów
• Nowe procesy kontrolne
• Konsultacje z lub kierowanie data
stewardami
• Szkolenia
Kierowanie
• Zaprojektowanie i wdrożenie
repozytorium metadanych na
poziomie organizacji
• Zaprojektowanie standardowych
usług kontrolnych
• Zdefiniowanie danych
referencyjnych
• Definicje standardów w danych
www.codec.pl
Funkcje zarządcze/kierownicze
Zarządzanie
• Definicja działań właścicielskich
i tzw. stewardship
• Rozwiązywanie problemów
• Procesy weryfikacyjne
• Administracja zarządzaniem
danymi
Kierowanie
• Zarządzanie architekturą
danych
• Doskonalenie strategii
uprodukcyjniania wraz z
metrykami
• Śledzenie zmian i trendów w
dziedzinie zarządzania danymi
• Zarządzanie projektami BI
www.codec.pl
Pytania?
www.codec.pl
Hubert Kobierzewski
hkobierzewski@codec.pl
Dziękuję
codec.pl

More Related Content

Similar to 20181004 Hubert Kobierzewski - Jakość danych w organizacji

Zastosowania systemu BCC ECM
Zastosowania systemu BCC ECMZastosowania systemu BCC ECM
Zastosowania systemu BCC ECMBCC_Group
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
HighWheelSoftware
 
MetastudioDRM
MetastudioDRMMetastudioDRM
MetastudioDRM
Sanmargar Team
 
Gemini = BI for masses
Gemini = BI for massesGemini = BI for masses
Gemini = BI for masses
Mariusz Koprowski
 
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
Pretius
 
Poland- Smart Client Technology - MTS 2005
Poland- Smart Client Technology - MTS 2005Poland- Smart Client Technology - MTS 2005
Poland- Smart Client Technology - MTS 2005Tomasz Cieplak
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
Radoslaw Kita
 
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Jarek Sokolnicki
 
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
MDS ap
 
Digitalizacja Łańcucha Dostaw
Digitalizacja Łańcucha DostawDigitalizacja Łańcucha Dostaw
Digitalizacja Łańcucha Dostaw
Grzegorz Urban
 
DATA CENTER CONVERGED 2012 WARSAW
DATA CENTER CONVERGED 2012 WARSAWDATA CENTER CONVERGED 2012 WARSAW
DATA CENTER CONVERGED 2012 WARSAW
Pawel Wawrzyniak
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Piotr Czarnas
 
Data Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnegoData Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnego
Andrzej Sobczak
 
Doradztwo strategiczne IT
Doradztwo strategiczne ITDoradztwo strategiczne IT
Doradztwo strategiczne IT
GoTechnologies sp. z o.o.
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SeeQuality.net
 
Modele i metodyki wdrażania i zarządzania projektami eai
Modele i metodyki wdrażania i zarządzania projektami eaiModele i metodyki wdrażania i zarządzania projektami eai
Modele i metodyki wdrażania i zarządzania projektami eai
Jaroslaw Zelinski
 
Profesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I ArchiwizacjiProfesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I Archiwizacji
sksep
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Alicja Sieminska
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
Bartosz Ratajczyk
 
Sql Dla Administratora i Dewelopera
Sql Dla Administratora i DeweloperaSql Dla Administratora i Dewelopera
Sql Dla Administratora i Dewelopera
nexik
 

Similar to 20181004 Hubert Kobierzewski - Jakość danych w organizacji (20)

Zastosowania systemu BCC ECM
Zastosowania systemu BCC ECMZastosowania systemu BCC ECM
Zastosowania systemu BCC ECM
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
 
MetastudioDRM
MetastudioDRMMetastudioDRM
MetastudioDRM
 
Gemini = BI for masses
Gemini = BI for massesGemini = BI for masses
Gemini = BI for masses
 
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
Oracle Apex - 3 real-life case studies (Pretius presentation for WDI2015)
 
Poland- Smart Client Technology - MTS 2005
Poland- Smart Client Technology - MTS 2005Poland- Smart Client Technology - MTS 2005
Poland- Smart Client Technology - MTS 2005
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
 
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
 
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
Gdzie jest Jan K. PESEL, dlaczego przetwarzamy jego dane osobowe?
 
Digitalizacja Łańcucha Dostaw
Digitalizacja Łańcucha DostawDigitalizacja Łańcucha Dostaw
Digitalizacja Łańcucha Dostaw
 
DATA CENTER CONVERGED 2012 WARSAW
DATA CENTER CONVERGED 2012 WARSAWDATA CENTER CONVERGED 2012 WARSAW
DATA CENTER CONVERGED 2012 WARSAW
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
 
Data Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnegoData Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnego
 
Doradztwo strategiczne IT
Doradztwo strategiczne ITDoradztwo strategiczne IT
Doradztwo strategiczne IT
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
 
Modele i metodyki wdrażania i zarządzania projektami eai
Modele i metodyki wdrażania i zarządzania projektami eaiModele i metodyki wdrażania i zarządzania projektami eai
Modele i metodyki wdrażania i zarządzania projektami eai
 
Profesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I ArchiwizacjiProfesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I Archiwizacji
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
 
Sql Dla Administratora i Dewelopera
Sql Dla Administratora i DeweloperaSql Dla Administratora i Dewelopera
Sql Dla Administratora i Dewelopera
 

20181004 Hubert Kobierzewski - Jakość danych w organizacji

  • 1. www.codec.pl Hubert Kobierzewski Warszawa, 21 maja 2018 r. Jakość danych w organizacji
  • 2. www.codec.pl • BI Practice Lead w Codec (ponad 10 lat) • Specjalizacja: Hurtownie danych, procesy ETL i Business Intelligence • Dawniej programista • Certyfikaty branżowe, głównie MS SQL Server (MCDBA, MCTS, MCITP, MCSE – BI, MCT) • Współprowadzący warszawski oddział Data Community • Współprowadzący Warsaw Power BI User Group • Wykładowca na ALK Hubert K. Kobierzewski
  • 3. www.codec.pl Agenda  Integracja danych  Podejście strategiczne  Definiowanie i monitorowanie jakości danych  Zarządzanie danymi
  • 5. www.codec.pl Hurtownia danych  Hurtownia danych jest systemem, który importuje, oczyszcza, dostosowuje i dostarcza dane do wielowymiarowej bazy, która wspiera wykonywanie zapytań oraz analizę w celu podejmowania decyzji.  Najbardziej widoczną częścią jest - wykonywanie zapytań oraz analizę  Najbardziej czasochłonną i złożoną częścią jest - importuje, oczyszcza, dostosowuje i dostarcza
  • 6. www.codec.pl Sposoby importowania danych  Skrypty  Programy eksportujące  Kodowanie (C#, Java, Visual Basic)  Wewnętrzne narzędzie ETL  Zakupione i wdrożone narzędzie ETL
  • 7. www.codec.pl System ładowania danych  Zarządzalność  Transparentność  Skalowalność  Elastyczność  Złożoność  Audyt  Ponawialność prac  Testowanie
  • 8. www.codec.pl ETL  Extract – Transform – Load  Extract - Wydobywanie danych z system źródłowego w możliwie najefektywniejszy sposób  Transform - Wykonywanie przekształceń danych (oczyszczanie, łączenie, obliczenia)  Load - Ładowanie danych do wyznaczonej bazy
  • 9. www.codec.pl Wartość ETL  Usuwanie błędów  Mierzenie zaufania do danych  Dostosowanie danych z różnych źródeł do jednolitego formatu  Struktury przeznaczone do użycia przez narzędzia BI  W dalszych etapach umożliwia analizę danych
  • 10. www.codec.pl Przepływ danych do analizy Dane źródłowe Integracja Analiza Prezentacja
  • 12. www.codec.pl Zarządzanie informacją - komponenty Ludzie Procedury Narzędzia  Automatyzacja (szybkość, niezawodność)  Wymuszenie stosowania procedur  Standaryzacja procesów i czynności  Zapewnienie integralności danych  Uniezależnienie od konkretnych osób  Analiza potrzeb informacyjnych  Wyznaczanie standardów i procedur  Obsługa sytuacji wyjątkowych
  • 13. www.codec.pl Kilka tematów Ludzie Procedury Narzędzia  Centrum Kompetencyjne  MDM  DG  DQ  Źródła danych dla raportów  Networked BI  BI vs EPM
  • 14. www.codec.pl Centrum/Centra Kompetencyjne  Fizyczny / wirtualny zespół z określonymi rolami - BI COE DirectorManager - Technical Liaison - BI Evangelist - Business Analyst - Data Stewards  Regularne spotkania - Zarządzanie strategią - Utrzymanie i ocena Business Cases-ów - Adaptacja rozwiązań przez użytkowników - Sprzedaż i adaptacja
  • 15. www.codec.pl BI Standard Reporting ETL Source Systems BI CoE EDW Master Data Management Data Governance OnPremise and/or Cloud Big Data Analytics Data Science MDM
  • 16. www.codec.pl Master Data Management  Definicja Master Data  MDM Operacyjny vs Analityczny  Active vs Passive Governance  MDM będąc składową inicjatywy BI przynosi korzyści, z BI można wyciągnąć wnioski pod kątem MDM
  • 21. www.codec.pl Networked BI Data Warehouse Clouds Database ERP, CRM, SCM AppsExisting Data Stores Big Data Marketing EMEA APACSales  Zapobieganie silosom  Decentralizacja w oparciu o wspólne definicje  Mash-ups, blendings  Unikanie duplikacji  Uproszczenie procesów DG  Odblokowanie inicjatywy
  • 22. www.codec.pl EDW Korporacyjny Model Danych vs Departamentalne Potrzeby Jak zneutralizować ryzyko powstania kolejnych silosów, skoro gros potrzeb powstaje w konkretnych departamentach?  Centrum Kompetencyjne (ludzie)  Wspólne, globalne środowisko tworzenia HD (procedury)  MDM, DG, DQ (procedury)  Stały proces Agile DW loop (procedury)  Odpowiednie oprogramowanie wspomagające procedury (narzędzia)
  • 23. www.codec.pl Każdy projekt jest częścią Hurtowni Danych
  • 25. www.codec.pl Merytoryczne wymiary jakości danych. Jak oceniać? Kompletność Porównywanie zagregowanych danych z rekordami kontrolnymi Zgodność czasowa Porównanie czasu otrzymania danych z planowanym czasem dostarczenia Poprawność Porównywanie wartości danych z wartościami dozwolonymi w domenie Spójność Porównanie rozkładu nowych danych z danymi historycznymi Integralność Potwierdzenie umiejscowienia danych względem referencyjnych zestawów danych Unikalność Badanie duplikatów Wg DAMA UK, październik 2003
  • 26. www.codec.pl Merytoryczne wymiary jakości danych. Co oceniać? Kompletność Suma załadowanych wypłat odszkodowań vs rekord kontrolny Zgodność czasowa Czas dostarczenia danych względem udokumentowanego SLA Poprawność Zgodność załadowanych kodów krajów z listą poprawnych kodów krajów Spójność Procent rozkładu każdego z kodów krajów zgodny z jego historycznym rozkładem Integralność Załadowane kody produktów obecne w tablicach słownikowych Unikalność Mierzenie ilości duplikatów Wg DAMA UK, październik 2003
  • 27. www.codec.pl Kolejność wykonywania pomiarów Kompletność • Czy wszystkie zestawy danych są zapisane? Integralność • Czy dane “pasują” do pozostałych tabel? Unikalność • Czy nie duplikujemy danych bez potrzeby lub błędnie? Poprawność • Czy dane odpowiadają nałożonym regułom? Spójność • Czy dane odzwierciedlają zestaw, do którego należą?
  • 28. www.codec.pl Kompletność  Konieczna definicja potencjalnego 100% kompletności  Miarą jest brak wartości pustych bądź pustych łańcuchów  Zakres: 0 – 100%  Jednostka: Procent  Typ miary: ocena  Interpretacja zależy od nałożonej zasady zezwalającej na wartość pustą
  • 29. www.codec.pl Unikalność  Nie zapisujemy elementów więcej niż jeden raz  Miarą jest stosunek ilości elementów w “świecie rzeczywistym” do ilości elementów w zestawie danych  Zakres: 0 – 100%  Jednostka: Procent  Typ miary: dyskretna
  • 30. www.codec.pl Zgodność czasowa  Stopień, w jakim dane reprezentują świat rzeczywisty z wymaganego punktu w czasie  Miarą jest różnica w czasie  Mierzone mogą być zarówno rekordy, tabele jak i bazy danych  Jednostka: Czas  Typ miary: ocena i ciągłość
  • 31. www.codec.pl Poprawność  Dane są poprawne jeśli spełniają zasady (format, typ, zakres)  Miarą jest stosunek rekordów poprawnych do wszystkich  Mierzone są wartości w kolumnach lub całe rekordy  Jednostka: Procent  Typ miary: ocena, ciągłość, dyskretna
  • 32. www.codec.pl Spójność  Stopień, w jakim dane odzwierciedlają rzeczywistość  Wymagana jest wiedza dziedzinowa i definicja zasad  Miarą jest stosunek rekordów “rzeczywistych” do wszystkich  Mierzone są wartości w kolumnach lub całe rekordy  Jednostka: Procent  Typ miary: ocena, ciągłość, dyskretna  Dane niespełniające zasad spójności są bezużyteczne
  • 33. www.codec.pl Integralność  Braki lub różnice w trakcie porównywania dwóch lub więcej zbiorów reprezentujących ten sam rodzaj informacji  Miarą jest stosunek rekordów zgodnych z referencją do wszystkich  Mierzone są wartości w kolumnach, rekordy, tabele i całe bazy danych  Jednostka: Procent  Typ miary: ocena, dyskretna  Dane niespełniające zasad spójności są bezużyteczne
  • 34. www.codec.pl Wymiary związane z zarządzaniem danymi  Dostępność  Definicja (jednoznaczna)  Granulacja  Precyzja  Adekwatność  Dostępność w czasie
  • 35. www.codec.pl  największy operator krajowych linii autobusowych w Wielkiej Brytanii  18,5 miliona pasażerów rocznie  1800 pracowników Hurtownia danych:  600 GB danych od roku 2003  15 kostek (w tym 4 wirtualne) i 32 wymiary  8 odrębnych źródeł danych  ok. 100 użytkowników w 12 grupach
  • 36. www.codec.pl National Express ETL Control and Audit Stage1 Stage2 Stage3 Rejection s Facttablesfor DataMarts Dimension s
  • 37. www.codec.pl Monitorowanie jakości danych Audyt jako wymiar w hurtowni danych (Kimball)  Metadane procesu ETL  Miary - statystyka załadowanych danych: źródło vs data mart - błędy  Dwie struktury (lub więcej) - Tabela wystąpień procesów ładowania - Tabela faktów przechowująca miary - Tabela ze słownikiem rodzajów ładowanych danych
  • 38. www.codec.pl Zarządzanie danymi w kontekście ich jakości
  • 39. www.codec.pl Pojęcia  Zarządzanie danymi - Funkcja biznesowa - Ciągły program - Dyscyplina  Zarządzanie informacją w przedsiębiorstwie  Architektura danych - Modele danych - Część architektury rozwiązań IT - Fizyczna technologia (serwery, oprogramowanie, itp.)
  • 41. www.codec.pl Zarządzanie łańcuchem dostaw Audyt i kontrola Zarządzanie zapasami
  • 42. www.codec.pl Rozwiązania  Zarządzanie danymi podstawowymi  Jakość danych  Business Intelligence  Zasady  Polityki  Cała organizacja  Program a nie projekt  Ewolucja vs rewolucja  Będą zmiany
  • 43. www.codec.pl Dojrzałość w zarządzaniu informacją • Pojedyncze osoby zarządzają swoimi danymi • Chaos i brak zasadPoczątkowa • Normą są dane na poziome departamentu • Analityka jest wąska i kosztownaPowtarzalna • Początek struktur obejmujących całą organizację, pojawia sie integracja • Ewoluuje kwestia zaufania do danych, pojawiają sie standardyZdefiniowana • Przepływ danych jest śledzony a procesy są udokumentowane • Jakość danych jest wbudowanaZarządzana • Nie ma potrzeby ustalania czy aktywa informacji są zarządzane • Zarządzanie informacją wspiera poprawę procesów i innowacjeZoptymalizowana
  • 44. www.codec.pl Zarządzanie vs kierowanie Dane, informacje, … Zarządzanie – zapewnienie, że informacje są “kierowane” prawidłowo Kierowanie – “kierowanie” danymi, aby osiągać cele biznesowe
  • 45. www.codec.pl Funkcje programu zarządzania danymi  Zarządzanie informacją na poziomie organizacji  Federacja – specyfikowanie standardów organizacyjnych  Efektywność informacyjna – odpowiednie dane, dostępne, we właściwym miejscu, we właściwym formacie, dla uprawnionych użytkowników, zoptymalizowane kosztowo  Zgodność z biznesem  Jakość informacji  Zarządzanie ryzykiem  Współpraca
  • 46. www.codec.pl Metryki  Indeks IMM  Postępy data stewardów  Efektywność data stewardów  Jakość danych  Wartość biznesowa!
  • 47. www.codec.pl Implementacja zarządzania informacją Zakres i inicjalizacja Ocena Wizja Dopasowanie do biznesu Projekt funkcjonalny Projekt struktury zarządzania Plan implementacji (Road Map) Wdrożenie i utrzymanie
  • 48. www.codec.pl Projekt funkcjonalny Ustalenie podstawowych zasad informacyjnych Ustalenie podstawowych polityk zarządzania danymi oraz procesów wspierających biznes Identyfikacja/poprawienie funkcji i procesów zarządzania informacją Identyfikacja odpowiedzialności i właścicielstwa modeli Zaprezentowanie kierownictwu funkcjonalnego modelu zarządzania informacją Jakość danych, audyt Podział prac w jakości danych
  • 50. www.codec.pl Zarządzanie vs kierowanie Dane, informacje, … Zarządzanie – zapewnienie, że informacje są “kierowane” prawidłowo Kierowanie – “kierowanie” danymi, aby osiągać cele biznesowe
  • 51. www.codec.pl Funkcje planistyczne Zarządzanie • Wizja zarządzania danymi i kierunek rozwoju • Definiowanie odpowiedzialności • Dostosowanie zasad i implementacja • Zapewnienie zgodności z celami biznesowymi • Monitorowanie dojrzałości informacyjnej Kierowanie • Dopasowanie architektury systemów informacyjnych do strategii biznesowej organizacji • Ustalenie priorytetów dla projektów • Ocena dojrzałości informacyjnej
  • 52. www.codec.pl Funkcje projektowe (design) Zarządzanie • Definicja polityk i procesów • Nowe procesy kontrolne • Konsultacje z lub kierowanie data stewardami • Szkolenia Kierowanie • Zaprojektowanie i wdrożenie repozytorium metadanych na poziomie organizacji • Zaprojektowanie standardowych usług kontrolnych • Zdefiniowanie danych referencyjnych • Definicje standardów w danych
  • 53. www.codec.pl Funkcje zarządcze/kierownicze Zarządzanie • Definicja działań właścicielskich i tzw. stewardship • Rozwiązywanie problemów • Procesy weryfikacyjne • Administracja zarządzaniem danymi Kierowanie • Zarządzanie architekturą danych • Doskonalenie strategii uprodukcyjniania wraz z metrykami • Śledzenie zmian i trendów w dziedzinie zarządzania danymi • Zarządzanie projektami BI

Editor's Notes

  1. This slide outlines the feedback that we have received from the business. As you can see the business feel that the current BI implementations within the organisation have room for improvement …
  2. Wg DAMA UK, październik 2003