SlideShare a Scribd company logo
1 of 30
STUDENCKI FESTIWAL INFORMATYKI
- KRAKÓW 2019
PRAKTYCZNE
WPROWADZENIE DO
HURTOWNI DANYCH
BARTOSZ.PACUSZKA@GMAIL.COM
1
2
3
4
5
WPROWADZENIE
DO „ŚWIATA” HURTOWNII DANYCH
TRENDY I WYZWANIA
W OBSZARZE ZARZĄDZANIA DANYMI
TECHNIKI MODELOWANIA
STRUKTUR DANYCH W HURTOWNII
WARSZTAT PRAKTYCZNY
Z MODELOWANIA HURTOWNI DANYCH
WYSKUSJA OTWARTA
WSZYSTKO CO CHCECIEWIEDZIEĆ O HURTOWNIACH A BOICIE SIĘ ZAPYTAĆ
AGENDA
1. WPROWADZENIE
DO „ŚWIATA” HURTOWNI DANYCH
HURTOWNIE DANYCH I
BUSINESS INTELLIGENCE
HURTOWNIA DANYCH
Bazy danych zasilane z systemów
transakcyjnych (dziedzinowych). Dane są
zintegrowane, uporządkowane i
zorientowane na dostarczanie użytecznej
informacji biznesowej.
BUSINESS INTELLIGENCE
Rozwiązania do przetwarzania i analizy
danych w celu pozyskania wiedzy na
potrzeby wsparcia podejmowania
decyzyjnych i procesów biznesowych.
TEORIA INFORMACJI …
OD DANYCH DO MĄDROŚCI
LICZBY I SŁOWA
Zbiory liczb i tekstów o różnych formatach. Wszystko to co
może być przetwarzana umysłowo lub komputerowo.
(źródło: pl.wikipedia.org)
DANE + ZROZUMIENIE RELACJI
Treść komunikatu przekazywana za pomocą danych. Ta
sama treść może być przekazywana przez wiele danych.
INFORMACJA + ZROZUMIENIE WZORCÓW
Ogół wiarygodnych informacji wraz z umiejętnością ich
wykorzystania. (źródło: Nowa Encyklopedia Powszechna)
WIEDZA + DOŚWIADCZENIE
Umiejętność wykorzystania wiedzy i doświadczenia w celu
podejmowania właściwych decyzji.
DANE
INFORMACJA
WIEDZA
MĄDROŚĆ
PIRAMIDA EPISTEMOLOGICZNA
TEORIA INFORMACJI …
OD DANYCH DO MĄDROŚCI
DANE
- Systemy transakcyjne (dziedzinowe)
INFORMACJA
- Hurtownie danych
WIEDZA
- Business
Intelligence
MĄDROŚĆ
- Ludzie
• Czyszczenie danych
• Integracja danych
• Agregacja danych
• Poszukiwanie wzorców i reguł, predykcja
• Wnioskowanie
• Zdobywanie doświadczeń
PIRAMIDA EPISTEMOLOGICZNA
DEFINICJA
W szerszym (powszechnym)
rozumieniu są to systemy
analityczno-raportowe.
Dosłownie są to repozytoria
gromadzące dane pochodzącą z
wielu innych źródeł danych
istniejących w organizacji oraz poza
nią, zorientowane tematycznie na
kluczowe obszary działania
organizacji.
 Wspomaganie procesów
podejmowania decyzji
 Udostępnianie danych na
potrzeby zaawansowanych
analiz i raportowania
 Eksploracja danych (data
mining)
 „Jedno źródło prawdy” (ang.
single source of the truth)
 Dane oczyszczone i
ujednolicone
 Dane gromadzone, trwale
przechowywane przez wiele lat,
udostępniane w trybie on-line
 Dane dostępne na najniższym
poziomie szczegółowości oraz
zagregowane
CECHY ZASTOSOWANIA
TO CZYM SĄ
HURTOWNIE DANYCH …
SYSTEMY OLTP
(ON-LINE TRANSACTION PROCESSING)
1. zorientowane na przetwarzanie transakcji (ACID)
2. zoptymalizowane do wielu jednoczesnych
operacji zapisu i odczytu na pojedynczych
obiektach danych
3. posiadają funkcjonalność wspierającą określone
procesy operacyjne w organizacji
4. udostępniają ściśle określone funkcje wg
ustalonych scenariuszy (przypadków użycia)
5. używane przez pracowników szeregowych oraz
kierownictwo niższego szczebla
1. zorientowane na analizy danych
2. zoptymalizowane pod kątem obsługi złożonych
zapytań na dużych wolumenach danych
3. przeznaczone do wsparcia procesów
podejmowania decyzji
4. dają użytkownikom możliwość pracy ad-hoc bez
określonego scenariusza
5. używane przez analityków, kadrę kierowniczą
średniego i wysokiego szczebla
SYSTEMY OLAP
(ON-LINE ANALYTIC PROCESSING)
… A CZYM NIE SĄ HURTOWNIE DANYCH
I CZYM SIĘ RÓŻNIĄ OD SYSTEMÓW
TRANSAKCYJNYCH …
SYSTEMY OLTP
(ON-LINE TRANSACTION PROCESSING)
SYSTEMY OLAP
(ON-LINE ANALYTIC PROCESSING)
… A CZYM NIE SĄ HURTOWNIE DANYCH
I CZYM SIĘ RÓŻNIĄ OD SYSTEMÓW
TRANSAKCYJNYCH …
BIG DATA
To zagadnienie i klasa rozwiązań na pograniczu
biznesu i technologii odnoszące się problemów
związanych z przetwarzaniem danych, których
wielkość i złożoność sprawiają, że wykorzystanie
tradycyjnych sposobów ich przechowywania,
dostępu i analizy jest zbyt kosztowne. Big Data
można odróżnić od tradycyjnych zbiorów danych
za pomocą, co najmniej jednego z trzech
parametrów:
- Ilość (volume),
- Szybkość (velocity),
- Różnorodność (variety)
Klasa rozwiązań technologicznych zapewniających
kompleksowy zestaw usług umożliwiających
gromadzenie danych (zarówno ustrukturyzowanych,
semistrukturalny i nieustrukturyzowanych) oraz
wszechstronną ich eksplorację (przetwarzanie,
raportowanie, analizy).
Takie rozwiązania są budowane poprzez integrację
różnych komponentów ale są również dostarczane
przez producentów jako wyspecjalizowane platformy
(np. Informatica, DataStax, Trifacta, etc.)
DATA LAKE
… I CZY BIG DATA ORAZ DATA LAKE SĄ
HURTOWNIAMI DANYCH
NOWEJ GENERACJI ?
HURTOWNIE DANYCH
DATA LAKE
(W ŚWIECIE IDEALNYM)
… I CZY BIG DATA ORAZ DATA LAKE SĄ
HURTOWNIAMI DANYCH
NOWEJ GENERACJI ?
HURTOWNIE DANYCH
DATA LAKE
(A TAK CZĘSTO W RZECZYWISTOŚCI)
… I CZY BIG DATA ORAZ DATA LAKE SĄ
HURTOWNIAMI DANYCH
NOWEJ GENERACJI ?
2. TRENDY I
WYZWANIA
W OBSZARZE ZARZĄDZANIA DANYMI
W 2018 ROKU W KAŻDEJ MINUCIE:
4,333,560 wideo oglądanych na YouTube
18,055,555 żądań do kanałów pogodowych
3,877,140 wyszukań wykonanych w Google
12,986,111 wysłanych SMS-ów
176,222 wykonanych rozmów na Skype
49,380 nowych zdjęć na Istagram
1,111 dostarczonych praczek przez Amazon
1,25 wykopanych nowych bitcoin-ów
ŻYJEMY W „ERZE”
POTOPU DANYCH (Źródło: Data Never Sleeps 6.0, https://www.domo.com)
• Tradycyjne silniki relacyjne (RDBMS) do
przechowywania danych są nieoptymalne kiedy mamy
do czynienia z brakiem danych ustrukturyzowanych,
szybkością przetwarzania danych na dużą skalę oraz
kosztami jakie są z tym związane.
• Wiele dotychczas stosowanych metod wizualizacji i
analizy danych nie radzi sobie z odpowiednią
prezentacją oraz wnioskowaniem, dzięki którym
użytkownicy mogliby efektywnie korzystać z Big Data.
• Tradycyjne praktyki zarządzania informacją w
organizacji nie potrafią sprostać charakterystyce Big
Data.
• W wielu organizacjach brakuje odpowiedniej
architektury, umiejętności analitycznych i kultury
organizacyjnej aby czerpać pełne korzyści z potencjału
jaki niesie Big Data
TRANSFORMACJA CYFROWA
Hiper-personalizacja i oferowanie
właściwych produktów we właściwym
miejscu i czasie wymaga szerokiej wiedzy
kliencie (demografii, preferencjach,
zachowaniu i emocjach)
MONETYZACJA
DANYCH
Poszukiwanie możliwości budowania przewagi
konkurencyjnej poprzez zastosowanie analityki
w procesach sprzedaży, obsługi klientów ale
również w budowaniu nowych usług i modeli
biznesowych
BIG DATA
Pochodzące z niezliczonych źródeł
danych: media społecznościowe i środki
komunikacji, wyszukiwarki Internetowe,
dane przestrzenne i mapowe, tradycyjne
systemy (np. e-commerce) oraz Internet
rzeczy (IoT)
SZTUCZNA
INTELIGENCJA
Od superkomputerów jak IBM Watson,
przez inteligentnych asystentów jak Alexa,
Siri, Cortana, Google Assistant, do chatbot-
ów wspieranych algorytmami sztucznej
inteligencji i uczenia maszynowego
ORGANIZACJE
„DATA-DRIVEN”
Przedsiębiorstwa zmieniają kulturę
organizacyjną i przestawiają się na
używanie danych niemal w każdym
aspekcie działania, od strategicznych
procesów decyzyjnych poprzez
wsparcie procesów operacyjnych
WYBRANE AKTUALNE TRENDY W
OBSZARZE ZARZĄDZANIA
DANYMI …
ROZWÓJ TECHNOLOGII BIG
DATA
Szybkości, stabilność i kompatybilność to
główne przyczyna problemów z
absorbcją rozwiązań Big Data w dużych
organizacjach
GRANICE PRYWATNOŚĆ
I ETYKA
Rosnące możliwości technologiczne i nie zawsze
jasno wyznaczone granice stanowią zagrożenie,
czego przykładem są sztucznie generowane treści,
kreowanie wizerunków nieistniejących osób,
wykorzystywanie danych osobowych i wrażliwych
bez wiedzy i zgody.
POZYSKIWANIE
KOMPETENCJI
Big Data nie jest technologią
bezobsługową, wymaga doświadczenia
administracji, a kierunki rozwoju
kolejnych technologii i wygaszania gałęzi
rozwoju są trudne do przewidzenia
DŁUG
TECHNOLOGICZNY
WYMAGANIA REGULACYJNE
Zapewnienie aby przy szybko
rozwijających się technologiach,
działaniu pod presją czasu i konkurencji
sprostać rosnące wymaganiom
ustawowym jak RODO/GDPR, zasadom
bezpieczeństwa i szczegółowym
regulacjom organów nadzorczych.
… I WYZWANIA Z KTÓRYMI
MIERZĄ SIĘ DUŻE ORGANIZACJE
Wyzwaniem dla wielu organizacji jest właściwe
poukładanie architektury danych i podstawowych
procesów zarządzania danymi. Większość hurtowni
danych podlegała przez wiele lat procesowi „naturalnej
i swobodnej” ewolucji i „wrosły” w organizację, a koszty
ich usprawnień lub zmiany są trudne do
ekonomicznego uzasadnienia.
3. TECHNIKI
MODELOWANIA
STRUKTUR DANYCH W
HURTOWNII
WYBRANE METODYKI (1/3)
CORPORATE INFORMATION
FACTORY
Bill Inmon jest twórcą koncepcji Corporate Information Factory (CIF), która
zakłada, że dane przechowywane w hurtowni reprezentują najniższy stopień
szczegółowości, są pogrupowane w sposób tematyczny oraz nigdy nie zostają
nadpisane lub usunięte.
Wg koncepcji CIF w przedsiębiorstwie istnieje tylko jedna hurtownia danych.
Jest ona częścią większego systemu Business Intelligence i źródłem dla martów
danych. Stanowi główne źródło informacji zarządczej w przedsiębiorstwie. Dane
w hurtowni są przechowywane w 3-ciej postaci normalnej.
Polecana publikacja: Corporate Information Factory - W. H. Inmon, Claudia
Imhoff, Ryan Sousa
WYBRANE METODYKI (2/3)
MULTIDIMENSIONAL
MODELING
Ralph Kimball jest twórca metodyki oraz wzorców projektowania
wielowymiarowego - zdenormalizowanego modelu danych składającego się z
tabel faktów i wymiarów.
W swojej metodyce kładzie akcent na biznesowe zorientowanie i wydajność
hurtowni danych. Podkreśla, że dobrze zaprojektowana DWH to taka, która
będzie chętnie wykorzystywana przez biznes. Kluczowe jest zdefiniowanie
Enterprise Bus Matrix – zbiór głównych wymiarów integrujących dane z różnych
obszarów biznesowych (tzw. conformed dimensions)
Polecane publikacje: The Data Warehouse Toolkit, The Data Warehouse
Lifecycle Toolki
WYBRANE METODYKI (3/3)
DATA VAULT 2.0
Dan Linstedt sformułował koncepcję modelowania danych Data Vault, które
zakłada użycie trzech typów tabel: Hub, Link i Satelita. Natomiast Data Vault 2.0
to pełna metodyka budowy DWH wraz z odpowiednim zbiorem technik i
rozwiązań z zakresu architektury i uwzględnieniem zagadnień Big Data.
Głównym założeniem DV jest zbudowanie skalowalnej i niezawodnej
architektury umożliwiającej szybkie przetwarzanie i długoterminowego
przechowywania danych z wielu źródeł. Uznana przez B.Inmona jako zgodna z
koncepcją CIF.
Polecana publikacja: Building a Scalable Data Warehouse with Data Vault 2.0
TO KTÓRY MODEL
WYBRAĆ I KIEDY ?
• Relatywnie najprostszy w
modelowaniu i budowaniu procesów
zasilających ETL
• Relatywnie łatwy w rozbudowie gdy
zmieniają się wymagania biznesowe
• Wrażliwy na zmiany w modelu danych
systemów źródłowych
• Mało intuicyjny dla „przeciętnego”
użytkownika i wymaga budowania
kolejnych warstw na potrzeby
poszczególnych zastosowań
biznesowych tzw. Data Martów
CIF / 3NF
• Bardzo intuicyjny dla użytkownika
biznesowego i wydajny w przypadku
bezpośrednich zapytań lub poprzez
stosowanie narzędzi BI (np. kostek
OLAP)
• Wymaga większego doświadczenia i
dyscypliny w projektowaniu
• Procesy zasilające ETL są z reguły
dość mocno złożone
• Zmiany wymagań biznesowych często
powodują konieczność znaczącej
przebudowy
• Łatwy w budowaniu procesów ETL i
szybki w rozwoju (zero regresji)
• Może być budowany bez dobrze
wyspecyfikowanych wymagań
biznesowych
• Wymaga dużego doświadczenia w
projektowaniu
• Nieużywalny przez „przeciętnego”
użytkownika i wymaga budowania
kolejnych warstw tj. Business Vault i
Information Martów
DIMENSIONAL DATA VAULT
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
DLACZEGO JEST POWSZECHNIE STOSOWANY
1. Model danych prosty do zrozumienia nie tylko dla specjalistów IT,
2. Zapewnia wysoką wydajność zapytań,
3. Dobrze usystematyzowana metodyka projektowania i wiele sprawdzonych wzorców projektowych,
4. Model wspierany przez większość narzędzi analitycznych i raportowych (OLAP).
Fakt Sprzedaży
Wymiar Data
Wymiar ProduktWymiar Sklep
Wymiar Pracownik Wymiar Czas
Schemat gwiazdy
Fakt Sprzedaży
Wymiar Data
Wymiar ProduktWymiar Sklap
Wymiar Pracownik Wymiar Czas
Wymiar Region
Wymiar Miejscowość
Wymiar Rok
Wymiar Tydzień
Wymiar Miesiąc
Fiskalny
Wymiar Miesiąc
Wymiar Rok
Fiskalny
Wymiar Kategoria Wymiar Rozmiar
Wymiar Kolor
Schemat płatka śniegu
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
TABELE FAKTÓW I WYMIARÓW
• Dane jakościowe pozwalające analizować fakty w
różnych perspektywach - wymiarach (np. kanał
sprzedaży, lokalizacja geograficzna, czas!!!)
• Klucz główny wymiaru decyduje o ziarnistości
wymiaru i definiuje szczegółowość do jakiej można
prowadzić analizy (np. dzień, sekunda)
• W skład wymiaru wchodzą atrybuty
charakteryzujące pojedynczy element (np.
lokalizacja: kod pocztowy, współrzędne
geograficzne, wysokość)
• Relacje między atrybutami tworzą hierarchie
umożliwiające agregowanie powiązanych faktów
(np. dzień, tydzień, miesiąc, kwartał, rok)
• Liczność danych jest mała lub średnia.
• Dane opisujące w sposób ilościowy określone
zdarzenie lub stan będący przedmiotem
badań/analiz (np. zakup towaru, połączenia
telefoniczne, stan konta bankowego, pogoda, etc.)
• Pojedynczy fakt zawiera miary opisujące go w
sposób ilościowy (np. kwota zakupów, czas trwania
połączenia, kwota salda rachunku, temperatura)
• Miary mogą mieć charakter addytywny (np. kwota
sprzedaży, liczba połączeń) lub semi-addytywny
(np. temperatura powietrza)
• Każdy fakt musi być powiązany z wymiarami
poprzez wspólne identyfikatory – klucze. Każdy
fakt musi mieć relację do wymiaru czasu.
• Liczność danych w tabeli jest bardzo duża.
FAKTY WYMIARY
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
DEFINIOWANIE MODELU ZGODNIE Z PODEJŚCIE „4 KROKÓW WG. KIMBALL’A”
(źródło: The Data Warehouse Toolkit, R.Kimball, M.Ross)
1.Zidentyfikowanie procesu biznesowego
Należy określić jaki proces będzie podlegał analizom (np. sprzedaż produktów).
2.Zdefiniowanie ziarnistości/szczegółowości modelu danych
Należy określić czym będzie pojedynczy fakt będący przedmiotem analiz (np. pojedyncza pozycja na fakturze).
3.Zdefiniowanie wymiarów
Należy określić w jakich perspektywach (wymiarach) będą wykonywane analizy (np. data, czas, produkt, kanał
sprzedaży).
4.Zdefiniowanie miar
Należy określić jakimi metrykami będzie opisany proces podlegający analizom (np. liczba sztuk, kwota, rabat).
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
PRZYKŁAD 1
Fakty Sprzedaży
------------ Klucze -----------
ID Daty (FK)
ID Produktu (FK)
ID Sklepu (FK)
ID Pracownika (FK)
ID Czasu (FK)
Numer Faktury (DD)
------------ Miary ------------
# Liczba sztuk
$ Kwota sprzedaży
$ Kwota rabatu
...
Inne miary
…
Wymiar Produktu
------- Klucz -------
ID Produktu (PK)
----- Atrybuty -----
Nazwa produktu
Opis produktu
Wymiar Daty
------ Klucz ------
ID Daty (PK)
---- Atrybuty -----
Data
Dzień
Miesiąc
Rok
Wymiar Czasu
----- Klucz -----
ID Czasu (PK)
--- Atrybuty ---
Czas
Wymiar Sklepu
----- Klucz ------
ID Sklepu (PK)
---- Atrybuty ----
Nazwa
Wymiar Pracownika
-------- Klucz----------
ID Pracownika (PK)
------ Atrybuty -------
Nazwisko
Imie
Prosty schemat gwiazdy z pojedynczą tabelą faktów i kilkoma podstawowymi wymiarami.
Pojedynczy wiersz w tabeli faktów reprezentuje sprzedaż określonego produktu na jednej fakturze – pozycja
faktury.
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
PRZYKŁAD 2
Ten sam model gwiazdy został rozszerzony o dodatkowe atrybuty. Nie zmienia się szczegółowość tabeli faktów.
Fakty Sprzedaży
------------ Klucze -----------
ID Daty (FK)
ID Produktu (FK)
ID Sklepu (FK)
ID Pracownika (FK)
ID Czasu (FK)
Numer Faktury (DD)
------------ Miary ------------
# Liczba sztuk
$ Kwota sprzedaży
$ Kwota rabatu
...
Inne miary
…
Wymiar Produktu
------- Klucz -------
ID Produktu (PK)
----- Atrybuty -----
Nazwa produktu
Opis produktu
-- Nowe atrybuty --
Podgrupa Prod.
Grupa Produktów
Wymiar Daty
-------- Klucz --------
ID Daty (PK)
------ Atrybuty ------
Data
Dzień
Miesiąc
Rok
-- Nowe Atrybuty --
Dzień Tygodnia
Czy Święto
Wymiar Czasu
-------- Klucz -------
ID Czasu (PK)
------ Atrybuty ------
Czas
-- Nowe atrybuty --
Minuta
Godzina
Pora dnia
Wymiar Sklepu
-------- Klucz -------
ID Sklepu (PK)
------ Atrybuty ------
Nazwa
-- Nowe Atrybuty--
Ulica
Kod Pocztowy
Miejscowość
Wojewódźtwo
Wymiar Pracownika
--------- Klucz ---------
ID Pracownika (PK)
------ Atrybuty --------
Nazwisko
Imie
--- Nowe atrybuty ---
Płeć
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
PRZYKŁAD 3
Rozszerzenie modelu o nowe atrybuty (w tym dane zewnętrzne pochodzące spoza systemów transakcyjnych)
daje nowe możliwości analizy danych mimo, że szczegółowość tabeli faktów nie zmienia się.
Fakty Sprzedaży
----------- Klucze ------------
ID Daty (FK)
ID Produktu (FK)
ID Sklepu (FK)
ID Pracownika (FK)
ID Czasu (FK)
Numer Faktury (DD)
------------ Miary ------------
# Liczba sztuk
$ Kwota sprzedaży
$ Kwota rabatu
...
Inne miary
…
Wymiar Produktu
--------- Klucz ----------
ID Produktu (PK)
-------- Atrybuty -------
Nazwa produktu
Opis produktu
Podgrupa Prod.
Grupa Produktów
--- Nowe Atrybuty ---
Kolor opakowania
Rozmiar opakowania
Waga opakowania
Wymiar Daty
-------- Klucz -------
ID Daty (PK)
------ Atrybuty ------
Data
Dzień
Miesiąc
Rok
Dzień Tygodnia
Czy Święto
-- Nowe Atrybuty --
Czy padał deszcz
Czy padał śnieg
Temperatura Pow.
Wymiar Czasu
------- Klucz -------
ID Czasu (PK)
----- Atrybuty ------
Czas
Minuta
Godzina
-- Nowe Atrybuty--
Pora dnia
Godzina Szczytu
Wymiar Sklepu
-------------- Klucz ----------------
ID Sklepu (PK)
------------- Atrybuty -------------
Nazwa
Ulica
Kod Pocztowy
Miejscowość
Wojewódźtwo
--------- Nowe Atrybuty --------
Ilość miejsc parking.
Odległość do przyst. Autobus.
Odległość do innego sklepu
Liczba mieszkańców miasta
Średni wiek mieszkańców
Wymiar Pracownika
--------- Klucz --------
ID Pracownika (PK)
------- Atrybuty ------
Nazwisko
Imie
Płeć
--- Nowe Atrybuty---
Data zatrudnienia
Data awansu
Wynagrodzenie
Wiek
WIELOWYMIAROWY MODEL
HURTOWNI DANYCH
ZAAWANSOWANE TECHNIKI MODELOWANIA WIELOWYMIAROWEGO
• Slowly changing dimension (SCD)
type 1, 2, 3, 5 (= 2+3)
• Outrigger dimensions, mini-
dimensions i junk dimensions
• Role playing dimensions
• Bridge tables
• Periodic snapshot
• Accumulating snapshot
• Factless fact table
• Degenerated dimensions (DD)
FAKTY WYMIARY
4. WARSZTAT
PRAKTYCZNY
Z MODELOWANIA HURTOWNI
DANYCH
ĆWICZENIE PRAKTYCZNE
Na podstawie danych widocznych na kuponie Lotto należy
zaprojektować fragment wielowymiarowego modelu
danych hurtowni na potrzeby analizy sprzedanych
zakładów i wygranych zapewniający możliwość analizy na
najniższym dostępnym poziomie szczegółowości.
Wskazówka: Postępuj zgodnie z omówionym podejściem
„4 kroków wg. Kimball’a”:
1. Zdefiniuj proces
2. Zdefiniuj ziarnistość
3. Zdefiniuj wymiary
4. Zdefiniuj miary
Miłej zabawy !!!
Przykład rozwiązania możesz przesłać na adres autora 

More Related Content

What's hot

Data Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnegoData Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnegoAndrzej Sobczak
 
e-book_SAS_wizualizacja_danych_PL
e-book_SAS_wizualizacja_danych_PLe-book_SAS_wizualizacja_danych_PL
e-book_SAS_wizualizacja_danych_PLPiotr Jakubowski
 
Systemy informatyczne - definicje
Systemy informatyczne - definicjeSystemy informatyczne - definicje
Systemy informatyczne - definicjeEwaB
 
Profesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I ArchiwizacjiProfesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I Archiwizacjisksep
 
System Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaSystem Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaMaciek1111
 

What's hot (6)

Data Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnegoData Governance jako część ładu korporacyjnego
Data Governance jako część ładu korporacyjnego
 
e-book_SAS_wizualizacja_danych_PL
e-book_SAS_wizualizacja_danych_PLe-book_SAS_wizualizacja_danych_PL
e-book_SAS_wizualizacja_danych_PL
 
Systemy informatyczne - definicje
Systemy informatyczne - definicjeSystemy informatyczne - definicje
Systemy informatyczne - definicje
 
Prezentacja Ifs
Prezentacja IfsPrezentacja Ifs
Prezentacja Ifs
 
Profesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I ArchiwizacjiProfesjonalne Systemy Ochrony Danych I Archiwizacji
Profesjonalne Systemy Ochrony Danych I Archiwizacji
 
System Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaSystem Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny Prezentacja
 

Similar to Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence

Big data w strategii marketingowej
Big data w strategii marketingowejBig data w strategii marketingowej
Big data w strategii marketingowejgrey tree sp z o.o.
 
Strategia Data First
Strategia Data FirstStrategia Data First
Strategia Data FirstPiotr Smialek
 
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.Mateusz Muryjas
 
Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?Beyond.pl
 
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...Patryk Choros
 
Przegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjIPrzegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjIbyteLAKE
 
Afc module 5 pl
Afc module 5 plAfc module 5 pl
Afc module 5 plSoniaNaiba
 
Porzadek danych w procesach transformacji cyfrowej
Porzadek danych w procesach transformacji cyfrowejPorzadek danych w procesach transformacji cyfrowej
Porzadek danych w procesach transformacji cyfrowejMDS ap
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Piotr Czarnas
 
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Jarek Sokolnicki
 
Systemy zarządzania
Systemy zarządzaniaSystemy zarządzania
Systemy zarządzaniaagaradomska
 
Zarządzanie informacją i automatyzacja procesów biznesowych
Zarządzanie informacją i automatyzacja procesów biznesowychZarządzanie informacją i automatyzacja procesów biznesowych
Zarządzanie informacją i automatyzacja procesów biznesowychJaroslaw Zelinski
 
Zrozumieć wartość optymalizacji infrastruktury dla biznesu
Zrozumieć wartość optymalizacji infrastruktury dla biznesuZrozumieć wartość optymalizacji infrastruktury dla biznesu
Zrozumieć wartość optymalizacji infrastruktury dla biznesuGrzegorz Rudno-Rudzinski
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiTomasz Karwatka
 

Similar to Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence (20)

Big data w strategii marketingowej
Big data w strategii marketingowejBig data w strategii marketingowej
Big data w strategii marketingowej
 
Strategia Data First
Strategia Data FirstStrategia Data First
Strategia Data First
 
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.
Nie bój się analizy danych! Fakty i mity o big data i Business Intelligence.
 
Droga Rozwoju Digitalnego
Droga Rozwoju Digitalnego Droga Rozwoju Digitalnego
Droga Rozwoju Digitalnego
 
Big Data +
Big Data +Big Data +
Big Data +
 
Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?Making data work, czyli jak przemienić Big Data w Smart Data?
Making data work, czyli jak przemienić Big Data w Smart Data?
 
Bazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligenceBazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligence
 
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...
Architektura nowoczesnej platformy analitycznej wspierającej kompleksowe zar...
 
Przegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjIPrzegląd zastosowań Sztucznej inteligencjI
Przegląd zastosowań Sztucznej inteligencjI
 
Afc module 5 pl
Afc module 5 plAfc module 5 pl
Afc module 5 pl
 
Porzadek danych w procesach transformacji cyfrowej
Porzadek danych w procesach transformacji cyfrowejPorzadek danych w procesach transformacji cyfrowej
Porzadek danych w procesach transformacji cyfrowej
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
 
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - tran...
 
Systemy zarządzania
Systemy zarządzaniaSystemy zarządzania
Systemy zarządzania
 
Zarządzanie informacją i automatyzacja procesów biznesowych
Zarządzanie informacją i automatyzacja procesów biznesowychZarządzanie informacją i automatyzacja procesów biznesowych
Zarządzanie informacją i automatyzacja procesów biznesowych
 
Zrozumieć wartość optymalizacji infrastruktury dla biznesu
Zrozumieć wartość optymalizacji infrastruktury dla biznesuZrozumieć wartość optymalizacji infrastruktury dla biznesu
Zrozumieć wartość optymalizacji infrastruktury dla biznesu
 
5
55
5
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
 
Bi summit informacja prasowa e_m
Bi summit informacja prasowa e_mBi summit informacja prasowa e_m
Bi summit informacja prasowa e_m
 
Bi summit informacja prasowa e_m
Bi summit informacja prasowa e_mBi summit informacja prasowa e_m
Bi summit informacja prasowa e_m
 

Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence

  • 1. STUDENCKI FESTIWAL INFORMATYKI - KRAKÓW 2019 PRAKTYCZNE WPROWADZENIE DO HURTOWNI DANYCH BARTOSZ.PACUSZKA@GMAIL.COM
  • 2. 1 2 3 4 5 WPROWADZENIE DO „ŚWIATA” HURTOWNII DANYCH TRENDY I WYZWANIA W OBSZARZE ZARZĄDZANIA DANYMI TECHNIKI MODELOWANIA STRUKTUR DANYCH W HURTOWNII WARSZTAT PRAKTYCZNY Z MODELOWANIA HURTOWNI DANYCH WYSKUSJA OTWARTA WSZYSTKO CO CHCECIEWIEDZIEĆ O HURTOWNIACH A BOICIE SIĘ ZAPYTAĆ AGENDA
  • 4. HURTOWNIE DANYCH I BUSINESS INTELLIGENCE HURTOWNIA DANYCH Bazy danych zasilane z systemów transakcyjnych (dziedzinowych). Dane są zintegrowane, uporządkowane i zorientowane na dostarczanie użytecznej informacji biznesowej. BUSINESS INTELLIGENCE Rozwiązania do przetwarzania i analizy danych w celu pozyskania wiedzy na potrzeby wsparcia podejmowania decyzyjnych i procesów biznesowych.
  • 5. TEORIA INFORMACJI … OD DANYCH DO MĄDROŚCI LICZBY I SŁOWA Zbiory liczb i tekstów o różnych formatach. Wszystko to co może być przetwarzana umysłowo lub komputerowo. (źródło: pl.wikipedia.org) DANE + ZROZUMIENIE RELACJI Treść komunikatu przekazywana za pomocą danych. Ta sama treść może być przekazywana przez wiele danych. INFORMACJA + ZROZUMIENIE WZORCÓW Ogół wiarygodnych informacji wraz z umiejętnością ich wykorzystania. (źródło: Nowa Encyklopedia Powszechna) WIEDZA + DOŚWIADCZENIE Umiejętność wykorzystania wiedzy i doświadczenia w celu podejmowania właściwych decyzji. DANE INFORMACJA WIEDZA MĄDROŚĆ PIRAMIDA EPISTEMOLOGICZNA
  • 6. TEORIA INFORMACJI … OD DANYCH DO MĄDROŚCI DANE - Systemy transakcyjne (dziedzinowe) INFORMACJA - Hurtownie danych WIEDZA - Business Intelligence MĄDROŚĆ - Ludzie • Czyszczenie danych • Integracja danych • Agregacja danych • Poszukiwanie wzorców i reguł, predykcja • Wnioskowanie • Zdobywanie doświadczeń PIRAMIDA EPISTEMOLOGICZNA
  • 7. DEFINICJA W szerszym (powszechnym) rozumieniu są to systemy analityczno-raportowe. Dosłownie są to repozytoria gromadzące dane pochodzącą z wielu innych źródeł danych istniejących w organizacji oraz poza nią, zorientowane tematycznie na kluczowe obszary działania organizacji.  Wspomaganie procesów podejmowania decyzji  Udostępnianie danych na potrzeby zaawansowanych analiz i raportowania  Eksploracja danych (data mining)  „Jedno źródło prawdy” (ang. single source of the truth)  Dane oczyszczone i ujednolicone  Dane gromadzone, trwale przechowywane przez wiele lat, udostępniane w trybie on-line  Dane dostępne na najniższym poziomie szczegółowości oraz zagregowane CECHY ZASTOSOWANIA TO CZYM SĄ HURTOWNIE DANYCH …
  • 8. SYSTEMY OLTP (ON-LINE TRANSACTION PROCESSING) 1. zorientowane na przetwarzanie transakcji (ACID) 2. zoptymalizowane do wielu jednoczesnych operacji zapisu i odczytu na pojedynczych obiektach danych 3. posiadają funkcjonalność wspierającą określone procesy operacyjne w organizacji 4. udostępniają ściśle określone funkcje wg ustalonych scenariuszy (przypadków użycia) 5. używane przez pracowników szeregowych oraz kierownictwo niższego szczebla 1. zorientowane na analizy danych 2. zoptymalizowane pod kątem obsługi złożonych zapytań na dużych wolumenach danych 3. przeznaczone do wsparcia procesów podejmowania decyzji 4. dają użytkownikom możliwość pracy ad-hoc bez określonego scenariusza 5. używane przez analityków, kadrę kierowniczą średniego i wysokiego szczebla SYSTEMY OLAP (ON-LINE ANALYTIC PROCESSING) … A CZYM NIE SĄ HURTOWNIE DANYCH I CZYM SIĘ RÓŻNIĄ OD SYSTEMÓW TRANSAKCYJNYCH …
  • 9. SYSTEMY OLTP (ON-LINE TRANSACTION PROCESSING) SYSTEMY OLAP (ON-LINE ANALYTIC PROCESSING) … A CZYM NIE SĄ HURTOWNIE DANYCH I CZYM SIĘ RÓŻNIĄ OD SYSTEMÓW TRANSAKCYJNYCH …
  • 10. BIG DATA To zagadnienie i klasa rozwiązań na pograniczu biznesu i technologii odnoszące się problemów związanych z przetwarzaniem danych, których wielkość i złożoność sprawiają, że wykorzystanie tradycyjnych sposobów ich przechowywania, dostępu i analizy jest zbyt kosztowne. Big Data można odróżnić od tradycyjnych zbiorów danych za pomocą, co najmniej jednego z trzech parametrów: - Ilość (volume), - Szybkość (velocity), - Różnorodność (variety) Klasa rozwiązań technologicznych zapewniających kompleksowy zestaw usług umożliwiających gromadzenie danych (zarówno ustrukturyzowanych, semistrukturalny i nieustrukturyzowanych) oraz wszechstronną ich eksplorację (przetwarzanie, raportowanie, analizy). Takie rozwiązania są budowane poprzez integrację różnych komponentów ale są również dostarczane przez producentów jako wyspecjalizowane platformy (np. Informatica, DataStax, Trifacta, etc.) DATA LAKE … I CZY BIG DATA ORAZ DATA LAKE SĄ HURTOWNIAMI DANYCH NOWEJ GENERACJI ?
  • 11. HURTOWNIE DANYCH DATA LAKE (W ŚWIECIE IDEALNYM) … I CZY BIG DATA ORAZ DATA LAKE SĄ HURTOWNIAMI DANYCH NOWEJ GENERACJI ?
  • 12. HURTOWNIE DANYCH DATA LAKE (A TAK CZĘSTO W RZECZYWISTOŚCI) … I CZY BIG DATA ORAZ DATA LAKE SĄ HURTOWNIAMI DANYCH NOWEJ GENERACJI ?
  • 13. 2. TRENDY I WYZWANIA W OBSZARZE ZARZĄDZANIA DANYMI
  • 14. W 2018 ROKU W KAŻDEJ MINUCIE: 4,333,560 wideo oglądanych na YouTube 18,055,555 żądań do kanałów pogodowych 3,877,140 wyszukań wykonanych w Google 12,986,111 wysłanych SMS-ów 176,222 wykonanych rozmów na Skype 49,380 nowych zdjęć na Istagram 1,111 dostarczonych praczek przez Amazon 1,25 wykopanych nowych bitcoin-ów ŻYJEMY W „ERZE” POTOPU DANYCH (Źródło: Data Never Sleeps 6.0, https://www.domo.com) • Tradycyjne silniki relacyjne (RDBMS) do przechowywania danych są nieoptymalne kiedy mamy do czynienia z brakiem danych ustrukturyzowanych, szybkością przetwarzania danych na dużą skalę oraz kosztami jakie są z tym związane. • Wiele dotychczas stosowanych metod wizualizacji i analizy danych nie radzi sobie z odpowiednią prezentacją oraz wnioskowaniem, dzięki którym użytkownicy mogliby efektywnie korzystać z Big Data. • Tradycyjne praktyki zarządzania informacją w organizacji nie potrafią sprostać charakterystyce Big Data. • W wielu organizacjach brakuje odpowiedniej architektury, umiejętności analitycznych i kultury organizacyjnej aby czerpać pełne korzyści z potencjału jaki niesie Big Data
  • 15. TRANSFORMACJA CYFROWA Hiper-personalizacja i oferowanie właściwych produktów we właściwym miejscu i czasie wymaga szerokiej wiedzy kliencie (demografii, preferencjach, zachowaniu i emocjach) MONETYZACJA DANYCH Poszukiwanie możliwości budowania przewagi konkurencyjnej poprzez zastosowanie analityki w procesach sprzedaży, obsługi klientów ale również w budowaniu nowych usług i modeli biznesowych BIG DATA Pochodzące z niezliczonych źródeł danych: media społecznościowe i środki komunikacji, wyszukiwarki Internetowe, dane przestrzenne i mapowe, tradycyjne systemy (np. e-commerce) oraz Internet rzeczy (IoT) SZTUCZNA INTELIGENCJA Od superkomputerów jak IBM Watson, przez inteligentnych asystentów jak Alexa, Siri, Cortana, Google Assistant, do chatbot- ów wspieranych algorytmami sztucznej inteligencji i uczenia maszynowego ORGANIZACJE „DATA-DRIVEN” Przedsiębiorstwa zmieniają kulturę organizacyjną i przestawiają się na używanie danych niemal w każdym aspekcie działania, od strategicznych procesów decyzyjnych poprzez wsparcie procesów operacyjnych WYBRANE AKTUALNE TRENDY W OBSZARZE ZARZĄDZANIA DANYMI …
  • 16. ROZWÓJ TECHNOLOGII BIG DATA Szybkości, stabilność i kompatybilność to główne przyczyna problemów z absorbcją rozwiązań Big Data w dużych organizacjach GRANICE PRYWATNOŚĆ I ETYKA Rosnące możliwości technologiczne i nie zawsze jasno wyznaczone granice stanowią zagrożenie, czego przykładem są sztucznie generowane treści, kreowanie wizerunków nieistniejących osób, wykorzystywanie danych osobowych i wrażliwych bez wiedzy i zgody. POZYSKIWANIE KOMPETENCJI Big Data nie jest technologią bezobsługową, wymaga doświadczenia administracji, a kierunki rozwoju kolejnych technologii i wygaszania gałęzi rozwoju są trudne do przewidzenia DŁUG TECHNOLOGICZNY WYMAGANIA REGULACYJNE Zapewnienie aby przy szybko rozwijających się technologiach, działaniu pod presją czasu i konkurencji sprostać rosnące wymaganiom ustawowym jak RODO/GDPR, zasadom bezpieczeństwa i szczegółowym regulacjom organów nadzorczych. … I WYZWANIA Z KTÓRYMI MIERZĄ SIĘ DUŻE ORGANIZACJE Wyzwaniem dla wielu organizacji jest właściwe poukładanie architektury danych i podstawowych procesów zarządzania danymi. Większość hurtowni danych podlegała przez wiele lat procesowi „naturalnej i swobodnej” ewolucji i „wrosły” w organizację, a koszty ich usprawnień lub zmiany są trudne do ekonomicznego uzasadnienia.
  • 18. WYBRANE METODYKI (1/3) CORPORATE INFORMATION FACTORY Bill Inmon jest twórcą koncepcji Corporate Information Factory (CIF), która zakłada, że dane przechowywane w hurtowni reprezentują najniższy stopień szczegółowości, są pogrupowane w sposób tematyczny oraz nigdy nie zostają nadpisane lub usunięte. Wg koncepcji CIF w przedsiębiorstwie istnieje tylko jedna hurtownia danych. Jest ona częścią większego systemu Business Intelligence i źródłem dla martów danych. Stanowi główne źródło informacji zarządczej w przedsiębiorstwie. Dane w hurtowni są przechowywane w 3-ciej postaci normalnej. Polecana publikacja: Corporate Information Factory - W. H. Inmon, Claudia Imhoff, Ryan Sousa
  • 19. WYBRANE METODYKI (2/3) MULTIDIMENSIONAL MODELING Ralph Kimball jest twórca metodyki oraz wzorców projektowania wielowymiarowego - zdenormalizowanego modelu danych składającego się z tabel faktów i wymiarów. W swojej metodyce kładzie akcent na biznesowe zorientowanie i wydajność hurtowni danych. Podkreśla, że dobrze zaprojektowana DWH to taka, która będzie chętnie wykorzystywana przez biznes. Kluczowe jest zdefiniowanie Enterprise Bus Matrix – zbiór głównych wymiarów integrujących dane z różnych obszarów biznesowych (tzw. conformed dimensions) Polecane publikacje: The Data Warehouse Toolkit, The Data Warehouse Lifecycle Toolki
  • 20. WYBRANE METODYKI (3/3) DATA VAULT 2.0 Dan Linstedt sformułował koncepcję modelowania danych Data Vault, które zakłada użycie trzech typów tabel: Hub, Link i Satelita. Natomiast Data Vault 2.0 to pełna metodyka budowy DWH wraz z odpowiednim zbiorem technik i rozwiązań z zakresu architektury i uwzględnieniem zagadnień Big Data. Głównym założeniem DV jest zbudowanie skalowalnej i niezawodnej architektury umożliwiającej szybkie przetwarzanie i długoterminowego przechowywania danych z wielu źródeł. Uznana przez B.Inmona jako zgodna z koncepcją CIF. Polecana publikacja: Building a Scalable Data Warehouse with Data Vault 2.0
  • 21. TO KTÓRY MODEL WYBRAĆ I KIEDY ? • Relatywnie najprostszy w modelowaniu i budowaniu procesów zasilających ETL • Relatywnie łatwy w rozbudowie gdy zmieniają się wymagania biznesowe • Wrażliwy na zmiany w modelu danych systemów źródłowych • Mało intuicyjny dla „przeciętnego” użytkownika i wymaga budowania kolejnych warstw na potrzeby poszczególnych zastosowań biznesowych tzw. Data Martów CIF / 3NF • Bardzo intuicyjny dla użytkownika biznesowego i wydajny w przypadku bezpośrednich zapytań lub poprzez stosowanie narzędzi BI (np. kostek OLAP) • Wymaga większego doświadczenia i dyscypliny w projektowaniu • Procesy zasilające ETL są z reguły dość mocno złożone • Zmiany wymagań biznesowych często powodują konieczność znaczącej przebudowy • Łatwy w budowaniu procesów ETL i szybki w rozwoju (zero regresji) • Może być budowany bez dobrze wyspecyfikowanych wymagań biznesowych • Wymaga dużego doświadczenia w projektowaniu • Nieużywalny przez „przeciętnego” użytkownika i wymaga budowania kolejnych warstw tj. Business Vault i Information Martów DIMENSIONAL DATA VAULT
  • 22. WIELOWYMIAROWY MODEL HURTOWNI DANYCH DLACZEGO JEST POWSZECHNIE STOSOWANY 1. Model danych prosty do zrozumienia nie tylko dla specjalistów IT, 2. Zapewnia wysoką wydajność zapytań, 3. Dobrze usystematyzowana metodyka projektowania i wiele sprawdzonych wzorców projektowych, 4. Model wspierany przez większość narzędzi analitycznych i raportowych (OLAP). Fakt Sprzedaży Wymiar Data Wymiar ProduktWymiar Sklep Wymiar Pracownik Wymiar Czas Schemat gwiazdy Fakt Sprzedaży Wymiar Data Wymiar ProduktWymiar Sklap Wymiar Pracownik Wymiar Czas Wymiar Region Wymiar Miejscowość Wymiar Rok Wymiar Tydzień Wymiar Miesiąc Fiskalny Wymiar Miesiąc Wymiar Rok Fiskalny Wymiar Kategoria Wymiar Rozmiar Wymiar Kolor Schemat płatka śniegu
  • 23. WIELOWYMIAROWY MODEL HURTOWNI DANYCH TABELE FAKTÓW I WYMIARÓW • Dane jakościowe pozwalające analizować fakty w różnych perspektywach - wymiarach (np. kanał sprzedaży, lokalizacja geograficzna, czas!!!) • Klucz główny wymiaru decyduje o ziarnistości wymiaru i definiuje szczegółowość do jakiej można prowadzić analizy (np. dzień, sekunda) • W skład wymiaru wchodzą atrybuty charakteryzujące pojedynczy element (np. lokalizacja: kod pocztowy, współrzędne geograficzne, wysokość) • Relacje między atrybutami tworzą hierarchie umożliwiające agregowanie powiązanych faktów (np. dzień, tydzień, miesiąc, kwartał, rok) • Liczność danych jest mała lub średnia. • Dane opisujące w sposób ilościowy określone zdarzenie lub stan będący przedmiotem badań/analiz (np. zakup towaru, połączenia telefoniczne, stan konta bankowego, pogoda, etc.) • Pojedynczy fakt zawiera miary opisujące go w sposób ilościowy (np. kwota zakupów, czas trwania połączenia, kwota salda rachunku, temperatura) • Miary mogą mieć charakter addytywny (np. kwota sprzedaży, liczba połączeń) lub semi-addytywny (np. temperatura powietrza) • Każdy fakt musi być powiązany z wymiarami poprzez wspólne identyfikatory – klucze. Każdy fakt musi mieć relację do wymiaru czasu. • Liczność danych w tabeli jest bardzo duża. FAKTY WYMIARY
  • 24. WIELOWYMIAROWY MODEL HURTOWNI DANYCH DEFINIOWANIE MODELU ZGODNIE Z PODEJŚCIE „4 KROKÓW WG. KIMBALL’A” (źródło: The Data Warehouse Toolkit, R.Kimball, M.Ross) 1.Zidentyfikowanie procesu biznesowego Należy określić jaki proces będzie podlegał analizom (np. sprzedaż produktów). 2.Zdefiniowanie ziarnistości/szczegółowości modelu danych Należy określić czym będzie pojedynczy fakt będący przedmiotem analiz (np. pojedyncza pozycja na fakturze). 3.Zdefiniowanie wymiarów Należy określić w jakich perspektywach (wymiarach) będą wykonywane analizy (np. data, czas, produkt, kanał sprzedaży). 4.Zdefiniowanie miar Należy określić jakimi metrykami będzie opisany proces podlegający analizom (np. liczba sztuk, kwota, rabat).
  • 25. WIELOWYMIAROWY MODEL HURTOWNI DANYCH PRZYKŁAD 1 Fakty Sprzedaży ------------ Klucze ----------- ID Daty (FK) ID Produktu (FK) ID Sklepu (FK) ID Pracownika (FK) ID Czasu (FK) Numer Faktury (DD) ------------ Miary ------------ # Liczba sztuk $ Kwota sprzedaży $ Kwota rabatu ... Inne miary … Wymiar Produktu ------- Klucz ------- ID Produktu (PK) ----- Atrybuty ----- Nazwa produktu Opis produktu Wymiar Daty ------ Klucz ------ ID Daty (PK) ---- Atrybuty ----- Data Dzień Miesiąc Rok Wymiar Czasu ----- Klucz ----- ID Czasu (PK) --- Atrybuty --- Czas Wymiar Sklepu ----- Klucz ------ ID Sklepu (PK) ---- Atrybuty ---- Nazwa Wymiar Pracownika -------- Klucz---------- ID Pracownika (PK) ------ Atrybuty ------- Nazwisko Imie Prosty schemat gwiazdy z pojedynczą tabelą faktów i kilkoma podstawowymi wymiarami. Pojedynczy wiersz w tabeli faktów reprezentuje sprzedaż określonego produktu na jednej fakturze – pozycja faktury.
  • 26. WIELOWYMIAROWY MODEL HURTOWNI DANYCH PRZYKŁAD 2 Ten sam model gwiazdy został rozszerzony o dodatkowe atrybuty. Nie zmienia się szczegółowość tabeli faktów. Fakty Sprzedaży ------------ Klucze ----------- ID Daty (FK) ID Produktu (FK) ID Sklepu (FK) ID Pracownika (FK) ID Czasu (FK) Numer Faktury (DD) ------------ Miary ------------ # Liczba sztuk $ Kwota sprzedaży $ Kwota rabatu ... Inne miary … Wymiar Produktu ------- Klucz ------- ID Produktu (PK) ----- Atrybuty ----- Nazwa produktu Opis produktu -- Nowe atrybuty -- Podgrupa Prod. Grupa Produktów Wymiar Daty -------- Klucz -------- ID Daty (PK) ------ Atrybuty ------ Data Dzień Miesiąc Rok -- Nowe Atrybuty -- Dzień Tygodnia Czy Święto Wymiar Czasu -------- Klucz ------- ID Czasu (PK) ------ Atrybuty ------ Czas -- Nowe atrybuty -- Minuta Godzina Pora dnia Wymiar Sklepu -------- Klucz ------- ID Sklepu (PK) ------ Atrybuty ------ Nazwa -- Nowe Atrybuty-- Ulica Kod Pocztowy Miejscowość Wojewódźtwo Wymiar Pracownika --------- Klucz --------- ID Pracownika (PK) ------ Atrybuty -------- Nazwisko Imie --- Nowe atrybuty --- Płeć
  • 27. WIELOWYMIAROWY MODEL HURTOWNI DANYCH PRZYKŁAD 3 Rozszerzenie modelu o nowe atrybuty (w tym dane zewnętrzne pochodzące spoza systemów transakcyjnych) daje nowe możliwości analizy danych mimo, że szczegółowość tabeli faktów nie zmienia się. Fakty Sprzedaży ----------- Klucze ------------ ID Daty (FK) ID Produktu (FK) ID Sklepu (FK) ID Pracownika (FK) ID Czasu (FK) Numer Faktury (DD) ------------ Miary ------------ # Liczba sztuk $ Kwota sprzedaży $ Kwota rabatu ... Inne miary … Wymiar Produktu --------- Klucz ---------- ID Produktu (PK) -------- Atrybuty ------- Nazwa produktu Opis produktu Podgrupa Prod. Grupa Produktów --- Nowe Atrybuty --- Kolor opakowania Rozmiar opakowania Waga opakowania Wymiar Daty -------- Klucz ------- ID Daty (PK) ------ Atrybuty ------ Data Dzień Miesiąc Rok Dzień Tygodnia Czy Święto -- Nowe Atrybuty -- Czy padał deszcz Czy padał śnieg Temperatura Pow. Wymiar Czasu ------- Klucz ------- ID Czasu (PK) ----- Atrybuty ------ Czas Minuta Godzina -- Nowe Atrybuty-- Pora dnia Godzina Szczytu Wymiar Sklepu -------------- Klucz ---------------- ID Sklepu (PK) ------------- Atrybuty ------------- Nazwa Ulica Kod Pocztowy Miejscowość Wojewódźtwo --------- Nowe Atrybuty -------- Ilość miejsc parking. Odległość do przyst. Autobus. Odległość do innego sklepu Liczba mieszkańców miasta Średni wiek mieszkańców Wymiar Pracownika --------- Klucz -------- ID Pracownika (PK) ------- Atrybuty ------ Nazwisko Imie Płeć --- Nowe Atrybuty--- Data zatrudnienia Data awansu Wynagrodzenie Wiek
  • 28. WIELOWYMIAROWY MODEL HURTOWNI DANYCH ZAAWANSOWANE TECHNIKI MODELOWANIA WIELOWYMIAROWEGO • Slowly changing dimension (SCD) type 1, 2, 3, 5 (= 2+3) • Outrigger dimensions, mini- dimensions i junk dimensions • Role playing dimensions • Bridge tables • Periodic snapshot • Accumulating snapshot • Factless fact table • Degenerated dimensions (DD) FAKTY WYMIARY
  • 30. ĆWICZENIE PRAKTYCZNE Na podstawie danych widocznych na kuponie Lotto należy zaprojektować fragment wielowymiarowego modelu danych hurtowni na potrzeby analizy sprzedanych zakładów i wygranych zapewniający możliwość analizy na najniższym dostępnym poziomie szczegółowości. Wskazówka: Postępuj zgodnie z omówionym podejściem „4 kroków wg. Kimball’a”: 1. Zdefiniuj proces 2. Zdefiniuj ziarnistość 3. Zdefiniuj wymiary 4. Zdefiniuj miary Miłej zabawy !!! Przykład rozwiązania możesz przesłać na adres autora 