SlideShare a Scribd company logo
Hurtownie dla DBA
PLSSUG Trójmiasto – 23.02.2016
Przemysław Dzierżak
Cel prezentacji
• Składowe hurtowni danych i ich zadania
• Różnice pomiędzy hurtowniami a systemami transakcyjnymi
O mnie
• „Hurtownik”
• Wcześniej programista C#
• Praktycznie, automatycznie, prosto
• Zwolennik LEAN / Agile
Co to hurtownia danych?
• Baza danych
• O specyficznej budowie
• Przeznaczenie analizy i raportowanie
Zwykle:
• Łączy wiele źródeł danych
• Ujednolica dane
• Dane historyczne
Budowa hurtowni
Dla osób bez licencji na wózki widłowe ;)
Dobowy cykl życia hurtowni
Używanie
(SELECT)
Ładowane
(INSERT)
Model danych
• Fakt – co liczymy?
(SUM, AVG, COUNT…)
• Liczba zamówień
• Wartość sprzedaży
• Wymiar – wg czego?
(GROUP BY)
• Daty
• Położenia klienta
• Oddziału
• …
Model danych
– gwiazda
Model
danych
– płatek
śniegu
Hurtownia vs kostka
Baza o specyficznej strukturze
i specyficznym sposobie użycia
Kostka – fragment hurtowni
Hurtownia i kostka - narzędzia
• Hurtownia:
• MSSQL
• Kostki:
• MSSQL
• SSAS
• QlikView itp.
Zasilanie hurtowni
Budowa procesu E – T – L
FK, Magazyn, Kadry
CallCenter
Budżet
Extract Transform Load
HurtowniaBaza pośrednia
(Stage)
Baza pośrednia
(OLTP Mirror)
Proces ETL - narzędzia
• Dedykowane narzędzia (SSIS, OWB, … Data Integration, …)
• SQL
• BCPY, usługi replikacyjne, backup/restore
• Programy/skrypty
Specyfika działania hurtowni
ETL dla DBA
• Nowe narzędzie SSIS
• Kopiowanie dużych wolumenów danych
• Okienko czasowe w nocy
• Uprawnienia w systemach źródłowych i między systemami (hurtownia
– system OLTP)
Baza hurtowniana
• Duża baza
• Przemyślenie scenariusza backupu
• Przekrojowe zapytania (SELECT … GROUP BY…)
• Brak zakleszczeń
• Rozważenie RecoveryModel = SIMPLE (min. bazy pośrednie)
Indeksowanie hurtowni
• Czas ładowania vs. czas zapytań
• Wymiary:
• Identyfikatory z systemów źródłowych: clustered
• Identyfikatory sztuczne – hurtowni: nonclustered
• Ew. często używane parametry: nonclustered
• Fakty:
• Czas (duże fakty – dobry kandydat na partycje)
• Na najczęstszych przecięciach
• ColumnStore Index!
• Kompresja
Indeksowanie baz pośrednich
• Zapytania wykonywane raz na ładowanie – często nie warto
indeksować
• Skoordynowane z logiką ETL
Co gdy hurtowni nie ma?
…a biznes jest 
Rozproszone środowisko raportowe
• 500 tabel
• 300 skryptów SQL
• Wiele wersji prawdy
• Utrzymanie?
Sprzedaż, raport dla X
Sprzedaż, raport dla Y
Raport HR
Raport dla prezesa
Sprzedaż, nowy raport
Call Center, wydajność
Call Center, premie
HR, rotacja
Marketing, kampanie
…
Mini - hurtownia
• Jedna tabela z mnóstwem kolumn
Niby ok, ale:
• Tylko jedna granularność
• Kopiowanie danych opisowych
• Problem gdy się rozrasta
Kwota Marża
1
Marża
2
Data
sprzedaży
Data
zakupu
Klient Miasto
klienta
Kod
poczt
Oddział Sprzeda
wca
Podsumowanie
• Budowa hurtowni
• ETL
• Specyfika hurtowni
• Strategie indeksowania
Pytania ?
Dziękuję za uwagę
Przemysław Dzierżak
przemyslaw@dzierzak.eu

More Related Content

Similar to Microsoft Business Intelligence dla DBA

Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Piotr Czarnas
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.
Ireneusz Chmielak
 
Metastudio DRM. Opis.
Metastudio DRM. Opis.Metastudio DRM. Opis.
Metastudio DRM. Opis.
Sanmargar Team
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
Bartosz Ratajczyk
 
Zasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyceZasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyce
Kamil Nowinski
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SeeQuality.net
 
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Oktawian Kitala
 
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdfLogi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
Tameshi Team
 
SQLServer dla Programistów
SQLServer dla ProgramistówSQLServer dla Programistów
SQLServer dla Programistów
HighWheelSoftware
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Divante
 
Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)
byteLAKE
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFramework
HighWheelSoftware
 
SQL. Od podstaw
SQL. Od podstawSQL. Od podstaw
SQL. Od podstaw
Wydawnictwo Helion
 
SQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracjiSQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracji
SQLExpert.pl
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivot
Kamil Nowinski
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
Radoslaw Kita
 
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...Tomasz Kopacz
 
AnalyticsConf : Azure SQL Data Warehouse
AnalyticsConf : Azure SQL Data WarehouseAnalyticsConf : Azure SQL Data Warehouse
AnalyticsConf : Azure SQL Data Warehouse
Wlodek Bielski
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
Marcin Szeliga
 

Similar to Microsoft Business Intelligence dla DBA (20)

Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.
 
Metastudio DRM. Opis.
Metastudio DRM. Opis.Metastudio DRM. Opis.
Metastudio DRM. Opis.
 
Bazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligenceBazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligence
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
 
Zasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyceZasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyce
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
 
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
 
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdfLogi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
 
SQLServer dla Programistów
SQLServer dla ProgramistówSQLServer dla Programistów
SQLServer dla Programistów
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13
 
Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFramework
 
SQL. Od podstaw
SQL. Od podstawSQL. Od podstaw
SQL. Od podstaw
 
SQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracjiSQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracji
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivot
 
Wyklad inauguracyjny
Wyklad inauguracyjnyWyklad inauguracyjny
Wyklad inauguracyjny
 
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...
Tomasz Kopacz MTS 2012 Azure - Co i kiedy użyć (IaaS vs paas vshybrid cloud v...
 
AnalyticsConf : Azure SQL Data Warehouse
AnalyticsConf : Azure SQL Data WarehouseAnalyticsConf : Azure SQL Data Warehouse
AnalyticsConf : Azure SQL Data Warehouse
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 

Microsoft Business Intelligence dla DBA

  • 1. Hurtownie dla DBA PLSSUG Trójmiasto – 23.02.2016 Przemysław Dzierżak
  • 2. Cel prezentacji • Składowe hurtowni danych i ich zadania • Różnice pomiędzy hurtowniami a systemami transakcyjnymi
  • 3. O mnie • „Hurtownik” • Wcześniej programista C# • Praktycznie, automatycznie, prosto • Zwolennik LEAN / Agile
  • 4. Co to hurtownia danych? • Baza danych • O specyficznej budowie • Przeznaczenie analizy i raportowanie Zwykle: • Łączy wiele źródeł danych • Ujednolica dane • Dane historyczne
  • 5. Budowa hurtowni Dla osób bez licencji na wózki widłowe ;)
  • 6. Dobowy cykl życia hurtowni Używanie (SELECT) Ładowane (INSERT)
  • 7. Model danych • Fakt – co liczymy? (SUM, AVG, COUNT…) • Liczba zamówień • Wartość sprzedaży • Wymiar – wg czego? (GROUP BY) • Daty • Położenia klienta • Oddziału • …
  • 10. Hurtownia vs kostka Baza o specyficznej strukturze i specyficznym sposobie użycia Kostka – fragment hurtowni
  • 11. Hurtownia i kostka - narzędzia • Hurtownia: • MSSQL • Kostki: • MSSQL • SSAS • QlikView itp.
  • 13. Budowa procesu E – T – L FK, Magazyn, Kadry CallCenter Budżet Extract Transform Load HurtowniaBaza pośrednia (Stage) Baza pośrednia (OLTP Mirror)
  • 14. Proces ETL - narzędzia • Dedykowane narzędzia (SSIS, OWB, … Data Integration, …) • SQL • BCPY, usługi replikacyjne, backup/restore • Programy/skrypty
  • 16. ETL dla DBA • Nowe narzędzie SSIS • Kopiowanie dużych wolumenów danych • Okienko czasowe w nocy • Uprawnienia w systemach źródłowych i między systemami (hurtownia – system OLTP)
  • 17. Baza hurtowniana • Duża baza • Przemyślenie scenariusza backupu • Przekrojowe zapytania (SELECT … GROUP BY…) • Brak zakleszczeń • Rozważenie RecoveryModel = SIMPLE (min. bazy pośrednie)
  • 18. Indeksowanie hurtowni • Czas ładowania vs. czas zapytań • Wymiary: • Identyfikatory z systemów źródłowych: clustered • Identyfikatory sztuczne – hurtowni: nonclustered • Ew. często używane parametry: nonclustered • Fakty: • Czas (duże fakty – dobry kandydat na partycje) • Na najczęstszych przecięciach • ColumnStore Index! • Kompresja
  • 19. Indeksowanie baz pośrednich • Zapytania wykonywane raz na ładowanie – często nie warto indeksować • Skoordynowane z logiką ETL
  • 20. Co gdy hurtowni nie ma? …a biznes jest 
  • 21. Rozproszone środowisko raportowe • 500 tabel • 300 skryptów SQL • Wiele wersji prawdy • Utrzymanie? Sprzedaż, raport dla X Sprzedaż, raport dla Y Raport HR Raport dla prezesa Sprzedaż, nowy raport Call Center, wydajność Call Center, premie HR, rotacja Marketing, kampanie …
  • 22. Mini - hurtownia • Jedna tabela z mnóstwem kolumn Niby ok, ale: • Tylko jedna granularność • Kopiowanie danych opisowych • Problem gdy się rozrasta Kwota Marża 1 Marża 2 Data sprzedaży Data zakupu Klient Miasto klienta Kod poczt Oddział Sprzeda wca
  • 23. Podsumowanie • Budowa hurtowni • ETL • Specyfika hurtowni • Strategie indeksowania
  • 25. Dziękuję za uwagę Przemysław Dzierżak przemyslaw@dzierzak.eu