SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala

Modelowanie i zasilanie wymiarów w hurtowniach danych ___________________________________________________________________________________________________________________________________________________________________________ ŁUKASZ GRALA Lider PLSSUG, MCT, MVP SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz

Łukasz grala Niezależny konsultant, architekt, projektant (bazy i hurtownie danych, data mining, analiza danych, audyty baz danych – SQL Server, BI), SharePoint Trener technologii Microsoft, wykładowca na wyższych uczelniach. Lider Polish SQL Server User Group (PLSSUG) Poznań Prelegent na wielu konferencjach informatycznych Posiada liczne certyfikaty Prowadzi blogi: http://powerpivot.info.pl http://sqlresearch.com Kontakt: lukasz@grala.biz

Co to jest hurtownia danych? Co to jest wymiar? Wymiary i hierarchie Zasilanie wymiarów Slowly Changing Dimension 6 postać normalna Mechanizmy w Microsoft SQL Server Podsumowanie Agenda SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz

Co to jest hurtownia danych? Łukasz Grala – lukasz@grala.biz Hurtownia danych (ang. Data Warehouse) – rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości Najważniejsze cechy hurtowni danych: Wyższy poziom abstrakcji Dane do odczytu Zintegrowane dane z wielu źródeł Olbrzymia ilość danych Dane historyczne

Co to jest hurtownia danych? Łukasz Grala – lukasz@grala.biz Hurtownie danych OLAP OLTP Struktury operacyjne Kostki/ struktury użytkownika Struktury hurtowni danych Dane operacyjne Dane ujednolicone Wybrane dane

Co to jest hurtownia danych? 5,005,000 Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Wymiar jest to logiczne grupowanie danych przechowywanych w tabelach faktów hurtowni danych Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Tabele faktów Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Tabele wymiaru Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Hierarchia i agregacja Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Schemat gwiazdy (ang. Star schema) centralna tabela faktów powiązana z tabelami wybiarów Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Łukasz Grala – lukasz@grala.biz

Co to jest wymiar? Schemat płatka śniegu (ang. Snowflake schema) Znormalizowana postać schematu gwiazdy Łukasz Grala – lukasz@grala.biz Schemat konstelacji faktów (ang. Fact Constellation schema) Tabele wymiarów współdzielone z wieloma tabelami faktów (wykorzystywany model płatka lub gwiazy)

Zasilanie danych Mechanizm ETL (ang Extracttion-Transformation-Load) Ekstrakacja danych Czyszczenie danych Transformacja danych Ładowanie danych Replikacja danych Analiza danych (wykrywanie nieprawidłowości) Kontrola jakości danych Łukasz Grala – lukasz@grala.biz

Data Marts Staging Area Client Access Manual Cleansing 9: Delivering BI enables a process of continuous business improvement 1: Clients need access to data 2: Clients may access data sources directly 3: Data sources can be mirrored/replicated to reduce contention 4: The data warehouse manages data for analyzing and reporting 5: Data warehouse is periodically populated from data sources 6: Staging areas may simplify the data warehouse population 7: Manual cleansing may be required to cleanse dirty data 8: Clients use various tools to query the data warehouse Data Warehouse Data Sources Client Access Łukasz Grala – lukasz@grala.biz

Slowly Changing Dimension Łukasz Grala – lukasz@grala.biz Śledzenie i zapisywanie zachodzących zmian danych w wymiarach hurtowni danych

Wszystkie typy SCD? Łukasz Grala – lukasz@grala.biz Typ 0 – Brak podjęcia działań Typ 1 – Nadpisanie zmian Typ 2 – Wstawienie nowego i unieważnienie istniejacego Typ 3 – Zmiana w dodatkowej kolumnie Typ 4 – Dodatkowa tabela (historyczna) Typ 6/Hybrid – Połączenie typu 1 z 2 i 3.

Slowly Changing Dimensions Type 1 Istniejące rekordy są nadpisywane Historia zmian nie jest przechowywana LastName update to Valdez-Smythe Łukasz Grala – lukasz@grala.biz

Slowly Changing Dimensions Type 2 Istniejący rekord traci wazność i jest wstawiany nowy Historia zmian jest przechowywana Wiele metod implementacji SalesTerritoryKey update to 10 Łukasz Grala – lukasz@grala.biz

Slowly Changing Dimensions Istniejący rekord jest nadpisywany Ograniczona historia jest przechowywana Trudna implementacja Type 3 SalesTerritoryKey update to 10 Łukasz Grala – lukasz@grala.biz

Przykłady SCD – Typ 1 Łukasz Grala – lukasz@grala.biz

Przykłady SCD – Typ 2 Łukasz Grala – lukasz@grala.biz Wersja 1

Przykłady SCD – Typ 2 Łukasz Grala – lukasz@grala.biz Wersja 2

Przykłady SCD – Typ 4 Łukasz Grala – lukasz@grala.biz Tabela Handlowcy Tabela Handlowcy_Archiwum

Kreator SCD w SSIS Step 1 Select the target dimension table Configure the relationship between the source data and the dimension table

Kreator SCD w SSIS Step 2 Select the participating columns and their change type: Fixed (Type 0) Changing (Type 1) Historical (Type 2)

Kreator SCD w SSIS Step 3 Configure the behavior if Fixed attributes change Configure whether Changing attributes should update the current record or all matching records

Kreator SCD w SSIS Step 4 Configure how Historical attributes identify current and expired records: Single Boolean column, or Start and End date columns Łukasz Grala – lukasz@grala.biz

Kreator SCD w SSIS Step 5 If inferred members are stored in the dimension table, define how they are identified: When all columns with a change type are null, or By a single Boolean column Łukasz Grala – lukasz@grala.biz

Kreator SCD w SSIS Wizard Output Based on your configuration, the wizard completes the downstream data flow Łukasz Grala – lukasz@grala.biz

6 postać normalna (6NF) Baza danych znajduje się w postaci 6NF wtedy i tylko wtedy gdy nie zawiera żadnych nietrywialnych zależności złączeń Cechy 6NF Reprezentacja danych tymczasowych Zależność czasowa Brak wsparcia w Microsoft SQL Server 2008R2 (i wcześniejszych) Przykład implementacj: Dejan Sarka (MVP) – Inside Micorosft SQL Server 2008 – TSQL Programming Łukasz Grala – lukasz@grala.biz

Mechanizmy SQL Server SQL Server Integration Services 2008/2008R – SCD (komponent i kreator) SQL Server Analysis Services 2008/2008R2 (wymiary) TSQL Merge SQL Server Change Tracking SQL Server Change Data Capture Łukasz Grala – lukasz@grala.biz

DEMO Łukasz Grala – lukasz@grala.biz

Dziękuję! Strefa ATE 10.15-10.35 12.10-13.00 SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz Lubię to!

NASTĘPNA SESJA - 10:35 Collation MAREK ADAMCZUK SQLDAY 2011 – Czwarta Doroczna Konferencja Polskiej Grupy Użytkowników SQL Server | Wrocław 18 Czerwca 2011, Ośrodek Szkolenia Państwowej Inspekcji Pracy Łukasz Grala – lukasz@grala.biz

SPONSORZY I PARTNERZY Łukasz Grala – lukasz@grala.biz

SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala

Recommended

Recommended

More Related Content

Similar to SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala

Similar to SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala (11)

More from Łukasz Grala

More from Łukasz Grala (20)

Recently uploaded

Recently uploaded (6)

SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala

Editor's Notes