AnalyticsConf : Azure SQL Data Warehouse

Azure SQL Data Warehouse
Wlodek Bielski
wlodzimierz.bielski@itmagination.com

Kompetencje
2
SOFTWARE DEVELOPMENT PERFORMANCE MANAGEMENT
CLOUD OUTSOURCING
DATA SCIENCE MANAGED SERVICES
DATA MANAGEMENT ERP

Fakty i plany
3
Konsultanci
2014
176
2015
280 2016
450
Zrealizowane projekty
2014
90
2015
174
2016
376
Capacity (MH/Miesiąc)
2014 2015
47k
Przychody (mPLN)
2014
22,5
2015
43,5
29K
2016
76k
2016
73,1

Międzynarodowy zasięg
450% przychodów pochodzi
z kontraktów międzynarodowych>

Technologie, narzędzia i partnerzy
6

• Geneza Azure SQL DWH
• Architektura
• Ładowanie danych
• Zapytania SQL i raportowanie
• Demo
Agenda
7

• Usługa PaaS na platformie Azure
• Hurtownia danych „on demand”
• Implementuje podzbiór T-SQL
• Wydajna, skalowalna, elastyczna
• Architektura MPP, oparta na SQL Server
• SQL Server PDW/APS w chmurze
8

2008
DATAAllegro
2010
SQL Server
PDW
(2008 R2)
2013
SQL Server
2012 PDW
2014
Microsoft
APS
2015/2016
Azure
SQL DWH
Geneza SQL Server MPP
10

Microsoft APS
12
Analytics Platform System
SQL Server
2012 PDW
Microsoft
HDInsight
PolyBase

• Parallel Data Warehouse – SQL Server w wersji MPP
• HDInsight – Hadoop, zintegrowany z platformą MS
• PolyBase – łączenie w locie danych PDW i HDInsight
• Skalowalny, wydajny, drogi
• On-premises (HP, Dell, Quanta)
Microsoft APS
13
Analytics Platform System
SQL Server
2012 PDW
Microsoft
HDInsight
PolyBase

Architektura Azure SQL DWH
14
https://azure.microsoft.com/en-us/documentation/articles/sql-data-warehouse-overview-what-is/

• Analogicznie do HDInsight:
• Tani, trwały Storage
• Compute „on demand”
• Pause/Start, Scale
• Dane pozostają nienaruszone, nie ma potrzeby ponownego ładowania
• Automatyzacja przez PowerShell / Rest API
• Koncepcja DWU
Sposób użycia i koszty
15

• Syntetyczna miara mocy obliczeniowej
• 100 – 6000 DWU (wersja próbna 200 DWU)
• 100 DWU = 1,17 EUR/h
Data Warehouse Unit (DWU)
16
100 DWU = 297 sec
400 DWU = 74 sec
800 DWU = 37 sec
1,600 DWU = 19 sec
Scan 1B Rows
Scan Rate xx M row/sec
Loading Rate xx K row/sec
Table Copy Rate xx K row/sec
100 DWU

17
Demo
Tworzenie i zarządzanie Azure SQL Data Warehouse
17

• Wszystkie tabele są rozproszone
• 60 kubełków / dystrybucji
• Sposoby dystrybucji:
• Hash – duże tabele faktów
• Round Robin – słowniki wymiarów lub tabele bez dobrego kandydata na hashowanie
• Każdy węzeł obliczeniowy (Compute Node) zawiera jedną lub więcej dystrybucji
Dystrybucja danych
18

• SSIS (ADO.NET)
• Azure Data Factory
• BCP
• PolyBase
Ładowanie danych
19
Ładowanie via Contol Node – wąskie gardło
• Ładowanie bezpośrednio na Compute Node
• Pliki płaskie (np. CSV)

• Ładowanie plików Hadoop lub Azure Blob Storage
• Pull, nie Push – pomijanie Control Node, skalowalna wydajność
• Formaty: RC, ORC, Parquet, CSV/Flat
Idealny scenariusz:
PolyBase
20
Eksport
źródłowych
danych do CSV
Załadowanie
plików na Azure
Blob Storage
Załadowanie do
DWH poprzez
PolyBase

• Niektóre elementy T-SQL nie są wspierane
• Wybór właściwego sposobu dystrybucji (Hash vs Round Robin)
• Data Warehouse Migration Utility
• Red Gate Data Platform Studio
Migracja do Azure SQL DWH
22

23
Demo
Data Warehouse Migration Utility
23

• Ad-hoc
• SQL Server Management Studio
• Analysis Services Tabular
• SQL Server 2016 Enterprise – IaaS / VM
• Azure Analysis Services Preview
• Power BI
• Dedykowany konektor
• Wersja Pro (darmowa 60-dniowa wersja próbna)
Raportowanie i analityka
24

Rola i miejsce Azure SQL DWH
26
https://azure.microsoft.com/en-us/services/sql-data-warehouse/

Scenariusz biznesowy
27
• Uzupełnienie klasycznego DWH/BI o Big Data
• Clickstream – aktywność użytkowników na portalu
• Rozmiar danych zbyt duży dla Analysis Services (G5 VM – 448 GB RAM)
• Analitycy znający SQL / Hive
• Zapytania ad-hoc + eksport do SQL Server IaaS / VM

• Próbna subskrypcja Azure
• https://azure.microsoft.com/pl-pl/free/
• Rozszerzona wersja próbna Azure SQL DWH (do końca 2016)
• https://azure.microsoft.com/en-us/services/sql-data-warehouse/extended-trial/
• SQL Server Management Studio
• https://msdn.microsoft.com/en-us/library/mt238290.aspx
• Data Warehouse Migration Utility
• https://migrhoststorage.blob.core.windows.net/sqldwsample/DataWarehouseMigrationUtility.zip
• Próbna wersja Power BI Pro
• https://powerbi.microsoft.com/en-us/get-started/
Jak zacząć
28

29
Q & A
29

Wlodek Bielski
wlodzimierz.bielski@itmagination.com
BI Architect
Dziękuję za uwagę!

AnalyticsConf : Azure SQL Data Warehouse

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to AnalyticsConf : Azure SQL Data Warehouse

Similar to AnalyticsConf : Azure SQL Data Warehouse (20)

More from Wlodek Bielski

More from Wlodek Bielski (7)

AnalyticsConf : Azure SQL Data Warehouse