3. Prague Data Management Meetup
Data Management
Získávaní dat
Ukládání dat
Zpracování dat
Interpretace dat
Použití dat
• Otevřená profesionální zájmová
skupina
• Každý je vítán (ať už v pasivní
nebo aktivní roli)
• Témat není nikdy dost
• Snaha o pravidelné měsíční
setkávání
• Existuje od září 2015
4. Historie
Datum Téma
10. 9. 2015 Data Management
14. 10. 2015 Data Lake
23. 11. 2015 Dark Data (without Dark Energy and Dark Force)
12. 1. 2016 Data Lake (Again)
7. 3. 2016 Sad Stories About DW Modeling (sad stories only)
23. 3. 2016 Self-service BI Street Battle
27. 4. 2016 Let's explore the new Microsoft PowerBI!
22. 9. 2016 Data Management pro začátečníky
17. 10. 2016 Small Big Data
22. 11. 2016 Základy modelování DW
5. Bez Data Managementu vznikají datové bažiny
Odvážný
Data Scientist
Velmi špatně
udržovaná
Data Platforma
6. Slibované zkratky
DW DL EDW LDW BDP BI
ML MD BD DG DQ DS
ETL ELT DP LDM PDM MDM
RDM DM DV IDM
9. Celosvětový datový boom
9
1 exabyte = 1018 bytů
Za jednu minutu této prezentace vznikne:
350 000 tweetů na Twitteru
4 000 000 liků na Facebooku
100 000 hovorů přes Skype
300 hodin videa na YouTube
Spousta dalších dat
90% všech dat vzniklo v poslední dvou letech
Mezi lety 2010-2020 vzroste objem dat lidstva 50x
2010:
800 exabytů
2020:
40 000 exabytů
10. 0
20
40
60
80
100
120
140
2011 2012 2013 2014 2015 2016 2017
Exabyty
IDC: Structured Versus Unstructured Data: The Balance of Power Continues to Shift. #247106. Table 1. Page 9
Struktura datového boomu
Data mimo RDBMS
rostou meziročně o
40%+
Data v RDBMS rostou
meziročně o 20%+
11. Temná strana datového boomu: Datová temnota
Nevyužitá data
88%
Využitá data
12%
Pouze 12% nových dat se
analyzuje
Tento poměr se v čase stále
zhoršuje…
Zdroj: IBM
Modernizace datových
platforem nutná!
12.
13. Business Process
Analysis #2
Analysis #1
Funkční integrace
vs.
Datová integrace
Část dat se nikdy neuloží
Část dat se uloží chybně
Operativa
Analytika
14. Data Warehouse
• Konsolidovat data z nejrůznějších
zdrojů v požadované kvalitě a čase
• Poskytovat srozumitelné informace
různým účelům a skupinám uživatelů
• Poskytovat možnosti, které zajistí
flexibilní a účinný ad-hoc reporting a
analýzu
• Orientace na subjekt
• Integrace
• Nízká proměnlivost
• Historizace
• Hlavní perspektivy
• Datová integrace
• Datová úložiště
• Rozšíření
• Zpracování událostí (Complex Event
Processing) pro zpracování událostí
v reálném čase
• Aplikační integraci zejména pro integraci
v pokud možno reálném čase a podporu
provozních procesů
• Operational Data Store pro uložení
aktuálních dat, které jsou potřeba pro
podporu provozních procesů
• Platformu pro pokročilé analýzy (Big Dat)
EDW, DW, DSS, ADS, ADW, DP…
15. Typy DataWarehouse
Fyzická Data Warehouse
• Klasická relační databáze.
• Výhody:
• Reálné uložení dat snižuje nároky na
governance
• Stabilita a možnost transformací pro
mandatorní reporting.
• Snadnější standardní metody data
miningu
• Nevýhody:
• železo – Hardware, při fyzickém uložení
resp. přeuložení
• máme data vícekrát.
Logický Data Warehouse
• Data neukládám do konsolidované
struktury, ale říkám jak je jednotně číst.
• Nový trend – Big Data, Query Engine.
• Výhody:
• Data mám pouze jednou a to v podobě
primárního systému.
• Neztrácím informace fyzickými
transformacemi do jednotné struktury.
• Nevýhody:
• Náročná Governance
15
16. Data Comparison
Characteristic Operational
Database
Data Warehouse
Currency Current Historical
Details level Individual Individual and summary
Orientation Process Subject
Records per request Few Thousands
Normalization level Mostly normalized Normalization relaxed
Update level Highly volatile Mostly refreshed (non volatile)
Data model Relational Relational (star schemas) and
multidimensional (data cubes)
Source: Coursera
19. Adastra Information Management Reference Architecture
19
ODS
Operational
reporting
Enterprise DWH Big Data
Platform
Data Lake
Event
Processing
Semantic
Models
Advanced Analytics
Perceptual / cognitive intelligence
Information Management
Relational / Structured data Unstructured data Streaming
Data Workflow
Orchestration
Data Transformation /
Processing
Data
Management
Event Ingestion
Complex Event
Processing
Notifications
BI / Application
Integration
Machine Learning
In-database Data Mining, R
Recognition of human
interaction and intent
SMP and MPP
In-memory technologies
In-memory Columnar
In-memory technologies Hadoop, NoSQL
Business Intelligence / Data Delivery
Real-time DashboardsDashboards and visualizationsReports Self-service BIMobile BI
IoT Network
Field Gateway
Big data
OLAP
20.
21. DWH Logical Data Layers
Stage Area
Relational Area
Consolidation Area
Data Mart Area
• Data Mart Area
• L2
• User Access Layer
• Consolidation Area
• Consolidated L1
• Common aggregates for L2
• Cleansed and consolidated data
• Relational Area
• Detailed L1
• Consistent, integrated, subject oriented
data, universal data structure, historical
data, maximal detail
• System of record
• Stage Area
• Copy of source systems
Extracts
Reports
Note: Consolidated and Detailed L1 can
share same data structures
22.
23. Modernizace datových platforem
Technologické inovace
• Data Warehouse Appliance
• Data warehouse automation
• Sloupcové databáze, In-memory databáze, NoSQL databáze,
Grafové databáze
• Hadoop, Spark, Machine Learning
• Data streams
• Datová virtualizace
• Query engine
• Nástroje pro predikční analytiku
• Data Discovery
• Vizualizační nástroje
• Self-service BI nástroje
• Mobile BI
• Cloud (IaaS, PaaS, SaaS), Intelligence as Service
Architektonické inovace
• Data Factory
• Data Rafinery
• Analytic Data Store 2.0
• Networked BI
• Logical Data Warehouse
• Data Reservoir
• Data Lake
• Enterprise Data Lake
• Semantic Data Lake
• Data Lake 2.0
• Business Data Lake
• Enterprise Data Hub
• Data Sea
23
„Data jsou nová voda.“
Konsolidace
Liberalizace
24. Real DW in Real Numbers
03/2012
• 1200 L1 Tables
• 18 TB
• 3500 ETLs
• 1000 generic ETLs
• 2500 mapped ETLs
• 22 000 ETL executions every day
• More than 500 processed extracts
every working day
03/2014
• 1800 L1 Tables
• 34 TB
• 7000 ETLs
• 2200 generic ETLs
• 4800 mapped ETLs
• 40 000 ETL executions every day
• More than 1300 processed extracts
every working day
0
5
10
15
20
25
30
35
7.2.2010 7.2.2011 7.2.2012 7.2.2013 7.2.2014
26. Data Management Implementation Process
Happy report users
Standard daily operation
Initial load
Deployment
Acceptance
Testing
ETL/ELT and workflow implementation
ETL/ELT and worklfow design
Physical model implementation
Logical and physical model design
Business Glossary, Data dictionary, conceptual data model
Source data analysis
Requirement analysis
30. System ID First Name Family Name Czech Office
Client Flag
Business Sector Social Insurance
Number
AAA AA123 John Doe Yes Employee 45678
Involved
Party ID
First
Name
Family
Name
Birth Date Social Insurance
Number
System
1 John Doe 1.1.1990 45678 AAA
2 John Doe 45678 BBB
Involved
Party ID
System Alternative ID
1 AAA AA123
2 BBB 456
3 123456789
Location ID Email Location
Type
System
200 john@doe.com Email BBB
Classifaction
ID
Classification
Schema ID
Classification
Description
100 301 Yes
101 302 Employee
Involved
Party ID
Classifacti
on ID
Classification / Involved
Party Role Type
System
1 100 IP is classified by CL AAA
1 101 IP is classified by CL AAA
Location ID Involved
Party ID
Involved Party / Location
Role Type
System
200 2 LO is a contact address of IP BBB
Involved Party Alternative ID
Involved Party
Involved Party
Location Relationship
Location
Classification / Involved Party
Relationship
Extracts (L0):
SoR (L1):
Classifaction
Schema ID
Classification Schema
Description
301 Czech Office Client Flag
302 Business Sector
ClassificationClassification Schema
System ID First Name Family Name Email Birth Date Social Insurance
Number
BBB 456 John Doe john@doe.com 1.1.1990 45678
Involved
Party ID
Involved
Party Type
Involved
Party Name
Record
Type
System
1 Individual John Doe Instance AAA
2 Individual John Doe Instance BBB
3 Individual Master
Individual
Subject
Involved Party
ID
Object
Involved
Party ID
Involved Party /
Involved Party
Relationship Type
3 1 Consolidation
3 1 Consolidation
Involved Party / Involved
Party Relationship
33. OLAP
[ WITH <SELECT WITH clause>
[ , <SELECT WITH clause> ... ] ]
SELECT [ * | ( <SELECT query
axis clause> [ , <SELECT query
axis clause> ... ] ) ] FROM
<SELECT subcube clause> [
<SELECT slicer axis clause> ] [
<SELECT cell property list
clause> ]
Source: Microsoft
MDX Example
34. Datová kvalita: Data nebývají konzistentní
Zdrojový
systém #1
Zdrojový
systém #2
Jméno Příjmení RČ Adresa
Pepa Radost 111111/1111 Na Kovárně 3, Bráník, Praha
Josef Radost 111111/1111 Praha
Martin Matuszczyk 666/666 SlovenskoPolského přátelství 4, Praha
Robert Miškuf 999999/9999 Slovensko-polského přátelství 4, Praha
ID Jméno Příjmení RC TYP ICO Město Ulice Popis
1 Pepa Radost 111111/1111 FO Praha Na Kovárně 3 Branik
4 Josef Radost 111111/1111 FOP 11150 Praha
2 Martin Matuszczyk 666/666 FO Praha
Slovenskopolského
přátelství 4,
3 Robert Miškuf 999999/9999 FO Praha
SlovenskoPolského
přátelství 4, 4. patro
35. Kdo je Leoš Mráček?
35
ID Titul1 Jmeno Prijmeni Titul 2 RČ
1 ing. Leoš Mráček MBA 691117/3457
2 ing. Leoš Mráček MBA 6911173457
3 Leos Mracek 11.17.1969
4 ing. Leoš Mráček MBA NULL
5 Leoš Mráček, MBA 691117/3457
6 ing. Leo3 Mr8ček 999999/9999
7 Mráček Leoš 691117/3455
8 ing, Leoš Mraeek MBA 691117/3475
9 ing. Leoš Mra4ek, MBA 0
10 ing. MBA Leoš Mrácek 6911173457
11 ing. Leoš Mráček, MBA 6910174375
12 Jana Votavová 6910174376
13 Karel Novák 999999/9999
36. Matching / Unifikace
36
Records
Primary groups
Candidate groups
John Smith
null
John Smith
null
Jane Smith
420347213
Jane Watson
420347213
J Smith
420347213
J Smith
null
Jane Watson
420347213
John Smith
095252433
John Smith
095252433
John Smith
095242434
John Smith
095242434
Janette Smith
null
Secondary groups
?
41. Partitioning
• Rozdělení tabulky na více oddílů (= partition)
• Výhody
• menší množství dat (= rychlost dotazů)
• omezení zamykání (= rychlost dotazů)
• možnost nastavení indexů a jiných atributů zvlášť pro každý oddíl
• Nevýhody
• údržba
Regular
table
Partitioned
table
Index Organized
Table
42. Paralelismus
• Při nahrávání rozsáhlých datových skladů problém s časovým prostorem
• Řešení
• „lepší“ zdroje (= zvýšení výkonu)
• změna workflow
• Změna workflow má zásadní dopad na výkon řešení
• zrušení prostojů
• možnost využití zdrojů, které jinak není možné využít
• Jednou z možností změny workflow - paralelismus
43. Technologie
Stack Others
RDBMS
Oracle Database
MySQL
Microsoft SQL Server
Microsoft SQL Server APS
Azure SQL Data Warehouse
Amazon Redshift
HP Vertica
IBM dashDB
IBM DB2
PostgreSQL
SAP HANA
SAP IQ
SAP SQL Anywhere
Teradata Database
ETL/ELT
Oracle Data Integrator
Oracle Golden Gate
MS Integration Services
Azure Data Factory
Clover ETL
IBM InfoSphere DataStage
Informatica PowerCenter
Pentaho Data Integration
SAP Data Services
SAS Data Integration
Talend Data Integration
BI & Analytics
Oracle Big Data Discovery
Oracle Business Intelligence
Oracle Endeca Data Discovery
Oracle Essbase
Oracle R Enterprise
Azure Machine Learning
MS Analysis Services
MS Datazen
MS Excel BI
MS Power BI
MS Reporting Services
Revolution R
Amazon QuickSight
GoodData
IBM Cognos Reporting
IBM Watson Analytics
Microstrategy Analytics
Qlik Sense
Qlikview
SAP Business Objects
SAS Visual Analytics
Tableau
Teradata Aster Discovery Platform
Appliances
Oracle Exadata
Oracle SuperCluster
MS Analytic Platform System
IBM Netezza Twinfin
SAP HANA
Teradata Data Warehouse Appliance
HP Vertica Analytics System
+ Big Data Stack
46. Microsoft SQL Server 2016
46
Excel + Power BI add-ins
Query, Pivot, View, Map
SharePoint
Power Pivot Gallery, Power View
Excel
Data Mining
Power BI Desktop Power BI Portal
Azure ML
End-to-End DW & Big Data Platform, Driving Analytics on any Data
Power BI Mobile App
Analytics Platform System
(APS)
57. The Evolution of Business Intelligence
57
Traditional Analytics
1st Generation Analytics (Query & Reporting)
2nd Generation Analytics (OLAP, Data Warehousing)
Advanced Analytics/Optimization
Rules
Predictive Analytics
Real-time and traditional Data Mining
Stream Analytics*
Real-time, continuous, sequential analysis
(ranging from basic to advanced analytics)
* In lieu of stream analytics, “embedded analytics,” although architecturally
different, could potentially play the same role
3rd-Generation BI
Legacy BI
“New Traditional” Analytics
“2.5-Gen” Analytics (In-Memory OLAP, Search-Based)
58. Data Visualization & Reporting
Spark lines
̶ Trends
Bullet graphs
̶ KPI measurements, Scorecards
Graph matrix (small multiples / trellis)
̶ Vizualizace multidimenzionálních dat
̶ Série grafů pro porovnání naměřených výsledků za daných podmínek (např.
prodej kategorií produktů v regionech)
Scatter plot, Interactive bubble graph
̶ Změny v čase
̶ Osa X: čas, Osa Y: meření (např. prodej)
̶ Další možnosti: barva (kategorie produktu), velikost bubliny (počet
zákazníků)
Heat or tree maps
59. Oracle Business Intelligence
• On-premise i cloud varianta
• Podpora pro pokročilou analytiku, self-service
vizualizace i Mobile BI
Oracle Big Data Discovery
• Nativní self-service analytika pro Big Data řešení
59
60. Self-service BI
• Definition • Self-Service BI involves:
• Data availability
• Availability of all relevant / required / useful / valuable data
• Ability to process and save data
• Sandboxing – how to create it within the infrastructure, how to create security settings,
assign resources, manage outputs and how to clean the sandbox regularly.
• SQL or some user-friendly ETL
• Ability to access the heterogeneous data
• Connection to various/heterogeneous data sources and import of the relevant data for
analyses (data mashups)
• Definition of the schematic layer for the provision of data to non-expert users
• Data discovery
• Tools for profiling, statistics and data mining
• Effective tools for data visualization
• Sparklines, Bullet chart, Matrix chart (small multiples / trellis), Scatter plot, interactive
Bubble chart, Heat map, Radius chart, Network chart, Maps, Geoinformation…
• Collaboration
• Ability to publish and share created reports and analyses
• Ability to transfer ad-hoc and self-service outputs into regular reporting cycles
• Ability to share information, classifications, discuss, comment and blog
• Self-Service BI is set of data
management technologies,
processes and methods that
enable flexible and fast data
research, validation of
prototypes, ad-hoc analyses and
information sharing with minimal
involvement of the IT
department.
62. Tableau Desktop Qlik Sense Desktop
Microsoft Power BI Desktop SAS Visual Analytics
63. Mobile BI
All versions from 2016-03-12
CollabMobile https://youtu.be/49If_G5Llg0
Datazen https://youtu.be/ePCMoqSj1-k
IBM Cognos https://youtu.be/kZEdS29HBeE
Infor Dashboards https://youtu.be/CO2v1eXjPXI
Microstrategy https://youtu.be/qcdaQPc3fj4
Oracle BI HD https://youtu.be/Jnb1jDVfvUU
Power BI https://youtu.be/kaxSQEevMZI
Qlik Sense https://youtu.be/WX1R_ynbWYI
QlikView https://youtu.be/EJYC9cnCjlU
RoamBI https://youtu.be/GG5SmfRfFTs
Salesforce Wave Analytics https://youtu.be/I5MHagpxXQ0
SAP BI https://youtu.be/T0DcY1eS0sA
SAS BI https://youtu.be/SNjYpY7hulw
Tableau https://youtu.be/yCo2Z2ZhUoU
Tibco Metrics https://youtu.be/VTfQxO8nTNs
BI Office https://youtu.be/H7lTJxfZRsc
67. Srovnání Data Warehouse vs. Data Lake
Data Warehouse Data Lake (Big Data)
Data Structured Structured
Semi-Structured
Unstructured
Data Processing Processed Raw
Data Schema Schema-on-write Schema-on-read
Data Model Relational Object-based
Data History Hierarchically archived No hierarchy
Agility Fixed configuration Reconfigured anytime as needed
Security Mature Maturing
Primary Users Data analysists
Business professionals
Data Scientists
Technology RDBMS NoSQL DBMS
Hadoop
Other distributed file systems
„Data Lake může i tam, kam žádný slušný Data Warehouse nesmí.“
68.
69. Rozklíčováné zkratky
DW
• Data Warehouse
DL
• Data Lake
• Daily Load
EDW
• Enterprise Data
Warehouse
LDW
• Logical Data
Warehouse
BDP
• Big Data Platform
BI
• Business Intelligence
ML
• Machine Learning
MD
• Master Data
• Metadata
BD
• Big Data
DG
• Data Governance
DQ
• Data Quality
DS
• Data Source
• Data Stage
ETL
• Extract,
Transformation, Load
ELT
• Extract Load
Transformation
DP
• Data Platform
LDM
• Logical Data Model
PDM
• Physical Data Model
MDM
• Master Data
Management
RDM
• Reference Data
Management
DM
• Data Management
• Data Mart
DV
• Data Vault
• Data Visualization
• Data Virtualization
IDM
• Industry Data Model