SlideShare a Scribd company logo
1 of 69
Download to read offline
Data Management pro začátečníky
#8
22. 9. 2016
Prague Data Management Meetup
Agenda
• Prague Data Management Meetup
• Data Management pro začátečníky
Prague Data Management Meetup
Data Management
Získávaní dat
Ukládání dat
Zpracování dat
Interpretace dat
Použití dat
• Otevřená profesionální zájmová
skupina
• Každý je vítán (ať už v pasivní
nebo aktivní roli)
• Témat není nikdy dost
• Snaha o pravidelné měsíční
setkávání
• Existuje od září 2015
Historie
Datum Téma
10. 9. 2015 Data Management
14. 10. 2015 Data Lake
23. 11. 2015 Dark Data (without Dark Energy and Dark Force)
12. 1. 2016 Data Lake (Again)
7. 3. 2016 Sad Stories About DW Modeling (sad stories only)
23. 3. 2016 Self-service BI Street Battle
27. 4. 2016 Let's explore the new Microsoft PowerBI!
22. 9. 2016 Data Management pro začátečníky
17. 10. 2016 Small Big Data
22. 11. 2016 Základy modelování DW
Bez Data Managementu vznikají datové bažiny
Odvážný
Data Scientist
Velmi špatně
udržovaná
Data Platforma
Slibované zkratky
DW DL EDW LDW BDP BI
ML MD BD DG DQ DS
ETL ELT DP LDM PDM MDM
RDM DM DV IDM
Data Management
8
Celosvětový datový boom
9
1 exabyte = 1018 bytů
Za jednu minutu této prezentace vznikne:
350 000 tweetů na Twitteru
4 000 000 liků na Facebooku
100 000 hovorů přes Skype
300 hodin videa na YouTube
Spousta dalších dat
90% všech dat vzniklo v poslední dvou letech
Mezi lety 2010-2020 vzroste objem dat lidstva 50x
2010:
800 exabytů
2020:
40 000 exabytů
0
20
40
60
80
100
120
140
2011 2012 2013 2014 2015 2016 2017
Exabyty
IDC: Structured Versus Unstructured Data: The Balance of Power Continues to Shift. #247106. Table 1. Page 9
Struktura datového boomu
Data mimo RDBMS
rostou meziročně o
40%+
Data v RDBMS rostou
meziročně o 20%+
Temná strana datového boomu: Datová temnota
Nevyužitá data
88%
Využitá data
12%
Pouze 12% nových dat se
analyzuje
Tento poměr se v čase stále
zhoršuje…
Zdroj: IBM
Modernizace datových
platforem nutná!
Business Process
Analysis #2
Analysis #1
Funkční integrace
vs.
Datová integrace
Část dat se nikdy neuloží
Část dat se uloží chybně
Operativa
Analytika
Data Warehouse
• Konsolidovat data z nejrůznějších
zdrojů v požadované kvalitě a čase
• Poskytovat srozumitelné informace
různým účelům a skupinám uživatelů
• Poskytovat možnosti, které zajistí
flexibilní a účinný ad-hoc reporting a
analýzu
• Orientace na subjekt
• Integrace
• Nízká proměnlivost
• Historizace
• Hlavní perspektivy
• Datová integrace
• Datová úložiště
• Rozšíření
• Zpracování událostí (Complex Event
Processing) pro zpracování událostí
v reálném čase
• Aplikační integraci zejména pro integraci
v pokud možno reálném čase a podporu
provozních procesů
• Operational Data Store pro uložení
aktuálních dat, které jsou potřeba pro
podporu provozních procesů
• Platformu pro pokročilé analýzy (Big Dat)
EDW, DW, DSS, ADS, ADW, DP…
Typy DataWarehouse
Fyzická Data Warehouse
• Klasická relační databáze.
• Výhody:
• Reálné uložení dat snižuje nároky na
governance
• Stabilita a možnost transformací pro
mandatorní reporting.
• Snadnější standardní metody data
miningu
• Nevýhody:
• železo – Hardware, při fyzickém uložení
resp. přeuložení
• máme data vícekrát.
Logický Data Warehouse
• Data neukládám do konsolidované
struktury, ale říkám jak je jednotně číst.
• Nový trend – Big Data, Query Engine.
• Výhody:
• Data mám pouze jednou a to v podobě
primárního systému.
• Neztrácím informace fyzickými
transformacemi do jednotné struktury.
• Nevýhody:
• Náročná Governance
15
Data Comparison
Characteristic Operational
Database
Data Warehouse
Currency Current Historical
Details level Individual Individual and summary
Orientation Process Subject
Records per request Few Thousands
Normalization level Mostly normalized Normalization relaxed
Update level Highly volatile Mostly refreshed (non volatile)
Data model Relational Relational (star schemas) and
multidimensional (data cubes)
Source: Coursera
Schema Comparison (Same Data Domains)
Operational database Data warehouse
Customer
CustNo
CustFirstName
CustLastName
...
Order
OrdNo
OrdDate
...
Places
Employee
EmpNo
EmpFirstName
EmpLastName
...
Takes
Manages
Product
ProdNo
ProdName
ProdQOH
...
Contains
Qty
Customer
CustId
CustName
CustPhone
CustStreet
CustCity
CustState
CustZip
CustNation
Store
StoreId
StoreManager
StoreStreet
StoreCity
StoreState
StoreZip
StoreNation
DivId
DivName
DivManager
Sales
SalesNo
SalesUnits
SalesDollar
SalesCost
Item
ItemId
ItemName
ItemUnitPrice
ItemBrand
ItemCategory
TimeDim
TimeNo
TimeDay
TimeMonth
TimeQuarter
TimeYear
TimeDayOfWeek
TimeFiscalYear
ItemSales
CustSales
TimeSales
StoreSales
Source: Coursera
Těsný vztah OLTP vs. DWH
Adastra Information Management Reference Architecture
19
ODS
Operational
reporting
Enterprise DWH Big Data
Platform
Data Lake
Event
Processing
Semantic
Models
Advanced Analytics
Perceptual / cognitive intelligence
Information Management
Relational / Structured data Unstructured data Streaming
Data Workflow
Orchestration
Data Transformation /
Processing
Data
Management
Event Ingestion
Complex Event
Processing
Notifications
BI / Application
Integration
Machine Learning
In-database Data Mining, R
Recognition of human
interaction and intent
SMP and MPP
In-memory technologies
In-memory Columnar
In-memory technologies Hadoop, NoSQL
Business Intelligence / Data Delivery
Real-time DashboardsDashboards and visualizationsReports Self-service BIMobile BI
IoT Network
Field Gateway
Big data
OLAP
DWH Logical Data Layers
Stage Area
Relational Area
Consolidation Area
Data Mart Area
• Data Mart Area
• L2
• User Access Layer
• Consolidation Area
• Consolidated L1
• Common aggregates for L2
• Cleansed and consolidated data
• Relational Area
• Detailed L1
• Consistent, integrated, subject oriented
data, universal data structure, historical
data, maximal detail
• System of record
• Stage Area
• Copy of source systems
Extracts
Reports
Note: Consolidated and Detailed L1 can
share same data structures
Modernizace datových platforem
Technologické inovace
• Data Warehouse Appliance
• Data warehouse automation
• Sloupcové databáze, In-memory databáze, NoSQL databáze,
Grafové databáze
• Hadoop, Spark, Machine Learning
• Data streams
• Datová virtualizace
• Query engine
• Nástroje pro predikční analytiku
• Data Discovery
• Vizualizační nástroje
• Self-service BI nástroje
• Mobile BI
• Cloud (IaaS, PaaS, SaaS), Intelligence as Service
Architektonické inovace
• Data Factory
• Data Rafinery
• Analytic Data Store 2.0
• Networked BI
• Logical Data Warehouse
• Data Reservoir
• Data Lake
• Enterprise Data Lake
• Semantic Data Lake
• Data Lake 2.0
• Business Data Lake
• Enterprise Data Hub
• Data Sea
23
„Data jsou nová voda.“
Konsolidace
Liberalizace
Real DW in Real Numbers
03/2012
• 1200 L1 Tables
• 18 TB
• 3500 ETLs
• 1000 generic ETLs
• 2500 mapped ETLs
• 22 000 ETL executions every day
• More than 500 processed extracts
every working day
03/2014
• 1800 L1 Tables
• 34 TB
• 7000 ETLs
• 2200 generic ETLs
• 4800 mapped ETLs
• 40 000 ETL executions every day
• More than 1300 processed extracts
every working day
0
5
10
15
20
25
30
35
7.2.2010 7.2.2011 7.2.2012 7.2.2013 7.2.2014
Typy tabulek
Dimenze
SCD0
SCD1
SCD2
SCD3
SCD4
SCD6
Faktové tabulky
Snímky
Agregace
Číselníky
Data Management Implementation Process
Happy report users
Standard daily operation
Initial load
Deployment
Acceptance
Testing
ETL/ELT and workflow implementation
ETL/ELT and worklfow design
Physical model implementation
Logical and physical model design
Business Glossary, Data dictionary, conceptual data model
Source data analysis
Requirement analysis
Party
Product
Account
Application
Communication
General Ledger
Campaign Management
Collection
Accounting
Konceptuální datový
model
Logical
Party
Model
Party
Party Type
Individual
Individual
Entrepreneur
Corporate
Organization Unit
Employment
Position
Party Source
Instance Party
Authority
Source Systém
Record
Unified Party
Consolidated
Party
Household Party
Economically
Interconnected
Group
Party Role
Customer
Former Customer
Prospect
Employee
Partner
Agent
Non-customer
Supervisior
System ID First Name Family Name Czech Office
Client Flag
Business Sector Social Insurance
Number
AAA AA123 John Doe Yes Employee 45678
Involved
Party ID
First
Name
Family
Name
Birth Date Social Insurance
Number
System
1 John Doe 1.1.1990 45678 AAA
2 John Doe 45678 BBB
Involved
Party ID
System Alternative ID
1 AAA AA123
2 BBB 456
3 123456789
Location ID Email Location
Type
System
200 john@doe.com Email BBB
Classifaction
ID
Classification
Schema ID
Classification
Description
100 301 Yes
101 302 Employee
Involved
Party ID
Classifacti
on ID
Classification / Involved
Party Role Type
System
1 100 IP is classified by CL AAA
1 101 IP is classified by CL AAA
Location ID Involved
Party ID
Involved Party / Location
Role Type
System
200 2 LO is a contact address of IP BBB
Involved Party Alternative ID
Involved Party
Involved Party
Location Relationship
Location
Classification / Involved Party
Relationship
Extracts (L0):
SoR (L1):
Classifaction
Schema ID
Classification Schema
Description
301 Czech Office Client Flag
302 Business Sector
ClassificationClassification Schema
System ID First Name Family Name Email Birth Date Social Insurance
Number
BBB 456 John Doe john@doe.com 1.1.1990 45678
Involved
Party ID
Involved
Party Type
Involved
Party Name
Record
Type
System
1 Individual John Doe Instance AAA
2 Individual John Doe Instance BBB
3 Individual Master
Individual
Subject
Involved Party
ID
Object
Involved
Party ID
Involved Party /
Involved Party
Relationship Type
3 1 Consolidation
3 1 Consolidation
Involved Party / Involved
Party Relationship
ADS01_INSTADDR_SFC00_IM
ADS01_INSTADDR_CCB00_FRADS01_INSTADDR_ICB00_IM_ICB0
6
ADS01_INSTADDR_ADS01_IM_GE
N
ADS01_INSTADDR_AUT00_IM
ADS01_INSTADDR_ADS01_IM_GE
NA
ADS01_INSTADDR_ADS01_IM_GE
NB
ADS01_INSTADDR_ADS01_IM_MK
T
ADS01_INSTADDR_ADS01_IM_LNK
ADS01_INSTADDR_ALB00_FD_CO
NTADS01_INSTADDR_ALB00_FD_RESI
DADS01_INSTADDR_ALB00_IM_CO
NTADS01_INSTADDR_ALB00_IM_RES
ID
ADS01_INSTADDR_BND00_FR
ADS01_INSTADDR_CMD00_IMADS01_INSTADDR_COR00_FR_CO
NTADS01_INSTADDR_COR00_FR_PER
M
ADS01_INSTADDR_ERN00_ID
ADS01_INSTADDR_ERN00_IM
ADS01_INSTADDR_FIP00_FRADS01_INSTADDR_HYP00_FR_COR
PADS01_INSTADDR_HYP00_FR_PRI
V
ADS01_INSTADDR_IBS00_FRADS01_INSTADDR_ICB00_FD_CON
TADS01_INSTADDR_ICB00_FD_PER
M
ADS01_INSTADDR_ICB00_IM_CON
TADS01_INSTADDR_ICB00_FR_PER
MADS01_INSTADDR_IND00_IM_CO
NTADS01_INSTADDR_IND00_IM_PER
M
ADS01_INSTADDR_ING00_FD
ADS01_INSTADDR_ING00_IM_BEN
ADS01_INSTADDR_ING00_IM_CN
ADS01_INSTADDR_ING00_IM_EM
ADS01_INSTADDR_ING00_IM_PM
ADS01_INSTADDR_NAS00_IM
ADS01_INSTADDR_PUR00_UPADS01_INSTADDR_VIS00_FR_BHL
DRADS01_INSTADDR_VIS10_FR_CAR
D
ADS01_INSTADDR_CMD00_IM_A
ML
ADS01_INSTADDR_CCB00_FR_BADS01_INSTADDR_ERN00_IM_INS
CY
ADS01_INSTADDR_CRU00_FR_OFF
ADS01_INSTADDR_CRU00_IM_ON
ADS01_INSTADDR_EXT00_IM
ADS01_INSTADDR_CAP00_FR
ADS01_INSTADDR_HRD00_IMADS01_INSTADDR_HYP00_FR_SEL
COM
ADS01_INSTADDR_HYP00_FR_SELL
ADS01_INSTADDR_GRF00_IM
ADS01_INSTADDR_UDB00_FRADS01_INSTADDR_ALB00_FR_PER
SADS01_INSTADDR_ALB00_FR_OW
NADS01_INSTADDR_ALB00_FR_CO
MP
ADS01_INSTADDR_EXT00_FR_PRO
ADS01_INSTADDR_ADS01_ID_PROADS01_INSTADDR_ADS01_IM_CM
T
ADS01_INSTADDR_EXT00_IM_POSADS01_INSTADDR_VIS10_IM_CPE
RMADS01_INSTADR_AVQ00_FR_AVQ
01ADS01_INSTADR_AVQ00_FR_AVQ
02
ADS01_INSTADDR_TLS00_IM_OC
MT
ADS01_INSTADDR_ING00_IM_PFO
WP
ADS01_INSTADDR_ING00_IM_PFO
WC
ADS01_INSTADDR_ING00_IM_PFP
YP
ADS01_INSTADDR_ING00_IM_PFB
PE
ADS01_INSTADDR_ADS01_FD_PFADS01_INSTADDR_CAP00_FR_ISS
UER
ADS01_INSTADDR_SFC00_UP
INST_ADDR_KEY K K
LOCATED_ADDR_KEY U C U U U C C C U U
ADDR_PURP_KEY U
C +
U C U U U U C U C C C C C C U C U U
C +
U
C +
U C C C C K K C U K C
C +
U C U C C C U U U C C C C C C U C C C C C C C C C U
POS_KEY
C +
U C
C +
U C C C U U
INST_PT_KEY U U U U U U U U U U U U U U U U U U U U U U U U K K K U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
POS_CHAIN_KEY
C +
U C
C +
U C C C U
CNTRY_KEY U U U U U U U U U C U U U U U U U U C C C U U U U U U U U C U U U U U U C U U U U
STREET_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U I U U U U U U U U U U U U U U U U U U U U
STREET_NUM U U U U U U U U U U U U U C U U U U U U U U C U U U C C C U U U U U
CITY_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
LAND_REGISTRATION_
NUM U U U U U U U U U U C C U U U U U U U U
ZIP U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
SRC_SYS_ID
C +
U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K
SRC_ID U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K I I U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K
DEL_FLAG U
C +
U U
C +
U
C +
U
C +
U
C +
U U U U U U U
C +
U
C +
U
C +
U
C +
U
C +
U U
INS_PROCESS_ID
INS_DT
UPD_PROCESS_ID
UPD_DT
UPD_EFF_DATE U
ADDR_VALID_KEY U C U U U U C C U
APPL_KEY
C +
U C
C +
U C C U
VALID_DATE U C U U U C C C C C C C C C C C C C C C C C C C C C U C
CUST_VERIF_FLAG U U U U U U
INST_ADDR_SINCE U U U U U C U U U U U
INST_ADDR_TO U U U U U U U U U
SRC_UPD_DT
EXTRACT_DT
RN U U U U U U U U I I I U
RULE_SET_KEY C C C C U
BUS_KEY U U C C C U U
ORIG_INST_ADDR_KEY U U U D U C C C C C
BUS_UPD_DATE U U
LATITUDE U U U U
LONGITUDE U U U U
ADDR_FULL_TEXT U U
ADDR_NOTE U U
Table
mappings
from many
sources
examples
Star Schema vs. Snowflake Schema
Source: Wikipedia
OLAP
[ WITH <SELECT WITH clause>
[ , <SELECT WITH clause> ... ] ]
SELECT [ * | ( <SELECT query
axis clause> [ , <SELECT query
axis clause> ... ] ) ] FROM
<SELECT subcube clause> [
<SELECT slicer axis clause> ] [
<SELECT cell property list
clause> ]
Source: Microsoft
MDX Example
Datová kvalita: Data nebývají konzistentní
Zdrojový
systém #1
Zdrojový
systém #2
Jméno Příjmení RČ Adresa
Pepa Radost 111111/1111 Na Kovárně 3, Bráník, Praha
Josef Radost 111111/1111 Praha
Martin Matuszczyk 666/666 SlovenskoPolského přátelství 4, Praha
Robert Miškuf 999999/9999 Slovensko-polského přátelství 4, Praha
ID Jméno Příjmení RC TYP ICO Město Ulice Popis
1 Pepa Radost 111111/1111 FO Praha Na Kovárně 3 Branik
4 Josef Radost 111111/1111 FOP 11150 Praha
2 Martin Matuszczyk 666/666 FO Praha
Slovenskopolského
přátelství 4,
3 Robert Miškuf 999999/9999 FO Praha
SlovenskoPolského
přátelství 4, 4. patro
Kdo je Leoš Mráček?
35
ID Titul1 Jmeno Prijmeni Titul 2 RČ
1 ing. Leoš Mráček MBA 691117/3457
2 ing. Leoš Mráček MBA 6911173457
3 Leos Mracek 11.17.1969
4 ing. Leoš Mráček MBA NULL
5 Leoš Mráček, MBA 691117/3457
6 ing. Leo3 Mr8ček 999999/9999
7 Mráček Leoš 691117/3455
8 ing, Leoš Mraeek MBA 691117/3475
9 ing. Leoš Mra4ek, MBA 0
10 ing. MBA Leoš Mrácek 6911173457
11 ing. Leoš Mráček, MBA 6910174375
12 Jana Votavová 6910174376
13 Karel Novák 999999/9999
Matching / Unifikace
36
Records
Primary groups
Candidate groups
John Smith
null
John Smith
null
Jane Smith
420347213
Jane Watson
420347213
J Smith
420347213
J Smith
null
Jane Watson
420347213
John Smith
095252433
John Smith
095252433
John Smith
095242434
John Smith
095242434
Janette Smith
null
Secondary groups
?
Batch Data Transformation: ETL vs. ELT
Extract Load Transformation
Extract Transformation Load
Lambda Architecture Kappa Architecture
SMP MPP
Partitioning
• Rozdělení tabulky na více oddílů (= partition)
• Výhody
• menší množství dat (= rychlost dotazů)
• omezení zamykání (= rychlost dotazů)
• možnost nastavení indexů a jiných atributů zvlášť pro každý oddíl
• Nevýhody
• údržba
Regular
table
Partitioned
table
Index Organized
Table
Paralelismus
• Při nahrávání rozsáhlých datových skladů problém s časovým prostorem
• Řešení
• „lepší“ zdroje (= zvýšení výkonu)
• změna workflow
• Změna workflow má zásadní dopad na výkon řešení
• zrušení prostojů
• možnost využití zdrojů, které jinak není možné využít
• Jednou z možností změny workflow - paralelismus
Technologie
Stack Others
RDBMS
Oracle Database
MySQL
Microsoft SQL Server
Microsoft SQL Server APS
Azure SQL Data Warehouse
Amazon Redshift
HP Vertica
IBM dashDB
IBM DB2
PostgreSQL
SAP HANA
SAP IQ
SAP SQL Anywhere
Teradata Database
ETL/ELT
Oracle Data Integrator
Oracle Golden Gate
MS Integration Services
Azure Data Factory
Clover ETL
IBM InfoSphere DataStage
Informatica PowerCenter
Pentaho Data Integration
SAP Data Services
SAS Data Integration
Talend Data Integration
BI & Analytics
Oracle Big Data Discovery
Oracle Business Intelligence
Oracle Endeca Data Discovery
Oracle Essbase
Oracle R Enterprise
Azure Machine Learning
MS Analysis Services
MS Datazen
MS Excel BI
MS Power BI
MS Reporting Services
Revolution R
Amazon QuickSight
GoodData
IBM Cognos Reporting
IBM Watson Analytics
Microstrategy Analytics
Qlik Sense
Qlikview
SAP Business Objects
SAS Visual Analytics
Tableau
Teradata Aster Discovery Platform
Appliances
Oracle Exadata
Oracle SuperCluster
MS Analytic Platform System
IBM Netezza Twinfin
SAP HANA
Teradata Data Warehouse Appliance
HP Vertica Analytics System
+ Big Data Stack
44Source: Gartner
Source: Gartner
Microsoft SQL Server 2016
46
Excel + Power BI add-ins
Query, Pivot, View, Map
SharePoint
Power Pivot Gallery, Power View
Excel
Data Mining
Power BI Desktop Power BI Portal
Azure ML
End-to-End DW & Big Data Platform, Driving Analytics on any Data
Power BI Mobile App
Analytics Platform System
(APS)
Oracle Stack prakticky
47
CloverETL
Informatica PowerCenter
Oracle Data Integrator
Pentaho Data Integration
Talend Open Studio
IBM Infosphere DataStage
53
Change
Data
Capture
Source: Oracle
CASE
55
Tools to create data models
Metadata
56
The Evolution of Business Intelligence
57
Traditional Analytics
1st Generation Analytics (Query & Reporting)
2nd Generation Analytics (OLAP, Data Warehousing)
Advanced Analytics/Optimization
Rules
Predictive Analytics
Real-time and traditional Data Mining
Stream Analytics*
Real-time, continuous, sequential analysis
(ranging from basic to advanced analytics)
* In lieu of stream analytics, “embedded analytics,” although architecturally
different, could potentially play the same role
3rd-Generation BI
Legacy BI
“New Traditional” Analytics
“2.5-Gen” Analytics (In-Memory OLAP, Search-Based)
Data Visualization & Reporting
 Spark lines
̶ Trends
 Bullet graphs
̶ KPI measurements, Scorecards
 Graph matrix (small multiples / trellis)
̶ Vizualizace multidimenzionálních dat
̶ Série grafů pro porovnání naměřených výsledků za daných podmínek (např.
prodej kategorií produktů v regionech)
 Scatter plot, Interactive bubble graph
̶ Změny v čase
̶ Osa X: čas, Osa Y: meření (např. prodej)
̶ Další možnosti: barva (kategorie produktu), velikost bubliny (počet
zákazníků)
 Heat or tree maps
Oracle Business Intelligence
• On-premise i cloud varianta
• Podpora pro pokročilou analytiku, self-service
vizualizace i Mobile BI
Oracle Big Data Discovery
• Nativní self-service analytika pro Big Data řešení
59
Self-service BI
• Definition • Self-Service BI involves:
• Data availability
• Availability of all relevant / required / useful / valuable data
• Ability to process and save data
• Sandboxing – how to create it within the infrastructure, how to create security settings,
assign resources, manage outputs and how to clean the sandbox regularly.
• SQL or some user-friendly ETL
• Ability to access the heterogeneous data
• Connection to various/heterogeneous data sources and import of the relevant data for
analyses (data mashups)
• Definition of the schematic layer for the provision of data to non-expert users
• Data discovery
• Tools for profiling, statistics and data mining
• Effective tools for data visualization
• Sparklines, Bullet chart, Matrix chart (small multiples / trellis), Scatter plot, interactive
Bubble chart, Heat map, Radius chart, Network chart, Maps, Geoinformation…
• Collaboration
• Ability to publish and share created reports and analyses
• Ability to transfer ad-hoc and self-service outputs into regular reporting cycles
• Ability to share information, classifications, discuss, comment and blog
• Self-Service BI is set of data
management technologies,
processes and methods that
enable flexible and fast data
research, validation of
prototypes, ad-hoc analyses and
information sharing with minimal
involvement of the IT
department.
Self-service BI Joke
Tableau Desktop Qlik Sense Desktop
Microsoft Power BI Desktop SAS Visual Analytics
Mobile BI
All versions from 2016-03-12
CollabMobile https://youtu.be/49If_G5Llg0
Datazen https://youtu.be/ePCMoqSj1-k
IBM Cognos https://youtu.be/kZEdS29HBeE
Infor Dashboards https://youtu.be/CO2v1eXjPXI
Microstrategy https://youtu.be/qcdaQPc3fj4
Oracle BI HD https://youtu.be/Jnb1jDVfvUU
Power BI https://youtu.be/kaxSQEevMZI
Qlik Sense https://youtu.be/WX1R_ynbWYI
QlikView https://youtu.be/EJYC9cnCjlU
RoamBI https://youtu.be/GG5SmfRfFTs
Salesforce Wave Analytics https://youtu.be/I5MHagpxXQ0
SAP BI https://youtu.be/T0DcY1eS0sA
SAS BI https://youtu.be/SNjYpY7hulw
Tableau https://youtu.be/yCo2Z2ZhUoU
Tibco Metrics https://youtu.be/VTfQxO8nTNs
BI Office https://youtu.be/H7lTJxfZRsc
Big Data
What
about
Value?
Srovnání Data Warehouse vs. Data Lake
Data Warehouse Data Lake (Big Data)
Data Structured Structured
Semi-Structured
Unstructured
Data Processing Processed Raw
Data Schema Schema-on-write Schema-on-read
Data Model Relational Object-based
Data History Hierarchically archived No hierarchy
Agility Fixed configuration Reconfigured anytime as needed
Security Mature Maturing
Primary Users Data analysists
Business professionals
Data Scientists
Technology RDBMS NoSQL DBMS
Hadoop
Other distributed file systems
„Data Lake může i tam, kam žádný slušný Data Warehouse nesmí.“
Rozklíčováné zkratky
DW
• Data Warehouse
DL
• Data Lake
• Daily Load
EDW
• Enterprise Data
Warehouse
LDW
• Logical Data
Warehouse
BDP
• Big Data Platform
BI
• Business Intelligence
ML
• Machine Learning
MD
• Master Data
• Metadata
BD
• Big Data
DG
• Data Governance
DQ
• Data Quality
DS
• Data Source
• Data Stage
ETL
• Extract,
Transformation, Load
ELT
• Extract Load
Transformation
DP
• Data Platform
LDM
• Logical Data Model
PDM
• Physical Data Model
MDM
• Master Data
Management
RDM
• Reference Data
Management
DM
• Data Management
• Data Mart
DV
• Data Vault
• Data Visualization
• Data Virtualization
IDM
• Industry Data Model

More Related Content

Similar to Prague data management meetup 2016-09-22

Oracle business intelligence
Oracle business intelligenceOracle business intelligence
Oracle business intelligenceOracleSK
 
BIInfrastructure
BIInfrastructureBIInfrastructure
BIInfrastructureJan Bízik
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planPetra Dedicova
 
Od atributu k reportu
Od atributu k reportuOd atributu k reportu
Od atributu k reportuOKsystem
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2MarketingArrowECS_CZ
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)Tomas Moser
 
BI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIBI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIOKsystem
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Taste Medio
 
Data Spring - SAS - Visual Analytics jako služba
Data Spring - SAS - Visual Analytics jako službaData Spring - SAS - Visual Analytics jako služba
Data Spring - SAS - Visual Analytics jako službaMarketingArrowECS_CZ
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
 
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciEXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciTECHNODAT, CAE - systémy, s.r.o.
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planUstredni knihovna VUT
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence PsaniPraci.cz
 
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmy
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmySitewell EIRA: podpora facility managementu a řízení provozu pro firmy
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmyMojmír Macek
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPIJan Lysý
 
Open source technology stack
Open source technology stackOpen source technology stack
Open source technology stackMiloslav Hašek
 
Odborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileOdborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileProfinit
 
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
 

Similar to Prague data management meetup 2016-09-22 (20)

Oracle business intelligence
Oracle business intelligenceOracle business intelligence
Oracle business intelligence
 
SAS - Integrace dat
SAS - Integrace datSAS - Integrace dat
SAS - Integrace dat
 
BIInfrastructure
BIInfrastructureBIInfrastructure
BIInfrastructure
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
Od atributu k reportu
Od atributu k reportuOd atributu k reportu
Od atributu k reportu
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
 
BI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BIBI Forum 2011 - Jak zrychlit analytické BI
BI Forum 2011 - Jak zrychlit analytické BI
 
Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)Jak se mění práce analytika (Martin Bosák)
Jak se mění práce analytika (Martin Bosák)
 
Data Spring - SAS - Visual Analytics jako služba
Data Spring - SAS - Visual Analytics jako službaData Spring - SAS - Visual Analytics jako služba
Data Spring - SAS - Visual Analytics jako služba
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
 
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciEXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
CSAS_v06
CSAS_v06CSAS_v06
CSAS_v06
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence
 
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmy
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmySitewell EIRA: podpora facility managementu a řízení provozu pro firmy
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmy
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPI
 
Open source technology stack
Open source technology stackOpen source technology stack
Open source technology stack
 
Odborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum MobileOdborná snídaně: Datový sklad jako Perpetuum Mobile
Odborná snídaně: Datový sklad jako Perpetuum Mobile
 
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
 

More from Martin Bém

Prague data management meetup #30 2019-10-04
Prague data management meetup #30 2019-10-04Prague data management meetup #30 2019-10-04
Prague data management meetup #30 2019-10-04Martin Bém
 
Prague data management meetup #31 2020-01-27
Prague data management meetup #31 2020-01-27Prague data management meetup #31 2020-01-27
Prague data management meetup #31 2020-01-27Martin Bém
 
Pitfalls of Data Warehousing_2019-04-24
Pitfalls of Data Warehousing_2019-04-24Pitfalls of Data Warehousing_2019-04-24
Pitfalls of Data Warehousing_2019-04-24Martin Bém
 
Meetup 2018-10-23
Meetup 2018-10-23Meetup 2018-10-23
Meetup 2018-10-23Martin Bém
 
Prague data management meetup 2018-05-22
Prague data management meetup 2018-05-22Prague data management meetup 2018-05-22
Prague data management meetup 2018-05-22Martin Bém
 
Prague data management meetup 2018-03-27
Prague data management meetup 2018-03-27Prague data management meetup 2018-03-27
Prague data management meetup 2018-03-27Martin Bém
 
Prague data management meetup 2018-02-27
Prague data management meetup 2018-02-27Prague data management meetup 2018-02-27
Prague data management meetup 2018-02-27Martin Bém
 
Prague data management meetup 2018-01-30
Prague data management meetup 2018-01-30Prague data management meetup 2018-01-30
Prague data management meetup 2018-01-30Martin Bém
 
Prague data management meetup 2017-11-21
Prague data management meetup 2017-11-21Prague data management meetup 2017-11-21
Prague data management meetup 2017-11-21Martin Bém
 
Prague data management meetup 2017-09-26
Prague data management meetup 2017-09-26Prague data management meetup 2017-09-26
Prague data management meetup 2017-09-26Martin Bém
 
Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16Martin Bém
 
Prague data management meetup 2017-03-28
Prague data management meetup 2017-03-28Prague data management meetup 2017-03-28
Prague data management meetup 2017-03-28Martin Bém
 
Prague data management meetup 2017-04-25
Prague data management meetup 2017-04-25Prague data management meetup 2017-04-25
Prague data management meetup 2017-04-25Martin Bém
 
Prague data management meetup 2017-02-28
Prague data management meetup 2017-02-28Prague data management meetup 2017-02-28
Prague data management meetup 2017-02-28Martin Bém
 
Prague data management meetup 2016-11-22
Prague data management meetup 2016-11-22Prague data management meetup 2016-11-22
Prague data management meetup 2016-11-22Martin Bém
 
Prague data management meetup 2016-03-07
Prague data management meetup 2016-03-07Prague data management meetup 2016-03-07
Prague data management meetup 2016-03-07Martin Bém
 
Prague data management meetup 2016-01-12 pub
Prague data management meetup 2016-01-12 pubPrague data management meetup 2016-01-12 pub
Prague data management meetup 2016-01-12 pubMartin Bém
 
Prague data management meetup 2015 11-23
Prague data management meetup 2015 11-23Prague data management meetup 2015 11-23
Prague data management meetup 2015 11-23Martin Bém
 

More from Martin Bém (18)

Prague data management meetup #30 2019-10-04
Prague data management meetup #30 2019-10-04Prague data management meetup #30 2019-10-04
Prague data management meetup #30 2019-10-04
 
Prague data management meetup #31 2020-01-27
Prague data management meetup #31 2020-01-27Prague data management meetup #31 2020-01-27
Prague data management meetup #31 2020-01-27
 
Pitfalls of Data Warehousing_2019-04-24
Pitfalls of Data Warehousing_2019-04-24Pitfalls of Data Warehousing_2019-04-24
Pitfalls of Data Warehousing_2019-04-24
 
Meetup 2018-10-23
Meetup 2018-10-23Meetup 2018-10-23
Meetup 2018-10-23
 
Prague data management meetup 2018-05-22
Prague data management meetup 2018-05-22Prague data management meetup 2018-05-22
Prague data management meetup 2018-05-22
 
Prague data management meetup 2018-03-27
Prague data management meetup 2018-03-27Prague data management meetup 2018-03-27
Prague data management meetup 2018-03-27
 
Prague data management meetup 2018-02-27
Prague data management meetup 2018-02-27Prague data management meetup 2018-02-27
Prague data management meetup 2018-02-27
 
Prague data management meetup 2018-01-30
Prague data management meetup 2018-01-30Prague data management meetup 2018-01-30
Prague data management meetup 2018-01-30
 
Prague data management meetup 2017-11-21
Prague data management meetup 2017-11-21Prague data management meetup 2017-11-21
Prague data management meetup 2017-11-21
 
Prague data management meetup 2017-09-26
Prague data management meetup 2017-09-26Prague data management meetup 2017-09-26
Prague data management meetup 2017-09-26
 
Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16Prague data management meetup 2017-05-16
Prague data management meetup 2017-05-16
 
Prague data management meetup 2017-03-28
Prague data management meetup 2017-03-28Prague data management meetup 2017-03-28
Prague data management meetup 2017-03-28
 
Prague data management meetup 2017-04-25
Prague data management meetup 2017-04-25Prague data management meetup 2017-04-25
Prague data management meetup 2017-04-25
 
Prague data management meetup 2017-02-28
Prague data management meetup 2017-02-28Prague data management meetup 2017-02-28
Prague data management meetup 2017-02-28
 
Prague data management meetup 2016-11-22
Prague data management meetup 2016-11-22Prague data management meetup 2016-11-22
Prague data management meetup 2016-11-22
 
Prague data management meetup 2016-03-07
Prague data management meetup 2016-03-07Prague data management meetup 2016-03-07
Prague data management meetup 2016-03-07
 
Prague data management meetup 2016-01-12 pub
Prague data management meetup 2016-01-12 pubPrague data management meetup 2016-01-12 pub
Prague data management meetup 2016-01-12 pub
 
Prague data management meetup 2015 11-23
Prague data management meetup 2015 11-23Prague data management meetup 2015 11-23
Prague data management meetup 2015 11-23
 

Prague data management meetup 2016-09-22

  • 1. Data Management pro začátečníky #8 22. 9. 2016 Prague Data Management Meetup
  • 2. Agenda • Prague Data Management Meetup • Data Management pro začátečníky
  • 3. Prague Data Management Meetup Data Management Získávaní dat Ukládání dat Zpracování dat Interpretace dat Použití dat • Otevřená profesionální zájmová skupina • Každý je vítán (ať už v pasivní nebo aktivní roli) • Témat není nikdy dost • Snaha o pravidelné měsíční setkávání • Existuje od září 2015
  • 4. Historie Datum Téma 10. 9. 2015 Data Management 14. 10. 2015 Data Lake 23. 11. 2015 Dark Data (without Dark Energy and Dark Force) 12. 1. 2016 Data Lake (Again) 7. 3. 2016 Sad Stories About DW Modeling (sad stories only) 23. 3. 2016 Self-service BI Street Battle 27. 4. 2016 Let's explore the new Microsoft PowerBI! 22. 9. 2016 Data Management pro začátečníky 17. 10. 2016 Small Big Data 22. 11. 2016 Základy modelování DW
  • 5. Bez Data Managementu vznikají datové bažiny Odvážný Data Scientist Velmi špatně udržovaná Data Platforma
  • 6. Slibované zkratky DW DL EDW LDW BDP BI ML MD BD DG DQ DS ETL ELT DP LDM PDM MDM RDM DM DV IDM
  • 8. 8
  • 9. Celosvětový datový boom 9 1 exabyte = 1018 bytů Za jednu minutu této prezentace vznikne: 350 000 tweetů na Twitteru 4 000 000 liků na Facebooku 100 000 hovorů přes Skype 300 hodin videa na YouTube Spousta dalších dat 90% všech dat vzniklo v poslední dvou letech Mezi lety 2010-2020 vzroste objem dat lidstva 50x 2010: 800 exabytů 2020: 40 000 exabytů
  • 10. 0 20 40 60 80 100 120 140 2011 2012 2013 2014 2015 2016 2017 Exabyty IDC: Structured Versus Unstructured Data: The Balance of Power Continues to Shift. #247106. Table 1. Page 9 Struktura datového boomu Data mimo RDBMS rostou meziročně o 40%+ Data v RDBMS rostou meziročně o 20%+
  • 11. Temná strana datového boomu: Datová temnota Nevyužitá data 88% Využitá data 12% Pouze 12% nových dat se analyzuje Tento poměr se v čase stále zhoršuje… Zdroj: IBM Modernizace datových platforem nutná!
  • 12.
  • 13. Business Process Analysis #2 Analysis #1 Funkční integrace vs. Datová integrace Část dat se nikdy neuloží Část dat se uloží chybně Operativa Analytika
  • 14. Data Warehouse • Konsolidovat data z nejrůznějších zdrojů v požadované kvalitě a čase • Poskytovat srozumitelné informace různým účelům a skupinám uživatelů • Poskytovat možnosti, které zajistí flexibilní a účinný ad-hoc reporting a analýzu • Orientace na subjekt • Integrace • Nízká proměnlivost • Historizace • Hlavní perspektivy • Datová integrace • Datová úložiště • Rozšíření • Zpracování událostí (Complex Event Processing) pro zpracování událostí v reálném čase • Aplikační integraci zejména pro integraci v pokud možno reálném čase a podporu provozních procesů • Operational Data Store pro uložení aktuálních dat, které jsou potřeba pro podporu provozních procesů • Platformu pro pokročilé analýzy (Big Dat) EDW, DW, DSS, ADS, ADW, DP…
  • 15. Typy DataWarehouse Fyzická Data Warehouse • Klasická relační databáze. • Výhody: • Reálné uložení dat snižuje nároky na governance • Stabilita a možnost transformací pro mandatorní reporting. • Snadnější standardní metody data miningu • Nevýhody: • železo – Hardware, při fyzickém uložení resp. přeuložení • máme data vícekrát. Logický Data Warehouse • Data neukládám do konsolidované struktury, ale říkám jak je jednotně číst. • Nový trend – Big Data, Query Engine. • Výhody: • Data mám pouze jednou a to v podobě primárního systému. • Neztrácím informace fyzickými transformacemi do jednotné struktury. • Nevýhody: • Náročná Governance 15
  • 16. Data Comparison Characteristic Operational Database Data Warehouse Currency Current Historical Details level Individual Individual and summary Orientation Process Subject Records per request Few Thousands Normalization level Mostly normalized Normalization relaxed Update level Highly volatile Mostly refreshed (non volatile) Data model Relational Relational (star schemas) and multidimensional (data cubes) Source: Coursera
  • 17. Schema Comparison (Same Data Domains) Operational database Data warehouse Customer CustNo CustFirstName CustLastName ... Order OrdNo OrdDate ... Places Employee EmpNo EmpFirstName EmpLastName ... Takes Manages Product ProdNo ProdName ProdQOH ... Contains Qty Customer CustId CustName CustPhone CustStreet CustCity CustState CustZip CustNation Store StoreId StoreManager StoreStreet StoreCity StoreState StoreZip StoreNation DivId DivName DivManager Sales SalesNo SalesUnits SalesDollar SalesCost Item ItemId ItemName ItemUnitPrice ItemBrand ItemCategory TimeDim TimeNo TimeDay TimeMonth TimeQuarter TimeYear TimeDayOfWeek TimeFiscalYear ItemSales CustSales TimeSales StoreSales Source: Coursera
  • 19. Adastra Information Management Reference Architecture 19 ODS Operational reporting Enterprise DWH Big Data Platform Data Lake Event Processing Semantic Models Advanced Analytics Perceptual / cognitive intelligence Information Management Relational / Structured data Unstructured data Streaming Data Workflow Orchestration Data Transformation / Processing Data Management Event Ingestion Complex Event Processing Notifications BI / Application Integration Machine Learning In-database Data Mining, R Recognition of human interaction and intent SMP and MPP In-memory technologies In-memory Columnar In-memory technologies Hadoop, NoSQL Business Intelligence / Data Delivery Real-time DashboardsDashboards and visualizationsReports Self-service BIMobile BI IoT Network Field Gateway Big data OLAP
  • 20.
  • 21. DWH Logical Data Layers Stage Area Relational Area Consolidation Area Data Mart Area • Data Mart Area • L2 • User Access Layer • Consolidation Area • Consolidated L1 • Common aggregates for L2 • Cleansed and consolidated data • Relational Area • Detailed L1 • Consistent, integrated, subject oriented data, universal data structure, historical data, maximal detail • System of record • Stage Area • Copy of source systems Extracts Reports Note: Consolidated and Detailed L1 can share same data structures
  • 22.
  • 23. Modernizace datových platforem Technologické inovace • Data Warehouse Appliance • Data warehouse automation • Sloupcové databáze, In-memory databáze, NoSQL databáze, Grafové databáze • Hadoop, Spark, Machine Learning • Data streams • Datová virtualizace • Query engine • Nástroje pro predikční analytiku • Data Discovery • Vizualizační nástroje • Self-service BI nástroje • Mobile BI • Cloud (IaaS, PaaS, SaaS), Intelligence as Service Architektonické inovace • Data Factory • Data Rafinery • Analytic Data Store 2.0 • Networked BI • Logical Data Warehouse • Data Reservoir • Data Lake • Enterprise Data Lake • Semantic Data Lake • Data Lake 2.0 • Business Data Lake • Enterprise Data Hub • Data Sea 23 „Data jsou nová voda.“ Konsolidace Liberalizace
  • 24. Real DW in Real Numbers 03/2012 • 1200 L1 Tables • 18 TB • 3500 ETLs • 1000 generic ETLs • 2500 mapped ETLs • 22 000 ETL executions every day • More than 500 processed extracts every working day 03/2014 • 1800 L1 Tables • 34 TB • 7000 ETLs • 2200 generic ETLs • 4800 mapped ETLs • 40 000 ETL executions every day • More than 1300 processed extracts every working day 0 5 10 15 20 25 30 35 7.2.2010 7.2.2011 7.2.2012 7.2.2013 7.2.2014
  • 26. Data Management Implementation Process Happy report users Standard daily operation Initial load Deployment Acceptance Testing ETL/ELT and workflow implementation ETL/ELT and worklfow design Physical model implementation Logical and physical model design Business Glossary, Data dictionary, conceptual data model Source data analysis Requirement analysis
  • 28. Logical Party Model Party Party Type Individual Individual Entrepreneur Corporate Organization Unit Employment Position Party Source Instance Party Authority Source Systém Record Unified Party Consolidated Party Household Party Economically Interconnected Group Party Role Customer Former Customer Prospect Employee Partner Agent Non-customer Supervisior
  • 29.
  • 30. System ID First Name Family Name Czech Office Client Flag Business Sector Social Insurance Number AAA AA123 John Doe Yes Employee 45678 Involved Party ID First Name Family Name Birth Date Social Insurance Number System 1 John Doe 1.1.1990 45678 AAA 2 John Doe 45678 BBB Involved Party ID System Alternative ID 1 AAA AA123 2 BBB 456 3 123456789 Location ID Email Location Type System 200 john@doe.com Email BBB Classifaction ID Classification Schema ID Classification Description 100 301 Yes 101 302 Employee Involved Party ID Classifacti on ID Classification / Involved Party Role Type System 1 100 IP is classified by CL AAA 1 101 IP is classified by CL AAA Location ID Involved Party ID Involved Party / Location Role Type System 200 2 LO is a contact address of IP BBB Involved Party Alternative ID Involved Party Involved Party Location Relationship Location Classification / Involved Party Relationship Extracts (L0): SoR (L1): Classifaction Schema ID Classification Schema Description 301 Czech Office Client Flag 302 Business Sector ClassificationClassification Schema System ID First Name Family Name Email Birth Date Social Insurance Number BBB 456 John Doe john@doe.com 1.1.1990 45678 Involved Party ID Involved Party Type Involved Party Name Record Type System 1 Individual John Doe Instance AAA 2 Individual John Doe Instance BBB 3 Individual Master Individual Subject Involved Party ID Object Involved Party ID Involved Party / Involved Party Relationship Type 3 1 Consolidation 3 1 Consolidation Involved Party / Involved Party Relationship
  • 31. ADS01_INSTADDR_SFC00_IM ADS01_INSTADDR_CCB00_FRADS01_INSTADDR_ICB00_IM_ICB0 6 ADS01_INSTADDR_ADS01_IM_GE N ADS01_INSTADDR_AUT00_IM ADS01_INSTADDR_ADS01_IM_GE NA ADS01_INSTADDR_ADS01_IM_GE NB ADS01_INSTADDR_ADS01_IM_MK T ADS01_INSTADDR_ADS01_IM_LNK ADS01_INSTADDR_ALB00_FD_CO NTADS01_INSTADDR_ALB00_FD_RESI DADS01_INSTADDR_ALB00_IM_CO NTADS01_INSTADDR_ALB00_IM_RES ID ADS01_INSTADDR_BND00_FR ADS01_INSTADDR_CMD00_IMADS01_INSTADDR_COR00_FR_CO NTADS01_INSTADDR_COR00_FR_PER M ADS01_INSTADDR_ERN00_ID ADS01_INSTADDR_ERN00_IM ADS01_INSTADDR_FIP00_FRADS01_INSTADDR_HYP00_FR_COR PADS01_INSTADDR_HYP00_FR_PRI V ADS01_INSTADDR_IBS00_FRADS01_INSTADDR_ICB00_FD_CON TADS01_INSTADDR_ICB00_FD_PER M ADS01_INSTADDR_ICB00_IM_CON TADS01_INSTADDR_ICB00_FR_PER MADS01_INSTADDR_IND00_IM_CO NTADS01_INSTADDR_IND00_IM_PER M ADS01_INSTADDR_ING00_FD ADS01_INSTADDR_ING00_IM_BEN ADS01_INSTADDR_ING00_IM_CN ADS01_INSTADDR_ING00_IM_EM ADS01_INSTADDR_ING00_IM_PM ADS01_INSTADDR_NAS00_IM ADS01_INSTADDR_PUR00_UPADS01_INSTADDR_VIS00_FR_BHL DRADS01_INSTADDR_VIS10_FR_CAR D ADS01_INSTADDR_CMD00_IM_A ML ADS01_INSTADDR_CCB00_FR_BADS01_INSTADDR_ERN00_IM_INS CY ADS01_INSTADDR_CRU00_FR_OFF ADS01_INSTADDR_CRU00_IM_ON ADS01_INSTADDR_EXT00_IM ADS01_INSTADDR_CAP00_FR ADS01_INSTADDR_HRD00_IMADS01_INSTADDR_HYP00_FR_SEL COM ADS01_INSTADDR_HYP00_FR_SELL ADS01_INSTADDR_GRF00_IM ADS01_INSTADDR_UDB00_FRADS01_INSTADDR_ALB00_FR_PER SADS01_INSTADDR_ALB00_FR_OW NADS01_INSTADDR_ALB00_FR_CO MP ADS01_INSTADDR_EXT00_FR_PRO ADS01_INSTADDR_ADS01_ID_PROADS01_INSTADDR_ADS01_IM_CM T ADS01_INSTADDR_EXT00_IM_POSADS01_INSTADDR_VIS10_IM_CPE RMADS01_INSTADR_AVQ00_FR_AVQ 01ADS01_INSTADR_AVQ00_FR_AVQ 02 ADS01_INSTADDR_TLS00_IM_OC MT ADS01_INSTADDR_ING00_IM_PFO WP ADS01_INSTADDR_ING00_IM_PFO WC ADS01_INSTADDR_ING00_IM_PFP YP ADS01_INSTADDR_ING00_IM_PFB PE ADS01_INSTADDR_ADS01_FD_PFADS01_INSTADDR_CAP00_FR_ISS UER ADS01_INSTADDR_SFC00_UP INST_ADDR_KEY K K LOCATED_ADDR_KEY U C U U U C C C U U ADDR_PURP_KEY U C + U C U U U U C U C C C C C C U C U U C + U C + U C C C C K K C U K C C + U C U C C C U U U C C C C C C U C C C C C C C C C U POS_KEY C + U C C + U C C C U U INST_PT_KEY U U U U U U U U U U U U U U U U U U U U U U U U K K K U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U POS_CHAIN_KEY C + U C C + U C C C U CNTRY_KEY U U U U U U U U U C U U U U U U U U C C C U U U U U U U U C U U U U U U C U U U U STREET_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U I U U U U U U U U U U U U U U U U U U U U STREET_NUM U U U U U U U U U U U U U C U U U U U U U U C U U U C C C U U U U U CITY_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U LAND_REGISTRATION_ NUM U U U U U U U U U U C C U U U U U U U U ZIP U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U SRC_SYS_ID C + U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K SRC_ID U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K I I U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K DEL_FLAG U C + U U C + U C + U C + U C + U U U U U U U C + U C + U C + U C + U C + U U INS_PROCESS_ID INS_DT UPD_PROCESS_ID UPD_DT UPD_EFF_DATE U ADDR_VALID_KEY U C U U U U C C U APPL_KEY C + U C C + U C C U VALID_DATE U C U U U C C C C C C C C C C C C C C C C C C C C C U C CUST_VERIF_FLAG U U U U U U INST_ADDR_SINCE U U U U U C U U U U U INST_ADDR_TO U U U U U U U U U SRC_UPD_DT EXTRACT_DT RN U U U U U U U U I I I U RULE_SET_KEY C C C C U BUS_KEY U U C C C U U ORIG_INST_ADDR_KEY U U U D U C C C C C BUS_UPD_DATE U U LATITUDE U U U U LONGITUDE U U U U ADDR_FULL_TEXT U U ADDR_NOTE U U Table mappings from many sources examples
  • 32. Star Schema vs. Snowflake Schema Source: Wikipedia
  • 33. OLAP [ WITH <SELECT WITH clause> [ , <SELECT WITH clause> ... ] ] SELECT [ * | ( <SELECT query axis clause> [ , <SELECT query axis clause> ... ] ) ] FROM <SELECT subcube clause> [ <SELECT slicer axis clause> ] [ <SELECT cell property list clause> ] Source: Microsoft MDX Example
  • 34. Datová kvalita: Data nebývají konzistentní Zdrojový systém #1 Zdrojový systém #2 Jméno Příjmení RČ Adresa Pepa Radost 111111/1111 Na Kovárně 3, Bráník, Praha Josef Radost 111111/1111 Praha Martin Matuszczyk 666/666 SlovenskoPolského přátelství 4, Praha Robert Miškuf 999999/9999 Slovensko-polského přátelství 4, Praha ID Jméno Příjmení RC TYP ICO Město Ulice Popis 1 Pepa Radost 111111/1111 FO Praha Na Kovárně 3 Branik 4 Josef Radost 111111/1111 FOP 11150 Praha 2 Martin Matuszczyk 666/666 FO Praha Slovenskopolského přátelství 4, 3 Robert Miškuf 999999/9999 FO Praha SlovenskoPolského přátelství 4, 4. patro
  • 35. Kdo je Leoš Mráček? 35 ID Titul1 Jmeno Prijmeni Titul 2 RČ 1 ing. Leoš Mráček MBA 691117/3457 2 ing. Leoš Mráček MBA 6911173457 3 Leos Mracek 11.17.1969 4 ing. Leoš Mráček MBA NULL 5 Leoš Mráček, MBA 691117/3457 6 ing. Leo3 Mr8ček 999999/9999 7 Mráček Leoš 691117/3455 8 ing, Leoš Mraeek MBA 691117/3475 9 ing. Leoš Mra4ek, MBA 0 10 ing. MBA Leoš Mrácek 6911173457 11 ing. Leoš Mráček, MBA 6910174375 12 Jana Votavová 6910174376 13 Karel Novák 999999/9999
  • 36. Matching / Unifikace 36 Records Primary groups Candidate groups John Smith null John Smith null Jane Smith 420347213 Jane Watson 420347213 J Smith 420347213 J Smith null Jane Watson 420347213 John Smith 095252433 John Smith 095252433 John Smith 095242434 John Smith 095242434 Janette Smith null Secondary groups ?
  • 37. Batch Data Transformation: ETL vs. ELT Extract Load Transformation Extract Transformation Load
  • 39.
  • 41. Partitioning • Rozdělení tabulky na více oddílů (= partition) • Výhody • menší množství dat (= rychlost dotazů) • omezení zamykání (= rychlost dotazů) • možnost nastavení indexů a jiných atributů zvlášť pro každý oddíl • Nevýhody • údržba Regular table Partitioned table Index Organized Table
  • 42. Paralelismus • Při nahrávání rozsáhlých datových skladů problém s časovým prostorem • Řešení • „lepší“ zdroje (= zvýšení výkonu) • změna workflow • Změna workflow má zásadní dopad na výkon řešení • zrušení prostojů • možnost využití zdrojů, které jinak není možné využít • Jednou z možností změny workflow - paralelismus
  • 43. Technologie Stack Others RDBMS Oracle Database MySQL Microsoft SQL Server Microsoft SQL Server APS Azure SQL Data Warehouse Amazon Redshift HP Vertica IBM dashDB IBM DB2 PostgreSQL SAP HANA SAP IQ SAP SQL Anywhere Teradata Database ETL/ELT Oracle Data Integrator Oracle Golden Gate MS Integration Services Azure Data Factory Clover ETL IBM InfoSphere DataStage Informatica PowerCenter Pentaho Data Integration SAP Data Services SAS Data Integration Talend Data Integration BI & Analytics Oracle Big Data Discovery Oracle Business Intelligence Oracle Endeca Data Discovery Oracle Essbase Oracle R Enterprise Azure Machine Learning MS Analysis Services MS Datazen MS Excel BI MS Power BI MS Reporting Services Revolution R Amazon QuickSight GoodData IBM Cognos Reporting IBM Watson Analytics Microstrategy Analytics Qlik Sense Qlikview SAP Business Objects SAS Visual Analytics Tableau Teradata Aster Discovery Platform Appliances Oracle Exadata Oracle SuperCluster MS Analytic Platform System IBM Netezza Twinfin SAP HANA Teradata Data Warehouse Appliance HP Vertica Analytics System + Big Data Stack
  • 46. Microsoft SQL Server 2016 46 Excel + Power BI add-ins Query, Pivot, View, Map SharePoint Power Pivot Gallery, Power View Excel Data Mining Power BI Desktop Power BI Portal Azure ML End-to-End DW & Big Data Platform, Driving Analytics on any Data Power BI Mobile App Analytics Platform System (APS)
  • 55. CASE 55 Tools to create data models
  • 57. The Evolution of Business Intelligence 57 Traditional Analytics 1st Generation Analytics (Query & Reporting) 2nd Generation Analytics (OLAP, Data Warehousing) Advanced Analytics/Optimization Rules Predictive Analytics Real-time and traditional Data Mining Stream Analytics* Real-time, continuous, sequential analysis (ranging from basic to advanced analytics) * In lieu of stream analytics, “embedded analytics,” although architecturally different, could potentially play the same role 3rd-Generation BI Legacy BI “New Traditional” Analytics “2.5-Gen” Analytics (In-Memory OLAP, Search-Based)
  • 58. Data Visualization & Reporting  Spark lines ̶ Trends  Bullet graphs ̶ KPI measurements, Scorecards  Graph matrix (small multiples / trellis) ̶ Vizualizace multidimenzionálních dat ̶ Série grafů pro porovnání naměřených výsledků za daných podmínek (např. prodej kategorií produktů v regionech)  Scatter plot, Interactive bubble graph ̶ Změny v čase ̶ Osa X: čas, Osa Y: meření (např. prodej) ̶ Další možnosti: barva (kategorie produktu), velikost bubliny (počet zákazníků)  Heat or tree maps
  • 59. Oracle Business Intelligence • On-premise i cloud varianta • Podpora pro pokročilou analytiku, self-service vizualizace i Mobile BI Oracle Big Data Discovery • Nativní self-service analytika pro Big Data řešení 59
  • 60. Self-service BI • Definition • Self-Service BI involves: • Data availability • Availability of all relevant / required / useful / valuable data • Ability to process and save data • Sandboxing – how to create it within the infrastructure, how to create security settings, assign resources, manage outputs and how to clean the sandbox regularly. • SQL or some user-friendly ETL • Ability to access the heterogeneous data • Connection to various/heterogeneous data sources and import of the relevant data for analyses (data mashups) • Definition of the schematic layer for the provision of data to non-expert users • Data discovery • Tools for profiling, statistics and data mining • Effective tools for data visualization • Sparklines, Bullet chart, Matrix chart (small multiples / trellis), Scatter plot, interactive Bubble chart, Heat map, Radius chart, Network chart, Maps, Geoinformation… • Collaboration • Ability to publish and share created reports and analyses • Ability to transfer ad-hoc and self-service outputs into regular reporting cycles • Ability to share information, classifications, discuss, comment and blog • Self-Service BI is set of data management technologies, processes and methods that enable flexible and fast data research, validation of prototypes, ad-hoc analyses and information sharing with minimal involvement of the IT department.
  • 62. Tableau Desktop Qlik Sense Desktop Microsoft Power BI Desktop SAS Visual Analytics
  • 63. Mobile BI All versions from 2016-03-12 CollabMobile https://youtu.be/49If_G5Llg0 Datazen https://youtu.be/ePCMoqSj1-k IBM Cognos https://youtu.be/kZEdS29HBeE Infor Dashboards https://youtu.be/CO2v1eXjPXI Microstrategy https://youtu.be/qcdaQPc3fj4 Oracle BI HD https://youtu.be/Jnb1jDVfvUU Power BI https://youtu.be/kaxSQEevMZI Qlik Sense https://youtu.be/WX1R_ynbWYI QlikView https://youtu.be/EJYC9cnCjlU RoamBI https://youtu.be/GG5SmfRfFTs Salesforce Wave Analytics https://youtu.be/I5MHagpxXQ0 SAP BI https://youtu.be/T0DcY1eS0sA SAS BI https://youtu.be/SNjYpY7hulw Tableau https://youtu.be/yCo2Z2ZhUoU Tibco Metrics https://youtu.be/VTfQxO8nTNs BI Office https://youtu.be/H7lTJxfZRsc
  • 66.
  • 67. Srovnání Data Warehouse vs. Data Lake Data Warehouse Data Lake (Big Data) Data Structured Structured Semi-Structured Unstructured Data Processing Processed Raw Data Schema Schema-on-write Schema-on-read Data Model Relational Object-based Data History Hierarchically archived No hierarchy Agility Fixed configuration Reconfigured anytime as needed Security Mature Maturing Primary Users Data analysists Business professionals Data Scientists Technology RDBMS NoSQL DBMS Hadoop Other distributed file systems „Data Lake může i tam, kam žádný slušný Data Warehouse nesmí.“
  • 68.
  • 69. Rozklíčováné zkratky DW • Data Warehouse DL • Data Lake • Daily Load EDW • Enterprise Data Warehouse LDW • Logical Data Warehouse BDP • Big Data Platform BI • Business Intelligence ML • Machine Learning MD • Master Data • Metadata BD • Big Data DG • Data Governance DQ • Data Quality DS • Data Source • Data Stage ETL • Extract, Transformation, Load ELT • Extract Load Transformation DP • Data Platform LDM • Logical Data Model PDM • Physical Data Model MDM • Master Data Management RDM • Reference Data Management DM • Data Management • Data Mart DV • Data Vault • Data Visualization • Data Virtualization IDM • Industry Data Model