Prague data management meetup 2016-09-22

Data Management pro začátečníky
#8
22. 9. 2016
Prague Data Management Meetup

Agenda
• Prague Data Management Meetup
• Data Management pro začátečníky

Prague Data Management Meetup
Data Management
Získávaní dat
Ukládání dat
Zpracování dat
Interpretace dat
Použití dat
• Otevřená profesionální zájmová
skupina
• Každý je vítán (ať už v pasivní
nebo aktivní roli)
• Témat není nikdy dost
• Snaha o pravidelné měsíční
setkávání
• Existuje od září 2015

Historie
Datum Téma
10. 9. 2015 Data Management
14. 10. 2015 Data Lake
23. 11. 2015 Dark Data (without Dark Energy and Dark Force)
12. 1. 2016 Data Lake (Again)
7. 3. 2016 Sad Stories About DW Modeling (sad stories only)
23. 3. 2016 Self-service BI Street Battle
27. 4. 2016 Let's explore the new Microsoft PowerBI!
22. 9. 2016 Data Management pro začátečníky
17. 10. 2016 Small Big Data
22. 11. 2016 Základy modelování DW

Bez Data Managementu vznikají datové bažiny
Odvážný
Data Scientist
Velmi špatně
udržovaná
Data Platforma

Slibované zkratky
DW DL EDW LDW BDP BI
ML MD BD DG DQ DS
ETL ELT DP LDM PDM MDM
RDM DM DV IDM

Celosvětový datový boom
9
1 exabyte = 1018 bytů
Za jednu minutu této prezentace vznikne:
350 000 tweetů na Twitteru
4 000 000 liků na Facebooku
100 000 hovorů přes Skype
300 hodin videa na YouTube
Spousta dalších dat
90% všech dat vzniklo v poslední dvou letech
Mezi lety 2010-2020 vzroste objem dat lidstva 50x
2010:
800 exabytů
2020:
40 000 exabytů

0
20
40
60
80
100
120
140
2011 2012 2013 2014 2015 2016 2017
Exabyty
IDC: Structured Versus Unstructured Data: The Balance of Power Continues to Shift. #247106. Table 1. Page 9
Struktura datového boomu
Data mimo RDBMS
rostou meziročně o
40%+
Data v RDBMS rostou
meziročně o 20%+

Temná strana datového boomu: Datová temnota
Nevyužitá data
88%
Využitá data
12%
Pouze 12% nových dat se
analyzuje
Tento poměr se v čase stále
zhoršuje…
Zdroj: IBM
Modernizace datových
platforem nutná!

Business Process
Analysis #2
Analysis #1
Funkční integrace
vs.
Datová integrace
Část dat se nikdy neuloží
Část dat se uloží chybně
Operativa
Analytika

Data Warehouse
• Konsolidovat data z nejrůznějších
zdrojů v požadované kvalitě a čase
• Poskytovat srozumitelné informace
různým účelům a skupinám uživatelů
• Poskytovat možnosti, které zajistí
flexibilní a účinný ad-hoc reporting a
analýzu
• Orientace na subjekt
• Integrace
• Nízká proměnlivost
• Historizace
• Hlavní perspektivy
• Datová integrace
• Datová úložiště
• Rozšíření
• Zpracování událostí (Complex Event
Processing) pro zpracování událostí
v reálném čase
• Aplikační integraci zejména pro integraci
v pokud možno reálném čase a podporu
provozních procesů
• Operational Data Store pro uložení
aktuálních dat, které jsou potřeba pro
podporu provozních procesů
• Platformu pro pokročilé analýzy (Big Dat)
EDW, DW, DSS, ADS, ADW, DP…

Typy DataWarehouse
Fyzická Data Warehouse
• Klasická relační databáze.
• Výhody:
• Reálné uložení dat snižuje nároky na
governance
• Stabilita a možnost transformací pro
mandatorní reporting.
• Snadnější standardní metody data
miningu
• Nevýhody:
• železo – Hardware, při fyzickém uložení
resp. přeuložení
• máme data vícekrát.
Logický Data Warehouse
• Data neukládám do konsolidované
struktury, ale říkám jak je jednotně číst.
• Nový trend – Big Data, Query Engine.
• Výhody:
• Data mám pouze jednou a to v podobě
primárního systému.
• Neztrácím informace fyzickými
transformacemi do jednotné struktury.
• Nevýhody:
• Náročná Governance
15

Data Comparison
Characteristic Operational
Database
Data Warehouse
Currency Current Historical
Details level Individual Individual and summary
Orientation Process Subject
Records per request Few Thousands
Normalization level Mostly normalized Normalization relaxed
Update level Highly volatile Mostly refreshed (non volatile)
Data model Relational Relational (star schemas) and
multidimensional (data cubes)
Source: Coursera

Schema Comparison (Same Data Domains)
Operational database Data warehouse
Customer
CustNo
CustFirstName
CustLastName
...
Order
OrdNo
OrdDate
...
Places
Employee
EmpNo
EmpFirstName
EmpLastName
...
Takes
Manages
Product
ProdNo
ProdName
ProdQOH
...
Contains
Qty
Customer
CustId
CustName
CustPhone
CustStreet
CustCity
CustState
CustZip
CustNation
Store
StoreId
StoreManager
StoreStreet
StoreCity
StoreState
StoreZip
StoreNation
DivId
DivName
DivManager
Sales
SalesNo
SalesUnits
SalesDollar
SalesCost
Item
ItemId
ItemName
ItemUnitPrice
ItemBrand
ItemCategory
TimeDim
TimeNo
TimeDay
TimeMonth
TimeQuarter
TimeYear
TimeDayOfWeek
TimeFiscalYear
ItemSales
CustSales
TimeSales
StoreSales
Source: Coursera

Adastra Information Management Reference Architecture
19
ODS
Operational
reporting
Enterprise DWH Big Data
Platform
Data Lake
Event
Processing
Semantic
Models
Advanced Analytics
Perceptual / cognitive intelligence
Information Management
Relational / Structured data Unstructured data Streaming
Data Workflow
Orchestration
Data Transformation /
Processing
Data
Management
Event Ingestion
Complex Event
Processing
Notifications
BI / Application
Integration
Machine Learning
In-database Data Mining, R
Recognition of human
interaction and intent
SMP and MPP
In-memory technologies
In-memory Columnar
In-memory technologies Hadoop, NoSQL
Business Intelligence / Data Delivery
Real-time DashboardsDashboards and visualizationsReports Self-service BIMobile BI
IoT Network
Field Gateway
Big data
OLAP

DWH Logical Data Layers
Stage Area
Relational Area
Consolidation Area
Data Mart Area
• Data Mart Area
• L2
• User Access Layer
• Consolidation Area
• Consolidated L1
• Common aggregates for L2
• Cleansed and consolidated data
• Relational Area
• Detailed L1
• Consistent, integrated, subject oriented
data, universal data structure, historical
data, maximal detail
• System of record
• Stage Area
• Copy of source systems
Extracts
Reports
Note: Consolidated and Detailed L1 can
share same data structures

Modernizace datových platforem
Technologické inovace
• Data Warehouse Appliance
• Data warehouse automation
• Sloupcové databáze, In-memory databáze, NoSQL databáze,
Grafové databáze
• Hadoop, Spark, Machine Learning
• Data streams
• Datová virtualizace
• Query engine
• Nástroje pro predikční analytiku
• Data Discovery
• Vizualizační nástroje
• Self-service BI nástroje
• Mobile BI
• Cloud (IaaS, PaaS, SaaS), Intelligence as Service
Architektonické inovace
• Data Factory
• Data Rafinery
• Analytic Data Store 2.0
• Networked BI
• Logical Data Warehouse
• Data Reservoir
• Data Lake
• Enterprise Data Lake
• Semantic Data Lake
• Data Lake 2.0
• Business Data Lake
• Enterprise Data Hub
• Data Sea
23
„Data jsou nová voda.“
Konsolidace
Liberalizace

Real DW in Real Numbers
03/2012
• 1200 L1 Tables
• 18 TB
• 3500 ETLs
• 1000 generic ETLs
• 2500 mapped ETLs
• 22 000 ETL executions every day
• More than 500 processed extracts
every working day
03/2014
• 1800 L1 Tables
• 34 TB
• 7000 ETLs
• 2200 generic ETLs
• 4800 mapped ETLs
• 40 000 ETL executions every day
• More than 1300 processed extracts
every working day
0
5
10
15
20
25
30
35
7.2.2010 7.2.2011 7.2.2012 7.2.2013 7.2.2014

Typy tabulek
Dimenze
SCD0
SCD1
SCD2
SCD3
SCD4
SCD6
Faktové tabulky
Snímky
Agregace
Číselníky

Data Management Implementation Process
Happy report users
Standard daily operation
Initial load
Deployment
Acceptance
Testing
ETL/ELT and workflow implementation
ETL/ELT and worklfow design
Physical model implementation
Logical and physical model design
Business Glossary, Data dictionary, conceptual data model
Source data analysis
Requirement analysis

Party
Product
Account
Application
Communication
General Ledger
Campaign Management
Collection
Accounting
Konceptuální datový
model

Logical
Party
Model
Party
Party Type
Individual
Individual
Entrepreneur
Corporate
Organization Unit
Employment
Position
Party Source
Instance Party
Authority
Source Systém
Record
Unified Party
Consolidated
Party
Household Party
Economically
Interconnected
Group
Party Role
Customer
Former Customer
Prospect
Employee
Partner
Agent
Non-customer
Supervisior

System ID First Name Family Name Czech Office
Client Flag
Business Sector Social Insurance
Number
AAA AA123 John Doe Yes Employee 45678
Involved
Party ID
First
Name
Family
Name
Birth Date Social Insurance
Number
System
1 John Doe 1.1.1990 45678 AAA
2 John Doe 45678 BBB
Involved
Party ID
System Alternative ID
1 AAA AA123
2 BBB 456
3 123456789
Location ID Email Location
Type
System
200 john@doe.com Email BBB
Classifaction
ID
Classification
Schema ID
Classification
Description
100 301 Yes
101 302 Employee
Involved
Party ID
Classifacti
on ID
Classification / Involved
Party Role Type
System
1 100 IP is classified by CL AAA
1 101 IP is classified by CL AAA
Location ID Involved
Party ID
Involved Party / Location
Role Type
System
200 2 LO is a contact address of IP BBB
Involved Party Alternative ID
Involved Party
Involved Party
Location Relationship
Location
Classification / Involved Party
Relationship
Extracts (L0):
SoR (L1):
Classifaction
Schema ID
Classification Schema
Description
301 Czech Office Client Flag
302 Business Sector
ClassificationClassification Schema
System ID First Name Family Name Email Birth Date Social Insurance
Number
BBB 456 John Doe john@doe.com 1.1.1990 45678
Involved
Party ID
Involved
Party Type
Involved
Party Name
Record
Type
System
1 Individual John Doe Instance AAA
2 Individual John Doe Instance BBB
3 Individual Master
Individual
Subject
Involved Party
ID
Object
Involved
Party ID
Involved Party /
Involved Party
Relationship Type
3 1 Consolidation
3 1 Consolidation
Involved Party / Involved
Party Relationship

ADS01_INSTADDR_SFC00_IM
ADS01_INSTADDR_CCB00_FRADS01_INSTADDR_ICB00_IM_ICB0
6
ADS01_INSTADDR_ADS01_IM_GE
N
ADS01_INSTADDR_AUT00_IM
NA
NB
ADS01_INSTADDR_ADS01_IM_MK
T
ADS01_INSTADDR_ADS01_IM_LNK
ADS01_INSTADDR_ALB00_FD_CO
NTADS01_INSTADDR_ALB00_FD_RESI
DADS01_INSTADDR_ALB00_IM_CO
NTADS01_INSTADDR_ALB00_IM_RES
ID
ADS01_INSTADDR_BND00_FR
ADS01_INSTADDR_CMD00_IMADS01_INSTADDR_COR00_FR_CO
NTADS01_INSTADDR_COR00_FR_PER
M
ADS01_INSTADDR_ERN00_ID
ADS01_INSTADDR_ERN00_IM
ADS01_INSTADDR_FIP00_FRADS01_INSTADDR_HYP00_FR_COR
PADS01_INSTADDR_HYP00_FR_PRI
V
ADS01_INSTADDR_IBS00_FRADS01_INSTADDR_ICB00_FD_CON
TADS01_INSTADDR_ICB00_FD_PER
M
ADS01_INSTADDR_ICB00_IM_CON
TADS01_INSTADDR_ICB00_FR_PER
MADS01_INSTADDR_IND00_IM_CO
NTADS01_INSTADDR_IND00_IM_PER
M
ADS01_INSTADDR_ING00_FD
ADS01_INSTADDR_ING00_IM_BEN
ADS01_INSTADDR_ING00_IM_CN
ADS01_INSTADDR_ING00_IM_EM
ADS01_INSTADDR_ING00_IM_PM
ADS01_INSTADDR_NAS00_IM
ADS01_INSTADDR_PUR00_UPADS01_INSTADDR_VIS00_FR_BHL
DRADS01_INSTADDR_VIS10_FR_CAR
D
ADS01_INSTADDR_CMD00_IM_A
ML
ADS01_INSTADDR_CCB00_FR_BADS01_INSTADDR_ERN00_IM_INS
CY
ADS01_INSTADDR_CRU00_FR_OFF
ADS01_INSTADDR_CRU00_IM_ON
ADS01_INSTADDR_EXT00_IM
ADS01_INSTADDR_CAP00_FR
ADS01_INSTADDR_HRD00_IMADS01_INSTADDR_HYP00_FR_SEL
COM
ADS01_INSTADDR_HYP00_FR_SELL
ADS01_INSTADDR_GRF00_IM
ADS01_INSTADDR_UDB00_FRADS01_INSTADDR_ALB00_FR_PER
SADS01_INSTADDR_ALB00_FR_OW
NADS01_INSTADDR_ALB00_FR_CO
MP
ADS01_INSTADDR_EXT00_FR_PRO
ADS01_INSTADDR_ADS01_ID_PROADS01_INSTADDR_ADS01_IM_CM
T
ADS01_INSTADDR_EXT00_IM_POSADS01_INSTADDR_VIS10_IM_CPE
RMADS01_INSTADR_AVQ00_FR_AVQ
01ADS01_INSTADR_AVQ00_FR_AVQ
02
ADS01_INSTADDR_TLS00_IM_OC
MT
ADS01_INSTADDR_ING00_IM_PFO
WP
ADS01_INSTADDR_ING00_IM_PFO
WC
ADS01_INSTADDR_ING00_IM_PFP
YP
ADS01_INSTADDR_ING00_IM_PFB
PE
ADS01_INSTADDR_ADS01_FD_PFADS01_INSTADDR_CAP00_FR_ISS
UER
ADS01_INSTADDR_SFC00_UP
INST_ADDR_KEY K K
LOCATED_ADDR_KEY U C U U U C C C U U
ADDR_PURP_KEY U
C +
U C U U U U C U C C C C C C U C U U
C +
U
C +
U C C C C K K C U K C
C +
U C U C C C U U U C C C C C C U C C C C C C C C C U
POS_KEY
C +
U C
C +
U C C C U U
INST_PT_KEY U U U U U U U U U U U U U U U U U U U U U U U U K K K U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
POS_CHAIN_KEY
C +
U C
C +
U C C C U
CNTRY_KEY U U U U U U U U U C U U U U U U U U C C C U U U U U U U U C U U U U U U C U U U U
STREET_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U I U U U U U U U U U U U U U U U U U U U U
STREET_NUM U U U U U U U U U U U U U C U U U U U U U U C U U U C C C U U U U U
CITY_NAME U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
LAND_REGISTRATION_
NUM U U U U U U U U U U C C U U U U U U U U
ZIP U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U U
SRC_SYS_ID
C +
U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K
SRC_ID U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K I I U K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K
DEL_FLAG U
C +
U U
C +
U
C +
U
C +
U
C +
U U U U U U U
C +
U
C +
U
C +
U
C +
U
C +
U U
INS_PROCESS_ID
INS_DT
UPD_PROCESS_ID
UPD_DT
UPD_EFF_DATE U
ADDR_VALID_KEY U C U U U U C C U
APPL_KEY
C +
U C
C +
U C C U
VALID_DATE U C U U U C C C C C C C C C C C C C C C C C C C C C U C
CUST_VERIF_FLAG U U U U U U
INST_ADDR_SINCE U U U U U C U U U U U
INST_ADDR_TO U U U U U U U U U
SRC_UPD_DT
EXTRACT_DT
RN U U U U U U U U I I I U
RULE_SET_KEY C C C C U
BUS_KEY U U C C C U U
ORIG_INST_ADDR_KEY U U U D U C C C C C
BUS_UPD_DATE U U
LATITUDE U U U U
LONGITUDE U U U U
ADDR_FULL_TEXT U U
ADDR_NOTE U U
Table
mappings
from many
sources
examples

Star Schema vs. Snowflake Schema
Source: Wikipedia

OLAP
[ WITH <SELECT WITH clause>
[ , <SELECT WITH clause> ... ] ]
SELECT [ * | ( <SELECT query
axis clause> [ , <SELECT query
axis clause> ... ] ) ] FROM
<SELECT subcube clause> [
<SELECT slicer axis clause> ] [
<SELECT cell property list
clause> ]
Source: Microsoft
MDX Example

Datová kvalita: Data nebývají konzistentní
Zdrojový
systém #1
Zdrojový
systém #2
Jméno Příjmení RČ Adresa
Pepa Radost 111111/1111 Na Kovárně 3, Bráník, Praha
Josef Radost 111111/1111 Praha
Martin Matuszczyk 666/666 SlovenskoPolského přátelství 4, Praha
Robert Miškuf 999999/9999 Slovensko-polského přátelství 4, Praha
ID Jméno Příjmení RC TYP ICO Město Ulice Popis
1 Pepa Radost 111111/1111 FO Praha Na Kovárně 3 Branik
4 Josef Radost 111111/1111 FOP 11150 Praha
2 Martin Matuszczyk 666/666 FO Praha
Slovenskopolského
přátelství 4,
3 Robert Miškuf 999999/9999 FO Praha
SlovenskoPolského
přátelství 4, 4. patro

Kdo je Leoš Mráček?
35
ID Titul1 Jmeno Prijmeni Titul 2 RČ
1 ing. Leoš Mráček MBA 691117/3457
2 ing. Leoš Mráček MBA 6911173457
3 Leos Mracek 11.17.1969
4 ing. Leoš Mráček MBA NULL
5 Leoš Mráček, MBA 691117/3457
6 ing. Leo3 Mr8ček 999999/9999
7 Mráček Leoš 691117/3455
8 ing, Leoš Mraeek MBA 691117/3475
9 ing. Leoš Mra4ek, MBA 0
10 ing. MBA Leoš Mrácek 6911173457
11 ing. Leoš Mráček, MBA 6910174375
12 Jana Votavová 6910174376
13 Karel Novák 999999/9999

Matching / Unifikace
36
Records
Primary groups
Candidate groups
John Smith
null
John Smith
null
Jane Smith
420347213
Jane Watson
420347213
J Smith
420347213
J Smith
null
Jane Watson
420347213
John Smith
095252433
John Smith
095252433
John Smith
095242434
John Smith
095242434
Janette Smith
null
Secondary groups
?

Batch Data Transformation: ETL vs. ELT
Extract Load Transformation
Extract Transformation Load

Lambda Architecture Kappa Architecture

Partitioning
• Rozdělení tabulky na více oddílů (= partition)
• Výhody
• menší množství dat (= rychlost dotazů)
• omezení zamykání (= rychlost dotazů)
• možnost nastavení indexů a jiných atributů zvlášť pro každý oddíl
• Nevýhody
• údržba
Regular
table
Partitioned
table
Index Organized
Table

Paralelismus
• Při nahrávání rozsáhlých datových skladů problém s časovým prostorem
• Řešení
• „lepší“ zdroje (= zvýšení výkonu)
• změna workflow
• Změna workflow má zásadní dopad na výkon řešení
• zrušení prostojů
• možnost využití zdrojů, které jinak není možné využít
• Jednou z možností změny workflow - paralelismus

Technologie
Stack Others
RDBMS
Oracle Database
MySQL
Microsoft SQL Server
Microsoft SQL Server APS
Azure SQL Data Warehouse
Amazon Redshift
HP Vertica
IBM dashDB
IBM DB2
PostgreSQL
SAP HANA
SAP IQ
SAP SQL Anywhere
Teradata Database
ETL/ELT
Oracle Data Integrator
Oracle Golden Gate
MS Integration Services
Azure Data Factory
Clover ETL
IBM InfoSphere DataStage
Informatica PowerCenter
Pentaho Data Integration
SAP Data Services
SAS Data Integration
Talend Data Integration
BI & Analytics
Oracle Big Data Discovery
Oracle Business Intelligence
Oracle Endeca Data Discovery
Oracle Essbase
Oracle R Enterprise
Azure Machine Learning
MS Analysis Services
MS Datazen
MS Excel BI
MS Power BI
MS Reporting Services
Revolution R
Amazon QuickSight
GoodData
IBM Cognos Reporting
IBM Watson Analytics
Microstrategy Analytics
Qlik Sense
Qlikview
SAP Business Objects
SAS Visual Analytics
Tableau
Teradata Aster Discovery Platform
Appliances
Oracle Exadata
Oracle SuperCluster
MS Analytic Platform System
IBM Netezza Twinfin
SAP HANA
Teradata Data Warehouse Appliance
HP Vertica Analytics System
+ Big Data Stack

Microsoft SQL Server 2016
46
Excel + Power BI add-ins
Query, Pivot, View, Map
SharePoint
Power Pivot Gallery, Power View
Excel
Data Mining
Power BI Desktop Power BI Portal
Azure ML
End-to-End DW & Big Data Platform, Driving Analytics on any Data
Power BI Mobile App
Analytics Platform System
(APS)

Change
Data
Capture
Source: Oracle

CASE
55
Tools to create data models

The Evolution of Business Intelligence
57
Traditional Analytics
1st Generation Analytics (Query & Reporting)
2nd Generation Analytics (OLAP, Data Warehousing)
Advanced Analytics/Optimization
Rules
Predictive Analytics
Real-time and traditional Data Mining
Stream Analytics*
Real-time, continuous, sequential analysis
(ranging from basic to advanced analytics)
* In lieu of stream analytics, “embedded analytics,” although architecturally
different, could potentially play the same role
3rd-Generation BI
Legacy BI
“New Traditional” Analytics
“2.5-Gen” Analytics (In-Memory OLAP, Search-Based)

Data Visualization & Reporting
 Spark lines
̶ Trends
 Bullet graphs
̶ KPI measurements, Scorecards
 Graph matrix (small multiples / trellis)
̶ Vizualizace multidimenzionálních dat
̶ Série grafů pro porovnání naměřených výsledků za daných podmínek (např.
prodej kategorií produktů v regionech)
 Scatter plot, Interactive bubble graph
̶ Změny v čase
̶ Osa X: čas, Osa Y: meření (např. prodej)
̶ Další možnosti: barva (kategorie produktu), velikost bubliny (počet
zákazníků)
 Heat or tree maps

Oracle Business Intelligence
• On-premise i cloud varianta
• Podpora pro pokročilou analytiku, self-service
vizualizace i Mobile BI
Oracle Big Data Discovery
• Nativní self-service analytika pro Big Data řešení
59

Self-service BI
• Definition • Self-Service BI involves:
• Data availability
• Availability of all relevant / required / useful / valuable data
• Ability to process and save data
• Sandboxing – how to create it within the infrastructure, how to create security settings,
assign resources, manage outputs and how to clean the sandbox regularly.
• SQL or some user-friendly ETL
• Ability to access the heterogeneous data
• Connection to various/heterogeneous data sources and import of the relevant data for
analyses (data mashups)
• Definition of the schematic layer for the provision of data to non-expert users
• Data discovery
• Tools for profiling, statistics and data mining
• Effective tools for data visualization
• Sparklines, Bullet chart, Matrix chart (small multiples / trellis), Scatter plot, interactive
Bubble chart, Heat map, Radius chart, Network chart, Maps, Geoinformation…
• Collaboration
• Ability to publish and share created reports and analyses
• Ability to transfer ad-hoc and self-service outputs into regular reporting cycles
• Ability to share information, classifications, discuss, comment and blog
• Self-Service BI is set of data
management technologies,
processes and methods that
enable flexible and fast data
research, validation of
prototypes, ad-hoc analyses and
information sharing with minimal
involvement of the IT
department.

Tableau Desktop Qlik Sense Desktop
Microsoft Power BI Desktop SAS Visual Analytics

Mobile BI
All versions from 2016-03-12
CollabMobile https://youtu.be/49If_G5Llg0
Datazen https://youtu.be/ePCMoqSj1-k
IBM Cognos https://youtu.be/kZEdS29HBeE
Infor Dashboards https://youtu.be/CO2v1eXjPXI
Microstrategy https://youtu.be/qcdaQPc3fj4
Oracle BI HD https://youtu.be/Jnb1jDVfvUU
Power BI https://youtu.be/kaxSQEevMZI
Qlik Sense https://youtu.be/WX1R_ynbWYI
QlikView https://youtu.be/EJYC9cnCjlU
RoamBI https://youtu.be/GG5SmfRfFTs
Salesforce Wave Analytics https://youtu.be/I5MHagpxXQ0
SAP BI https://youtu.be/T0DcY1eS0sA
SAS BI https://youtu.be/SNjYpY7hulw
Tableau https://youtu.be/yCo2Z2ZhUoU
Tibco Metrics https://youtu.be/VTfQxO8nTNs
BI Office https://youtu.be/H7lTJxfZRsc

Srovnání Data Warehouse vs. Data Lake
Data Warehouse Data Lake (Big Data)
Data Structured Structured
Semi-Structured
Unstructured
Data Processing Processed Raw
Data Schema Schema-on-write Schema-on-read
Data Model Relational Object-based
Data History Hierarchically archived No hierarchy
Agility Fixed configuration Reconfigured anytime as needed
Security Mature Maturing
Primary Users Data analysists
Business professionals
Data Scientists
Technology RDBMS NoSQL DBMS
Hadoop
Other distributed file systems
„Data Lake může i tam, kam žádný slušný Data Warehouse nesmí.“

Rozklíčováné zkratky
DW
• Data Warehouse
DL
• Data Lake
• Daily Load
EDW
• Enterprise Data
Warehouse
LDW
• Logical Data
Warehouse
BDP
• Big Data Platform
BI
• Business Intelligence
ML
• Machine Learning
MD
• Master Data
• Metadata
BD
• Big Data
DG
• Data Governance
DQ
• Data Quality
DS
• Data Source
• Data Stage
ETL
• Extract,
Transformation, Load
ELT
• Extract Load
Transformation
DP
• Data Platform
LDM
• Logical Data Model
PDM
• Physical Data Model
MDM
• Master Data
Management
RDM
• Reference Data
Management
DM
• Data Management
• Data Mart
DV
• Data Vault
• Data Visualization
• Data Virtualization
IDM
• Industry Data Model

Prague data management meetup 2016-09-22

Recommended

Recommended

More Related Content

Similar to Prague data management meetup 2016-09-22

Similar to Prague data management meetup 2016-09-22 (20)

More from Martin Bém

More from Martin Bém (18)

Prague data management meetup 2016-09-22