Prague data management meetup 2017-01-23Martin Bém
The document discusses the components of a data warehouse, including:
- Data stores such as the data warehouse itself, data marts, operational data stores, and big data platforms.
- Data integration tools for extracting, transforming, and loading data from various sources.
- Access tools for querying, reporting, visualization, and advanced analytics.
- Metadata for technical, business, and transformation documentation.
- Administration and management functions like operations, security, and quality assurance.
- Development tools for modeling, ETL design, and testing.
Prague data management meetup 2017-01-23Martin Bém
The document discusses the components of a data warehouse, including:
- Data stores such as the data warehouse itself, data marts, operational data stores, and big data platforms.
- Data integration tools for extracting, transforming, and loading data from various sources.
- Access tools for querying, reporting, visualization, and advanced analytics.
- Metadata for technical, business, and transformation documentation.
- Administration and management functions like operations, security, and quality assurance.
- Development tools for modeling, ETL design, and testing.
Jak se mění práce analytika (Martin Bosák)Taste Medio
Jaké problémy dnes řeší dnešní datový analytik v různých firmách a co ho brzy čeká? Ukážeme konkrétní příklady z projektů, jejich řešní a také komplikace po cestě.
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
Pokud chcete mít kontrolu nad oběhem dokumentů ve vaší organizaci, potom se zúčastněte webináře, který bude pojednávat o problematice správy firemních dokumentů v praxi. Webinář je určen pro ty, kteří ještě nevyužívají žádný podobný systém, ale i těm, kteří se současným nejsou spokojeni.
Na webináři budeme mluvit o nejčastějších úskalích efektivní správy dokumentů napříč různými organizacemi a odvětvími.
Představíme vám řešení M-Files DMS vhodné pro malé i velké organizace, které vám umožní vyřešit otázku správy dokumentů a vy tak budete mít kontrolu nad celým životním cyklem dokumentů. M-Files vám pomáhají i v těchto oblastech:
-Díky pracovním postupům (workflow) už se nestane, že by došlo k odeslání neschválené smlouvy, nebo že by byla zaplacena neschválená faktura.
-Budete moci přiřazovat dokumenty k vašim zákazníkům, dodavatelům a spolupracovníkům.
-Nebudete mít jeden dokumentu uložen několikrát na různých místech a snadno jej obnovíte, pokud jste ho omylem smazali.
-Ke všem dokumentům budete moc přistupovat odkudkoli.
-Řízení přístupových oprávnění zajistí přístup k dokumentům jen vyjmenovaným osobám. Tím pádem budete mít přehled o tom, kdo s jakým dokumentem pracoval a co s ním dělal.
-...a další funkce, díky kterým pro vás práce s M-Files bude příjemnou součástí každodenních povinností.
Program webináře
-Úskalí při správě dokumentů.
-Jak vybrat správné řešení pro správu doumentů.
-Představení produktu M-Files.
-Klíčové vlastnosti M-Files.
-Co řeší M-Files oproti jiným DMS systémům.
-Pro koho je M-Files vhodné řešení.
-Jak probíhá projekt zavádění DMS.
-Příklady licencování a ceny.
-Praktická ukázka.
http://www.technodat.cz/exalead-onepart
EXAELAD OnePart je „krabicová“ novátorská aplikace s unikátním nalézacím přístupem, která rapidně urychluje a usnadňuje opětovné použití součástek a dílů, jejich návrhů, specifikací, standardů, výsledků testů a souvisejících dat.
Tím dochází k finančním úsporám v přímých nákladech, k úsporám v „mentální energii" těch nejvíce znalých pracovníků, ale také ke zvyšování efektivity, kvality a flexibilnosti výroby. Aplikace OnePart Určena je zejména (nikoliv pouze) pro inženýry a designéry nejen v inženýringu a konstrukčním oddělení, strojírenské výrobě, dodavatelském procesu a v souvisejících činnostech.
Konstruktéři a inženýři pravidelně činí kritická rozhodnutí, která ve svém důsledku mohou mít významný dopad do nákladů vaší společnosti. Konstruktéři každý den navrhují stále více nových dílů. Proč tedy "jen" nehledat a opětovně použít obdobné anebo ekvivalentní součásti, které jsou již navrženy a existují jako složka vašeho firemního duševního vlastnictví? No proto, že dnes je hledání konstrukcí dílů a souvisejících informací velmi časově náročné, má nejistý výsledek a je potenciálně náchylné k chybám.
Bez extrémně účinného nástroje pro rychlé nalezení a srovnání podobných součástek skrytých uvnitř hromady dat a datových zdrojů roztroušených po společnosti, si inženýři prostě raději vyberou variantu nové tvorby dílu spíše než strávení času neproduktivním hledáním. Ačkoliv si to nemusí uvědomovat, vytvoření nového dílu, podtrženo a sečteno, má dopad na celkové náklady, tím pádem i na cenu, a tím pádem samozřejmě i na ziskovost.
Týká se to pak i dalších konsekvencí v technologii, výrobních postupech a časech, kontrole jakosti, objemu skladových zásob a pružnosti produkce (time-to-market).
Použití silné ověřené vyhledávací technologie pomůže nalézt odpovědi na otázku, zda znovupoužít již hotový konstrukční návrh či vytvářet nový, během pouhé 1 minuty.
Znovuobjevení a opětovné použití dřívějších konstrukčních návrhů je dobré pro práci i pro obchod, pro lidi i pro společnost.
Najít a znovupoužít existující díly, 2D/3D konstrukční návrhy a související dokumentaci
Stojící na ověřené inovativní technologii EXALEAD CloudView, EXALEAD OnePart umožňuje optimalizované znovupoužití konstrukčních dílů a souvisejících dokumentů tak, že se urychluje produktový vývoj a zákaznické dodávky, přičemž se ale snižuje čas konstrukčních návrhů, spotřeba materiálu, nároky na průmyslovou výrobu a celkové náklady na skladované položky.
- Komplex přístupů, aplikací a technologií sloužících k podpoře rozhodovacích procesů podniku.
-Vznik s rostoucí informační potřebou a naproti tomu hrozbou informačního přehlcení.
- Zahrnuje aktivity takřka všech podnikatelských oblastí, tj. nákupu, výroby, marketingu, finančního řízení a controllingu, řízení lidských zdrojů, prodeje apod
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmyMojmír Macek
Integrovaný portál pro řízení týmů/pracovníků a správu majetku s jasnou definicí rolí pro:centrální efektivní management provozních činností, řízení rizik, revizí a procesů, stavů dokumentů, užití zdrojů, včetně prostorového a technického pasportu areálu, registr vztahů kontaktů a jejich rolí a organizační struktury, a to vše vizualizované a analyzované v mapách (2D&3D).
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
Jan Hutař je od února roku 2012 členem týmu Digital Continuity v Národním archivu Nového Zélandu (NA NZ). V přednášce bude informovat o tom, kam se za poslední dva roky dostal projekt „Government Digital Archive,“ který jako základní součást své infrastruktury používá systém Rosetta od firmy Ex Libris. Dozvíme se, co musel NA NZ řešit při prvních transferech digitálních dokumentů od původců a jak se projektu daří realizovat původní plány.
Prague data management meetup #30 2019-10-04Martin Bém
This document summarizes the agenda for the Prague Data Management Meetup on April 10, 2019. The meetup will feature a presentation from Jeff Pollock on next generation data integration patterns. The meetup series discusses topics related to data management, acquisition, storage, integration, analytics, and usage. It is an open professional group that has been running since 2015.
Prague data management meetup #31 2020-01-27Martin Bém
The document discusses an upcoming meetup on data warehousing for beginners hosted by the Prague Data Management Meetup group. It provides context on the group and past meetup topics. It then covers various data management concepts like the data lifecycle, types of data architectures including data warehousing, differences between data lakes and data warehouses, and modern approaches to data integration.
More Related Content
Similar to Prague data management meetup 2016-09-22
Jak se mění práce analytika (Martin Bosák)Taste Medio
Jaké problémy dnes řeší dnešní datový analytik v různých firmách a co ho brzy čeká? Ukážeme konkrétní příklady z projektů, jejich řešní a také komplikace po cestě.
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
Pokud chcete mít kontrolu nad oběhem dokumentů ve vaší organizaci, potom se zúčastněte webináře, který bude pojednávat o problematice správy firemních dokumentů v praxi. Webinář je určen pro ty, kteří ještě nevyužívají žádný podobný systém, ale i těm, kteří se současným nejsou spokojeni.
Na webináři budeme mluvit o nejčastějších úskalích efektivní správy dokumentů napříč různými organizacemi a odvětvími.
Představíme vám řešení M-Files DMS vhodné pro malé i velké organizace, které vám umožní vyřešit otázku správy dokumentů a vy tak budete mít kontrolu nad celým životním cyklem dokumentů. M-Files vám pomáhají i v těchto oblastech:
-Díky pracovním postupům (workflow) už se nestane, že by došlo k odeslání neschválené smlouvy, nebo že by byla zaplacena neschválená faktura.
-Budete moci přiřazovat dokumenty k vašim zákazníkům, dodavatelům a spolupracovníkům.
-Nebudete mít jeden dokumentu uložen několikrát na různých místech a snadno jej obnovíte, pokud jste ho omylem smazali.
-Ke všem dokumentům budete moc přistupovat odkudkoli.
-Řízení přístupových oprávnění zajistí přístup k dokumentům jen vyjmenovaným osobám. Tím pádem budete mít přehled o tom, kdo s jakým dokumentem pracoval a co s ním dělal.
-...a další funkce, díky kterým pro vás práce s M-Files bude příjemnou součástí každodenních povinností.
Program webináře
-Úskalí při správě dokumentů.
-Jak vybrat správné řešení pro správu doumentů.
-Představení produktu M-Files.
-Klíčové vlastnosti M-Files.
-Co řeší M-Files oproti jiným DMS systémům.
-Pro koho je M-Files vhodné řešení.
-Jak probíhá projekt zavádění DMS.
-Příklady licencování a ceny.
-Praktická ukázka.
http://www.technodat.cz/exalead-onepart
EXAELAD OnePart je „krabicová“ novátorská aplikace s unikátním nalézacím přístupem, která rapidně urychluje a usnadňuje opětovné použití součástek a dílů, jejich návrhů, specifikací, standardů, výsledků testů a souvisejících dat.
Tím dochází k finančním úsporám v přímých nákladech, k úsporám v „mentální energii" těch nejvíce znalých pracovníků, ale také ke zvyšování efektivity, kvality a flexibilnosti výroby. Aplikace OnePart Určena je zejména (nikoliv pouze) pro inženýry a designéry nejen v inženýringu a konstrukčním oddělení, strojírenské výrobě, dodavatelském procesu a v souvisejících činnostech.
Konstruktéři a inženýři pravidelně činí kritická rozhodnutí, která ve svém důsledku mohou mít významný dopad do nákladů vaší společnosti. Konstruktéři každý den navrhují stále více nových dílů. Proč tedy "jen" nehledat a opětovně použít obdobné anebo ekvivalentní součásti, které jsou již navrženy a existují jako složka vašeho firemního duševního vlastnictví? No proto, že dnes je hledání konstrukcí dílů a souvisejících informací velmi časově náročné, má nejistý výsledek a je potenciálně náchylné k chybám.
Bez extrémně účinného nástroje pro rychlé nalezení a srovnání podobných součástek skrytých uvnitř hromady dat a datových zdrojů roztroušených po společnosti, si inženýři prostě raději vyberou variantu nové tvorby dílu spíše než strávení času neproduktivním hledáním. Ačkoliv si to nemusí uvědomovat, vytvoření nového dílu, podtrženo a sečteno, má dopad na celkové náklady, tím pádem i na cenu, a tím pádem samozřejmě i na ziskovost.
Týká se to pak i dalších konsekvencí v technologii, výrobních postupech a časech, kontrole jakosti, objemu skladových zásob a pružnosti produkce (time-to-market).
Použití silné ověřené vyhledávací technologie pomůže nalézt odpovědi na otázku, zda znovupoužít již hotový konstrukční návrh či vytvářet nový, během pouhé 1 minuty.
Znovuobjevení a opětovné použití dřívějších konstrukčních návrhů je dobré pro práci i pro obchod, pro lidi i pro společnost.
Najít a znovupoužít existující díly, 2D/3D konstrukční návrhy a související dokumentaci
Stojící na ověřené inovativní technologii EXALEAD CloudView, EXALEAD OnePart umožňuje optimalizované znovupoužití konstrukčních dílů a souvisejících dokumentů tak, že se urychluje produktový vývoj a zákaznické dodávky, přičemž se ale snižuje čas konstrukčních návrhů, spotřeba materiálu, nároky na průmyslovou výrobu a celkové náklady na skladované položky.
- Komplex přístupů, aplikací a technologií sloužících k podpoře rozhodovacích procesů podniku.
-Vznik s rostoucí informační potřebou a naproti tomu hrozbou informačního přehlcení.
- Zahrnuje aktivity takřka všech podnikatelských oblastí, tj. nákupu, výroby, marketingu, finančního řízení a controllingu, řízení lidských zdrojů, prodeje apod
Sitewell EIRA: podpora facility managementu a řízení provozu pro firmyMojmír Macek
Integrovaný portál pro řízení týmů/pracovníků a správu majetku s jasnou definicí rolí pro:centrální efektivní management provozních činností, řízení rizik, revizí a procesů, stavů dokumentů, užití zdrojů, včetně prostorového a technického pasportu areálu, registr vztahů kontaktů a jejich rolí a organizační struktury, a to vše vizualizované a analyzované v mapách (2D&3D).
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
Jan Hutař je od února roku 2012 členem týmu Digital Continuity v Národním archivu Nového Zélandu (NA NZ). V přednášce bude informovat o tom, kam se za poslední dva roky dostal projekt „Government Digital Archive,“ který jako základní součást své infrastruktury používá systém Rosetta od firmy Ex Libris. Dozvíme se, co musel NA NZ řešit při prvních transferech digitálních dokumentů od původců a jak se projektu daří realizovat původní plány.
Similar to Prague data management meetup 2016-09-22 (20)
Prague data management meetup #30 2019-10-04Martin Bém
This document summarizes the agenda for the Prague Data Management Meetup on April 10, 2019. The meetup will feature a presentation from Jeff Pollock on next generation data integration patterns. The meetup series discusses topics related to data management, acquisition, storage, integration, analytics, and usage. It is an open professional group that has been running since 2015.
Prague data management meetup #31 2020-01-27Martin Bém
The document discusses an upcoming meetup on data warehousing for beginners hosted by the Prague Data Management Meetup group. It provides context on the group and past meetup topics. It then covers various data management concepts like the data lifecycle, types of data architectures including data warehousing, differences between data lakes and data warehouses, and modern approaches to data integration.
This document discusses trends in data warehousing and analytics. It provides an overview of the evolution of data warehousing from its origins in the 1980s to modern approaches. Key stages discussed include the rise of data marts and ETL in the 1990s-2000s, the emergence of big data and Hadoop in the 2010s, and current approaches like logical data warehousing, data lakes, and machine learning/AI. It also examines ongoing challenges around data volume, complexity, legacy systems, and others.
This document summarizes a blockchain meetup in Prague in October 2018. The agenda included an overview of blockchain technology, platforms, and a question and answer session. Blockchain was defined and examples like Bitcoin and Ethereum were provided. Popular platforms like Hyperledger, Ethereum Enterprise Alliance, and Corda were also listed and criteria for evaluating blockchain platforms was presented. Use cases for identity management and trade on the blockchain were briefly discussed.
Prague data management meetup 2018-03-27Martin Bém
This document discusses different data types and data models. It begins by describing unstructured, semi-structured, and structured data. It then discusses relational and non-relational data models. The document notes that big data can include any of these data types and models. It provides an overview of Microsoft's data management and analytics platform and tools for working with structured, semi-structured, and unstructured data at varying scales. These include offerings like SQL Server, Azure SQL Database, Azure Data Lake Store, Azure Data Lake Analytics, HDInsight and Azure Data Warehouse.
Prague data management meetup 2018-02-27Martin Bém
This document discusses the agenda for the Prague Data Management Meetup on February 27, 2018. The topics included an overview of the meetup group, Gartner's Magic Quadrant for Data Management Solutions for Analytics, and the second part of an introduction to data warehouse modeling (Základy modelování DW #2). The meetup group focuses on topics related to data management, acquisition, storage, integration, analytics, and usage. A history of past meetup topics is also provided.
Prague data management meetup 2017-11-21Martin Bém
The document summarizes an upcoming Prague Data Management Meetup event on Big Data. The event agenda includes a discussion on Big Data architectures, covering topics like ETL vs ELT on Hadoop, Lambda and Kappa architectures, polyglot processing, and the 7 V's of Big Data (Volume, Velocity, Variety, Variability, Veracity, Visualization, and Value). The speaker will be Kuba Augustin, discussing Big Data quickly and wildly.
Prague data management meetup 2017-09-26Martin Bém
This document discusses current trends in data management that were presented at the Prague Data Management Meetup on September 26, 2017. It begins with listing the agenda and history of past meetup events. Then, the main section analyzes trends in data governance, big data, data science, machine learning, artificial intelligence, data lakes, self-service BI, smartphone BI, advanced analytics, collaborative BI, appliances, visual data discovery, data storytelling, augmented analytics, cloud integration, cloud analytics, advanced data platform architectures, internet of things, data warehouse modernization, automation, analytical databases, and data source federation. It concludes with a final joke.
Prague data management meetup 2017-03-28Martin Bém
This document provides an overview of metadata and its role in data warehousing (DW) and business intelligence (BI). It discusses different types of metadata including descriptive, structural, and administrative metadata. Examples of metadata are provided relating to conceptual models, business rules, processes, data structures, transformations and movement. The importance of metadata for context, consolidation, and ensuring truth in data is highlighted. The metadata lifecycle of creating, maintaining, updating, storing, and publishing is also summarized.
Prague data management meetup 2017-02-28Martin Bém
The document discusses an operational data store (ODS) that was implemented to integrate data from two banks, Velká česká banka and Nová česká banka, after a transaction integration, using APIs, ETL workflows, and data transformations to populate the ODS with consolidated customer, account, and transaction data from both banks for operational reporting. It also provides details on the types of data domains integrated into the ODS and growth in API usage over time as more systems accessed the shared ODS.
Prague data management meetup 2016-11-22Martin Bém
The document discusses Prague Data Management Meetup, an open professional group that meets monthly to discuss topics related to data management. It then provides an agenda and history for past meetup events, covering subjects like data lakes, dark data, self-service BI, and data warehouse modeling. The remainder of the document focuses on data warehouse modeling, including comparisons of operational databases versus data warehouses, different data modeling approaches, and best practices for data warehouse design like using standard naming conventions and domain types.
Prague data management meetup 2016-03-07Martin Bém
The document summarizes an upcoming meetup about data warehousing modeling issues. The meetup will discuss sad stories related to data warehouse architecture, governance, data quality, integration, operations, and data modeling. Some examples of issues that will be discussed include too generic data models, industry data models being misapplied, missing constraints in data models, and copying data structures from source systems 1:1 without normalization. The meetup is part of a regular series organized by a Prague data management group.
Prague data management meetup 2016-01-12 pubMartin Bém
The document summarizes a Prague data management meetup. The agenda included an introduction about the group, and a presentation on the data lake concept. A data lake is defined as a massive, easily accessible data repository for storing big data without dropping attributes below aggregation levels. It aims to retain all attributes without knowing the scope or use of the data in advance. Quotes from industry experts provide perspectives on data lakes being large storage repositories and one of the more controversial ways to manage big data. Key factors for data lakes include metadata, data quality, technology used, value added, costs, security, governance, and data load processes.
Prague data management meetup 2015 11-23Martin Bém
The document summarizes a meetup about dark data. It defines dark data as data that is collected and stored by organizations but not used for insights or decision making. Examples of typical dark data sources are log files, customer information, previous employee data, and old documents. Reasons why dark data grows include legal risks, lost opportunities, and open-ended exposure. Estimates suggest 80-90% of organizational data is dark. Tips to manage dark data include implementing data governance, ongoing data assessment, retention policies, and specifically auditing dark data for security.
3. Prague Data Management Meetup
Data Management
Získávaní dat
Ukládání dat
Zpracování dat
Interpretace dat
Použití dat
• Otevřená profesionální zájmová
skupina
• Každý je vítán (ať už v pasivní
nebo aktivní roli)
• Témat není nikdy dost
• Snaha o pravidelné měsíční
setkávání
• Existuje od září 2015
4. Historie
Datum Téma
10. 9. 2015 Data Management
14. 10. 2015 Data Lake
23. 11. 2015 Dark Data (without Dark Energy and Dark Force)
12. 1. 2016 Data Lake (Again)
7. 3. 2016 Sad Stories About DW Modeling (sad stories only)
23. 3. 2016 Self-service BI Street Battle
27. 4. 2016 Let's explore the new Microsoft PowerBI!
22. 9. 2016 Data Management pro začátečníky
17. 10. 2016 Small Big Data
22. 11. 2016 Základy modelování DW
5. Bez Data Managementu vznikají datové bažiny
Odvážný
Data Scientist
Velmi špatně
udržovaná
Data Platforma
6. Slibované zkratky
DW DL EDW LDW BDP BI
ML MD BD DG DQ DS
ETL ELT DP LDM PDM MDM
RDM DM DV IDM
9. Celosvětový datový boom
9
1 exabyte = 1018 bytů
Za jednu minutu této prezentace vznikne:
350 000 tweetů na Twitteru
4 000 000 liků na Facebooku
100 000 hovorů přes Skype
300 hodin videa na YouTube
Spousta dalších dat
90% všech dat vzniklo v poslední dvou letech
Mezi lety 2010-2020 vzroste objem dat lidstva 50x
2010:
800 exabytů
2020:
40 000 exabytů
10. 0
20
40
60
80
100
120
140
2011 2012 2013 2014 2015 2016 2017
Exabyty
IDC: Structured Versus Unstructured Data: The Balance of Power Continues to Shift. #247106. Table 1. Page 9
Struktura datového boomu
Data mimo RDBMS
rostou meziročně o
40%+
Data v RDBMS rostou
meziročně o 20%+
11. Temná strana datového boomu: Datová temnota
Nevyužitá data
88%
Využitá data
12%
Pouze 12% nových dat se
analyzuje
Tento poměr se v čase stále
zhoršuje…
Zdroj: IBM
Modernizace datových
platforem nutná!
12.
13. Business Process
Analysis #2
Analysis #1
Funkční integrace
vs.
Datová integrace
Část dat se nikdy neuloží
Část dat se uloží chybně
Operativa
Analytika
14. Data Warehouse
• Konsolidovat data z nejrůznějších
zdrojů v požadované kvalitě a čase
• Poskytovat srozumitelné informace
různým účelům a skupinám uživatelů
• Poskytovat možnosti, které zajistí
flexibilní a účinný ad-hoc reporting a
analýzu
• Orientace na subjekt
• Integrace
• Nízká proměnlivost
• Historizace
• Hlavní perspektivy
• Datová integrace
• Datová úložiště
• Rozšíření
• Zpracování událostí (Complex Event
Processing) pro zpracování událostí
v reálném čase
• Aplikační integraci zejména pro integraci
v pokud možno reálném čase a podporu
provozních procesů
• Operational Data Store pro uložení
aktuálních dat, které jsou potřeba pro
podporu provozních procesů
• Platformu pro pokročilé analýzy (Big Dat)
EDW, DW, DSS, ADS, ADW, DP…
15. Typy DataWarehouse
Fyzická Data Warehouse
• Klasická relační databáze.
• Výhody:
• Reálné uložení dat snižuje nároky na
governance
• Stabilita a možnost transformací pro
mandatorní reporting.
• Snadnější standardní metody data
miningu
• Nevýhody:
• železo – Hardware, při fyzickém uložení
resp. přeuložení
• máme data vícekrát.
Logický Data Warehouse
• Data neukládám do konsolidované
struktury, ale říkám jak je jednotně číst.
• Nový trend – Big Data, Query Engine.
• Výhody:
• Data mám pouze jednou a to v podobě
primárního systému.
• Neztrácím informace fyzickými
transformacemi do jednotné struktury.
• Nevýhody:
• Náročná Governance
15
16. Data Comparison
Characteristic Operational
Database
Data Warehouse
Currency Current Historical
Details level Individual Individual and summary
Orientation Process Subject
Records per request Few Thousands
Normalization level Mostly normalized Normalization relaxed
Update level Highly volatile Mostly refreshed (non volatile)
Data model Relational Relational (star schemas) and
multidimensional (data cubes)
Source: Coursera
19. Adastra Information Management Reference Architecture
19
ODS
Operational
reporting
Enterprise DWH Big Data
Platform
Data Lake
Event
Processing
Semantic
Models
Advanced Analytics
Perceptual / cognitive intelligence
Information Management
Relational / Structured data Unstructured data Streaming
Data Workflow
Orchestration
Data Transformation /
Processing
Data
Management
Event Ingestion
Complex Event
Processing
Notifications
BI / Application
Integration
Machine Learning
In-database Data Mining, R
Recognition of human
interaction and intent
SMP and MPP
In-memory technologies
In-memory Columnar
In-memory technologies Hadoop, NoSQL
Business Intelligence / Data Delivery
Real-time DashboardsDashboards and visualizationsReports Self-service BIMobile BI
IoT Network
Field Gateway
Big data
OLAP
20.
21. DWH Logical Data Layers
Stage Area
Relational Area
Consolidation Area
Data Mart Area
• Data Mart Area
• L2
• User Access Layer
• Consolidation Area
• Consolidated L1
• Common aggregates for L2
• Cleansed and consolidated data
• Relational Area
• Detailed L1
• Consistent, integrated, subject oriented
data, universal data structure, historical
data, maximal detail
• System of record
• Stage Area
• Copy of source systems
Extracts
Reports
Note: Consolidated and Detailed L1 can
share same data structures
22.
23. Modernizace datových platforem
Technologické inovace
• Data Warehouse Appliance
• Data warehouse automation
• Sloupcové databáze, In-memory databáze, NoSQL databáze,
Grafové databáze
• Hadoop, Spark, Machine Learning
• Data streams
• Datová virtualizace
• Query engine
• Nástroje pro predikční analytiku
• Data Discovery
• Vizualizační nástroje
• Self-service BI nástroje
• Mobile BI
• Cloud (IaaS, PaaS, SaaS), Intelligence as Service
Architektonické inovace
• Data Factory
• Data Rafinery
• Analytic Data Store 2.0
• Networked BI
• Logical Data Warehouse
• Data Reservoir
• Data Lake
• Enterprise Data Lake
• Semantic Data Lake
• Data Lake 2.0
• Business Data Lake
• Enterprise Data Hub
• Data Sea
23
„Data jsou nová voda.“
Konsolidace
Liberalizace
24. Real DW in Real Numbers
03/2012
• 1200 L1 Tables
• 18 TB
• 3500 ETLs
• 1000 generic ETLs
• 2500 mapped ETLs
• 22 000 ETL executions every day
• More than 500 processed extracts
every working day
03/2014
• 1800 L1 Tables
• 34 TB
• 7000 ETLs
• 2200 generic ETLs
• 4800 mapped ETLs
• 40 000 ETL executions every day
• More than 1300 processed extracts
every working day
0
5
10
15
20
25
30
35
7.2.2010 7.2.2011 7.2.2012 7.2.2013 7.2.2014
26. Data Management Implementation Process
Happy report users
Standard daily operation
Initial load
Deployment
Acceptance
Testing
ETL/ELT and workflow implementation
ETL/ELT and worklfow design
Physical model implementation
Logical and physical model design
Business Glossary, Data dictionary, conceptual data model
Source data analysis
Requirement analysis
30. System ID First Name Family Name Czech Office
Client Flag
Business Sector Social Insurance
Number
AAA AA123 John Doe Yes Employee 45678
Involved
Party ID
First
Name
Family
Name
Birth Date Social Insurance
Number
System
1 John Doe 1.1.1990 45678 AAA
2 John Doe 45678 BBB
Involved
Party ID
System Alternative ID
1 AAA AA123
2 BBB 456
3 123456789
Location ID Email Location
Type
System
200 john@doe.com Email BBB
Classifaction
ID
Classification
Schema ID
Classification
Description
100 301 Yes
101 302 Employee
Involved
Party ID
Classifacti
on ID
Classification / Involved
Party Role Type
System
1 100 IP is classified by CL AAA
1 101 IP is classified by CL AAA
Location ID Involved
Party ID
Involved Party / Location
Role Type
System
200 2 LO is a contact address of IP BBB
Involved Party Alternative ID
Involved Party
Involved Party
Location Relationship
Location
Classification / Involved Party
Relationship
Extracts (L0):
SoR (L1):
Classifaction
Schema ID
Classification Schema
Description
301 Czech Office Client Flag
302 Business Sector
ClassificationClassification Schema
System ID First Name Family Name Email Birth Date Social Insurance
Number
BBB 456 John Doe john@doe.com 1.1.1990 45678
Involved
Party ID
Involved
Party Type
Involved
Party Name
Record
Type
System
1 Individual John Doe Instance AAA
2 Individual John Doe Instance BBB
3 Individual Master
Individual
Subject
Involved Party
ID
Object
Involved
Party ID
Involved Party /
Involved Party
Relationship Type
3 1 Consolidation
3 1 Consolidation
Involved Party / Involved
Party Relationship
33. OLAP
[ WITH <SELECT WITH clause>
[ , <SELECT WITH clause> ... ] ]
SELECT [ * | ( <SELECT query
axis clause> [ , <SELECT query
axis clause> ... ] ) ] FROM
<SELECT subcube clause> [
<SELECT slicer axis clause> ] [
<SELECT cell property list
clause> ]
Source: Microsoft
MDX Example
34. Datová kvalita: Data nebývají konzistentní
Zdrojový
systém #1
Zdrojový
systém #2
Jméno Příjmení RČ Adresa
Pepa Radost 111111/1111 Na Kovárně 3, Bráník, Praha
Josef Radost 111111/1111 Praha
Martin Matuszczyk 666/666 SlovenskoPolského přátelství 4, Praha
Robert Miškuf 999999/9999 Slovensko-polského přátelství 4, Praha
ID Jméno Příjmení RC TYP ICO Město Ulice Popis
1 Pepa Radost 111111/1111 FO Praha Na Kovárně 3 Branik
4 Josef Radost 111111/1111 FOP 11150 Praha
2 Martin Matuszczyk 666/666 FO Praha
Slovenskopolského
přátelství 4,
3 Robert Miškuf 999999/9999 FO Praha
SlovenskoPolského
přátelství 4, 4. patro
35. Kdo je Leoš Mráček?
35
ID Titul1 Jmeno Prijmeni Titul 2 RČ
1 ing. Leoš Mráček MBA 691117/3457
2 ing. Leoš Mráček MBA 6911173457
3 Leos Mracek 11.17.1969
4 ing. Leoš Mráček MBA NULL
5 Leoš Mráček, MBA 691117/3457
6 ing. Leo3 Mr8ček 999999/9999
7 Mráček Leoš 691117/3455
8 ing, Leoš Mraeek MBA 691117/3475
9 ing. Leoš Mra4ek, MBA 0
10 ing. MBA Leoš Mrácek 6911173457
11 ing. Leoš Mráček, MBA 6910174375
12 Jana Votavová 6910174376
13 Karel Novák 999999/9999
36. Matching / Unifikace
36
Records
Primary groups
Candidate groups
John Smith
null
John Smith
null
Jane Smith
420347213
Jane Watson
420347213
J Smith
420347213
J Smith
null
Jane Watson
420347213
John Smith
095252433
John Smith
095252433
John Smith
095242434
John Smith
095242434
Janette Smith
null
Secondary groups
?
41. Partitioning
• Rozdělení tabulky na více oddílů (= partition)
• Výhody
• menší množství dat (= rychlost dotazů)
• omezení zamykání (= rychlost dotazů)
• možnost nastavení indexů a jiných atributů zvlášť pro každý oddíl
• Nevýhody
• údržba
Regular
table
Partitioned
table
Index Organized
Table
42. Paralelismus
• Při nahrávání rozsáhlých datových skladů problém s časovým prostorem
• Řešení
• „lepší“ zdroje (= zvýšení výkonu)
• změna workflow
• Změna workflow má zásadní dopad na výkon řešení
• zrušení prostojů
• možnost využití zdrojů, které jinak není možné využít
• Jednou z možností změny workflow - paralelismus
43. Technologie
Stack Others
RDBMS
Oracle Database
MySQL
Microsoft SQL Server
Microsoft SQL Server APS
Azure SQL Data Warehouse
Amazon Redshift
HP Vertica
IBM dashDB
IBM DB2
PostgreSQL
SAP HANA
SAP IQ
SAP SQL Anywhere
Teradata Database
ETL/ELT
Oracle Data Integrator
Oracle Golden Gate
MS Integration Services
Azure Data Factory
Clover ETL
IBM InfoSphere DataStage
Informatica PowerCenter
Pentaho Data Integration
SAP Data Services
SAS Data Integration
Talend Data Integration
BI & Analytics
Oracle Big Data Discovery
Oracle Business Intelligence
Oracle Endeca Data Discovery
Oracle Essbase
Oracle R Enterprise
Azure Machine Learning
MS Analysis Services
MS Datazen
MS Excel BI
MS Power BI
MS Reporting Services
Revolution R
Amazon QuickSight
GoodData
IBM Cognos Reporting
IBM Watson Analytics
Microstrategy Analytics
Qlik Sense
Qlikview
SAP Business Objects
SAS Visual Analytics
Tableau
Teradata Aster Discovery Platform
Appliances
Oracle Exadata
Oracle SuperCluster
MS Analytic Platform System
IBM Netezza Twinfin
SAP HANA
Teradata Data Warehouse Appliance
HP Vertica Analytics System
+ Big Data Stack
46. Microsoft SQL Server 2016
46
Excel + Power BI add-ins
Query, Pivot, View, Map
SharePoint
Power Pivot Gallery, Power View
Excel
Data Mining
Power BI Desktop Power BI Portal
Azure ML
End-to-End DW & Big Data Platform, Driving Analytics on any Data
Power BI Mobile App
Analytics Platform System
(APS)
57. The Evolution of Business Intelligence
57
Traditional Analytics
1st Generation Analytics (Query & Reporting)
2nd Generation Analytics (OLAP, Data Warehousing)
Advanced Analytics/Optimization
Rules
Predictive Analytics
Real-time and traditional Data Mining
Stream Analytics*
Real-time, continuous, sequential analysis
(ranging from basic to advanced analytics)
* In lieu of stream analytics, “embedded analytics,” although architecturally
different, could potentially play the same role
3rd-Generation BI
Legacy BI
“New Traditional” Analytics
“2.5-Gen” Analytics (In-Memory OLAP, Search-Based)
58. Data Visualization & Reporting
Spark lines
̶ Trends
Bullet graphs
̶ KPI measurements, Scorecards
Graph matrix (small multiples / trellis)
̶ Vizualizace multidimenzionálních dat
̶ Série grafů pro porovnání naměřených výsledků za daných podmínek (např.
prodej kategorií produktů v regionech)
Scatter plot, Interactive bubble graph
̶ Změny v čase
̶ Osa X: čas, Osa Y: meření (např. prodej)
̶ Další možnosti: barva (kategorie produktu), velikost bubliny (počet
zákazníků)
Heat or tree maps
59. Oracle Business Intelligence
• On-premise i cloud varianta
• Podpora pro pokročilou analytiku, self-service
vizualizace i Mobile BI
Oracle Big Data Discovery
• Nativní self-service analytika pro Big Data řešení
59
60. Self-service BI
• Definition • Self-Service BI involves:
• Data availability
• Availability of all relevant / required / useful / valuable data
• Ability to process and save data
• Sandboxing – how to create it within the infrastructure, how to create security settings,
assign resources, manage outputs and how to clean the sandbox regularly.
• SQL or some user-friendly ETL
• Ability to access the heterogeneous data
• Connection to various/heterogeneous data sources and import of the relevant data for
analyses (data mashups)
• Definition of the schematic layer for the provision of data to non-expert users
• Data discovery
• Tools for profiling, statistics and data mining
• Effective tools for data visualization
• Sparklines, Bullet chart, Matrix chart (small multiples / trellis), Scatter plot, interactive
Bubble chart, Heat map, Radius chart, Network chart, Maps, Geoinformation…
• Collaboration
• Ability to publish and share created reports and analyses
• Ability to transfer ad-hoc and self-service outputs into regular reporting cycles
• Ability to share information, classifications, discuss, comment and blog
• Self-Service BI is set of data
management technologies,
processes and methods that
enable flexible and fast data
research, validation of
prototypes, ad-hoc analyses and
information sharing with minimal
involvement of the IT
department.
62. Tableau Desktop Qlik Sense Desktop
Microsoft Power BI Desktop SAS Visual Analytics
63. Mobile BI
All versions from 2016-03-12
CollabMobile https://youtu.be/49If_G5Llg0
Datazen https://youtu.be/ePCMoqSj1-k
IBM Cognos https://youtu.be/kZEdS29HBeE
Infor Dashboards https://youtu.be/CO2v1eXjPXI
Microstrategy https://youtu.be/qcdaQPc3fj4
Oracle BI HD https://youtu.be/Jnb1jDVfvUU
Power BI https://youtu.be/kaxSQEevMZI
Qlik Sense https://youtu.be/WX1R_ynbWYI
QlikView https://youtu.be/EJYC9cnCjlU
RoamBI https://youtu.be/GG5SmfRfFTs
Salesforce Wave Analytics https://youtu.be/I5MHagpxXQ0
SAP BI https://youtu.be/T0DcY1eS0sA
SAS BI https://youtu.be/SNjYpY7hulw
Tableau https://youtu.be/yCo2Z2ZhUoU
Tibco Metrics https://youtu.be/VTfQxO8nTNs
BI Office https://youtu.be/H7lTJxfZRsc
67. Srovnání Data Warehouse vs. Data Lake
Data Warehouse Data Lake (Big Data)
Data Structured Structured
Semi-Structured
Unstructured
Data Processing Processed Raw
Data Schema Schema-on-write Schema-on-read
Data Model Relational Object-based
Data History Hierarchically archived No hierarchy
Agility Fixed configuration Reconfigured anytime as needed
Security Mature Maturing
Primary Users Data analysists
Business professionals
Data Scientists
Technology RDBMS NoSQL DBMS
Hadoop
Other distributed file systems
„Data Lake může i tam, kam žádný slušný Data Warehouse nesmí.“
68.
69. Rozklíčováné zkratky
DW
• Data Warehouse
DL
• Data Lake
• Daily Load
EDW
• Enterprise Data
Warehouse
LDW
• Logical Data
Warehouse
BDP
• Big Data Platform
BI
• Business Intelligence
ML
• Machine Learning
MD
• Master Data
• Metadata
BD
• Big Data
DG
• Data Governance
DQ
• Data Quality
DS
• Data Source
• Data Stage
ETL
• Extract,
Transformation, Load
ELT
• Extract Load
Transformation
DP
• Data Platform
LDM
• Logical Data Model
PDM
• Physical Data Model
MDM
• Master Data
Management
RDM
• Reference Data
Management
DM
• Data Management
• Data Mart
DV
• Data Vault
• Data Visualization
• Data Virtualization
IDM
• Industry Data Model