SlideShare a Scribd company logo
1 of 35
Analytic Powerhouse:
Parallel Data
Warehouse und R
Marcel Franke
Über mich – Marcel Franke
Practice Lead Advanced Analytics & Data Science
pmOne AG – Deutschland, Österreich, Schweiz
P-TSP für Microsoft, Schwerpunkt PDW & Big Data
>10 Jahre Erfahrung mit großen Data Warehouse-
und BI-Lösungen
Blog: dwjunkie.wordpress.com
E-Mail: marcel.franke@pmOne.com
Agenda
Data Analytics bei einem Energieversorger
Einsatzmöglichkeiten von PDW
Umgang mit R und großen Datenmengen
Projektergebnisse
Data Analytics bei einem
Energieversorger
Projektschwerpunkte
Modellierung wettbewerbsfähiger Tarifmodelle
Navigationsanalysen der Webportale
Netz- und Last-Prognosen
Andere Prognosen und Simulationsverfahren
Skalierbare, massive parallele Big Data Infrastruktur
Dateien
Data Analytics Architektur
Quellsysteme
WebServer-Logs
Sensordaten
Datenbanken
Massive Parallel Processing
Integration Services
R in der Datenbank
Analysis Services Reporting Services Excel Power BI
Verarbeitung &
Datenhaltung
Frontends
Ein paar Worte zu R
R ist eine Sprache und Umgebung für statistische Analysen
http://www.R-project.org/
Gestartet 1994 als Alternative zu SAS, SPSS & und anderen statistischen
Umgebungen
R ist Open Source unter der GNU general public license
Am meisten verbreitete Statistiksoftware, vor allem im universitärem
Bereich & Forschung
Die Gladiatoren
Der Herausforderer…
Präsentiert die Waffen
SQL Server 2012
Parallel Data
Warehouse
Half Rack
HP DL 385
40 Cores
2 TB RAM
Fusion-IO Card
Infiniband
Analytische ModelleRelationale Daten
Daten
Ergebnisse
Wer ist Revolution
Analytics?
Gegründet 2007, Hautsitz Seattle
Ziel: Evolution von R für High-
Performance
Bieten R pakete für schnellere
Performance
Enterprise & Community Produkte
Stand-alone, Scale-out (HPC),
Hadoop, In-Database
Vorteile einer PDW Appliance
Eine Typische Data Warehouse Lösung
DB
Datenmodell
CPU
Hauptspeicher
Cache
Festplatte
SQL Server PDW Appliance
PlugandPlay Eingebaute
BestPractices
Zeitsparen
Vorgefertigte Hardware + Software Appliance
• Zusammen mit HP und Dell entwickelt
• Vorgefertigte Hardware
• Vorinstallierte Software
Ultra Shared Nothing Architektur
Große Fakten- oder Dimensionstabellen werden
über alle Knoten verteilt
TD
SD
PD
MD
SF
01-08
Time Dim
Date Dim ID
Calendar Year
Calendar Qtr
Calendar Mo
Calendar Day
Store Dim
Store Dim ID
Store Name
Store Mgr
Store Size
Product Dim
Prod Dim ID
Prod Category
Prod Sub Cat
Prod Desc
Sales Facts
Date Dim ID
Store Dim ID
Prod Dim ID
Mktg Camp ID
Qty Sold
Dollars Sold
Mktg Campaign
Dim
Mktg Camp ID
Camp Name
Camp Mgr
Camp Start
Camp End
TD
SD
PD
MD
SF
09-16
TD
SD
PD
MD
SF
17-24
TD
SD
PD
MD
SF
25-32
TD
SD
PD
MD
SF
33-n
Kann nach Bedarf einfach erweitert werden
0TB 7 PB
Add
Capacity
Add
Capacity
Largest
Warehouse
PB
StartSmall
AndGrow
NoDowntime
Projektergebnisse
And the winner is…
Schnellste Ladeperformance
Schnellste Query Performance
Beste Frontend Integration
Realtime Olap im Sekundenbereich
Preissimulationsverfahren
Web Analytics
DataWarehouse-SzenarienAnalytics
Wie erfolgt die Datenanalyse?
• Ergebnis: 7.500 Kunden in 5 Minuten (ohne Datenvorbereitung)
• Benchmark: 1 Minute
• Revolution Analytics ODBC Treiber funktionieren nicht mit PDW
• Lösung wurde als sehr aufwändig erachtet
Datenvorbereitung Analytische Modelle
R-ODBC: 10 MB/s
Datentransfer
Flat file export: 80 MB/s
Zusammenspiel von R und SQL Server
Testlabor
Laptop
• 4 Cores, 2,9 GHz
• 16 GB RAM
• SSD Karte
SQL Server 2014, CTP2
• TPCH
• 1 Mio. Zeilen, ~150 MB
R (64 Bit), RStudio
Was schauen wir uns an?
• Baseline Tests
• Parallele Scans
• Data Frame vs. List vs. Data Table
Vergleichswerte
400 MB/s
45 MB/s
19 MB/s
Demo
Lesen von Daten mit sqlQuery
1,7 MB/s
Paralleles Lesen der Daten mit sqlQuery
Lesen von Daten mit odbcQuery
1,9* MB/s
• *Reines Lesen der Daten: 19 MB/s
• *90% der Zeit wird benötigt für die Konvertierung in einen DataFrame
DataFrame vs. DataTable
Zusammenfassung
• Datenaustausch zwischen R und SQL Server nicht sonderlich
schnell ~20 MB/s
• odbcQuery ist schneller als sqlQuery
• Aufbauen des DataFrame bei großen Datenmengen dauert sehr
lange
• Parallelisierungsstrategien beim Lesen steigern die Performance
• DataTable als Alternative zum DataFrame nutzen
Welche Trends sehen wir Markt?
Move data to compute or compute to
data?
move data to compute
Datenbanken
OLAP
compute to data
Daten
• R in der Datenbank
• R auf Hadoop
• RHadoop
• Revolution Analytics RHadoop
Lösungen am Markt
Lösungen am Markt
• Services & Cloud
Vielen
Dank!
Marcel Franke

More Related Content

What's hot

Stabile und performante Anwendungen für SAP HANA entwickeln
Stabile und performante Anwendungen für SAP HANA entwickelnStabile und performante Anwendungen für SAP HANA entwickeln
Stabile und performante Anwendungen für SAP HANA entwickelnVirtual Forge
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerAndreas Buckenhofer
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieAndreas Buckenhofer
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Andreas Buckenhofer
 
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Wiiisdom
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLFromDual GmbH
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Spark Summit
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG
 
Anwendungen mit SAP HANA
Anwendungen mit SAP HANAAnwendungen mit SAP HANA
Anwendungen mit SAP HANADetlev Sandel
 
Webinar: Reporting mit SAP S4/HANA
Webinar: Reporting mit SAP S4/HANAWebinar: Reporting mit SAP S4/HANA
Webinar: Reporting mit SAP S4/HANACONOGY GmbH
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?Capgemini
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - SupernovaTorsten Glunde
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH AutomationTorsten Glunde
 
DWH-Modellierung mit Data Vault
DWH-Modellierung mit Data VaultDWH-Modellierung mit Data Vault
DWH-Modellierung mit Data VaultTrivadis
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeTorsten Glunde
 

What's hot (20)

Stabile und performante Anwendungen für SAP HANA entwickeln
Stabile und performante Anwendungen für SAP HANA entwickelnStabile und performante Anwendungen für SAP HANA entwickeln
Stabile und performante Anwendungen für SAP HANA entwickeln
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI Server
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)
 
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
Agile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANAAgile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANA
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
Moderne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANAModerne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANA
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Anwendungen mit SAP HANA
Anwendungen mit SAP HANAAnwendungen mit SAP HANA
Anwendungen mit SAP HANA
 
Webinar: Reporting mit SAP S4/HANA
Webinar: Reporting mit SAP S4/HANAWebinar: Reporting mit SAP S4/HANA
Webinar: Reporting mit SAP S4/HANA
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Hadoop und SAS für Einsteiger
Hadoop und SAS für EinsteigerHadoop und SAS für Einsteiger
Hadoop und SAS für Einsteiger
 
Data Warehousing mit SAP BW/4HANA
Data Warehousing mit SAP BW/4HANAData Warehousing mit SAP BW/4HANA
Data Warehousing mit SAP BW/4HANA
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH Automation
 
DWH-Modellierung mit Data Vault
DWH-Modellierung mit Data VaultDWH-Modellierung mit Data Vault
DWH-Modellierung mit Data Vault
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
 

Viewers also liked

Create a Data Science Lab with Microsoft and Open Source tools
Create a Data Science Lab with Microsoft and Open Source toolsCreate a Data Science Lab with Microsoft and Open Source tools
Create a Data Science Lab with Microsoft and Open Source toolsMarcel Franke
 
Content Lifecycle Management Solution on HANA Cloud Platform
Content Lifecycle Management Solution on HANA Cloud PlatformContent Lifecycle Management Solution on HANA Cloud Platform
Content Lifecycle Management Solution on HANA Cloud PlatforminvenioLSI
 
SSAS Reference Architecture
SSAS Reference ArchitectureSSAS Reference Architecture
SSAS Reference ArchitectureMarcel Franke
 
Designing High Performance ETL for Data Warehouse
Designing High Performance ETL for Data WarehouseDesigning High Performance ETL for Data Warehouse
Designing High Performance ETL for Data WarehouseMarcel Franke
 
SAP Is-Media Advertising Management
SAP Is-Media Advertising ManagementSAP Is-Media Advertising Management
SAP Is-Media Advertising Managementsivasap
 
Cap xii codigo alimentario arg
Cap xii codigo alimentario argCap xii codigo alimentario arg
Cap xii codigo alimentario argMartin Vidal
 
eoda R-Akademie 2014
eoda R-Akademie 2014 eoda R-Akademie 2014
eoda R-Akademie 2014 eoda GmbH
 
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015Nadine Schoene
 
FreeBSD: Looking forward to another 10 years by Jordan Hubbard
FreeBSD: Looking forward to another 10 years by Jordan HubbardFreeBSD: Looking forward to another 10 years by Jordan Hubbard
FreeBSD: Looking forward to another 10 years by Jordan Hubbardeurobsdcon
 
Business Intelligence Engineer 2
Business Intelligence Engineer 2Business Intelligence Engineer 2
Business Intelligence Engineer 2Holger Gottesmann
 
material en proceso de evaluación
material en proceso de evaluación material en proceso de evaluación
material en proceso de evaluación romelylugo
 
Business Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktBusiness Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktFilipe Felix
 
Implementierung von R im Mittelstand
Implementierung von R im MittelstandImplementierung von R im Mittelstand
Implementierung von R im Mittelstandeoda GmbH
 
eoda R-Akademie 2016
eoda R-Akademie 2016eoda R-Akademie 2016
eoda R-Akademie 2016eoda GmbH
 
SpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and UsesSpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and UsesSpagoWorld
 
eoda | R-Support
eoda | R-Support eoda | R-Support
eoda | R-Support eoda GmbH
 
SAP in Media Industry
SAP in Media IndustrySAP in Media Industry
SAP in Media IndustryinvenioLSI
 
Implementing R in the old economy
Implementing R in the old economyImplementing R in the old economy
Implementing R in the old economyeoda GmbH
 
eoda R-Akademie 2015_Kursprogramm
eoda R-Akademie 2015_Kursprogrammeoda R-Akademie 2015_Kursprogramm
eoda R-Akademie 2015_Kursprogrammeoda GmbH
 
SpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in ParisSpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in ParisSpagoWorld
 

Viewers also liked (20)

Create a Data Science Lab with Microsoft and Open Source tools
Create a Data Science Lab with Microsoft and Open Source toolsCreate a Data Science Lab with Microsoft and Open Source tools
Create a Data Science Lab with Microsoft and Open Source tools
 
Content Lifecycle Management Solution on HANA Cloud Platform
Content Lifecycle Management Solution on HANA Cloud PlatformContent Lifecycle Management Solution on HANA Cloud Platform
Content Lifecycle Management Solution on HANA Cloud Platform
 
SSAS Reference Architecture
SSAS Reference ArchitectureSSAS Reference Architecture
SSAS Reference Architecture
 
Designing High Performance ETL for Data Warehouse
Designing High Performance ETL for Data WarehouseDesigning High Performance ETL for Data Warehouse
Designing High Performance ETL for Data Warehouse
 
SAP Is-Media Advertising Management
SAP Is-Media Advertising ManagementSAP Is-Media Advertising Management
SAP Is-Media Advertising Management
 
Cap xii codigo alimentario arg
Cap xii codigo alimentario argCap xii codigo alimentario arg
Cap xii codigo alimentario arg
 
eoda R-Akademie 2014
eoda R-Akademie 2014 eoda R-Akademie 2014
eoda R-Akademie 2014
 
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015
Slidedeck Datenanalyse mit Oracle R Enterprise for Beginners - DOAG2015
 
FreeBSD: Looking forward to another 10 years by Jordan Hubbard
FreeBSD: Looking forward to another 10 years by Jordan HubbardFreeBSD: Looking forward to another 10 years by Jordan Hubbard
FreeBSD: Looking forward to another 10 years by Jordan Hubbard
 
Business Intelligence Engineer 2
Business Intelligence Engineer 2Business Intelligence Engineer 2
Business Intelligence Engineer 2
 
material en proceso de evaluación
material en proceso de evaluación material en proceso de evaluación
material en proceso de evaluación
 
Business Intelligence (BI) Kompakt
Business Intelligence (BI) KompaktBusiness Intelligence (BI) Kompakt
Business Intelligence (BI) Kompakt
 
Implementierung von R im Mittelstand
Implementierung von R im MittelstandImplementierung von R im Mittelstand
Implementierung von R im Mittelstand
 
eoda R-Akademie 2016
eoda R-Akademie 2016eoda R-Akademie 2016
eoda R-Akademie 2016
 
SpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and UsesSpagoBI 5 Demo Day and Workshop : Business Applications and Uses
SpagoBI 5 Demo Day and Workshop : Business Applications and Uses
 
eoda | R-Support
eoda | R-Support eoda | R-Support
eoda | R-Support
 
SAP in Media Industry
SAP in Media IndustrySAP in Media Industry
SAP in Media Industry
 
Implementing R in the old economy
Implementing R in the old economyImplementing R in the old economy
Implementing R in the old economy
 
eoda R-Akademie 2015_Kursprogramm
eoda R-Akademie 2015_Kursprogrammeoda R-Akademie 2015_Kursprogramm
eoda R-Akademie 2015_Kursprogramm
 
SpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in ParisSpagoBI 5 official presentation in Paris
SpagoBI 5 official presentation in Paris
 

Similar to Analytic powerhouse parallel data warehouse und r

Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark Josef Adersberger
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeQAware GmbH
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH
 
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-Verein FM Konferenz
 
Cv wagener harald_20170830
Cv wagener harald_20170830Cv wagener harald_20170830
Cv wagener harald_20170830Harald Wagener
 
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationWebcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationQUIBIQ Hamburg
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBIJens Albrecht
 
Meet Magento - High performance magento
Meet Magento - High performance magentoMeet Magento - High performance magento
Meet Magento - High performance magentoAOE
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieJens Albrecht
 
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...Niels de Bruijn
 
Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)Praxistage
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...OPITZ CONSULTING Deutschland
 
BPMN und Workflows in .NET
BPMN und Workflows in .NETBPMN und Workflows in .NET
BPMN und Workflows in .NETBernd Ruecker
 
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitungd.velop international
 
SAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickSAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickMohamed Abdel Hadi
 
Data Is The New Oil
Data Is The New OilData Is The New Oil
Data Is The New OilParStream
 

Similar to Analytic powerhouse parallel data warehouse und r (20)

Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real Time
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
 
Cv wagener harald_20170830
Cv wagener harald_20170830Cv wagener harald_20170830
Cv wagener harald_20170830
 
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor IntegrationWebcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
Webcast: SAP on Azure für den Mittelstand - Erfolgsfaktor Integration
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBI
 
Meet Magento - High performance magento
Meet Magento - High performance magentoMeet Magento - High performance magento
Meet Magento - High performance magento
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...
MT AG Rapid Application Development mit APEX 5 (Important: latest version on ...
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)Mag. Franz Waldhofer (Raiffeisen Software)
Mag. Franz Waldhofer (Raiffeisen Software)
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
BPMN und Workflows in .NET
BPMN und Workflows in .NETBPMN und Workflows in .NET
BPMN und Workflows in .NET
 
Moss2009
Moss2009Moss2009
Moss2009
 
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung
[ecspw2013] Session Technik 04: ecspand Eingangsrechnungsverarbeitung
 
SAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickSAP Cloud for Analytics Überblick
SAP Cloud for Analytics Überblick
 
Data Is The New Oil
Data Is The New OilData Is The New Oil
Data Is The New Oil
 

Analytic powerhouse parallel data warehouse und r

  • 2. Über mich – Marcel Franke Practice Lead Advanced Analytics & Data Science pmOne AG – Deutschland, Österreich, Schweiz P-TSP für Microsoft, Schwerpunkt PDW & Big Data >10 Jahre Erfahrung mit großen Data Warehouse- und BI-Lösungen Blog: dwjunkie.wordpress.com E-Mail: marcel.franke@pmOne.com
  • 3. Agenda Data Analytics bei einem Energieversorger Einsatzmöglichkeiten von PDW Umgang mit R und großen Datenmengen Projektergebnisse
  • 4. Data Analytics bei einem Energieversorger
  • 5. Projektschwerpunkte Modellierung wettbewerbsfähiger Tarifmodelle Navigationsanalysen der Webportale Netz- und Last-Prognosen Andere Prognosen und Simulationsverfahren Skalierbare, massive parallele Big Data Infrastruktur
  • 6. Dateien Data Analytics Architektur Quellsysteme WebServer-Logs Sensordaten Datenbanken Massive Parallel Processing Integration Services R in der Datenbank Analysis Services Reporting Services Excel Power BI Verarbeitung & Datenhaltung Frontends
  • 7. Ein paar Worte zu R R ist eine Sprache und Umgebung für statistische Analysen http://www.R-project.org/ Gestartet 1994 als Alternative zu SAS, SPSS & und anderen statistischen Umgebungen R ist Open Source unter der GNU general public license Am meisten verbreitete Statistiksoftware, vor allem im universitärem Bereich & Forschung
  • 10. Präsentiert die Waffen SQL Server 2012 Parallel Data Warehouse Half Rack HP DL 385 40 Cores 2 TB RAM Fusion-IO Card Infiniband Analytische ModelleRelationale Daten Daten Ergebnisse
  • 11. Wer ist Revolution Analytics? Gegründet 2007, Hautsitz Seattle Ziel: Evolution von R für High- Performance Bieten R pakete für schnellere Performance Enterprise & Community Produkte Stand-alone, Scale-out (HPC), Hadoop, In-Database
  • 12. Vorteile einer PDW Appliance
  • 13. Eine Typische Data Warehouse Lösung DB Datenmodell CPU Hauptspeicher Cache Festplatte
  • 14.
  • 15. SQL Server PDW Appliance PlugandPlay Eingebaute BestPractices Zeitsparen Vorgefertigte Hardware + Software Appliance • Zusammen mit HP und Dell entwickelt • Vorgefertigte Hardware • Vorinstallierte Software
  • 16. Ultra Shared Nothing Architektur Große Fakten- oder Dimensionstabellen werden über alle Knoten verteilt TD SD PD MD SF 01-08 Time Dim Date Dim ID Calendar Year Calendar Qtr Calendar Mo Calendar Day Store Dim Store Dim ID Store Name Store Mgr Store Size Product Dim Prod Dim ID Prod Category Prod Sub Cat Prod Desc Sales Facts Date Dim ID Store Dim ID Prod Dim ID Mktg Camp ID Qty Sold Dollars Sold Mktg Campaign Dim Mktg Camp ID Camp Name Camp Mgr Camp Start Camp End TD SD PD MD SF 09-16 TD SD PD MD SF 17-24 TD SD PD MD SF 25-32 TD SD PD MD SF 33-n
  • 17. Kann nach Bedarf einfach erweitert werden 0TB 7 PB Add Capacity Add Capacity Largest Warehouse PB StartSmall AndGrow NoDowntime
  • 19. And the winner is… Schnellste Ladeperformance Schnellste Query Performance Beste Frontend Integration Realtime Olap im Sekundenbereich Preissimulationsverfahren Web Analytics DataWarehouse-SzenarienAnalytics
  • 20. Wie erfolgt die Datenanalyse? • Ergebnis: 7.500 Kunden in 5 Minuten (ohne Datenvorbereitung) • Benchmark: 1 Minute • Revolution Analytics ODBC Treiber funktionieren nicht mit PDW • Lösung wurde als sehr aufwändig erachtet Datenvorbereitung Analytische Modelle R-ODBC: 10 MB/s Datentransfer Flat file export: 80 MB/s
  • 21. Zusammenspiel von R und SQL Server
  • 22. Testlabor Laptop • 4 Cores, 2,9 GHz • 16 GB RAM • SSD Karte SQL Server 2014, CTP2 • TPCH • 1 Mio. Zeilen, ~150 MB R (64 Bit), RStudio
  • 23. Was schauen wir uns an? • Baseline Tests • Parallele Scans • Data Frame vs. List vs. Data Table
  • 25. Demo
  • 26. Lesen von Daten mit sqlQuery 1,7 MB/s
  • 27. Paralleles Lesen der Daten mit sqlQuery
  • 28. Lesen von Daten mit odbcQuery 1,9* MB/s • *Reines Lesen der Daten: 19 MB/s • *90% der Zeit wird benötigt für die Konvertierung in einen DataFrame
  • 30. Zusammenfassung • Datenaustausch zwischen R und SQL Server nicht sonderlich schnell ~20 MB/s • odbcQuery ist schneller als sqlQuery • Aufbauen des DataFrame bei großen Datenmengen dauert sehr lange • Parallelisierungsstrategien beim Lesen steigern die Performance • DataTable als Alternative zum DataFrame nutzen
  • 31. Welche Trends sehen wir Markt?
  • 32. Move data to compute or compute to data? move data to compute Datenbanken OLAP compute to data Daten
  • 33. • R in der Datenbank • R auf Hadoop • RHadoop • Revolution Analytics RHadoop Lösungen am Markt
  • 34. Lösungen am Markt • Services & Cloud

Editor's Notes

  1. Kein stabiler Markt, viele Möglichkeiten