Enabling AgileBI by managing the data warehouse software lifecycle with DataVault 2.0, generators, data virtualization and cotinuous integration using open source tools
1. DataVault 2.0 – DAD – SDLC – OSS
DDVUG 2014, Torsten Glunde
Juni 2014
2. Vorstellung Torsten Glunde
• Eigentümer, Managing Consultant bei
Alligator Company (6 Mitarbeiter)
• 10+ Jahre Erfahrung in BI
• Certified Data Vault 2.0 Practitioner
• Member of the Boulder BI Brain Trust
• Open Source Liebhaber
2
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
3. Agenda
• Einleitung
• Wofür benötigen wir Werkzeuge zur Automation um
Agile zu werden?
• DV2.0 Solutions und OSS Tools
• Requirements
• Continuous Integration
• Automation
• Zusammenfassung
3
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
4. Einleitung – Was liefert DV 2.0
4
Methodik
Implementation
Architektur
Model
•Konsistent
•Wiederholbar
•Muster
•Automation
•Skalierbarkeit
•Fault-Tolerance
•Managed Self-Service-BI
•De-Coupling
•NoSQL Unterstützung
•Scale-free Architecture
•Basiert auf Hub & Spoke
•Set-Logik + MPP
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
5. Einleitung – Was liefert DV 2.0
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
5
Die Methodik
• Requirements
• Disciplined Agile Delivery als Vorgehensmodell
• PPM, Six Sigma, TQM, CMMI, KPA und KPI
• Technical Numbering, Function Point & Risk
Management
Die Implementierung
• Generation und Automation
• Einfache Muster für ETL
• Optimiert für Ladeperformanz (MD5 hashes)
• Datenvirtualisierung
6. Einleitung – Was ist DAD?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
6
Disciplined Agile Delivery
• SCRUM +
• Verwertbare Ergebnisse anstatt „nur“ potentiell auslieferbar
• Erweiterung des SCRUM Lifecycles um die Auslieferung von
Releases
• Verallgemeinerung der Methoden – auch bezüglich des
Vokabulars
• Beinhaltet explizite Strategien zur Governance
• Flexible Prozesse – „Process Goal Diagram“ – Anpassungen
und Skalierung
Unternehmensweite Methoden benötigen mehr Flexibilität und
Robustheit
Scott Ambler, Disciplined Agile Consortium
http://DisciplinedAgileConsortium.org
http://DiscipinedAgileDelivery.com
Inception Construction Transition
7. Wofür SDLC? Wozu DAD?
Warum OSS?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
7
OSS
• Lizenzkosten für BI-Tools sind hoch (oftmals auch gerade für
notwendige Features für Agilität)
• Lizenzkosten sind eine Einstiegsbarriere – gerade für KMUs
• Offene Systeme
• Keine Abhängigkeit vom Support
DataVault 2.0 Methodik von Dan Linstedt liefert
• Agile Vorgehensweise
• Automatisches, generiertes ETL processing, Wiederholbarkeit
• Schnelle Anpassbarkeit bei Modelländerungen
• Inkrementell Kostenkontrolle
• 2 Wochen Iterationen
• Vorhersagbare und messbare Ergebnisse
8. Wofür SDLC? Wozu DAD?
Warum OSS?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
8
SDLC
• Methoden und Tools aus der Softwareentwicklung sind
verfügbar und erprobt
• Continuous Integration, Unit Testing, Acceptance Testing
• Diese Werkzeuge ermöglichen
• EDWH und BI delivery liefert auch „nur“ Software
Backend 80% Frontend 20%
Frontend 50%Backend 50%Ziel:
IST:
9. Disclaimer
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
9
• DataVault != Agile
• Werkzeuge != Agile
• OSS != Agile
• Prozesse != Agile
Das einzige, was zählt sind die
Menschen
Werkzeuge, DataVault, DAD und
OSS können dazu beitragen
10. Warum ist AgileBI schwierig?
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
10
Sind zwei Wochen zu kurz?
Continuous Integration birgt Herausforderungen im EDWH
• Test Automation – Datenmengen und Veränderung
• Build Automation – klassische BI Tools liefern keine Versionierung Versionierung der
Exportartefakte
• Release Automation – klassische BI Tools liefern teileweise keine oder teure Automation für das
Deployment
Anforderungsaufnahme
• Unbekannte Datenanforderungen
• Business Keys unbekannt / ändern sich
• Unternehmen kennt die eigenen Dateninhalte nicht
• Scoping
Akzeptanz
• SLAs definieren wer ist wofür verantwortlich
• Dokumentation – was wird geliefert?
Datenprobleme können nur über EIM gelöst werden!
Akzeptanz kann durch Transparenz im agilen Prozess erhöht werden
Automation für SDLC und Test kann mit OSS Technologie und Vorarbeit verbessert werden
Inception Construction Transition
Ready?
Deploy?
Test?
Release?
11. AgileBI mit DV2.0 - DWA
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
11
Raw
Vault
Business
Vault
Generator
Metadata
Data Model, Parameter, Templates
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
V
i
e
w
Verwendung von
• DWA - Data Warehouse Automatisierung und
• Data Virtualisierung (Views)
Reduktion von ETL Aufwänden durch z.B. BIDSHelper und BIML
Prototyping und Exploration erhöht Geschwindigkeit und Transparenz
12. AgileBI mit DV2.0 Testing
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
12
Raw
Vault
Business
Vault
Generator
Metadata
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
Testrepository
Quelldaten
Testdaten
Testcases
ACIT
Quell-Target-Abgleich
ACIT – Automated, Continuous
Integration Testing
V
i
e
w
Prototyping, Exploration
User Acceptance
Datenabgleich
13. AgileBI mit DV2.0 OSS Tools
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
13
Raw
Vault
Business
Vault
Generator
Metadata
Virtualization
Star Schema View
Persisted
Star Schema, Cube, …
ETL / ELT
B(x)
Stage FrontendQuelle
Testrepository
Quelldaten
Testdaten
Testcases
ACIT
Quell-Target-Abgleich
ACIT – Automated, Continuous
Integration Testing
V
i
e
w
Prototyping, Exploration
User Acceptance
Datenabgleich
DBUnit
Flyway
Jailer
Selenium
DBUnit
Flyway
Jailer
Jenkins
Nächtl. Build
und Test
BIDSHelper
BIML
(MSSQL)
14. OSS Werkzeuge für AgileBI
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
14
DWA – Data Warehouse Automation
• BIDSHelper, BIMLScript https://bidshelper.codeplex.com/
Testautomation
• Jailer (DBUnit, Liquibase) http://jailer.sourceforge.net/
• DBUnit http://www.dbunit.org/
• Flyway http://flywaydb.org/
• Selenium http://docs.seleniumhq.org/
Continuous Integration / Build Automation
• Jenkins http://jenkins-ci.org/
Release
• Subversion https://subversion.apache.org/
• GIT http://git-scm.com/download
Modeling
• SQL Power Architect http://www.sqlpower.ca/page/architect
Transparenz und Akzeptanz
• DataCleaner http://datacleaner.org/
• Wiki z.B. https://www.mediawiki.org/wiki/MediaWiki
15. Delivery
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
15
Inception
Iteration
1. Scoping Iteration
2. Modellierung / Anpassen der Metadaten
3. Generierung der DDL-Skripte
4. Generierung der ETL Prozesse in Stage und
RawVault
5. Business Vault Implementations
6. Frontend Implementation
7. Testing
Transition
16. Erfahrungen mit AgileBI
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
16
Erfahrung AgileBI
• Grundvoraussetzung ist die Readyness der Organisation
• Offenheit im Umgang mit fehlerhaften Daten
• Sichtbarkeit von Daten wird erhöht Gewünscht
• Erwartungshaltung managen Milestones
• Was wird wann geliefert ohne konkreten, langwierigen Projektplan
• Wieviel kann in zwei Wochen geliefert werden?
• Wieviel Dokumentation wird geliefert?
• Bevor man agil liefern kann (Iteration-0)
- Performance Baseline Tests für die Infrastruktur
- Sourcecontrol, Test Automation, Build Automation, Deployment Automation
müssen fertig sein
- Datengetrieben bedeutet dass Inhalte klar definiert/modelliert sein müssen
klare Vorgaben wie Anforderungen definiert werden Workshops
Future
• DWH Automation mit Data Vault ermöglicht auch in komplexeren und schneller
verändebaren Umfeldern und mit hohen Datenmengen AgileBI erfolgreich zu
etablieren
• Metadaten für Automatisierung und Informationen sollten zusammengefasst werden
(CWM, BIML) Automatisierung der Automatisierung
17. Zusammenfassung
Torsten Glunde, Alligator Company
DDVUG, Juni 2014
17
Automation der SDLC Prozesse (Test, Lieferung, Release)
• Wiederholbarkeit
• Geschwindigkeit
• Flexibilität durch Verwendung von Metadaten
Planung und Anforderungen
• Scoping ist wichtig – wie schneide ich meine Anforderungen, so dass sie in 2
Wochen passen
• Virtualisierung von Rohdaten
• Virtualisierung zur Reduktion von Beladungen im Anfang
Automation im Data Vault
• reduziert Aufwände vor dem DataVault
• Iteratives Prototyping wird vereinfacht
SDLC als standardisierte Produktauslieferung mit Automatisierung und
kurzen Entwicklungszyklen
DV2.0 und quelloffene Werkzeuge befördern diese Entwicklung
Technische Lösung ist noch mit Aufwand verbunden, der aber geringer wird
je mehr auf Metadaten gesetzt wird
18. Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
18
@tglunde
Torsten Glunde
mailto:t.glunde(at)alligator-company.de
Weitere Netzwerke:
https://www.xing.com/profile/Torsten_Glunde
https://www.linkedin.com/pub/torsten-glunde/8/aba/97
Torsten Glunde, Alligator Company
DDVUG, Juni 2014