Data Warehouseing
Een blik op open source
   Johannes van den Bosch
        @johannesvdb
Agenda


•   Waterschap De Dommel
•   Uitdagingen
•   Open source
•   Architectuur
•   Take aways
BI bij De Dommel


• BIC
  – Sinds 2004
  – 2,0 FTE
• Business Objects suite
• Rapportages
• Direct op de bron
Uitdagingen


• Toenemende complexiteit
   – Meer aanbod (systemen)
   – Meer vraag
   – Complexere vraag
• Beheersbaarheid
• Leveranciersafhankelijkheid
Toenemende complexiteit
flickr.com/timmygunz/32108184
Toenemende complexiteit




vraagkant




                           flickr.com/hatm/3465628803




aanbodkant
Toenemende complexiteit: beheersbaarheid



  complexiteit




                                                  tijd


 Toenemende beheerslasten, druk op ontwikkeling
Leveranciersafhankelijkheid


               rapportage dashboards




- business logica                  - business logica
- integratie                       - integratie
- business view                    - business view
- transformaties                   - transformaties



                                               Dubbele bouw- en
                                               beheerslasten 
Ontvlechten
Ontvlechten




              Enterprise Data
              Warehouse (EDW)
Open source


• Top down vs. Bottom up aanpak
• Onze aanpak:
   – Eerst praktijkervaringen opdoen
   – Concrete problemen oplossen
   – Impuls voor beleid
• Ondersteuning management belangrijk, innovativiteit
• Redenen:
   – Leveranciersonafhankelijkheid
   – Ondersteuning los van product
   – Kosten
Terug naar het EDW




                     Enterprise Data
                     Warehouse (EDW)
Architectuur




    Rapportage               Analyse               Dashboards

                                                                        Vraag
          Data mart 1                         Data mart n             gestuurd

                        Business Data Vault


 Source Data Vault 1    Source Data Vault 2     Source Data Vault n

                                                                       Aanbod
      Gegenereerd en geautomatiseerdn
     Staging 1    Staging 2     Staging
                                                                      gedreven

       Bron 1                 Bron 2                  Bron n
Hybride aanpak


• Geen waterval aanpak
• Begin met systemen ontsluiten
  – Aanbod gedreven
• Start ondertussen informatie analyse
  – Bepaal vraag
• Verbind vraag en aanbod in de Business Data
  Vault
• Bouw data marts voor simpele ontsluiting
Hybride aanpak

inspanning
             aanbod
             gedreven




             vraag
             gestuurd




                        tijd
Hybride aanpak


• Bouw Business Data Vault is eenvoudig
  – Data reeds in Data Vault vorm
  – Integratie op business key
  – Vertalen naar een bedrijfsgegevensmodel
  – Views bovenop Source Data Vaults
• Bouw Data Marts is eenvoudig
  – Views bovenop Business Data Vault
  – Dimensie: hub + satelliet
  – Feit: link + satelliet
Hoge mate van automatisering


• Staging gegenereerd
• Source data vaults generereerd
• Zowel structuur als laadroutines

• Tools:
   – Quipu (beheren, genereren)
   – Pentaho Data Integration (uitvoeren)
   – Geïntegreerd
Ervaringscijfers release 1


• Ontsloten systemen: 4

• Investeringen: 0,- €
• Interne capaciteit: 2x 0,3 FTE
• Doorlooptijd tot eerste iteratie: 4 maanden

• Momenteel loopt eerste ontsluitingsproject
Uitdagingen: toenemende complexiteit


• Systeemoverschrijdende informatie
  – Integratie opgelost in bDV-laag
• Nieuwe bronnen
  – Toevoegen (genereren)
  – Daarna bDV-laag uitbreiden
Uitdagingen: beheersbaarheid


• Toevoegingen hebben geen fysieke impact op
  bestaande structuren in EDW
• Het EDW is lineair uitbreidbaar; agile

  complexiteit




                                           tijd
Uitdagingen: leveranciersafhankelijkheid


• Gelaagde architectuur, componenten
• Componenten te vervangen
• Nieuwe ontsluitingsvormen sluiten aan op
  bestaande data marts
• Kiezen voor ‘best tool for the job’
Take aways


• Beoordeel je BI architectuur ook op
  toekomstvastheid: flexibiliteit, uitbreidbaarheid,
  lock-in.
• Het is mogelijk met lage begininvesteringen naar
  resultaat toe te werken dankzij automatisering 
  PoC?
• Open source tools zoals Quipu: hoe meer users,
  hoe meer verbeteringen, goed voor iedereen!
Meer informatie


• Blog:     johannesvdb.blogspot.com

• Twitter: @johannesvdb

• Artikel DB/M 1-2011: Van spaghetti naar
  lasagne

Bi Themadag 2011

  • 1.
    Data Warehouseing Een blikop open source Johannes van den Bosch @johannesvdb
  • 2.
    Agenda • Waterschap De Dommel • Uitdagingen • Open source • Architectuur • Take aways
  • 4.
    BI bij DeDommel • BIC – Sinds 2004 – 2,0 FTE • Business Objects suite • Rapportages • Direct op de bron
  • 5.
    Uitdagingen • Toenemende complexiteit – Meer aanbod (systemen) – Meer vraag – Complexere vraag • Beheersbaarheid • Leveranciersafhankelijkheid
  • 6.
  • 7.
  • 8.
    Toenemende complexiteit vraagkant flickr.com/hatm/3465628803 aanbodkant
  • 9.
    Toenemende complexiteit: beheersbaarheid complexiteit tijd Toenemende beheerslasten, druk op ontwikkeling
  • 10.
    Leveranciersafhankelijkheid rapportage dashboards - business logica - business logica - integratie - integratie - business view - business view - transformaties - transformaties Dubbele bouw- en beheerslasten 
  • 11.
  • 12.
    Ontvlechten Enterprise Data Warehouse (EDW)
  • 13.
    Open source • Topdown vs. Bottom up aanpak • Onze aanpak: – Eerst praktijkervaringen opdoen – Concrete problemen oplossen – Impuls voor beleid • Ondersteuning management belangrijk, innovativiteit • Redenen: – Leveranciersonafhankelijkheid – Ondersteuning los van product – Kosten
  • 14.
    Terug naar hetEDW Enterprise Data Warehouse (EDW)
  • 15.
    Architectuur Rapportage Analyse Dashboards Vraag Data mart 1 Data mart n gestuurd Business Data Vault Source Data Vault 1 Source Data Vault 2 Source Data Vault n Aanbod Gegenereerd en geautomatiseerdn Staging 1 Staging 2 Staging gedreven Bron 1 Bron 2 Bron n
  • 16.
    Hybride aanpak • Geenwaterval aanpak • Begin met systemen ontsluiten – Aanbod gedreven • Start ondertussen informatie analyse – Bepaal vraag • Verbind vraag en aanbod in de Business Data Vault • Bouw data marts voor simpele ontsluiting
  • 17.
    Hybride aanpak inspanning aanbod gedreven vraag gestuurd tijd
  • 18.
    Hybride aanpak • BouwBusiness Data Vault is eenvoudig – Data reeds in Data Vault vorm – Integratie op business key – Vertalen naar een bedrijfsgegevensmodel – Views bovenop Source Data Vaults • Bouw Data Marts is eenvoudig – Views bovenop Business Data Vault – Dimensie: hub + satelliet – Feit: link + satelliet
  • 19.
    Hoge mate vanautomatisering • Staging gegenereerd • Source data vaults generereerd • Zowel structuur als laadroutines • Tools: – Quipu (beheren, genereren) – Pentaho Data Integration (uitvoeren) – Geïntegreerd
  • 20.
    Ervaringscijfers release 1 •Ontsloten systemen: 4 • Investeringen: 0,- € • Interne capaciteit: 2x 0,3 FTE • Doorlooptijd tot eerste iteratie: 4 maanden • Momenteel loopt eerste ontsluitingsproject
  • 21.
    Uitdagingen: toenemende complexiteit •Systeemoverschrijdende informatie – Integratie opgelost in bDV-laag • Nieuwe bronnen – Toevoegen (genereren) – Daarna bDV-laag uitbreiden
  • 22.
    Uitdagingen: beheersbaarheid • Toevoegingenhebben geen fysieke impact op bestaande structuren in EDW • Het EDW is lineair uitbreidbaar; agile complexiteit tijd
  • 23.
    Uitdagingen: leveranciersafhankelijkheid • Gelaagdearchitectuur, componenten • Componenten te vervangen • Nieuwe ontsluitingsvormen sluiten aan op bestaande data marts • Kiezen voor ‘best tool for the job’
  • 24.
    Take aways • Beoordeelje BI architectuur ook op toekomstvastheid: flexibiliteit, uitbreidbaarheid, lock-in. • Het is mogelijk met lage begininvesteringen naar resultaat toe te werken dankzij automatisering  PoC? • Open source tools zoals Quipu: hoe meer users, hoe meer verbeteringen, goed voor iedereen!
  • 25.
    Meer informatie • Blog: johannesvdb.blogspot.com • Twitter: @johannesvdb • Artikel DB/M 1-2011: Van spaghetti naar lasagne