SlideShare a Scribd company logo
1 of 4
Download to read offline
Thema Datawarehousing

                Drielagen-architectuur Kadenza in lijn met eigentijdse vereisten


               Datawarehousing kan
               sneller en flexibeler
                Marianne Kompagne




               Organisaties willen snel kunnen beschikken over de juiste informatie ter
               ondersteuning van hun strategische doelen. Daarvoor is een eigentijdse
               datawarehouse-architectuur nodig. Kadenza ontwikkelde een DWH-
               referentiemodel dat vele voordelen biedt ten opzichte van de oplossingen
               van Kimball en Inmon.




De referentiearchitectuur van Kadenza is opgebouwd uit drie           met hun historie (ook dimensies) worden in deze laag vastgelegd,
onderdelen: de stage area, de datawarehouse area en de                tenzij aangegeven is dat deze niet gewenst zijn.
informatie area. Per specifieke laag wordt de invulling van de        De informatie area laag is bedoeld om de kennisintensieve
verschillende functionaliteiten beschreven.                           processen van de organisatie te ondersteunen. Het ontwerp van
In de stage area laag kunnen gegevens uit interne en externe          de datamart laag is gebaseerd op de informatiebehoefte van een
bronnen worden ontvangen, zowel synchroon als asynchroon.             bepaald bedrijfsonderdeel. Het dient ondersteuning te bieden aan
Verder wordt bijgehouden of het om nieuwe of gewijzigde data          voorgedefinieerde business-vragen, gebaseerd op measurable
gaat. De stage area voedt het datawarehouse en mogelijk de            facts (KPI’s en/of CSF’s) afgeleid van de business-processen van
Operational Data Store. Om correcte, eenduidige en consistente        de organisatie.
gegevens door te geven, vindt bewerking, integratie en schoning       De data in de datamart betreffen een andere representatie van de
van de gegevens plaats.                                               historische laag, weergegeven in een model dat begrijpelijk is
In het datamodel in deze laag worden gegevens uit verschillende       voor eindgebruikers. Samen met performance voldoet het dan aan
bronnen geïntegreerd (met onderlinge relatie) weergegeven. Van        de belangrijkste vereisten. De datamarts zijn (relatief) eenvoudig
stamgegevens wordt een actuele versie vastgehouden. De andere         te wijzigen, op te bouwen of incrementeel uit te breiden. Deze
gegevens hebben een beperkte historie: er zijn transacties uit het    laag is toegankelijk voor eindgebruikers.
verleden, maar er vindt geen historische stapeling plaats. Alle
gegevens van primaire bedrijfsprocessen worden vastgelegd,            Aanvullende vereisten
tenzij aangegeven is dat deze niet gewenst zijn. Dit datamodel is     De Operational Data Store is bedoeld om gegevens uit verschil-
incrementeel uitbreidbaar. De gegevens in de staging area zijn        lende externe en interne bronnen op een geïntegreerde wijze
niet toegankelijk voor eindgebruikers.                                weer te geven en te bevragen. De gegevens worden met een zo
                                                                      klein mogelijke vertraging aan de eindgebruikers ter beschikking
De datawarehouse area laag is bedoeld om gegevens voor langere        gesteld. Gegevens uit verschillende bronnen worden geïntegreerd
tijd vast te houden. Het kan gezien worden als het geheugen voor      weergegeven in voornamelijk 3NF.
lange termijn en beschikt over een archieffunctie: gegevens           De procesinformatie, informatie voor de centrale administratie en
worden gestapeld opgeslagen. Het is bedoeld om de datamart            registratie van procesgegevens, dient om de processen toe-
laag van geaggregeerde feiten en dimensies te voorzien. Dit dient     gankelijk en inzichtelijk te maken. Zo kan bijvoorbeeld de bron
herhaaldelijk en met verschillende mate van detaillering te           getraceerd worden. Hier worden ook uitzonderingen en fouten
gebeuren. Uit deze laag kan ook ondersteuning voor data mining        afgehandeld.
en ad hoc analyse plaatsvinden.                                       Metadata worden niet alleen gebruikt ter informatie van de
Het datamodel van de datawarehouse area is een bedrijfsbreed          beheerder en bij het ETL-proces, ze worden ook toegepast voor de
informatiemodel dat incrementeel uitbreidbaar is. Doordat het         gebruikers van het datawarehouse. Tijdens het opslagproces
geënt is op informatie en niet op transacties, is het model toe-      worden data opgeslagen na validatie en profilering. Belangrijk
gankelijk en snel. Alle gegevens van primaire bedrijfsprocessen       daarbij zijn natuurlijk compleetheid, correctheid en accuraatheid.



20                                               Database Magazine – Nummer 3 – mei 2007
Wanneer we datawarehouse-architecturen vergelijken met de                         niet langer onderhevig is aan interpretatie. Dit in tegenstelling
gebruikelijke aanpak volgens Kimball en Inmon, wordt allereerst                   tot het enterprise datamodel dat Inmon gebruikt; deze is niet
gekeken naar de ondersteuning van strategische bedrijfsdoelen en                  uitgewerkt en daarom wel onderhevig aan interpretatie.
informatievereisten. Het datawarehouse ondersteunt het besluit-                   In een datawarehouse dient de information area (datamart) een-
vormings- en informatieproces op operationeel, tactisch en                        voudig toegankelijk te zijn voor eindgebruikers. Het datamodel of
strategisch niveau. Daarnaast ondersteunt het een bedrijf vanuit                  de structuur dient ook begrijpelijk te zijn voor de eindgebruiker,
verschillende perspectieven en over alle bedrijfsonderdelen.                      daarnaast dient het een toegankelijke interface te hebben. Het is
Vanuit een bedrijfsplan (strategisch) en de performance                           bijvoorbeeld mogelijk standaard software te gebruiken voor
indicatoren (KPI’s) wordt immers de basis gelegd voor een                         rapportage en interactieve analyse (OLAP). Tot slot moet de
business informatiemodel en het definitieve ontwerp van een                       gemiddelde doorlooptijd acceptabel zijn voor de eindgebruiker.
datawarehouse-architectuur.                                                       Deze uitgangspunten van de Kimball benadering worden alom
De Kadenza DWH referentiearchitectuur verschilt met die van                       onderschreven, dus ook in de beschreven referentiearchitectuur.
Kimball en Inmon in de laag waar de historisch correcte informa-                  De bedrijfsinformatie is opgeslagen in datamarts. Deze datamarts
tie bewaard wordt. Bij Kimball is dit de datawarehouse bus, terwijl               bevatten de informatie van verschillende bedrijfsprocessen vanuit
Inmon de corporate information factory benadering heeft. In de                    verschillende invalshoeken (conformed dimensions). Echter de
referentiearchitectuur gaan we uit van een separate dataware-                     toegankelijkheid van informatie wordt ook bepaald door de
house laag met informatie opgeslagen in een bedrijfsinformatie                    flexibiliteit bij het definiëren en wijzigen (bijvoorbeeld het detail-
datamodel. Deze laag is uitbreidbaar voor toekomstige informatie-                 niveau) van door eindgebruikers gewenste datamarts. Het is dan
behoeften en is geïsoleerd van de informatievoorziening aan                       mogelijk informatie snel beschikbaar te stellen.
eindgebruikers. Vanuit deze historisch correcte informatie kunnen
dan de datamarts (eindgebruiker informatie) afgeleid worden.                      Analysemogelijkheden
Er ontstaat een flexibele informatievoorziening doordat ingespeeld                Een datawarehouse dient data-analyses te ondersteunen voor
kan worden op wijzigingen in de informatiebehoefte. Het is                        bijvoorbeeld data mining. Hiervoor moeten gegevens beschikbaar
bijvoorbeeld mogelijk het detailniveau van de gegevens en de                      zijn op een gewenst gedetailleerd niveau voor eindgebruikers.
datamarts (nieuwe informatiebehoefte) te wijzigen en uit te                       Ook is het belangrijk dat de informatiebehoefte gebaseerd is op
breiden. Enerzijds voorkomen we hiermee dat het detailniveau                      een bedrijfsbreed begrippenkader en begrippenstructuur en willen
van de informatie bij het ontwerpen van de datamarts wordt                        we analysemogelijkheden hebben op historische data. Daarnaast
bepaald en dat de historie van informatie in de datamarts plaats-                 moet de betekenis van de gegevens zowel duidelijk en begrijpelijk
vindt en daarmee de detailgradatie van die historie. Anderzijds                   zijn, als eenduidig en consistent. Ook is het van belang dat er met
werken we zo het enterprise datamodel nader uit, waardoor dat                     geschoonde gegevens gewerkt wordt.




                                              Meta informatie (inclusief validatie en profilering informatie)


     ERP
     bron
                                                                                                                               Datamart


    Legacy
     bron
                                                                                                                               Datamart
                                                                                                  ETL
                  ETL EAI EII




                                                                                                                                              Business
                                                ETL




     OLTP                                                                                                                                   Intelligence
     bron                                                                                                                                    informatie
                                                                                                                               Datamart        analyse
                                      Stage                     Datawarehouse

      Web
    services
                                                                                                                               Datamart


    Externe                                                                                             ODS
     bron

    Bronnen                     Stage area                 Datawarehouse area                                   Information area

                                                                    Proces informatie


Afbeelding 1: DWH referentiemodel van Kadenza.



                                                      Database Magazine – Nummer 3 – mei 2007                                                          21
Meta informatie (inclusief validatie en profilering informatie)


             ERP
             bron
                                                                                             Datamart


            Legacy
             bron
                                                                                             Datamart


                                             ETL
                                                                                                                                     Business
             OLTP                                                                                                                  Intelligence
             bron                                                                                                                   informatie
                                                                                             Datamart                                  tools

              Web
            services
                                                                                             Datamart

            Externe
             bron                                                                          DWH Bus

            Bronnen                        Stage area                                   Information area

                                                     Proces informatie


Afbeelding 2: De Kimball architectuur


Dit geldt voor alle datawarehouse-architectuur benaderingen.                      worden. De ODS is door Inmon aangedragen en heeft in de
Echter, er zal tijdens het opslagproces bepaald moeten worden                     referentiearchitectuur dezelfde functie: het bedienen van een
wat de betekenis van de gegevens is en hoe en in welke mate                       operationele informatiebehoefte en het voorzien van operationele
gegevens geschoond gaan worden. Hoe beter een organisatie                         processen van informatie. In de referentiearchitectuur verloopt de
hierop een antwoord kan geven, des te sneller komt informatie                     staging volgens een gedefinieerde methodiek. Deze methodiek is
beschikbaar voor eindgebruikers.                                                  zo gekozen dat bronnen sneller toegevoegd en gewijzigd kunnen
Een datawarehouse dient bedrijfsbrede behoeften aan operatione-                   worden. Kimball en Inmon dragen hier wel ideeën over aan maar
le data te ondersteunen. Zo moet het datamodel toegankelijk en                    leveren geen methodiek.
eenvoudig te begrijpen zijn en de geïntegreerde operationele                      Een datawarehouse dient relatief eenvoudig te onderhouden zijn.
bedrijfsvoering reflecteren. Tevens moet, indien gewenst near                     Dat is belangrijk voor het snel realiseren van wijzigingen van
real-time, actuele informatie beschikbaar zijn. Ook moet de opge-                 eindgebruikerwensen. Daarnaast willen we de mogelijkheid
slagen informatie een betere kwaliteit hebben dan de operationele                 hebben om de gedetailleerdheid van gegevens voor een eind-
systemen.                                                                         gebruiker te wijzigen. Ook is het van belang bij het efficiënt en
                                                                                  snel structureren en onderhouden van geaggregeerde data,
Vergelijkingen                                                                    wijzigingen van bronsystemen op te vangen en voor het efficiënt
Alle datawarehouse-architecturen hebben een zogenaamde sta-                       onderhouden van extractie- en transformatieprocessen. Tevens
ging laag (stage area). Hier vindt op basis van de bronmodellen                   is het belangrijk om een minimale impact te hebben bij veran-
extractie van gegevens plaats. De structuur waarin de gegevens in                 deringen en isolatie tussen verschillende architectuurlagen om
de staging laag worden opgeslagen, kan per datawarehouse-                         verstrengeling van functionaliteit te voorkomen.
architectuur echter verschillen. Voor het ontwerp van het
extractieproces (ETL/EAI/EII) is de frequentie van extractie ofwel                Flexibiliteit
data-aanlevering (constante flow of periodieke aanlevering), de                   In tegenstelling tot de architecturen van Kimball en Inmon biedt
extractiemethode (bijvoorbeeld alleen mutaties) en de technologie                 de gelaagde referentiearchitectuur flexibiliteit. Door de isolatie
(zoals webservices, datareplicatie, change data capture) bepalend.                van de verschillende lagen kan de datawarehouse laag met het
In de staging laag vinden tevens databewerkingen (transforma-                     informatiearchief ongemoeid gelaten worden, terwijl er in de
tie), gegevenskwaliteitcontrole en schoning van gegevens plaats.                  andere lagen wijzigingen doorgevoerd worden. Wijzigingen in
De functie van de staging laag is immers het klaarzetten van                      bronsystemen kunnen snel en flexibel in de staging laag opge-
informatie, om deze vervolgens (historisch) correct op te slaan.                  vangen worden en wijzigingen in eindgebruikerwensen in de
In de referentiearchitectuur kunnen de gegevens behalve naar                      informatielaag. In combinatie met een standaard schaalbare
een datawarehouse laag (fungeert als informatie-archief), ook                     methodiek voor extractie- en transformatieprocessen, vormt dit
naar een zogenaamde Operationele Data Store (ODS) geladen                         een relatief eenvoudig te onderhouden datawarehouse-oplossing.



                                                     Database Magazine – Nummer 3 – mei 2007                                                           23
Meta informatie (inclusief validatie en profilering informatie)


           ERP                                           Datawarehouse
           bron                                               area
                                                                                                     Datamart

          Legacy
           bron                  ETL EAI EII
                                                                                                     Datamart
                                                                                                                                    Business
           OLTP                                                                                                                   Intelligence
           bron                                            Enterprise                                                              informatie
                                                             Data                                    Datamart                         tools
                                                           Warehouse
           Web
         services
                                                                                                     Datamart

          Externe
           bron                                               ODS
           Bronnen             Stage area                                                       Information area


                                                    Proces informatie



Afbeelding 3: De Corporate Information Factory van Inmon.


Informatie kan sneller ontsloten en beschikbaar gesteld worden.                  ders te maken hebben. Vooral de meta-informatie en proces-
Daarbij is het wenselijk dat een datawarehouse eenvoudig uit te                  informatie dienen het gebruik van standaard beheersoftware te
breiden is om snel functionaliteit te realiseren behorende bij                   ondersteunen. Het belangrijkste punt bij deze vereiste is dat de
(voor het datawarehouse) nieuwe bedrijfsonderdelen en snel data                  drielagen-referentiearchitectuur eenvoudiger te implementeren is
toe te voegen afkomstig uit (voor het datawarehouse) nieuwe                      in een hanteerbare technische architectuur. Het is immers door de
bronnen. Dit kan nog worden versterkt door een uitbreidbaar                      verschillende karakters van de datawarehouse-lagen eenvoudiger
informatie/datamodel in de datawarehouse laag van de referentie-                 op technisch niveau te ondersteunen. Zo kan bijvoorbeeld de
architectuur.                                                                    informatielaag beschikbaar blijven, terwijl de datawarehouse laag
                                                                                 geladen wordt. Zo kunnen we stabiliteit en hogere beschikbaar-
                                                                                 heid van omgevingen krijgen.
         Vanuit de historisch correcte
         informatie kunnen de datamarts                                          Conclusies
         afgeleid worden                                                         Hedendaagse datawarehouses stellen business-informatie
                                                                                 beschikbaar op een betrouwbare, snelle en flexibele manier.
                                                                                 De beschreven referentiearchitectuur ontsluit management-
Op het gebied van schaalbaarheid moet een datawarehouse-                         informatie voor strategische doeleinden. Het speelt snel en
infrastructuur kunnen voldoen aan de wens om datagroei (meer                     flexibel in op wijzigingen in de informatiebehoefte door het
bronnen, meer historie) en de groei van eindgebruikeractiviteiten                flexibel definiëren en wijzigen van door eindgebruikers gewenste
op te vangen. Daarnaast is schaalbaarheid van belang om aan                      datamarts. Tevens maakt de isolatie van de drie beschreven
wensen voor hogere performance te voldoen en doorlooptijden te                   architectuurlagen het mogelijk bronnen sneller toe te voegen en
verkorten. Dit geldt voor alle datawarehouse-architecturen, maar                 te wijzigen. Hierdoor scoort de architectuur niet alleen goed op
is in tegenstelling tot de andere vereisten meer een technische                  het snel en flexibel beschikbaar stellen van informatie, maar ook
infrastructuur vereiste. Een gelaagde architectuur is op technisch               goed op de vereiste onderhoudbaarheid, uitbreidbaarheid en
niveau eenvoudiger te ondersteunen.                                              schaalbaarheid. Deze worden verder nog ondersteund door de
Een datawarehouse dient vanuit een operationeel gezichtspunt                     gebruikte ETL-methodiek en de gebruikte datamodellen in de
eenvoudig te hanteren te zijn op het gebied van systeembeheer-                   staging laag en de datawarehouse laag. Gecombineerd met een
onderdelen, job scheduling en load balancing tools. Daarnaast is                 goede hanteerbaarheid zorgt dit voor een relatief goedkope en
een goede hanteerbaarheid belangrijk voor een eenvoudig                          betrouwbare datawarehouse-omgeving.
gebruik van backup- en restore-procedures.
Voor datawarehouse-architecturen geldt dat we ook met beheer-                    Marianne Kompagne is BI/DWH architect bij Kadenza.



                                                    Database Magazine – Nummer 3 – mei 2007                                                         25

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Datawarehousing Kan Sneller En Flexibeler

  • 1. Thema Datawarehousing Drielagen-architectuur Kadenza in lijn met eigentijdse vereisten Datawarehousing kan sneller en flexibeler Marianne Kompagne Organisaties willen snel kunnen beschikken over de juiste informatie ter ondersteuning van hun strategische doelen. Daarvoor is een eigentijdse datawarehouse-architectuur nodig. Kadenza ontwikkelde een DWH- referentiemodel dat vele voordelen biedt ten opzichte van de oplossingen van Kimball en Inmon. De referentiearchitectuur van Kadenza is opgebouwd uit drie met hun historie (ook dimensies) worden in deze laag vastgelegd, onderdelen: de stage area, de datawarehouse area en de tenzij aangegeven is dat deze niet gewenst zijn. informatie area. Per specifieke laag wordt de invulling van de De informatie area laag is bedoeld om de kennisintensieve verschillende functionaliteiten beschreven. processen van de organisatie te ondersteunen. Het ontwerp van In de stage area laag kunnen gegevens uit interne en externe de datamart laag is gebaseerd op de informatiebehoefte van een bronnen worden ontvangen, zowel synchroon als asynchroon. bepaald bedrijfsonderdeel. Het dient ondersteuning te bieden aan Verder wordt bijgehouden of het om nieuwe of gewijzigde data voorgedefinieerde business-vragen, gebaseerd op measurable gaat. De stage area voedt het datawarehouse en mogelijk de facts (KPI’s en/of CSF’s) afgeleid van de business-processen van Operational Data Store. Om correcte, eenduidige en consistente de organisatie. gegevens door te geven, vindt bewerking, integratie en schoning De data in de datamart betreffen een andere representatie van de van de gegevens plaats. historische laag, weergegeven in een model dat begrijpelijk is In het datamodel in deze laag worden gegevens uit verschillende voor eindgebruikers. Samen met performance voldoet het dan aan bronnen geïntegreerd (met onderlinge relatie) weergegeven. Van de belangrijkste vereisten. De datamarts zijn (relatief) eenvoudig stamgegevens wordt een actuele versie vastgehouden. De andere te wijzigen, op te bouwen of incrementeel uit te breiden. Deze gegevens hebben een beperkte historie: er zijn transacties uit het laag is toegankelijk voor eindgebruikers. verleden, maar er vindt geen historische stapeling plaats. Alle gegevens van primaire bedrijfsprocessen worden vastgelegd, Aanvullende vereisten tenzij aangegeven is dat deze niet gewenst zijn. Dit datamodel is De Operational Data Store is bedoeld om gegevens uit verschil- incrementeel uitbreidbaar. De gegevens in de staging area zijn lende externe en interne bronnen op een geïntegreerde wijze niet toegankelijk voor eindgebruikers. weer te geven en te bevragen. De gegevens worden met een zo klein mogelijke vertraging aan de eindgebruikers ter beschikking De datawarehouse area laag is bedoeld om gegevens voor langere gesteld. Gegevens uit verschillende bronnen worden geïntegreerd tijd vast te houden. Het kan gezien worden als het geheugen voor weergegeven in voornamelijk 3NF. lange termijn en beschikt over een archieffunctie: gegevens De procesinformatie, informatie voor de centrale administratie en worden gestapeld opgeslagen. Het is bedoeld om de datamart registratie van procesgegevens, dient om de processen toe- laag van geaggregeerde feiten en dimensies te voorzien. Dit dient gankelijk en inzichtelijk te maken. Zo kan bijvoorbeeld de bron herhaaldelijk en met verschillende mate van detaillering te getraceerd worden. Hier worden ook uitzonderingen en fouten gebeuren. Uit deze laag kan ook ondersteuning voor data mining afgehandeld. en ad hoc analyse plaatsvinden. Metadata worden niet alleen gebruikt ter informatie van de Het datamodel van de datawarehouse area is een bedrijfsbreed beheerder en bij het ETL-proces, ze worden ook toegepast voor de informatiemodel dat incrementeel uitbreidbaar is. Doordat het gebruikers van het datawarehouse. Tijdens het opslagproces geënt is op informatie en niet op transacties, is het model toe- worden data opgeslagen na validatie en profilering. Belangrijk gankelijk en snel. Alle gegevens van primaire bedrijfsprocessen daarbij zijn natuurlijk compleetheid, correctheid en accuraatheid. 20 Database Magazine – Nummer 3 – mei 2007
  • 2. Wanneer we datawarehouse-architecturen vergelijken met de niet langer onderhevig is aan interpretatie. Dit in tegenstelling gebruikelijke aanpak volgens Kimball en Inmon, wordt allereerst tot het enterprise datamodel dat Inmon gebruikt; deze is niet gekeken naar de ondersteuning van strategische bedrijfsdoelen en uitgewerkt en daarom wel onderhevig aan interpretatie. informatievereisten. Het datawarehouse ondersteunt het besluit- In een datawarehouse dient de information area (datamart) een- vormings- en informatieproces op operationeel, tactisch en voudig toegankelijk te zijn voor eindgebruikers. Het datamodel of strategisch niveau. Daarnaast ondersteunt het een bedrijf vanuit de structuur dient ook begrijpelijk te zijn voor de eindgebruiker, verschillende perspectieven en over alle bedrijfsonderdelen. daarnaast dient het een toegankelijke interface te hebben. Het is Vanuit een bedrijfsplan (strategisch) en de performance bijvoorbeeld mogelijk standaard software te gebruiken voor indicatoren (KPI’s) wordt immers de basis gelegd voor een rapportage en interactieve analyse (OLAP). Tot slot moet de business informatiemodel en het definitieve ontwerp van een gemiddelde doorlooptijd acceptabel zijn voor de eindgebruiker. datawarehouse-architectuur. Deze uitgangspunten van de Kimball benadering worden alom De Kadenza DWH referentiearchitectuur verschilt met die van onderschreven, dus ook in de beschreven referentiearchitectuur. Kimball en Inmon in de laag waar de historisch correcte informa- De bedrijfsinformatie is opgeslagen in datamarts. Deze datamarts tie bewaard wordt. Bij Kimball is dit de datawarehouse bus, terwijl bevatten de informatie van verschillende bedrijfsprocessen vanuit Inmon de corporate information factory benadering heeft. In de verschillende invalshoeken (conformed dimensions). Echter de referentiearchitectuur gaan we uit van een separate dataware- toegankelijkheid van informatie wordt ook bepaald door de house laag met informatie opgeslagen in een bedrijfsinformatie flexibiliteit bij het definiëren en wijzigen (bijvoorbeeld het detail- datamodel. Deze laag is uitbreidbaar voor toekomstige informatie- niveau) van door eindgebruikers gewenste datamarts. Het is dan behoeften en is geïsoleerd van de informatievoorziening aan mogelijk informatie snel beschikbaar te stellen. eindgebruikers. Vanuit deze historisch correcte informatie kunnen dan de datamarts (eindgebruiker informatie) afgeleid worden. Analysemogelijkheden Er ontstaat een flexibele informatievoorziening doordat ingespeeld Een datawarehouse dient data-analyses te ondersteunen voor kan worden op wijzigingen in de informatiebehoefte. Het is bijvoorbeeld data mining. Hiervoor moeten gegevens beschikbaar bijvoorbeeld mogelijk het detailniveau van de gegevens en de zijn op een gewenst gedetailleerd niveau voor eindgebruikers. datamarts (nieuwe informatiebehoefte) te wijzigen en uit te Ook is het belangrijk dat de informatiebehoefte gebaseerd is op breiden. Enerzijds voorkomen we hiermee dat het detailniveau een bedrijfsbreed begrippenkader en begrippenstructuur en willen van de informatie bij het ontwerpen van de datamarts wordt we analysemogelijkheden hebben op historische data. Daarnaast bepaald en dat de historie van informatie in de datamarts plaats- moet de betekenis van de gegevens zowel duidelijk en begrijpelijk vindt en daarmee de detailgradatie van die historie. Anderzijds zijn, als eenduidig en consistent. Ook is het van belang dat er met werken we zo het enterprise datamodel nader uit, waardoor dat geschoonde gegevens gewerkt wordt. Meta informatie (inclusief validatie en profilering informatie) ERP bron Datamart Legacy bron Datamart ETL ETL EAI EII Business ETL OLTP Intelligence bron informatie Datamart analyse Stage Datawarehouse Web services Datamart Externe ODS bron Bronnen Stage area Datawarehouse area Information area Proces informatie Afbeelding 1: DWH referentiemodel van Kadenza. Database Magazine – Nummer 3 – mei 2007 21
  • 3. Meta informatie (inclusief validatie en profilering informatie) ERP bron Datamart Legacy bron Datamart ETL Business OLTP Intelligence bron informatie Datamart tools Web services Datamart Externe bron DWH Bus Bronnen Stage area Information area Proces informatie Afbeelding 2: De Kimball architectuur Dit geldt voor alle datawarehouse-architectuur benaderingen. worden. De ODS is door Inmon aangedragen en heeft in de Echter, er zal tijdens het opslagproces bepaald moeten worden referentiearchitectuur dezelfde functie: het bedienen van een wat de betekenis van de gegevens is en hoe en in welke mate operationele informatiebehoefte en het voorzien van operationele gegevens geschoond gaan worden. Hoe beter een organisatie processen van informatie. In de referentiearchitectuur verloopt de hierop een antwoord kan geven, des te sneller komt informatie staging volgens een gedefinieerde methodiek. Deze methodiek is beschikbaar voor eindgebruikers. zo gekozen dat bronnen sneller toegevoegd en gewijzigd kunnen Een datawarehouse dient bedrijfsbrede behoeften aan operatione- worden. Kimball en Inmon dragen hier wel ideeën over aan maar le data te ondersteunen. Zo moet het datamodel toegankelijk en leveren geen methodiek. eenvoudig te begrijpen zijn en de geïntegreerde operationele Een datawarehouse dient relatief eenvoudig te onderhouden zijn. bedrijfsvoering reflecteren. Tevens moet, indien gewenst near Dat is belangrijk voor het snel realiseren van wijzigingen van real-time, actuele informatie beschikbaar zijn. Ook moet de opge- eindgebruikerwensen. Daarnaast willen we de mogelijkheid slagen informatie een betere kwaliteit hebben dan de operationele hebben om de gedetailleerdheid van gegevens voor een eind- systemen. gebruiker te wijzigen. Ook is het van belang bij het efficiënt en snel structureren en onderhouden van geaggregeerde data, Vergelijkingen wijzigingen van bronsystemen op te vangen en voor het efficiënt Alle datawarehouse-architecturen hebben een zogenaamde sta- onderhouden van extractie- en transformatieprocessen. Tevens ging laag (stage area). Hier vindt op basis van de bronmodellen is het belangrijk om een minimale impact te hebben bij veran- extractie van gegevens plaats. De structuur waarin de gegevens in deringen en isolatie tussen verschillende architectuurlagen om de staging laag worden opgeslagen, kan per datawarehouse- verstrengeling van functionaliteit te voorkomen. architectuur echter verschillen. Voor het ontwerp van het extractieproces (ETL/EAI/EII) is de frequentie van extractie ofwel Flexibiliteit data-aanlevering (constante flow of periodieke aanlevering), de In tegenstelling tot de architecturen van Kimball en Inmon biedt extractiemethode (bijvoorbeeld alleen mutaties) en de technologie de gelaagde referentiearchitectuur flexibiliteit. Door de isolatie (zoals webservices, datareplicatie, change data capture) bepalend. van de verschillende lagen kan de datawarehouse laag met het In de staging laag vinden tevens databewerkingen (transforma- informatiearchief ongemoeid gelaten worden, terwijl er in de tie), gegevenskwaliteitcontrole en schoning van gegevens plaats. andere lagen wijzigingen doorgevoerd worden. Wijzigingen in De functie van de staging laag is immers het klaarzetten van bronsystemen kunnen snel en flexibel in de staging laag opge- informatie, om deze vervolgens (historisch) correct op te slaan. vangen worden en wijzigingen in eindgebruikerwensen in de In de referentiearchitectuur kunnen de gegevens behalve naar informatielaag. In combinatie met een standaard schaalbare een datawarehouse laag (fungeert als informatie-archief), ook methodiek voor extractie- en transformatieprocessen, vormt dit naar een zogenaamde Operationele Data Store (ODS) geladen een relatief eenvoudig te onderhouden datawarehouse-oplossing. Database Magazine – Nummer 3 – mei 2007 23
  • 4. Meta informatie (inclusief validatie en profilering informatie) ERP Datawarehouse bron area Datamart Legacy bron ETL EAI EII Datamart Business OLTP Intelligence bron Enterprise informatie Data Datamart tools Warehouse Web services Datamart Externe bron ODS Bronnen Stage area Information area Proces informatie Afbeelding 3: De Corporate Information Factory van Inmon. Informatie kan sneller ontsloten en beschikbaar gesteld worden. ders te maken hebben. Vooral de meta-informatie en proces- Daarbij is het wenselijk dat een datawarehouse eenvoudig uit te informatie dienen het gebruik van standaard beheersoftware te breiden is om snel functionaliteit te realiseren behorende bij ondersteunen. Het belangrijkste punt bij deze vereiste is dat de (voor het datawarehouse) nieuwe bedrijfsonderdelen en snel data drielagen-referentiearchitectuur eenvoudiger te implementeren is toe te voegen afkomstig uit (voor het datawarehouse) nieuwe in een hanteerbare technische architectuur. Het is immers door de bronnen. Dit kan nog worden versterkt door een uitbreidbaar verschillende karakters van de datawarehouse-lagen eenvoudiger informatie/datamodel in de datawarehouse laag van de referentie- op technisch niveau te ondersteunen. Zo kan bijvoorbeeld de architectuur. informatielaag beschikbaar blijven, terwijl de datawarehouse laag geladen wordt. Zo kunnen we stabiliteit en hogere beschikbaar- heid van omgevingen krijgen. Vanuit de historisch correcte informatie kunnen de datamarts Conclusies afgeleid worden Hedendaagse datawarehouses stellen business-informatie beschikbaar op een betrouwbare, snelle en flexibele manier. De beschreven referentiearchitectuur ontsluit management- Op het gebied van schaalbaarheid moet een datawarehouse- informatie voor strategische doeleinden. Het speelt snel en infrastructuur kunnen voldoen aan de wens om datagroei (meer flexibel in op wijzigingen in de informatiebehoefte door het bronnen, meer historie) en de groei van eindgebruikeractiviteiten flexibel definiëren en wijzigen van door eindgebruikers gewenste op te vangen. Daarnaast is schaalbaarheid van belang om aan datamarts. Tevens maakt de isolatie van de drie beschreven wensen voor hogere performance te voldoen en doorlooptijden te architectuurlagen het mogelijk bronnen sneller toe te voegen en verkorten. Dit geldt voor alle datawarehouse-architecturen, maar te wijzigen. Hierdoor scoort de architectuur niet alleen goed op is in tegenstelling tot de andere vereisten meer een technische het snel en flexibel beschikbaar stellen van informatie, maar ook infrastructuur vereiste. Een gelaagde architectuur is op technisch goed op de vereiste onderhoudbaarheid, uitbreidbaarheid en niveau eenvoudiger te ondersteunen. schaalbaarheid. Deze worden verder nog ondersteund door de Een datawarehouse dient vanuit een operationeel gezichtspunt gebruikte ETL-methodiek en de gebruikte datamodellen in de eenvoudig te hanteren te zijn op het gebied van systeembeheer- staging laag en de datawarehouse laag. Gecombineerd met een onderdelen, job scheduling en load balancing tools. Daarnaast is goede hanteerbaarheid zorgt dit voor een relatief goedkope en een goede hanteerbaarheid belangrijk voor een eenvoudig betrouwbare datawarehouse-omgeving. gebruik van backup- en restore-procedures. Voor datawarehouse-architecturen geldt dat we ook met beheer- Marianne Kompagne is BI/DWH architect bij Kadenza. Database Magazine – Nummer 3 – mei 2007 25