1. WHITEPAPER | 04
Refining the new oil –
Turning data into value
Een aanpak voor meer waarde uit data
2. 2 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
Inhoud
Voorwoord 3
Introductie en onze definitie van big data 6
Deel 1: meer waarde uit data 9
Deel 2: data-analyse - meer dan alleen BI 19
Samenvatting en conclusie 23
3. WHITEPAPER 04 | 3
Anderson MacGyver | Voorwoord
Vaak wordt big data omschreven als de olie van de 21ste eeuw. Bedrijven en individuen leggen steeds meer gegevens
vast, bewaren en analyseren ze. Google rapporteert vol trots over zijn enorme hoeveelheden data en wat het daarmee
kan. Daarnaast hebben we te maken met de algehele explosie van data op socialemediaplatformen als Facebook,
YouTube, Twitter en Instagram.
Bedrijven en consumenten verwachten 24 uur per dag realtime toegang tot voor hun relevante informatie. Een belangrijke
driver in de groei van data is het internet of things. Dit verwijst naar het verschijnsel dat we in machines en zelfs in ons
lichaam sensoren hebben die continu veel data produceren. De fysieke en virtuele werkelijkheid overlappen elkaar steeds
meer. Het is een grote verandering in de maatschappij, vergelijkbaar met de industriële revolutie aan het eind van de
18de eeuw en de ontwikkeling van het digitale tijdperk eind 20ste eeuw. En dit is nog maar het begin.
Maar wat doen we met deze data? Big data krijgt pas waarde op het moment dat organisaties en mensen door een
veranderd inzicht anders gaan handelen. Er bestaat een ingewikkeld proces van verrijken en veredelen om tot waarde-
volle inzichten uit data te komen. Welke gegevens mogelijk waardevol zijn, ontdekken we pas als we weten wat we willen
bereiken en op welk gebied we precies beter willen presteren. Het gaat om een goede balans tussen de behoefte en
strategie van de business enerzijds, en het verzamelen van data en de inzet van de juiste analysemogelijkheden ander-
zijds.
In dit whitepaper beschrijven we hoe organisaties uit de veelheid van data waardevolle kennis kunnen destilleren die kan
zorgen voor meer inzicht in hun klanten, diensten en bedrijfsprocessen. We vertellen hoe waarde toegevoegd kan
worden aan diensten en producten voor klanten, en hoe organisaties hun capabilities kunnen ontwikkelen om slimmer
om te gaan met data.
Rik Bijmholt en Gerard Wijers
Oprichters Anderson MacGyver
Refining the new oil - Turning data into value
4. 4 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
5. WHITEPAPER 04 | 5
Anderson MacGyver | Introductie en onze definitie van big data
Een aanpak voor meer waarde uit data
JOHN OTTERSBACH Auteur
John Ottersbach is een ervaren wetenschapper en adviseur op het gebied van (big) data
vraagstukken. Tijdens zijn wetenschappelijke carrière bij het CERN heeft hij veel ervaring
opgedaan met complexe data analyses gebaseerd op grote hoeveelheden data.
I
n de afgelopen jaren zijn er talloze business studies over
big data gepubliceerd, steeds met eenzelfde kerncon-
clusie: bedrijven die zich met big data bezighouden en
big data-oplossingen hanteren, hebben een significant
competitief voordeel. Het kan bijvoorbeeld grote impact
hebben op producten en productontwikkeling, op bedrijfs-
processen en op klantrelaties (Wallmart, 2012) (Rajpathak,
2013) (Schroeck, 2012). Dit zorgt ervoor dat big data al
jaren bovenaan in de lijsten van impactvolle ontwikkelingen
staat (Bughin, 2013) (Gartner, 2014).
De artikelen, verhalen en blogs gaan echter zelden in op
belangrijke vragen als: hoe maak ik gebruik van de moge-
lijkheden die big data mij biedt, over welke data – binnen
en buiten mijn organisatie – beschik ik eigenlijk, welke
waarde ligt daarin besloten en hoe krijg ik toegang tot
deze waarde?
De misvatting bestaat dat zeer grote datasets, waar bedrij-
ven als Google en Facebook over beschikken, een rand-
voorwaarde zijn om waarde te genereren en big data op
de agenda te zetten. Maar ook kleine datasets kunnen
waardevolle inzichten creëren.
Bovendien zijn er vaak meer bruikbare gegevens voorhan-
den dan men denkt en neemt de hoeveelheid beschikbare
data alleen maar toe (Hubbard, 2011). Dit whitepaper
gaat in op bovenstaande vragen en introduceert een
generieke aanpak om de waarde in data beschikbaar te
maken. Uitgangspunt van deze aanpak is een veelbelo-
vende businessvraag die door een passende data-analyse
beantwoord kan worden. Net als bij aardolie moet eerst
gericht worden gezocht en vervolgens zorgvuldig worden
geraffineerd. Op deze manier ontstaan waardevolle
producten voor bedrijven en particulieren.
BOR VAN DIJK Auteur
Bor van Dijk heeft vanuit verschillende rollen veranderingen geleid op het snijvlak van business
en IT in zowel commerciële omgevingen als ook bij de semi-overheid. Hij heeft zich de laatste
jaren gespecialiseerd in innovatie en duurzame organisatieontwikkeling.
DAVID JONGSTE Auteur
David Jongste heeft ruim 15 jaar ervaring met vraagstukken op het snijvlak van bedrijfsvoering
en ICT. Hij heeft veel bestuurlijke en hands-on ervaring met vraagstukken op het terrein van ICT
governance, informatiemanagement, business intelligence, organisatie van ICT en (informatie)
architectuur.
6. 6 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
In onze benadering staat big data voor datasets die zich in vergelijking met
traditionele bestanden kenmerken door een toename in volume, velocity, variety
en veracity waardoor nieuwe kansen ontstaan tot het creëren van waarde
(value).
BIG DATA: SIZE DOESN’T MATTER –
VALUE DOES!
Big data is een containerbegrip dat mensen op allerlei
manieren interpreteren. Ondanks dat het een veelgebruikt
begrip is, is het nog steeds wel wat vaag wat er precies
mee wordt bedoeld. Het wordt gebruikt als een synoniem
voor grote hoeveelheden data, voor analysetechnieken,
maar ook voor ontwikkelingen in organisaties en de maat-
schappij rond digitale data. Gartner ontwikkelde als eerste
een breed gedragen definitie van big data. In 2001 publi-
ceerde de META Group (nu Gartner) de 3D Data Manage-
ment whitepaper met de drie kernaspecten data volume,
data velocity en data variety (Laney, 2001). Deze drie V’s
zouden later de definitie van big data worden (Laney,
2012). Vaak wordt nog een vierde V toegevoegd (IBM,
2013): data veracity.
Deze V’s zijn technische kenmerken van big data. Volgens
ons ontbreekt er echter nog eentje, namelijk de V waar
alles om draait: value (zie figuur 1). De hoeveelheid, volle-
digheid en snelheid van data is voor een businessoplos-
sing volledig nutteloos als er geen toegevoegde waarde
wordt gerealiseerd.
Zelfs in kleine statische datasets zitten vaak waardevolle
inzichten verstopt. Dus: size doesn‘t matter - value does!
Figuur 1: de visie van Anderson
MacGyver op big data. De waarde
staat centraal!
VALU€
VARIETY
VELOCITY
V RAC TY
7. WHITEPAPER 04 | 7
Anderson MacGyver | Introductie en onze definitie van big data
bronnen zoals sociale media (Facebook likes, Twitter-be-
richten, et cetera) of weer- en verkeersinformatie.
Veracity
De vervuiling en onzuiverheid van big data. Vaak zijn
bestanden niet volledig, niet consistent, ‘gebiased’ en
vertroebeld. Voorbeeld: NAW (Naam-Adres-Woonplaats)
bestanden zijn berucht om het feit dat de gegevens snel
verouderen, doublures en fouten bevatten doordat de initi-
ële invoer vaak handmatig is gebeurd. Een toename van
10 procent per jaar van het aantal fouten in dergelijke
bestanden is eerder regel dan uitzondering.
Value
De waarde die in de data verstopt zit. Deze V beschrijft
niet zoals de andere vier V’s een technische eigenschap
van big data. In data zit echter bijna altijd verstopte
waarde in de vorm van waardevolle inzichten. De value
wordt in onze definitie hierdoor wel een karakteriserende
eigenschap van big data.
‘Big’ verwijst volgens ons dus niet naar de hoeveelheid,
maar vooral naar de waarde. Hoe deze waarde kan
worden gedestilleerd, lichten we toe in Deel 1: meer
waarde uit data (pagina 9) .
De vijf dimensies van big data zijn vervolgens de 5 V’s:
Volume
De hoeveelheid data. Het gaat meestal om grote datasets.
‘Groot’ is echter een relatief begrip en sterk afhankelijk van
de context. Voor sommige bedrijven zijn datasets in de
grootte van gigabytes moeilijk te hanteren, voor andere zijn
honderden terabytes nog steeds niet bijzonder veel. Voor-
beeld: YouTube met 357 petabyte opslagcapaciteit (stand
in mei 2014).
Velocity
De snelheid waarmee data wordt geproduceerd en
verwerkt. Data is meestal niet meer statisch. Het gaat om
het realtime analyseren van gestreamde data en de resul-
taten moeten vaak binnen seconden beschikbaar zijn.
Voorbeeld: de high-frequency trading in de financiële
sector; hier moeten beslissingen vaak al in microseconden
worden genomen.
Variety
De verschillende dataformaten en databronnen waaruit big
data meestal bestaat.
Voorbeeld: voor het optimaliseren van hun omzet gebrui-
ken retailers voorspellende algoritmen waar commerciële
en logistieke data gecombineerd worden met externe
8. Figuur 2: model
voor meer waarde
uit data.
value
dataanalysis
business
missing
foundation
missing
focus
missing
skills
9. WHITEPAPER 04 | 9
Anderson MacGyver | Deel 1: meer waarde uit data
Waar zit de waarde in big data? Het beschikken over de
data alleen is niet voldoende om de waarde te bereiken.
Pas met een concrete vraagstelling vanuit de business en
met het juiste analytische vermogen wordt deze waarde
volledig ontsloten, zoals het model in figuur 2 schetst.
Op het snijvlak tussen ‘analyse’ en ‘business’ (cyaan)
ontbreekt de data en daarmee de mogelijkheid om tot
onderbouwde inzichten te komen. Op het snijvlak tussen
‘business’ en ‘data’ (paars) ontbreekt ‘analyse’ en dus de
nodige vaardigheden en tools om de waarde uit de data te
ontginnen. Vanuit het snijvlak tussen ‘data’ en ‘analyse’
(geel) kunnen we onderbouwde inzichten creëren, maar
ontbreekt het aan de focus vanuit de ‘business’ om tot
een doelgerichte analyse te komen. Het belang van een
businessvraag met de juiste focus wordt verder toegelicht
in sectie ‘A. Identificeren van data opportunity’ (pagina 10).
Pas als de drie kleuren in balans overlappen, ontstaat er
een helder zicht op de waarde.
ANDERSON MACGYVER DATA
ANALYTICS FOR VALUE CREATION
De Data Analytics for Value Creation-methode van Ander-
son MacGyver is een generieke aanpak om business-
waarde te realiseren op basis van het hiervoor beschreven
Deel 1: meer waarde uit data
model, geschetst in figuur 2. Door de introductie van een
systematische aanpak wordt de complexiteit van big
data-trajecten gereduceerd, de kans op succes vergroot
en het lerend vermogen en de opbouw van capabilities
gestimuleerd. De aanpak is opgebouwd uit drie fasen:
• A Identificeren van data opportunity: Het doel van
deze fase is om te komen tot een impactvolle busi-
nessvraag, die in fase B kan worden beantwoord. Het
gaat om het vinden van interessante casussen waar
door middel van data-analyse concrete businessim-
pact en dus waarde gerealiseerd kan worden.
• B Toepassen van data analytics: Fase B geeft
antwoord op de vraagstelling uit fase A. Door een
data-analyse wordt onderzocht of en hoe het idee
achter de vraagstelling gerealiseerd kan worden.
• C Realiseren van business value: Wanneer op basis
van de conclusies uit de data-analyse een positieve
business case volgt, wordt een implementatieontwerp
opgesteld en de businesswaarde gerealiseerd.
Het heuristische karakter van een big data-traject vereist
iteratieve processen en directe terugkoppelingen in de
aanpak. In kleine, opeenvolgende stappen ontstaat vanuit
10. 10 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
meest uitdagende deel van een big data-traject. Het
vereist creativiteit, out of the box denken en een diep-
gaande kennis van de markt en de organisatie met haar
producten, diensten en processen. Een multidisciplinair
team binnen de organisatie garandeert de meest effectieve
Figuur 3: in 3 stappen naar
meer waarde uit data.
een vaag idee een steeds concreter concept of model. De
stappen worden met name bepaald door de inzichten die
voortkomen uit de analyse in fase B.
De iteratieve aanpak en een intensieve samenwerking
tussen stakeholders zijn essentieel voor een effectief
verloop van het traject. Bovendien wordt hierdoor het
collectieve leerproces en de opbouw van nieuwe capabili-
ties gestimuleerd.
A. Identificeren van data opportunity
Waarde vinden is een zoektocht. Net als bij de zoektocht
naar olie is op voorhand niet bekend waar het zich
bevindt. De olie-industrie doet allerlei analyses, simulaties
en berekeningen om te bepalen waar de grondstof zich
kan bevinden. Dit vergroot de kans op een succesvolle
proefboring aanzienlijk.
Ook big data-trajecten beginnen met het ontdekken en
verkennen van veelbelovende ideeën voordat de echte
waarde kan worden ontgonnen. Impactvolle vraagstellin-
gen ontketenen de innovatie met big data. Het begint met
de volgende vraagstelling binnen de organisatie: wat zijn
de belangrijke vragen waarop het antwoord ons de
waarde oplevert die ons helpt om onszelf van de concur-
rentie te onderscheiden? Dit is vaak het moeilijkste en
ANDERSON MACGYVER DATA ANALYTICS FOR VALUE CREATION
REALISEREN VAN
BUSINESS VALUE
4. ANALYSEREN
CIDENTIFICEREN VAN
DATA OPPORTUNITYA TOEPASSEN VAN
DATA ANALYTICSB
11. WHITEPAPER 04 | 11
Anderson MacGyver | Deel 1: meer waarde uit data
aanpak, maar ook externe adviseurs kunnen een waarde-
volle bijdrage leveren door hun ervaring en waarneming
van de markt. Het resultaat levert vragen op zoals: zouden
we onze aanvoerprognose kunnen verbeteren door de
inzet van zelflerende algoritmen? En wat zou dit opleveren
(vraagstelling van een handelsplatform)? Of: zouden we op
adresniveau consumentenprofielen kunnen genereren met
eigen en openbare data (vraagstelling van een logistiek
dienstverlener)? Achter vragen als deze zit de innovatie die
leidt tot nieuwe business, geoptimaliseerde processen en
een slimme omgang met de steeds toenemende hoeveel-
heden data.
Om in deze fase de meest waardevolle data opportunities
te identificeren, is, naast de betrokkenheid van de juiste
personen, een heldere aanpak van belang. Door op zoek
te gaan naar verbinding tussen concrete businessvraag-
stukken en beschikbare data, worden data opportunities
geïdentificeerd. Dit kan vanuit de vier verschillende
perspectieven:
• Klantgedreven
• Contextgedreven
• Bedrijfsactiviteitengedreven
• Datagedreven.
Klantgedreven
De focus ligt op toegevoegde waarde voor de klant. De
centrale vraag is: hoe zou data gebruikt kunnen worden
om producten of de service voor de klant te verbeteren?
Hoe kan er waarde voor de klant ontstaan? Hoe wordt hij
geholpen?
Voorbeeld: Booking.com gebruikt slimme algoritmen op
basis van zijn data om gepersonaliseerde aanbiedingen te
plaatsen. De klant vindt daardoor sneller bestemmingen
en hotels die hij leuk vindt. Dit verhoogt de waarde voor de
klant.
Contextgedreven
In een contextgedreven benadering wordt gekeken naar
de omgeving van de organisatie, zoals beschreven in onze
whitepaper over agility (Simons, 2014). Het gaat bijvoor-
beeld om technologische en sociale ontwikkelingen.
Bovendien is het nuttig naar de marktleiders in verschil-
lende sectoren te kijken. Welke data en analyses gebrui-
ken zij om waarde te creëren? Welke innovatieve produc-
ten ontstaan hierdoor of hoe worden de bedrijfsprocessen
efficiënter? Voorbeelden zijn vaak aansprekend en inspire-
rend en stimuleren de nodige creativiteit.
12. 12 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
Voorbeeld: door de opbouw van DNA databases in de
gezondheidszorg ontstaan nieuwe mogelijkheden rond
preventie en efficiënte behandeling van patiënten.
Een combinatie van deze vier benaderingen samen met
ervaringen uit lopende datatrajecten blijkt in de praktijk de
beste aanpak. De uitkomst van deze fase is een vraagstel-
ling met potentie voor een significante businessimpact.
De vraagstelling levert een startpunt voor de analysefase B
van onze Data Analytics for Value Creation-methode. Het
is een open vraag die de vrijheid en creativiteit van de
analyse niet beperkt, maar juist stimuleert. Een goed voor-
beeld is de al genoemde vraagstelling van een handels-
platform: zouden we onze aanvoerprognose door de inzet
van zelflerende algoritmen kunnen verbeteren? Hier wordt
voldoende ruimte gelaten om in fase B met verschillende
databronnen en algoritmen te experimenteren. Zo kan
bijvoorbeeld blijken dat het toevoegen van weer- en
verkeersinformatie aan de eigen data in verband met een
neuraal netwerk de meest nauwkeurige voorspelling ople-
vert.
Bedrijfsactiviteitgedreven
Een andere benadering is om te werken vanuit de bedrijfs-
activiteiten. Welke processen zouden door een slimme
inzet van data kunnen worden geoptimaliseerd? De focus
ligt op omzetverhoging, kostenreductie of hogere kwaliteit
en betere service voor de klant. Om de waarde van en de
samenhang tussen bedrijfsactiviteiten te concretiseren kan
het Anderson MacGyver Waardemodel (Wieringa, 2014) of
het Anderson MacGyver Operating Model Canvas (Haij-
enga, 2014) worden ingezet.
Voorbeeld: de politie van Los Angeles bepaalt op basis
van data en zelflerende algoritmen op welke plekken de
kans op een misdrijf het grootste is en past haar inzet
hierop aan. Door verbeterde preventieactiviteiten voorkomt
zij misdrijven en zet ze de capaciteit efficiënter in.
Datagedreven
Hier wordt de beschikbare data als uitgangspunt geno-
men. Vanuit deze data wordt gezocht naar inzichten waar-
mee waarde gecreëerd kan worden. Een Operating Model
Canvas met daarop een visualisatie van de bestaande
gegevens en datastromen vormt een effectieve tool. Hier-
mee ontstaat bewustwording omtrent de beschikbare data
en het stimuleert de creativiteit.
13. WHITEPAPER 04 | 13
Anderson MacGyver | Deel 1: meer waarde uit data
B. Toepassen van data analytics
De titel van dit whitepaper geeft het aan: de waarde wordt
tijdens de raffinage gedestilleerd. Met ruwe olie kun je niet
veel. Pas na de raffinage ontstaan waardevolle producten
zoals brandstoffen voor auto’s, vliegtuigen en schepen.
Ook de chemische en farmaceutische industrie profiteren
van het raffinageproces, waar grondstoffen ontstaan voor
kunststoffen en medicijnen. De data-analyse is te vergelij-
ken met het raffinageproces. Uit de ruwe data worden
waardevolle inzichten gecreëerd.
In deze fase worden de mogelijkheden tot beantwoording
van de vraagstelling uit fase A onderzocht middels een
data-analyse. Maar hoe ziet een data-analyse eruit die
antwoord geeft op een heel specifieke vraag en die geba-
seerd is op een dataset die het unieke karakter van de
organisatie weerspiegelt? De echt waardevolle inzichten
ontstaan alleen vanuit een data-analyse die rekening houdt
met zowel de individuele eigenschappen van onderlig-
gende data alsook de specifieke vraagstelling.
Een effectieve en waardevolle data-analyse zal dus altijd
maatwerk zijn. Verantwoordelijk voor dit maatwerk is de
data scientist die de analyse opzet en uitvoert. Alhoewel
de data-analyse maatwerk is, kan het door een generieke
aanpak transparant en planbaar worden gemaakt.
14. 14 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
Figuur 4: de Anderson
MacGyver-aanpak voor
data analytics.
ANDERSON MACGYVER DATA ANALYTICS FOR VALUE CREATION
REALISEREN VAN
BUSINESS VALUE
4. ANALYSEREN
CIDENTIFICEREN VAN
DATA OPPORTUNITYA TOEPASSEN VAN DATA ANALYTICSB
1. Aanpak van
het onderzoek
2. Dataselectie
3. Datavalidatie
5. Conclusies
4. Data-
analyse
15. WHITEPAPER 04 | 15
Anderson MacGyver | Deel 1: meer waarde uit data
baar maken van de waarde in data. Het is een dynamisch,
heuristisch proces. Van tevoren is niet bekend welke
inzichten en obstakels de data scientist zal tegenkomen.
Een efficiënte en effectieve data-analyse is om die reden
een iteratief proces waar opgedane inzichten kortcyclisch
(typisch na 1 tot 3 weken) worden teruggekoppeld aan de
stakeholders om vervolgstappen te bepalen. In sommige
gevallen vereisen de vervolgstappen dat de dataset wordt
vergroot of dat er additionele databronnen worden toege-
voegd. Typisch wordt bij de eerste en tweede iteratie de
grootste voortgang geboekt. Als bijvoorbeeld voor het
beantwoorden van de vraagstelling de ontwikkeling van
een neuraal netwerk nodig zou zijn, dan wordt tijdens de
eerste en tweede iteratie de grootste toename in prestatie
van het netwerk bereikt. Meer voorbeelden van en uitleg
over gebruikte tools en technieken alsook een gedetail-
leerde discussie over de verschillende typen data-analyses
volgen in ‘Deel 2 – Data Analysis op pagina 19’.
Stap 5: Conclusies
Vaak zijn analyses en de uitkomsten hiervan complex. Het
is aan de data scientist om de uitkomsten te vertalen in
resultaten die voor alle betrokkenen inzichtelijk zijn. Het
gebruik van visualisatie is hierbij een bewezen middel.
Fase B bestaat uit vijf stappen (zie figuur 4):
Stap 1: Aanpak van het onderzoek
Hoe zou de vraagstelling uit fase A kunnen worden beant-
woord? Wat zijn de nodige tools en technieken? Welke
data zijn ervoor nodig? Dit zijn de vragen die tot een plan
van aanpak voor de data-analyse leiden.
Stap 2: Dataselectie
De benodigde data wordt verzameld en beschikbaar
gesteld. Vaak gaat het niet alleen om interne bedrijfsdata,
maar ook om externe data.
Stap 3: Datavalidatie
Voor een analyse moet de data zorgvuldig op consistentie,
fouten, ‘biases’, ontbrekende variabelen en dergelijke
kenmerken van veracity worden getest (zie ‘Big data: size
doesn’t matter – value does!’ op pagina 6). Hier worden
statistische methoden voor verificatie en validatie gebruikt.
De data scientist maakt zich vertrouwd met de gegevens
en checkt de mogelijkheden voor de analyse op basis van
de data.
Stap 4: Data-analyse
De data-analyse is de sleutel tot het vinden en beschik-
16. 16 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
17. WHITEPAPER 04 | 17
Anderson MacGyver | Deel 1: meer waarde uit data
C. Realiseren van business value
Als in fase B inzichtelijk is gemaakt welke waarde kan
worden gerealiseerd, is de waarde nog niet daadwerkelijk
gecreëerd. De brandstof die de raffinaderij in tankauto’s
verlaat, wordt gedistribueerd naar tankstations. De waarde
voor de oliemaatschappij ontstaat door de verkoop van de
brandstof, terwijl de waarde voor de consument uit zijn
mobiliteit bestaat. Iets heeft pas echt waarde als het
waarde heeft voor de klant, zie hiervoor ons whitepaper
(Wieringa, 2014).
In deze laatste fase wordt de waarde gerealiseerd. Hier
wordt gekeken hoe de uitkomsten van fase B te vertalen
zijn naar een positieve businesscase voor de organisatie.
Vervolgens worden de benodigde aanpassingen aan
processen, systemen en organisatie uitgewerkt. Aspecten
als opschaalbaarheid, continuïteit, betrouwbaarheid en
overdraagbaarheid van de uitkomsten van fase B spelen
een rol bij de ontwerpkeuzes die gemaakt moeten worden.
Na het opstellen van het ontwerp wordt een plan van
aanpak opgesteld. Door de uitvoering van dit plan wordt
de waarde daadwerkelijk gerealiseerd.
Leerproces en capabilities
Big data is nog vaak onbekend of ongemakkelijk terrein.
Er zal geleerd moeten worden om het eigen te maken. Het
leerproces is een fundamenteel onderdeel van de hiervoor
beschreven aanpak. Met kleine, iteratieve stappen en de
terugkoppelingen binnen en tussen de verschillende fasen
wordt kennis en ervaring opgebouwd en capabilities
ontwikkelen zich. De twee feedback loops in de aanpak
(figuur 3, 4) zijn uitermate belangrijk voor dit proces. De
ervaringen met de implementatie en de gerealiseerde busi-
ness impact zijn belangrijke input voor navolgende trajec-
ten. Maar ook wanneer inzichten niet implementeerbaar
zijn, kunnen ze nog steeds toegevoegde waarde voor
toekomstige trajecten leveren en zo bijdragen aan de
ontwikkeling van de gewenste capabilities.
Net zoals bij elke leerproces is het bij het opbouwen van
capabilities zinvol om met kleine trajecten te beginnen.
Gedreven door technologische innovaties ontwikkelt de
wereld van big data zich heel snel. Met big data bezig zijn,
betekent dus continu leren en ontwikkelen.
18.
19. WHITEPAPER 04 | 19
Anderson MacGyver | Deel 2: data-analyse - meer dan alleen BI
Na de uiteenzetting van onze visie op big data en een
onderbouwde aanpak voor een big data-traject, gaat dit
hoofdstuk in op het onderdeel data-analyse: het belang-
rijke raffinageproces van een big data-traject.
De term data-analyse wordt vaak gebruikt, meestal in het
kader van Business Intelligence (BI), marketing of busi-
nessstudies. De term is net zo vaag als big data zelf. Wat
eronder wordt verstaan, hangt sterk af van de individuele
context en de mensen die de term gebruiken. Volgens ons
omvat data-analyse veel meer tools en technieken dan in
het BI-domein worden ingezet.
Er zijn twee belangrijke factoren die een data-analyse clas-
sificeren: focus en diepgang. Ze worden bepaald door de
doelstelling die ten grondslag ligt aan de analyse. Zoals in
figuur 5 is aangetoond, maakt het BI-domein gebruik van
analyses met minder diepgang die zich in de meeste
gevallen op het verleden richten. Hiertegenover staan data
mining-technieken die meer diepgang hebben en vaak
voor voorspellingen gebruikt worden. In de sectie ‘Tools en
technieken’ gaan we gedetailleerder in op de verschillende
methoden. In dit whitepaper omvat de term data-analyse
alle beschikbare methoden, dus meer dan alleen BI!
Deel 2: data-analyse – meer dan alleen BI
Focus
De focus van een data-analyse kan op verschillende plek-
ken in de tijd liggen. Afhankelijk van de doelstelling van de
data-analyse, kan deze op het verleden, het heden of de
toekomst gericht zijn. Vaak worden de volgende op elkaar
voortbouwende categorieën benoemd voor de focus van
een analyse:
• Descriptive analytics
• Diagnostic analytics
• Predictive analytics
• Prescriptive analytics.
Met name de laatste twee categorieën krijgen veel
aandacht in de media in relatie tot big data. Ze zijn de
enabler voor een veranderende bedrijfssturing: van retros-
pectief naar prospectief. Soms kan de indruk ontstaan dat
hiermee de retrospectieve analyse overbodig wordt. Maar
predictive en prescriptive analytics moeten niet als vervan-
ger van descriptive en diagnostic analytics worden gezien.
Zoals uit de focus duidelijk wordt leveren ze complemen-
taire inzichten op. Uit dezelfde data kan dus meer informa-
tie en kennis worden gedestilleerd wanneer alle focuspun-
ten worden gebruikt.
20. DESCRIPTIVE DIAGNOSTIC PREDICTIVE PRESCRIPTIVE
Centrale vraag Wat is er gebeurd? Waarom is het gebeurd? Wat gaat er gebeuren? Wat zou ik moeten doen, gegeven wat er
gaat gebeuren?
Focus Het verleden Het verleden De toekomst De toekomst
Omschrijving Hier worden meestal elementaire
statistische methoden ingezet om de data
te beschrijven. De meeste BI-
vraagstukken vallen in deze categorie, het
uitrekenen van KPI’s en trends
bijvoorbeeld. De doelstelling ligt op het
beschrijven van wat er in het verleden is
gebeurd of nu gebeurt. De focus ligt
daarmee op de tijdstip van de creatie van
de data, het verleden of het heden.
Laatstgenoemde in het kader van realtime
analyses.
Op zoek naar de oorzaak van de
bevindingen uit de beschrijvende analyse
wordt meer onderzoek gedaan met
meestal elementaire statistische
methoden. Net als bij de descriptieve
analyse ligt de focus op het tijdstip van de
datacreatie.
Hier ligt de focus op de toekomst. De
geschiedenis wordt gebruikt om modellen
te ontwikkelen op basis waarvan
voorspellingen voor toekomstige ont-
wikkelingen worden gemaakt. Het is
duidelijk complexer dan het ‘doortrekken
van een lijn’ zoals in het BI-domein vaak
gebeurt. De technische basis voor de
analyse bestaat meestal uit geavanceerde
statistische methoden en tools uit het
data mining-domein, zoals zelflerende
algoritmen.
Dit is de consequente vervolgstap vanuit
de voorspellende analyse. Is er al een
voorspellend model ontwikkeld, dan is het
een logische vervolgstap om
voorspellingen voor verschillende
scenario’s te berekenen. Hierna kan het
scenario met de beste uitkomsten worden
gekozen. Het algoritme levert dus niet
alleen een voorspelling volgens het model,
maar geeft ook aan wat er moet gebeuren
om zo goed mogelijk te anticiperen op
een ontwikkeling. Het algoritme kan dus
als een soort van adviseur voor een
beslisser worden gezien. Maar hier stopt
het nog niet. Aan het eind van deze
ontwikkeling staat een volledig
geautomatiseerde proces, automated
decision making, dat beslissingen neemt
die het meest voordelig zouden zijn
volgens het algoritme.
Voorbeeld Een bedrijf in de logistieke sector: uit de
descriptieve analyse van de opbrengsten
blijkt dat de opbrengst per verwerkte
eenheid in de afgelopen jaren elk jaar met
5 procent is gedaald.
De diagnostische analyse toont aan dat
de oorzaken van de dalende opbrengsten
een krimpende markt, een constant
marktaandeel en hoge vaste kosten zijn.
Een voorspellend model dat op basis van
een neuraal netwerk wordt ontwikkeld,
geeft inzicht in het te verwerken volume in
de aanstaande maand. Hierdoor kan de
capaciteit efficiënter worden gepland en
kunnen kosten worden bespaard.
Op basis van het voorspellend model
wordt in de prescriptieve analyse de
meest efficiënte verwerkingswijze
benoemd, met het tijdstip van verwerking
en geplande inzet van mensen en
machines, et cetera.
20 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
21. WHITEPAPER 04 | 21
Anderson MacGyver | Deel 2: data-analyse - meer dan alleen BI
herkennen. Ze blijven daarmee vrij oppervlakkig. Een voor-
beeld zijn fundamentele statistische variabelen zoals,
gemiddelden, varianties of correlaties. Ook het creëren van
inzichten door de juiste selecties van variabelen valt in
deze categorie.
Omdat de grootste waarde in big data vaak diep in de
data verborgen is, zijn er voor big data-trajecten meestal
geavanceerdere statistische methoden of datami-
ning-technieken nodig. Deze gaan de diepte in en kijken
naar niet-geaggregeerde data. Resultaten zijn meestal
complexe modellen die de data beschrijven.
Elke data-analyse begint met een validatieproces waarbij
elementaire statistische methoden worden ingezet. Afhan-
kelijk van de vraag- of doelstelling wordt hierna de beno-
digde diepte ingegaan.
In analogie met de aardoliewinning betekent dit: soms is
één schep voldoende om de olie uit de grond te laten
spuiten. In andere gevallen heb je geavanceerde technie-
ken nodig om kilometers diep door verschillende lagen
gesteente te boren. Meer diepgang betekent niet noodza-
kelijk meer waarde. De vereiste diepgang is afhankelijk van
de individuele vraagstelling en de dataset, oftewel de
ligging van de aardolievoorraad. Een ervaren data scientist
is net als een ervaren aardoliewinner: Hij beschikt over alle
Diepgang
Data-analyses kunnen met verschillende diepgang worden
uitgevoerd. De meeste BI-analyses zijn gebaseerd op
elementaire statistische methoden die helpen directe en
klaarblijkelijke verbanden in de data aan te tonen. Deze
methoden aggregeren data om de hoofdstructuren te
Figuur 5: data-analyse
omvat het gehele kwadrant
en dus meer dan alleen BI.
Business
Intelligence
focus
diepgang
elementairemethodengeavanceerdemethoden
verleden toekomst
Datamining
advanced statistics
22. 22 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
of te onderbouwen zijn. De manier om vertrouwen in de
resultaten te krijgen, is een gedegen begrip van de data en
het testen van de uitkomsten. Bij de inzet van datami-
ning-technieken wordt dus datavalidatie, stap B.3 in de
Data Analytics for Value Creation-methode (pagina 15) nog
belangrijker.
Door het belang van BI is er een grote markt ontstaan voor
data-analyse tools. Ook het volume van big data is door
lineair schaalbare file-systemen als Hadoop beheersbaar
geworden (Vaughan, 2013). De data-analyse pakketten
van Tableau, Pentaho, SAS en anderen zijn ontworpen om
op basis van elementaire statistische methoden (en in
sommige gevallen ook elementaire datamining-technieken)
snel en makkelijk inzichten te creëren. De tools voor de
geavanceerde statistische methoden en datamining-tech-
nieken worden grotendeels in de wetenschap ontwikkeld
en ingezet. Ze zijn dus open source, bijvoorbeeld ROOT
(ROOT) en WEKA (WEKA), maar vereisen diepgaande
kennis om toegepast te kunnen worden.
Er zijn voldoende tools en technieken om big data te
analyseren. Op basis van de vereiste focus en diepgang
kan een data scientist de juiste analyse technieken en
tools inzetten. Zodoende wordt op een effectieve en effici-
ënte manier de waarde uit data ontgonnen.
tools, maar investeert in de meest effectieve oplossing en
vermijdt onnodige complexiteit, risico’s en kosten.
Tools en technieken
Om uit data inzichten te creëren, is een veelheid aan
methoden ontwikkeld. De oorsprong van het genereren
van inzichten uit data is het vakgebied statistiek.
Statistische methoden leveren bewezen resultaten die
begrijpelijk, verifieerbaar en goed te onderbouwen zijn.
Hiertegenover staat een veelheid, soms vrij recent ontwik-
kelde algoritmen en technieken, zoals random forests, of
support vector machines die onderdeel van het datami-
ning-domein zijn (Witten, 2011). Datamining-technieken
worden ingezet om patronen te ontdekken of gebeurtenis-
sen te classificeren. Sterke patronen maken voorspellingen
mogelijk, wat een van de mogelijke toepassingen van
datamining is. De basis voor deze technieken is de reken-
kracht van huidige computers. De algoritmen worden
meestal geïnitieerd vanuit een willekeurig getal, zoals bij
een neuraal netwerk. In een iteratief proces ontwikkelen
deze zelflerende algoritmen een model dat de data
beschrijft. Het individuele leerproces is hierbij nauwelijks
inzichtelijk of begrijpelijk. Dit zorgt ervoor dat de uitkom-
sten van zelflerende algoritmen moeilijk of niet te verifiëren
23. WHITEPAPER 04 | 23
Anderson MacGyver | Samenvatting en conclusie
Big data is de olie van de 21ste eeuw! We staan aan het begin
van het datatijdperk. Big data is nieuw, anders, verrassend,
dynamisch en heeft een groot potentieel voor waardecreatie,
maar soms lijkt het ook moeilijk tastbaar en te doorgronden.
Het vereist nieuwe denkbeelden, werkwijzen en capabilities
om tot meerwaarde voor bedrijven te leiden.
Deel 1 van dit whitepaper introduceert en onderbouwt een
generieke aanpak voor big data-trajecten. Een evenwichtige
inzet van een richtinggevende businessvraag, de benodigde
data en de juiste data-analyse staat hierbij centraal. In drie
fasen komen we van het identificeren van een data opportu-
nity tot de gerealiseerde businesswaarde. Kern van deze
aanpak is de data-analyse. Deel 2 gaat hier in detail op in en
classificeert data-analyses over de twee assen focus en diep-
gang. De voorgestelde iteratieve aanpak leidt niet alleen tot
een efficiënt en doelgericht verloop van een big data-traject,
maar faciliteert ook de opbouw van de benodigde nieuwe
capabilities in de organisatie.
Het succesvol exploiteren van de olie van de 21e eeuw is niet
eenvoudig. Maar met een goede en heldere aanpak alsook de
juiste expertise en hulpmiddelen is het mogelijk om volop van
de nieuwe olie te profiteren. Een pleidooi voor ‘refining the new
oil and turning data into value’.
Samenvatting en
conclusie
24. 24 | WHITEPAPER 04
Refining the new oil – Turning data into value | Anderson MacGyver
Anderson MacGyver: Meer business waarde met IT en
informatie
“We create value for our customers
by stimulating them to innovate,
by improving the way they operate and by
enabling the change they need.”
“Anderson MacGyver bekijkt IT vanuit het
business perspectief en helpt klanten om
meer business waarde te verkrijgen met IT
en informatie. Dit is mogelijk door de waarde
van IT voor de bedrijfsprocessen en diensten
van een organisatie expliciet te maken en in
balans te brengen met de IT-kosten. We
dagen organisaties graag uit om een duide-
lijke visie te realiseren op de innovatieve
mogelijkheden van IT en de waarde van de
bestaande IT- en informatiediensten.”
MEER WAARDE MET IT
De druk op IT-kosten heeft de laatste jaren bij veel organi-
saties geleid tot verouderde IT-omgevingen en een
ontevreden business management over haar interne IT-or-
ganisatie. Tegelijkertijd veranderen de marktomstandighe-
den komen en er nieuwe business modellen op (bijvoor-
beeld het product Toon van Eneco of de Bank van
Morgen). IT en slim gebruik van informatie blijkt steeds
vaker een enabler van nieuwe business modellen. Het is
dus hoog tijd om te praten over de waarde van IT en infor-
matie!
SAMEN MET DE BUSINESS
Anderson MacGyver vindt dat IT-organisaties zich vooral als
business partners moeten opstellen en voortdurend vanuit de
toegevoegde waarde voor de business leren denken en
handelen. Hierdoor zullen marktmogelijkheden beter worden
benut. Wij helpen IT-organisaties graag met het doorvoeren
van deze attitudeverandering, net zoals we het business
management graag helpen om bewuster met IT en informatie
als belangrijke bedrijfsmiddellen om te gaan.
25. WHITEPAPER 04 | 25
Anderson MacGyver | Refining the new oil – Turning data into value
INNOVATIE, BEDRIJFSVOERING EN
VERANDERVERMOGEN
Alle diensten van Anderson MacGyver zijn vormgegeven
vanuit het begrip Waarde: IT en informatie maakt nieuwe
diensten en markten mogelijk. Omgekeerd kan veel onge-
bruikte informatie de bedrijfsvoering substantieel verbete-
ren. Zowel vanuit innovatieperspectief als vanuit bedrijfs-
voeringsperspectief zijn er veel mogelijkheden tot
waardecreatie met behulp van IT en informatie zijn. Maar
ideeën en inzicht zijn niet voldoende; de verandering moet
ook gerealiseerd worden. Anderson MacGyver wil daarom
helpen om het verandervermogen van organisaties te
vergroten. Dat doen we door managementverantwoorde-
lijkheid te nemen bij onze klanten.
HET ANDERSON MACGYVER TEAM
Het Anderson MacGyver team kenmerkt zich door seniori-
teit en ervaring, resultaatgerichtheid en commitment,
eigentijdse werkwijzen en vooral een grote
passie voor vakinhoud en de vernieuwing ervan.