Ik ben achter de tekentafel gaan zitten om een plaat te maken die de plekken van samenwerking tussen de ‘drukke, rumoerige’ research kant en de ‘rustig zoemende’ dataproductie kant weergeeft. Deze afbeelding wordt in deze blog nader toegelicht.
2. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 2
Deze blog is onderdeel van de themareeks ‘Management & BI’. De themareeks is bedoeld voor
managers die wat meer willen weten over Business Intelligence, maar dan alleen de essentie, in
begrijpelijke taal en zonder alle technische termen en hypes.
Op onze vorige blog zijn veel vragen binnen gekomen over de mogelijke synergie tussen het
Marketing Data Lake en het Marketing Data Warehouse. Begrijpelijk, want dat is een interessante
vraag in het licht van dataconsistentie, kostenefficiëntie en toekomstvastheid. Daarom ben ik
achter de tekentafel gaan zitten om een plaat te maken die de plekken van samenwerking tussen
de ‘drukke, rumoerige’ research kant en de ‘rustig zoemende’ dataproductie kant weergeeft. Deze
afbeelding wordt in deze blog nader toegelicht.
Data Science en Data Productie in samenhang
Hieronder staat een ontwerpschets van een BI-omgeving voor Marketing, met daarin de centrale
positie van het Marketing Data Lake als voedingsbodem voor zowel Marketing Data Science als
Marketing Data Warehousing.
4. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 4
1.1 Databronnen voor het Marketing Data Lake
In de afbeelding heb ik een wat omvangrijker lijst van mogelijke databronnen opgenomen.
Daarmee wil ik laten zien dat het tijdperk waarin alle managementinformatie uit standaard interne
bronnen komt, wel zo’n beetje voorbij is. Het Data Lake is bij uitstek geschikt om allerlei data uit de
meest uiteenlopende bronnen op te nemen. De variëteit van deze data neemt sterk toe door de
steeds toenemende beschikbaarheid van open data, sensordata (IoT) en dark data. Dat laatste
heeft betrekking op data die achter de schermen (bijvoorbeeld logs) in de interne systemen en in
de infrastructuurtechniek (bijvoorbeeld messages en proces statussen) zijn ‘verborgen’. Als een
soort interne sensor-data. Het is weliswaar meestal hoog-volume data, maar de tegenwoordige
techniek maakt het makkelijker om deze te verwerken. Dark data bevat nu eenmaal veel
basiswaarnemingen (vastgelegde events binnen de bedrijfprocessen) en heeft daardoor veel
potentie als stuurinformatie.
Het Marketing Data Lake als centrale bron
Het data lake is gekoppeld met zowel de data science kant (marketing research) als de reguliere,
geborgde data warehousing kant. Beide omgevingen voeden ruwe (raw) data en geschoonde (tidy)
5. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 5
data in het data lake. Ook het reguliere marketing data warehouse wordt via ‘mappings’
(transformatie- en integratielogica) gevoed vanuit het lake. Dit werkt consistentie en synergie in de
hand.
Samenhang tussen research en productie
Alle nieuw ontgonnen data zal eerst door de research kant heen lopen om te worden onderzocht op
waarde. Hier wordt de betekenis van de data, de kwaliteit en de syntax duidelijk. De data engineer
(of bij kleinere bedrijven; de data scientist zelf) zal de data ophalen, bekijken en opschonen
(cleaning data). Als hij dit een beetje netjes doet, zal hij een code book opstellen waarin precies
staat hoe hij de ruwe data ophaalt, interpreteert en bewerkt tot schone data.
De tidy data wordt door exploratory data analysis bekeken op potentiële waarde en relevantie voor
Marketing. Dit geeft een soort eerste leidraad voor verder onderzoek. Explanatory data analysis –
gericht op beantwoording van de onderzoeksvraag – is het hart van data science en bedoeld om de
meest-verklarende variabelen te vinden. Daarmee kun je onder andere adequaat voorspellende
modellen maken. Hiermee wil ik natuurlijk niet zeggen dat alle research altijd verklarend van aard
is, we kennen immers bijvoorbeeld ook beschrijvend onderzoek.
6. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 6
Als uit het onderzoek blijkt dat de data inderdaad een hoge marketingwaarde heeft, is het mogelijk
om deze data regulier op te nemen in de geborgde dataverwerking in het data warehouse. Het
verklarend onderzoek heeft ons inmiddels voldoende begrip over de data gegeven in de vorm van
syntax, semantiek, relaties en structuren. Deze informatie uit het onderzoek, kan door de
ontwikkelaars van de reguliere data warehouse tak worden gebruikt om:
de informatie op het dashboard of rapport in begrijpelijke vorm te tonen
de datamodellering uit te voeren voor het data warehouse
de mappings te maken om van tidy data, via het data warehouse, betekenisvolle informatie op de
dashboards of in de data marts te kunnen genereren
de extractie en cleansing van de ruwe data in nette productieprocedures te kunnen vormgeven
(op basis van het code book)
De rollen rond het Marketing Data Lake en Warehouse
Bij non-multinationals (zeg MKB en National Enterprises) zal al het werk voor data science door
de Data Scientist worden uitgevoerd. Hij is getraind om data uit bronnen te halen en op te schonen.
Bij multinationals zien we tegenwoordig echter steeds meer een splitsing tussen getting & cleaning
7. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 7
data en de onderzoeksmatige data-analyse zelf. Het eerste wordt dan opgepakt door een
gespecialiseerde data engineer en het tweede door de data scientist. De data engineer lijkt ook
steeds meer de geëigende term voor de back-end BI-professional binnen de data warehouse
omgeving. Het is functioneel gelijk werk, alleen de tools en databases kunnen wat verschillen. Het
feit dat het Data Lake alleen niet-geïntegreerde data bevat, maakt het leven van de professionele
data engineer er alleen maar makkelijker op, omdat hij bij het vullen van het data lake (nog) geen
gegevens hoeft te integreren.
Als het zover is dat de data engineer voor het onderzoek ook de integratie van gegevens in een
samenhangend datamodel moet gaan doen, dan zijn de functies vergelijkbaar en zullen de termen
in elkaar overgaan. Zoals wellicht bekend is de plek van data integratie het belangrijkste
onderscheid tussen data science en data warehousing:
Voor data warehousing geldt de volgorde: 1. extraction, 2. cleansing, 3.
transformation/integration, en 4. storing. Dit heet in vaktermen ‘ETL’ (Extraction, Transformation,
Loading) of ‘schema on write’ (we integreren de data in een model vóórdat we het wegschrijven in
de database).
8. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 8
Voor data science (of big data) geldt de volgorde: 1. getting, 2. cleaning, 3. storing en daarna pas
4. transformation/integration. Dit heet ‘ELT’ (Extraction, Loading, Transformation) of ‘schema on
read’ (we gaan de data pas integreren als we de data gaan gebruiken, dus de opslag zelf - het
data lake - bevat nog niet-geïntegreerde data).
De data scientist heeft – op basis van zijn onderzoeksvraag – ook allerlei data nodig die hij
zelfstandig uit het data lake haalt. Zijn de benodigde data nog niet aanwezig dan stopt hij die er
zelf in - eventueel met hulp van de data engineer.
De front-end BI-professional maakt management dashboards en reports, gebaseerd op de
behoeften van de managers. Nieuwe data die binnenkomt vanuit marketingonderzoek (de data
science kant) is altijd een antwoord op een onderzoeksvraag. De plaatjes die daarbij horen
(meestal plots) zijn bedoeld om het antwoord inzichtelijk te maken. Als blijkt dat dat antwoord een
continu karakter heeft (als je bijvoorbeeld de trend in de gaten wil blijven houden) dan kan een
dergelijke visualisatie (plot) goed hergebruikt worden in een management dashboard. Ook hier
werken de resultaten uit het voorafgaande onderzoek als mooie input voor de front-end BI-
professional.
9. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 9
Conclusie
Er is veel samenhang en synergie te bereiken door de koppeling van data science en big data met
data warehousing, waarbij het marketing data lake een centrale voedingsbodem kan zijn voor beide
takken van sport. Ook is het zo dat de resultaten van een onderzoek in de marketing research kant
vaak goed gebruikt kunnen worden bij de ontwikkeling en borging van de MI-levering in de data
warehouse kant. Het is te verwachten dat deze omgevingen dichter naar elkaar toe kruipen en dat
ook de rollen van de betrokken professionals gaan overlappen. Waar je je ook bevindt in de
groeifasen van Marketing Intelligence; een plekje reserveren voor je Marketing Data Lake kan dus
geen kwaad.
Ben je nieuwsgierig naar de komende blogs over Marketing Intelligence? Abonneer je via
onderstaande knop dan op het thema ‘Management & BI’. Zodra er een nieuwe blog in de reeks
verschijnt, krijg je automatisch een seintje (per e-mail) met een link.
10. Marketing Intelligence voor Managers – Het Marketing Data Lake (2)
Pg, 10
Laat hieronder een opmerking achter als je een bepaald onderwerp rond Marketing Intelligence wilt
aandragen. Dan kan het zomaar voorkomen dat jouw situatie of vraag in een dedicated blog binnen
de reeks wordt besproken.