Randstad Groep Nederland heeft de afgelopen periode gewerkt aan een nieuw data fundament, volledig in de cloud bij AWS, gebruik makend van o.a. S3, Redshift, Matillion, ter vervanging van het centrale Oracle datawarehouse. In deze lezing delen wij graag deze reis en onze ervaringen met jullie! Van het selecteren van de tooling en juiste services binnen het AWS ecosysteem, het opzetten van de nieuwe omgeving, nadenken over de migratie tot het bouwen van de eerste use-cases, van elke stap delen wij enkele learnings, ter inspiratie voor anderen die dezelfde reis nog gaan maken.
2. ||
• professioneel werkzaam vanaf 1998
• van rdbms via hadoop naar aws
• python, java, sql
• aws certified solutions architect -
associate
• mijn motto's
• zelf leren
• blijven innoveren
• anderen inspireren
• bij randstad groep vanaf mei 2018
randstad groep 2
rutger de graaf
tech lead operational insights.
|
4. ||
operational insights
foundation tribe.
randstad groep | 4
• data en business logica
• declaraties, plaatsingen, employees, contracten
• historie, toewijzen omzet, ...
• gebruikers
• power users - informatie producenten
• gebruikers - collega's op hk en in het veld
• data scientists
• klanten
• audit's en disputen
• wet- en regelgeving
• WAB - wet arbeidsmarkt in balans
• AVG
7. ||
de kaders.
7randstad groep
OI
Support
DevOps
Way of Working
usersOpCo NL
Support
Monitoring
Deployment
Cost allocation
Local policies
and Guidelines
global IT solutions
IAM
Security
Global policies
and guidelines
Contract negotiation
8. ||
‘het oudste plaatje op de wereld’.
8
datalake:
redshift, s3,
dms, glue,
airflow
DWH:
redshift en
matillion
huidige staat
PRD redshift:
1TB compressed
data
frontend:
microstrategy
CSV
CDC
JSON
META
OWB
referentie data:
google sheets uit gcp
python,
sagemaker
en athena
wensen.
● data van DWH naar datalake voeden
● direct ingest uit datalake via S3
● één centrale repository voor metadata
● spectrum
randstad groep
Vault
9. || 9|
cloudformation
infrastructure as code.
• pro's
• versie controle van infra
• updates via changesets, controle op
proces
• dupliceren stacks in omgevingen
• con's
• verwevenheid stacks kan optreden
bij 'stack outputs'
• coderen in yaml met hulp van een
designer kent steile leercurve
• deployment via
• jenkins, nexus en gitlab
randstad groep
10. || 10|
redshift
SN MPP.
• pro's
• 'oneindig' schaalbaar (tot 2PB)
• snel en wordt sneller
• veel ontwikkeling, nieuwe features
• con's
• modelleren voor de vraag
• bugs
• keuze uit slechts 2 instance types
• wensen
• referentiele integriteit
• makkelijker aan- en uitzetten
• multi-az oplossing
randstad groep
11. ||randstad groep 11
• pro's
• gui tool (bewust geen glue)
• ELT → pushdown
• con's
• complex bij grote projecten
• weinig keuze van instances
• wensen
• veel, die bespreken we met matillion
Applicatie binnen matillion ontwikkeld die
(met aanpassingen) ook zou kunnen werken
op een andere database, zónder matillion
matillion ETL
for redshift.
|
12. ||
een paar andere
services die we gebruiken.
12randstad groep
SQS voor het
ontkoppelen van
services, zoals een
trigger van OWB naar
Matillion
schaalbaar en
kostenefficiënt uitvoeren
van code zoals het
schedulen van een
cluster
S3 buckets voor het
veilig, schaalbaar en
goedkoop opslaan van
zeer grote
hoeveelheden data
SNS voor het sturen van
notificaties over de
aanwezigheid van
nieuwe data, draaiende
jobs, etc.
21. ||
lessons learned
kennis.
• training is goed, maar in de praktijk leer je echt
• investeer tijdens het bouwen in security
• het kan snel 'onzichtbaar' worden
• wees bereid een nieuwe taal te leren:
• in ons geval: python, python en nog eens python
21randstad groep
22. ||
lessons learned
infra.
• AWS != datacenter, neem services af,
geen servers
• selecteer de juiste service voor het
doel dat je wilt bereiken
• foutzoeken kan soms lastiger zijn in een
ontkoppelde, serverless wereld
• hou de kosten inzichtelijk vanaf het
begin middels tagging
• anders wordt het snel duur
22randstad groep
23. ||
lessons learned
implementatie.
• modelleer in Redshift voor de vraag
• maak een (nieuw) conceptueel en fysiek datamodel
om de vraag te ondersteunen en stem dit af met de
business
• het kost tijd, dus neem de tijd
23randstad groep