2. Agenda
2
• CBS data
• Werken met CBS data
• Een voorbeeld: predictie van verbetering in GAF-score
• Reflectie
3. CBS data
3
CBS beheert:
• individuele & koppelbare data van iedereen in NL
• de domeinen:
– Persoonsgegevens (GBA)
– Educatie
– Werk en inkomen (e.g. belastingdienst)
– Veiligheid en justitie
– Gezondheid
• Datasets zijn lang en breed (grote n, hoge p)
4. Werken met CBS data
4
Voordelen:
• Heel veel gedetailleerde data,
• Op veel verschillende domeinen,
• Uitstekende klantenservice
Nadelen:
• Time-lag van plm 2-3 jaar
• Beschikbaarheid uitkomstmaten beperkt
Grote datasets:
• SPSS
• Memory limits
5. Voorbeeld: vooruitgang op GAF
5
Vraag:
Kunnen we voorspellen welke patiënten (27.65%) in de GGZ verbeteren op de GAF?
The Global Assessment of Functioning:
- 10: superior functioning in wide range of activities
- 9: good functioning with minimal symptoms
- 8: if symptoms are present, they are expectable reactions to stress
- 7: some mild symptoms or some difficulty in functioning
- 6: moderate symptoms or moderate difficulty in functioning
- 5: serious symptoms or serious impairment in functioning
- 4: some impairment in reality testing or communication
- 3: behavior considerably influenced by delusions/hallucinations or serious impaired
communication or judgement
- 2: some danger of hurting self or others
- 1: persistent danger of severely hurting self or others
6. Data
6
Behandelrecords in de periode 2010-2013 met een voor- en nameting
op de GAF, inclusief informatie over:
- Behandelduur (# minuten uitgesplitst in direct, reistijd en indirect)
- Aantal dagen hospitalisatie
- Rechterlijke machtiging
- Type behandeling (psycho-analyse, psychodynamische therapie,
gedragstherapie, cognitieve gedragstherapie, interpersoonlijke therapie,
clientgerichte therapie, systeemtherapie, overige psychotherapie
- Patiëntkarakteristieken (leeftijd, primaire en secundaire diagnose, woonplaats,
etc)
- Informatie over inkomen (decielen)
- Informatie over behandeling (start, duur, type instelling, type behandelaar)
8. Resultaten
8
n = 2.234.144
p = 61 (146 na dummy-coderen
categorische variabelen)
Bijna alle variabelen significant: 45
vd 146 variabelen zijn 0
- AUC: 0.808
- NPV: 0.821 (versus 0.724)
- PPV: 0.662 (versus 0.276)
9. Reflectie 1/4
9
Supervised learning heeft 1 focus: predictie out-of-sample
Data y en x, hold-out sample, gebruik x om y te voorspellen, en kijk hoe
goed je dat doet
Welke interventie werkt het beste voor welke patiënt?
Schatten causale effecten: we kunnen behandeleffect schatten in
training sample, maar kunnen deze niet out-of-sample checken.(er is
geen ground truth)?
Literatuur over aanpassingen predictietools om uitspraken te doen over
causaliteit: Abadie, Athey, Imbens, Wooldridge (2014); Athey-Imbens
(2015); Belloni, Chen Chernozhukov, Hansen (2012)
12. Reflectie 4/4
12
Machine Learning lijkt nog weinig te gebeuren met CBS data
CBS data uitzonderlijk in termen van compleetheid (grote n) en
diversiteit in termen van databronnen
Zeer geschikt voor goed gedefinieerde, gedocumenteerde en relevante
uitkomstmaten, zoals functionele uitkomsten (arbeid en inkomen),
suïcide, hospitalisatie, etc
Kan beperkt zijn in termen van type uitkomstmaten
Memory is een probleem
Beschikbare informatie over type behandeling maakt het mogelijk om
heterogeniteit in behandeluitkomsten te verkennen