SlideShare a Scribd company logo
1 of 36
1
Cynthia C. S. Liem
c.c.s.liem@tudelft.nl | @informusiccs
Multimedia Computing Group
Delft University of Technology
Als zoeken te fanatiek wordt
Een digitale analyse van het
toeslagenschandaal
2
3
Wat kunnen we vinden en bereiken?
4
Wat kunnen we vinden en bereiken?
5
relevant
Wat kunnen we vinden en bereiken?
6
Wat kunnen we vinden en bereiken?
7
irrelevant?
Wat kunnen we vinden en bereiken?
8
irrelevant?
prediction error?
Wat kunnen we vinden en bereiken?
9
Betrouwbare machine learning
Validering en validiteit
10
• De gebruikelijke focus van mijn vakgenoten
Betrouwbare machine learning
Validering en validiteit
11
• Focus van de domeinexpert?
Betrouwbare machine learning
Validering en validiteit
12
• Focus van de domeinexpert?
Betrouwbare machine learning
Validering en validiteit
13
• Wat betekent ‘working as intended’?
Betrouwbare machine learning
Validering en validiteit
14
Publieke podia
https://www.youtube.com/watch?v=tnBcVwcoMYY
https://www.trouw.nl/politiek/hoe-de-
belastingdienst-lage-inkomens-profileerde-in-
de-jacht-op-fraude~bbb66add/
https://www.vpro.nl/argos/media/luister/argos-radio/onderwerpen/2021/In-het-vizier-van-
het-algoritme-.html#2d297224-7f38-4724-9855-31a16b085d42
15
Wat gebeurde in het
toeslagenschandaal?
https://www.theguardian.com/world/2021/jan/14/dutch-government-faces-collapse-over-child-benefits-scandal
https://www.amnesty.nl/content/uploads/2021/10/20211014_FINAL_Xenophobic-Machines.pdf?x77572
16
Het politieke sentiment rond 2010
• ‘Bulgarenfraude’: gecoördineerde criminele activiteit
• Roep om het opsporen van fraudeurs, met harde
handhaving
• ‘Verdachte’ mensen worden zeer streng behandeld
– Snel als ‘Opzet/Grove Schuld’ aangemerkt
– Vermoeden: 96% van de gevallen onterecht als fraude
bestempeld
– Bij opzet/grove schuld: geen genade bij betalingsregeling
(bij ‘gewone’ schuld: 2 jaar betalen naar draagkracht)
17
Groot optimisme over Big Data
• Algemeen Directeur leidt ‘informatiegestuurde
subjectgerichte handhavingsregie’
https://decorrespondent.nl/2720/baas-
belastingdienst-over-big-data-mijn-missie-
is-gedragsverandering/83656320-f6e78aaf
18
Groot optimisme over Big Data
19
Groot optimisme over Big Data
20
Het risicoclassificatiemodel
https://www.rijksoverheid.nl/documenten/rapporten/2021/03/11/gegevensbescherming-effectbeoordeling-
risicoclassificatiemodel-toeslagen
21
De inputkenmerken (‘indicatoren’)
• Expertsessies in de vroege
jaren 2010
• Rond de 100 ‘indicatoren’
(veel hiervan weggelakt)
• We weten dat ‘het hebben
van een 2e nationaliteit’
een indicator was
22
Trainingdata
• 30000 dossiers,
‘goed’ en ‘fout’
• Verschillende
bronnen,
wisselende kwaliteit
– Dossier lang niet bekeken? ‘goed’
– BSN in ‘Fraude Signaleringsvoorziening’? ‘fout’
• FSV was dubious (boze buur of jaloerse ex kon je daarop krijgen)
• ‘in FSV staan’ lijkt ook een indicator te zijn geweest
23
Het model
• Scorecard
• Vaak gebruikt bij kredietrisico
• Intervallen per kenmerk die
‘goede’ en ‘slechte’ klanten
maximaal uit elkaar houden
https://documentation.sas.com/doc/en/e
mref/14.3/n181vl3wdwn89mn1pfpqm3w
6oaz5.htm
24
Het model
• In kredietrisico is een
‘slechte klant’ iemand die
waarschijnlijk niet een
lening kan terugbetalen
• In kredietrisco wordt vaak
geaccepteerd dat
gecorreleerde variabelen
herhaaldelijk risico
vergroten
https://documentation.sas.com/doc/en/e
mref/14.3/n181vl3wdwn89mn1pfpqm3w
6oaz5.htm
25
Wat gedachten
• Ik ben bezorgd dat ‘slechte klant voor krediet’ gelijk is
getrokken met ‘slecht dossier’
• Een ‘slecht’ dossier bevat fouten. Misschien zijn
belastingformulieren moeilijk?
– 2e nationaliteit niet meer van voorspellende waarde vanaf
oktober 2018
– Na verbetering in communicatie en dienstverlening
https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/ond
erzoek_belastingdienst_kinderopvangtoeslag.pdf
26
Risicoscoring
• Scorecard gebruikt om risico nieuwe dossiers in te
schatten
27
Risicoscoring
• Menselijke ambtenaar moet besluiten wat te doen
28
De ambtenaar…
• …kon niet zien hoe de risicoscore tot stand kwam
• …was veel lager opgeleid dan de data scientists
• …werkte in een cultuur van ‘gedane investering
zoveel mogelijk terugverdienen’
29
Risicoscoring
• De ambtenaar checkte alleen de hoogste-risico
bestanden
• Alleen die bestanden warden gebruikt voor
updating/retraining
 feedbackloop
30
Wie heeft hoge risicoscores?
Groep Woont
in 4
grote
steden
Heeft
NLse
nationali-
teit
Inkomen <
20 kEUR
Alleen-
staande
ouder
Minstens
3 kinderen
in opvang
Minstens
200 u
opvang
Woont
verder
dan 10 km
van
opvang
1000 hoogste
risicoscores
30.8% 78.8% 82.3% 86.9% 12% 34.7% 3.8%
Anderen
(buiten top
1000)
12.5% 95.5% 7.3% 14% 6.2% 1.2% 0.9%
• Top-1000 en daarbuiten zijn echt verschillende
groepen
31
Het drama van de afwikkeling
32
Het drama van de afwikkeling
• Bulgarenfraude was minder dan 4 miljoen EUR.
Toeslagenbudget rond 3 miljard EUR.
• Nu grote terughoudendheid richting machine
learning en datagedreven beslisvorming
• Politici, journalisten, publieke opinie vragen om
antwoorden, maar worstelen met vragen
33
• Imprecies taalgebruik
– AI, algoritme, systeem,
robot bijna synoniem in
publieke debatten
– ‘Wat is het exacte
algoritme?’
– Roep om ‘meer
transparantie’
Wat zie ik als informaticus?
34
Wat zie ik als informaticus?
• Perverse prikkels
• On(der)gespecificeerde vereisten
• Slechte meetprocessen op data
• Weinig aandacht voor evaluatie
• Wegduiken is makkelijk
• Regulering moet nog komen…
35
Vragen om te stellen
• Waarom willen we dit systeem?
• Wie helpen we en wie schaden we?
• Hebben we wel overzicht op het gehele
proces?
• Hoe kunnen de ‘technische’ en ‘niet-
technische’ partijen constructief schakelen?
36
Cynthia C. S. Liem
c.c.s.liem@tudelft.nl | @informusiccs
Multimedia Computing Group
Delft University of Technology
Als zoeken te fanatiek wordt
Een digitale analyse van het
toeslagenschandaal

More Related Content

Similar to Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal

Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012
Empuls
 

Similar to Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal (20)

Digitaal veilig hv h nov 12
Digitaal veilig hv h nov 12Digitaal veilig hv h nov 12
Digitaal veilig hv h nov 12
 
Met data naar de toekomst - Green Orange
Met data naar de toekomst - Green OrangeMet data naar de toekomst - Green Orange
Met data naar de toekomst - Green Orange
 
Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!Techniek verandert mens & organisatie!
Techniek verandert mens & organisatie!
 
Voorbeelden, het waarom en het hoe van B2B e-business
Voorbeelden, het waarom en het hoe van B2B e-businessVoorbeelden, het waarom en het hoe van B2B e-business
Voorbeelden, het waarom en het hoe van B2B e-business
 
Vroegtijdig signaleren en voorkomen van achterstanden op uw hypotheekportefeu...
Vroegtijdig signaleren en voorkomen van achterstanden op uw hypotheekportefeu...Vroegtijdig signaleren en voorkomen van achterstanden op uw hypotheekportefeu...
Vroegtijdig signaleren en voorkomen van achterstanden op uw hypotheekportefeu...
 
BDDD Bob Nieme
BDDD Bob NiemeBDDD Bob Nieme
BDDD Bob Nieme
 
Social in the Enterprise - SMC-Amsterdam
Social in the Enterprise - SMC-AmsterdamSocial in the Enterprise - SMC-Amsterdam
Social in the Enterprise - SMC-Amsterdam
 
69736_CDPO_web
69736_CDPO_web69736_CDPO_web
69736_CDPO_web
 
Parallelsessie awareness
Parallelsessie awarenessParallelsessie awareness
Parallelsessie awareness
 
Van telraam naar machine learning (2016)
Van telraam naar machine learning (2016)Van telraam naar machine learning (2016)
Van telraam naar machine learning (2016)
 
Web Analytics In Uw Organisatie
Web Analytics In Uw OrganisatieWeb Analytics In Uw Organisatie
Web Analytics In Uw Organisatie
 
DDMA Dialogue Challenge 2012 - Presentatie Social - Michiel van Galen Finchline
DDMA Dialogue Challenge 2012 - Presentatie Social - Michiel van Galen FinchlineDDMA Dialogue Challenge 2012 - Presentatie Social - Michiel van Galen Finchline
DDMA Dialogue Challenge 2012 - Presentatie Social - Michiel van Galen Finchline
 
Integriteit Van Utopie Naar Werkelijkheid
Integriteit Van Utopie Naar WerkelijkheidIntegriteit Van Utopie Naar Werkelijkheid
Integriteit Van Utopie Naar Werkelijkheid
 
Projectbureau 23 06-10
Projectbureau 23 06-10Projectbureau 23 06-10
Projectbureau 23 06-10
 
E-Facturatie ja! Maar is uw organisatie er écht klaar voor?
E-Facturatie ja! Maar is uw organisatie er écht klaar voor?E-Facturatie ja! Maar is uw organisatie er écht klaar voor?
E-Facturatie ja! Maar is uw organisatie er écht klaar voor?
 
social media & economie voor Masterclass Mediamanagement Hasselt
social media & economie voor Masterclass Mediamanagement Hasseltsocial media & economie voor Masterclass Mediamanagement Hasselt
social media & economie voor Masterclass Mediamanagement Hasselt
 
Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012
 
Webcast - Waarom professionals van baan wisselen en hoe je toptalent kan beho...
Webcast - Waarom professionals van baan wisselen en hoe je toptalent kan beho...Webcast - Waarom professionals van baan wisselen en hoe je toptalent kan beho...
Webcast - Waarom professionals van baan wisselen en hoe je toptalent kan beho...
 
Social media als ingang voor cybercriminelen en wat je daar als digital marke...
Social media als ingang voor cybercriminelen en wat je daar als digital marke...Social media als ingang voor cybercriminelen en wat je daar als digital marke...
Social media als ingang voor cybercriminelen en wat je daar als digital marke...
 
Workshop informatiestrategie, spelkaarten - TIMAF 2018
Workshop informatiestrategie, spelkaarten - TIMAF 2018Workshop informatiestrategie, spelkaarten - TIMAF 2018
Workshop informatiestrategie, spelkaarten - TIMAF 2018
 

More from voginip

More from voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingen
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 

Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal