https://www.kb.nl/ob-kb/nieuws/2019/kb-college-ai-en-de-bibliotheek-de-computer-leest-alles
KB College: AI en de Bibliotheek - de computer leest alles
4 juni 2019 - Wat betekent Artificial Intelligence voor de toekomst van de Bibliotheek – en andersom? Op 2 juli 2019 bent u welkom bij het KB College over dit boeiende thema.
Een semantisch Web voor archieven:bouw bruggen, geen muren
Cultural AI - KB College 2 july 2019 (Dutch)
1. Cultural AI
Jacco van Ossenbruggen
CWI, VU Amsterdam
2 juli 2019
https://edu.nl/kxbw6
2. Cultural AI: Een discipline die (nog) niet bestaat
“Cultural AI is the study, design and development of socio-technological AI
systems that are implicitly or explicitly aware of the subtle and subjective richness
of human culture. It is as much about using AI for analyzing human culture as it is
about using knowledge and expertise from the humanities to analyze and improve
AI technology. It studies how to deal with cultural bias in data and technology and
how to build AI that is optimized for cultural and ethical values.”
Marieke van Erp, Antal van den Bosch, Jacco van Ossenbruggen
zie ook https://huc.knaw.nl/im-afraid-i-can-do-that
3. Culturele AI: mens & machine
Machines gebruiken om menselijke cultuur
te bestuderen (“digital humanities”)
Mensen leren om te begrijpen wanneer
machines wel of niet passen bij onze
culturele waarden (beschouwende studies
naar AI toepassingen)
Machines leren om menselijke culturele
normen en waarden beter te begrijpen
(geestes/sociaal wetenschappelijke kennis
gebruiken om AI beter te maken)
4. Wij moeten AI beter begrijpen
Arthur C. Clarke’s third law:
“Any sufficiently advanced technology
is indistinguishable from magic.”
Twee soorten AI:
1. Statistisch leren uit data
2. Symbolisch redeneren over kennis
6. Voorbeeld: symbolisch redeneren
(met te weinig culturele kennis)
Mens: “Pepper, what do you know
about apples?”
Pepper: “I know an apple is an
eukaryotic life form”
http://makerobotstalk.nl
9. Google afbeeldingen, gezocht op
‘‘unprofessional hair for work’’
The Guardian, 8 april 2016
Is Google’s zoekmachine seksistisch en racistisch?
● Generiek “relevantie” algoritme dat vaak prima
werkt (maar dus niet altijd)
● Patronen in web pagina’s en gebruiker clicks
● Combinatie algoritme + veel verschillende data =
onvoorspelbaar
● Hoe kun je dit soort “bias” meten en/of afschatten?
● Hoe kun je het voorkomen? En willen we dat wel?
○ “Waarheid verbloemen / politieke correctheid”
○ Oplossingen zouden juist kunnen leiden tot
het bewust classificeren van afbeeldingen op
ras/gender/...
10. Algorithmische transparantie:
“Retrievability bias”
KB kranten archief (100M artikelen
6 maanden server logs) studie:
● We hebben 1M vragen opnieuw door de (black box) zoekmachine gehaald
● Geteld hoe vaak elk artikel de top 10 (100, 1000) haalt
● Kijken of deze aantallen correleren met document-eigenschappen
Bevindingen:
● 96% van de artikelen komt nooit in de top 10 (76% nooit in top 100)
● Zoekalgoritme discrimineert erg lange en erg kort artikelen (een beetje)
● Best scorende artikelen bevatten lange lijsten van namen (lokale
verkiezingen, zwemdiploma’s, ...)
M. C. Traub, T. Samar, J. van Ossenbruggen, J. He, A.P. de Vries,
and L. Hardman: Querylog-based Assessment of Retrievability
Bias in a Large Newspaper Corpus. In Proceedings of the 16th
ACM/IEEE-CS on Joint Conference on Digital Libraries, JCDL '16,
pages 7-16. New York, NY, USA, 2016. ACM.
12. Fouten hebben impact!
● Terecht veel aandacht voor ethische
aspecten in beschouwingen over AI,
voorkomen van discriminatie, onterechte
beslissingen, transparantie etc.
● E.g. gebruik AI in:
○ Online politieke advertenties
○ Beoordelen hypotheekaanvragen
○ Beoordelen politie inzet
○ Beoordelen CVs
○ …
● Echte beslissingen over echte mensen
14. Het “AI effect”
CC BY 2.0 https://www.flickr.com/photos/99527366@N00/889158887
Larry Tesler: “Intelligence is
whatever machines haven't done yet”.
Er is nog heel veel wat machines nog niet kunnen!
Zoals: begrip van onze cultuur
Waar zitten de oplossingen van de
toekomst?
15. Waar zoeken we de oplossingen?
● UI voor AI onderzoek
○ Gebruikersinterfaces die mensen helpen (het gebrek aan) culturele context te begrijpen
● AI door symbolisch redeneren onderzoek:
○ expliciet interpreteren & modelleren van kennis in culturele context
○ nuttig toepassen van die kennis in de juiste context
● AI door statistisch leren onderzoek:
○ impliciete aanwezigheid culturele kennis & context in trainingsdata
○ rol van culturele kennis in de uitkomsten, bias & debias
● Hybride AI onderzoek:
○ Hoe symbolische en statistische aanpak te combineren
○ Gebruikmakend van het feit dat culturele kennis impliciet en expliciet kan zijn
16. Tijd voor een nationaal Cultural AI lab!
Verbindend & multidisciplinair (alfa/beta/gamma) onderzoek
Ethiek als drijfveer, niet als excuus om niets te doen!
Voortbouwen op:
● rijke digitale collectie NL en kennis daarover
● NL toponderzoek in SSH & AI
Technologie ontwikkelen
● geoptimaliseerd voor publieke & culturele waarden
● impliciet/expliciet bewust van die waarden
● voor en door publiek
Ideeën voor samenwerking & partners welkom!
https://edu.nl/kxbw6
Image: Arithmetica (Rekenkunde), Cornelis Cort, after Frans Floris (I), 1565 http://hdl.handle.net/10934/RM0001.collect.99110
http://hdl.handle.net/10934/RM0001.collect.150790
Rechtvaardigheid (Justitia), Jacob Matham (attributed to), after Hendrick Goltzius, 1601 - 1652
Historical note: humans may be briefly impressed by magic,
but in the long run our culture tends not to like it
AI/ML making mistakes no human would ever make
Model 99.7% certain this image is depicting a shower cap
If it is not in the data in sufficient quantities, the model cannot learn it
But do humans know this is a crown because we have seen 10.000 crowns...?
… or because we understand the cultural context?
Gaat vooral heel veel goed: spraakherkenning, parsing, meervoud/enkelvoud, semantiek
Twee dingen fout: boomsoort versus fruit, irrelevantie van correct feit voor meeste mensen
Technisch correct (knap!) maar:
Mens bedoelde fruit, niet de boom
Feit is waar maar niet erg relevant
Relevantie werkt vaak best goed met statistiek
Relevantie werkt soms wat onverwachts
http://hdl.handle.net/10934/RM0001.collect.150790
Rechtvaardigheid (Justitia), Jacob Matham (attributed to), after Hendrick Goltzius, 1601 - 1652
Recruitment AI tool gender-biased
Stopped because could not be de-biased even after trying hard
But: alternatives also biased
Recruiter using social network biased in favor of profiles similar to previous candidates
Job-ads also biased (women spend more on-line ⇒ more expensive in targeted advertising)
Humans often biased against algorithms