AI x Digital Humanities = > Inclusiviteit

AI x Digital Humanities =
>inclusiviteit
Marieke.van.Erp@dh.huc.knaw.nl

merpeltje
D I G I TA L H U M A N I T I E S L A B
©Archief.AmsterdamKLAG06095000041

Overzicht
• Taalvariatiehobbels
• Waarom AI context nodig heeft
• Hoe we AI vooroordelen kunnen
laten detecteren
• Wrap up

https://www.youtube.com/watch?v=TqAu-DDlINs

You know nothing AI…
Project samen met:

Niels Dekker & Tobias Kuhn

Zie: https://peerj.com/articles/cs-189/
Image source: https://anibundel.ﬁles.wordpress.com/2015/04/jonsnow-leaves-ygritte.jpg

Achtergrond
• Karakters en relaties vormen de kern van veel verhalen

• Computationele methodes maken het mogelijk om op
grote schaal verhalen te analyseren

• Hiervoor is het wel nodig om eerst namen te herkennen

• Het meeste werk aan naamherkenningssoftware is
gemaakt voor kranten, tweets en in veel mindere mate
voor laat 19e en begin 20e eeuwse boeken

The Three Musketeers: F1 32 - 48

The Three Musketeers nadat we d’Artagnan hebben herschreven naar Dartagnan

Performance ﬁxes
• ‘Wordnamen’ vervangen met generieke namen

• Verwijder apostrofs van namen

• Maar:

• Handwerk

• Schaalt niet

• Vervolgproject literatuur samen met Rositsa
Ivanova en Sabrina Kirrane
(Wirtschaftsuniversität Wien)

• Voor VOC data: Barry Hendriks, Paul Groth,
Marieke van Erp (2020) Recognising and Linking
Entities in Old DutchText: A Case Study on VOC
Notary Records. Geaccepteerd voor: Collect &
Connect. 23 & 24 November, Leiden.

Wie is de grootste zoetekauw?
• Historische suikerconsumptiepatronen
zijn moeilijk te traceren
• Historische appeltaartrecepten als
‘proxy’
• Maar er zijn hobbels
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. Forthcoming

Analyse van historische recepten
• Niet alle bronnen zijn even
toegankelijk
• Artefacten van digitalisatie (OCR
fouten)
• Normalisatie van hoeveelheden en
eenheden (een Amerikaans
theekopje ≠ een Nederlands
theekopje
• Combinatie kwantitatieve en
kwalitatieve methoden
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. (Forthcoming)
Image source: https://en.wikipedia.org/wiki/Apple_pie#/media/File:For_to_Make_Tartys_in_Applis_(1381).gif

Culturele Context
● Hoe veel is ‘een beetje’ of
‘naar smaak’?
● Hoe groot is een portie?
● Hoe vaak eten mensen
appeltaart?
● Apfelstrudel == appeltaart?
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020

Eenheden
● Moderne eenheden
○ imperial vs. metrisch (ponden,
kg)
● Historische eenheden
○ el, lood
● Beschrijvingen van hoeveelheden
○ “veel boter”, “een bord
appelen”
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020

‘Bias’ in erfgoedcollecties
○ Veel erfgoedcollecties zijn over
een langere periode
samengesteld
○ Niet alle perspectieven zijn
even goed vertegenwoordigd
○ De erfgoedsector werkt aan
het opsporen van sensitief
taalgebruik in
collectiebeschrijvingen

SABIO
The Social Bias Observatory
● Geﬁnancierd door Netwerk
Digitaal Erfgoed
● KNAW Humanities Cluster,
Nationaal Museum voor
Wereldculturen, Koninklijke
Bibliotheek, Nederlands Instituut
voor Beeld en Geluid
● Looptijd: 1 jaar
● We zoeken nog een onderzoeker!
(deadline sollicitaties 9 november)
Image source: https://commons.wikimedia.org/wiki/File:%C5%BDebr%C3%A1k_observatory_at_night.jpg

Aanpak
● Samen met de curatoren gaan we:
● Kijken ‘hoe’ bias eruit ziet
● Een computermodel trainen om
nieuwe voorbeelden van bias te
herkennen
● Nieuwe voorbeelden aanbieden aan
een domeinexpert (human-in-the-
loop)
● Fundamentele onderzoeksvragen,
geen software ‘op de plank’ die dit
oplost (op dit moment)

Wrap up
● Computers kunnen nog maar
mondjesmaat omgaan met
dingen die buiten ‘de
standaard’ liggen
● Context is nodig om de AI bij
te sturen
● Hiervoor is samenwerking met
domeinexperts cruciaal
Trofeeschedel
https://hdl.handle.net/20.500.11840/1037688

https://dhlab.nl
Acknowledgments:
Cindy Zalm, Cultural AI Lab,
Eleonora Marzi, Fabio Mariani,
Harald Sack, ISWS Summer
School, Johan Oomen Lientje
Maas, Martijn Kleppe, Mehwish
Alam, Mortaza Alinam, Paul
Groth, Tabea Tietz, Ulbe Bosma
& Wouter van den Berg

AI x Digital Humanities = > Inclusiviteit

Recommended

Recommended

More Related Content

Similar to AI x Digital Humanities = > Inclusiviteit

Similar to AI x Digital Humanities = > Inclusiviteit (20)

More from Marieke van Erp

More from Marieke van Erp (20)

AI x Digital Humanities = > Inclusiviteit