Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie

● organisatoren?
○ Digitaal Archief Vlaanderen, meemoo, UGent en VRT
● waarom?
○ delen van recente ontwikkelingen en innovatieve projecten op vlak van digitale
preservering delen en samen problemen oplossen
● deelnemers?
○ wetenschappers, studenten, onderzoekers, archivarissen, bibliothecarissen,
dienstverleners en andere deskundigen
iPRES 2024

Van experiment naar structurele oplossing:
gezichtsherkenning in functie van metadatacreatie
David Chambaere, Matthias Priem & Rony Vissers (meemoo)

Metadata
● Uitdaging
○ beschrijvende metadata ontbreekt of is heel beknopt
● Creëren en verrijken van metadata is tijdsintensief > dus duur
○ herkennen van afgebeelde personen vereist veel kennis;
○ vaak omvangrijke collecties die niet tot kerncollectie van organisatie behoren en
dus geen prioriteit zijn;
○ aard van materiaal zorgt voor extra drempels:
■ om afgebeelde personen manueel te beschrijven, moeten video’s afgespeeld
worden - wat zeer tijdsintensief is;
■ zolang ze niet gedigitaliseerd zijn, zijn video’s niet of moeilijk afspeelbaar,
waardoor het onmogelijk is om hun inhoud te beschrijven

Metadata
● Geautomatiseerde metadatacreatie of - verrijking m.b.v. artificiële
intelligentie?
○ Speech-to-Text
○ Named Entity Recognition en Named Entity Linking
○ Computer Vision
■ Optical Character Recognition
■ Face Detection en Face Recognition
○ ...

Gezichtsherkenning
• FAME (FAce MEtadata):
operationalisering van
metadata-gedreven
gezichtsherkenning in de
registratiepraktijk

FAME
● Culturele organisaties slagen er onvoldoende in om omvangrijke
collecties foto’s en video’s van goede metadata te voorzien. Dit tekort
belemmert de online toegang en bevraging, alsook het hergebruik van
digitale foto’s en video’s.
● Dit project ontwikkelt best practices om personen op die foto’s en
video’s te identificeren via (semi-)geautomatiseerde
gezichtsherkenning.
● Daarnaast onderzoekt dit project ook hoe bestaande metadata de
accuraatheid van de gezichtsherkenning kunnen verbeteren.

FAME: partners
● Projectcoördinator: meemoo
● Technische partner: IDLab UGent
● Contentpartners:
○ ADVN | archief voor nationale bewegingen
○ archief van het Vlaams Parlement
○ KOERS, museum van de wielersport
○ Kunstenpunt
● Looptijd: maart 2021- september 2022

FAME: werkpakketten
● Werkpakket 1: voorbereidend onderzoek
● Werkpakket 2: pilootproject politici en activisten herkennen
● Werkpakket 3: pilootproject sportmensen herkennen
● Werkpakket 4: pilootproject podiumkunstenaars herkennen
● Werkpakket 5: rapportering en disseminatie
● Werkpakket 6: projectadministratie

FAME: terminologie
• Gezichtsdetectie: het lokaliseren van gezichten op een foto of in een
video
• Gezichtsherkenning: het toekennen van een naam aan een gezicht
• Referentieset: portretfoto’s waarvan we door metadata weten wie er
op staat
• Onderzoeksset: portretfoto’s, groepsfoto’s en allerhande andere foto’s
waarvan we willen weten wie erop staat

Onderzoeksset: foto’s en video’s
● In totaal: 154.287 foto's en 9 video's:
○ podiumkunstenaars:
■ 19.576 foto's en 2 video’s van Kunstenpunt;
○ wielrenners:
■ 123.911 foto’s van KOERS;
○ politici:
■ 5.587 foto's en 3 video’s van ADVN;
■ 5.213 foto’s en en 4 video’s van archief van Vlaams Parlement;
■ in totaal: 10.800 foto’s en 7 video’s.
● Oorspronkelijk meer videomateriaal in onderzoeksset voorzien:
○ tijdsgebrek
○ opstart luik gezichtsherkenning in GIVE-metadataproject

Onderzoeksset: video’s
● Video’s omgezet in reeks van stilstaande beelden > doorlopen nadien dezelfde
workflow als foto’s
● Video’s bestaan vaak uit 25 stilstaande beelden (frames) per seconde > 1 uur video =
90.000 frames of foto’s
● Volstaat om beperkt aantal frames te analyseren uit shot dat persoon afbeeldt!
● Willen weten van welk moment tot welk ander moment persoon in beeld komt
● Shots gezocht in video’s: shot detection m.b.v. PySceneDetect
● Uit ieder shot 3 willekeurige frames gekozen waarop gezichtherkenningsworkflow
toegepast werd
● Voorbeeld: video van 103.500 frames (72 min) > 714 frames of stilstaande beelden

Referentieset
● Gezichtsherkenning werkt op basis van vergelijking van gezichten >
referentieset
● In totaal 54.540 portretfoto’s van in totaal 6.075 verschillende personen
aangelegd
○ podiumkunstenaars:
■ 2.393 podiumkunstenaars in referentieset (37.172 referentiefoto’s);
■ richtgetal: 3.982 te herkennen personen;
○ wielrenners:
■ 2.791 wielrenners in referentieset (15.323 referentiefoto’s);
■ geen richtgetal voor te herkennen personen;
○ politici:
■ 891 politici in referentieset (2.045 referentiefoto’s)
■ geen richtgetal voor te herkennen personen.

Samenstelling referentieset: metadata
● Samenstelling van referentiesets is waar mogelijk gebaseerd op beschikbaarheid van
bestaande metadata.
○ Podiumkunstenaars:
■ ontleden pad- en bestandsnamen Kunstenpunt > naam podiumkunstenproducties > ophalen
van namen van betrokken podiumkunstenaars uit Wikidata
■ vereiste dataschoning en reconciliatie
■ Wikidata: enkel data vanaf 1990
○ Politici:
■ aanspreken Vlaams Parlement Open Data endpoint: data alle huidige en gewezen
vertegenwoordigers, plus detailinformatie over vergaderingen en commissies
■ ADVN: authority-databank over de personen in het archief nog in ontwikkeling
○ Wielrenners:
■ waar mogelijk gebruik gemaakt van gegevens van gespecialiseerde websites over
wielersport

Samenstelling referentieset: metadata
● Identifiers overgenomen uit Wikidata voor personen die we willen herkennen >
personen ondubbelzinnig geïdentificeerd
● Maar ook:
○ podiumkunstenaars: identifiers voor personen uit Kunstenpuntdatabank én IMDb;
○ politici: identificatiecodes van Vlaams Parlement én Belgische Senaat voor personen;
○ wielrenners: identifiers van De Wielersite en ProCyclingStats voor personen.
● Afkomst referentiefoto’s:
○ collectiebeherende projectpartners;
○ enkele andere archieven (o.a. Amsab-ISG, KADOC, Liberas);
○ Wikimedia Commons;
○ world wide web.

Werkwijze
● In alle foto’s en video’s uit referentie- en onderzoeksset automatisch gezichten gedetecteerd en
gelokaliseerd met behulp van software > die gezichten gekopieerd en apart opgeslagen.
● Kenmerken van ieder gezicht omgezet naar wiskundig element, een vector.
● Alle vectoren met elkaar vergeleken > gezichten met gelijkaardige vector werden in cluster
samengevoegd: die gezichten beelden eenzelfde persoon af.
● Per cluster gekeken welke gezichten afkomstig waren uit referentiesets > hun metadata bevat
al naam.
● Naam van persoon wiens vectorprofiel cluster dichtst benaderde, toegekend aan alle
gezichten in die cluster.

Manuele validatie
● Doel: bekomen van zo betrouwbaar mogelijke gezichtsherkenningsresultaten.
● Medewerkers van collectiebeherende organisaties konden automatisch bekomen
resultaten valideren met behulp van online tool.
● Toekennen validatielabels aan herkende gezichten: ‘geaccepteerd’, ‘geweigerd’ of
‘ongeschikt’.
● ‘Ongeschikt’: geen gezicht afgebeeld, of foto te onduidelijk om gezicht te herkennen.
● Aantal te labelen gezichten beperkt > filtering (op basis van similariteitsscore)
● Iedere collectiebeherende organisaties valideerde resultaten eigen collectie.
● Niet alle aangeboden resultaten gevalideerd, wel zeer groot aantal.
● Mate van validatie niet bij alle collectiebeherende organisaties dezelfde.

Similariteitsscore
● In FAME gewerkt met
similariteitsscore.
● Duidt mate van gelijkenis van
gezicht en met andere gezichten in
cluster automatisch aan >
probabliteit.
● In combinatie met gebruik van
validatietool berekend in hoeverre
resultaten met similariteitscore van
0,5 als betrouwbaar werden
beschouwd door medewerkers van
collectiebeherende organisaties.

Betrouwbaarheid
● Vaststelling: automatisch herkende gezichten met similariteitsscore van
minstens 0,5 zijn gemiddeld 93,6 % betrouwbaar:
○ Kunstenpunten: idem > 93,6%;
○ KOERS en ADVN: hoger > respectievelijk 94,8% en 99,8%;
○ Archief van Vlaams Parlement: lager > 82,7%.

Relevantie similariteitsscore
● Indien collectiebeherende instellingen zeer kleine
foutenmarge aanvaarden, kunnen ze al deze resultaten
opnemen in hun beheersystemen, zonder dat ze zelf
(alles) moeten valideren > verhoudingsgewijs vooral
grote winst voor Kunstenpunt doordat zij relatief weinig
resultaten hebben gevalideerd met similariteitsscore van
minstens 0,5.
● Toekomstige projecten organisaties die manuele en
tijdsintensieve validatie willen vermijden kunnen
similaiteitsscore van 0,5 of hoger hanteren als drempel
voor automatisch aanvaarden van resultaten >
zekerheid van resultaten met zeer grote mate van
betrouwbaarheid hebben, zonder manuele validatie.

Bruikbare eindresultaten 1
● Indien enkel rekening gehouden met resultaten van manuele validatie
door medewerkers van collectiebeherende instellingen: 78.440
herkende gezichten van 1.693 unieke publieke personen (= 27,9% van
personen uit aangelegde referentieset):
○ 2.818 herkende gezichten van 125 unieke podiumkunstenaars;
○ 63.397 herkende gezichten van 953 unieke wielrenners;
○ 12.225 herkende gezichten van 616 unieke politici.

Bruikbare eindresultaten 2
● Indien Kunstenpunt tevreden met betrouwbaarheid van 93,6% >
toevoeging van groot aantal herkende gezichten en unieke
podiumkunstenaars mogelijk
● Nieuwe eindresultaat: 81.144 gezichten van 2.578 unieke publieke
personen (= 42,4% van personen uit door ons aangelegde referentieset).
● Maar: kans dat klein aantal gezichten van podiumkunstenaars en
unieke podiumkunstenaars foutief automatisch zijn herkend.

Juridische aspecten
● Auteursrecht
○ auteursrechtelijk beschermde foto’s en video’s;
○ beroep op de onderwijs- en onderzoeksexceptie.
● Recht op afbeelding
○ toelating nodig voor maken en gebruiken van
afbeelding van persoon, en ook voor iedere
reproductie en publicatie daarvan;
○ keuze voor publieke personen: toestemming
vermoed, op voorwaarde dat afbeeldingen zijn
gemaakt tijdens uitoefening van publieke activiteit.

Juridische aspecten
● Algemene Verordening Gegevensbescherming (AVG of GDPR)
○ maken, opslaan en gebruiken foto’s met personen is verwerking van
(persoons)gegevens > strikt gereglementeerd: verwerking van
‘biometrische’ gegevens met het oog op identificatie enkel mogelijk
mits uitzondering;
○ verwerking is noodzakelijk voor vervulling van decretale opdracht;
○ versoepeld regime met oog op archivering in algemeen belang.
● Terms of Service sociale mediaplatformen

Ethische aspecten
● Samenstelling referentiesets
○ keuze voor publieke figuren beperkt impact op privé-
personen;
○ afweging uiteindelijke doel tegenover eventuele
negatieve gevolgen voor afgebeelde personen;
○ delen van referentiesets? efficiëntiewinst, maar ook
gevaar op verlies aan controle > nood aan beroepsethiek.
● Vooringenomenheid (bias) in algoritmes
○ zorgvuldig gecreëerde referentiesets;
○ controle van gebruikte algoritme op bias aan hand van
manuele steekproef: worden alle mensen even goed
herkend worden, ongeacht hun fysieke eigenschappen of
kledij?

Ethische aspecten
● Automatisering als bedreiging voor jobs
○ focus: automatisering van werk dat vandaag wegens tijdgebrek / personeelstekort niet
gebeurt;
○ samenwerking tussen mens en algoritme blijft cruciaal.
● Werkomstandigheden van data labellers
○ we weten wie door ons gebruikte toolbox Insightface heeft ontwikkeld, maar niet met
welk doel en in welke omstandigheden dat is gebeurd;
○ aandachtspunt: manier waarop cultureelerfgoedorganisaties manuele validatie van
matchingresultaten aanpakken.
● Impact op het milieu
○ vergt veel rekenkracht en energie;
○ energie mogelijk niet afkomstig uit hernieuwbare bronnen;
○ aandachtspunten: terugdringen van nefaste effecten (bv. door energie-efficiëntere
workflows en algoritmes) en transparantie.

Lessons learned
● Bottlenecks:
○ samenstelling van namenlijsten en referentiesets >
tijdsintensief
○ manuele validatie > tijdsintensief
● Beschikbare informatiebeheersystemen zijn vandaag vaak niet
voorzien op wegschrijven van dergelijke (complexe)
beschrijvende metadata
● Juridische en ethische aspecten blijven belangrijke
aandachtspunten

GiVE Metadata - Scope
Spraakherkenning (Speech-To-Text of STT)
- Input: audio (uit zowel audio als video files)
- Output: transcripties
Entiteitsherkenning (Named Entity Recognition of NER)
- Input: transcripties
- Output: metadata updates met semantiek en links naar
authentieke bronnen (bvb. wikidata)
Gezichtsdetectie & Herkenning
- Input: video
- Output: metadata updates met herkende personen
Over alles
heen:
1/ uniforme
metadata
2/ gelinkt
aan externe
authorities
(bvb.
wikidata)

Schaal
● 126 contentpartners betrokken
● Per activiteit
○ Spraakherkenning en Entiteit Herkenning :
130.000 gearchiveerde stuks of 160.000 uur
media
○ Gezichtsdetectie en -herkenning :
100.000 gearchiveerde stuks of 120.000 uur
media
Dit is 5500 keer
meer data dan
in FAME

Schaalvergroting: uitdagingen
● Oplossing die werkt op grote schaal, voor veel partners
○ Communicatie en samenwerking
○ Juridische en ethische vraagstukken
○ Technische uitdagingen
■ software : zo ontworpen dat het snel geschaald kan worden
■ hardware : cloud gebaseerd, snel uitbreiden en inkrimpen
● Kwalitatieve aspect
○ Manuele validatie is niet langer mogelijk
○ Grondige parametrisering, vertrouwen en goed gekozen
thresholds worden cruciaal

Veel partners
● We werken met materiaal van heel
veel partners
● Vaak ook nieuwe uitdagingen /
inzichten
● Informatie via communicatieplan
● Betrokkenheid via werkgroep
○ krijgen meer in-depth informatie
○ bepalen mee wat we doen en niet doen
■ parametrisering gezichtsherkenning
■ beheer referentieset gezichten
■ workshops rond ethiek
■ feedback op functionaliteit
■ feedback op wireframes
Brede oproep naar alle 120 partners,
uiteindelijk +/- 10 partners
vertegenwoordigd.

Juridische aspecten
• AI toepassen: het kan volgens GDPR (archivering in het
algemeen belang)
• Maar DPIA is nodig want:
• Grootschalige verwerking
• → Aantal betrokkenen
• → Volume van de gegevens
• → Duur van de activiteit
• Creatie van nieuwe metadata kan linken leggen tussen
personen en lidmaatschap vakbond/etniciteit/politieke
voorkeur…
→ Verwerking van ‘bijzondere categorieën
persoonsgegevens’

Data Protection Impact Assessment
● Deel 1 : omschrijf wat je wil doen
○ Algemene beschrijving beoogde verwerking
○ Beschrijving type persoonsgegevens
○ Doel van de verwerking
○ Bronnen van de persoonsgegevens
○ Betrokkenen
● Deel 2 : Risico analyse
○ Wat zijn de taken in het project?
○ Welke risico's zijn hieraan verbonden?
○ Hoe gaan we deze minimaliseren?
⇒ Checklist voor privacy aspecten binnen project

Ethische aspecten
● ism. Kenniscentrum data &
maatschappij
● Meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ Probeer tot een principes document
te komen of gedeeld inzicht / proces
○ Bvb. referentielijst
Ethische / juridische conclusies worden samengevat & gedeeld

Technische aspecten - kopen of bouwen?
Spraakherkenning (Speech-To-Text of STT)
- Mature tooling op de markt
- Kostenefficiënte oplossing, makkelijk te integreren
Entiteitsherkenning (Named Entity Recognition of NER)
- Mature tooling op de markt
- Kostenefficiënte oplossing, makkelijk te integreren
Gezichtsdetectie & Herkenning (Face detection and recognition)
- Deels beschikbaar op de markt
- Hoge kost per uur
- Reeds kennis opgedaan via FAME
⇒ KOPEN
⇒ KOPEN
⇒ BOUWEN

● Gezichtsdetectie
○ identificeer een stuk van een beeld als 'gezicht' en stop in een cluster voor een persoon
● Gezichtsherkenning
○ ga na of er een match is tussen de persoon en iemand in de referentieset
● Vaak voorkomende 'onbekenden'
○ Kunnen we veel voorkomende, niet gematchte gezichten aanbieden aan de archivaris (om
toe te voegen aan de referentieset)
● Daarnaast: beheer van de referentieset
○ hergebruik van de bestaande set uit FAMe
○ kunnen we komen tot gedeeld beheer?
Gezichtsherkenning - Wat willen we?

Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Matching
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset obv
kwaliteit

Gezichtsherkenning - parameters
Gezichtskwaliteit
● Box-grootte
● Pose (landmarks)
● Belichting
● Blurriness
● Confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal trackers per persoon)
● Totale schermtijd van 1 persoon in video

Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage);
gezichten in de achtergrond leveren vaak geen metadata op omdat ze te
klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d

Gezichtsherkenning - werken op schaal
● Verwerking opgedeeld in kleine (micro)services
○ doen 1 bepaalde taak en geven resultaat door
○ kan geparallelliseerd worden
● Effectieve processing in de cloud
○ Snelle opschaling en ook downscaling
○ 120k uur verwerkt op 10 weken
○ Tijdens verwerking ingezien dat het te lang zou duren:
■ dubbel zoveel hardware ingezet
■ verwerkingstijd kunnen halveren
Alle machine
learning algoritmes
die we gebruikten
zijn open source,
voorgetrainde
modellen.
Geen specifieke
training nodig.

Gezichtsherkenning - tussentijdse resultaten
- Gezichtsdetectie
- Loopt 1x om alle gezichten te detecteren op alle archieven
- heel rekenintensief, tientallen nodes actief om verwerking te doen
- verwerking alle video’s afgelopen (10 weken)
- 3,3 mio personen gedetecteerd (~ 27 per video)
- Gezichtsherkenning (matching)
- Referentie set (+ referentieset beheer)
- Loopt herhaaldelijk (vergelijking van alle video vs refset duurt +/- 2 uur)
- extra persoon aan de referentieset toegevoegd ⇒ mogelijk nieuwe matches.
- 208.000 personen gelinkt aan 2500 personen uit de huidige referentieset

Referentieset
● Essentie
○ Een lijst van personen + foto's + links naar wikidata + authorities CP's
○ Gedeeld beheer, steunen op elkaars kennis (bvb. Koers / Huis van Alijn)
○ Transparantie rond aanpassingen (wie, wat, wanneer)
● Cruciale schakel
○ Referentieset maakt de brug tussen detectie en matching
○ Ethisch: iemand in de referentieset steken betekent die persoon herkennen
■ Belangrijk dat het een mens is die dit uitvoert

Beheer van de referentieset - aanpassen

Beheer van de referentieset - historiek

Dit project kadert binnen het relanceplan Vlaamse Veerkracht en wordt
gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.

Toekomst en andere projecten
● SHARED AI
○ Oktober 2023 - Dec 2024
○ GiVE project, maar voor regionale media + VRT
● Visual Name Authority
○ 2023 - 2026 (3 fases, 3 jaar)
○ Project waarin we overkoepelende namenlijst en gedeelde referentieset breder
inzetbaar willen maken
○ Processen, juridisch, ethische kwesties
○ Maar ook de bouw van een tool

Zijn er nog
vragen?
matthias.priem@meemoo.be
rony.vissers@meemoo.be

Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie

Recommended

Recommended

More Related Content

Similar to Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie

Similar to Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie (20)

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD) (20)

Van experiment naar structurele oplossing: gezichtsherkenning in functie van metadatacreatie