20191206 presentatie beeldherkenning

Bert Lemmens Alina Saenko
bertb@packed.be
alina@packed.be
@PACKEDvzw
Beeldherkenning voor het
beschrijven en
classificeren van
erfgoedcollecties
Nastasia Vanderperren

ONDERZOEK
1. VR4CH (MoMu, Datable, PACKED)
2. BP: Fotocollectie snapshots Huis Van Alijn (Nastasia
Vanderperren)
a. automatisch metadateren
b. classificatie op basis van training
3. Operationalisering van beeldherkenning in de
registratiepraktijk (FOMU, Datable, PACKED)

VR4CH
Onderzoeksvragen:
● bruikbaar voor cultureel erfgoed?
● kwaliteit?
● mogelijke toepassingen?
● vergelijking van verschillende diensten
● case: MOMU studiecollectie - 164 foto’s van objecten,
scenorgrafie, modeshows en events

VR4CH
Onderzoeksvragen:
● bruikbaar voor cultureel erfgoed?
● kwaliteit?
● mogelijke toepassingen?
● vergelijking van verschillende diensten
CC BY Henk Vanstappen

VR4CH
Conclusies
● snel en goedkoop
● andere soorten trefwoorden
● maar veel ruis en niet geschikt voor alle soorten
beeldmateriaal

USE CASES
1. automatisch metadateren van de beelden: hoe ver komen
we hier mee?
2. classificeren van beelden in thema’s → training
3. classificeren van beelden in decennia → training

DATASET
● 845 foto’s
● vijf thema’s: huwelijk (400), geboorte (96), Sinterklaas
(97), vakantie (151) en speelgoed (101)
● tien decennia uit 20e eeuw: 00s (9), 10s (16), 20s (32),
30s (54), 40s (61), 50s (209), 60s (226), 70s (114), 80s
(61), 90s (21) + onbekend (42)

USE CASE 1:
AUTOMATISCH
METADATEREN

CLARIFAI
● 20 tags per foto people (0,99553334), child (0,9944993),
portrait (0,9912409), sepia (0,9822352),
girl (0,97256065), baby (0,9721891),
wear (0,96921843), wedding (0,96212375),
son (0,9487199), dress (0,9479506),
family (0,9464451),woman (0,94372404),
two (0,93469185), princess (0,927248),
love (0,9161264), retro (0,9128336),
vintage (0,90305287), sit (0,8941809),
nostalgia (0,8909985), one (0,8850393)
FO-00-00015 van Huis van Alijn met
Clarifai general model

RESULTATEN
● 20 tags per foto
○ in totaal: 11.516 juiste termen (68,15%)
○ maximum: 20 juist (21 foto’s)
○ minimum: 6 juist (1 foto)
○ gemiddeld: 13,6 juist
○ 371 unieke termen
○ 97 beelden met minder dan de helft juiste tags (11,5%)

RESULTATEN
max. aantal
juiste tags

RESULTATEN
minst aantal
juiste tags

RESULTATEN
●
● moeilijk vergelijking maken
○

RESULTATEN
● 20 tags per foto
○ entiteiten: people, adult, vehicle, toy, flower, camel,
dress, furniture, beach…
○ activiteiten: dancing, sit, reclining, shopping, travel
○ emoties: fun, love, enjoyment, affection
○ contextuele concepten: friendship, togetherness,
family, wedding, tourism, leisure
○ over de foto: portrait, profile, monochrome, black and
white, color, sepia, no person
○ ook hoeveelheden: one, two, three, four, many, several

RESULTATEN - HUWELIJK
top 30 termen
● people (399x)
● woman
● adult
● man
● wedding (341x)
● portrait
● wear
● groom
● two
● bride
● veil
● group
● dress
● ceremony
● facial expression
● group together
● love
● monochrome
● flower arrangement
● family
● several
● dinner jacket
● marriage
● bridal
● many
● engagement
● girl
● couple
● child
● bouquet (48x)

RESULTATEN - SINTERKLAAS
top 30 termen
● people (97x)
● wear
● adult
● portrait
● child
● man
● two
● monochrome
● outfit
● veil
● three
● facial expression
● group together
● group
● costume
● several
● boy
● woman
● family
● coat
● sibling
● four
● outerwear
● recreation
● actor
● sepia
● uniform
● girl
● gown (clothing)
● sit (5x)

RESULTATEN
● opvallend:
○ Sinterklaas en verwante concepten niet gekend door
model
○ minder goed in objectherkenning? focus op omgeving?
○ kinderen worden als volwassenen gezien of krijgen
fout gender; pop wordt als baby getagd
○ foto’s van ouder(s) met kind ook als wedding (16x),
groom (3x) of bride (2x) geclassificeerd
○ scoort iets beter op foto’s vanaf jaren 60

VERGELIJKING BESCHRIJVINGEN
top 30 termen
● huwelijk (400)
● bruidspaar (351)
● Sinterklaas (192)
● bruidsboeket (189)
● Gent (165)
● feest (94)
● studioportret (57)
● kerk (54)
● auto (36)
● bloem (plant) (34)
● vervoer (34)
● dans (32)
● interieur (28)
● park (20)
● huiskamer (17)
● bruid (16)
● Sint-Martens-Latem (15)
● Zwijnaarde (15)
● groepsportret (15)
● Veldstraat (Gent) (14)
● Merelbeke (12)
● Zomergem (12)
● Gentbrugge (11)
● behang (11)
● bruidegom (10)
● Sint-Amandsberg (9)
● taart (9)
● Aalst (8)
● Beervelde (8)
● Loppem (8)

IN DE PRAKTIJK?
● 20 tags per foto people (0,99553334), child (0,9944993),
portrait (0,9912409), sepia (0,9822352),
girl (0,97256065), baby (0,9721891),
wear (0,96921843), wedding (0,96212375),
son (0,9487199), dress (0,9479506),
family (0,9464451),woman (0,94372404),
two (0,93469185), princess (0,927248),
love (0,9161264), retro (0,9128336),
vintage (0,90305287), sit (0,8941809),
nostalgia (0,8909985), one (0,8850393)
FO-00-00015

IN DE PRAKTIJK?
● drempelwaarde instellen
● selectie maken van thema’s (Sintfoto’s doen de
percentages dalen → niet gebruiken?)
drempelwaarde
(%)
aandeel juiste
tags (%)
aantal foute tags
(%)
95 55 17
90 85 25
85 95 30
geen 100 32

USE CASE 2 en 3:
CLASSIFICEREN DOOR
TRAINING

UITGANGSPUNT
● max. 50% gebruiken voor training
● gebruik maken van iteraties
● ieder concept (thema) even goed trainen = evenveel
trainingsbeelden
○ Themamodel: → max. 50 trainingsbeelden per thema
○ Periodemodel → te ongelijk verdeeld, niet mogelijk om
evenwaardig te trainen
● keuze voor versie met hoogste performantiescore
(F-score)

METHODE
● creatie custom model
○ via API
○ via webinterface
● webinterface → eenvoudig als je geen programmeur bent
● maar via wel API sneller

VALIDATIE
validatie:
● uitgangspunt: ieder concept (thema) even goed trainen =
even veel trainingsbeelden
● probleem: grote verschillen in aantallen per thema
● ⇒ aftoppen tot honderd beelden per thema → max. 50
trainingsbeelden per thema
● iteraties van 10 beelden per thema
● trainingset:
https://drive.google.com/open?id=1I-Zi1Vp8SKD4A7BUKu
ymBb96TU81sI89xFeNjn4BDi4

VALIDATIE
● 20 tags per foto geboorte (0,99555284),
sint (0,0036374554),
speelgoed (0,0007022651),
huwelijk (0,000107247644),
vakantie (0,0000001857)
FO-00-00015

VALIDATIE Is it a chihuahua or a
muffin?!

VALIDATIE Is it a chihuahua or a
muffin?!
→ true positive! 😊
→ true negative! 😊
→ false negative! 😫
→ false positive! 😫

VALIDATIE
● vangst
(rappel/recall): het
aantal relevante
items dat gevonden
werd
● precisie: het aantal
relevante items op
alle gevonden items
● F-score: harmonisch
gemiddelde van
vangst en precisie

RESULTATEN
● Themamodel
○ 89% correcte classificaties
○ beelden hadden een gemiddelde
waarschijnlijkheidsscore van 95% (Clarifai was dus voor
gemiddeld 95% zeker van classificatie)

RESULTATEN
● Periodemodel
○ 57% correcte classificaties
○ beelden hadden een gemiddelde
waarschijnlijkheidsscore van 55% (Clarifai was dus voor
gemiddeld 55% zeker van classificatie)

RESULTATEN
opvallend
● periodes met minste trainingsdata scoren slechter
● erg lage waarschijnlijkheidsscores (gemiddelde van 60%
voor de juiste classificaties) → concepten niet voldoende
gekend?
● ook beelden die als trainingsbeelden gebruikt zijn, worden
fout geclassificeerd

IN DE PRAKTIJK?
Verschillende strategieën
1. drempelwaarde instellen op tag met hoogste
waarschijnlijkheidsscore
2. drempelwaarde instellen op tag met tweede hoogste
waarschijnlijkheidsscore

IN DE PRAKTIJK?
● 20 tags per foto geboorte (0,99555284),
sint (0,0036374554),
speelgoed (0,0007022651),
huwelijk (0,000107247644),
vakantie (0,0000001857)
FO-00-00015

IN DE PRAKTIJK?
● 20 tags per foto sint (0,87703073),
geboorte (0,101171814),
speelgoed (0,018132137),
huwelijk (0,0036528711),
vakantie (0,000012468)
FO-00-00035

IN DE PRAKTIJK?
Strategie 1: te lage score → classificatie niet aanvaard

IN DE PRAKTIJK?
Strategie 1: te lage score → classificatie niet aanvaard
drempelwaarde
(%)
aandeel juiste
classificaties (%)
aantal foute
classificaties (%)
95 87 3,7
90 91 4,6
80 95 6,6
55 100 11

IN DE PRAKTIJK?
Strategie 2: tweede tag heeft hoge score → classificatie niet
aanvaard
drempelwaarde
(%)
aandeel juiste
classificatie (%)
aantal foute
classificatie (%)
5 87,5 3,3
10 91,6 4,5
15 93,6 5,6
48 100 12

CONCLUSIES
Automatisch metadateren
● eenvoudig in gebruik
● snel, volledig + meer termen
● geeft andere soort tags → nieuwe mogelijkheden om
collectie te ontsluiten?
● wél selectie maken van thema’s + instellen drempelwaarde
→ vervangt de menselijke registrator niet

CONCLUSIES
Classificeren op thema
● goede resultaten via training
● werkt goed voor foto’s met strak format
● verder onderzoek: testen met niet-geclassificeerde foto’s
Classificeren op periode
● ondanks marginale trainingsbeelden toch resultaten >
50%
● doet vermoeden dat betere resultaten mogelijk zijn
● verder onderzoek nodig met meer trainingsdata

paper lezen?
https://github.com/nvanderperren/bachelorproef/b
lob/master/paper/bachproef-tin.pdf

DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK

PROJECT
Onderzoeksvraag:
● beeldherkenningservices inzetten in registratiepraktijk?
● onderzoek aan de hand van 4 use cases en 4 content
partners
● end-to-end: van ophalen data tot import in CBS

DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK

CONCLUSIES
Verder onderzoek
● andere use cases: iconografische beschrijving, topic
detection, gezichtsherkenning, landmark detection
● ander soort erfgoedmateriaal: schilderijen,
museumobjecten, archiefstukken, ….

Bert Lemmens Alina Saenko
bertb@packed.be
alina@packed.be
@PACKEDvzw
BEDANKT!
nog vragen?

20191206 presentatie beeldherkenning

Recommended

Recommended

More Related Content

More from PACKED vzw

More from PACKED vzw (20)

20191206 presentatie beeldherkenning