SlideShare a Scribd company logo
Bert Lemmens Alina Saenko
bertb@packed.be
alina@packed.be
@PACKEDvzw
Beeldherkenning voor het
beschrijven en
classificeren van
erfgoedcollecties
Nastasia Vanderperren
COMPUTER VISION
INLEIDING
INLEIDING
Tristan Roddis (Cogapp)
Tristan Roddis (Cogapp)
ONDERZOEK
1. VR4CH (MoMu, Datable, PACKED)
2. BP: Fotocollectie snapshots Huis Van Alijn (Nastasia
Vanderperren)
a. automatisch metadateren
b. classificatie op basis van training
3. Operationalisering van beeldherkenning in de
registratiepraktijk (FOMU, Datable, PACKED)
DEEL 1:
VR4CH
VR4CH
Onderzoeksvragen:
● bruikbaar voor cultureel erfgoed?
● kwaliteit?
● mogelijke toepassingen?
● vergelijking van verschillende diensten
● case: MOMU studiecollectie - 164 foto’s van objecten,
scenorgrafie, modeshows en events
VR4CH
Onderzoeksvragen:
● bruikbaar voor cultureel erfgoed?
● kwaliteit?
● mogelijke toepassingen?
● vergelijking van verschillende diensten
CC BY Henk Vanstappen
VR4CH
Onderzoeksvragen:
● bruikbaar voor cultureel erfgoed?
● kwaliteit?
● mogelijke toepassingen?
● vergelijking van verschillende diensten
CC BY Henk Vanstappen
VR4CH
CC BY Henk Vanstappen
VR4CH
Conclusies
● snel en goedkoop
● andere soorten trefwoorden
● maar veel ruis en niet geschikt voor alle soorten
beeldmateriaal
CC BY Henk Vanstappen
DEEL 2:
HUIS VAN ALIJN
USE CASES
1. automatisch metadateren van de beelden: hoe ver komen
we hier mee?
2. classificeren van beelden in thema’s → training
3. classificeren van beelden in decennia → training
DATASET
● 845 foto’s
● vijf thema’s: huwelijk (400), geboorte (96), Sinterklaas
(97), vakantie (151) en speelgoed (101)
● tien decennia uit 20e eeuw: 00s (9), 10s (16), 20s (32),
30s (54), 40s (61), 50s (209), 60s (226), 70s (114), 80s
(61), 90s (21) + onbekend (42)
USE CASE 1:
AUTOMATISCH
METADATEREN
CLARIFAI
● 20 tags per foto people (0,99553334), child (0,9944993),
portrait (0,9912409), sepia (0,9822352),
girl (0,97256065), baby (0,9721891),
wear (0,96921843), wedding (0,96212375),
son (0,9487199), dress (0,9479506),
family (0,9464451),woman (0,94372404),
two (0,93469185), princess (0,927248),
love (0,9161264), retro (0,9128336),
vintage (0,90305287), sit (0,8941809),
nostalgia (0,8909985), one (0,8850393)
FO-00-00015 van Huis van Alijn met
Clarifai general model
VALIDATIE
RESULTATEN
● 20 tags per foto
○ in totaal: 11.516 juiste termen (68,15%)
○ maximum: 20 juist (21 foto’s)
○ minimum: 6 juist (1 foto)
○ gemiddeld: 13,6 juist
○ 371 unieke termen
○ 97 beelden met minder dan de helft juiste tags (11,5%)
RESULTATEN
max. aantal
juiste tags
RESULTATEN
max. aantal
juiste tags
RESULTATEN
max. aantal
juiste tags
RESULTATEN
max. aantal
juiste tags
RESULTATEN
minst aantal
juiste tags
RESULTATEN
RESULTATEN
RESULTATEN
●
● moeilijk vergelijking maken
○
RESULTATEN
● 20 tags per foto
○ entiteiten: people, adult, vehicle, toy, flower, camel,
dress, furniture, beach…
○ activiteiten: dancing, sit, reclining, shopping, travel
○ emoties: fun, love, enjoyment, affection
○ contextuele concepten: friendship, togetherness,
family, wedding, tourism, leisure
○ over de foto: portrait, profile, monochrome, black and
white, color, sepia, no person
○ ook hoeveelheden: one, two, three, four, many, several
RESULTATEN - HUWELIJK
top 30 termen
● people (399x)
● woman
● adult
● man
● wedding (341x)
● portrait
● wear
● groom
● two
● bride
● veil
● group
● dress
● ceremony
● facial expression
● group together
● love
● monochrome
● flower arrangement
● family
● several
● dinner jacket
● marriage
● bridal
● many
● engagement
● girl
● couple
● child
● bouquet (48x)
RESULTATEN - SINTERKLAAS
top 30 termen
● people (97x)
● wear
● adult
● portrait
● child
● man
● two
● monochrome
● outfit
● veil
● three
● facial expression
● group together
● group
● costume
● several
● boy
● woman
● family
● coat
● sibling
● four
● outerwear
● recreation
● actor
● sepia
● uniform
● girl
● gown (clothing)
● sit (5x)
RESULTATEN
● opvallend:
○ Sinterklaas en verwante concepten niet gekend door
model
○ minder goed in objectherkenning? focus op omgeving?
○ kinderen worden als volwassenen gezien of krijgen
fout gender; pop wordt als baby getagd
○ foto’s van ouder(s) met kind ook als wedding (16x),
groom (3x) of bride (2x) geclassificeerd
○ scoort iets beter op foto’s vanaf jaren 60
VERGELIJKING BESCHRIJVINGEN
top 30 termen
● huwelijk (400)
● bruidspaar (351)
● Sinterklaas (192)
● bruidsboeket (189)
● Gent (165)
● feest (94)
● studioportret (57)
● kerk (54)
● auto (36)
● bloem (plant) (34)
● vervoer (34)
● dans (32)
● interieur (28)
● park (20)
● huiskamer (17)
● bruid (16)
● Sint-Martens-Latem (15)
● Zwijnaarde (15)
● groepsportret (15)
● Veldstraat (Gent) (14)
● Merelbeke (12)
● Zomergem (12)
● Gentbrugge (11)
● behang (11)
● bruidegom (10)
● Sint-Amandsberg (9)
● taart (9)
● Aalst (8)
● Beervelde (8)
● Loppem (8)
IN DE PRAKTIJK?
● 20 tags per foto people (0,99553334), child (0,9944993),
portrait (0,9912409), sepia (0,9822352),
girl (0,97256065), baby (0,9721891),
wear (0,96921843), wedding (0,96212375),
son (0,9487199), dress (0,9479506),
family (0,9464451),woman (0,94372404),
two (0,93469185), princess (0,927248),
love (0,9161264), retro (0,9128336),
vintage (0,90305287), sit (0,8941809),
nostalgia (0,8909985), one (0,8850393)
FO-00-00015
IN DE PRAKTIJK?
● drempelwaarde instellen
● selectie maken van thema’s (Sintfoto’s doen de
percentages dalen → niet gebruiken?)
drempelwaarde
(%)
aandeel juiste
tags (%)
aantal foute tags
(%)
95 55 17
90 85 25
85 95 30
geen 100 32
USE CASE 2 en 3:
CLASSIFICEREN DOOR
TRAINING
UITGANGSPUNT
● max. 50% gebruiken voor training
● gebruik maken van iteraties
● ieder concept (thema) even goed trainen = evenveel
trainingsbeelden
○ Themamodel: → max. 50 trainingsbeelden per thema
○ Periodemodel → te ongelijk verdeeld, niet mogelijk om
evenwaardig te trainen
● keuze voor versie met hoogste performantiescore
(F-score)
METHODE
● creatie custom model
○ via API
○ via webinterface
● webinterface → eenvoudig als je geen programmeur bent
● maar via wel API sneller
METHODE
METHODE
● creatie custom model
○ via API
○ via webinterface
● webinterface → eenvoudig als je geen programmeur bent
● maar via wel API sneller
METHODE
● creatie custom model
○ via API
○ via webinterface
● webinterface → eenvoudig als je geen programmeur bent
● maar via wel API sneller
VALIDATIE
validatie:
● uitgangspunt: ieder concept (thema) even goed trainen =
even veel trainingsbeelden
● probleem: grote verschillen in aantallen per thema
● ⇒ aftoppen tot honderd beelden per thema → max. 50
trainingsbeelden per thema
● iteraties van 10 beelden per thema
● trainingset:
https://drive.google.com/open?id=1I-Zi1Vp8SKD4A7BUKu
ymBb96TU81sI89xFeNjn4BDi4
VALIDATIE
● 20 tags per foto geboorte (0,99555284),
sint (0,0036374554),
speelgoed (0,0007022651),
huwelijk (0,000107247644),
vakantie (0,0000001857)
FO-00-00015
VALIDATIE Is it a chihuahua or a
muffin?!
VALIDATIE Is it a chihuahua or a
muffin?!
→ true positive! 😊
→ true negative! 😊
→ false negative! 😫
→ false positive! 😫
VALIDATIE
● vangst
(rappel/recall): het
aantal relevante
items dat gevonden
werd
● precisie: het aantal
relevante items op
alle gevonden items
● F-score: harmonisch
gemiddelde van
vangst en precisie
RESULTATEN
● Themamodel
○ 89% correcte classificaties
○ beelden hadden een gemiddelde
waarschijnlijkheidsscore van 95% (Clarifai was dus voor
gemiddeld 95% zeker van classificatie)
RESULTATEN
Resultaten:
RESULTATEN
Themamodel
RESULTATEN
● Periodemodel
○ 57% correcte classificaties
○ beelden hadden een gemiddelde
waarschijnlijkheidsscore van 55% (Clarifai was dus voor
gemiddeld 55% zeker van classificatie)
RESULTATEN
Resultaten:
RESULTATEN
opvallend
● periodes met minste trainingsdata scoren slechter
● erg lage waarschijnlijkheidsscores (gemiddelde van 60%
voor de juiste classificaties) → concepten niet voldoende
gekend?
● ook beelden die als trainingsbeelden gebruikt zijn, worden
fout geclassificeerd
IN DE PRAKTIJK?
Verschillende strategieën
1. drempelwaarde instellen op tag met hoogste
waarschijnlijkheidsscore
2. drempelwaarde instellen op tag met tweede hoogste
waarschijnlijkheidsscore
IN DE PRAKTIJK?
● 20 tags per foto geboorte (0,99555284),
sint (0,0036374554),
speelgoed (0,0007022651),
huwelijk (0,000107247644),
vakantie (0,0000001857)
FO-00-00015
IN DE PRAKTIJK?
● 20 tags per foto sint (0,87703073),
geboorte (0,101171814),
speelgoed (0,018132137),
huwelijk (0,0036528711),
vakantie (0,000012468)
FO-00-00035
IN DE PRAKTIJK?
Strategie 1: te lage score → classificatie niet aanvaard
IN DE PRAKTIJK?
Strategie 1: te lage score → classificatie niet aanvaard
drempelwaarde
(%)
aandeel juiste
classificaties (%)
aantal foute
classificaties (%)
95 87 3,7
90 91 4,6
80 95 6,6
55 100 11
IN DE PRAKTIJK?
● 20 tags per foto geboorte (0,99555284),
sint (0,0036374554),
speelgoed (0,0007022651),
huwelijk (0,000107247644),
vakantie (0,0000001857)
FO-00-00015
IN DE PRAKTIJK?
● 20 tags per foto sint (0,87703073),
geboorte (0,101171814),
speelgoed (0,018132137),
huwelijk (0,0036528711),
vakantie (0,000012468)
FO-00-00035
IN DE PRAKTIJK?
● drempelwaarde instellen
● selectie maken van thema’s (Sintfoto’s doen de
percentages dalen → niet gebruiken?)
drempelwaarde
(%)
aandeel juiste
tags (%)
aantal foute tags
(%)
95 55 17
90 85 25
85 95 30
geen 100 32
IN DE PRAKTIJK?
Strategie 2: tweede tag heeft hoge score → classificatie niet
aanvaard
drempelwaarde
(%)
aandeel juiste
classificatie (%)
aantal foute
classificatie (%)
5 87,5 3,3
10 91,6 4,5
15 93,6 5,6
48 100 12
CONCLUSIES
Automatisch metadateren
● eenvoudig in gebruik
● snel, volledig + meer termen
● geeft andere soort tags → nieuwe mogelijkheden om
collectie te ontsluiten?
● wél selectie maken van thema’s + instellen drempelwaarde
→ vervangt de menselijke registrator niet
CONCLUSIES
Classificeren op thema
● goede resultaten via training
● werkt goed voor foto’s met strak format
● verder onderzoek: testen met niet-geclassificeerde foto’s
Classificeren op periode
● ondanks marginale trainingsbeelden toch resultaten >
50%
● doet vermoeden dat betere resultaten mogelijk zijn
● verder onderzoek nodig met meer trainingsdata
paper lezen?
https://github.com/nvanderperren/bachelorproef/b
lob/master/paper/bachproef-tin.pdf
DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK
PROJECT
Onderzoeksvraag:
● beeldherkenningservices inzetten in registratiepraktijk?
● onderzoek aan de hand van 4 use cases en 4 content
partners
● end-to-end: van ophalen data tot import in CBS
DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK
CC BY Henk Vanstappen
DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK
CC BY Henk Vanstappen
DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK
CC BY Henk Vanstappen
DEEL 3:
OPERATIONALISERING
VAN BEELDHERKENNING
IN DE
REGISTRATIEPRAKTIJK
CC BY Henk Vanstappen
CONCLUSIES
CONCLUSIES
Verder onderzoek
● andere use cases: iconografische beschrijving, topic
detection, gezichtsherkenning, landmark detection
● ander soort erfgoedmateriaal: schilderijen,
museumobjecten, archiefstukken, ….
Bert Lemmens Alina Saenko
bertb@packed.be
alina@packed.be
@PACKEDvzw
BEDANKT!
nog vragen?

More Related Content

More from PACKED vzw

More from PACKED vzw (20)

Culturize demo
Culturize demoCulturize demo
Culturize demo
 
20190909 iiif vk-cproject
20190909 iiif vk-cproject20190909 iiif vk-cproject
20190909 iiif vk-cproject
 
20190920informatieaanzee_digitale transformatie
20190920informatieaanzee_digitale transformatie20190920informatieaanzee_digitale transformatie
20190920informatieaanzee_digitale transformatie
 
20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcamp20191018_Cinematek_presentation_open_data_bootcamp
20191018_Cinematek_presentation_open_data_bootcamp
 
20191011_BeMuseum_2019_Digital_Strategy
20191011_BeMuseum_2019_Digital_Strategy20191011_BeMuseum_2019_Digital_Strategy
20191011_BeMuseum_2019_Digital_Strategy
 
20190920 informatie aanzee_contentdonatie_aan_wikimedia_commons
20190920 informatie aanzee_contentdonatie_aan_wikimedia_commons20190920 informatie aanzee_contentdonatie_aan_wikimedia_commons
20190920 informatie aanzee_contentdonatie_aan_wikimedia_commons
 
20190607 odis leren_wikimediaplatformen
20190607 odis leren_wikimediaplatformen20190607 odis leren_wikimediaplatformen
20190607 odis leren_wikimediaplatformen
 
20190611 invulboek objecten
20190611 invulboek objecten20190611 invulboek objecten
20190611 invulboek objecten
 
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
 
20190207_collectieontsluiting op_wikimedia_platformen
20190207_collectieontsluiting op_wikimedia_platformen20190207_collectieontsluiting op_wikimedia_platformen
20190207_collectieontsluiting op_wikimedia_platformen
 
09042019 Wat is Wikidata? - arteveldehogeschool
09042019 Wat is Wikidata? - arteveldehogeschool09042019 Wat is Wikidata? - arteveldehogeschool
09042019 Wat is Wikidata? - arteveldehogeschool
 
20190304_DEN_Rotterdam
20190304_DEN_Rotterdam20190304_DEN_Rotterdam
20190304_DEN_Rotterdam
 
20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preservering20180328 heemkunde digitale_preservering
20180328 heemkunde digitale_preservering
 
20180323 presentatie beeldenhub_interwaas
20180323 presentatie beeldenhub_interwaas20180323 presentatie beeldenhub_interwaas
20180323 presentatie beeldenhub_interwaas
 
20190307 datadive _datanight_at_the_museum
20190307 datadive _datanight_at_the_museum20190307 datadive _datanight_at_the_museum
20190307 datadive _datanight_at_the_museum
 
20190304 shifting minds_open_belgium_2019
20190304 shifting minds_open_belgium_201920190304 shifting minds_open_belgium_2019
20190304 shifting minds_open_belgium_2019
 
270102019_King_Baudouin_Foundation_Public_domain_day_BE_2019
270102019_King_Baudouin_Foundation_Public_domain_day_BE_2019270102019_King_Baudouin_Foundation_Public_domain_day_BE_2019
270102019_King_Baudouin_Foundation_Public_domain_day_BE_2019
 
Copyright and public domain for audiovisual materials
Copyright and public domain for audiovisual materialsCopyright and public domain for audiovisual materials
Copyright and public domain for audiovisual materials
 
20190121 orphan works_peter_catrie
20190121 orphan works_peter_catrie20190121 orphan works_peter_catrie
20190121 orphan works_peter_catrie
 
20190121 public domain_day_be_2019_introduction_sam_donvil
20190121 public domain_day_be_2019_introduction_sam_donvil20190121 public domain_day_be_2019_introduction_sam_donvil
20190121 public domain_day_be_2019_introduction_sam_donvil
 

20191206 presentatie beeldherkenning

  • 1. Bert Lemmens Alina Saenko bertb@packed.be alina@packed.be @PACKEDvzw Beeldherkenning voor het beschrijven en classificeren van erfgoedcollecties Nastasia Vanderperren
  • 7. ONDERZOEK 1. VR4CH (MoMu, Datable, PACKED) 2. BP: Fotocollectie snapshots Huis Van Alijn (Nastasia Vanderperren) a. automatisch metadateren b. classificatie op basis van training 3. Operationalisering van beeldherkenning in de registratiepraktijk (FOMU, Datable, PACKED)
  • 9. VR4CH Onderzoeksvragen: ● bruikbaar voor cultureel erfgoed? ● kwaliteit? ● mogelijke toepassingen? ● vergelijking van verschillende diensten ● case: MOMU studiecollectie - 164 foto’s van objecten, scenorgrafie, modeshows en events
  • 10. VR4CH Onderzoeksvragen: ● bruikbaar voor cultureel erfgoed? ● kwaliteit? ● mogelijke toepassingen? ● vergelijking van verschillende diensten CC BY Henk Vanstappen
  • 11. VR4CH Onderzoeksvragen: ● bruikbaar voor cultureel erfgoed? ● kwaliteit? ● mogelijke toepassingen? ● vergelijking van verschillende diensten CC BY Henk Vanstappen
  • 12. VR4CH CC BY Henk Vanstappen
  • 13. VR4CH Conclusies ● snel en goedkoop ● andere soorten trefwoorden ● maar veel ruis en niet geschikt voor alle soorten beeldmateriaal CC BY Henk Vanstappen
  • 15. USE CASES 1. automatisch metadateren van de beelden: hoe ver komen we hier mee? 2. classificeren van beelden in thema’s → training 3. classificeren van beelden in decennia → training
  • 16. DATASET ● 845 foto’s ● vijf thema’s: huwelijk (400), geboorte (96), Sinterklaas (97), vakantie (151) en speelgoed (101) ● tien decennia uit 20e eeuw: 00s (9), 10s (16), 20s (32), 30s (54), 40s (61), 50s (209), 60s (226), 70s (114), 80s (61), 90s (21) + onbekend (42)
  • 18. CLARIFAI ● 20 tags per foto people (0,99553334), child (0,9944993), portrait (0,9912409), sepia (0,9822352), girl (0,97256065), baby (0,9721891), wear (0,96921843), wedding (0,96212375), son (0,9487199), dress (0,9479506), family (0,9464451),woman (0,94372404), two (0,93469185), princess (0,927248), love (0,9161264), retro (0,9128336), vintage (0,90305287), sit (0,8941809), nostalgia (0,8909985), one (0,8850393) FO-00-00015 van Huis van Alijn met Clarifai general model
  • 20. RESULTATEN ● 20 tags per foto ○ in totaal: 11.516 juiste termen (68,15%) ○ maximum: 20 juist (21 foto’s) ○ minimum: 6 juist (1 foto) ○ gemiddeld: 13,6 juist ○ 371 unieke termen ○ 97 beelden met minder dan de helft juiste tags (11,5%)
  • 29. RESULTATEN ● 20 tags per foto ○ entiteiten: people, adult, vehicle, toy, flower, camel, dress, furniture, beach… ○ activiteiten: dancing, sit, reclining, shopping, travel ○ emoties: fun, love, enjoyment, affection ○ contextuele concepten: friendship, togetherness, family, wedding, tourism, leisure ○ over de foto: portrait, profile, monochrome, black and white, color, sepia, no person ○ ook hoeveelheden: one, two, three, four, many, several
  • 30. RESULTATEN - HUWELIJK top 30 termen ● people (399x) ● woman ● adult ● man ● wedding (341x) ● portrait ● wear ● groom ● two ● bride ● veil ● group ● dress ● ceremony ● facial expression ● group together ● love ● monochrome ● flower arrangement ● family ● several ● dinner jacket ● marriage ● bridal ● many ● engagement ● girl ● couple ● child ● bouquet (48x)
  • 31. RESULTATEN - SINTERKLAAS top 30 termen ● people (97x) ● wear ● adult ● portrait ● child ● man ● two ● monochrome ● outfit ● veil ● three ● facial expression ● group together ● group ● costume ● several ● boy ● woman ● family ● coat ● sibling ● four ● outerwear ● recreation ● actor ● sepia ● uniform ● girl ● gown (clothing) ● sit (5x)
  • 32. RESULTATEN ● opvallend: ○ Sinterklaas en verwante concepten niet gekend door model ○ minder goed in objectherkenning? focus op omgeving? ○ kinderen worden als volwassenen gezien of krijgen fout gender; pop wordt als baby getagd ○ foto’s van ouder(s) met kind ook als wedding (16x), groom (3x) of bride (2x) geclassificeerd ○ scoort iets beter op foto’s vanaf jaren 60
  • 33. VERGELIJKING BESCHRIJVINGEN top 30 termen ● huwelijk (400) ● bruidspaar (351) ● Sinterklaas (192) ● bruidsboeket (189) ● Gent (165) ● feest (94) ● studioportret (57) ● kerk (54) ● auto (36) ● bloem (plant) (34) ● vervoer (34) ● dans (32) ● interieur (28) ● park (20) ● huiskamer (17) ● bruid (16) ● Sint-Martens-Latem (15) ● Zwijnaarde (15) ● groepsportret (15) ● Veldstraat (Gent) (14) ● Merelbeke (12) ● Zomergem (12) ● Gentbrugge (11) ● behang (11) ● bruidegom (10) ● Sint-Amandsberg (9) ● taart (9) ● Aalst (8) ● Beervelde (8) ● Loppem (8)
  • 34. IN DE PRAKTIJK? ● 20 tags per foto people (0,99553334), child (0,9944993), portrait (0,9912409), sepia (0,9822352), girl (0,97256065), baby (0,9721891), wear (0,96921843), wedding (0,96212375), son (0,9487199), dress (0,9479506), family (0,9464451),woman (0,94372404), two (0,93469185), princess (0,927248), love (0,9161264), retro (0,9128336), vintage (0,90305287), sit (0,8941809), nostalgia (0,8909985), one (0,8850393) FO-00-00015
  • 35. IN DE PRAKTIJK? ● drempelwaarde instellen ● selectie maken van thema’s (Sintfoto’s doen de percentages dalen → niet gebruiken?) drempelwaarde (%) aandeel juiste tags (%) aantal foute tags (%) 95 55 17 90 85 25 85 95 30 geen 100 32
  • 36. USE CASE 2 en 3: CLASSIFICEREN DOOR TRAINING
  • 37. UITGANGSPUNT ● max. 50% gebruiken voor training ● gebruik maken van iteraties ● ieder concept (thema) even goed trainen = evenveel trainingsbeelden ○ Themamodel: → max. 50 trainingsbeelden per thema ○ Periodemodel → te ongelijk verdeeld, niet mogelijk om evenwaardig te trainen ● keuze voor versie met hoogste performantiescore (F-score)
  • 38. METHODE ● creatie custom model ○ via API ○ via webinterface ● webinterface → eenvoudig als je geen programmeur bent ● maar via wel API sneller
  • 40. METHODE ● creatie custom model ○ via API ○ via webinterface ● webinterface → eenvoudig als je geen programmeur bent ● maar via wel API sneller
  • 41. METHODE ● creatie custom model ○ via API ○ via webinterface ● webinterface → eenvoudig als je geen programmeur bent ● maar via wel API sneller
  • 42. VALIDATIE validatie: ● uitgangspunt: ieder concept (thema) even goed trainen = even veel trainingsbeelden ● probleem: grote verschillen in aantallen per thema ● ⇒ aftoppen tot honderd beelden per thema → max. 50 trainingsbeelden per thema ● iteraties van 10 beelden per thema ● trainingset: https://drive.google.com/open?id=1I-Zi1Vp8SKD4A7BUKu ymBb96TU81sI89xFeNjn4BDi4
  • 43. VALIDATIE ● 20 tags per foto geboorte (0,99555284), sint (0,0036374554), speelgoed (0,0007022651), huwelijk (0,000107247644), vakantie (0,0000001857) FO-00-00015
  • 44. VALIDATIE Is it a chihuahua or a muffin?!
  • 45. VALIDATIE Is it a chihuahua or a muffin?! → true positive! 😊 → true negative! 😊 → false negative! 😫 → false positive! 😫
  • 46. VALIDATIE ● vangst (rappel/recall): het aantal relevante items dat gevonden werd ● precisie: het aantal relevante items op alle gevonden items ● F-score: harmonisch gemiddelde van vangst en precisie
  • 47. RESULTATEN ● Themamodel ○ 89% correcte classificaties ○ beelden hadden een gemiddelde waarschijnlijkheidsscore van 95% (Clarifai was dus voor gemiddeld 95% zeker van classificatie)
  • 50. RESULTATEN ● Periodemodel ○ 57% correcte classificaties ○ beelden hadden een gemiddelde waarschijnlijkheidsscore van 55% (Clarifai was dus voor gemiddeld 55% zeker van classificatie)
  • 52. RESULTATEN opvallend ● periodes met minste trainingsdata scoren slechter ● erg lage waarschijnlijkheidsscores (gemiddelde van 60% voor de juiste classificaties) → concepten niet voldoende gekend? ● ook beelden die als trainingsbeelden gebruikt zijn, worden fout geclassificeerd
  • 53. IN DE PRAKTIJK? Verschillende strategieën 1. drempelwaarde instellen op tag met hoogste waarschijnlijkheidsscore 2. drempelwaarde instellen op tag met tweede hoogste waarschijnlijkheidsscore
  • 54. IN DE PRAKTIJK? ● 20 tags per foto geboorte (0,99555284), sint (0,0036374554), speelgoed (0,0007022651), huwelijk (0,000107247644), vakantie (0,0000001857) FO-00-00015
  • 55. IN DE PRAKTIJK? ● 20 tags per foto sint (0,87703073), geboorte (0,101171814), speelgoed (0,018132137), huwelijk (0,0036528711), vakantie (0,000012468) FO-00-00035
  • 56. IN DE PRAKTIJK? Strategie 1: te lage score → classificatie niet aanvaard
  • 57. IN DE PRAKTIJK? Strategie 1: te lage score → classificatie niet aanvaard drempelwaarde (%) aandeel juiste classificaties (%) aantal foute classificaties (%) 95 87 3,7 90 91 4,6 80 95 6,6 55 100 11
  • 58. IN DE PRAKTIJK? ● 20 tags per foto geboorte (0,99555284), sint (0,0036374554), speelgoed (0,0007022651), huwelijk (0,000107247644), vakantie (0,0000001857) FO-00-00015
  • 59. IN DE PRAKTIJK? ● 20 tags per foto sint (0,87703073), geboorte (0,101171814), speelgoed (0,018132137), huwelijk (0,0036528711), vakantie (0,000012468) FO-00-00035
  • 60. IN DE PRAKTIJK? ● drempelwaarde instellen ● selectie maken van thema’s (Sintfoto’s doen de percentages dalen → niet gebruiken?) drempelwaarde (%) aandeel juiste tags (%) aantal foute tags (%) 95 55 17 90 85 25 85 95 30 geen 100 32
  • 61. IN DE PRAKTIJK? Strategie 2: tweede tag heeft hoge score → classificatie niet aanvaard drempelwaarde (%) aandeel juiste classificatie (%) aantal foute classificatie (%) 5 87,5 3,3 10 91,6 4,5 15 93,6 5,6 48 100 12
  • 62. CONCLUSIES Automatisch metadateren ● eenvoudig in gebruik ● snel, volledig + meer termen ● geeft andere soort tags → nieuwe mogelijkheden om collectie te ontsluiten? ● wél selectie maken van thema’s + instellen drempelwaarde → vervangt de menselijke registrator niet
  • 63. CONCLUSIES Classificeren op thema ● goede resultaten via training ● werkt goed voor foto’s met strak format ● verder onderzoek: testen met niet-geclassificeerde foto’s Classificeren op periode ● ondanks marginale trainingsbeelden toch resultaten > 50% ● doet vermoeden dat betere resultaten mogelijk zijn ● verder onderzoek nodig met meer trainingsdata
  • 66. PROJECT Onderzoeksvraag: ● beeldherkenningservices inzetten in registratiepraktijk? ● onderzoek aan de hand van 4 use cases en 4 content partners ● end-to-end: van ophalen data tot import in CBS
  • 67. DEEL 3: OPERATIONALISERING VAN BEELDHERKENNING IN DE REGISTRATIEPRAKTIJK CC BY Henk Vanstappen
  • 68. DEEL 3: OPERATIONALISERING VAN BEELDHERKENNING IN DE REGISTRATIEPRAKTIJK CC BY Henk Vanstappen
  • 69. DEEL 3: OPERATIONALISERING VAN BEELDHERKENNING IN DE REGISTRATIEPRAKTIJK CC BY Henk Vanstappen
  • 70. DEEL 3: OPERATIONALISERING VAN BEELDHERKENNING IN DE REGISTRATIEPRAKTIJK CC BY Henk Vanstappen
  • 72. CONCLUSIES Verder onderzoek ● andere use cases: iconografische beschrijving, topic detection, gezichtsherkenning, landmark detection ● ander soort erfgoedmateriaal: schilderijen, museumobjecten, archiefstukken, ….
  • 73. Bert Lemmens Alina Saenko bertb@packed.be alina@packed.be @PACKEDvzw BEDANKT! nog vragen?