Presentatie namiddagsessie "GIVE-metadata: over verrijking via artificiële intelligentie" tijdens meemoo's partnerevent op 30 november 2023.
Op 160.000 uur audio en video pasten we in het GIVE-metadataproject spraakherkenning en entiteitsherkenning toe. Op 120.000 uur video ook nog eens gezichtsherkenning. Goed voor een heleboel nieuwe metadata! In anderhalf uur ontdekte je hoe die metadataverrijking via AI juist verliep en welke resultaten dat opleverde.
Tijdens de keynote presentatie van Jeroen Blankendaal op het Heliview Business Intelligence seminar op 26 januari 2010, vroeg Jeroen uw eigen persoonlijke tips en ervaringen met elkaar te delen.
Bijgaand delen we graag hier alle uitgewisselde tips en ervaringen. Open en onafhankelijk. En gestoeld op de overtuiging dat kennisdeling op het vlak van Business Intelligence bijdraagt aan het succes van
ondernemingen. Vermenigvuldigen begint met delen.
En welke ervaringen deelt Kadenza? Een terechte vraag die door u gesteld is. Als Kadenza stellen wij ons kennisnetwerk vanaf dit jaar volledig open. Aan het einde van het eerste kwartaal van 2010 lanceren wij een initiatief dat luistert naar de naam Kadenza+.
Waarom? Omdat wij er ons als
marktleider verantwoordelijk voor voelen dat BI oplevert wat bedrijven ervan verwachten: dat ze er beter en succesvoller van worden. Dat de investering in BI rendeert. Dat is in ieders belang – ook het onze.
50 Praktijkervaringen die Kadenza verzamelde om Business Intelligence succesv...Jeroen Blankendaal
Delen is vermenigvuldigen
Tijdens de keynote presentatie van Jeroen Blankendaal op het Heliview Business Intelligence seminar op 26 januari 2010, vroeg Jeroen uw eigen persoonlijke tips en ervaringen met elkaar te delen. Bijgaand delen we graag hier alle uitgewisselde tips en ervaringen.
Open en onafhankelijk. En gestoeld op de overtuiging dat kennisdeling op het vlak van Business Intelligence bijdraagt aan het succes van ondernemingen.
Vermenigvuldigen begint met delen.
En welke ervaringen deelt Kadenza? Een terechte vraag die door u gesteld is. Als Kadenza stellen wij ons kennisnetwerk vanaf dit jaar volledig open.
Aan het einde van het eerste kwartaal van 2010 lanceren wij een initiatief dat luistert naar de naam Kadenza+. Waarom? Omdat wij er ons als
marktleider verantwoordelijk voor voelen dat BI oplevert wat bedrijven ervan verwachten: dat ze er beter en succesvoller van worden. Dat de investering in BI rendeert. Dat is in ieders belang – ook het onze.
Speciaal voor haar gebruikers heeft 12Build een informatieve en interactieve gebruikersmiddag georganiseerd. Doel van deze bijeenkomst is om iedereen optimaal gebruik te kunnen laten maken van 12Build.
Tijdens deze middag hoorde ruim 60 personen van meer dan 30 verschillende hoofdaannemers en calculatiebureau's alles over de nieuwste ontwikkelingen en maakte zij kennis met de gebruikerservaringen van zowel een hoofdaannemer als onderaannemer. Tenslotte was er volop gelegenheid voor het geven van feedback en het uitwisselen van ervaringen met andere gebruikers onder het genot van een hapje en een drankje.
Presentatie namiddagsessie "GIVE-metadata: over verrijking via artificiële intelligentie" tijdens meemoo's partnerevent op 30 november 2023.
Op 160.000 uur audio en video pasten we in het GIVE-metadataproject spraakherkenning en entiteitsherkenning toe. Op 120.000 uur video ook nog eens gezichtsherkenning. Goed voor een heleboel nieuwe metadata! In anderhalf uur ontdekte je hoe die metadataverrijking via AI juist verliep en welke resultaten dat opleverde.
Tijdens de keynote presentatie van Jeroen Blankendaal op het Heliview Business Intelligence seminar op 26 januari 2010, vroeg Jeroen uw eigen persoonlijke tips en ervaringen met elkaar te delen.
Bijgaand delen we graag hier alle uitgewisselde tips en ervaringen. Open en onafhankelijk. En gestoeld op de overtuiging dat kennisdeling op het vlak van Business Intelligence bijdraagt aan het succes van
ondernemingen. Vermenigvuldigen begint met delen.
En welke ervaringen deelt Kadenza? Een terechte vraag die door u gesteld is. Als Kadenza stellen wij ons kennisnetwerk vanaf dit jaar volledig open. Aan het einde van het eerste kwartaal van 2010 lanceren wij een initiatief dat luistert naar de naam Kadenza+.
Waarom? Omdat wij er ons als
marktleider verantwoordelijk voor voelen dat BI oplevert wat bedrijven ervan verwachten: dat ze er beter en succesvoller van worden. Dat de investering in BI rendeert. Dat is in ieders belang – ook het onze.
50 Praktijkervaringen die Kadenza verzamelde om Business Intelligence succesv...Jeroen Blankendaal
Delen is vermenigvuldigen
Tijdens de keynote presentatie van Jeroen Blankendaal op het Heliview Business Intelligence seminar op 26 januari 2010, vroeg Jeroen uw eigen persoonlijke tips en ervaringen met elkaar te delen. Bijgaand delen we graag hier alle uitgewisselde tips en ervaringen.
Open en onafhankelijk. En gestoeld op de overtuiging dat kennisdeling op het vlak van Business Intelligence bijdraagt aan het succes van ondernemingen.
Vermenigvuldigen begint met delen.
En welke ervaringen deelt Kadenza? Een terechte vraag die door u gesteld is. Als Kadenza stellen wij ons kennisnetwerk vanaf dit jaar volledig open.
Aan het einde van het eerste kwartaal van 2010 lanceren wij een initiatief dat luistert naar de naam Kadenza+. Waarom? Omdat wij er ons als
marktleider verantwoordelijk voor voelen dat BI oplevert wat bedrijven ervan verwachten: dat ze er beter en succesvoller van worden. Dat de investering in BI rendeert. Dat is in ieders belang – ook het onze.
Speciaal voor haar gebruikers heeft 12Build een informatieve en interactieve gebruikersmiddag georganiseerd. Doel van deze bijeenkomst is om iedereen optimaal gebruik te kunnen laten maken van 12Build.
Tijdens deze middag hoorde ruim 60 personen van meer dan 30 verschillende hoofdaannemers en calculatiebureau's alles over de nieuwste ontwikkelingen en maakte zij kennis met de gebruikerservaringen van zowel een hoofdaannemer als onderaannemer. Tenslotte was er volop gelegenheid voor het geven van feedback en het uitwisselen van ervaringen met andere gebruikers onder het genot van een hapje en een drankje.
Talk voor laatstejaarstudenten van de faculteit letteren over welke carriere ze kunnen hebben in onze digitale wereld. Het is een pleidooi voor humane wetenschappers om hun kansen te grijpen.
Mijn presentatie op de Joomladagen in Utrecht op 23 april 2010. In de presentatie behandel ik waar het om gaat bij conversie, het stappenplan ter verbetering van je conversie en geef ik je tips ter verhoging van je conversie. De inhoud is vrij algemeen, ook voor als je geen Joomla gebruikt of een webshop hebt!
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsIvo Everts
Dit keer voor de minor Big Data, een gastcollege gebaseerd op de eerste versie (https://www.slideshare.net/IvoEverts/guest-lecture-of-godatadrivens-ivo-everts)
De laatste tijd hoor je het regelmatig: organisatie verwachten een groot tekort aan data scientists. Maar wie is nu precies die data scientist? Welke eigenschappen bezit hij of zij en welke vaardigheden zijn noodzakelijk? In het webinar Hoe word ik Big Data Professional geven we in 60 minuten een overzicht. We leggen de nadruk op de manier waarop je een succesvolle Big Data professional wordt, wat jouw mogelijkheden zijn en hoe je uiteindelijk jouw doel behaalt. Bovendien geven we een korte introductie in wat Big Data zijn en bespreken we een praktijkcase.
Kees Waterman (DANS, projectleider NCDD) vertelt over nut en noodzaak van het laten certificeren van een e-depot en over de verschillende niveaus die er zijn. De presentatie werd gegeven op de Kennisdag Digitale Duurzaamheid van de Nationale Coalitie Digitale Duurzaamheid op 13 juni 2016.
Sprekers: Bert Lemmens en Rony Vissers (Packed vzw, Expertisecentrum Digitaal Erfgoed) Op het einde van cursus 3 krijg je de opdracht om te bekijken hoe je de opgedane kennis in de eigen praktijk kunt toepassen en concrete vragen/probleemstellingen specifiek voor jouw context op te lijsten. In interactie met de deelnemers pogen we tijdens deze sessie oplossingen te formuleren die aansluiten bij de eigen praktijk. Om de interactie te bewaken, is deze cursus beperkt tot maximaal 7 organisaties, met een maximum van 2 deelnemers per organisatie, inschrijven. Bij voldoende vraag wordt een extra sessie overwogen.
Business Continuity & Disaster Recovery introductieB.A.
Presentatie van 30 september 2016 voor Syntra West's IT club @ DCO datacenter. Het bevat een korte introductie en tips en trucks om ervoor te zorgen dat de kritische ICT-infrastructuur en bijhorende data ten allen tijden beschikbaar blijft.
DevOps and metrics presentation, co-presentation by Dave van Herpen and Harold van Heeringen (both Sogeti Nederland B.V.). The key message of the presentation is the fact that metrics are important in DevOps environments and that it is important to do a thorough analysis of which metrics are important to collect and for which reasons.
Talk voor laatstejaarstudenten van de faculteit letteren over welke carriere ze kunnen hebben in onze digitale wereld. Het is een pleidooi voor humane wetenschappers om hun kansen te grijpen.
Mijn presentatie op de Joomladagen in Utrecht op 23 april 2010. In de presentatie behandel ik waar het om gaat bij conversie, het stappenplan ter verbetering van je conversie en geef ik je tips ter verhoging van je conversie. De inhoud is vrij algemeen, ook voor als je geen Joomla gebruikt of een webshop hebt!
GoDataDriven weer op de hogeschool van Amsterdam: gastcollege door Ivo EvertsIvo Everts
Dit keer voor de minor Big Data, een gastcollege gebaseerd op de eerste versie (https://www.slideshare.net/IvoEverts/guest-lecture-of-godatadrivens-ivo-everts)
De laatste tijd hoor je het regelmatig: organisatie verwachten een groot tekort aan data scientists. Maar wie is nu precies die data scientist? Welke eigenschappen bezit hij of zij en welke vaardigheden zijn noodzakelijk? In het webinar Hoe word ik Big Data Professional geven we in 60 minuten een overzicht. We leggen de nadruk op de manier waarop je een succesvolle Big Data professional wordt, wat jouw mogelijkheden zijn en hoe je uiteindelijk jouw doel behaalt. Bovendien geven we een korte introductie in wat Big Data zijn en bespreken we een praktijkcase.
Kees Waterman (DANS, projectleider NCDD) vertelt over nut en noodzaak van het laten certificeren van een e-depot en over de verschillende niveaus die er zijn. De presentatie werd gegeven op de Kennisdag Digitale Duurzaamheid van de Nationale Coalitie Digitale Duurzaamheid op 13 juni 2016.
Sprekers: Bert Lemmens en Rony Vissers (Packed vzw, Expertisecentrum Digitaal Erfgoed) Op het einde van cursus 3 krijg je de opdracht om te bekijken hoe je de opgedane kennis in de eigen praktijk kunt toepassen en concrete vragen/probleemstellingen specifiek voor jouw context op te lijsten. In interactie met de deelnemers pogen we tijdens deze sessie oplossingen te formuleren die aansluiten bij de eigen praktijk. Om de interactie te bewaken, is deze cursus beperkt tot maximaal 7 organisaties, met een maximum van 2 deelnemers per organisatie, inschrijven. Bij voldoende vraag wordt een extra sessie overwogen.
Business Continuity & Disaster Recovery introductieB.A.
Presentatie van 30 september 2016 voor Syntra West's IT club @ DCO datacenter. Het bevat een korte introductie en tips en trucks om ervoor te zorgen dat de kritische ICT-infrastructuur en bijhorende data ten allen tijden beschikbaar blijft.
DevOps and metrics presentation, co-presentation by Dave van Herpen and Harold van Heeringen (both Sogeti Nederland B.V.). The key message of the presentation is the fact that metrics are important in DevOps environments and that it is important to do a thorough analysis of which metrics are important to collect and for which reasons.
Hoe bepaal je welke delen van je collectie niet auteursrechtelijk beschermd zijn, en dus tot publiek domein behoren? Wat zijn mogelijke uitdagingen bij de bepaling van de publiekdomeinstatus? Wat kun je doen met collecties die zich in het publieke domein bevinden? Hoe kun je ze toegankelijk en herbruikbaar maken en wat levert dat op? Deze en nog veel meer vragen beantwoordden we tijdens deze sessie.
Presentatie van de namiddagsessie "Bevindingen uit het vooronderzoek naar een uitwisselplatform" tijdens meemoo's partnerevent op 30 november 2023.
Een professioneel uitwisselplatform zou het hergebruik van jouw archiefmateriaal extra kunnen stimuleren bij professionals uit de erfgoed-, media- en creatieve sector en de valorisatie ervan bevorderen over instellingen en sectoren heen. Je kwam er al even mee in aanraking door de bevraging aan contentpartners vorige zomer. Aangezien die bevraging maar een klein onderdeel was van een veel breder vooronderzoek, was het tijd om de belangrijkste resultaten en inzichten met jou te delen.
Presentatie van de namiddagsessie "Deep dive in hetarchief.be" tijdens meemoo's partnerevent op 30 november 2023.
Op zoek naar manieren om vlot audiovisueel archiefmateriaal te ontsluiten? Tijdens deze sessie doken we diep in hetarchief.be: o.a. publieke ontsluiting, de sleutelgebruikerrol en de bezoekertoolfunctionaliteit kwamen aan bod. Een contentpartner deelde bovendien de ervaringen en inzichten van de eigen organisatie over het gebruik van hetarchief.be.
Presentatie van de namiddagessie "GIVE or take: het nut van kwaliteitscontrole bij digitalisering" tijdens meemoo's partnerevent op 30 november 2023.
Een van de grootste uitdagingen in een digitaliseringsproject is het bepalen en controleren van de kwaliteit van je resultaten. Wanneer en hoe bouw je dit in? Doet de Metamorfoze-richtlijn misschien een belletje rinkelen? Hoorde je al over RIPT, QM-tool en ‘targets’? Tijdens deze sessie kwam je te weten wat deze richtlijnen, standaarden en tools voor jouw digitaliseringsproces kunnen betekenen! We deelden graag onze ervaring met kwaliteitscontrole in de GIVE-projecten én gaven plaats voor het uitwisselen van eigen ervaringen en ideeën.
Presentaties van de sectordag voor museale contentpartners georganiseerd door meemoo, Vlaams instituut voor het archief, in het FOMU in Antwerpen op 10 november 2022.
3. Over deze presentatie
● Hoe werken we samen met jullie?
● Wat hebben we tot nu toe gerealiseerd
○ inzicht in wat we doen met jullie materiaal
○ inzicht in de technieken die we hiervoor gebruiken
○ inzicht in wat de resultaten kunnen zijn
● Wat gebeurt er met de resultaten en hoe kan je zelf aan de data
● En hopelijk ook veel vragen :-)
5. GIVE metadata - context
● Grote hoeveelheden digitaal materiaal gearchiveerd
○ digitaliseringsprojecten afgelopen jaren
○ digitaal geboren content wordt in hoge volumes geproduceerd
● Manuele metadatering is duur en tijdrovend
● Tegelijkertijd: tooling op basis van AI wordt matuur
6. Relance middelen - GIVE metadata
● Wat willen we doen?
○ Spraakherkenning op Nederlandse spraak (audio/video)
○ Entiteit herkenning op tekst uit spraakherkenning (Personen, locaties)
○ Gezichtsdetectie op video; gezichtsherkenning op een beperkte set publieke
personen
● Linken aan authentieke bronnen
○ Bvb. Wikidata ID van gezichten en termen uit entiteit herkenning
○ Bvb. Lokale ID's van personen in gezichtsherkenning
● Op welke collecties?
○ Alle reeds gearchiveerde AV-collecties (behalve die van landelijke en
regionale omroepen)
7. Volumes
● cultuur- + overheidspartners
● 120 contentpartners
● audiovisueel materiaal (AV)
● per activiteit
○ Spraakherkenning & entiteitsherkenning:
■ 150.000 gearchiveerde stuks
■ of 165.000 uur media
○ Gezichtsdetectie en -herkenning:
■ 100.000 gearchiveerde stuks
■ of 120.000 uur media
8. Betrokkenheid contentpartners
● We werken met materiaal van veel contentpartners
● Veel nieuwe uitdagingen / inzichten
● Informatie via
○ nieuwsbrief en partnerupdate
○ meemoo.be en partnerportaal
○ sociale media (twitter / linkedin)
● Betrokkenheid via werkgroep
○ brede oproep via partnerupdate begin 2022
9. Werkgroep GIVE - metadata
● Diepgaande informatie over
het project
● Meewerken en beslissen over
○ juridische en ethische aspecten
○ parametrisering
gezichtsherkenning
○ (gedeeld) beheer van de
referentieset personen
Agenda van voorbije sessies via partnerportaal: https://portaal.meemoo.be/nl/give-metadata
11. Juridische aspecten: GDPR
● AI toepassen: het kan volgens GDPR
(taak van algemeen belang)
● Maar DPIA is nodig want:
○ Grootschalige verwerking
■ Aantal betrokkenen
■ Volume van de gegevens
■ Duur van de activiteit
○ Creatie van nieuwe metadata kan linken
leggen tussen personen en lidmaatschap
vakbond/etniciteit/politieke voorkeur…
■ Verwerking van ‘bijzondere categorieën
persoonsgegevens’
DPIA staat voor
Data Protection
Impact
Assessment
12. Juridische aspecten: advies
● Specifiek voor gezichtsherkenning
● Extra advies
○ Maatregelen rond opslag biometrische data
○ Welke foto's mogen we gebruiken in referentieset?
■ uitsnede gezicht vs. originele foto
■ richtlijnen herkomst fotomateriaal
■ implicaties op softwareontwikkeling (bv. origineel niet bewaren)
○ Referentieset bevat enkel publieke personen
○ Keuze verwerkers: bv. servers binnen de EU
Advies wordt voor het eind van het project gepubliceerd.
13. Ethische aspecten
● i.s.m. Kenniscentrum Data &
Maatschappij
● meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ gedeeld inzichten
○ daarop afgestemde processen en
richtlijnen voor gebruikers van de
diensten
Advies wordt voor het eind van het project gebundeld gepubliceerd.
14. What's cooking?
● Stand van zaken per taak
○ Spraakherkenning
○ Gezichtsherkenning
○ Entiteitsherkenning
beeld: https://www.industriemuseum.be/nl/collectie-item/verven-van-bobijnen-in-weverij-uco-
uyttendaele
16. ● Relatief mature producten in de markt
● Voorjaar 2022 : marktstudie
○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), …
○ Informele gesprekken die ons inzicht leverden in wat kan
● Najaar 2022: aanbesteding
● Criteria
○ Prijs (om 1 uur te transcriberen)
○ Kwaliteit via benchmarking (zie volgende slides)
● 5 deelnemers:
○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz
Spraakherkenning
17. Spraakherkenning - objectieve kwaliteitsmeting
Dataset
● Handgeselecteerd uit het archief
● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar
(sport/event), Reportage/Documentaire, Nieuwsbulletin
● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal
● 165 bestanden, > 3 uur audio
Data Annotatie (extern bureau)
● Ground Truth transcripties (letterlijk)
● Annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
18. Spraakherkenning - kwaliteitsmeting
STT solutions
● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure
● Whisper: OpenSource multi-language STT model (Open AI)
Benchmark tool
● Gebaseerd op EBU benchmark-stt
● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie
● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3)
● Totale kwaliteitsscore: gebaseerd op hoeveel bestanden onder welke
kwaliteitsklasse vallen
19. STT Benchmark - results
Conclusie:
● Speechmatics enchanced
heeft de beste
transcriptiekwaliteit
● Amberscript identieke scores
(zelfde technologie)
● Microsoft Azure goeie runner-
up.
Ook geleerd: evoluties gaan snel: duidelijk
meetbare verbetering op enkele maanden tijd
(bvb. Azure) alsook opkomst Whisper en
Open AI
20. Spraakherkenning
● Voorjaar 2023:
○ Integratie van Speechmatics in de AI pipeline
○ Opslag van procesinformatie (herkomst van de AI data)
■ welk model werd gebruikt (welke versie)
■ wanneer werd de transcriptie uitgevoerd
● Extra's die we kunnen meenemen
○ Automatische taalherkenning
○ Transcriptie van andere talen
○ Indien taal onbekend: we forceren op NL.
● Laatste controles deze maand, start eind mei.
Het gaat dus snel, nieuwe features
sinds de aankoop Speechmatics.
22. Gezichtsherkenning
Bekende personen herkennen in
video
Vaak voorkomende personen
identificeren
beeld : https://www.industriemuseum.be/nl/collectie-
item/binnenzicht-textiellabo-in-een-spinnerij
23. ● Gezichten identificeren en herkennen in video
● Referentieset: te herkennen gezichten
○ Hoe gaan we die samenstellen?
○ Hoe beheren?
○ Gedeelde referentieset?
● Vaak voorkomende gezichten, niet gelinkt aan referentieset
○ Bv. top X meest voorkomende gezichten in je collectie
○ Opportuniteit om referentieset uit te breiden
○ Opportuniteit: kan cross-contentpartner!
Gezichtsherkenning - Wat willen we?
24. Gezichtsherkenning - kopen vs. bouwen
● Kopen
○ Marktbevraging
■ AWS
■ Azure
■ Vicarvision
○ Kosten
■ Operationele kost
■ Relatief duur
○ Meer geavanceerde cases zijn
moeilijker te realiseren
○ Privacy & ethiek
● Bouwen
○ Meer vrijheden
○ Meer op maat van onze use cases
/ contentpartners
○ Technische uitdagingen
■ Kan het überhaupt?
■ Welke modellen zijn nodig?
■ Zijn ze open source?
○ Wat zou de kost zijn om dit te
bouwen?
Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
25. Gezichtsherkenning - bouwen op FAME
● FAME
○ Voornamelijk foto
○ Referentieset samengesteld
○ Basisflow uitgewerkt
○ Heel wat privacy aspecten
onderzocht
● Uitdagingen
○ Schaal (foto vs. video)
○ Geen validatie mogelijk
○ Gedeelde referentieset
○ GIVE = geen research (bv. gebruik
modellen zoals insightface)
26. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Detecteer gezichten in 1 frame
27. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Bereken fingerprint van elke face
28. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers
Tracker Tracker
29. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen
Tracker 1
Tracker 0
Persoon 0
30. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset o.b.v.
kwaliteit
31. Gezichtsherkenning - parameters
Gezichtskwaliteit
● Resolutie
● Kijkhoek
● Belichting
● Occlusie
● Onscherpte
● Detectie confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal
trackers per persoon)
● Totale schermtijd van 1 persoon in video
Doel: maximaal
gezichten herkennen EN
zo weinig mogelijk
fouten introduceren
manuele validatie
vermijden (wegens de
schaal)
32. Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage); gezichten in de achtergrond leveren
vaak geen metadata op omdat ze te klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
33. Referentieset - Gebruik
● Een referentieset is
○ Lijst van personen die we willen benoemen
○ Een aantal foto's van een persoon
○ Eén of meerdere links naar
■ lokale thesauri
■ publiek beschikbare thesauri
● Gebruik: bepalen of
een gedetecteerd
gezicht een bekend
gezicht is
34. Referentieset - aanpak voor het beheer
● Startpunt FAME referentieset
○ Foto's te herkennen personen
○ Identifiers met link naar publieke bronnen waar mogelijk (bv. wikidata)
● Interviews + sessie werkgroep leden
○ Gedeeld beheer of niet?
○ Welke functies moeten content partners kunnen doen?
○ Wie mag deze acties uitvoeren?
● Doel: gedeelde visie
○ Gebruiksprocessen in kaart brengen
○ Daaruit: ontwerp van de software + wireframes
35. Referentieset - belangrijkste conclusies
● Gedeeld beheer door contentpartners
○ Geen ownership van de data
○ Gebruikers met voldoende permissies kunnen beheren (anonieme users niet)
○ Wel gedetailleerd inzicht in historiek en aanpassingen
● Links naar zowel publieke als private bronnen
○ Bv. wikidata
○ Bv. interne identifiers
● Begeleiding van de beheerders (ethiek, techniek)
○ Richtlijnen / checks op fotokwaliteit
36. Gezichtsherkenning - functionele analyse
Beperkte
descriptieve
metadata (het is
geen thesaurus)
Links naar lokale
ID's en naar
publieke bronnen.
38. Entiteitsherkenning
Haal entiteiten uit tekst
beeld https://www.industriemuseum.be/nl/collectie-item/een-vormgever-aan-het-werk-
op-de-redactie-van-het-laatste-nieuws-te-brussel
39. Entiteitsherkenning op tekst
● Analyse loopt op dit moment
○ Welke entiteiten willen we minimaal herkennen?
■ Personen
■ Locaties
■ Organisaties
○ Additionele functies
■ Links naar thesauri (wikidata)
■ Andere entiteiten
● Open source : spacy, mBert, Flair
● Commercieel : textrazor, zeticon, amazon, azure, google
41. ● Afspraken bij opslag
○ We markeren ze als 'door meemoo gegenereerd'
○ We houden de herkomst bij:
■ dit is door een machine gemaakt
■ op welk moment
■ met welke software
■ door welk project / welke partij
● Ontsluiting van de gegenereerde metadata
○ In eerste instantie doen we dit niet
○ Dit project focust op creatie
Wat met de aangemaakte metadata?
42. ● Data wordt initieel in de 'GIVE tooling'
opgeslagen
● Geldt als tijdelijke oplossing, heel basis
als functionaliteit, geen editering
● We bekijken nog of het mogelijk is om
alle projectpartners toegang te
geven tot eigen data via deze tooling
Toegang tot de aangemaakte metadata
43. ● Data moet duurzaam bewaard worden
○ gelinkt aan de objecten
○ inclusief herkomstgegevens
○ inclusief links naar authentieke bronnen
● Duurzame opslag wordt mogelijk in de knowledge graph
○ proces migratie wordt tijdens het project uitgewerkt
○ data wordt eind 2023 daar beschikbaar
● Najaar 2023:
○ samen met werkgroep metadata toegang
contentpartners tot data bekijken
○ meer nieuws op volgend partnerevent
Metadata op lange termijn
44. Dit project wordt gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling
en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid