Presentatie namiddagsessie "GIVE-metadata: over verrijking via artificiële intelligentie" tijdens meemoo's partnerevent op 30 november 2023.
Op 160.000 uur audio en video pasten we in het GIVE-metadataproject spraakherkenning en entiteitsherkenning toe. Op 120.000 uur video ook nog eens gezichtsherkenning. Goed voor een heleboel nieuwe metadata! In anderhalf uur ontdekte je hoe die metadataverrijking via AI juist verliep en welke resultaten dat opleverde.
Business Continuity & Disaster Recovery introductieB.A.
Presentatie van 30 september 2016 voor Syntra West's IT club @ DCO datacenter. Het bevat een korte introductie en tips en trucks om ervoor te zorgen dat de kritische ICT-infrastructuur en bijhorende data ten allen tijden beschikbaar blijft.
Presentatie namiddagsessie "GIVE-metadata: over verrijking via artificiële intelligentie" tijdens meemoo's partnerevent op 30 november 2023.
Op 160.000 uur audio en video pasten we in het GIVE-metadataproject spraakherkenning en entiteitsherkenning toe. Op 120.000 uur video ook nog eens gezichtsherkenning. Goed voor een heleboel nieuwe metadata! In anderhalf uur ontdekte je hoe die metadataverrijking via AI juist verliep en welke resultaten dat opleverde.
Business Continuity & Disaster Recovery introductieB.A.
Presentatie van 30 september 2016 voor Syntra West's IT club @ DCO datacenter. Het bevat een korte introductie en tips en trucks om ervoor te zorgen dat de kritische ICT-infrastructuur en bijhorende data ten allen tijden beschikbaar blijft.
Heel wat erfgoedverenigingen en erfgoedvrijwilligers zijn geïnteresseerd in het digitaliseren en online publiceren van hun documentaire collectie. Maar hoe begin je daaraan? Er wordt een beknopte introductie gegeven in hoe je je documenten het best kunt organiseren en digitaliseren. Vervolgens zien we ook hoe je de digitale bestanden kunt archiveren en ontsluiten. Hierbij komt ook de technische kant aan bod. Een basiskennis in het gebruik van een computer is vereist.
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...B.A.
Deze presentatie gaat in op de praktische uitdagingen voor bibliotheken en archieven op het vlak van informatiebeveiliging. De uitdagingen zijn veelvuldig: van de valkuilen bij het digitaliseren van traditionele documenten om ze voor de toekomst te preserveren over vaak enorme volumes aan data tot het op een veilige manier online ontsluiten van deze collecties. Een paar dingen om rekening mee te houden bij digitale archieven.
Speciaal voor haar gebruikers heeft 12Build een informatieve en interactieve gebruikersmiddag georganiseerd. Doel van deze bijeenkomst is om iedereen optimaal gebruik te kunnen laten maken van 12Build.
Tijdens deze middag hoorde ruim 60 personen van meer dan 30 verschillende hoofdaannemers en calculatiebureau's alles over de nieuwste ontwikkelingen en maakte zij kennis met de gebruikerservaringen van zowel een hoofdaannemer als onderaannemer. Tenslotte was er volop gelegenheid voor het geven van feedback en het uitwisselen van ervaringen met andere gebruikers onder het genot van een hapje en een drankje.
Kees Waterman (DANS, projectleider NCDD) vertelt over nut en noodzaak van het laten certificeren van een e-depot en over de verschillende niveaus die er zijn. De presentatie werd gegeven op de Kennisdag Digitale Duurzaamheid van de Nationale Coalitie Digitale Duurzaamheid op 13 juni 2016.
De IT branche is booming. Er zijn heel veel mensen nodig: het aantal vacatures rijst daarom de pan uit. De IT is een aantrekkelijke branche omdat er enorm veel gebeurt: de ontwikkelingen gaan vreselijk snel en zijn heel interessant. Het is een branche waar je bij wilt zijn voor de next step in de wereld van morgen.
Onderwerpen: development, beheer, infra, data
Mobpro - Uitschalen binnen de Ad-Tech wereldBigDataExpo
Ad-Tech platform MobPro verwerkt dagelijks ruim 1 miljard events tot rapportages, die real-time inzicht geven in de voortgang van advertentiecampagnes. In deze presentatie vertelt Gijs hoe Mobpro samen met GoDataDriven een schaalbaar, open-source platform heeft geimplementeerd om deze enorme hoeveelheid data te verwerken tot bruikbare inzichten.
Webinar trends in testing 2017 03 08 (in dutch)Rik Marselis
Webinar over actuele zaken in de testwereld op basis van diverse conferenties en bijeenkomsten. Met foto's uit presentaties van diverse sprekers. Als rode draad heb ik de 5 elementen van TMap HD gebruikt.
Heel wat erfgoedverenigingen en erfgoedvrijwilligers zijn geïnteresseerd in het digitaliseren en online publiceren van hun documentaire collectie. Maar hoe begin je daaraan? Er wordt een beknopte introductie gegeven in hoe je je documenten het best kunt organiseren en digitaliseren. Vervolgens zien we ook hoe je de digitale bestanden kunt archiveren en ontsluiten. Hierbij komt ook de technische kant aan bod. Een basiskennis in het gebruik van een computer is vereist.
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...B.A.
Deze presentatie gaat in op de praktische uitdagingen voor bibliotheken en archieven op het vlak van informatiebeveiliging. De uitdagingen zijn veelvuldig: van de valkuilen bij het digitaliseren van traditionele documenten om ze voor de toekomst te preserveren over vaak enorme volumes aan data tot het op een veilige manier online ontsluiten van deze collecties. Een paar dingen om rekening mee te houden bij digitale archieven.
Speciaal voor haar gebruikers heeft 12Build een informatieve en interactieve gebruikersmiddag georganiseerd. Doel van deze bijeenkomst is om iedereen optimaal gebruik te kunnen laten maken van 12Build.
Tijdens deze middag hoorde ruim 60 personen van meer dan 30 verschillende hoofdaannemers en calculatiebureau's alles over de nieuwste ontwikkelingen en maakte zij kennis met de gebruikerservaringen van zowel een hoofdaannemer als onderaannemer. Tenslotte was er volop gelegenheid voor het geven van feedback en het uitwisselen van ervaringen met andere gebruikers onder het genot van een hapje en een drankje.
Kees Waterman (DANS, projectleider NCDD) vertelt over nut en noodzaak van het laten certificeren van een e-depot en over de verschillende niveaus die er zijn. De presentatie werd gegeven op de Kennisdag Digitale Duurzaamheid van de Nationale Coalitie Digitale Duurzaamheid op 13 juni 2016.
De IT branche is booming. Er zijn heel veel mensen nodig: het aantal vacatures rijst daarom de pan uit. De IT is een aantrekkelijke branche omdat er enorm veel gebeurt: de ontwikkelingen gaan vreselijk snel en zijn heel interessant. Het is een branche waar je bij wilt zijn voor de next step in de wereld van morgen.
Onderwerpen: development, beheer, infra, data
Mobpro - Uitschalen binnen de Ad-Tech wereldBigDataExpo
Ad-Tech platform MobPro verwerkt dagelijks ruim 1 miljard events tot rapportages, die real-time inzicht geven in de voortgang van advertentiecampagnes. In deze presentatie vertelt Gijs hoe Mobpro samen met GoDataDriven een schaalbaar, open-source platform heeft geimplementeerd om deze enorme hoeveelheid data te verwerken tot bruikbare inzichten.
Webinar trends in testing 2017 03 08 (in dutch)Rik Marselis
Webinar over actuele zaken in de testwereld op basis van diverse conferenties en bijeenkomsten. Met foto's uit presentaties van diverse sprekers. Als rode draad heb ik de 5 elementen van TMap HD gebruikt.
Hoe bepaal je welke delen van je collectie niet auteursrechtelijk beschermd zijn, en dus tot publiek domein behoren? Wat zijn mogelijke uitdagingen bij de bepaling van de publiekdomeinstatus? Wat kun je doen met collecties die zich in het publieke domein bevinden? Hoe kun je ze toegankelijk en herbruikbaar maken en wat levert dat op? Deze en nog veel meer vragen beantwoordden we tijdens deze sessie.
Presentatie van de namiddagsessie "Bevindingen uit het vooronderzoek naar een uitwisselplatform" tijdens meemoo's partnerevent op 30 november 2023.
Een professioneel uitwisselplatform zou het hergebruik van jouw archiefmateriaal extra kunnen stimuleren bij professionals uit de erfgoed-, media- en creatieve sector en de valorisatie ervan bevorderen over instellingen en sectoren heen. Je kwam er al even mee in aanraking door de bevraging aan contentpartners vorige zomer. Aangezien die bevraging maar een klein onderdeel was van een veel breder vooronderzoek, was het tijd om de belangrijkste resultaten en inzichten met jou te delen.
Presentatie van de namiddagsessie "Deep dive in hetarchief.be" tijdens meemoo's partnerevent op 30 november 2023.
Op zoek naar manieren om vlot audiovisueel archiefmateriaal te ontsluiten? Tijdens deze sessie doken we diep in hetarchief.be: o.a. publieke ontsluiting, de sleutelgebruikerrol en de bezoekertoolfunctionaliteit kwamen aan bod. Een contentpartner deelde bovendien de ervaringen en inzichten van de eigen organisatie over het gebruik van hetarchief.be.
Presentatie van de namiddagessie "GIVE or take: het nut van kwaliteitscontrole bij digitalisering" tijdens meemoo's partnerevent op 30 november 2023.
Een van de grootste uitdagingen in een digitaliseringsproject is het bepalen en controleren van de kwaliteit van je resultaten. Wanneer en hoe bouw je dit in? Doet de Metamorfoze-richtlijn misschien een belletje rinkelen? Hoorde je al over RIPT, QM-tool en ‘targets’? Tijdens deze sessie kwam je te weten wat deze richtlijnen, standaarden en tools voor jouw digitaliseringsproces kunnen betekenen! We deelden graag onze ervaring met kwaliteitscontrole in de GIVE-projecten én gaven plaats voor het uitwisselen van eigen ervaringen en ideeën.
Presentaties van de sectordag voor museale contentpartners georganiseerd door meemoo, Vlaams instituut voor het archief, in het FOMU in Antwerpen op 10 november 2022.
2. GiVE metadata - Context
● Grote hoeveelheden digitaal materiaal gearchiveerd
○ digitaliseringsprojecten afgelopen jaren
○ digitaal geboren content
● Manuele metadering is duur en tijdrovend
● Tegelijkertijd: tooling op basis van AI wordt matuur
3. Relance middelen - GiVE metadata
● Wat willen we doen?
○ Spraakherkenning op Nederlandse spraak (audio/video)
○ Entiteit herkenning op tekst (Personen, locaties)
○ Gezichtsdetectie op video ; gezichtsherkenning op een beperkte set
personen
● Op welke collecties?
○ Alle reeds gearchiveerde AV-collecties (behalve die van omroepen)
4. Schaal
● 120 contentpartners betrokken
● Per activiteit
○ Spraakherkenning en Entiteit Herkenning :
130.000 gearchiveerde stuks of 160.000 uur
media
○ Gezichtsdetectie en -herkenning :
100.000 gearchiveerde stuks of 120.000 uur
media
5. Verdere projectgegevens
● Timing: najaar 2021 tot eind 2023
● Workflows die later ook herbruikbaar zijn
● Privacy en ethische aspecten
● Mature technologie, beperkte onderzoekscomponent
○ We werken verder o.b.v. resultaten FAME en eerder onderzoek in de
media en CE sectoren.
○ Nauw contact met organisaties (bv. VRT, Beeld en Geluid, BBC, .. ) die hier
ervaring mee hebben.
6. Veel partners
● We werken met materiaal van
heel veel partners
● Vaak ook nieuwe uitdagingen /
inzichten
● Informatie via communicatieplan
● Betrokkenheid via werkgroep
○ krijgen meer in-depth informatie
○ bepalen mee wat we doen en niet
doen
■ bvb. parametrisering
gezichtsherkenning
■ bvb. beheer referentieset gezichten.
7. Deze presentatie
● Tussentijdse stand van zaken
○ Work in progress
○ Blik in de keuken
● Juridische aspect
● Spraakherkenning
● Gezichtsherkenning
● Future work
Beeld: De keuken, Louis Thevenet ; Collectie museum Dhondt-Dhaenens Fotograaf: Cedric Verhelst
public domain
8. Juridische aspecten
• AI toepassen: het kan volgens GDPR (archivering in het
algemeen belang)
• Maar DPIA is nodig want:
• Grootschalige verwerking
• → Aantal betrokkenen
• → Volume van de gegevens
• → Duur van de activiteit
• Creatie van nieuwe metadata kan linken leggen tussen
personen en lidmaatschap vakbond/etniciteit/politieke
voorkeur…
→ Verwerking van ‘bijzondere categorieën
persoonsgegevens’
9. Data Protection Impact Assessment
● Deel 1 : omschrijf wat je wil doen
○ Algemene beschrijving beoogde verwerking
○ Beschrijving type persoonsgegevens
○ Doel van de verwerking
○ Bronnen van de persoonsgegevens
○ Betrokkenen
● Deel 2 : Risico analyse
○ Wat zijn de taken in het project?
○ Welke risico's zijn hieraan verbonden?
○ Hoe gaan we deze minimaliseren?
⇒ Checklist voor privacy aspecten binnen project
10. Ethische aspecten
● ism. Kenniscentrum data &
maatschappij
● Meerdere workshops, focus op
gezichtsherkenning
○ breng alle stakeholders samen
■ archivarissen, personen die
herkend zullen worden, technici
○ Probeer tot een principes document
te komen of gedeeld inzicht / proces
○ Bvb. referentielijst
Ethische / juridische conclusies worden samengevat & gedeeld
11. ● Relatief mature producten in de markt
● Marktbevraging eerste helft 2022
○ Wat is mogelijk op dit moment, hoe snel kan de verwerking (snel!), …
○ Informele gesprekken die ons inzicht leverden in wat kan
● Europese aanbestedingsprocedure tweede helft 2022
● Criteria
○ Prijs (om 1 uur te transcriberen)
○ Kwaliteit via benchmarking (zie volgende slides)
● 5 deelnemers:
○ Azure, Speechmatics, Scriptix, Amberscript, Notubiz
Spraakherkenning
12. Benchmark - objectieve kwaliteitsmeting
Dataset
● Handgeselecteerd uit het archief
● 5 hoofdcategorieën: Radio/TV interview, Politiek debat/interview, Spontaan commentaar (sport/event),
Reportage/Documentaire, Nieuwsbulletin
● Nevencategorieën: podiumkunsten, dialect, oud materiaal, andere taal
● 165 bestanden, >3 uur audio
Data Annotatie (extern bureau)
● Ground Truth transcripties (letterlijk)
● Keyword annotaties: locatie, persoon, organisatie, belangrijke kernwoorden
13. STT Benchmark - methodologie
STT solutions
● SaaS: Speechmatics, Amberscript, Notubiz, Scriptix, Azure
● Whisper: OpenSource multi-language STT model (Open AI)
Benchmark tool
● Gebaseerd op EBU benchmark-stt
● WER (Word Error Rate): hoe lager, hoe minder fouten in de transcriptie
● Verschillende WER scenarios: no-stopwords, keywords (PER, LOC, ORG, KEY, ALL)
● 4 kwaliteitsklasses: Excellent (0-0.1), Good (0.1, 0.2), Average (0.2-0.3), Poor (>0.3)
● Totale kwaliteitsscore: gebaseerd op hoeveel files onder welke kwaliteitsklasse vallen
● Enkel kwaliteit van hoofdcategorieën telt mee voor kwaliteitsscore
14. STT Benchmark - results
Conclusie: Speechmatics heeft de beste transcriptiekwaliteit
15. ● Gezichten identificeren en herkennen in video (> 100k uur)
○ Grote volumes gezichten, grote volume aan data
● Referentieset: te herkennen gezichten
○ Hoe gaan we die samenstellen?
○ Hoe beheren?
○ Gedeelde referentieset?
● Vaak voorkomende gezichten, niet gelinkt aan referentieset
○ Kunnen we hier rond functionaliteit uitbouwen?
○ Bvb. top X meest voorkomende gezichten in je collectie
○ Opportuniteit om referentieset uit te breiden.
Gezichtsherkenning - Wat willen we?
16. ● Analyse
○ Kopen?
■ Marktbevraging
■ Wat kan op dit moment?
■ Wat is de kost?
○ Bouwen
■ Kunnen we verder op FAME bouwen?
■ Wat is de kost?
● Ethische aspecten & betrokkenheid gebruikers
○ Functionele analyse ism. werkgroep
○ Kenniscentrum data & maatschappij
Gezichtsherkenning - Aanpak
17. Gezichtsherkenning - kopen vs bouwen
● Kopen
○ Marktbevraging
■ AWS
■ Azure
■ Vicarvision
○ Kosten
■ Operationele kost
■ Relatief duur
○ Meer geavanceerde cases zijn
moeilijker te realiseren
○ Privacy & ethiek
● Bouwen
○ Meer vrijheden
○ Meer op maat van onze use cases /
content partners
○ Technische uitdagingen
■ Kan het überhaupt?
■ Welke modellen zijn nodig?
■ Zijn ze open source?
○ Wat zou de kost zijn om dit te
bouwen?
Uiteindelijk gekozen om dit te bouwen, vertrekkende van FAME
18. Gezichtsherkenning - bouwen op FAME
● FAME
○ Gezichtsherkenning op vnl. foto.
○ Reeds uitgebreide referentieset samengesteld
○ Basisflow voor detectie en herkenning uitgewerkt
○ Heel wat privacy aspecten onderzocht
● Uitdagingen
○ Schaal (foto vs. video)
○ Matching algoritme helemaal anders (geen validatie)
○ Gedeelde referentieset vs referentieset per partner
○ GiVE = geen research (bvb. gebruik modellen zoals insightface)
19. Bouw pipeline
● Team externe consultants (Cronos, IT Planet, Ordina)
○ specialisten AI + Machine Learning
○ programmeur workflows
○ functionele analist (referentie set beheer)
○ project management
● Samenwerking met werkgroep
○ Sessies rond parametrisering
○ Uitgebreide functionele analyse: wat willen jullie?
20. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Detecteer gezichten in 1 frame
21. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Bereken fingerprint van elke face
22. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Volg een gezicht van een persoon over meerdere frames binnen 1 shot tot trackers
Tracker Tracker
23. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Cluster groepen van gevolgde gezichten (trackers) bij elkaar tot personen
Tracker 1
Tracker 0
Persoon 0
24. Gezichtsherkenning - Video Pipeline
Face Detection Face Tracking Face Clustering
Face Embedding Face Identification
Video pipeline
Faces Persoon 0
Goede gelijkenis
Zelfde persoon
Subset obv
kwaliteit
25. Gezichtsherkenning - parameters
Gezichtskwaliteit
● Box-grootte
● Pose (landmarks)
● Belichting
● Blurriness
● Confidence
Schermtijd
● Duur van gezicht binnen 1 shot (tracker)
● Aantal keer dat gezicht terugkomt (aantal trackers per persoon)
● Totale schermtijd van 1 persoon in video
26. Nu: parametrisering met werkgroep
Oranje gezichten komen te kort voor (bv. kort shot binnen reportage);
gezichten in de achtergrond leveren vaak geen metadata op omdat ze te
klein zijn
05:48
http://give-face-
qas.private.cloud.meemoo.be/task_results/baba7b5ef1d2459180c2ea8fffa49d02cf2aed7b29ba41758f43c7e1eae
457a1b6a6377d6b4d4e2c8b032c69a4597bbc_af862059c93c6475d5320919c7c48b7d
2:00 http://give-face-
qas.private.cloud.meemoo.be/task_results/99496d03b4904e1fa23c6b0a203d36db8651dc32f64049bb995ffd93d
bc395c28cb9a1f48db84a5c9b10192aba6e9d2c_af862059c93c6475d5320919c7c48b7d
27. Referentieset en gebruik van tooling
● Basis: FAME referentieset
○ Foto's te herkennen personen
○ Identifiers met link naar publieke bronnen waar mogelijk
● Interviews + sessie werkgroep leden
○ Wat moeten we kunnen in het beheer van de ref set?
○ Wat willen we precies kunnen?
● Doel: gedeelde visie
○ Achterliggende processen
○ Daaruit: vereisten voor de software + wireframes
28. Referentieset - voorlopige resultaten
● Gedeeld beheer door CP's
○ Geen ownership van de data
○ Gebruikers kunnen alle referentie set entries aanpassen
○ Wel gedetailleerd inzicht in historiek en aanpassingen
● Links naar zowel publieke als private bronnen
○ Bvb. wikidata
○ Bvb. interne identifiers
● Begeleiding van de beheerders
○ Richtlijnen / checks op fotokwaliteit
31. Metadata uit machine learning is dynamisch (processen
verbteren, nieuwe referentiepersonen, etc.)
Welke “provenance” data en historiek biedt meerwaarde voor
content partners ?
- aanmaak (metadata door AI of manueel aangemaakt)
- datum
- indien manueel: naam van persoon, organisatie
- specifieke AI meta
- Spraak: API version
- Gezicht: model version
- versioning & granulariteit per update
- Gezicht:
- herkende personen toegevoegd aan metadata file ?
(Meta) Metadata
32. ● NER - analyse loopt op dit moment
● Voorjaar 2023
○ Opstart pipeline spraakherkenning
○ Opstart pipeline gezichtsdetectie
○ Opstart pipeline NER
● Eind 2023
○ Ter beschikking stellen resultaten aan partners.
○ Finale resultaten / deliverables beschikbaar
Verder werk
33. Dit project kadert binnen het relanceplan Vlaamse Veerkracht en wordt
gerealiseerd met de steun van het Europees Fonds voor Regionale Ontwikkeling.