Robert Aspenskog, M.A. Digital Humaniora & Historie
Projekt- og forskningsassistent
robert.aspenskog@kultur.lu.se
Svensk Modernitet i Maskinernes Øjne
Moderna Tider 1936
I dag
● Introduktion til projektet
● Multimodale AI-modeller: navigere visuelle samlinger
● Transkriberet video: fjernlæsning af audiovisuelle arkiv
Hvad ser, hører og opfatter AI-
modeller, når de anvendes på
mediehistoriske kilder? Alt historisk
arbejde kræver fortolkning, men hvilke
algoritmiske fortolkninger af
modernitet frembringer software fra
historiske arkiver?
Moderna Tider 1936 er empirisk
forankret i hverdagsoplevelser og har
til formål at undersøge, hvordan
maskiner fortolker symboler på
modernitet i medier fra omkring
1930erne. Ved at anvende fotografiske
og audiovisuelle samlinger søger
Moderna Tider 1936 at afdække, hvordan
computationale metoder kan – og ikke
kan – hjælpe os med at forstå
modernitet på nye måder.
Moderna Tider 1936 – Baggrund
● Ledes af Pelle Snickars, professor i digitale kulturer
● Finansieret af Riksbankens Jubileumsfond (RJ), 2022–2025
● Studerer hvordan maskiner tolker hverdaglige symboler for
modernitet i mediearkivmateriale fra 1930erne
● Egentlig alt materiale som ikke er traditionelt
tekstmateriale
● Opgave: Finde fotografier af restaurantinteriører fra
1930erne
● Data: 80,000 digitiserede fotografier, tilgængelige via
DigitaltMuseum.se
● Ofte manglende metadata
● Værktøj: OpenAI’s CLIP (Contrastive Language-Image Pre-
Training)
● Logit value som sandsynlighedsværdi mellem captions og
billeder
● Logit tærskel
Multimodale AI-modeller til at navigere fotosamlinger
Multimodale AI-modeller til at navigere fotosamlinger
Multimodale AI-modeller til at navigere fotosamlinger
● Grid search – Captions:
● Grid search – Logit values: 13-27 i trin
om 0.5 = 435 kombinationer.
Multimodale AI-modeller til at navigere fotosamlinger
● “A black-and-white
photograph of a 1930s
restaurant interior” +
logit tærskel 20
● 5,986 billeder (7%)
● 534 billeder af
restaurantinteriører
● 210 søgeresultat i
DigitaltMusem
● = Manglende metadata
Multimodale AI-modeller til at navigere fotosamlinger:
’Relevante’ false positives
Fjernlæsning af svensk journalfilm
● Distant reading (Moretti, 2000): computerbaserede metoder på
litterære data
● Storskala tekstanalyse af videoindhold
● Fjernlæsning af nyhedsfilmer kan sige rigtig meget om en
tidsperiode – for os, om hvordan svensk modernitet medieredes i
1930erne
● Det gør video søgbar
Fjernlæsning af svensk journalfilm
Fjernlæsning af svensk journalfilm
● SweScribe
● WhisperX (OpenAI)
● Wav2vec2 (KBLab)
● Startede med 27 manuelt
transkriberede videoer som
”ground truth”
● WER (Word Error Rate) i
starten: ~20%
● WER nu: ~8% – inklusive
egennavn
Fjernlæsning af svensk journalfilm – Udfordringer
● Navn
● Lydkvalitet
● Slangord
● Gammeldags ord
Fjernlæsning af svensk journalfilm – Artefakter
● AI-modellen ”hallucinerer”
● Typisk ved støj eller musik
● Løsning: Filtrering
Robert Aspenskog, M.A. Digital Humaniora & Historie
Projekt- og forskningsassistent
robert.aspenskog@kultur.lu.se
Tak!
Spørgsmål?

-Moderna tider - et AI forskningsprojekt

  • 1.
    Robert Aspenskog, M.A.Digital Humaniora & Historie Projekt- og forskningsassistent robert.aspenskog@kultur.lu.se Svensk Modernitet i Maskinernes Øjne Moderna Tider 1936
  • 2.
    I dag ● Introduktiontil projektet ● Multimodale AI-modeller: navigere visuelle samlinger ● Transkriberet video: fjernlæsning af audiovisuelle arkiv
  • 3.
    Hvad ser, hørerog opfatter AI- modeller, når de anvendes på mediehistoriske kilder? Alt historisk arbejde kræver fortolkning, men hvilke algoritmiske fortolkninger af modernitet frembringer software fra historiske arkiver? Moderna Tider 1936 er empirisk forankret i hverdagsoplevelser og har til formål at undersøge, hvordan maskiner fortolker symboler på modernitet i medier fra omkring 1930erne. Ved at anvende fotografiske og audiovisuelle samlinger søger Moderna Tider 1936 at afdække, hvordan computationale metoder kan – og ikke kan – hjælpe os med at forstå modernitet på nye måder.
  • 4.
    Moderna Tider 1936– Baggrund ● Ledes af Pelle Snickars, professor i digitale kulturer ● Finansieret af Riksbankens Jubileumsfond (RJ), 2022–2025 ● Studerer hvordan maskiner tolker hverdaglige symboler for modernitet i mediearkivmateriale fra 1930erne ● Egentlig alt materiale som ikke er traditionelt tekstmateriale
  • 5.
    ● Opgave: Findefotografier af restaurantinteriører fra 1930erne ● Data: 80,000 digitiserede fotografier, tilgængelige via DigitaltMuseum.se ● Ofte manglende metadata ● Værktøj: OpenAI’s CLIP (Contrastive Language-Image Pre- Training) ● Logit value som sandsynlighedsværdi mellem captions og billeder ● Logit tærskel Multimodale AI-modeller til at navigere fotosamlinger
  • 6.
    Multimodale AI-modeller tilat navigere fotosamlinger
  • 7.
    Multimodale AI-modeller tilat navigere fotosamlinger ● Grid search – Captions: ● Grid search – Logit values: 13-27 i trin om 0.5 = 435 kombinationer.
  • 8.
    Multimodale AI-modeller tilat navigere fotosamlinger ● “A black-and-white photograph of a 1930s restaurant interior” + logit tærskel 20 ● 5,986 billeder (7%) ● 534 billeder af restaurantinteriører ● 210 søgeresultat i DigitaltMusem ● = Manglende metadata
  • 9.
    Multimodale AI-modeller tilat navigere fotosamlinger: ’Relevante’ false positives
  • 10.
  • 11.
    ● Distant reading(Moretti, 2000): computerbaserede metoder på litterære data ● Storskala tekstanalyse af videoindhold ● Fjernlæsning af nyhedsfilmer kan sige rigtig meget om en tidsperiode – for os, om hvordan svensk modernitet medieredes i 1930erne ● Det gør video søgbar Fjernlæsning af svensk journalfilm
  • 12.
    Fjernlæsning af svenskjournalfilm ● SweScribe ● WhisperX (OpenAI) ● Wav2vec2 (KBLab) ● Startede med 27 manuelt transkriberede videoer som ”ground truth” ● WER (Word Error Rate) i starten: ~20% ● WER nu: ~8% – inklusive egennavn
  • 13.
    Fjernlæsning af svenskjournalfilm – Udfordringer ● Navn ● Lydkvalitet ● Slangord ● Gammeldags ord
  • 14.
    Fjernlæsning af svenskjournalfilm – Artefakter ● AI-modellen ”hallucinerer” ● Typisk ved støj eller musik ● Løsning: Filtrering
  • 15.
    Robert Aspenskog, M.A.Digital Humaniora & Historie Projekt- og forskningsassistent robert.aspenskog@kultur.lu.se Tak! Spørgsmål?