4. Chilanga Cement / Flickr
Automatisering av arbetarklassens jobb —> grunden för ett modernt samhälle
Befarad automatisering av medelklassens jobb —> mänsklighetens undergång
… och kulturkrönikor
9. KB som samhällsminne
• Anrika lokaler på Humlegården
• Stora, välordnade samlingar
• Används för traditionella
undersökningar inom humsam
forskning
10. KB-labb däremot…
• Vanligt kontorslokal på Karlavägen
• ”Stökig” miljö med hårdvara och
kablar överallt
• Nytt, laborativt arbetssätt för ett
bibliotekssammanhang
12. 1) Forskningsinfrastruktur
• Tillgängliggör samlingarna i
strukturerad, kvantitativ form
istället för enskilda objekt
• Tillgång till KB:s data i labbmiljö
• Möjliggör storskalig forskning av
KB:s digitala samlingar
13. 2) Metodutveckling på biblioteket
• KB hanterar och beskriver
mycket data som pliktmottagare
• AI som hjälpmedel för att
effektivisera detta arbete
• Exemplet ”bildsök” och AI-
genererat metadata och sök
14. 3) Samlingsbaserade AI-modeller
• Använder samlingarna för att
skapa AI-modeller på svenska
• Bredd och djup i KB:s data
möjliggör säkra och kvalitativa
modeller
• ”KB-BERT”, vår version av
Googles språkmodell, släpptes
våren 2020.
• … och många fler
19. Produktivt samspel
• KB:s digitala samlingar som grund för
nya AI verktyg
• AI verktyg tillåter nya sätt att söka i
och utforska samlingarna
• Exemplet: tal-till-text för att komma åt
ljudmaterial utan metadata
30. Exempel #3 - Automatiserat skapande av
ämnessystem
31. Maskinell klassificering
• I någon mening ett löst problem givet bra
data
• Initiala försök gav blandade resultat
• Genuin förvirring i systemet vilket är svårt för
maskinen att hantera
• Jäv / bias ett stort problem
Vi börjar med en bild som ni säkert känner igen. Här är KB, Sveriges nationalbibliotek.
Satt i den fina omgivningen på Humlegården, är KB ett monument till vissa 1800-talets ideer om insamling av det nationella kulturarvet.
Det är fina, anrika lokaler med rika, historiska samlingar.
Än idag besöks det oftast av forskare inom humaniora som vill använda sig av materialet.
Här har vi en annan bild, denna gang en vanlig kontorslokal. Här sitter vi på KB-labb, på Karlavägen där biblioteket har sina audiovisuella samlingar.
Med den här bilden har vi kommit långt ifrån den ordning och reda och de fina läsesalar som finns på Humlegården. Här ser vi kartonger för hårddiskar på golvet och kablar lite överallt.
Kontrasten mellan dessa två bilder säger något om KB-labb, att det är ett nytt sätt att jobba i ett bibliotekssammanhang.
Ett annat sätt att prata om denna kontrast är att fråga varför KB har ett datalabb?
Varför har en tillsynes traditionell kulturarvsinstitution börjat syssla med AI utveckling och data science?
Och vad är det vi gör på labbet? Det är lite svar till dessa frågor som kommer att visas upp i denna presentation
Labbet etablerades för snart 4 år sedan för att göra framförallt två saker. Den första var för att vara en forskningsinfrastruktur för storskalig digital forskning inom humaniora och samhällsvetenskap.
Labbet skulle möjliggöra storskalig analys genom att tillgängliggöra samlingar i strukturerad, kvantitativ form.
Den andra sak som labbet skulle göra var för att stödja metodutveckling och innovation inom AI på biblioteket.
Som nationalbibliotek hanterar, organiserar och beskriver KB väldigt mycket data. Tanken var att AI skulle kunna användas som hjälpmedel för att göra detta mer sökbart.
Arbetet med dessa första två punkter ledde snabbt fram till en tredje uppgift för labbet: att använda KB:s samlingar för att skapa Open Access AI-modeller.
Vi tog fram vår första BERT-modell för 3 år sedan och det har haft stora konsekvenser för hur vi jobbar.
Det öppnade för många nya samarbeten och att träna nya AI-modeller har nu blivit ett prioriterat område för oss.
Genom pliktleverans så sitter KB på enorma mängder radio och tv material från 1900-talet. Men det som gjort det svårt hittills att ta sig an detta forskningsmässigt är brist på metadata: i många fall är det enda info vi har det som stod i tv-tabeller om vad som skulle sändas, vi vet inget om själva innehållet. Det betyder att en forskare inte kan söka i materialet, mer än att själv sitter och lyssna eller titta på varje avsnitt.
Nya utvecklingar inom tal-till-text teknologi kan ändra detta radikalt. Med hjälp av de akustiska modeller vi har tränat på KB-labb kan ljudfilmer omvandlas till text transkriptioner, vilket i sin tur möjliggör fritextsökning. Så om vi tittar på den här bilden kan se information för P3 den 1e mars 1986, att det planerade innehållet var nyheter och lugn musik, vilket är vad en forskare i nuläget skulle få veta om filen.
Om vi använder AI för att göra materialet sökbart efter innehåll får vi fram en helt annan bild, dock.
Det som visas här är sökträffar efter termen ”Olof Palme” på radiosändningar från denna period. Som vi kan se så var det andra saker som inträffade denna kväll än just lugn musik.
Det är alltså en teknik som öppnar för ny forskning. Vi har haft ett projekt på labbet som använt detta för att analysera tv-programmet ”Anslagstavlan” på skala samt ett annat projekt som kommer att använda detta för att utforska ”terror” i audiovisuellt material. Så det är på gång.