Het gebruik van AI bij het catalogiseren van boeken in KBR
1.
2.
3.
4.
5. Het begin
• 2017 Launch event van project INSIGHT (Federaal
Wetenschapsbeleid) BRAIN-project
̶ Benoit Seguin
̶ Machine Learning bij digitalisatie prenten
• Besef dat technologie in staat is om afbeeldingen te
interpreteren, zaken er in te herkennen.
5
7. Retrocatalografieproject
• KBR, nationale Bibliotheek van België
• 5 miljoen boeken, waarvan ongeveer 3 miljoen in de
online catalogus
• Project: hiaat opvullen
• Idee: scan/foto van titelpagina, en we extraheren al de
informatie uit de titelpagina (auteur, titel, uitgever,
auteur, jaar, plaats).
7
8. Retrocatalografieproject
• Talrijke tools op de markt
̶ Detectie van gegevens uit facturen
̶ ‘Custom model’: tests gaven vertrouwen in methode voor
titelpagina’s
• Maar voor KBR belangrijk
̶ Gebruiksvriendelijke tool voor menselijke validatie
̶ Harmonieuze ICT-infrastructuur (ingebed in bestaande omgeving)
8
17. HTTP Queries
• Gedetecteerde metadata gebruiken voor
verrijkingszoekopdrachten
̶ ISBN externe databanken (KBR, BNF, DNB)
̶ Auteur ISNI
̶ Titel en auteur VIAF Work-identifier
17
18. Onderwerpsontsluiting
• Technologie: Annif (Finland), taggen van teksten
̶ Eigen model:
• Model trainen met vooraf vastgelegde termen en voorbeeldteksten per term
(Annif, Microsoft model)
• Kan op basis van eenvoudige excel
̶ Of ChatGPT
• Nadeel: geen grip op de gebruikte termen
• Voordeel: veel sterker
18
24. Impact
• Snelle herkenning, en dit in vele talen en scripts
(Arabisch, Cyrillisch, enz)
• Taken catalograaf zal veranderen:
̶ Onderhouden Linked Data (ISNI, VIAF, enz) cruciaal voor correcte
automatisatie.
̶ Output monitoren, bijstellen, bijtrainen
̶ Meer ‘high-level’-taken
24
Editor's Notes
Het moest een ssyteem zijn die snel kon worden ontwikkeld , dat kwalitatief was en goede resultaten, en dus dus meteen resultaten gaf voor onze organisaties.
Na wat zoeken kwamen we uit bij Windows power platform, een ecosysteem binnen microsoft waar je low code apps kan maken,
Dit had het grote voordeel dat Power platform volledig geintegreerd is binnen de Microsoft 365 omgeving, waar we in KBR sinds kort naar zijn overgeschakeld.
TOEKOMST: deze manier van werken leerde ons dat zowel papieren document als electronische (pdfs) kunnen omgezet worden naar een machine-leesbaar document, dat, via automatische zoekopdrachten kan gematcht worden met andere databanken, verrijkt op basis van deze gegevens, of verrijkt met Linked open data. En dat geldt niet enkel voor boeken. In KBR kan dezelfde manier van werken ook gebruikt worden voor andere type documenten (Brieven vb, oude drukken). De data-extractie via AI helpt om ons einddoel, geconnecteerde linked records te maken,
De toekomst voor ons is automatisering, standaardiseering (weg met menselijke varianten), en automatische verrijking, linken met andere thesauri (in bibliotheekwereld belangrijk)