SlideShare a Scribd company logo
1 of 25
Het begin
• 2017 Launch event van project INSIGHT (Federaal
Wetenschapsbeleid) BRAIN-project
̶ Benoit Seguin
̶ Machine Learning bij digitalisatie prenten
• Besef dat technologie in staat is om afbeeldingen te
interpreteren, zaken er in te herkennen.
5
Intussen
6
Tekstherkenning
Mobiele
fotografie
Gebruiksvriendelijke AI
– Machine Learning
Automatische
onderwerpsontsluiting Entiteiten extractie
Retrocatalografieproject
• KBR, nationale Bibliotheek van België
• 5 miljoen boeken, waarvan ongeveer 3 miljoen in de
online catalogus
• Project: hiaat opvullen
• Idee: scan/foto van titelpagina, en we extraheren al de
informatie uit de titelpagina (auteur, titel, uitgever,
auteur, jaar, plaats).
7
Retrocatalografieproject
• Talrijke tools op de markt
̶ Detectie van gegevens uit facturen
̶ ‘Custom model’: tests gaven vertrouwen in methode voor
titelpagina’s
• Maar voor KBR belangrijk
̶ Gebruiksvriendelijke tool voor menselijke validatie
̶ Harmonieuze ICT-infrastructuur (ingebed in bestaande omgeving)
8
10
11
In Batch (via sharepoint)
12
13
Auteur – Titel - Uitgever Auteur – Titel – 2 Uitgevers Titel - Auteur
Linked Data
Databanken
Artificiële Intelligentie
15
16
Titel, auteur, uitgever, jaar
ISBN, uitgever, jaar, wettelijk
depotnummer, medewerkers,
originele titel, edititie, copyright,
ISNI(?)
Achterflaptekst
HTTP Queries
• Gedetecteerde metadata gebruiken voor
verrijkingszoekopdrachten
̶ ISBN  externe databanken (KBR, BNF, DNB)
̶ Auteur  ISNI
̶ Titel en auteur  VIAF Work-identifier
17
Onderwerpsontsluiting
• Technologie: Annif (Finland), taggen van teksten
̶ Eigen model:
• Model trainen met vooraf vastgelegde termen en voorbeeldteksten per term
(Annif, Microsoft model)
• Kan op basis van eenvoudige excel
̶ Of ChatGPT
• Nadeel: geen grip op de gebruikte termen
• Voordeel: veel sterker
18
Trainingset
19
Onderwerpsontsluiting
• Hierarchisch systeem
̶ Model 1 : Eerst algemene classificatie, vb ‘Geschiedenis’
̶ Model 2 : Specifieke termen met betrekking tot geschiedenis
• Testfase
20
21
22
23
Impact
• Snelle herkenning, en dit in vele talen en scripts
(Arabisch, Cyrillisch, enz)
• Taken catalograaf zal veranderen:
̶ Onderhouden Linked Data (ISNI, VIAF, enz) cruciaal voor correcte
automatisatie.
̶ Output monitoren, bijstellen, bijtrainen
̶ Meer ‘high-level’-taken
24
Het gebruik van AI bij het catalogiseren van boeken in KBR

More Related Content

Similar to Het gebruik van AI bij het catalogiseren van boeken in KBR

Similar to Het gebruik van AI bij het catalogiseren van boeken in KBR (20)

Introductie 24/11/14
Introductie 24/11/14Introductie 24/11/14
Introductie 24/11/14
 
LIBISnet Gebruikersdag 01062017 - Nieuws vanuit LIBIS
LIBISnet Gebruikersdag 01062017 - Nieuws vanuit LIBISLIBISnet Gebruikersdag 01062017 - Nieuws vanuit LIBIS
LIBISnet Gebruikersdag 01062017 - Nieuws vanuit LIBIS
 
Walther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief LeidenWalther Hasselo - Regionaal Archief Leiden
Walther Hasselo - Regionaal Archief Leiden
 
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
 
Marco de Niet
Marco de NietMarco de Niet
Marco de Niet
 
Presentatie 20091216
Presentatie 20091216Presentatie 20091216
Presentatie 20091216
 
Relancevoorstellen - partnerevent voorjaar 2021
Relancevoorstellen - partnerevent voorjaar 2021Relancevoorstellen - partnerevent voorjaar 2021
Relancevoorstellen - partnerevent voorjaar 2021
 
Archiefdagen 2019 Presentatie Stadsarchief Amsterdam
Archiefdagen 2019 Presentatie Stadsarchief AmsterdamArchiefdagen 2019 Presentatie Stadsarchief Amsterdam
Archiefdagen 2019 Presentatie Stadsarchief Amsterdam
 
BIB-IN-TOUCH Informatie aan Zee 2013
BIB-IN-TOUCH  Informatie aan Zee  2013BIB-IN-TOUCH  Informatie aan Zee  2013
BIB-IN-TOUCH Informatie aan Zee 2013
 
BIB-in-TOUCH
BIB-in-TOUCHBIB-in-TOUCH
BIB-in-TOUCH
 
De Nieuwe Antwerpenaar
De Nieuwe AntwerpenaarDe Nieuwe Antwerpenaar
De Nieuwe Antwerpenaar
 
Collegagroep digitale collectieregistratie
Collegagroep digitale collectieregistratieCollegagroep digitale collectieregistratie
Collegagroep digitale collectieregistratie
 
Lennertholvoet danny d'hondt_ppt
Lennertholvoet danny d'hondt_pptLennertholvoet danny d'hondt_ppt
Lennertholvoet danny d'hondt_ppt
 
Digitaal mobiel-genetwerkt - workshop
Digitaal mobiel-genetwerkt - workshopDigitaal mobiel-genetwerkt - workshop
Digitaal mobiel-genetwerkt - workshop
 
Bert Lemmens: Het VKC Ecosysteem
Bert Lemmens: Het VKC EcosysteemBert Lemmens: Het VKC Ecosysteem
Bert Lemmens: Het VKC Ecosysteem
 
Bert Lemmens - VKC ecosysteem
Bert Lemmens - VKC ecosysteemBert Lemmens - VKC ecosysteem
Bert Lemmens - VKC ecosysteem
 
Data-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijkData-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijk
 
Partnerdag Lukas-Art in Flanders : ‘Blauwdruk gedistribueerd beeldbeheer’ doo...
Partnerdag Lukas-Art in Flanders : ‘Blauwdruk gedistribueerd beeldbeheer’ doo...Partnerdag Lukas-Art in Flanders : ‘Blauwdruk gedistribueerd beeldbeheer’ doo...
Partnerdag Lukas-Art in Flanders : ‘Blauwdruk gedistribueerd beeldbeheer’ doo...
 
Big Data en Open Data
Big Data en Open DataBig Data en Open Data
Big Data en Open Data
 
LIBIS gebruikersdag - Teneo Update
LIBIS gebruikersdag - Teneo UpdateLIBIS gebruikersdag - Teneo Update
LIBIS gebruikersdag - Teneo Update
 

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD)

More from Vlaamse Vereniging voor Bibliotheek, Archief & Documentatie vzw (VVBAD) (20)

Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -Presentatie AHD studiedag Leeszaalmedewerkers -
Presentatie AHD studiedag Leeszaalmedewerkers -
 
ChatGPT, chatboxes en het einde van de databases
ChatGPT, chatboxes en het einde van de databasesChatGPT, chatboxes en het einde van de databases
ChatGPT, chatboxes en het einde van de databases
 
Connecting libraries to EU resources
Connecting libraries to EU resourcesConnecting libraries to EU resources
Connecting libraries to EU resources
 
Ben je klaar voor innovatie?
Ben je klaar voor innovatie?Ben je klaar voor innovatie?
Ben je klaar voor innovatie?
 
Hoe maak ik mijn project impactvol?
Hoe maak ik mijn project impactvol?Hoe maak ik mijn project impactvol?
Hoe maak ik mijn project impactvol?
 
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
Connecteren faciliteren in hoger onderwijs, welke rol heeft de bibliotheek?
 
Netwerken bij Informatie aan Zee
Netwerken bij Informatie aan ZeeNetwerken bij Informatie aan Zee
Netwerken bij Informatie aan Zee
 
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
Islamtisch (religieus) erfgoed. Waar liggen de uitdagingen en kansen?
 
Waarderen van archieven
Waarderen van archievenWaarderen van archieven
Waarderen van archieven
 
Okapi2-Vlaanderen een hulp richting data driven management
Okapi2-Vlaanderen een hulp richting data driven managementOkapi2-Vlaanderen een hulp richting data driven management
Okapi2-Vlaanderen een hulp richting data driven management
 
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
Van experiment naar structurele oplossing: gezichtsherkenning in functie van ...
 
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
Droomhuis of luchtkasteel: De verbouwing van de Nederlandse informatiehuishou...
 
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
Participative Registration of Intangible Cultural Heritage on immaterieelerfg...
 
Een MaakBib voor iedereen in elke bib
Een MaakBib voor iedereen in elke bibEen MaakBib voor iedereen in elke bib
Een MaakBib voor iedereen in elke bib
 
De bib als derde plek? Ja, selvølgelig
De bib als derde plek? Ja, selvølgeligDe bib als derde plek? Ja, selvølgelig
De bib als derde plek? Ja, selvølgelig
 
ZB Bibliotheek van Zeeland maakt het verschil
ZB Bibliotheek van Zeeland maakt het verschilZB Bibliotheek van Zeeland maakt het verschil
ZB Bibliotheek van Zeeland maakt het verschil
 
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
Hybriditeit als uitgangspunt: de vernieuwde leeszaal van het ModeMuseum Antwe...
 
De bib is mens- en buurtversterkend
De bib is mens- en buurtversterkendDe bib is mens- en buurtversterkend
De bib is mens- en buurtversterkend
 
Van registratie naar valorisatie: collectieregistratie in de diepte als katal...
Van registratie naar valorisatie: collectieregistratie in de diepte als katal...Van registratie naar valorisatie: collectieregistratie in de diepte als katal...
Van registratie naar valorisatie: collectieregistratie in de diepte als katal...
 
De samenleving gewaardeerd
De samenleving gewaardeerdDe samenleving gewaardeerd
De samenleving gewaardeerd
 

Het gebruik van AI bij het catalogiseren van boeken in KBR

  • 1.
  • 2.
  • 3.
  • 4.
  • 5. Het begin • 2017 Launch event van project INSIGHT (Federaal Wetenschapsbeleid) BRAIN-project ̶ Benoit Seguin ̶ Machine Learning bij digitalisatie prenten • Besef dat technologie in staat is om afbeeldingen te interpreteren, zaken er in te herkennen. 5
  • 6. Intussen 6 Tekstherkenning Mobiele fotografie Gebruiksvriendelijke AI – Machine Learning Automatische onderwerpsontsluiting Entiteiten extractie
  • 7. Retrocatalografieproject • KBR, nationale Bibliotheek van België • 5 miljoen boeken, waarvan ongeveer 3 miljoen in de online catalogus • Project: hiaat opvullen • Idee: scan/foto van titelpagina, en we extraheren al de informatie uit de titelpagina (auteur, titel, uitgever, auteur, jaar, plaats). 7
  • 8. Retrocatalografieproject • Talrijke tools op de markt ̶ Detectie van gegevens uit facturen ̶ ‘Custom model’: tests gaven vertrouwen in methode voor titelpagina’s • Maar voor KBR belangrijk ̶ Gebruiksvriendelijke tool voor menselijke validatie ̶ Harmonieuze ICT-infrastructuur (ingebed in bestaande omgeving) 8
  • 9.
  • 10. 10
  • 11. 11
  • 12. In Batch (via sharepoint) 12
  • 13. 13 Auteur – Titel - Uitgever Auteur – Titel – 2 Uitgevers Titel - Auteur
  • 15. 15
  • 16. 16 Titel, auteur, uitgever, jaar ISBN, uitgever, jaar, wettelijk depotnummer, medewerkers, originele titel, edititie, copyright, ISNI(?) Achterflaptekst
  • 17. HTTP Queries • Gedetecteerde metadata gebruiken voor verrijkingszoekopdrachten ̶ ISBN  externe databanken (KBR, BNF, DNB) ̶ Auteur  ISNI ̶ Titel en auteur  VIAF Work-identifier 17
  • 18. Onderwerpsontsluiting • Technologie: Annif (Finland), taggen van teksten ̶ Eigen model: • Model trainen met vooraf vastgelegde termen en voorbeeldteksten per term (Annif, Microsoft model) • Kan op basis van eenvoudige excel ̶ Of ChatGPT • Nadeel: geen grip op de gebruikte termen • Voordeel: veel sterker 18
  • 20. Onderwerpsontsluiting • Hierarchisch systeem ̶ Model 1 : Eerst algemene classificatie, vb ‘Geschiedenis’ ̶ Model 2 : Specifieke termen met betrekking tot geschiedenis • Testfase 20
  • 21. 21
  • 22. 22
  • 23. 23
  • 24. Impact • Snelle herkenning, en dit in vele talen en scripts (Arabisch, Cyrillisch, enz) • Taken catalograaf zal veranderen: ̶ Onderhouden Linked Data (ISNI, VIAF, enz) cruciaal voor correcte automatisatie. ̶ Output monitoren, bijstellen, bijtrainen ̶ Meer ‘high-level’-taken 24

Editor's Notes

  1. Het moest een ssyteem zijn die snel kon worden ontwikkeld , dat kwalitatief was en goede resultaten, en dus dus meteen resultaten gaf voor onze organisaties. Na wat zoeken kwamen we uit bij Windows power platform, een ecosysteem binnen microsoft waar je low code apps kan maken, Dit had het grote voordeel dat Power platform volledig geintegreerd is binnen de Microsoft 365 omgeving, waar we in KBR sinds kort naar zijn overgeschakeld.
  2. TOEKOMST: deze manier van werken leerde ons dat zowel papieren document als electronische (pdfs) kunnen omgezet worden naar een machine-leesbaar document, dat, via automatische zoekopdrachten kan gematcht worden met andere databanken, verrijkt op basis van deze gegevens, of verrijkt met Linked open data. En dat geldt niet enkel voor boeken. In KBR kan dezelfde manier van werken ook gebruikt worden voor andere type documenten (Brieven vb, oude drukken). De data-extractie via AI helpt om ons einddoel, geconnecteerde linked records te maken, De toekomst voor ons is automatisering, standaardiseering (weg met menselijke varianten), en automatische verrijking, linken met andere thesauri (in bibliotheekwereld belangrijk)