Cageweb Informatie2001

541 views
464 views

Published on

Presentation by Lieven Devos at Informatie 2001 about the CaGeWeb project, digization of a card catalogue, in collaboration with UGent (Ghent University Library)

Published in: Technology, Travel, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
541
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cageweb Informatie2001

  1. 1. Het conversieproject van Cageweb vzw digitalisering van een steekkaartencatalogus ter ontsluiting van waardevol erfgoed Lieven De Vos Hogeschool Gent
  2. 2. Cageweb vzw: collecties en catalogi <ul><li>Cageweb = Catalogus Gentse Wetenschappelijke Bibliotheken </li></ul><ul><li>in 1979 gesticht door wijlen Emiel Wille, ere-conservator van de Gentse universiteitsbibliotheek </li></ul><ul><li>12 Gentse archieven, bibliotheken en musea </li></ul><ul><li>rijke collecties (15e-20e eeuw): incunabelen, biblia, partituren, iconografisch materiaal, devotieliteratuur, persknipsels, ... </li></ul><ul><li>diverse lokale catalogussystemen </li></ul><ul><li>gezamenlijke catalogus sinds 1979: </li></ul><ul><ul><li>ongeveer 350.000 steekkaarten </li></ul></ul><ul><ul><li>cataloguszaal van de Centrale Bibliotheek van de Universiteit Gent </li></ul></ul><ul><ul><li>B.T.K.-projecten, nadien periodieke aanvullingen </li></ul></ul>
  3. 3. Cageweb vzw: leden <ul><li>Archief en Museum van de Socialistische Arbeidersbeweging </li></ul><ul><li>Augustijnenklooster St. Stefanus </li></ul><ul><li>Bisschoppelijk Seminarie </li></ul><ul><li>Conservatorium Gent </li></ul><ul><li>Klooster der Dominicanen </li></ul><ul><li>Klooster Paters Ongeschoeide Karmelieten </li></ul><ul><li>Koninklijke Academie voor Nederlandse Taal- en Letterkunde </li></ul><ul><li>Koninklijke Bond der Oost-Vlaamse Volkskundigen </li></ul><ul><li>Liberaal Archief </li></ul><ul><li>Museum Arnold vander Haeghen: Stichting en Kabinet Maurice Maeterlinck </li></ul><ul><li>Museum voor Schone Kunsten </li></ul><ul><li>Stadsarchief </li></ul>
  4. 4. Cageweb vzw: Raad van Beheer <ul><li>Roos Van Driessche (voorzitter) </li></ul><ul><li>Marina Teirlinck (secretaris) </li></ul><ul><li>Johan Decavele (Stad Gent) </li></ul><ul><li>Luc Pareyn (Liberaal Archief) </li></ul><ul><li>Peter Schmidt (Bisschoppelijk Seminarie) </li></ul><ul><li>Wouter Steenhaut (Archief en Museum van de Socialistische Arbeidersbeweging) </li></ul>
  5. 5. Het conversieproject: doelstellingen en kader <ul><li>DOELSTELLINGEN </li></ul><ul><li>ontsluiting van de collecties via een WWW-catalogus </li></ul><ul><li>bekendmaking van en vlotte toegang tot cultureel erfgoed </li></ul><ul><li>ondersteuning van onderwijs en onderzoek </li></ul><ul><li>KADER </li></ul><ul><li>groei van het internet en de digitale informatiemaatschappij </li></ul><ul><li>toenemende bibliotheekautomatisering </li></ul><ul><li>vooruitgang van technologische oplossingen voor retroconversie </li></ul><ul><li>stijgende interesse voor waardevol erfgoed </li></ul>
  6. 6. Het conversieproject: aanpak en fasering <ul><li>1999: voorstudie en voorbereiding </li></ul><ul><ul><li>marktonderzoek </li></ul></ul><ul><ul><li>globaal plan </li></ul></ul><ul><ul><li>aanvraag voor subsidiëring </li></ul></ul><ul><ul><li>offertes </li></ul></ul><ul><li>2000: conversie van de steekkaarten </li></ul><ul><ul><li>leverancierkeuze </li></ul></ul><ul><ul><li>implementatie van fase 1 (conversie) </li></ul></ul><ul><li>vanaf 2001: ontsluiting en verdere ontwikkeling </li></ul><ul><ul><li>implementatie van fase 2 (ontsluiting op het Web) </li></ul></ul><ul><ul><li>optimalisering van de data </li></ul></ul><ul><ul><li>uitbreiding van de catalogus </li></ul></ul>
  7. 7. Voorstudie: marktonderzoek <ul><li>Princeton University: </li></ul><ul><ul><li>scanning van 6 miljoen fiches </li></ul></ul><ul><ul><li>image browser (65000 indexkaarten) </li></ul></ul><ul><ul><li>OCR en USMARC-conversie (aan de gang) </li></ul></ul><ul><ul><li>http :// imagecat1 . princeton . edu / ecc </li></ul></ul><ul><li>Österreichische Nationalbibliothek: </li></ul><ul><ul><li>scanning </li></ul></ul><ul><ul><li>image browser met inzoomsysteem </li></ul></ul><ul><li>Zentralbibliothek Zürich: </li></ul><ul><ul><li>scanning en OCR </li></ul></ul><ul><ul><li>intelligente zoeksoftware: “fuzzy logic” </li></ul></ul><ul><li>Andere interessante voorbeelden: </li></ul><ul><li>Heidelberg, Kopenhagen, Den Haag </li></ul>
  8. 8. Voorstudie: image browser (Princeton)
  9. 9. Voorstudie: steekkaart uit Princeton
  10. 10. Voorbereiding: globaal plan <ul><li>conversie: scanning, OCR en veldmarkering </li></ul><ul><ul><li>geen manuele conversie: hoge kostprijs en arbeidsintensiviteit </li></ul></ul><ul><ul><li>kwaliteit van de meeste fiches: 90 % woordherkenning mogelijk </li></ul></ul><ul><ul><li>analyse van de fiches: vrij uniforme structuur </li></ul></ul><ul><ul><li>technologische vooruitgang </li></ul></ul><ul><ul><li>uitbesteding, maar in nauw overleg met Cageweb </li></ul></ul><ul><li>ontsluiting: webcatalogus met zoekmogelijkheden op elk herkend woord en in een aantal velden </li></ul><ul><ul><li>vraagteken: manuele correctie of “intelligente” zoeksoftware ? </li></ul></ul><ul><ul><li>opening naar de lokale bibliotheeksystemen (integratie van aanwezige elektronische bestanden) </li></ul></ul><ul><ul><li>gecentraliseerde aanbieding en updating </li></ul></ul>
  11. 11. Voorbereiding: de partners <ul><li>FINANCIËLE STEUN </li></ul><ul><li>TECHNISCHE EN LOGISTIEKE STEUN </li></ul>Centrale Bibliotheek
  12. 12. Fase 1: conversie scanning <ul><li>uitbesteding aan Sercu Microdata </li></ul><ul><li>2 soorten scanners: Fujitsu 3099 en Kodak 3500 met ADF </li></ul><ul><li>instellingen in functie van optimale OCR: </li></ul><ul><ul><li>resolutie: 300 dpi </li></ul></ul><ul><ul><li>output: TIFF, zwart-wit </li></ul></ul><ul><ul><li>andere parameters: helderheid en contrast </li></ul></ul><ul><ul><li>problematisch: wegfiltering van gekleurde achtergrond en lijntjes </li></ul></ul><ul><li>verwerking: batch proces </li></ul><ul><li>beeldverbetering (Kofax software): smoothing, filtering, deskewing, ... </li></ul><ul><li>snelheid: 10000 fiches per dag (alles inbegrepen) </li></ul>
  13. 13. Fase 1: conversie optical character recognition (OCR) <ul><li>uitbesteding aan Arco Information </li></ul><ul><li>OCR is de achilleshiel (uitvoerig getest en bijgestuurd) </li></ul><ul><li>OCR software: ABBYY FineReader 4.0 Professional </li></ul><ul><li>goede “full text” herkenning (patroonherkenning) </li></ul><ul><li>leerfunctie: training van fout herkende patronen </li></ul><ul><li>ondersteuning van 53 talen </li></ul><ul><li>uitbreidbare woordenboeken </li></ul><ul><li>output: ASCII tekstbestanden </li></ul><ul><li>goede fiches (ca. 85 %): beoogde resultaat (90 % herkenning) </li></ul><ul><li>enkel slechte resultaten bij handgeschreven fiches en een deel van de fiches met lijntjes of donkere achtergrond </li></ul>
  14. 14. Fase 1: conversie veldmarkering <ul><li>uitbesteding aan Arco Information </li></ul><ul><li>formulierherkenning (in OCR fase zelf): niet haalbaar vermits er geen vaste lay-out is </li></ul><ul><li>in de plaats daarvan: Visual Basic script voor veldmarkering in OCR output </li></ul><ul><li>afgebakende velden: hoofdwoord, bibliotheekcode, plaatsnummer, zie-verwijzingen, rest (titel etc.) </li></ul><ul><li>criteria: ruimtelijk (positie op de fiche) of inhoudelijk (bv. bibliotheekcodes) </li></ul>
  15. 15. Fase 1: conversie Prototype van een steekkaart
  16. 16. Fase 1: conversie Image en OCR-resultaat
  17. 17. Fase 1: conversie patronentraining bij OCR
  18. 18. Fase 2: ontsluiting op het WWW <ul><li>verwachtingen t.a.v. de zoeksoftware: </li></ul><ul><ul><li>zoekmogelijkheden op elk woord, in velden, met Booleaanse operatoren, truncatie, ... </li></ul></ul><ul><ul><li>bladeren doorheen de oorspronkelijke, alfabetische structuur </li></ul></ul><ul><ul><li>eenvoudige, gebruiksvriendelijke interface </li></ul></ul><ul><ul><li>mogelijkheid tot koppeling aan thesauri </li></ul></ul><ul><li>extra functionaliteit: zoeksoftware met “fuzzy logic” ? </li></ul><ul><ul><li>meerwaarde: omzeilen van OCR fouten </li></ul></ul><ul><ul><li>risico: meer ruis </li></ul></ul><ul><ul><li>niet weerhouden, vooral vanwege de kostprijs </li></ul></ul><ul><li>flexibele integratie van lokale, elektronische catalogusrecords </li></ul><ul><li>link vanuit database record naar het gescande beeld </li></ul>
  19. 19. Fase 2: ontsluiting op het WWW <ul><li>homepage: http ://bib. hogent . be / cageweb </li></ul>
  20. 20. Fase 2: ontsluiting de webcatalogus <ul><li>Aleph bibliotheeksysteem van de Universiteit Gent </li></ul><ul><li>gebaseerd op een Oracle databank </li></ul><ul><li>USMARC velden </li></ul><ul><li>oorspronkelijk: </li></ul><ul><ul><li>zoeken op elk herkend woord </li></ul></ul><ul><ul><li>zoeken in de records van een specifieke bibliotheek </li></ul></ul><ul><ul><li>bladeren door indexen (hoofdwoord, titel, signatuur, …) </li></ul></ul><ul><ul><li>link naar de gescande fiche (856-veld) vanuit elk record </li></ul></ul><ul><li>latere aanpassingen: </li></ul><ul><ul><li>ook bladeren door de gescande fiches </li></ul></ul><ul><ul><li>rechtstreeks tonen van de gescande fiche als zoekresultaat </li></ul></ul>
  21. 21. Fase 2: ontsluiting de webcatalogus
  22. 22. Fase 2: ontsluiting eerste versie van de interface
  23. 23. Fase 2: ontsluiting vernieuwde interface
  24. 24. Fase 2: ontsluiting bladeren door de gescande fiches
  25. 25. Fase 2: ontsluiting bladeren door de gescande fiches
  26. 26. Verdere ontwikkelingen: optimalisering van de records <ul><li>verbetering van OCR fouten </li></ul><ul><li>verfijning van de veldstructuren </li></ul><ul><li>methodiek: </li></ul><ul><ul><li>beperking van manuele interventie door voorafgaande globale en semi-automatische correcties </li></ul></ul><ul><ul><li>sturing en versoepeling van manueel verbeterwerk door softwarematige oplossingen (bv. sjablonen, filters, drop-down keuzemenu’s, …) </li></ul></ul><ul><ul><li>gecentraliseerd of opgesplitst per bibliotheek </li></ul></ul><ul><ul><li>via periodieke uploads (off line) of inputmodule (on line) </li></ul></ul><ul><ul><li>goede afspraken en coördinatie </li></ul></ul>
  27. 27. Verdere ontwikkelingen: optimalisering van de records <ul><li>globale verbeteringen in de databank: verwijdering rare tekens, opsporing niet herkende bibliotheekcodes, gedeeltelijke afbakening impressum, ... </li></ul><ul><li>eerste fase in de manuele correcties (zomer 2001): </li></ul><ul><ul><li>zorgvuldig geselecteerde jobstudenten </li></ul></ul><ul><ul><li>verbetering van titels en auteurs, verdere afbakening van impressum in Access bestanden (per bibliotheek) met link naar gescande fiche </li></ul></ul><ul><ul><ul><li>> ongeveer 1/3 verbeterd </li></ul></ul></ul><ul><ul><li>verbetering van hoofdwoorden in Excel bestanden (gecentraliseerd) op basis van alfabetische volgorde </li></ul></ul><ul><ul><li>controle door bibliothecarissen </li></ul></ul>
  28. 28. Verdere ontwikkelingen: verbeteren in MS Access
  29. 29. Verdere ontwikkelingen: integratie en uitbreiding <ul><li>integratie van gegevens uit de lokale elektronische catalogi </li></ul><ul><ul><li>Libis, Pallas, FileMaker, Allegro, ... </li></ul></ul><ul><ul><li>periodieke downloads, conversie naar USMARC en upload in Aleph </li></ul></ul><ul><ul><li>afspraken en coördinatie </li></ul></ul><ul><li>eventuele ontdubbeling van titelbeschrijvingen </li></ul><ul><li>samenwerking met andere instellingen en verdere uitbreiding van de collectieve catalogus </li></ul><ul><li>koppeling aan waardevol primair, multimediaal materiaal (gescande voorbladen, inhoudstafels, partituren, illustraties, ...) </li></ul>
  30. 30. Nostalgie ?

×