Cageweb Informatie2001
Upcoming SlideShare
Loading in...5
×
 

Cageweb Informatie2001

on

  • 637 views

Presentation by Lieven Devos at Informatie 2001 about the CaGeWeb project, digization of a card catalogue, in collaboration with UGent (Ghent University Library)

Presentation by Lieven Devos at Informatie 2001 about the CaGeWeb project, digization of a card catalogue, in collaboration with UGent (Ghent University Library)

Statistics

Views

Total Views
637
Views on SlideShare
637
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Cageweb Informatie2001 Cageweb Informatie2001 Presentation Transcript

  • Het conversieproject van Cageweb vzw digitalisering van een steekkaartencatalogus ter ontsluiting van waardevol erfgoed Lieven De Vos Hogeschool Gent
  • Cageweb vzw: collecties en catalogi
    • Cageweb = Catalogus Gentse Wetenschappelijke Bibliotheken
    • in 1979 gesticht door wijlen Emiel Wille, ere-conservator van de Gentse universiteitsbibliotheek
    • 12 Gentse archieven, bibliotheken en musea
    • rijke collecties (15e-20e eeuw): incunabelen, biblia, partituren, iconografisch materiaal, devotieliteratuur, persknipsels, ...
    • diverse lokale catalogussystemen
    • gezamenlijke catalogus sinds 1979:
      • ongeveer 350.000 steekkaarten
      • cataloguszaal van de Centrale Bibliotheek van de Universiteit Gent
      • B.T.K.-projecten, nadien periodieke aanvullingen
  • Cageweb vzw: leden
    • Archief en Museum van de Socialistische Arbeidersbeweging
    • Augustijnenklooster St. Stefanus
    • Bisschoppelijk Seminarie
    • Conservatorium Gent
    • Klooster der Dominicanen
    • Klooster Paters Ongeschoeide Karmelieten
    • Koninklijke Academie voor Nederlandse Taal- en Letterkunde
    • Koninklijke Bond der Oost-Vlaamse Volkskundigen
    • Liberaal Archief
    • Museum Arnold vander Haeghen: Stichting en Kabinet Maurice Maeterlinck
    • Museum voor Schone Kunsten
    • Stadsarchief
  • Cageweb vzw: Raad van Beheer
    • Roos Van Driessche (voorzitter)
    • Marina Teirlinck (secretaris)
    • Johan Decavele (Stad Gent)
    • Luc Pareyn (Liberaal Archief)
    • Peter Schmidt (Bisschoppelijk Seminarie)
    • Wouter Steenhaut (Archief en Museum van de Socialistische Arbeidersbeweging)
  • Het conversieproject: doelstellingen en kader
    • DOELSTELLINGEN
    • ontsluiting van de collecties via een WWW-catalogus
    • bekendmaking van en vlotte toegang tot cultureel erfgoed
    • ondersteuning van onderwijs en onderzoek
    • KADER
    • groei van het internet en de digitale informatiemaatschappij
    • toenemende bibliotheekautomatisering
    • vooruitgang van technologische oplossingen voor retroconversie
    • stijgende interesse voor waardevol erfgoed
  • Het conversieproject: aanpak en fasering
    • 1999: voorstudie en voorbereiding
      • marktonderzoek
      • globaal plan
      • aanvraag voor subsidiëring
      • offertes
    • 2000: conversie van de steekkaarten
      • leverancierkeuze
      • implementatie van fase 1 (conversie)
    • vanaf 2001: ontsluiting en verdere ontwikkeling
      • implementatie van fase 2 (ontsluiting op het Web)
      • optimalisering van de data
      • uitbreiding van de catalogus
  • Voorstudie: marktonderzoek
    • Princeton University:
      • scanning van 6 miljoen fiches
      • image browser (65000 indexkaarten)
      • OCR en USMARC-conversie (aan de gang)
      • http :// imagecat1 . princeton . edu / ecc
    • Österreichische Nationalbibliothek:
      • scanning
      • image browser met inzoomsysteem
    • Zentralbibliothek Zürich:
      • scanning en OCR
      • intelligente zoeksoftware: “fuzzy logic”
    • Andere interessante voorbeelden:
    • Heidelberg, Kopenhagen, Den Haag
  • Voorstudie: image browser (Princeton)
  • Voorstudie: steekkaart uit Princeton
  • Voorbereiding: globaal plan
    • conversie: scanning, OCR en veldmarkering
      • geen manuele conversie: hoge kostprijs en arbeidsintensiviteit
      • kwaliteit van de meeste fiches: 90 % woordherkenning mogelijk
      • analyse van de fiches: vrij uniforme structuur
      • technologische vooruitgang
      • uitbesteding, maar in nauw overleg met Cageweb
    • ontsluiting: webcatalogus met zoekmogelijkheden op elk herkend woord en in een aantal velden
      • vraagteken: manuele correctie of “intelligente” zoeksoftware ?
      • opening naar de lokale bibliotheeksystemen (integratie van aanwezige elektronische bestanden)
      • gecentraliseerde aanbieding en updating
  • Voorbereiding: de partners
    • FINANCIËLE STEUN
    • TECHNISCHE EN LOGISTIEKE STEUN
    Centrale Bibliotheek
  • Fase 1: conversie scanning
    • uitbesteding aan Sercu Microdata
    • 2 soorten scanners: Fujitsu 3099 en Kodak 3500 met ADF
    • instellingen in functie van optimale OCR:
      • resolutie: 300 dpi
      • output: TIFF, zwart-wit
      • andere parameters: helderheid en contrast
      • problematisch: wegfiltering van gekleurde achtergrond en lijntjes
    • verwerking: batch proces
    • beeldverbetering (Kofax software): smoothing, filtering, deskewing, ...
    • snelheid: 10000 fiches per dag (alles inbegrepen)
  • Fase 1: conversie optical character recognition (OCR)
    • uitbesteding aan Arco Information
    • OCR is de achilleshiel (uitvoerig getest en bijgestuurd)
    • OCR software: ABBYY FineReader 4.0 Professional
    • goede “full text” herkenning (patroonherkenning)
    • leerfunctie: training van fout herkende patronen
    • ondersteuning van 53 talen
    • uitbreidbare woordenboeken
    • output: ASCII tekstbestanden
    • goede fiches (ca. 85 %): beoogde resultaat (90 % herkenning)
    • enkel slechte resultaten bij handgeschreven fiches en een deel van de fiches met lijntjes of donkere achtergrond
  • Fase 1: conversie veldmarkering
    • uitbesteding aan Arco Information
    • formulierherkenning (in OCR fase zelf): niet haalbaar vermits er geen vaste lay-out is
    • in de plaats daarvan: Visual Basic script voor veldmarkering in OCR output
    • afgebakende velden: hoofdwoord, bibliotheekcode, plaatsnummer, zie-verwijzingen, rest (titel etc.)
    • criteria: ruimtelijk (positie op de fiche) of inhoudelijk (bv. bibliotheekcodes)
  • Fase 1: conversie Prototype van een steekkaart
  • Fase 1: conversie Image en OCR-resultaat
  • Fase 1: conversie patronentraining bij OCR
  • Fase 2: ontsluiting op het WWW
    • verwachtingen t.a.v. de zoeksoftware:
      • zoekmogelijkheden op elk woord, in velden, met Booleaanse operatoren, truncatie, ...
      • bladeren doorheen de oorspronkelijke, alfabetische structuur
      • eenvoudige, gebruiksvriendelijke interface
      • mogelijkheid tot koppeling aan thesauri
    • extra functionaliteit: zoeksoftware met “fuzzy logic” ?
      • meerwaarde: omzeilen van OCR fouten
      • risico: meer ruis
      • niet weerhouden, vooral vanwege de kostprijs
    • flexibele integratie van lokale, elektronische catalogusrecords
    • link vanuit database record naar het gescande beeld
  • Fase 2: ontsluiting op het WWW
    • homepage: http ://bib. hogent . be / cageweb
  • Fase 2: ontsluiting de webcatalogus
    • Aleph bibliotheeksysteem van de Universiteit Gent
    • gebaseerd op een Oracle databank
    • USMARC velden
    • oorspronkelijk:
      • zoeken op elk herkend woord
      • zoeken in de records van een specifieke bibliotheek
      • bladeren door indexen (hoofdwoord, titel, signatuur, …)
      • link naar de gescande fiche (856-veld) vanuit elk record
    • latere aanpassingen:
      • ook bladeren door de gescande fiches
      • rechtstreeks tonen van de gescande fiche als zoekresultaat
  • Fase 2: ontsluiting de webcatalogus
  • Fase 2: ontsluiting eerste versie van de interface
  • Fase 2: ontsluiting vernieuwde interface
  • Fase 2: ontsluiting bladeren door de gescande fiches
  • Fase 2: ontsluiting bladeren door de gescande fiches
  • Verdere ontwikkelingen: optimalisering van de records
    • verbetering van OCR fouten
    • verfijning van de veldstructuren
    • methodiek:
      • beperking van manuele interventie door voorafgaande globale en semi-automatische correcties
      • sturing en versoepeling van manueel verbeterwerk door softwarematige oplossingen (bv. sjablonen, filters, drop-down keuzemenu’s, …)
      • gecentraliseerd of opgesplitst per bibliotheek
      • via periodieke uploads (off line) of inputmodule (on line)
      • goede afspraken en coördinatie
  • Verdere ontwikkelingen: optimalisering van de records
    • globale verbeteringen in de databank: verwijdering rare tekens, opsporing niet herkende bibliotheekcodes, gedeeltelijke afbakening impressum, ...
    • eerste fase in de manuele correcties (zomer 2001):
      • zorgvuldig geselecteerde jobstudenten
      • verbetering van titels en auteurs, verdere afbakening van impressum in Access bestanden (per bibliotheek) met link naar gescande fiche
        • > ongeveer 1/3 verbeterd
      • verbetering van hoofdwoorden in Excel bestanden (gecentraliseerd) op basis van alfabetische volgorde
      • controle door bibliothecarissen
  • Verdere ontwikkelingen: verbeteren in MS Access
  • Verdere ontwikkelingen: integratie en uitbreiding
    • integratie van gegevens uit de lokale elektronische catalogi
      • Libis, Pallas, FileMaker, Allegro, ...
      • periodieke downloads, conversie naar USMARC en upload in Aleph
      • afspraken en coördinatie
    • eventuele ontdubbeling van titelbeschrijvingen
    • samenwerking met andere instellingen en verdere uitbreiding van de collectieve catalogus
    • koppeling aan waardevol primair, multimediaal materiaal (gescande voorbladen, inhoudstafels, partituren, illustraties, ...)
  • Nostalgie ?