Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Early Dutch Books Online, de hele KB deed mee!

941 views

Published on

Early Dutch Books Online, de hele KB deed mee!

Op 26 mei 2011 is de website Early Dutch Books Online (EDBO) live gegaan. De site geeft full-text toegang tot meer dan twee miljoen bladzijden in bijna 10.000 rechtenvrije boeken uit het Nederlandse taalgebied uit de periode 1781-1800.

http://www.earlydutchbooksonline.nl

Hierbij zitten niet alleen bekende klassiekers zoals Sara Burgerhart en Jantje zag eens pruimen hangen, maar ook de reisverhalen van Capt. James Cook , erotische gedichten en recepten om zelf vuurwerk te maken.

Published in: Education
  • Be the first to comment

  • Be the first to like this

Early Dutch Books Online, de hele KB deed mee!

  1. 1. Early Dutch Books Online, de hele KB deed mee!Op 26 mei jl. is de website Early Dutch Books Online (EDBO) live gegaan. De site geeft full-text toegangtot meer dan twee miljoen bladzijden in bijna 10.000 rechtenvrije boeken uit het Nederlandse taalgebieduit de periode 1781-1800.Hierbij zitten niet alleen bekende klassiekers zoals Sara Burgerhart en Jantje zag eens pruimen hangen,maar ook de reisverhalen van Capt. James Cook , erotische gedichten en recepten om zelf vuurwerk temaken. Een Youtube-filmpje (1:49 min) van begin mei 2011 geeft in een notendop een overzicht van deinhoud van Early Dutch Books Online.De site is in samenwerking met de universiteitsbibliotheken van Amsterdam en Leiden tot stand gekomen.Net als de KB hebben deze instellingen boeken uit hun Bijzondere Collecties beschikbaar gesteld voordigitalisering en ontsluiting. De KB leverde 45% van de boeken, de UB- UVA 30% en de UBL 25%.Wat is gedigitaliseerd?Voor EDBO is een selectie gemaakt van oude drukken uit de periode 1781-1800. Door hun leeftijd vallenal deze boeken in het publieke domein, alle auteurs zijn immers al meer dan 70 jaar dood. Werkengedrukt in het Gotisch zijn niet gedigitaliseerd omdat de tekenherkenning (OCR) van dit lettertype nogniet het gewenste resultaat oplevert. Verder is gekozen voor materiaal dat in de late 18e eeuw inNederland is gedrukt, omdat in deze periode het moderne lettertype, Romein, de overhand krijgt. InRomein gedrukt materiaal is wel goed te OCRen.De selectie heeft zich geconcentreerd op boeken in Nederland gedrukt of handelend over Nederland.Omdat Nederlands niet de standaardtaal was voor uitgaven in die tijd, is zowel Nederlands- als Franstaligmateriaal meegenomen. Het waren dus vooral praktische overwegingen die een rol speelden bij dezeeerste selectie.
  2. 2. Aan deze praktische selectiecriteria voldeden ongeveer 12.000 van de circa 170.000 titels in de STCN. Na overleg met wetenschappers bleek er ook behoefte aan een inhoudelijke invalshoek. Gezien de omvang van het project was het niet mogelijk om de duizenden titels handmatig te selecteren op basis van concrete onderzoeksvragen die wetenschappers hebben. Om dit zo goed mogelijk op te vangen is gebruikt gemaakt van de (Engelstalige) onderwerpstrefwoorden in de STCN. Op basis hiervan kunnen voor onderzoekers van de laatachttiende-eeuwse cultuur relevante boeken worden gedigitaliseerd. Na diverse selectieronden door de Wetenschappelijke Adviesraad, m.m.v. KB-collectiespecialisten Marieke van Delft en Erik Geleijns, zijn 9683 titels uit de volgende thema’s geselecteerd : History & Politics, Economy & Trade, Science & Ideas, Religion & Society, Daily Life & Education, Visual Arts, Drama, Dramaturgy and Musicology, Dialogues en Genre parodies.DigitaliseringVoorafgaand aan de daadwerkelijke digitalisering werd eerst een materiaalvoorbewerking uitgevoerd.Nadat medewerkers van O&BC de geselecteerde boeken uit de magazijnen hadden gehaald, werden zestuk voor stuk beoordeeld op hun fysieke staat. Van elk boek werd bepaald of de fysieke conditievoldoende was en of het boek geschikt was voor scanning en OCR. Boeken die te kwetsbaar waren, nietgoed open konden of waarvan bijvoorbeeld de OCR geen goed resultaat zou opleveren, werden uit deselectie verwijderd. Daarnaast werd tijdens de voorbewerking bekeken of er uitklapbare kaarten enprenten in de boeken zaten. Deze boeken zijn apart gedigitaliseerd.Het voorbewerkingsteam in de KB bestond uit Shanti Jamin, Frans Schutte, Anneke van Doorenmalen,Angela Kuckartz, Eveline van Nuissenburg-Wagenaar, Aladin Hammad, Saskia van Bavel, MirjamRaaphorst, Suresh Raumatar, Jasper den Hollander, Dries Coomans en Bert Mans en stond onder leidingvan Ron Kenter.Marg van der Burgh was verantwoordelijk voor het algehele projectmanagement van het digitaliseren.Daarnaast onderhield ze de contacten met de Stuurgroep van het project, waarin Hans Jansen de KBvertegenwoordigde. Marg was tevens verantwoordelijk voor het dagelijks contact met collega’s in debibliotheken in Amsterdam en Leiden.De voorbereiding en de materiaalanalyse vond plaats in de bibliotheken en van daar uit gingen de boekenop transport naar de digitaliseerder. In anderhalf jaar zijn ze gedigitaliseerd door MicroFormat uit Lisse endiens onderaannemer Planman in India. Begin 2011 heeft dit bedrijf het fotograferen, OCR’en, verPDFenen metadateren van in totaal 2.120.235 unieke pagina’s afgerond. Dit heeft meer dan 10 miljoenbestanden opgeleverd, die steekproefsgewijs zijn gecontroleerd door de KB. Hierbij is niet alleen hetcorrecte aantal bestanden gecontroleerd, de juiste bestandsnamen, de correcte samenhang tussenbestanden maar ook of de bestanden inhoudelijk en technisch correct werden opgeleverd.
  3. 3. Vanwege de kwetsbaarheid kon het materiaal niet zonder meer onder een flatbedscanner of kopieerapparaat gelegd worden. MicroFormat gebruikte voor het digitaliseren twee soorten scanners. De meeste boeken werden gefotografeerd d.m.v. een zgn. boekenwieg. Deze opstelling in v-vorm voorkomt dat de band - in het bijzonder de rug - te zwaar belast of zelfs beschadigd wordt. In de boekenwieg kunnen de boeken in een hoek van 90-110 graden worden geplaatst. Met een druk op de knop door de operator wordt tegelijkertijd een opname van de rechter- en linkerpagina gemaakt d.m.v. twee Canon EOS D5 Mark II camera’s Boeken met een afwijkend formaat of met uitvouwbladen werden met behulp van een Zeutschel 14000 scanner gedigitaliseerd.Beschikbaarstelling, bouw van de websiteOm al deze rechtenvrije content voor iedereen gratis toegankelijk te maken is een website gebouwd. Voorde ontwikkeling van de site is gekozen voor een Agile (behendig, lenig) software-ontwikkelmethode. Ditbetekent dat er in iteraties (zgn. sprints) van typisch 3 weken steeds stukjes van de website werdengespecificeerd, ontwikkeld en getest. Welke functionaliteiten er binnen elke iteratie gebouwd kondenworden, werd aan het begin van elke sprint nauwgezet besproken en gepland door het ontwikkelteamvan IT en OLS. Het was soms flink passen en meten om binnen 3 weken alle gewenste functionaliteit tespecificeren en te bouwen, zonder af te doen aan de vereiste kwaliteit. Deze hele manier van Agilesoftware-ontwikkeling was nieuw voor de KB en de meeste leden van het ontwikkelteam.Dit team bestond uit Shan Swart en Olaf Janssen (functionele specificatie, OLS), Robert Soerdjoesing,Thomas Beekman, Dennis-Jan Boerse en Sanjay Ramautar (bouw, IT) en Marco de Waal en LammertStegewans (testen, OLS). Evelien Ket van I&O adviseerde en coördineerde op het gebied van metadataen indexering.Vanuit het Programma Digitale Bibliotheek was Caroline van Wijk verantwoordelijk voor de projectleidingvan de bouw van de site.Caroline: “We hebben niet alleen de website opgeleverd, maar ook een berg aan kennis en ervaringvergaard. Winst bestaat uit een directere communicatie tussen de teamleden. Leerpunt: de intensiviteit -gedurende het project is een grote inzet van alle betrokkenen vereist - van een Agile ontwikkelproject isvooraf onderschat. Het is bijvoorbeeld moeilijk testers flexibel in te schakelen in het ontwikkelproces alsdeze niet zijn betrokken bij het specificeren van de functionaliteit. We hebben ook het belang van eentransparante werkwijze binnen het team en binnen afdelingen ondervonden om bijvoorbeeld ziekte tekunnen opvangen.Deze leerpunten worden gebruikt als input voor een ander project: Raamwerk Uitvoering SoftwareOntwikkeling. Dit project levert een leidraad voor (best practices) softwareontwikkeling in de KB op.”De EDBO website is geschreven in het zgn. Zend-framework. Zend is een product van het bedrijf dat PHPontwikkelt en is het standaard framework in de PHP-wereld geworden. De brede ondersteuning maakt hetmogelijk om snel nieuwe formaten en uitbreidingen toe te voegen, omdat de meest gangbare zakenveelal al eerder zijn ontwikkeld en getest in de werkelijkheid. Het opnieuw uitvinden van het wiel wordtdaardoor zeldzaam.Om de EDBO-content op woordniveau te kunnen doorzoeken zijn indexen (IT’ers zeggen zelden“indices”) voor de Verity-zoekmachine nodig. Hier hebben Hans Hoogeveen en Michel Koppelaar zich meebeziggehouden. Michel heeft daarnaast ook scripts gemaakt die de metadata in het juiste formaat gieten
  4. 4. voor indexering door de zoekmachine. Luc Peerdeman tenslotte heeft de benodigde aanpassingen aan deresolver ("een soort digitale magazijnmedewerker") gemaakt.De vormgeving van de site is uitbesteed aan Uselab; het logo en de topbanner zijn van de hand vanMarise Knegtmans.Aan de teksten op de site hebben namens de KB Erik Geleijns, Marieke van Delft en Karin Swanemeegewerkt. Omdat de hele site tweetalig is, zijn er vertalingen naar het Engels gemaakt door Engels &Partners.Op 26 mei 2011 is de site feestelijk gelanceerd tijdens een symposium in Leiden. Karin Swane heeft hetKB-deel van de organisatie van deze dag voor haar rekening genomen.En wat vinden de gebruikers er van? In diverse stadia van de bouw heeft OLS (in de personen van Rosemarie Pomp-Blangé & Jolanda Middelkoop) de site laten testen op bruikbaarheid, zowel door KBers als door de beoogde eindgebruikers. Hun tussentijdse feedback is verwerkt in de bouw. Het grootste onderzoek onder potentiële gebruikers heeft plaatsgevonden in april 2011, enkele weken voor de lancering. De onderzoeksresultaten geven een heel aardig beeld van de mening en wensen van de potentiële gebruikers. Uit het eindrapport: ”De respondenten tonen zich over hetalgemeen redelijk positief over de site. Met name de lay-out en het taalgebruik worden goed beoordeeld(helder, sober, passend bij een serieuze database). De indeling van de website is nog wel voorverbetering vatbaar. []… Kritisch is men vooral ten aanzien van de geboden zoek-enbrowsemogelijkheden en de presentatie van de zoekresultaten. ..[] .De boekencarrousel onder ‘Uitgelicht’is mooi vormgegeven en past in de context van de homepage, maar de meeste respondenten zien er hetnut niet van in ..[]…“Kortom, er valt volgens de beoogde gebruikers nog wel wat te verbeteren. Er was helaas geen tijd meerom deze feedback in de site te verwerken. Samen met alle andere input & suggesties die OLS inmiddelsheeft verzameld, worden deze wensen meegenomen in de verdere ontwikkeling van de dienst.Olaf Janssen hierover: “Het is erg mooi om te zien hoe de wensen van EDBO gebruikers direct zullenbijdragen aan een betere dienstverlening in de nabije toekomst. Zo uitte een gebruiker de wens om tekunnen zoeken met behulp van de originele paginanummers (dus zoals die onderaan een bladzijdegedrukt staan) in plaats van (de tot nu toe gebruikte) volgordelijke paginanummers (waarbij de omslagvan het boek dan pagina 1, de binnenkant van de omslag pagina 2, etc is.). OLS heeft deze wens met deafdeling Digitalisering besproken en laten opnemen in de nieuwe digitaliseringsspecificaties. Dezeverbeterde specificaties leveren dan bij toekomstige digitaliseringsprojecten betere data op. Op basis vandeze rijkere data is het straks mogelijk een beter te gebruiken website op te leveren, inclusieffunctionaliteiten die (helaas) voor EDBO nog niet mogelijk waren.”De metadata van EDBO komt binnenkort ook beschikbaar in The European Library endus ook in Europeana. In opdracht van Marketing Services werkt OLS met ProductSupport en TEL Office (ook een onderdeel van de KB!) samen om dit mogelijk temaken. Helaas is het nog niet mogelijk om de EDBO-teksten in TEL en Europeana opwoordniveau te doorzoeken; in de toekomst zal dit wel mogelijk worden dankzij het Europeana Librariesproject.
  5. 5. Van EDBO naar Platform Digitale PublicatiesDe komende jaren gaat de KB verder met massadigitalisering van haar collecties uit het publieke domein.Volgens het Beleidsplan willen we immers voor 2014 10% van alle Nederlandse boeken, kranten entijdschriften, zo’n 73 miljoen pagina’s, ingescand hebben. De projecten DTS, BNB4, Google en Proquestzullen hier de komende jaren een belangrijke bijdrage aan leveren door vele miljoen pagina’s full-textcontent te produceren.Voor zover gemaakte afspraken dat toestaan, gaan we al deze content via één centrale websiteaanbieden. Deze dienst heeft de voorlopige werknaam Platform Digitale Publicaties meegekregen enwordt gebaseerd op de EDBO site. Naast bovengenoemde content zullen we ook de Historische Kranten indeze nieuwe website opnemen, waardoor er één centrale plek voor gebruikers ontstaat om Nederlandsehistorische boeken, kranten en tijdschriften te vinden, te lezen, te downloaden en te delen.Tot slot….Dit artikel laat fraai zien dat werkelijk (bijna) alle afdelingen van de KB bij een digitaliserings- &beschikbaarstellingsproject betrokken zijn. En dan hebben we de mensen uit Leiden en Amsterdam nogniets eens genoemd.We noemen – en bedanken! - veel mensen en afdelingen, maar kunnen onverhoopt iemand vergeten zijn.Daarvoor bij voorbaat onze excuses; onze waardering is er niet minder om.Olaf Janssen, Sanjay Ramautar, Caroline van Wijk, Rubrecht Zaat,Juli 2011

×