SIKS 2011 - Semantic Web course

578 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
578
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • SIKS 2011 - Semantic Web course

    1. 1. cultural heritage &the semantic web Michiel Hildebrand
    2. 2. NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 NRC Weekend Zaterdag 10 september & Zondag 11 september 20118 Wetenschap 9 een probleem zijn geweest.” Verha-G E E ST E S W E T E N S C H A P P E N gen van de UvA zegt dat de best mo-De digitalisering van erfgoed neemt een hoge gelijke programmatuur is gebruikt: “Helaas is die nog niet goed genoeg.”vlucht, maar gebeurt slordig en chaotisch. Tellen en turvenWetenschappers kunnen talloze bronnen Maar geesteswetenschappers die mopperen, zijn vaak volgens de criti-daardoor niet vinden of doorzoeken. casters ook te weinig doordrongen van de van de mogelijkheden van di-Karel Berkhout gitalisering. Velen hebben nauwe- lijks een meten-is-weten-mentali- teit, zegt Van Stipriaan van DBNL: “Tellen en turven, iets wat dus heelV oor zijn in 1973 voltooide (UvA) heeft ruim 10.000 boeken en makkelijk moet kunnen met digitale proefschrift probeerde de brochures uit de periode 1900-1915 700 miljoen paginas bestanden, gebeurt in de geesteswe- neerlandicus Wim van den gedigitaliseerd; helaas is de collectie tenschappen verrassend weinig.” Hij Berg te achterhalen wan- voor onderzoekers buiten deze uni- Aan de digitalisering van erfgoed is zelf leverde met simpelweg metenneer de romantiek zijn intrede deed versiteit onbereikbaar. Een rechten- sinds 2004 in elk geval een krappe 50 een veelgeprezen bijdrage aan eenin Nederland. Boeken, kranten en kwestie, zegt de UvA, waar binnen- miljoen euro uitgegeven. Dat meldt academisch debat.tijdschriften van rond 1800 spitte hij kort naar gekeken wordt. het ministerie van Onderwijs, Cultuur Dat debat draaide om de vraag ofdoor op zoek naar het woord ‘roman- Universiteiten bouwen voor een en Wetenschappen (OCW) desge- de internationale romantiek in Ne-tisch’. Na vijftien jaar concludeerde onbekend bedrag databanken met vraagd. Het ministerie tekent daarbij derland snel voet aan de grond kreeg.Van den Berg dat het woord in 1810 proefschriften en andere publicaties aan geen zicht te hebben op alle uit- Niet echt, zei eerdergenoemde Vanvoor het eerst op dezelfde manier van hun personeel. De inrichting van gaven voor digitalisering, omdat in- den Berg. Jawel, zei Marita Mathij-werd gebruikt als eerder in Duits- deze ‘repositories’ is zo knullig, dat dividuele instellingen zelf ook niet sen, (emeritus) hoogleraar Neder-land, Frankrijk en Engeland. de publicaties nagenoeg onvindbaar geoormerkt geld gebruiken voor digi- landse letterkunde. Van Stipriaan Om ‘zijn’ Digitale Bibliotheek zijn. Alleen wie precies weet wat ie taliseren. Op het ministerie circuleren turfde in zijn DBNL hoe lang het in devoor de Nederlandse Letteren (DBNL) zoekt, kan iets vinden in deze ‘open intern dan ook schattingen van 100 negentiende eeuw duurde voor eente testen herhaalde hoofdredacteur acces’-bestanden. tot 200 miljoen euro. romantisch boek uit het buitenlandRené van Stipriaan vorig jaar deze Op het Geheugen van Nederland De Koninklijke Bibliotheek (KB) heeft werd vertaald: gemiddeld 17 jaar. Datzoektocht. De gedigitaliseerde boe- zijn voor ruim 7 miljoen euro de alleen al 30 miljoen euro besteed aan bevestigde volgens hem het gelijkken en tijdschriften in de databank hoogtepunten van het vaderlandse digitaliseren. De KB heeft de ambitie van Van den Berg.doorzocht hij op het woord ‘roman- gedrukte erfgoed bijeen gebracht. om uiteindelijk 700 miljoen pagina’s “Een fantastisch voorbeeld vantisch’. Van Stipriaan: “Na een korte Hoewel de boekomslagen, cartoons te digitaliseren. Bij de huidige kosten wat digitalisering voor de geesteswe-avond zoeken kon ik het eerste ge- en foto’s schitterend zijn, is een be- vergt dat een investering van 700 mil- tenschappen kan betekenen. Ieder-bruik ook vastprikken in 1810.” zoek aan de website wanhopig ma- joen euro. Als de boeken voor het een kan het experiment herhalen, Dit kunststukje is een triomf van kend: geen enkel document kun je scannen uit de band gesneden wor- het is controleerbaar, het is objectief.de digitalisering van het gedrukte doorzoeken. Zelfs bibliotheken en den, kost het digitaliseren niet 1 euro Het is een kwantitatieve versterkingerfgoed, dat het afgelopen decenni- archieven die eraan hebben bijgedra- maar ongeveer 15 cent per pagina. van kwalitatief onderzoek”, vindtum een hoge vlucht heeft genomen. gen, kunnen hier hun eigen spullen De KB heeft daarmee een proef ge- Mijnhardt. “De kwantitatieve aan-Universiteiten, bibliotheken, weten- niet terugvinden. Het paradepaard daan met boeken die dubbel in de pak is helaas lang uit de gratie ge-schappelijke instituten en archieven van digitaal erfgoed heeft inmiddels collectie zitten, maar dat leidde tot weest bij de humaniora – met uitzon-hebben al miljoenen pagina’s van als bijnaam het Geheugenverlies van veel protesten. De KB heeft nu geen dering van de economische historiciboeken, kranten en tijdschriften ge- Nederland. plannen om pagina’s los te snijden. die een paar decennia terug tijdreek-scand en veelal op websites gezet – sen zijn gaan verzamelen.”voor minimaal 50miljoen euro (zie Z u i d o o s t-A z i ë Rond 1900 ontstond er een schei-inzet). De digitalisering is nu zelfs in De voorbeelden geven aan dat uni- ding in de wetenschappen. “De na-een stroomversnelling gekomen met versiteiten, bibliotheken en archie- tuurwetenschappers gingen werkenbijvoorbeeld het net begonnen ven hun drukwerk hebben gescand in laboratoria. GeestwetenschappersGoogle Books in Nederland. zonder goed na te denken over de raakten onder invloed van Duitse fi- Je zou dus verwachten dat geestes- vraag wie de gedigitaliseerde docu- losofen met hun ‘begrijpend obser-wetenschappers dagelijks bliksem- menten op welke manier het beste veren’ en lieten zo kansen liggen”,acties als hierboven doen, maar dat is zou kunnen gebruiken. “De gebrui- zegt Mijnhardt, die ‘graag mag tel-niet zo. Want waar bètawetenschap- kers zijn te weinig betrokken ge- len’ in zijn onderzoeken: “Digitalise-pers met een sportauto over de digi- weest”, erkent Astrid Verheusen, ring kan helpen de kloof tussen alfa-tale snelweg razen, hobbelen beoefe- hoofd innovatieve projecten bij de en bètawetenschappen te dichten.”naars van de humaniora met een brik Koninklijke Bibliotheek (KB). De KB is Dan moet er wel nog heel wat ge-door een doolhof van websites en da- naast DBNL de grootste partij bij het I L LU S T R AT I E H E N R Y C A N N O N beuren, zeggen betrokkenen. Verha-tabanken. Geesteswetenschappers digitaliseren van erfgoed. “Met we- gen van de UvA hoopt op betere OCR: Het digital drama talekunnen veel gedigitaliseerde docu- tenschappers is veel te weinig ge- “Om in de toekomst alle bestandenmenten moeilijk of niet vinden. De sproken over hun behoeften.” opnieuw door de wasmachine te ha-wel gevonden documenten kunnen Digitalisering waar onderzoekers len.” Maar de belangrijkste wens is:ze moeilijk of niet doorzoeken. De wat aan hebben, ziet er ongeveer zo één standaard komen voor de digita-doorzoekbare documenten geven uit. Eerst worden de boeken, tijd- lisering. “De Taalunie zou standaar-vaak onbetrouwbare zoekresultaten. schriften of kranten gescand: dit le- disering moeten afdwingen”, vindt “Vroeger haalden wetenschappers vert alleen afbeeldingen van pagina’s Boot van het Huygens. Deze Neder-met het bladeren in boeken en tijd- op. Die plaatjes worden vervolgens lands-Vlaamse unie heeft als over-schriften eigenlijk emmers water uit met ‘optical character recognition’ koepelende organisatie die ook deeen put. Tegenwoordig is er door de (OCR), software voor optische teken- spellingsregels bepaalt, veel gezag.digitalisering een waterleidingnet. herkenning, omgezet in een tekst die 18de eeuw had je wel meer Franse au- een boek dat zelden wordt geraad- van Digitaal Erfgoed Nederland blijkt dat sommige boeken of reek- schappers die graag grote corpora de universiteit van Gent het Neder- gitaliseerd voor 3 miljoen euro. EDBO De Taalunie laat weten “meer sa-Maar dat net is zo vervuild, dat elke je kunt doorzoeken en bewerken. teurs met die naam”, zegt hoogleraar pleegd. De neiging is om het digitali- (DEN), een door het rijk betaald insti- sen zes keer zijn gescand, steeds op van boeken, tijdschriften en kranten landse taalgebied betrad, dreigt dat begin deze zomer online is ge- menhang te brengen” in de digitali-onderzoeker alsnog zelf het water Uiteindelijk wordt het document Mijnhardt: “Het is soms bij een ge- seren na het scannen af te raffelen. tuut dat de kwaliteit van de digitali- een ander plek. Onbenut potentieel? willen doorzoeken. Zo zijn inmid- ‘quick and dirty’ de norm te worden. gaan, zou een model van hedendaag- sering en gaat een inventarisatie ma-moet zuiveren in een emmertje”, voorzien van metadata zoals de au- schrift even zoeken of je dé Rousseau Een andere verklaring ligt in de sering probeert te verbeteren. “In- Nog steeds zijn instellingen er niet in dels 126 digitaliseringsprojecten “De OCR van Google Books is berucht se digitalisering in Nederland moe- ken van voltooide en voorgenomenschetst Van Stipriaan van DBNL. teursnaam, titelgegevens en allerlei voor je hebt.” manier waarop de digitalisering een stellingen zijn vaak al vroeg begon- geslaagd om een centraal register op voor kranten. Wie ze wil bekijken, slecht”, zegt Peter Boot van het Huy- ten zijn, maar vertoont de gebruike- projecten. “We willen voorkomenDBNL is een van de belangrijkste technische specificaties.. De tekenherkenning en de meta- jaar of twintig geleden is begonnen, nen met digitaliseren vóór het tijd- te zetten voor wat gescand is of moet naar tientallen verschillende gens Instituut voor Nederlandse Ge- lijke gebreken. dat dingen twee keer worden ge-aanbieders van gedigitaliseerd erf- Hoewel de OCR-software het afge- data zijn echter in veel gevallen on- zegt Verheusen van de KB: “Archie- perk van het world wide web – met wordt. Instellingen besteden het websites. De kranten staan niet in schiedenis. “De metadata zijn ook Het was bij de lancering van de daan”, zegt Karlijn Waterman van degoed in Nederland en wordt gesubsi- lopen decennium sterk is verbeterd, der de maat. “De OCR is doorgaans ven en musea wilden hun topstuk- dezelfde verouderde ICT werken ze scannen uit – maar telkens met ande- één portaal; dat kan ook niet, want ze niet goed. Het verzameld werk van ‘vroege Nederlandse boeken’, dat Taalunie. Dit najaar willen de Neder-dieerd door de Taalunie, een organi- verloopt het omzetten van beeld naar slordig gedaan. Een fout op 10 pagi- ken tonen en gebruikten hun websi- nog. Daarbij koppelen ze de ene data- re specificaties – of doen het zelf luk- zijn niet volgens één standaard ge- Huygens zit in een serie van 6 delen, hoogleraar Mijnhardt de staf brak landse en de Vlaamse tak een congressatie van de Nederlandse en Vlaamse tekst niet foutloos, onder meer door- na’s is net acceptabel, maar in de te als de boetiek van de mooiste spul- base aan de andere; dat is wat anders raak. “Door dit alles is veel moeilijk scand, en het zal waarschijnlijk ook maar Google Books geeft niet aan dat over de digitalisering en die van het organiseren met alle betrokken be-overheid. “Het is nog erger. Er zijn dat de computer moeite heeft met meeste documenten staan er veel len. De nadruk lag op de mooie plaat- dan het web gebruiken.” vindbaar en nauwelijks doorzoek- nooit kunnen. er meerdere delen zijn.” EDBO in het bijzonder. Boot van het leidsmakers. Waterman: “Het zouwel 33 verschillende waterleidingen het herkennen van woorden in oude meer”, zegt Van Stipriaan: “Wie een jes. Pas laat in de jaren negentig Tel daarbij op dat de humaniora baar”, zegt De Niet van DEN. De versplintering van de geestes- Verheusen van de KB erkent dat Huygens valt hem bij: “De OCR van mooi zijn als we dan in kaart hadden,en niemand heeft een idee wat waar spelling (de verwisseling van de s en woord intypt, krijgt woorden die hij kwam de ommezwaai naar tekst. We vanouds versplinterd zijn en je heb wetenschappen is ook af te lezen aan OCR en metadata “niet heel goed” Early Dutch Books is rampzalig. 90 wat waar al is gedigitaliseerd.”in zit”, zegt Wijnand Mijnhardt. De de f is berucht). “Je moet de omzet- niet zoekt (vals positief) en – veel er- waren de eersten en moesten zelf uit- de verklaring voor de wildgroei aan Kranten het feit dat universiteiten, archieven zijn, maar: “Zonder Google Books procent van de pagina’s foutloos is De ongeduldigen willen dat eenhoogleraar geschiedenis aan de Uni- ting dus controleren en corrigeren. ger – mist de aanwezige woorden die vinden hoe het moest.” instellingen die allemaal op hun ei- DEN probeert erfgoedinstellingen en bibliotheken de handen nog zouden we deze boeken voorlopig acceptabel, maar dat haalt dit project grote partij de regie op zich neemt,versiteit van Utrecht is een grootver- Wij laten dat doen in Zuidoost-Azië, hij wel zoekt (vals negatief).” De me- De pioniers gingen daarbij voort gen manier zijn gaan digitaliseren. bij het adviseren over digitalisering steeds niet ineen hebben geslagen, helemaal niet kunnen scannen.” niet. En dan zijn alleen nog maar de maar wie moet dat zijn. “De KB, wantbruiker van digitaal erfgoed. waar mensen de digitale documen- tadata zijn eveneens gebrekkig, zegt op een bekende maar doodlopende In een brief aan de Tweede Kamer te overtuigen van het nut van stan- zegt Van Stipriaan. “Door niet één Hoogleraar Mijnhardt noemt Google boeken in Latijns schrift gedaan, die de KB heeft veel ervaring en de moge- Onder veel bijval van wetenschap- ten vergelijken met de originelen”, Mijnhardt: “Wie bijvoorbeeld wil weg, zegt directeur Marco de Niet sprak toenmalig staatssecretaris Van daardisering. “Wij zijn adviserend, plan te maken om al het gezamenlij- Books dan ook een „zegen” voor zijn in Gotisch schrift zouden helemaal lijkheden om snel en op grote schaalpers hebben Van Stipriaan en Mijn- zegt Van Stipriaan van DBNL. Om dat schrijven over de boekenproductie in der Ploeg in 2002 dan ook van ‘sterk niet normerend. We geven aan hoe ke erfgoed volgens een standaard- werk: “Hoewel pas een procent of te digitaliseren en standaarden tehardt de noodklok geluid. De eerste goed te kunnen doen, hoef je de taal Leiden, kan niet achterhalen welke monolithische systemen en een ver- instellingen het beste kunnen digita- norm te digitaliseren hebben de in- tien van de boeken is gedigitaliseerd, ontwikkelen”, vindt Verheusen vanin meerdere artikelen, waaronder in niet te kennen. De OCR van DBNL, de van de gedigitaliseerde boeken daar ‘Digitale bestanden zijn snippering van projecten waarmee liseren maar dwingen dat niet af”, stellingen het speelveld open gela- kan ik nu al veel digitaal vinden.” Met de komst van de KB. De Taalunie, vindt De Niet vanDe Gids, de tweede onlangs bij een le- database voor literatuur. geldt als de ooit zijn gepubliceerd.” een aanzienlijke verspilling van zegt De Niet. “Voordeel is dat als de ten.” Dat speelveld is nu betreden Als Nederlands antwoord op DEN: “De Taalunie is gezaghebbend,zing in Leiden. De vele voorbeelden beste in Nederland. Geldgebrek verklaart deels de na- een waterleidingnet. energie en geld dreigt. Het leidt er zelfregulering werkt, het draagvlak door Google Books. De boekenpoot Google Books geldt Early Dutch Google Books dreigt staat garant voor politieke steun envan gebrekkige digitalisering in de De metadata zijn ook een klus, bij- latigheid van de erfgoedinstellingen. Dat net is zo vervuild toe dat gedigitaliseerde erfgoed- groter is dan met dwang. Nadeel is van zoekmachine Google heeft in Books Online (EDBO), een prestigieus ‘quick and dirty’ de betrokkenheid en is onpartijdig.” Alsgeesteswetenschappen die zij en an- voorbeeld doordat bij eeuwenoude Goed digitaliseren kost ongeveer 1 bronnen maar zelden hun potentieel dat de standaarden niet worden op- 2010 een deal met de KB gesloten om project van de KB en de universiteiten het maar snel gebeurt, zegt Mijn-deren aandragen, vormen een soort auteursnamen de spelling niet vast euro per pagina, dus 200 euro voor dat onderzoekers het in cultureel, sociaal of economisch gelegd.” En dat veel instellingen die de 160.000 boeken uit de periode van Leiden en Amsterdam. Bij EDBO norm te worden bij het hardt: “De toekomst is met de digita-zwartboek. Een kleine greep: ligt. “En wij kennen nog maar één een boek van ge gemiddelde omvang zelf moeten zuiveren.’ opzicht ten volle kunnen realiseren.’ standaarden dus negeren. 1700-1870 te scannen. zijn twee miljoen pagina’s van 11.000 scannen van boeken lisering schitterend, maar ik hoop De Universiteit van Amsterdam Jean-Jacques Rousseau, maar in de (200 paginas). Dat is veel geld voor Verspilling? Een decennium later Dit nadeel voelen vooral weten- Met Google Books, dat in 2008 bij boeken uit de periode 1781-1800 gedi- hem nog wel mee te maken.”
    3. 3. NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 NRC Weekend Zaterdag 10 september & Zondag 11 september 20118 Wetenschap 9 een probleem zijn geweest.” Verha-G E E ST E S W E T E N S C H A P P E N gen van de UvA zegt dat de best mo-De digitalisering van erfgoed neemt een hoge gelijke programmatuur is gebruikt: “Helaas is die nog niet goed genoeg.”vlucht, maar gebeurt slordig en chaotisch. Tellen en turvenWetenschappers kunnen talloze bronnen Maar geesteswetenschappers die mopperen, zijn vaak volgens de criti-daardoor niet vinden of doorzoeken. casters ook te weinig doordrongen van de van de mogelijkheden van di-Karel Berkhout gitalisering. Velen hebben nauwe- lijks een meten-is-weten-mentali- teit, zegt Van Stipriaan van DBNL: “Tellen en turven, iets wat dus heelV oor zijn in 1973 voltooide (UvA) heeft ruim 10.000 boeken en makkelijk moet kunnen met digitale proefschrift probeerde de brochures uit de periode 1900-1915 700 miljoen paginas bestanden, gebeurt in de geesteswe- neerlandicus Wim van den gedigitaliseerd; helaas is de collectie tenschappen verrassend weinig.” Hij Berg te achterhalen wan- voor onderzoekers buiten deze uni- Aan de digitalisering van erfgoed is zelf leverde met simpelweg metenneer de romantiek zijn intrede deed versiteit onbereikbaar. Een rechten- sinds 2004 in elk geval een krappe 50 een veelgeprezen bijdrage aan eenin Nederland. Boeken, kranten en kwestie, zegt de UvA, waar binnen- miljoen euro uitgegeven. Dat meldt academisch debat.tijdschriften van rond 1800 spitte hij kort naar gekeken wordt. het ministerie van Onderwijs, Cultuur Dat debat draaide om de vraag ofdoor op zoek naar het woord ‘roman- Universiteiten bouwen voor een en Wetenschappen (OCW) desge- de internationale romantiek in Ne-tisch’. Na vijftien jaar concludeerde onbekend bedrag databanken met vraagd. Het ministerie tekent daarbij derland snel voet aan de grond kreeg.Van den Berg dat het woord in 1810 proefschriften en andere publicaties aan geen zicht te hebben op alle uit- Niet echt, zei eerdergenoemde Vanvoor het eerst op dezelfde manier van hun personeel. De inrichting van gaven voor digitalisering, omdat in- den Berg. Jawel, zei Marita Mathij-werd gebruikt als eerder in Duits- deze ‘repositories’ is zo knullig, dat dividuele instellingen zelf ook niet sen, (emeritus) hoogleraar Neder-land, Frankrijk en Engeland. de publicaties nagenoeg onvindbaar geoormerkt geld gebruiken voor digi- landse letterkunde. Van Stipriaan Om ‘zijn’ Digitale Bibliotheek zijn. Alleen wie precies weet wat ie taliseren. Op het ministerie circuleren turfde in zijn DBNL hoe lang het in devoor de Nederlandse Letteren (DBNL) zoekt, kan iets vinden in deze ‘open intern dan ook schattingen van 100 negentiende eeuw duurde voor eente testen herhaalde hoofdredacteur acces’-bestanden. tot 200 miljoen euro. romantisch boek uit het buitenlandRené van Stipriaan vorig jaar deze Op het Geheugen van Nederland De Koninklijke Bibliotheek (KB) heeft werd vertaald: gemiddeld 17 jaar. Datzoektocht. De gedigitaliseerde boe- zijn voor ruim 7 miljoen euro de alleen al 30 miljoen euro besteed aan bevestigde volgens hem het gelijkken en tijdschriften in de databank hoogtepunten van het vaderlandse digitaliseren. De KB heeft de ambitie van Van den Berg.doorzocht hij op het woord ‘roman- gedrukte erfgoed bijeen gebracht. om uiteindelijk 700 miljoen pagina’s “Een fantastisch voorbeeld vantisch’. Van Stipriaan: “Na een korte Hoewel de boekomslagen, cartoons te digitaliseren. Bij de huidige kosten wat digitalisering voor de geesteswe-avond zoeken kon ik het eerste ge- en foto’s schitterend zijn, is een be- vergt dat een investering van 700 mil- tenschappen kan betekenen. Ieder-bruik ook vastprikken in 1810.” zoek aan de website wanhopig ma- joen euro. Als de boeken voor het een kan het experiment herhalen, Dit kunststukje is een triomf van kend: geen enkel document kun je scannen uit de band gesneden wor- het is controleerbaar, het is objectief.de digitalisering van het gedrukte doorzoeken. Zelfs bibliotheken en den, kost het digitaliseren niet 1 euro Het is een kwantitatieve versterkingerfgoed, dat het afgelopen decenni- archieven die eraan hebben bijgedra- maar ongeveer 15 cent per pagina. van kwalitatief onderzoek”, vindtum een hoge vlucht heeft genomen. gen, kunnen hier hun eigen spullen De KB heeft daarmee een proef ge- Mijnhardt. “De kwantitatieve aan-Universiteiten, bibliotheken, weten- niet terugvinden. Het paradepaard daan met boeken die dubbel in de pak is helaas lang uit de gratie ge-schappelijke instituten en archieven van digitaal erfgoed heeft inmiddels collectie zitten, maar dat leidde tot weest bij de humaniora – met uitzon-hebben al miljoenen pagina’s van als bijnaam het Geheugenverlies van veel protesten. De KB heeft nu geen dering van de economische historiciboeken, kranten en tijdschriften ge- Nederland. plannen om pagina’s los te snijden. die een paar decennia terug tijdreek-scand en veelal op websites gezet – sen zijn gaan verzamelen.”voor minimaal 50miljoen euro (zie Z u i d o o s t-A z i ë Rond 1900 ontstond er een schei- can semantic technology help?inzet). De digitalisering is nu zelfs in De voorbeelden geven aan dat uni- ding in de wetenschappen. “De na-een stroomversnelling gekomen met versiteiten, bibliotheken en archie- tuurwetenschappers gingen werkenbijvoorbeeld het net begonnen ven hun drukwerk hebben gescand in laboratoria. GeestwetenschappersGoogle Books in Nederland. zonder goed na te denken over de raakten onder invloed van Duitse fi- Je zou dus verwachten dat geestes- vraag wie de gedigitaliseerde docu- losofen met hun ‘begrijpend obser-wetenschappers dagelijks bliksem- menten op welke manier het beste veren’ en lieten zo kansen liggen”,acties als hierboven doen, maar dat is zou kunnen gebruiken. “De gebrui- zegt Mijnhardt, die ‘graag mag tel-niet zo. Want waar bètawetenschap- kers zijn te weinig betrokken ge- len’ in zijn onderzoeken: “Digitalise-pers met een sportauto over de digi- weest”, erkent Astrid Verheusen, ring kan helpen de kloof tussen alfa-tale snelweg razen, hobbelen beoefe- hoofd innovatieve projecten bij de en bètawetenschappen te dichten.”naars van de humaniora met een brik Koninklijke Bibliotheek (KB). De KB is Dan moet er wel nog heel wat ge-door een doolhof van websites en da- naast DBNL de grootste partij bij het I L LU S T R AT I E H E N R Y C A N N O N beuren, zeggen betrokkenen. Verha-tabanken. Geesteswetenschappers digitaliseren van erfgoed. “Met we- gen van de UvA hoopt op betere OCR: Het digital drama talekunnen veel gedigitaliseerde docu- tenschappers is veel te weinig ge- “Om in de toekomst alle bestandenmenten moeilijk of niet vinden. De sproken over hun behoeften.” opnieuw door de wasmachine te ha-wel gevonden documenten kunnen Digitalisering waar onderzoekers len.” Maar de belangrijkste wens is:ze moeilijk of niet doorzoeken. De wat aan hebben, ziet er ongeveer zo één standaard komen voor de digita-doorzoekbare documenten geven uit. Eerst worden de boeken, tijd- lisering. “De Taalunie zou standaar-vaak onbetrouwbare zoekresultaten. schriften of kranten gescand: dit le- disering moeten afdwingen”, vindt “Vroeger haalden wetenschappers vert alleen afbeeldingen van pagina’s Boot van het Huygens. Deze Neder-met het bladeren in boeken en tijd- op. Die plaatjes worden vervolgens lands-Vlaamse unie heeft als over-schriften eigenlijk emmers water uit met ‘optical character recognition’ koepelende organisatie die ook deeen put. Tegenwoordig is er door de (OCR), software voor optische teken- spellingsregels bepaalt, veel gezag.digitalisering een waterleidingnet. herkenning, omgezet in een tekst die 18de eeuw had je wel meer Franse au- een boek dat zelden wordt geraad- van Digitaal Erfgoed Nederland blijkt dat sommige boeken of reek- schappers die graag grote corpora de universiteit van Gent het Neder- gitaliseerd voor 3 miljoen euro. EDBO De Taalunie laat weten “meer sa-Maar dat net is zo vervuild, dat elke je kunt doorzoeken en bewerken. teurs met die naam”, zegt hoogleraar pleegd. De neiging is om het digitali- (DEN), een door het rijk betaald insti- sen zes keer zijn gescand, steeds op van boeken, tijdschriften en kranten landse taalgebied betrad, dreigt dat begin deze zomer online is ge- menhang te brengen” in de digitali-onderzoeker alsnog zelf het water Uiteindelijk wordt het document Mijnhardt: “Het is soms bij een ge- seren na het scannen af te raffelen. tuut dat de kwaliteit van de digitali- een ander plek. Onbenut potentieel? willen doorzoeken. Zo zijn inmid- ‘quick and dirty’ de norm te worden. gaan, zou een model van hedendaag- sering en gaat een inventarisatie ma-moet zuiveren in een emmertje”, voorzien van metadata zoals de au- schrift even zoeken of je dé Rousseau Een andere verklaring ligt in de sering probeert te verbeteren. “In- Nog steeds zijn instellingen er niet in dels 126 digitaliseringsprojecten “De OCR van Google Books is berucht se digitalisering in Nederland moe- ken van voltooide en voorgenomenschetst Van Stipriaan van DBNL. teursnaam, titelgegevens en allerlei voor je hebt.” manier waarop de digitalisering een stellingen zijn vaak al vroeg begon- geslaagd om een centraal register op voor kranten. Wie ze wil bekijken, slecht”, zegt Peter Boot van het Huy- ten zijn, maar vertoont de gebruike- projecten. “We willen voorkomenDBNL is een van de belangrijkste technische specificaties.. De tekenherkenning en de meta- jaar of twintig geleden is begonnen, nen met digitaliseren vóór het tijd- te zetten voor wat gescand is of moet naar tientallen verschillende gens Instituut voor Nederlandse Ge- lijke gebreken. dat dingen twee keer worden ge-aanbieders van gedigitaliseerd erf- Hoewel de OCR-software het afge- data zijn echter in veel gevallen on- zegt Verheusen van de KB: “Archie- perk van het world wide web – met wordt. Instellingen besteden het websites. De kranten staan niet in schiedenis. “De metadata zijn ook Het was bij de lancering van de daan”, zegt Karlijn Waterman van degoed in Nederland en wordt gesubsi- lopen decennium sterk is verbeterd, der de maat. “De OCR is doorgaans ven en musea wilden hun topstuk- dezelfde verouderde ICT werken ze scannen uit – maar telkens met ande- één portaal; dat kan ook niet, want ze niet goed. Het verzameld werk van ‘vroege Nederlandse boeken’, dat Taalunie. Dit najaar willen de Neder-dieerd door de Taalunie, een organi- verloopt het omzetten van beeld naar slordig gedaan. Een fout op 10 pagi- ken tonen en gebruikten hun websi- nog. Daarbij koppelen ze de ene data- re specificaties – of doen het zelf luk- zijn niet volgens één standaard ge- Huygens zit in een serie van 6 delen, hoogleraar Mijnhardt de staf brak landse en de Vlaamse tak een congressatie van de Nederlandse en Vlaamse tekst niet foutloos, onder meer door- na’s is net acceptabel, maar in de te als de boetiek van de mooiste spul- base aan de andere; dat is wat anders raak. “Door dit alles is veel moeilijk scand, en het zal waarschijnlijk ook maar Google Books geeft niet aan dat over de digitalisering en die van het organiseren met alle betrokken be-overheid. “Het is nog erger. Er zijn dat de computer moeite heeft met meeste documenten staan er veel len. De nadruk lag op de mooie plaat- dan het web gebruiken.” vindbaar en nauwelijks doorzoek- nooit kunnen. er meerdere delen zijn.” EDBO in het bijzonder. Boot van het leidsmakers. Waterman: “Het zouwel 33 verschillende waterleidingen het herkennen van woorden in oude meer”, zegt Van Stipriaan: “Wie een jes. Pas laat in de jaren negentig Tel daarbij op dat de humaniora baar”, zegt De Niet van DEN. De versplintering van de geestes- Verheusen van de KB erkent dat Huygens valt hem bij: “De OCR van mooi zijn als we dan in kaart hadden,en niemand heeft een idee wat waar spelling (de verwisseling van de s en woord intypt, krijgt woorden die hij kwam de ommezwaai naar tekst. We vanouds versplinterd zijn en je heb wetenschappen is ook af te lezen aan OCR en metadata “niet heel goed” Early Dutch Books is rampzalig. 90 wat waar al is gedigitaliseerd.”in zit”, zegt Wijnand Mijnhardt. De de f is berucht). “Je moet de omzet- niet zoekt (vals positief) en – veel er- waren de eersten en moesten zelf uit- de verklaring voor de wildgroei aan Kranten het feit dat universiteiten, archieven zijn, maar: “Zonder Google Books procent van de pagina’s foutloos is De ongeduldigen willen dat eenhoogleraar geschiedenis aan de Uni- ting dus controleren en corrigeren. ger – mist de aanwezige woorden die vinden hoe het moest.” instellingen die allemaal op hun ei- DEN probeert erfgoedinstellingen en bibliotheken de handen nog zouden we deze boeken voorlopig acceptabel, maar dat haalt dit project grote partij de regie op zich neemt,versiteit van Utrecht is een grootver- Wij laten dat doen in Zuidoost-Azië, hij wel zoekt (vals negatief).” De me- De pioniers gingen daarbij voort gen manier zijn gaan digitaliseren. bij het adviseren over digitalisering steeds niet ineen hebben geslagen, helemaal niet kunnen scannen.” niet. En dan zijn alleen nog maar de maar wie moet dat zijn. “De KB, wantbruiker van digitaal erfgoed. waar mensen de digitale documen- tadata zijn eveneens gebrekkig, zegt op een bekende maar doodlopende In een brief aan de Tweede Kamer te overtuigen van het nut van stan- zegt Van Stipriaan. “Door niet één Hoogleraar Mijnhardt noemt Google boeken in Latijns schrift gedaan, die de KB heeft veel ervaring en de moge- Onder veel bijval van wetenschap- ten vergelijken met de originelen”, Mijnhardt: “Wie bijvoorbeeld wil weg, zegt directeur Marco de Niet sprak toenmalig staatssecretaris Van daardisering. “Wij zijn adviserend, plan te maken om al het gezamenlij- Books dan ook een „zegen” voor zijn in Gotisch schrift zouden helemaal lijkheden om snel en op grote schaalpers hebben Van Stipriaan en Mijn- zegt Van Stipriaan van DBNL. Om dat schrijven over de boekenproductie in der Ploeg in 2002 dan ook van ‘sterk niet normerend. We geven aan hoe ke erfgoed volgens een standaard- werk: “Hoewel pas een procent of te digitaliseren en standaarden tehardt de noodklok geluid. De eerste goed te kunnen doen, hoef je de taal Leiden, kan niet achterhalen welke monolithische systemen en een ver- instellingen het beste kunnen digita- norm te digitaliseren hebben de in- tien van de boeken is gedigitaliseerd, ontwikkelen”, vindt Verheusen vanin meerdere artikelen, waaronder in niet te kennen. De OCR van DBNL, de van de gedigitaliseerde boeken daar ‘Digitale bestanden zijn snippering van projecten waarmee liseren maar dwingen dat niet af”, stellingen het speelveld open gela- kan ik nu al veel digitaal vinden.” Met de komst van de KB. De Taalunie, vindt De Niet vanDe Gids, de tweede onlangs bij een le- database voor literatuur. geldt als de ooit zijn gepubliceerd.” een aanzienlijke verspilling van zegt De Niet. “Voordeel is dat als de ten.” Dat speelveld is nu betreden Als Nederlands antwoord op DEN: “De Taalunie is gezaghebbend,zing in Leiden. De vele voorbeelden beste in Nederland. Geldgebrek verklaart deels de na- een waterleidingnet. energie en geld dreigt. Het leidt er zelfregulering werkt, het draagvlak door Google Books. De boekenpoot Google Books geldt Early Dutch Google Books dreigt staat garant voor politieke steun envan gebrekkige digitalisering in de De metadata zijn ook een klus, bij- latigheid van de erfgoedinstellingen. Dat net is zo vervuild toe dat gedigitaliseerde erfgoed- groter is dan met dwang. Nadeel is van zoekmachine Google heeft in Books Online (EDBO), een prestigieus ‘quick and dirty’ de betrokkenheid en is onpartijdig.” Alsgeesteswetenschappen die zij en an- voorbeeld doordat bij eeuwenoude Goed digitaliseren kost ongeveer 1 bronnen maar zelden hun potentieel dat de standaarden niet worden op- 2010 een deal met de KB gesloten om project van de KB en de universiteiten het maar snel gebeurt, zegt Mijn-deren aandragen, vormen een soort auteursnamen de spelling niet vast euro per pagina, dus 200 euro voor dat onderzoekers het in cultureel, sociaal of economisch gelegd.” En dat veel instellingen die de 160.000 boeken uit de periode van Leiden en Amsterdam. Bij EDBO norm te worden bij het hardt: “De toekomst is met de digita-zwartboek. Een kleine greep: ligt. “En wij kennen nog maar één een boek van ge gemiddelde omvang zelf moeten zuiveren.’ opzicht ten volle kunnen realiseren.’ standaarden dus negeren. 1700-1870 te scannen. zijn twee miljoen pagina’s van 11.000 scannen van boeken lisering schitterend, maar ik hoop De Universiteit van Amsterdam Jean-Jacques Rousseau, maar in de (200 paginas). Dat is veel geld voor Verspilling? Een decennium later Dit nadeel voelen vooral weten- Met Google Books, dat in 2008 bij boeken uit de periode 1781-1800 gedi- hem nog wel mee te maken.”

    ×