Digitalisering voor gebruik Informatie aan Zee 2011 Trudi Noordermeer Oostende, 16 september 2011
Programma <ul><li>3 typen gebruikers </li></ul><ul><li>Het gedigitaliseerde materiaal dat zij gebruiken </li></ul><ul><ul>...
3 typen gebruikers  <ul><li>De ‘recreatieve’ gebruiker en scholieren </li></ul><ul><li>Bèta wetenschappers </li></ul><ul><...
<ul><li>De recreatieve gebruiker </li></ul><ul><li>en scholier </li></ul>
De recreatieve gebruiker & scholier <ul><li>Een breed publiek dat geïnteresseerd is in (gedigitaliseerd) cultureel erfgoed...
Digitalisering=toegang <ul><li>Nationale Bibliotheek Praag </li></ul><ul><li>1994 </li></ul><ul><li>Digitalisering  topstu...
1994-1996 <ul><li>Honderd Hoogtepunten  Koninklijke Bibliotheek  Den Haag </li></ul><ul><li>Boek + website </li></ul><ul><...
Memory of The World <ul><li>Unesco </li></ul><ul><li>Topstukken uit bibliotheken, archieven, musea conserveren, publiceren...
Nationale bibliotheken: projecten <ul><li>American Memory – USA, LoC </li></ul><ul><ul><li>Brede selectie. Bijv. filmpje v...
Nationale projecten/2 <ul><li>Koninklijke Bibliotheek Den Haag </li></ul><ul><ul><li>Geheugen van Nederland </li></ul></ul...
Europeana <ul><li>Tegenhanger American Memory </li></ul><ul><li>Tientallen Europese bibliotheken, archieven, musea </li></...
De ‘recreatieve’ gebruiker, scholier <ul><li>Beleeft veel plezier aan het gedigitaliseerde materiaal </li></ul><ul><li>Bez...
<ul><li>De bètawetenschapper </li></ul>
De bèta wetenschapper <ul><li>Biomedische informatie, scheikunde, natuurkunde, ingenieurswetenschappen, wiskunde en inform...
Backfiles : een casus <ul><li>Reed Elsevier </li></ul><ul><ul><li>Wetenschappelijke informatie (bèta) </li></ul></ul><ul><...
De bètawetenschapper/2 <ul><li>Zeer kritisch </li></ul><ul><li>Eist topkwaliteit afbeeldingen </li></ul><ul><ul><li>Inferi...
<ul><li>De onderzoeker in de humaniora </li></ul>
<ul><li>“ Waar bètawetenschappers met een sport auto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora...
<ul><li>“ Digitaal erfgoed is doolhof” </li></ul><ul><li>“  Wanhopig zoeken in digitale bronnen” </li></ul><ul><li>NRC Han...
Problemen <ul><li>Geheugen van Nederland </li></ul><ul><li>Hoogtepunten Nederlands gedrukt vaderlands erfgoed </li></ul><u...
Problemen <ul><li>Mening over open access: </li></ul><ul><ul><li>Universiteiten bouwen voor een onbekend bedrag databanken...
Problemen <ul><li>Auteursrecht:  </li></ul><ul><ul><li>niet technisch, maar allesbepalend voor het gebruik: beperkingen va...
Problemen <ul><li>Sommige boeken zijn 6 keer gedigitaliseerd en gepubliceerd op Internet </li></ul><ul><li>Gebrek aan (int...
Wens onderzoeker in humaniora <ul><li>Tekst wordt gescand </li></ul><ul><ul><li>boeken, tijdschriften, kranten </li></ul><...
Wens onderzoeker in humaniora/2 <ul><li>OCR software  </li></ul><ul><ul><li>Optical Character Recognition </li></ul></ul><...
Kwaliteit OCR <ul><li>Sterk verbeterd, maar nog steeds niet goed genoeg voor bepaalde soorten onderzoek </li></ul><ul><li>...
Onderzoek naar betere OCR <ul><li>Europese Commissie </li></ul><ul><li>NWO Nederlands Wetenschappelijk Onderzoek </li></ul...
Wens van de onderzoeker <ul><li>Digitale onderzoekscorpora </li></ul><ul><li>In de geesteswetenschappen </li></ul><ul><ul>...
<ul><li>Voorbeelden onderzoek: </li></ul>
Afgunst in de Middeleeuwen <ul><li>“ In veel onderzoek wordt vooral aandacht besteed aan een specifieke tekst of hooguit e...
Nieuw onderzoek door digitale data <ul><li>Digging into the data challenge </li></ul><ul><ul><li>Er zijn zeer veel digital...
Digging into the data challenge <ul><li>Voorbeelden van genonoreerde projecten: </li></ul><ul><ul><li>Digging into the Enl...
Dataset: Project Google books <ul><li>Voordeel: </li></ul><ul><ul><li>Miljoenen boeken (van voor 1900) komen beschikbaar v...
Nieuw onderzoek door digitale data <ul><li>Google Grant Progam </li></ul><ul><ul><li>Collaborative research program to exp...
Google grant program: projecten <ul><li>Software ontwikkelen voor ontwikkeling in taal door de tijd heen </li></ul><ul><li...
Samenvattend: verbeterpunten <ul><li>Afstemming selectie te scannen materiaal </li></ul><ul><ul><li>denk aan kosten digita...
<ul><li>Vragen? </li></ul>
Upcoming SlideShare
Loading in …5
×

Digitalisering voor gebruik

786 views
752 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
786
On SlideShare
0
From Embeds
0
Number of Embeds
219
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Digitalisering voor gebruik

  1. 1. Digitalisering voor gebruik Informatie aan Zee 2011 Trudi Noordermeer Oostende, 16 september 2011
  2. 2. Programma <ul><li>3 typen gebruikers </li></ul><ul><li>Het gedigitaliseerde materiaal dat zij gebruiken </li></ul><ul><ul><li>Projecten </li></ul></ul><ul><li>Tevredenheid, problemen en verbeterpunten </li></ul>
  3. 3. 3 typen gebruikers <ul><li>De ‘recreatieve’ gebruiker en scholieren </li></ul><ul><li>Bèta wetenschappers </li></ul><ul><li>Wetenschappers in de humaniora </li></ul>
  4. 4. <ul><li>De recreatieve gebruiker </li></ul><ul><li>en scholier </li></ul>
  5. 5. De recreatieve gebruiker & scholier <ul><li>Een breed publiek dat geïnteresseerd is in (gedigitaliseerd) cultureel erfgoed </li></ul><ul><ul><li>Brede, algemene (historische) belangstelling </li></ul></ul><ul><ul><li>Bezoekt de sites met presentatie topstukken, interessante documenten, archivalia, foto’s, filmpjes, geluidsopnamen, documenten uit de lokale regio etc </li></ul></ul><ul><ul><li>Scholieren die een werkstuk moeten maken </li></ul></ul>
  6. 6. Digitalisering=toegang <ul><li>Nationale Bibliotheek Praag </li></ul><ul><li>1994 </li></ul><ul><li>Digitalisering topstukken </li></ul><ul><li>Publicatie op CD-ROM, distributie per post </li></ul><ul><li>Beoogd resultaat: </li></ul><ul><ul><li>minder gebruik van de orginelen </li></ul></ul><ul><li>Onverwacht effect: </li></ul><ul><ul><li>méér vraag voor inzage originelen </li></ul></ul>
  7. 7. 1994-1996 <ul><li>Honderd Hoogtepunten Koninklijke Bibliotheek Den Haag </li></ul><ul><li>Boek + website </li></ul><ul><ul><li>http://www.kb.nl/galerie/100hoogtepunten/van1tot100.html </li></ul></ul><ul><li>Eén van de meest geraadpleegde webtentoonstellingen van de KB, nog altijd </li></ul>
  8. 8. Memory of The World <ul><li>Unesco </li></ul><ul><li>Topstukken uit bibliotheken, archieven, musea conserveren, publiceren en digitaliseren </li></ul><ul><li>Vanaf 1992, wereldwijd </li></ul><ul><li>http://www.unesco.org/new/en/media-services/multimedia/photos/photo-gallery-memory-of-the-world-items/ </li></ul>
  9. 9. Nationale bibliotheken: projecten <ul><li>American Memory – USA, LoC </li></ul><ul><ul><li>Brede selectie. Bijv. filmpje van aardbeving in San Francisco, 1908 </li></ul></ul><ul><li>The British Library Online - UK </li></ul><ul><ul><li>Beowulf </li></ul></ul><ul><ul><li>Project Turning the Pages </li></ul></ul><ul><li>Gallica – Frankrijk, Bibliothèque Nationale </li></ul>
  10. 10. Nationale projecten/2 <ul><li>Koninklijke Bibliotheek Den Haag </li></ul><ul><ul><li>Geheugen van Nederland </li></ul></ul><ul><ul><li>Digitalisering collecties 80 instellingen (bibliotheken, archieven, musea) </li></ul></ul><ul><ul><li>Aggregator </li></ul></ul><ul><li>Flandrica </li></ul><ul><ul><li>500 publicaties (2012) </li></ul></ul><ul><ul><li>6 bibliotheken Vlaamse Erfgoedbibliotheek </li></ul></ul>
  11. 11. Europeana <ul><li>Tegenhanger American Memory </li></ul><ul><li>Tientallen Europese bibliotheken, archieven, musea </li></ul><ul><li>Zeer rijk Europees erfgoed </li></ul><ul><li>Aggregator </li></ul><ul><ul><li>Instellingen digitaliseren zelf: Europeana brengt samen </li></ul></ul><ul><li>Thematische website </li></ul><ul><ul><li>Probleem: zoeken en vinden </li></ul></ul>
  12. 12. De ‘recreatieve’ gebruiker, scholier <ul><li>Beleeft veel plezier aan het gedigitaliseerde materiaal </li></ul><ul><li>Bezoekt sites met gedigitaliseerd materiaal uit eigen land en eigen regio </li></ul><ul><li>Is niet erg kritisch </li></ul>
  13. 13. <ul><li>De bètawetenschapper </li></ul>
  14. 14. De bèta wetenschapper <ul><li>Biomedische informatie, scheikunde, natuurkunde, ingenieurswetenschappen, wiskunde en informatica </li></ul><ul><li>Nieuwe wetenschappelijke informatie </li></ul><ul><ul><li>Vrijwel geheel digitaal beschikbaar ‘digital born’ </li></ul></ul><ul><li>Backfiles </li></ul><ul><ul><li>Uitgevers scannen hun oude tijdschriften en verkopen die als ‘backfiles’ </li></ul></ul><ul><ul><li>Soms inferieure kwaliteit </li></ul></ul>
  15. 15. Backfiles : een casus <ul><li>Reed Elsevier </li></ul><ul><ul><li>Wetenschappelijke informatie (bèta) </li></ul></ul><ul><ul><li>Bijna alle publicaties van alle uitgevers die Elsevier overnam </li></ul></ul><ul><ul><li>Re-scanning project: 600.000 scans van onvoldoende kwaliteit worden opnieuw gescand </li></ul></ul><ul><ul><li>Vooral medische informatie </li></ul></ul><ul><ul><ul><li>http://www.info.sciverse.com/sciencedirect/content/backfiles/optimizing_backfiles </li></ul></ul></ul>
  16. 16. De bètawetenschapper/2 <ul><li>Zeer kritisch </li></ul><ul><li>Eist topkwaliteit afbeeldingen </li></ul><ul><ul><li>Inferieure kwaliteit is onbruikbaar </li></ul></ul><ul><li>Meestal minder interesse in historisch materiaal </li></ul><ul><li>Hoge kwaliteit materiaal is beschikbaar </li></ul><ul><li>Groot probleem </li></ul><ul><ul><li>kosten en de prijsstijgingen abonnementen </li></ul></ul>
  17. 17. <ul><li>De onderzoeker in de humaniora </li></ul>
  18. 18. <ul><li>“ Waar bètawetenschappers met een sport auto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora met een brik door een doolhof van websites en databanken” </li></ul><ul><li>Karel Berkhout </li></ul>
  19. 19. <ul><li>“ Digitaal erfgoed is doolhof” </li></ul><ul><li>“ Wanhopig zoeken in digitale bronnen” </li></ul><ul><li>NRC Handelsblad, 10 september 2011, p.1. </li></ul>
  20. 20. Problemen <ul><li>Geheugen van Nederland </li></ul><ul><li>Hoogtepunten Nederlands gedrukt vaderlands erfgoed </li></ul><ul><li>Schitterende boeken, boekomslagen, cartoons, affiches, foto’s etc </li></ul><ul><li>Maar: </li></ul><ul><ul><li>Het is moeilijk om te zoeken in de grote hoeveelheid documenten </li></ul></ul><ul><ul><li>Zoeken binnen een document is niet mogelijk: er is geen OCR (Optical Charcter Recognition) toegepast </li></ul></ul>
  21. 21. Problemen <ul><li>Mening over open access: </li></ul><ul><ul><li>Universiteiten bouwen voor een onbekend bedrag databanken met hun proefschriften en andere publicaties van hun personeel. De inrichting van de repositories is zo knullig, dat de publicaties nagenoeg onvindbaar zijn. Alleen wie precies weet wat hij zoekt kan iets vinden in deze repositoria. </li></ul></ul><ul><ul><li>NRC handelsblad, 10 september 2011 </li></ul></ul>
  22. 22. Problemen <ul><li>Auteursrecht: </li></ul><ul><ul><li>niet technisch, maar allesbepalend voor het gebruik: beperkingen van het Auteursrecht </li></ul></ul><ul><ul><li>UvA scande 10.000 boeken uit periode 1900 – 1915 </li></ul></ul><ul><ul><li>Collectie is onbereikbaar voor academici buiten de universiteit </li></ul></ul><ul><li>Verweesde werken </li></ul><ul><ul><li>Onbekend wie de maker is </li></ul></ul>
  23. 23. Problemen <ul><li>Sommige boeken zijn 6 keer gedigitaliseerd en gepubliceerd op Internet </li></ul><ul><li>Gebrek aan (internationale) afstemming en coördinatie </li></ul><ul><li>Gebrek aan standaarden, standaarden en nog eens standaarden op gebied van digitalisering, ontsluiting, presentatie, zoekmogelijkheden </li></ul>
  24. 24. Wens onderzoeker in humaniora <ul><li>Tekst wordt gescand </li></ul><ul><ul><li>boeken, tijdschriften, kranten </li></ul></ul><ul><ul><li>liefst ook manuscripten </li></ul></ul><ul><li>Resultaat </li></ul><ul><ul><li>Afbeelding, ‘image’ </li></ul></ul>
  25. 25. Wens onderzoeker in humaniora/2 <ul><li>OCR software </li></ul><ul><ul><li>Optical Character Recognition </li></ul></ul><ul><ul><li>Tekenherkenning </li></ul></ul><ul><ul><li>Afbeelding wordt omgezet in tekst die je kunt doorzoeken en bewerken </li></ul></ul><ul><li>Metadata </li></ul><ul><ul><li>Bibliografisch: auteur, titel, onderwerp </li></ul></ul><ul><ul><li>Technisch </li></ul></ul><ul><ul><li>Structureel </li></ul></ul>
  26. 26. Kwaliteit OCR <ul><li>Sterk verbeterd, maar nog steeds niet goed genoeg voor bepaalde soorten onderzoek </li></ul><ul><li>Handmatig correcties nodig </li></ul><ul><li>Zeer duur, wordt vaak in het verre oosten gedaan </li></ul>
  27. 27. Onderzoek naar betere OCR <ul><li>Europese Commissie </li></ul><ul><li>NWO Nederlands Wetenschappelijk Onderzoek </li></ul><ul><li>Ook naar OCR voor handschriftelijk materiaal </li></ul>
  28. 28. Wens van de onderzoeker <ul><li>Digitale onderzoekscorpora </li></ul><ul><li>In de geesteswetenschappen </li></ul><ul><ul><li>Literatuur, kunst, muziek, taal- en letterkunde, (cultuur)geschiedenis </li></ul></ul><ul><li>Digitale humaniora of ‘digital humanities’ </li></ul>
  29. 29. <ul><li>Voorbeelden onderzoek: </li></ul>
  30. 30. Afgunst in de Middeleeuwen <ul><li>“ In veel onderzoek wordt vooral aandacht besteed aan een specifieke tekst of hooguit een paar. Ik wilde zoveel mogelijk teksten integraal thematisch bekijken . </li></ul><ul><li>Ideaal voor mijn onderzoek was dat veel belangrijke Middelnederlandse teksten op cd-rom beschikbaar zijn. Ik heb dus zelf geen handschriften hoeven lezen. </li></ul><ul><li>Op die cd-rom zijn ze naar de gewone drukletter overgezet, dus makkelijk leesbaar”. </li></ul><ul><li>Laura van der Wijden </li></ul>
  31. 31. Nieuw onderzoek door digitale data <ul><li>Digging into the data challenge </li></ul><ul><ul><li>Er zijn zeer veel digitale data beschikbaar </li></ul></ul><ul><ul><li>Welke nieuwe onderzoeksmethoden en –technieken zijn mogelijk? </li></ul></ul><ul><ul><li>Ontwikkeling van een nieuwe onderzoeksinfrastructuur voor de 21 eeuw </li></ul></ul>
  32. 32. Digging into the data challenge <ul><li>Voorbeelden van genonoreerde projecten: </li></ul><ul><ul><li>Digging into the Enlightenment: Mapping the Republic of Letters </li></ul></ul><ul><ul><li>Railroads and the making of Modern America: tools voor spatio-temporal correlation, analysis and visualisation </li></ul></ul><ul><ul><li>Harvesting speech datasets for linguistic research on the web </li></ul></ul>
  33. 33. Dataset: Project Google books <ul><li>Voordeel: </li></ul><ul><ul><li>Miljoenen boeken (van voor 1900) komen beschikbaar voor een groot publiek </li></ul></ul><ul><li>Nadeel: </li></ul><ul><ul><li>Kwaliteit scans en OCR is niet al te best </li></ul></ul><ul><li>Academici zijn blij met het grote corpus maar dringen aan op kwaliteitsverbetering </li></ul>
  34. 34. Nieuw onderzoek door digitale data <ul><li>Google Grant Progam </li></ul><ul><ul><li>Collaborative research program to explore the digital humanities using the Google Books corpus </li></ul></ul><ul><ul><li>50.000 euro per onderzoek </li></ul></ul><ul><ul><li>15 projecten per jaar </li></ul></ul>
  35. 35. Google grant program: projecten <ul><li>Software ontwikkelen voor ontwikkeling in taal door de tijd heen </li></ul><ul><li>Zoeksoftware voor het vinden van boeken en passages uit boeken voor een specifieke discipline </li></ul><ul><li>Ontwikkeling systemen voor crowd-sourced correcties in boeken en metadata </li></ul>
  36. 36. Samenvattend: verbeterpunten <ul><li>Afstemming selectie te scannen materiaal </li></ul><ul><ul><li>denk aan kosten digitale duurzaamheid: vele malen groter dan digitalisering </li></ul></ul><ul><li>Internationale standaarden mbt kwaliteit, digitaliseren, OCR, metadata </li></ul><ul><ul><li>dus ook: zoekmogelijkheden in digitale corpora en binnen documenten verbeteren </li></ul></ul><ul><li>Voor de onderzoekers </li></ul><ul><ul><li>nieuwe onderzoeksvragen bedenken </li></ul></ul>
  37. 37. <ul><li>Vragen? </li></ul>

×