Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Webarchivering op de Koninklijke Bibliotheek

1,269 views

Published on

Presentatie voor de "Born-Digital" themadag van de Nederlandse Museumvereniging samen met Overleg Kunsthistorische Bibliotheken in Nederland. Over achtergrond en praktijk van webarchivering op de Koninklijke Bibliotheek.

Published in: Technology, Education
  • Be the first to comment

  • Be the first to like this

Webarchivering op de Koninklijke Bibliotheek

  1. 1. Webarchivering op de KB René Voorburg [email_address]
  2. 2. Presentatie Webarchivering op de KB <ul><li>Waarom: achtergrond webarchivering op de KB </li></ul><ul><li>Hoe & wat: de praktijk van webarchivering op de KB </li></ul><ul><li>Vragen? </li></ul>
  3. 3. Deel 1: Achtergrond webarchivering op de KB
  4. 4. KB en de nationale biografie <ul><li>KB opgericht in 1798 als nationale bibliotheek </li></ul><ul><li>Vorming depot van publicaties om nationale erfgoed in gedrukte vorm te verzamelen, te bewaren en te beschrijven </li></ul><ul><li>Sinds 1974 wordt van iedere publicatie die in Nederland verschijnt één exemplaar verzameld voor permanente bewaring en beschikbaarstelling. </li></ul>
  5. 5. Publicaties Objecten in het internettijdperk <ul><li>Publicaties steeds vaker digitaal, dikwijls zonder (equivalente) gedrukte variant </li></ul><ul><li>Traditionele onderscheid tussen drukwerk en audiovisuele uitingen steeds moeilijker vol te houden </li></ul><ul><li>Internet is hét publicatiemedium geworden van deze tijd. </li></ul>
  6. 6. Webarchivering <ul><li>Internet is hét publicatiemedium, de cultuurdrager geworden van deze tijd, een unieke bron van informatie over praktisch ieder aspect van de samenleving </li></ul><ul><li>Het web groeit hard, maar sites en pagina´s verdwijnen ook snel. Gemiddelde pagina ´leeft´ 100 dagen </li></ul><ul><li>Linkrot is een alledaags, herkenbaar fenomeen </li></ul><ul><li>Wie neemt verantwoordelijkheid ? </li></ul>
  7. 7. De digitale bibliotheek <ul><li>Sinds 2003 is het e-depot operationeel, voor bewaren en duurzaam toegankelijk maken digitale objecten </li></ul><ul><li>Sinds 2006 is de KB actief met archiveren van een selectie Nederlandse websites </li></ul><ul><li>Websites zullen duurzaam opgeslagen worden in het e-depot. </li></ul>
  8. 8. Het e-depot <ul><li>Veilige en duurzame opslag </li></ul><ul><li>Registratie (metadata) </li></ul><ul><li>Hulpmiddelen voor duurzame toegang. </li></ul>
  9. 9. Deel 2: De praktijk van webarchivering op de KB
  10. 10. Proces webarchivering op de KB <ul><li>i. Selectie </li></ul><ul><li>ii. Toestemming eigenaar via opt-out </li></ul><ul><li>iii. Harvesting </li></ul><ul><li>iv. Kwaliteitscontrole </li></ul><ul><li>v. Archivering (e-depot) </li></ul><ul><li>vi. Beschikbaarstellen (online webarchief). </li></ul>
  11. 11. i. Selectie 1/2 <ul><li>Basis collectiebeleid KB, “alles van en over Nederland” </li></ul><ul><li>maatschappelijk belang evident </li></ul><ul><li>kwaliteitseisen </li></ul><ul><li>iha geen sites individuen (ivm ‘hobbysfeer’) </li></ul><ul><li>geen puur commerciële sites </li></ul><ul><li>geen radicale of abjecte sites </li></ul><ul><li>geen databases </li></ul><ul><li>geen kranten </li></ul><ul><li>geen dubbelingen met Archipol, R’dam, I. v. Beeld & Geluid, Sinologie UBL. </li></ul>
  12. 12. i. Selectie 2/2 <ul><li>Selectie per vakgebied </li></ul><ul><li>Momenteel vooral (cultuur-) geschiedenis, overheids-administratie, literaire auteurs en rechten </li></ul><ul><li>Kunst op het web nu nog niet behandeld </li></ul><ul><li>Selectie is arbeidsintensief! </li></ul>
  13. 13. ii. Toestemming eigenaar <ul><li>Per e-mail </li></ul><ul><li>Volgens opt-out principe </li></ul><ul><li>Deel reageert, voornamelijk (zeer) positief, een enkeling afwijzend. </li></ul>
  14. 14. iii. Harvesting <ul><li>Configuratie en beschrijving via ‘Web Curator Tool’ </li></ul><ul><li>titel </li></ul><ul><li>contactadres </li></ul><ul><li>seed URLs </li></ul><ul><li>UNESCO-code </li></ul><ul><li>schedule </li></ul><ul><li>eventuele annotaties </li></ul><ul><li>Harvesting door ‘Heritrix’. </li></ul>
  15. 16. iv. Kwaliteitscontrole <ul><li>Wat kan er mis gaan: </li></ul><ul><li>Interactieve content afhankelijk van techniek niet altijd (goed) te archiveren (mn. serverinteracties zoals zoeken, AJAX, complexe javascripts, flash) </li></ul><ul><li>‘ Oneindige’ websites door technische fouten of specifieke functionaliteit (bv.agenda) </li></ul><ul><li>Ontbrekende vormgeving of content door robots.txt </li></ul><ul><li>URLs die niet uniek zijn (mn. bij taalswitch) </li></ul><ul><li>Onvolledige configuratie van het pagina-domein </li></ul><ul><li>Te ruime configuratie van het pagina-domein. </li></ul>
  16. 20. v. Archivering in e-depot <ul><li>Opslag als (W)ARC-bestanden </li></ul><ul><li>Samen met beschrijvende metadata & technische metadata (via METS.xml). </li></ul>
  17. 21. vi. Online webarchief <ul><li>Beschikbaar begin 2010? </li></ul>
  18. 26. <ul><li>Vragen? </li></ul><ul><li>René Voorburg / [email_address] </li></ul>vragen? rene.voorburg @kb.nl

×