Webarchivering in de KB door René Voorburg

1,159 views

Published on

Presentation given at 30 november in Amersfoort at the Rijksdienst voor Cultureel Erfgoed

SIMIN/OKBN Najaarsdag
Born-digital: (hoe) bewaar je dat?

Published in: Travel, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,159
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Webarchivering in de KB door René Voorburg

  1. 1. Webarchivering op de KB René Voorburg [email_address]
  2. 2. Presentatie Webarchivering op de KB <ul><li>Waarom: achtergrond webarchivering op de KB </li></ul><ul><li>Hoe & wat: de praktijk van webarchivering op de KB </li></ul><ul><li>Vragen? </li></ul>
  3. 3. Deel 1: Achtergrond webarchivering op de KB
  4. 4. KB en de nationale biografie <ul><li>KB opgericht in 1798 als nationale bibliotheek </li></ul><ul><li>Vorming depot van publicaties om nationale erfgoed in gedrukte vorm te verzamelen, te bewaren en te beschrijven </li></ul><ul><li>Sinds 1974 wordt van iedere publicatie die in Nederland verschijnt één exemplaar verzameld voor permanente bewaring en beschikbaarstelling. </li></ul>
  5. 5. Publicaties Objecten in het internettijdperk <ul><li>Publicaties steeds vaker digitaal, dikwijls zonder (equivalente) gedrukte variant </li></ul><ul><li>Traditionele onderscheid tussen drukwerk en audiovisuele uitingen steeds moeilijker vol te houden </li></ul><ul><li>Internet is hét publicatiemedium geworden van deze tijd. </li></ul>
  6. 6. Webarchivering <ul><li>Internet is hét publicatiemedium, de cultuurdrager geworden van deze tijd, een unieke bron van informatie over praktisch iedere aspect van de samenleving </li></ul><ul><li>Het web groeit hard, maar sites en pagina´s verdwijnen ook snel. Gemiddelde pagina ´leeft´ 100 dagen </li></ul><ul><li>Linkrot is een alledaags, herkenbaar fenomeen </li></ul><ul><li>Wie neemt verantwoordelijkheid ? </li></ul>
  7. 7. De digitale bibliotheek <ul><li>Sinds 2003 is het e-depot operationeel, voor bewaren en duurzaam toegankelijk maken digitale objecten </li></ul><ul><li>Sinds 2006 is de KB actief met archiveren van een selectie Nederlandse websites </li></ul><ul><li>Websites zullen duurzaam opgeslagen worden in het e-depot. </li></ul>
  8. 8. Het e-depot <ul><li>Veilige en duurzame opslag </li></ul><ul><li>Registratie (metadata) </li></ul><ul><li>Hulpmiddelen voor duurzame toegang. </li></ul>
  9. 9. Deel 2: De praktijk van webarchivering op de KB
  10. 10. Proces webarchivering op de KB <ul><li>i. Selectie </li></ul><ul><li>ii. Toestemming eigenaar via opt-out </li></ul><ul><li>iii. Harvesting </li></ul><ul><li>iv. Kwaliteitscontrole </li></ul><ul><li>v. Archivering (e-depot) </li></ul><ul><li>vi. Beschikbaarstellen (online webarchief). </li></ul>
  11. 11. i. Selectie 1/2 <ul><li>Basis collectiebeleid KB, “alles van en over Nederland” </li></ul><ul><li>maatschappelijk belang evident </li></ul><ul><li>kwaliteitseisen </li></ul><ul><li>iha geen sites individuen (ivm ‘hobbysfeer’) </li></ul><ul><li>geen puur commerciële sites </li></ul><ul><li>geen radicale of abjecte sites </li></ul><ul><li>geen databases </li></ul><ul><li>geen kranten </li></ul><ul><li>geen dubbelingen met Archipol, R’dam, I. v. Beeld & Geluid, Sinologie UBL. </li></ul>
  12. 12. i. Selectie 2/2 <ul><li>Selectie per vakgebied </li></ul><ul><li>Momenteel vooral (cultuur-) geschiedenis, overheids-administratie, literaire auteurs en rechten </li></ul><ul><li>Kunst op het web nu nog niet behandeld </li></ul><ul><li>Selectie is arbeidsintensief! </li></ul>
  13. 13. ii. Toestemming eigenaar <ul><li>Per e-mail </li></ul><ul><li>Volgens opt-out principe </li></ul><ul><li>Deel reageert, voornamelijk (zeer) positief, een enkeling afwijzend. </li></ul>
  14. 14. iii. Harvesting <ul><li>Configuratie en beschrijving via ‘Web Curator Tool’ </li></ul><ul><li>titel </li></ul><ul><li>contactadres </li></ul><ul><li>seed URLs </li></ul><ul><li>UNESCO-code </li></ul><ul><li>schedule </li></ul><ul><li>eventuele annotaties </li></ul><ul><li>Harvesting door ‘Heritrix’. </li></ul>
  15. 16. iv. Kwaliteitscontrole <ul><li>Wat kan er mis gaan: </li></ul><ul><li>Interactieve content afhankelijk van techniek niet altijd (goed) te archiveren (mn. serverinteracties zoals zoeken, AJAX, complexe javascripts, flash) </li></ul><ul><li>‘ Oneindige’ websites door technische fouten of specifieke functionaliteit (bv.agenda) </li></ul><ul><li>Ontbrekende vormgeving of content door robots.txt </li></ul><ul><li>URLs die niet uniek zijn (mn. bij taalswitch) </li></ul><ul><li>Onvolledige configuratie van het pagina-domein </li></ul><ul><li>Te ruime configuratie van het pagina-domein. </li></ul>
  16. 20. v. Archivering in e-depot <ul><li>Opslag als (W)ARC-bestanden </li></ul><ul><li>Samen met beschrijvende metadata & technische metadata (via METS.xml). </li></ul>
  17. 21. vi. Online webarchief <ul><li>Beschikbaar begin 2010? </li></ul>
  18. 26. <ul><li>Vragen? </li></ul><ul><li>René Voorburg / [email_address] </li></ul>vragen? rene.voorburg @kb.nl

×