• Save
Voorgoed vastgelegd? archiveren van websites
Upcoming SlideShare
Loading in...5
×
 

Voorgoed vastgelegd? archiveren van websites

on

  • 1,260 views

 

Statistics

Views

Total Views
1,260
Views on SlideShare
1,260
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Voorgoed vastgelegd? archiveren van websites Voorgoed vastgelegd? archiveren van websites Document Transcript

  • Voorgoed vastgelegd? : archiveren van websites Hoe het allemaal precies is begonnen weet ik niet meer, het zal wel ooit ergens bij het gemeentearchief Rotterdam ter sprake zijn gekomen en in 2003 ben ik me er in gaan verdiepen. Ik las heel veel publicaties, rapporten, scripties en artikelen over dit onderwerp En langzamerhand kwam ik tot de conclusie dat een aantal scribenten ruimhartig gebruik maakten van de teksten van andere scribenten. Als je snel wilt worden ingewijd in de wereld van het downloaden van websites kan ik de publicatie Het web gevangen aanbevelen. Daarin wordt kort en helder uitgelegd waar het om gaat. Deze publicatie vormde de basis van mijn kennis over dit onderwerp. (www.archipol.nl) In 2004 startte het Gemeentearchief met een pilotproject E-depot en dit project is in 2005 omgezet in een vijfjarenproject, dat in 2010 zal worden afgerond. Eén van de deelprojecten was het project Websites. Natuurlijk werd begonnen met een degelijk ‘plan van aanpak’ waarin het projectdoel en de beoogde resultaten werden vastgelegd. Zelf werd ik een beetje zenuwachtig van al dat ontwikkelen van archiveringsstrategieën, scopes, typologieën, authenticiteiteisen, kwaliteitseisen enzo…., ik wilde alleen maar websites binnenhalen, opslaan en ontsluiten. Toch heb ik inmiddels geleerd dat het heel belangrijk is de zaken eerst grondig te overdenken en op te schrijven. Doordat je nadenkt over het onderwerp krijgt het meer structuur en het is beter de problemen eerst theoretisch te overdenken en op te lossen dan dat je later van alles moet gaan bijstellen. Er zijn een aantal open-source programma’s waaruit je kan kiezen en de bekendste zijn wel HTtrack en Heritrix. HT track voldeed aan veel van onze wensen en eisen. Ter vergroting van onze kennis van downloaden van websites en van HTtrack hebben we in 2005 hebben contact gezocht met de firma Capsis. Dit bedrijf is gespecialiseerd in webarchivering en webconservering, en heeft veel ervaring met het archiveren van websites. Ze verzorgden voor ons een korte cursus waarin we werden ingewijd in de geheimen van HTtrack en het downloaden van websites. Inmiddels begonnen we in 2006 aan een project waarbij de websites van de Rotterdamse politieke partijen die deelnamen aan de gemeenteraadsverkiezingen op 7 maart 2006, tweemaal zijn gearchiveerd. We hebben toen met veel moeite via HTtrack 18 websites binnengehaald en zonder de medewerking van Capsis zou het project veel minder goed zijn geslaagd. Maar laten we eerst vaststellen wat een website eigenlijk is en waarom we die zouden willen bewaren en hoe we die website kunnen bewaren Wat is een website Een website is een complex systeem van software, hardware en een veelvoud aan digitale bestanden en de samenhang tussen deze componenten maakt dat de site beschikbaar is op het worldwideweb. Door interactie tussen gebruiker en webserver verschijnen de webpagina’s op het scherm. Van Dale definieert een website als: “de plaats waar bepaalde informatie zich op het world wide web bevindt, aangeduid met een URL”. In feite is een website vaak niet meer dan een aangeklede presentatie van informatie en documenten Een website kan statisch of dynamisch zijn Statisch wil zeggen dat de website aanbodgericht is, dat de pagina’s altijd op dezelfde (door de ontwerper bepaalde) manier verschijnen op het beeldscherm. Dynamisch wil zeggen dat ze afhankelijk van de vraag van de bezoeker van de site worden opgebouwd. 1
  • De meeste websites bevatten vaak zowel statische als dynamische elementen en worden gecombineerd met andere technologieën, waardoor via de website verschillende diensten kunnen worden aangeboden. En juist deze combinaties maken een website interactief. Een bezoeker kan bijvoorbeeld via e-mail, nieuwsgroepen, blogs of een discussieforum reageren en informatie toevoegen. Ook fungeert de website vaak als interface voor een database en de gegevens uit die database, het zgn. deepweb, worden gepresenteerd binnen de structuur van de website. Websites zijn dus nogal complex zowel wat betreft de gebruikte technologieën als wat betreft inhoud en doel. Vooral de meest geavanceerde typen laten zien dat een website eigenlijk meer is dan alleen de drager van informatie, het is een soort informatie-service Waarom zouden we websites willen bewaren? Websites zijn inmiddels niet meer weg te denken uit de samenleving en een onderdeel geworden van ons bestaan. Overheidswebsites kunnen informatie bevatten waaraan rechten zouden kunnen worden ontleend, maar ze bieden ook of online formulieren en e-loketfuncties. Organisaties communiceren via websites met de buitenwereld over hun beleid, bevoegdheden en dienstverlening. Overigens worden overheidswebsites en sites van grote organisaties meer en meer een doorgeefluik van allerlei diensten, met een aardig raamwerk van plaatjes eromheen. De echte info zit in de databases erachter en die nemen we doorgaans niet op. Maar in de optiek van het Gemeentearchief Rotterdam zijn juist de sites van personen en kleine organisaties en instellingen die informatie verstrekken over zichzelf interessant om te bewaren. Inmiddels is het niet meer zo moeilijk om zelf een website te bouwen en veel privé personen en ook kleine organisaties beschikken over een eigen website. En vooral deze websites bevatten vaak informatie die elders niet beschikbaar is en waarvan het nuttig is om te bewaren. In het Unesco ‘Charter on the preservation of the digital heritage’ worden websites expliciet gerekend tot ons digitaal erfgoed. Dit digitale erfgoed is van belang voor toekomstig onderzoek naar de ontwikkeling van het web en onze huidige samenleving. Omdat websites dynamisch en vluchtig zijn moeten ze worden gestabiliseerd en vastgelegd om te kunnen worden bewaard. Dit proces noemen we de archivering van websites. Er is onderscheid tussen webarchivering en webharvesting. • webharvesting is het selecteren van relevante informatie en het binnenhalen daarvan met behulp van speciale applicaties. • webarchivering is het duurzaam opslaan, beheren en toegankelijk maken van de websites. Selectie Sinds midden 1996 probeert het Internet Archive het gehele internet te archiveren, maar er worden alleen periodieke snapshots, momentopnames, gemaakt. Ook worden themaverzamelingen aangelegd, b.v. alle websites over de tsunami of over 11 september 2001. Het is dus niet zeker of alle versies van een website worden bewaard. Trouwens het doel van de acties op internet archive is niet het vastleggen als archief en het is maar de vraag of de gearchiveerde sites nog authentiek, integer en betrouwbaar zijn. En het is nog meer de vraag of Archiveweb een ‘veilige bewaaromgeving’ is. Hoe selecteren we websites die voor bewaren in aanmerking komen? In Rotterdam is gebleken dat het collectieprofiel voor analoge documenten bijna gelijk is aan het collectieprofiel van digitale documenten, inclusief websites. Een website is slechts een verschijningsvorm van een informatiedrager. Het blijkt dat het voor personen en organisaties via een website makkelijker is zich te presenteren dan op papier en dat deze verschijningsvorm meer mogelijkheden biedt. Dus: als we de via de website aangeboden informatie ook zouden willen bewaren als deze wordt aangeboden op papier kan dat een reden zijn deze website te willen bewaren. Uitzonderingen zijn altijd mogelijk De praktische complicaties maken het, samen met het dynamische karakter van het web en de zich steeds ontwikkelende webtechnologie lastig om websites zelf te downloaden en te archiveren. 2
  • Het downloaden van deze weerbarstige materie vereist specialistische kennis, vakmanschap, ervaring en inzicht. Anders gezegd het is een kunstje. Hoe archiveren we websites ? Het correct downloaden van een website is te vergelijken met een onderzeeboot. Als je een onderzeeboot een beetje fatsoenlijk wilt laten duiken moet je een aantal kleppen op de juiste manier openen en sluiten. Het luistert nogal nauw en als je de verkeerde kleppen opent, of de kleppen op een verkeerde manier opent gaat de boot als een speer naar beneden, scheef naar beneden, of helmaal niet naar beneden. Datzelfde vakmanschap moet je ontwikkelen voor het correct downloaden van websites. Je moet de juiste instellingen weten te vinden, weten welke en hoeveel externe- en interne links je open zet en welke je afsluit. Pas als je de juiste instellingen hebt gedefinieerd kun je de site goed binnenhalen. Afbakenen website Bij het archiveren van een dynamisch en veelvormig documenttype als een website moet je eerst afbakenen wat je van zo’n website wil archiveren. Wil je ook de chatsessies, de blogs enz., of gaat het alleen maar om de inhoud en de presentatievorm? De keuzes die we daarin maken, hebben nogal wat technische en inhoudelijke consequenties. Daarom moet je eerst bepalen wat een website maakt tot wat hij is. Is het een presentatiemedium, een portaal naar andere informatiebronnen of een transactiemedium, of is het gewoon een interessante site van een privé persoon. Het antwoord op die vraag hangt af van de functie die de website heeft in één of meerdere werkprocessen. Als dat is gedefinieerd, kun je vervolgens analyseren welke elementen van de website behouden moeten blijven om er voor te zorgen dat de authenticiteit overeind blijft. Integriteit en verifieerbaarheid Dat wil dus zeggen dat je authenticiteitseisen moet opstellen (in de praktijk doe je daar niet meer zoveel mee, maar in het begin is het wel handig) Daarin staan twee begrippen centraal: integriteit en verifieerbaarheid. Met integriteit wordt bedoeld dat de website intact is en niet zodanig veranderd dat de betekenis ervan niet meer duidelijk is. Wijzigingen zijn tot op zekere hoogte aanvaardbaar, als oorspronkelijke betekenis of functie van de website maar niet wordt aangetast. Verifieerbaarheid betekent dat je kunt vaststellen dat de website is wat het beweert te zijn. Om dit mogelijk te maken is weer context informatie nodig die later wordt vastgelegd in metadata. In Rotterdam hebben we een lijst opgesteld met 19 authenticiteitseisen, en daarmee kunnen we iedere keer als we een website willen archiveren bepalen of de site voldoet aan deze eisen. Authenticiteitseisen Nr Eis Uitvoering Context 1 De gebruiker krijgt een signaal Functionaliteit in opname-techniek wanneer hij naar een externe link gaat 2 Organisatorische herkomst is Vastleggen in metadata reconstrueerbaar 3 Rol in werkprocessen is Vastleggen in metadata reconstrueerbaar 4 Plaats in informatie-architectuur is Vastleggen in metadata reconstrueerbaar Inhoud 5 Tekst wordt integraal weergegeven Functionaliteit in opname-techniek 6 Afbeeldingen worden integraal Functionaliteit in opname-techniek weergegeven 7 Bewegend beeld en geluid worden Functionaliteit in opname-techniek integraal weergegeven 8 Neerslag van transacties worden niet Functionaliteit in opname-techniek weergegeven. De interface wordt als 3
  • afbeelding weergegeven 9 Deepweb toepassingen zoals Functionaliteit in opname-techniek databases worden niet weergegeven. De interface wordt als afbeelding weergegeven 10 Neerslag van chatsessies wordt niet Functionaliteit in opname-techniek weergegeven. De interface wordt als afbeelding weergegeven 11 Meenemen van mutaties wordt per Bepalen frequentie van opname website bepaald. Informatieverlies wordt daarbij geaccepteerd Structuur 12 Structuur website wordt integraal Functionaliteit in opname-techniek weergegeven 13 Interne links worden integraal Functionaliteit in opname-techniek weergegeven Vorm 14 Opmaak, vormgeving wordt integraal Functionaliteit in opname-techniek weergegeven 15 Beeldfunctionaliteit, zie 19 - Gedrag 16 Functionaliteit tbv transacties wordt Functionaliteit in opname-techniek als afbeelding weergegeven 17 Zoekfunctionaliteit wordt als Functionaliteit in opname-techniek afbeelding weergegeven 18 Chatfunctionaliteit wordt als Functionaliteit in opname-techniek afbeelding weergegeven 19 Beeldfunctionaliteit, zoals in- en Functionaliteit in opname-techniek uitzoomen, menugestuurde afbeeldingen, aanklikbare afbeeldingen, veranderende kleuren bij cursorbeweging, wordt werkend weergegeven Ook wordt afgebakend welke delen van de website worden opgenomen en of eventuele deep-web toepassingen worden opgenomen of niet. (Een groot deel van het web is niet toegankelijk via gewone zoekmachines, omdat de inhoud is verborgen in databases. Dit noemen we het deep web of invisible web.) Daarna analyseren we de eventuele begrenzingen en problemen bij het maken van een snapshot. De naam zegt het al, het is een snapshot, een momentopname van een website! In sommige gevallen gaat dat wel op, er zijn websites die je binnen een paar seconden binnenhaalt, maar er zijn ook sites waarbij het uren duurt. Het maken van een snapshot houdt in dat de interactieve functionaliteit niet langer beschikbaar is. Via de gearchiveerde site kun je dus niet meer chatten! Externe links blijven wel beschikbaar, maar als de link verandert stopt dat ook. Als we de site extern beschikbaar willen stellen is toestemming nodig van de eigenaar van de site. En dan nog kun je problemen krijgen met auteursrechten doordat er een filmpje of een foto op de site staat waarop rechten blijken te berusten. Je kunt doorvoor een standaardbrief opstellen die je verstuurt naar de website eigenaar. Als je de site niet extern beschikbaar gaat stellen hoeft dit allemaal niet. Omdat websites nogal aan verandering onderhevig zijn moet je een strategie ontwikkelen over de frequentie waarmee verschillende soorten websites worden opgenomen. Daarom is het belangrijk om te weten wanneer een site gaat veranderen en dan kan een goed contact met de webmaster wel handig zijn. Zoals we al eerder opmerkten vraagt het downloaden van websites het nodige vakmanschap en inzicht. Pas als je dit vaak doet krijg je het nodige vakmanschap en dan is het nog niet eenvoudig. Wij 4
  • maken inmiddels al een paar jaren gebruik van Presurf, een software applicatie van Capsis uit Amsterdam. Presurf is in staat geheel zelfstandig websites te downloaden en op te slaan. Presurf werkt automatisch, maar niet vanzelf. Ook hier moet je eerst een website analyseren en instellen wat je wel en niet wilt archiveren. En dat vraagt ook weer behoorlijk veel kennis van de achterkant van een website. Bij aanschaf van de software worden door Capsis cursussen gegeven zodat je leert omgaan met de software, maar ook hoe je websites kunt analyseren en aan de áchterkant van een website kunt kijken. Presurf heeft ook een viewer waarmee je de website weer kunt ophalen en bekijken en een metadatamodule. Het is de bedoeling dat deze metadatamodule wordt gekoppeld aan het beherend systeem van het GAR zodat we metadata maar eenmalig behoeven vast te leggen. Met Presurf kun je instellen welke websites je wilt downloaden en met welke frequentie. Je kunt aangeven wat je wilt hebben van een site, hoeveel externe links je wilt meenemen, of je filmpjes en geluidsopnamen wilt downloaden en je kunt ook bepaalde zaken uitsluiten. Neem altijd de colofon en sitemap mee, handig voor de metadata Daarna maken we proefdownload en bekijken we of alles naar behoren werkt. Doorgaans is dat niet zo en wordt, na de nodige aanpassingen een nieuwe poging gedaan, net zo lang tot we tevreden zijn, maar soms is een site zo weerbarstig dat je de eisen naar beneden moet bijstellen. Maak je niet teveel illusies, het gaat, vooral in het begin heel vaak mis, je kan er soms wanhopig van worden Inmiddels worden in Rotterdam jaarlijks ruim 250 websites gearchiveerd en is dit in 2009 geïmplementeerd in de reguliere werkprocessen. In principe wordt jaarlijks een snapshot van een website genomen. Bij het nemen van meerdere snapshots per jaar wordt, gezien de kosten van digitale opslag en digitale duurzaamheid rekening gehouden met de relevantie van de betreffende website. We hebben inmiddels 268 verschillende websites gedownload De frequentie van de te nemen snapshots varieert: Per jaar 234 Per half jaar 3 Per kwartaal 1 Maandelijks 1 Wekelijks 1 Eenmalig 6 Meerjaarlijks (betreft de politieke partijen) 22 Totaal 268 De tot nu toe gebruikte opslagruimte bedraagt: ca. 160 Gb De opslagkosten per Gb zijn € 1,50 per jaar, inclusief back up en beheer. Voor duurzame opslag in een E-depot moet speciale software worden aangeschaft en dan stijgen de kosten aanzienlijk. (opslag van 1 Tb kost € 1500 per jaar, inclusief back-up, beheer etc.) Want als we een website hebben gedownload, met deze ook nog worden bewaard en liefst zo lang mogelijk, dus je moet je bestanden zo opslaan dat ze niet veranderen. En dan beginnen de moeilijkheden pas goed, want digitaal materiaal is vluchtig en onderhevig aan veranderingen, de ontwikkelingen buitelen over elkaar heen. Digitale duurzaamheid is al een probleem en dat zal alleen maar groter worden! Archiveren is dus belangrijk en dat is meer dan opslaan op een harde schijf of op een server. In Rotterdam maken we van een digitaal bestand een SIP. (Submission Information Package) Dat is een pakketje digitaal materiaal met een XML bestand aan metadata. 5
  • We hebben standaarden vastgesteld: voor het metadatamodel en voor de wijze waarop de metadata aan de digitale ‘informatie-objecten’ worden gekoppeld en deze SIP’s worden opgeslagen in het E- depot als AIP (Archival Information Package). Een AIP is een digitaal informatie-object met de noodzakelijke metadata die daaraan zijn toegevoegd zoals die worden opgeslagen voor lange termijn bewaring in het depot. Voor de beschikbaarstelling wordt een kopie gemaakt van de AIP, minus een aantal voor de gebruiker niet relevante metadata en dat noemen we dan een DIP (Dissemination Information Package). Ik kan me voorstellen dat u denkt, leuk verhaal, maar echt weer iets voor de grote jongens. Want het traject wat ik u heb geschetst is al moeizaam genoeg in een grote dienst en ik ben me ervan bewust dat we in Rotterdam in een riante positie verkeren. Gemeentebestuur en dienstleiding zijn doordrongen van de noodzaak tot opslag van digitale documenten én van digitale duurzaamheid en maakt dat ook financieel mogelijk. We kunnen veel tijd vrijmaken en er wordt veel tijd vrijgemaakt en onderzoek ontwikkeling worden gestimuleerd. De implementatie van de websitearchivering in de werkprocessen dit jaar heeft dit jaar inmiddels 300 uur gekost en ik verwacht dat dit in 2010 niet minder zal zijn. En dan heb ik het nog niet eens over al de problemen waar we tegenaan lopen, en waar je soms wanhopig van kan worden. Wij kunnen dus tijd vrijmaken, wij hebben een afdeling Informatiemanagement die ons met raad en daad bijstaat, wij kunnen gebruik maken van de vaardigheden van collega’s, maar als je dat allemaal niet hebt, wat moet je dan? De toenemende digitalisering maakt het voor kleinere instellingen toch wel erg lastig om bij te blijven. Het traject dat we in Rotterdam hebben doorlopen was al moeizaam voor een grote dienst, laat staan voor kleinere instellingen die graag websites veilig willen stellen. De materie is te gecompliceerd om alleen op te lossen en samenwerking en overleg is alleszins wenselijk. We zijn er graag toe bereid en willen graag onze kennis met anderen delen en misschien moeten we er toch eens met elkaar over verder praten. Misschien kunnen we dan ook oplossingen bedenken en er met elkaar voor zorgen dat we juist deze digitale boot niet gaan missen, want de materie is te gecompliceerd om in je eentje op te lossen. Peter van Wijngaarden Hfd. afd. bibliotheek Gemeentearchief Rotterdam Hofdijk 651, 3032 CG Rotterdam Postbus 71, 3000 AB Rotterdam 010-267 55 60 www.gemeentearchief.rotterdam.nl 6