20081007 Workshop BOM-VL WP3

  • 606 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
606
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Van OAIS tot een gelaagd metadatamodel UGent-Boekentoren UGent-MMLab IBBT-iLab
  • 2. Overzicht
      • Probleemstelling
      • OAIS
      • Best practices
      • Conclusies
  • 3. Probleemstelling
  • 4. Problemen met archivering van digitale informatie
    • Probleem 1 .
      • Analoge formaten verdwijnen en moeten vervangen worden door digitale alternatieven
      • Snelle groei data
      • Incompatibiliteit tussen korte levensduur van digitale technologie en de nood aan archivering op lange termijn
    • Probleem 2 .
      • In digitale vorm is informatie iets abstracts , onafhankelijk van het opslagmedium waarop ze bewaard wordt. De abstracte representatie – dus niet het medium – moet gedurende een lange periode bewaard worden.
  • 5. OAIS
  • 6. Open Archival Information System (OAIS)
    • Referentiemodel voor de beschrijving van digitale archieven
    • Ontwikkeld in 1982 binnen een forum van internationale ruimtevaartorganisaties
      • NASA (US)
      • ESA (EU)
      • RSA (USSR)
      • NASDA (Japan)
    • Vanaf 1990 via ISO in een standaardisatieprogramma
    • Tal van internationale conferenties
    • Sinds 2002 ISO Standaard 14721
  • 7. OAIS als basismodel
    • European 6 th Framework Programme (FP6):
      • CASPAR (Cultural Artistic and Scientific knowledge for Preservation Access and Retrieval): 200-tal archieven, bibliotheken en musea wereldwijd
      • PLANETS (Preservation and Long-term Access through Networked Services): Nationale bibliotheken, archieven, en comm. partners zoals IBM, Microsoft en Tessella
      • NEDLIB (Networked European Deposit Library) Nationale bibliotheken, uitgevers
  • 8. OAIS als basismodel (cont.)
    • USA
      • NDIIP (National Digital Information Infrastructure and Preservation Program) LoC + 130 Amerikaanse bibliotheken, archieven, universiteiten, onderzoekscentra en supercomputing centra
      • OCLC Digital Archive
    • UK
      • CEDARS (Curl Exemplars in Digital Archives) Oxford, Cambridge en Leeds University
      • DPC (Digital Preservation Programme) bibliotheken, archieven, universiteiten, onderzoekscentra, parlement en BBC
  • 9. OAIS als basismodel (cont.)
    • Australië
    • Pandora (Preserving and Accessing networked Documentary Resources of Australia)
    • Internationaal
      • IIPC (International Internet Preservation Consortium) o.a 28 nationale bibliotheken wereldwijd + archieven (zoals Internet Archive)
  • 10. OAIS implementaties
    • IBM (DIAS)
    • SUN (Fedora)
    • Microsoft Research (Washington State Archives)
    • Ex Libris (Digitool / DPS)
    • Tessella
    • Fedora (Cornell University, University of Virginia, SUN)
    • Dspace (MIT)
    • aDORe (Los Alamos National Labs)
    • LOCKS (Stanford)
    • iRODS (DICE)
    • BRICKS (FP6)
    • DART (Columbia University)
    • DELOS (FP6)
    • DILIGENT (FP6)
  • 11. OAIS model
    • Opgebouwd uit 3 delen:
      • Beschrijving van een archiefsysteem : verantwoordelijkheden, procedures en gemeenschappelijke terminologie.
      • Functioneel model : alle werkprocessen die nodig zijn voor de lange termijnbewaring van digitale informatie.
      • Informatiemodel : beschrijft de opgeslagen digitale informatie
  • 12. OAIS model
  • 13. OAIS-model
    • Wat doet/is een digitaal archief NIET :
      • massaopslag voor actieve productieapplicaties en data
      • een netwerk backup oplossing
    • Wat doet een digitaal archief WEL :
      • bewaring van digitale informatie met historische , wetenschappelijke , financiële of juridische waarde op lange termijn
      • garandeert platformonafhankelijke toegang tot digitale informatie gedurende 50, 100 jaar of langer
  • 14. Groei beschikbare opslagcapaciteit op desktop computers (HanKwang 2008)
  • 15. Groei van gebruikte bestandsformaten (PRONOM) 1980 1990 2000 ‘ 86 – TIFF3 ’ 87 ‘88 TIFF4 & 5 ‘ 92 – TIFF6 ‘ 96 - PNG 1.0 ’ 99 – PNG 1.2 ’ 00 - JPEG2000 ‘ 92 - JPEG ’ 87 – GIF87 ’ 87 – GIF89 ‘ 92 - MrSID ‘ 85 - BMP ‘ 84 - TGA ‘ 03 - SVG ’ 84 - GEM Raster
  • 16. Evolutie formaatafgeleiden
    • MIME type image/tiff:
    • TIFF (alle versies)
    • TIFF/IT
    • TIFF G4/LZW/UNC
    • Digital Negative Format (DNG)
    • GeoTIFF
    • Pyramid TIFF
    Bron: PRONOM Technical Registry [http://www.nationalarchives.gov.uk/pronom/]
  • 17. Risico’s op lange termijn Bit Errors/Bugs Wijzigingen File Formaat Tijd Veranderende Technologie Organisatorische wijzigingen Interpretatie van het formaat 1980 1990 2000
  • 18. Best practices
  • 19. Formaatrisico’s : Conclusies PLANETS project
      • EU landen produceren 5 miljard elektronische documenten per jaar
      • 2% (= 100 miljoen documenten) zijn het waard om te archiveren
      • 2% (= 2 miljoen documenten) daarvan hebben bestandsformaten met risico’s op lange termijn
    bron: Planets project [http://www.planets-project.eu/$
  • 20. Formaatrisico’s : Conclusies PLANETS project Tekst High confidence Medium confidence Low confidence
    • Plain text (encoding: ISO8859-1 - 9 , UTF-8, UTF-16 with BOM)
    • XML (includes XSD/XSL/XHTML, etc.; with included or accessible
    • schema and character
    • encoding explicitly
    • specified)
    • PDF/A-1 (ISO 19005-1)
    • Cascading Style Sheets (*.css)
    • DTD (*.dtd)
    • PDF (*.pdf) (embedded fonts)
    • Rich Text Format 1.x (*.rtf)
    • HTML 4.x (include a
    • DOCTYPE declaration)
    • SGML (*.sgml)
    • Open Office (*.sxw/*.odt)
    • Office Open XML (*.docx)
    • PDF (*.pdf) (encrypted)
    • Microsoft Word (*.doc)
    • WordPerfect (*.wpd)
    • DVI (*.dvi)
    • All other text formats not
    • listed here
  • 21. Formaatrisico’s : Conclusies PLANETS project Beeld High confidence Medium confidence Low confidence
    • TIFF (uncompressed)
    • PNG (*.png)
    • BMP (*.bmp)
    • JPEG/JFIF (*.jpg)
    • JPEG2000 (prefer lossless or uncompressed) (*.jp2)
    • TIFF (compressed)
    • GIF (*.gif)
    • MrSID (*.sid)
    • TIFF (in Planar format)
    • FlashPix (*.fpx)
    • PhotoShop (*.psd)
    • All other raster image formats not listed here
  • 22. Formaatrisico’s : Conclusies PLANETS project Geluid High confidence Medium confidence Low confidence
    • AIFF (PCM) (*.aif, *.aiff)
    • WAV (PCM) (*.wav)
    • SUN Audio (uncompressed) (*.au)
    • Standard MIDI (*.mid,
    • *.midi)
    • Ogg Vorbis (*.ogg)
    • Free Lossless Audio Codec (*.flac)
    • Advance Audio Coding (*.mp4, *.m4a, *.aac)
    • MP3 (MPEG-1/2, Layer 3)(*.mp3)
    • AIFC (compressed) (*.aifc)
    • NeXT SND (*.snd)
    • RealNetworks 'Real Audio‚ (*.ra, *.rm, *.ram)
    • Windows Media Audio
    • (*.wma)
    • WAV (compressed) (*.wav)
    • All other audio formats not listed here
  • 23. Formaatrisico’s : Conclusies PLANETS project Video High confidence Medium confidence Low confidence
    • Motion JPEG 2000
    • (ISO/IEC 15444-4) ( *.mj2)
    • AVI (uncompressed)
    • (*.avi)
    • QuickTime Movie
    • (uncompressed)(*.mov)
    • Motion JPEG (*.avi,
    • *.mov)
    • Ogg Theora (*.ogg)
    • MPEG-1, MPEG-2 (*.mpg, *.mpeg)
    • MPEG-4(*.mp4)
    • AVI (compressed) (*.avi)
    • QuickTime Movie
    • (compressed) (*.mov)
    • RealNetworks 'Real Video‚ (*.rv)
    • Windows Media Video
    • (*.wmv)
    • All other video formats not listed here
  • 24. B est Practice # 1: Bewaar technische metadata Bron: Adrian Brown, National Archives UK; “Developing Practical Approaches to Active Preservation”
  • 25. Bitrot/Softwarefouten
    • Geen enkel opslagmedium is perfect en eeuwig
    • David Rosenthal Stanford University “Bit Preservation: A Solved Problem?”
    • Bit half-life van 8 x 10^17 jaar => geeft 50 % kans dat 1 Petabyte een eeuw overleeft zonder fouten
    • Vergelijkbare studies door Carnegie Mellon University, Google en CERN
  • 26. Bitrot/Softwarefouten
    • Volker Heydegger University of Cologne
    • Analyzing the Impact of File Formats on Digital Integrity
  • 27. Bitrot/Softwarefouten
  • 28. B est Practice # 2: Bewaar preservatiemetadata
    • Checksums
    • Digital Signatures
    • Provenance
  • 29. Interpretatierisico’s Eén van de koelste en oudste dwergsterren die ooit gevonden is
  • 30. B est Practice # 3: Representatiemetadata
    • Tijd
    • Plaats
    • Golflengtes/Calibratiegegevens
    • Provenance
  • 31. Technologiewijzigingen + = Documentatie Informatie Syntaxis Semantiek 4b50 0403 0014 0000 0008 0cdb 282e 7d22 ddaa 0243 0001 ab00 0002 000f 0000 6341 5f65 666f INC $D020 DEC $D020 JMP $2000 LDX $D020 INX STX $D020 JMP $2000 LDA $5000
  • 32. B est Practice # 4: Vertrouw niet op software
    • Het is een illusie te denken dat software steeds toegang tot gearchiveerde data zal blijven bieden.
    • Computersoftware is een actieve component in het archief en kent slechts twee mogelijke toestanden:
      • Het werkt en wordt onderhouden
      • Het werkt niet en wordt niet onderhouden
  • 33. B est Practice # 4: Vertrouw niet op software (cont.)
    • Case 2: Software werkt niet, wordt niet onderhouden:
      • Documentatiemetadata moeten de broncode van de originele software bevatten.
      • Emulatie moet voorzien worden; metadata moeten alle emulatieparameters bevatten.
    • Case 1: Software werkt, wordt onderhouden
      • Het archief heeft de software.
      • De klant heeft de software.
      • Beide gevallen bevatten een ‘ dynamische metadata ’-laag met alle sofwareaspecten die nodig zijn om toegang tot de data te krijgen
  • 34. Descriptieve metadata
    • Zijn descriptieve metadata (of andere access tools zoals thumbnails, previews) data of metadata ?
    • Non-discussie: ‘metadata’ is een relatief begrip
    • Behandelen als Data:
      • Voordeel : descriptieve metadata zijn ‘core business’, te waardevol om niet gearchiveerd te worden
      • Nadeel : dit type data is zeer dynamisch (zeker gedurende lange periodes)
    • Behandelen als Metadata :
      • Voordeel : metadata zijn dynamisch; kunnen voortdurend aangepast worden aan de noden van het archief
      • Nadeel : welk descriptief model moet men gebruiken: MARC, EAD, P/META,…?
  • 35. B est Practice # 5: Bewaar descriptieve metadata als data Zorg voor een overkoepelend descriptief model zoals Dublin Core
    • Dublin Core beschrijft het ‘Wie’, ‘Wat’,’Waar’, ‘Welke’ en ‘Hoe’
    • Sectorspecifieke descriptieve metadatamodellen bevatten diepere granulariteit
    • Maar ook hier gelden archiefwetten voor open formaten (XML) en gebruik van internationale standaarden (MARC, EAD, P/Meta)
  • 36. Conclusies
  • 37. Wat kan worden geconcludeerd na eerste helft project?
    • Het volgen van OAIS richtlijnen is beste garantie voor een goed archief
    • Het gebruik van open standaarden is een must
    • Lange termijnarchivering is een kwestie van risicoanalyse : geen enkel systeem is perfect
    • Archiveer niet alleen de data , maar ook de structuur , semantiek en context
  • 38. Gelaagd metadatamodel Descriptieve metadata: Dublin Core Preservatie metadata: Premis Rechten metadata: MPEG-21/REL, INDECS, ODRL, XrML Technische metadata: MPEG-7, Z38.87, AudioMD, VideoMD, TextMD MARCXML TIFF PSD MARC Standaard TIFF Standaard
  • 39. Verder onderzoek
    • Uitwerking van gelaagd datamodel in concrete specificaties (Mei, Juni 2009)
    • Onderzoek interoperabele zoekmodellen m.b.v. Semantisch Web-technieken:
      • ORE – Herbert Van de Sompel (Los Alamos National Labs)
      • RDF – Ivan Herman (W3C)
  • 40. Refs.
    • ISO 14721. 2003. Space Data and Information Transfer Systems – Open Archival Information System – Reference Model
    • PRONOM – Technical Registry http://www.nationalarchives.gov.uk/pronom/
    • Brown,A (2007) Developing Practical Approaches to Active Preservation. IJDL 2(1)
    • Heydegger, V (2008) Analyzing the Impact of File Formats on Data Integrity. Proceeding of Archiving 2008, Bern.
    • Wright,R et al, (2008) The Significance of Storage in the ‘Cost of Risk’ of Digital Preservation. iPRES 2008
    • HanKwang (2008) http://commons.wikimedia.org/wiki/Image:Hard_drive_capacity_over_time.png
    • Rosenthal, D (2008) Bit Preservation A Solved Problem? iPRES 2008
    • Schroeder, B. and Gibson, G. (2007). Disk failures in the real world: What does MTTF of 1,000,000 Hours Mean to You? Proceedings of the 5 th USENIX Conf. on File and Storage Technologies
    • Pinheiro, E et all (2007). Failure Trends in a Large Disk Drive Population. Proceedings of the 5 th USENIX Conf. on File and Storage Technologies
    • Chris Rusbridge (DCC), “The challenge of managing and preserving e-Research”, http://www.apsr.edu.au/documents/rusbridge_NLA_talk.pdf
    • Van de Sompel, H (2008) An Introduction into the OAI-ORE interoperability framework. 4 th Search&Find Workshop Ghent
    • Herman, I (2008) Detailed introduction into RDF and the Semantic Web. 4 th Search&Find Workshop Ghent