• Save
20081007  Workshop BOM-VL WP3
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,306
On Slideshare
1,306
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Van OAIS tot een gelaagd metadatamodel UGent-Boekentoren UGent-MMLab IBBT-iLab
  • 2. Overzicht
      • Probleemstelling
      • OAIS
      • Best practices
      • Conclusies
  • 3. Probleemstelling
  • 4. Problemen met archivering van digitale informatie
    • Probleem 1 .
      • Analoge formaten verdwijnen en moeten vervangen worden door digitale alternatieven
      • Snelle groei data
      • Incompatibiliteit tussen korte levensduur van digitale technologie en de nood aan archivering op lange termijn
    • Probleem 2 .
      • In digitale vorm is informatie iets abstracts , onafhankelijk van het opslagmedium waarop ze bewaard wordt. De abstracte representatie – dus niet het medium – moet gedurende een lange periode bewaard worden.
  • 5. OAIS
  • 6. Open Archival Information System (OAIS)
    • Referentiemodel voor de beschrijving van digitale archieven
    • Ontwikkeld in 1982 binnen een forum van internationale ruimtevaartorganisaties
      • NASA (US)
      • ESA (EU)
      • RSA (USSR)
      • NASDA (Japan)
    • Vanaf 1990 via ISO in een standaardisatieprogramma
    • Tal van internationale conferenties
    • Sinds 2002 ISO Standaard 14721
  • 7. OAIS als basismodel
    • European 6 th Framework Programme (FP6):
      • CASPAR (Cultural Artistic and Scientific knowledge for Preservation Access and Retrieval): 200-tal archieven, bibliotheken en musea wereldwijd
      • PLANETS (Preservation and Long-term Access through Networked Services): Nationale bibliotheken, archieven, en comm. partners zoals IBM, Microsoft en Tessella
      • NEDLIB (Networked European Deposit Library) Nationale bibliotheken, uitgevers
  • 8. OAIS als basismodel (cont.)
    • USA
      • NDIIP (National Digital Information Infrastructure and Preservation Program) LoC + 130 Amerikaanse bibliotheken, archieven, universiteiten, onderzoekscentra en supercomputing centra
      • OCLC Digital Archive
    • UK
      • CEDARS (Curl Exemplars in Digital Archives) Oxford, Cambridge en Leeds University
      • DPC (Digital Preservation Programme) bibliotheken, archieven, universiteiten, onderzoekscentra, parlement en BBC
  • 9. OAIS als basismodel (cont.)
    • Australië
    • Pandora (Preserving and Accessing networked Documentary Resources of Australia)
    • Internationaal
      • IIPC (International Internet Preservation Consortium) o.a 28 nationale bibliotheken wereldwijd + archieven (zoals Internet Archive)
  • 10. OAIS implementaties
    • IBM (DIAS)
    • SUN (Fedora)
    • Microsoft Research (Washington State Archives)
    • Ex Libris (Digitool / DPS)
    • Tessella
    • Fedora (Cornell University, University of Virginia, SUN)
    • Dspace (MIT)
    • aDORe (Los Alamos National Labs)
    • LOCKS (Stanford)
    • iRODS (DICE)
    • BRICKS (FP6)
    • DART (Columbia University)
    • DELOS (FP6)
    • DILIGENT (FP6)
  • 11. OAIS model
    • Opgebouwd uit 3 delen:
      • Beschrijving van een archiefsysteem : verantwoordelijkheden, procedures en gemeenschappelijke terminologie.
      • Functioneel model : alle werkprocessen die nodig zijn voor de lange termijnbewaring van digitale informatie.
      • Informatiemodel : beschrijft de opgeslagen digitale informatie
  • 12. OAIS model
  • 13. OAIS-model
    • Wat doet/is een digitaal archief NIET :
      • massaopslag voor actieve productieapplicaties en data
      • een netwerk backup oplossing
    • Wat doet een digitaal archief WEL :
      • bewaring van digitale informatie met historische , wetenschappelijke , financiële of juridische waarde op lange termijn
      • garandeert platformonafhankelijke toegang tot digitale informatie gedurende 50, 100 jaar of langer
  • 14. Groei beschikbare opslagcapaciteit op desktop computers (HanKwang 2008)
  • 15. Groei van gebruikte bestandsformaten (PRONOM) 1980 1990 2000 ‘ 86 – TIFF3 ’ 87 ‘88 TIFF4 & 5 ‘ 92 – TIFF6 ‘ 96 - PNG 1.0 ’ 99 – PNG 1.2 ’ 00 - JPEG2000 ‘ 92 - JPEG ’ 87 – GIF87 ’ 87 – GIF89 ‘ 92 - MrSID ‘ 85 - BMP ‘ 84 - TGA ‘ 03 - SVG ’ 84 - GEM Raster
  • 16. Evolutie formaatafgeleiden
    • MIME type image/tiff:
    • TIFF (alle versies)
    • TIFF/IT
    • TIFF G4/LZW/UNC
    • Digital Negative Format (DNG)
    • GeoTIFF
    • Pyramid TIFF
    Bron: PRONOM Technical Registry [http://www.nationalarchives.gov.uk/pronom/]
  • 17. Risico’s op lange termijn Bit Errors/Bugs Wijzigingen File Formaat Tijd Veranderende Technologie Organisatorische wijzigingen Interpretatie van het formaat 1980 1990 2000
  • 18. Best practices
  • 19. Formaatrisico’s : Conclusies PLANETS project
      • EU landen produceren 5 miljard elektronische documenten per jaar
      • 2% (= 100 miljoen documenten) zijn het waard om te archiveren
      • 2% (= 2 miljoen documenten) daarvan hebben bestandsformaten met risico’s op lange termijn
    bron: Planets project [http://www.planets-project.eu/$
  • 20. Formaatrisico’s : Conclusies PLANETS project Tekst High confidence Medium confidence Low confidence
    • Plain text (encoding: ISO8859-1 - 9 , UTF-8, UTF-16 with BOM)
    • XML (includes XSD/XSL/XHTML, etc.; with included or accessible
    • schema and character
    • encoding explicitly
    • specified)
    • PDF/A-1 (ISO 19005-1)
    • Cascading Style Sheets (*.css)
    • DTD (*.dtd)
    • PDF (*.pdf) (embedded fonts)
    • Rich Text Format 1.x (*.rtf)
    • HTML 4.x (include a
    • DOCTYPE declaration)
    • SGML (*.sgml)
    • Open Office (*.sxw/*.odt)
    • Office Open XML (*.docx)
    • PDF (*.pdf) (encrypted)
    • Microsoft Word (*.doc)
    • WordPerfect (*.wpd)
    • DVI (*.dvi)
    • All other text formats not
    • listed here
  • 21. Formaatrisico’s : Conclusies PLANETS project Beeld High confidence Medium confidence Low confidence
    • TIFF (uncompressed)
    • PNG (*.png)
    • BMP (*.bmp)
    • JPEG/JFIF (*.jpg)
    • JPEG2000 (prefer lossless or uncompressed) (*.jp2)
    • TIFF (compressed)
    • GIF (*.gif)
    • MrSID (*.sid)
    • TIFF (in Planar format)
    • FlashPix (*.fpx)
    • PhotoShop (*.psd)
    • All other raster image formats not listed here
  • 22. Formaatrisico’s : Conclusies PLANETS project Geluid High confidence Medium confidence Low confidence
    • AIFF (PCM) (*.aif, *.aiff)
    • WAV (PCM) (*.wav)
    • SUN Audio (uncompressed) (*.au)
    • Standard MIDI (*.mid,
    • *.midi)
    • Ogg Vorbis (*.ogg)
    • Free Lossless Audio Codec (*.flac)
    • Advance Audio Coding (*.mp4, *.m4a, *.aac)
    • MP3 (MPEG-1/2, Layer 3)(*.mp3)
    • AIFC (compressed) (*.aifc)
    • NeXT SND (*.snd)
    • RealNetworks 'Real Audio‚ (*.ra, *.rm, *.ram)
    • Windows Media Audio
    • (*.wma)
    • WAV (compressed) (*.wav)
    • All other audio formats not listed here
  • 23. Formaatrisico’s : Conclusies PLANETS project Video High confidence Medium confidence Low confidence
    • Motion JPEG 2000
    • (ISO/IEC 15444-4) ( *.mj2)
    • AVI (uncompressed)
    • (*.avi)
    • QuickTime Movie
    • (uncompressed)(*.mov)
    • Motion JPEG (*.avi,
    • *.mov)
    • Ogg Theora (*.ogg)
    • MPEG-1, MPEG-2 (*.mpg, *.mpeg)
    • MPEG-4(*.mp4)
    • AVI (compressed) (*.avi)
    • QuickTime Movie
    • (compressed) (*.mov)
    • RealNetworks 'Real Video‚ (*.rv)
    • Windows Media Video
    • (*.wmv)
    • All other video formats not listed here
  • 24. B est Practice # 1: Bewaar technische metadata Bron: Adrian Brown, National Archives UK; “Developing Practical Approaches to Active Preservation”
  • 25. Bitrot/Softwarefouten
    • Geen enkel opslagmedium is perfect en eeuwig
    • David Rosenthal Stanford University “Bit Preservation: A Solved Problem?”
    • Bit half-life van 8 x 10^17 jaar => geeft 50 % kans dat 1 Petabyte een eeuw overleeft zonder fouten
    • Vergelijkbare studies door Carnegie Mellon University, Google en CERN
  • 26. Bitrot/Softwarefouten
    • Volker Heydegger University of Cologne
    • Analyzing the Impact of File Formats on Digital Integrity
  • 27. Bitrot/Softwarefouten
  • 28. B est Practice # 2: Bewaar preservatiemetadata
    • Checksums
    • Digital Signatures
    • Provenance
  • 29. Interpretatierisico’s Eén van de koelste en oudste dwergsterren die ooit gevonden is
  • 30. B est Practice # 3: Representatiemetadata
    • Tijd
    • Plaats
    • Golflengtes/Calibratiegegevens
    • Provenance
  • 31. Technologiewijzigingen + = Documentatie Informatie Syntaxis Semantiek 4b50 0403 0014 0000 0008 0cdb 282e 7d22 ddaa 0243 0001 ab00 0002 000f 0000 6341 5f65 666f INC $D020 DEC $D020 JMP $2000 LDX $D020 INX STX $D020 JMP $2000 LDA $5000
  • 32. B est Practice # 4: Vertrouw niet op software
    • Het is een illusie te denken dat software steeds toegang tot gearchiveerde data zal blijven bieden.
    • Computersoftware is een actieve component in het archief en kent slechts twee mogelijke toestanden:
      • Het werkt en wordt onderhouden
      • Het werkt niet en wordt niet onderhouden
  • 33. B est Practice # 4: Vertrouw niet op software (cont.)
    • Case 2: Software werkt niet, wordt niet onderhouden:
      • Documentatiemetadata moeten de broncode van de originele software bevatten.
      • Emulatie moet voorzien worden; metadata moeten alle emulatieparameters bevatten.
    • Case 1: Software werkt, wordt onderhouden
      • Het archief heeft de software.
      • De klant heeft de software.
      • Beide gevallen bevatten een ‘ dynamische metadata ’-laag met alle sofwareaspecten die nodig zijn om toegang tot de data te krijgen
  • 34. Descriptieve metadata
    • Zijn descriptieve metadata (of andere access tools zoals thumbnails, previews) data of metadata ?
    • Non-discussie: ‘metadata’ is een relatief begrip
    • Behandelen als Data:
      • Voordeel : descriptieve metadata zijn ‘core business’, te waardevol om niet gearchiveerd te worden
      • Nadeel : dit type data is zeer dynamisch (zeker gedurende lange periodes)
    • Behandelen als Metadata :
      • Voordeel : metadata zijn dynamisch; kunnen voortdurend aangepast worden aan de noden van het archief
      • Nadeel : welk descriptief model moet men gebruiken: MARC, EAD, P/META,…?
  • 35. B est Practice # 5: Bewaar descriptieve metadata als data Zorg voor een overkoepelend descriptief model zoals Dublin Core
    • Dublin Core beschrijft het ‘Wie’, ‘Wat’,’Waar’, ‘Welke’ en ‘Hoe’
    • Sectorspecifieke descriptieve metadatamodellen bevatten diepere granulariteit
    • Maar ook hier gelden archiefwetten voor open formaten (XML) en gebruik van internationale standaarden (MARC, EAD, P/Meta)
  • 36. Conclusies
  • 37. Wat kan worden geconcludeerd na eerste helft project?
    • Het volgen van OAIS richtlijnen is beste garantie voor een goed archief
    • Het gebruik van open standaarden is een must
    • Lange termijnarchivering is een kwestie van risicoanalyse : geen enkel systeem is perfect
    • Archiveer niet alleen de data , maar ook de structuur , semantiek en context
  • 38. Gelaagd metadatamodel Descriptieve metadata: Dublin Core Preservatie metadata: Premis Rechten metadata: MPEG-21/REL, INDECS, ODRL, XrML Technische metadata: MPEG-7, Z38.87, AudioMD, VideoMD, TextMD MARCXML TIFF PSD MARC Standaard TIFF Standaard
  • 39. Verder onderzoek
    • Uitwerking van gelaagd datamodel in concrete specificaties (Mei, Juni 2009)
    • Onderzoek interoperabele zoekmodellen m.b.v. Semantisch Web-technieken:
      • ORE – Herbert Van de Sompel (Los Alamos National Labs)
      • RDF – Ivan Herman (W3C)
  • 40. Refs.
    • ISO 14721. 2003. Space Data and Information Transfer Systems – Open Archival Information System – Reference Model
    • PRONOM – Technical Registry http://www.nationalarchives.gov.uk/pronom/
    • Brown,A (2007) Developing Practical Approaches to Active Preservation. IJDL 2(1)
    • Heydegger, V (2008) Analyzing the Impact of File Formats on Data Integrity. Proceeding of Archiving 2008, Bern.
    • Wright,R et al, (2008) The Significance of Storage in the ‘Cost of Risk’ of Digital Preservation. iPRES 2008
    • HanKwang (2008) http://commons.wikimedia.org/wiki/Image:Hard_drive_capacity_over_time.png
    • Rosenthal, D (2008) Bit Preservation A Solved Problem? iPRES 2008
    • Schroeder, B. and Gibson, G. (2007). Disk failures in the real world: What does MTTF of 1,000,000 Hours Mean to You? Proceedings of the 5 th USENIX Conf. on File and Storage Technologies
    • Pinheiro, E et all (2007). Failure Trends in a Large Disk Drive Population. Proceedings of the 5 th USENIX Conf. on File and Storage Technologies
    • Chris Rusbridge (DCC), “The challenge of managing and preserving e-Research”, http://www.apsr.edu.au/documents/rusbridge_NLA_talk.pdf
    • Van de Sompel, H (2008) An Introduction into the OAI-ORE interoperability framework. 4 th Search&Find Workshop Ghent
    • Herman, I (2008) Detailed introduction into RDF and the Semantic Web. 4 th Search&Find Workshop Ghent