Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Identifikace formátů: Jednorázový nebo opakovaný proces?

681 views

Published on

Identifikace formátů: Jednorázový nebo opakovaný proces?
Jan Hutař, Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016

Test příspěvku je ve sborníku

Published in: Technology
  • Be the first to comment

Identifikace formátů: Jednorázový nebo opakovaný proces?

  1. 1. Identifikace formátů: Jednorázový nebo opakovaný proces? Jan Hutař, Digital Preservation Analyst, Archives New Zealand (Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
  2. 2. Identifikace formátů: Jednorázový nebo opakovaný proces? • Národní archiv NZ a LTP problematika • Formátové strategie obecně • Změny prostředí, nástrojů a informací v posledních 10 letech • PRONOM a identifikace formátů
  3. 3. Národní archiv NZ a LTP problematika Hutař, Jan - Archives New Zealand - budování digitálního archivu pro dlouhodobou ochranu digitálních dokumentů. Jan Hutař. Archivní časopis. Roč. 63, č. 1 (2013), s. 5-24 Prezentace 27.5.2015 v Praze http://www.slideshare.net/dp-blog-cz/jan-huta- dlouhodob-ochrana-digitlnch-informac-v-nrodnm- archivu-na-novm-zlandu
  4. 4. Národní archiv NZ a LTP problematika • 2005 - Public Record Act • 2009 - Digital Continuity Action Plan (DCAP) • Government Digital Archive Programme GDAP (1), GDAP (2),... • Storage jako služba • Transfery • Poměrně silný tým
  5. 5. Formátové strategie obecně Měnící se důraz v LTP • HW (bit level) a úložná média >> Informační obsah (significant properties), logická ochrana obsahu • Debaty o strategiích LTP (migrace, emulace) v teoretické, spekulativní a výzkumné rovině • V praxi instituce nemigrují – některé normalizují na vstupu – mnohé “neznají svůj obsah” (sign. properties)
  6. 6. Formátové strategie obecně Significant properties - know your data Paranoidiní vs Pragmatický přístup • stačí jen velikost, PUID, mime type… • nebo:
  7. 7. Formátové strategie obecně Significant properties • Rozsah K čemu jsou techMD extrahovaná ze souborů? Potřebuje administrátor archivu hledat podle precint size? Podle čeho? Víme to dnes? • Způsob uchování Je ta informace vůbec použitelná? (normalizace výstupu extraktorů vs raw výstupy)
  8. 8. Formátové strategie obecně Paradoxy dlouhodobé digitální archivace • 2001: We want to maintain digital information intact, but we also want to be able to access this information in a dynamic use context Chen, Su-Shing. "The paradox of digital preservation." Computer 34.3 (2001): 24-28. • 2016: Pro zajištění trvalého uchování digitálních dokumentů potřebujeme na technologiích závislé nástroje a informační zdroje, které se neustále mění….
  9. 9. Formátové strategie obecně Nový důraz - měnící se prostředí • Ne migrace do nového formátu, ale nové nástroje, nové informace, nové postupy • Změny PRONOMu v posledních 10 letech • Dopady na praxi • Extrakce vs identifikace formátu - identifikace je klíčová
  10. 10. Identifikace formátů - nástroje •TNA PRONOM - alternativy? •Nástroje jako DROID, Siegfried, Fido, TriD, Apache Tika, File, ... •PUID (PRONOM Unique ID) - alternativy?
  11. 11. PRONOM –od roku 2004 (pro potřeby TNA) –pravidelné aktualizace –zásadní změna přístupu od verze 6 - tzv. container signature files –DB formátů - stále stejná
  12. 12. Identifikace formátů - proces • Identifikace formátu je většinou považována za jednorázovou operaci • Ingest je vždy priorita, následně většinou jen bit level operace • NA a NK NZ uvažují o tom, jak zavést re- identifikaci do svých procesů už delší dobu
  13. 13. Identifikace formátů - NZ • NK NZ - archivuje dig. data od roku 2008 • NA NZ - archivuje dig. data od roku 2011 • Od té doby se nezměnily formáty, které považujeme za důvěryhodné, změnily se informace v PRONOM, signatures a nástroje... • Opakování identifikace dat z roku 2008 dnes přinese jiné výsledky (PUID) • TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3, fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
  14. 14. Změny v PRONOM / DROID Jak DROID funguje a proč se výsledky po nějaké době mění? • DROID k identifikaci formátů používá signature file, XML publikované několikrát ročně • Signature je sekvence bytů, nebo seznam více sekvencí bytů, které mohou být v konkrétním souboru určitého formátu obsaženy • Pro některé formáty může jít pouze o sled bytů na počátku souboru, signature ale může být podstatně komplikovanější • DROID v6 (2011) nově 2 signature soubory – binární, DROID používal od počátku, – nový pro kontejnerové formáty
  15. 15. Identifikace formátů • DROID nejprve kontroluje, zda formát souboru je kontejnerový, pokud je > použije container signature file a ne binární signature file • trigger PUIDs – OLE2 formát (fmt/111) – dva ZIP formáty (fmt/189 a x-fmt/263) • Kontejnerové signatures jsou navrženy tak, aby byly přesnější než binární.
  16. 16. Změny v PRONOM • formáty nejsou mazány - deaktivovány a nahrazeny (deprecated in favor of) = vlastně odebrání signature • přidání koncovek ke konkrétnímu formátu • změny priorit formátu X vzhledem k formátu Y • přidání signature! • změna signature!
  17. 17. Změny v PRONOM Ja rychle se informace v PRONOM mění? • PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů • Ne všechny formáty v PRONOMu mají signature, některé nemají a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má signature, 429 signature nemá) Signature file verze 86 z července 2016 • 46 zcela nových formátů, • 23 formátů bylo aktualizováno a • přidáno bylo 46 signatures • byly přidány nové formáty bez signature a některé formáty již existující v PRONOM databázi dostaly vlastní signature
  18. 18. Opakovaná identifikace? Možnosti 1. Jednou za 5 let provést identifikaci formátů všech souborů v archivu – množství souborů, nároky na výpočetní výkon a čas 2. Opakovat identifikaci formátů výběrově na části obsahu digitálního archivu vybrané na základě nějakých kritérií 3. Identifikovat soubory s PUIDy, které byly v posledním vydání signature files nahrazeny, upraveny či zrušeny a tyto podrobit nové identifikaci formátů – nezahrne formáty, které jsou v PRONOMu nové, případně formáty, které neměly signature a nově jej mají.
  19. 19. Opakovaná identifikace? • SW - jsou na to LTP systémy připraveny? Je to technicky možné? – verzování AIP • Mají na to instituce zdroje? – infrastruktura – personál
  20. 20. Opakovaná identifikace na NZ Realizace je plánována na rok 2017 • NK NZ 9 milionů souborů, 1,5 milionu intelektuálních entit, 120TB, 162 PUID >opakovat identifikaci formátů pro všechny soubory • NA NZ 4,5 milionu souborů, asi 220 tisíc entit, 120TB, 39 PUID (transfery začnou až 2017) >výběrové opakování, pro určité formáty a sbírky (96% jsou dnes Tiff a Jpeg)
  21. 21. Děkujeme za pozornost Jan.Hutar@dia.govt.nz marek.melichar@ruk.cuni.cz

×