Identifikace formátů: Jednorázový nebo opakovaný proces?
Jan Hutař, Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK) Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
Test příspěvku je ve sborníku
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
Jan Hutař je od února roku 2012 členem týmu Digital Continuity v Národním archivu Nového Zélandu (NA NZ). V přednášce bude informovat o tom, kam se za poslední dva roky dostal projekt „Government Digital Archive,“ který jako základní součást své infrastruktury používá systém Rosetta od firmy Ex Libris. Dozvíme se, co musel NA NZ řešit při prvních transferech digitálních dokumentů od původců a jak se projektu daří realizovat původní plány.
Marek Melichar - Zkušenosti se systémem ArchivematicaLTP-portal-cz
Marek Melichar se ve své prezentaci nejprve věnuje problematice digital preservation a poté shrnuje klady a zápory systému Archivematica, které byly zjištěny během testování v rámci projektu LTP-pilot.
Miroslav Bartošek - Úvod k workshopu, projekt LTP-pilot a ArchivematicaLTP-portal-cz
Úvodní prezentace k LTP-workshopu, seznámení účastníků s projektem LTP-pilot a open source LTP systémem Archivematica, který byl v rámci projektu testován.
Martin Lhoták - Projektový záměr ArcLibLTP-portal-cz
Martin Lhoták ve své prezentaci shrnuje dosavadní aktivity Knihovny Akademie věd ČR v oblasti digitalizace, digitálních knihoven i LTP a představuje projekt ArcLib, který je podán do NAKI II a čeká na schválení. Tento projekt by měl propojit systém Archivematica spolu s dalšími open source nástroji do jednoho LTP systému.
Andrea Miranda - Archivematica a standardyLTP-portal-cz
Prezentace představuje základní standardy v oblasti LTP a certifikaci důvěryhodného digitálního úložiště a následně porovnává shodu systému Archivematicy s normou OAIS.
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
Jan Hutař je od února roku 2012 členem týmu Digital Continuity v Národním archivu Nového Zélandu (NA NZ). V přednášce bude informovat o tom, kam se za poslední dva roky dostal projekt „Government Digital Archive,“ který jako základní součást své infrastruktury používá systém Rosetta od firmy Ex Libris. Dozvíme se, co musel NA NZ řešit při prvních transferech digitálních dokumentů od původců a jak se projektu daří realizovat původní plány.
Marek Melichar - Zkušenosti se systémem ArchivematicaLTP-portal-cz
Marek Melichar se ve své prezentaci nejprve věnuje problematice digital preservation a poté shrnuje klady a zápory systému Archivematica, které byly zjištěny během testování v rámci projektu LTP-pilot.
Miroslav Bartošek - Úvod k workshopu, projekt LTP-pilot a ArchivematicaLTP-portal-cz
Úvodní prezentace k LTP-workshopu, seznámení účastníků s projektem LTP-pilot a open source LTP systémem Archivematica, který byl v rámci projektu testován.
Martin Lhoták - Projektový záměr ArcLibLTP-portal-cz
Martin Lhoták ve své prezentaci shrnuje dosavadní aktivity Knihovny Akademie věd ČR v oblasti digitalizace, digitálních knihoven i LTP a představuje projekt ArcLib, který je podán do NAKI II a čeká na schválení. Tento projekt by měl propojit systém Archivematica spolu s dalšími open source nástroji do jednoho LTP systému.
Andrea Miranda - Archivematica a standardyLTP-portal-cz
Prezentace představuje základní standardy v oblasti LTP a certifikaci důvěryhodného digitálního úložiště a následně porovnává shodu systému Archivematicy s normou OAIS.
Prezentace k projektu LTP Pilot, který má v ČR otestovat systém Archivematica. Projekt pořádá knihovna MUNI, MZK, a spolupracuje na něm i DU CESNET a možná i knihovna AV CR.
Cílem prezentace bylo podat přehledovou informaci o oblasti Digital preservation
Michal Růžička - Napojení systému Archivematica na úložiště CESNETLTP-portal-cz
Ochraně dat na bit-level úrovni v rámci datového úložiště CESNETu a možnosti napojení systému Archivematicy s infrastrukturou CESNET se věnuje prezentace Michala Růžičky.
LTP-workshop byl závěrečnou prezentací a zároveň veřejnou obhajobou projektu LTP-Pilot. Členové projektového týmu prezentovali své závěry, zkušenosti a výstupy z testování LTP open-source systému Archivematica. Kromě nás tam vystoupili i zástupci Národní knihovny ČR, Národního archivu ČR, Knihovny Akademie věd ČR a Centrálného dátového archivu (SK), kteří účastníky seznámili se svými projekty a systémy na dlouhodobou archivaci. Na závěr proběhla diskuze o dalším rozvoji LTP v ČR a možnosti užší spolupráce všech zájemců o problematiku.
Moje prezentace představila použití systému Archivematica v LTP repozitářích vybraných zahraničních institucí.
Prezentace k projektu LTP Pilot, který má v ČR otestovat systém Archivematica. Projekt pořádá knihovna MUNI, MZK, a spolupracuje na něm i DU CESNET a možná i knihovna AV CR.
Cílem prezentace bylo podat přehledovou informaci o oblasti Digital preservation
Michal Růžička - Napojení systému Archivematica na úložiště CESNETLTP-portal-cz
Ochraně dat na bit-level úrovni v rámci datového úložiště CESNETu a možnosti napojení systému Archivematicy s infrastrukturou CESNET se věnuje prezentace Michala Růžičky.
LTP-workshop byl závěrečnou prezentací a zároveň veřejnou obhajobou projektu LTP-Pilot. Členové projektového týmu prezentovali své závěry, zkušenosti a výstupy z testování LTP open-source systému Archivematica. Kromě nás tam vystoupili i zástupci Národní knihovny ČR, Národního archivu ČR, Knihovny Akademie věd ČR a Centrálného dátového archivu (SK), kteří účastníky seznámili se svými projekty a systémy na dlouhodobou archivaci. Na závěr proběhla diskuze o dalším rozvoji LTP v ČR a možnosti užší spolupráce všech zájemců o problematiku.
Moje prezentace představila použití systému Archivematica v LTP repozitářích vybraných zahraničních institucí.
Presentace ze semináře nazvaného Změny v Národním standardu a jejich dopad pro původce i dodavatele, který Institut pořádal v úterý 7. 3. 2017 a který se zaměřil především na představení změn v chystané nové verzi Národního standardu pro elektronické systémy spisové služby. V rámci semináře byla také představena koncepce Národního standardu, hlavní povinnosti původců a klíčové požadavky nejen na elektronické systémy spisové služby. Současně byly představeny hlavní změny, které jsou předmětem novely Národního standardu, jejíž vydání se očekává v dubnu 2017.
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
Pokud chcete mít kontrolu nad oběhem dokumentů ve vaší organizaci, potom se zúčastněte webináře, který bude pojednávat o problematice správy firemních dokumentů v praxi. Webinář je určen pro ty, kteří ještě nevyužívají žádný podobný systém, ale i těm, kteří se současným nejsou spokojeni.
Na webináři budeme mluvit o nejčastějších úskalích efektivní správy dokumentů napříč různými organizacemi a odvětvími.
Představíme vám řešení M-Files DMS vhodné pro malé i velké organizace, které vám umožní vyřešit otázku správy dokumentů a vy tak budete mít kontrolu nad celým životním cyklem dokumentů. M-Files vám pomáhají i v těchto oblastech:
-Díky pracovním postupům (workflow) už se nestane, že by došlo k odeslání neschválené smlouvy, nebo že by byla zaplacena neschválená faktura.
-Budete moci přiřazovat dokumenty k vašim zákazníkům, dodavatelům a spolupracovníkům.
-Nebudete mít jeden dokumentu uložen několikrát na různých místech a snadno jej obnovíte, pokud jste ho omylem smazali.
-Ke všem dokumentům budete moc přistupovat odkudkoli.
-Řízení přístupových oprávnění zajistí přístup k dokumentům jen vyjmenovaným osobám. Tím pádem budete mít přehled o tom, kdo s jakým dokumentem pracoval a co s ním dělal.
-...a další funkce, díky kterým pro vás práce s M-Files bude příjemnou součástí každodenních povinností.
Program webináře
-Úskalí při správě dokumentů.
-Jak vybrat správné řešení pro správu doumentů.
-Představení produktu M-Files.
-Klíčové vlastnosti M-Files.
-Co řeší M-Files oproti jiným DMS systémům.
-Pro koho je M-Files vhodné řešení.
-Jak probíhá projekt zavádění DMS.
-Příklady licencování a ceny.
-Praktická ukázka.
Představení řešení zabezpečení dokumentů Oracle Information Rights Management (IRM). Příspěvek pro 2. den odborné konference IIR Nové výzvy CIO konané 1.-2.12.2009 v hotelu Diplomat v Praze.
Identifikace formátů: Jednorázový nebo opakovaný proces?
1. Identifikace formátů:
Jednorázový nebo opakovaný
proces?
Jan Hutař,
Digital Preservation Analyst, Archives New Zealand
(Marek Melichar, ÚVT UK)
Konferencia CDA ´2016 (Formátové výzvy LTP), 10.11.2016
2. Identifikace formátů:
Jednorázový nebo opakovaný
proces?
• Národní archiv NZ a LTP problematika
• Formátové strategie obecně
• Změny prostředí, nástrojů a informací v
posledních 10 letech
• PRONOM a identifikace formátů
3. Národní archiv NZ a LTP
problematika
Hutař, Jan -
Archives New Zealand - budování digitálního
archivu pro dlouhodobou ochranu digitálních
dokumentů. Jan Hutař. Archivní časopis. Roč. 63,
č. 1 (2013), s. 5-24
Prezentace 27.5.2015 v Praze
http://www.slideshare.net/dp-blog-cz/jan-huta-
dlouhodob-ochrana-digitlnch-informac-v-nrodnm-
archivu-na-novm-zlandu
4. Národní archiv NZ a LTP
problematika
• 2005 - Public Record Act
• 2009 - Digital Continuity Action Plan (DCAP)
• Government Digital Archive Programme
GDAP (1), GDAP (2),...
• Storage jako služba
• Transfery
• Poměrně silný tým
5. Formátové strategie obecně
Měnící se důraz v LTP
• HW (bit level) a úložná média >> Informační
obsah (significant properties), logická ochrana
obsahu
• Debaty o strategiích LTP (migrace, emulace) v
teoretické, spekulativní a výzkumné rovině
• V praxi instituce nemigrují
– některé normalizují na vstupu
– mnohé “neznají svůj obsah” (sign.
properties)
7. Formátové strategie obecně
Significant properties
• Rozsah
K čemu jsou techMD extrahovaná ze souborů?
Potřebuje administrátor archivu hledat podle precint
size? Podle čeho? Víme to dnes?
• Způsob uchování
Je ta informace vůbec použitelná? (normalizace
výstupu extraktorů vs raw výstupy)
8. Formátové strategie obecně
Paradoxy dlouhodobé digitální archivace
• 2001: We want to maintain digital information
intact, but we also want to be able to access this
information in a dynamic use context
Chen, Su-Shing. "The paradox of digital preservation."
Computer 34.3 (2001): 24-28.
• 2016: Pro zajištění trvalého uchování digitálních
dokumentů potřebujeme na technologiích závislé
nástroje a informační zdroje, které se neustále
mění….
9. Formátové strategie obecně
Nový důraz - měnící se prostředí
• Ne migrace do nového formátu, ale nové
nástroje, nové informace, nové postupy
• Změny PRONOMu v posledních 10 letech
• Dopady na praxi
• Extrakce vs identifikace formátu - identifikace je
klíčová
11. PRONOM
–od roku 2004 (pro potřeby TNA)
–pravidelné aktualizace
–zásadní změna přístupu od verze 6 -
tzv. container signature files
–DB formátů - stále stejná
12. Identifikace formátů - proces
• Identifikace formátu je většinou považována
za jednorázovou operaci
• Ingest je vždy priorita, následně většinou jen
bit level operace
• NA a NK NZ uvažují o tom, jak zavést re-
identifikaci do svých procesů už delší dobu
13. Identifikace formátů - NZ
• NK NZ - archivuje dig. data od roku 2008
• NA NZ - archivuje dig. data od roku 2011
• Od té doby se nezměnily formáty, které
považujeme za důvěryhodné, změnily se
informace v PRONOM, signatures a nástroje...
• Opakování identifikace dat z roku 2008 dnes
přinese jiné výsledky (PUID)
• TIFF dnes fmt/353, do roku 2011 fmt/7 TIFF v3,
fmt/8 TIFF v4, fmt/9 TIFF v5 a fmt/10 TIFF v6
14. Změny v PRONOM / DROID
Jak DROID funguje a proč se výsledky po nějaké
době mění?
• DROID k identifikaci formátů používá signature file, XML
publikované několikrát ročně
• Signature je sekvence bytů, nebo seznam více sekvencí bytů,
které mohou být v konkrétním souboru určitého formátu
obsaženy
• Pro některé formáty může jít pouze o sled bytů na počátku
souboru, signature ale může být podstatně komplikovanější
• DROID v6 (2011) nově 2 signature soubory
– binární, DROID používal od počátku,
– nový pro kontejnerové formáty
15. Identifikace formátů
• DROID nejprve kontroluje, zda formát souboru
je kontejnerový, pokud je > použije container
signature file a ne binární signature file
• trigger PUIDs
– OLE2 formát (fmt/111)
– dva ZIP formáty (fmt/189 a x-fmt/263)
• Kontejnerové signatures jsou navrženy tak, aby
byly přesnější než binární.
16.
17. Změny v PRONOM
• formáty nejsou mazány - deaktivovány a
nahrazeny (deprecated in favor of) = vlastně
odebrání signature
• přidání koncovek ke konkrétnímu formátu
• změny priorit formátu X vzhledem k formátu Y
• přidání signature!
• změna signature!
18. Změny v PRONOM
Ja rychle se informace v PRONOM mění?
• PRONOM obsahuje (srpen 2016) celkem 1403 záznamů formátů
• Ne všechny formáty v PRONOMu mají signature, některé nemají
a jsou jen prázdnou schránkou. Mají ale PUID (924 formátů má
signature, 429 signature nemá)
Signature file verze 86 z července 2016
• 46 zcela nových formátů,
• 23 formátů bylo aktualizováno a
• přidáno bylo 46 signatures
• byly přidány nové formáty bez signature a některé formáty již
existující v PRONOM databázi dostaly vlastní signature
19. Opakovaná identifikace?
Možnosti
1. Jednou za 5 let provést identifikaci formátů všech souborů v
archivu
– množství souborů, nároky na výpočetní výkon a čas
2. Opakovat identifikaci formátů výběrově na části obsahu
digitálního archivu vybrané na základě nějakých kritérií
3. Identifikovat soubory s PUIDy, které byly v posledním vydání
signature files nahrazeny, upraveny či zrušeny a tyto podrobit
nové identifikaci formátů
– nezahrne formáty, které jsou v PRONOMu nové, případně
formáty, které neměly signature a nově jej mají.
20. Opakovaná identifikace?
• SW - jsou na to LTP systémy připraveny? Je to
technicky možné?
– verzování AIP
• Mají na to instituce zdroje?
– infrastruktura
– personál
21. Opakovaná identifikace na NZ
Realizace je plánována na rok 2017
• NK NZ 9 milionů souborů, 1,5 milionu
intelektuálních entit, 120TB, 162 PUID
>opakovat identifikaci formátů pro všechny soubory
• NA NZ 4,5 milionu souborů, asi 220 tisíc entit,
120TB, 39 PUID (transfery začnou až 2017)
>výběrové opakování, pro určité formáty a sbírky
(96% jsou dnes Tiff a Jpeg)