SlideShare a Scribd company logo
1 of 37
Zkušenosti se
systémem
Archivematica
Možnosti a omezení systému
Marek Melichar
UVT UK
Projekt LTP PILOT
Masarykova univerzitaV Praze dne 1.12.2015
Obsah
●Obecně o dlouhodobé archivaci
●Pragmatický přístup
●Co je a co není Archivematica
●Jak jsme Archivematiku testovali
Obecně o dlouhodobé
archivaci
Aktivistické tenisky
Photo: West Papua independence leader Benny Wenda,
presenting campaign gifts to Mr. Ondrej Liska, Czech
Minister of Education
Co je dlouhodobá archivace
„uchování obsahu pro budoucí použití a
zpřístupnění“ (loc.gov)
Systematická, plánovaná, dokumentovaná činnost, která má
přímé a nepřímé dopady (budování sbírek, legitimizace existence institucí,
smysl instituce, ochrana investic, zákonné požadavky, zvyšování
důvěryhodnosti instituce atd.)
Pro budoucí „uživatele“ (archivář/knihovník/kurátor vs data science expert)
Jak se mluví o dlouhodobé archivaci
Teoretický,
terminologický diskurs
Výzkum v oblasti LTP
Archivace v IT kontextu
Praxe a
potřeby paměťových
institucích
Mýty o dlouhodobé archivaci
•Je to jen konceptuální nebo výzkumná disciplína
•Vyžaduje vysoce odborné a technické znalosti, na to nemáte
staff
•Vyžaduje obrovský rozpočet
•Měly by to řešit národní instituce nebo centrální instituce
•Tohle můžeme odložit, až se bude vědět jak na to, zatím není
řešení
•Stačí to uložit na nějaké trvalé médium (PIQL, UDO disk,
mikrofilm)
•Stačí více kopií na více místech a více technologiích
•Musíme počkat, na velký projekt
•Nejsou zatím dokonalá řešení, nemá smysl se do toho pouštět
Pragmatický přístup
•začni hned, start simple, postupuj po krocích
•začni s tím, co máš, nečekej na velké finance, na
dokonalé řešení…
•koukni se kolem, co je k dispozici
•využij jednoduché nástroje
•rozděl složité úkoly na jednodušší kroky
•uvědom si, že plánování a financování jsou stejně
důležité jako technologie
•hledej partnery, sleduje co se děje v komunitě
•definuj krátkodobé cíle pro dlouhodobou archivaci
Pragmatický přístup
Oblasti a úrovně Úroveň nultá
(ukaž data)
Úroveň první
(ochraň data)
Úroveň druhá
(poznej data)
Úroveň třetí (monitoruj data) Úroveň čtvrtá
(oprav data)
Datové úložiště a jeho geografické
umístění
Data jsou někde uložena na nějakých
médiích.
Existují dvě úplné kopie dat, které
nejsou umístěné na stejném místě.
Data z heterogenních nosičů (optické
disky, přenosné harddisky, apod.) je
nutné přenést do datového úložiště.
Ukládají se tři úplné kopie dat.
Alespoň jedna kopie v jiné lokalitě.
Jsou dokumentovány systémy
úložiště dat a úložná média včetně
informací o všem, co je třeba k jejich
použití.
Ukládají se nejméně tři úplné kopie
dat.
Alespoň dvě kopie dat se nacházejí v
lokalitách, které nesdílejí shodný druh
ohrožení (např. přírodních katastrof,
ale znamená to i různý hardware a
filesystém).
Existuje proces sledování zastarávání
úložných systémů a médií.
Ukládají se nejméně tři úplné kopie
dat.
Tři kopie dat se nacházejí každá v
jiné lokalitě, žádné dvě z těchto lokalit
nesdílejí shodný druh ohrožení.
Je vypracován podrobný plán, který
zajistí, že soubory i metadata jsou
uloženy na dostupných médiích nebo
systémech.
Integrita dat a neměnnost souborů Není známa / nelze zkontrolovat. Kontrola integrity souborů probíhá při
převzetí dat, pokud byla data dodána
s kontrolním součtem.
Pokud nejsou kontrolní součty
součástí dodávky dat, jsou při
převzetí dat vytvářeny.
Kontrola integrity u všech přebíraných
dat.
Originální média se blokují proti
zápisu.
Vysoce rizikový obsah prochází
antivirovou kontrolou.
Integrita dat je kontrolována v
pravidelných intervalech.
Udržují se záznamy (logy) o stavu
integrity dat, na požádání lze dodat
audit těchto informací.
Lze detekovat poškozená data.
Všechen obsah prochází antivirovou
kontrolou.
Kontroluje se integrita všech dat v
návaznosti na konkrétní události nebo
aktivity.
Zajistit, že žádná osoba nemá právo
zápisu ke všem kopiím dat.
Informační bezpečnost Není známa. Ví se, kdo má práva čtení,
přesouvání a mazání souborů.
Omezit tato přístupová oprávnění k
jednotlivým souborům.
Přístupová oprávnění k obsahu jsou
zdokumentována.
Jsou uchovávány záznamy (logy)
toho, kdo prováděl jaké akce s jakými
soubory, včetně mazání a akcí
digitální ochrany.
Jsou prováděny audity těchto
záznamů.
Metadata Nějaká metadata lze odvodit z názvů
souborů, jejich atributů a adresářové
struktury.
Existuje přehled obsahu repozitáře a
jeho konkrétního umístění na úložišti.
Je zajištěno zálohování tohoto
seznamu a jeho záloha v jiné lokalitě.
Je zaveden lokální jednoznačný
identifikáto.r
Jsou ukládány administrativní
metadata.
Ukládají se metadata o
transformacích a záznamy událostí.
Ukládají se standardní technická a
popisná metadata.
Ukládají se standardní ochranná
metadata.
Je zaveden globálně jednoznačný
identifikátor.
Formáty souborů Dají se odvodit z přípony souborů. Pokud je to možné ovlivnit,
podporujte používání malé skupiny
dobře známých a otevřených formátů
souborů a kodeků.
Existuje seznam formátů, které jsou
používány.
Monitorují se hrozby zastarávání
formátů.
Provádí se formátové migrace,
emulace a podobné aktivity podle
potřeby.
Práva Je akceptován fakt, že je nutné mít
ujasněny zodpovědnosti za ochranu a
právní vztahy k digitálním objektům,
které mají být předmětem ochrany.
Odpovědnost za ochranu je
vyjasněná - máme právo daná data
trvale uchovávat.
Je známo, co je možné s předmětem
ochrany dělat z hlediska použití a
zpřístupnění.
Existuje oprávnění provádět akce
digitální ochrany (např. migraci do
nových formátů).
Existuje oprávnění vytvářet a
zpřístupňovat odvozené dokumenty
pro definovanou komunitu.
Právo přenést zodpovědnost za
ochranu a práva k obsahu na někoho
jiného.
Pragmatický přístup – OS
•Bit level preservation tools (fixity and hash libraries, monitoring tools,
backup tools, etc)
•Format related tools (Jhove, Droid, Fido, Fits, Jpylyzer, Tikka, etc.)
•Data creation and harvest tools (scanning tools, harvesters, etc.)
•Metadata open standards (Mets, Mods, Premis, Mix, TextMD other) and
tools (parsers etc.)
•Open and community developed standards and best practices (global
or local)
•Community maintained information (formats related information
infrastructure, etc.)
•Community financed research (result in usable tools or standards E-
ARK, Scape, and many other)
Co je a co není
Archivematica
Co je a co není Archivematica
Peter Van Garderen
2001: Artefactual inc.
2005: blog pod archivemati.ca
2007: ICA ATOM
2008: vývoj Archivematicy – vytvoření
požadavků na základě OAIS
Co je a co není Archivematica
Archivematica není repozitář
DCC definice:
Digital Repositories offer a convenient infrastructure through which to store,
manage, re-use and curate digital materials …..overall commitment to the
stewardship of digital materials; this requires not just software and hardware, but
also policies, processes, services, and people, as well as content and metadata
Co je a co není Archivematica
Archivematica nenaplňuje kompletně všechny
funkční entity OAIS….nebo ano?
Co je a co není Archivematica
Archivematica je systém pro:
1. Vytvoření a uložení AIP
2. Vyhledání a získání AIP
3. Jednorázové vytvoření DIPu a
odeslání DIPu
4. Normalizaci souborových
formátů (převod do
preferovaných formátů)
• Má GUI
•Je storage agnostic
•Je použitelná pro jakýkoli typ
digitálního obsahu
Archivematica - silné stránky
Implementace OAIS AIP
BagIt, METS, PREMIS, DC
•Fixity info
•Info o zabalení /bagit version,
datum, payload size atd./
•Logy o průběhu ingestu
•Vlastní ochraňované objekty a
její normalizované deriváty
•Submission documentation
(podrobnější záznam zpracování
v Premis Events)
•METS.xml (DC, PREMIS
obj.agent. events)
Archivematica - silné stránky
Workflow pro příjem - transfer a ingest dat
z jiných systémů nebo manuální
•kontroly vstupujících dat (kompletnosti, fixity)
•antivirové kontroly
•identifikace a validace formátů vstupních dat
•extrakce technických metadat z vložených objektů
•aplikace formátových politik dlouhodobé ochrany (normalizace do
preferovaných formátů) a kontrola výsledku normalizace (opět identifikace a
validace nových souborů atd.)
•doplnění nebo vytvoření popisných metadat
•vytvoření METS kontejnerů a zápis metadat
•zabalení a export do formátu BagIt balíčku AIP
•uložení na předem definovanou storage pro AIP (storage service)
•případně export DIP do externího systému pro zpřístupnění koncovým
uživatelům
Archivematica - silné stránky
Architektura založená na „microservices“
Archivematica - silné stránky
Architektura založená na „microservices“
Archivematica – omezení
Příjem:
•metadata – pouze DC, pouze csv + AR
•nelze vložit Archivematica METS nebo AIP
•automatické doplnění metadat při ingestu z jiného
systému
•collections – absence rozumné metody ingestu do AIC
•vyjádření a kontrola submission agreementu
•identifikace dodavatele a informace o dodání dat
•API pro transfer a ingest – zatím omezené funkce
•konfigurace workflow – lze exportovat xml, nelze uložit
v systému a přiřadit dodavateli s konkrétním ID – oddělení
konfiguračního souboru od nastavení FPR v systému
•1 instance ideálně jako 1 pipeline
Archivematica – omezení
Archivní uložení
• verzování balíků AIP nebo souborů chybí
• vytvoření více kopií
• nelze nastavit periodické kontroly fixity
Zpřístupnění
• externí systém (ICA ATOM, Islandora, atd.)
• export DIP pouze v okamžiku ingestu
• žádné možnosti konverze DIP
• žádná autentizace a vynucování přístupových práv,
• žádné zpřístupnění metadat přes OAI nebo SRU apod.
Archivematica – omezení
Administrace
- návaznost mikroslužeb není jasně popsána
- nelze snadno regulovat citlivost workflow na hybridní
nebo chybné objekty
-udržování více worklfow v jednom systému pro více
institucí může být noční můra
- jednoduché typy rolí uživatelů (admin/non admin)
Správa dat
-AIP lze pouze najít, stáhnout a vymazat
-Základní indexování a vyhledávání
-Zcela chybí reporting
Archivematica – omezení
Jak řešit omezení?
•Využít další systém vedle Archivematicy (DAM systémy)
•Přidat nebo upravit microslužby
•Přidat nebo sponzorovat vývoj dalších funkcí
•Rozšířit standard AIPu o další informace (příklad
submission manifest z ZUSE)
Archivematica – plánování uchovávání
FPR databáze se základními informacemi k formátům z Pronom –
k tomu pravidla a scripty – jaký nástroj se má použít a jaký command
•nelze exportovat celou databázi, neřeší se verzování celé databáze
•chybí pravidla pro řešení problémů s nástroji pro standardní chyby
(invalid page tree node s Jhove pro PDF apod.)
•Jediný způsob realizace ochranné akce je normalizace na vstupu
Archivematica – plánování uchovávání
Jak jsme Archivematiku
testovali
Archivematica – testování
A. Možnosti ingestu
B. Formátové korpusy
C. Ingest dat z CD/DVD
D. Ingest dat z Digitální knihovny fotografií
E. Ingest dat z DSpace
F. Ingest dat ve formátu NDK
Archivematica – testování
A. Možnosti ingestu
•Archivematica Standard
•BagIt (zipped a unzipped)
•DSpace
•DISK Image
•API
Archivematica – testování
B. Formátové korpusy
• Používat FITS a FIDO a moc neexperimentovat
• Lze použít DROID
• Identifikace formátů jen v transferu pokud možno
• Validace formátů – teď jen pomocí Jhove
•Malá citlivost workflow na nevalidní objekty v případě, že to
jsou hybridní soubory, nevalidní soubory - unknown formát je
formát
•Neexistuje logická vazba mezi identifikací formátu a validací
formátu
•DROID, ve výsledných metadatech není uvedeno, jakým
způsobem byl formát identifikován
•Atd.
Archivematica – testování
C. Ingest dat z CD/DVD
•pro každou sbírku odladit workflow a porovnat AIP s vloženými daty
•pro některé typy obsahu nelze použít normalizaci
•před migrací do Archivematicy data z disků přehrát na file systém a
analyzovat jeho obsahu pomocí DROID mimo Archivematicu. Detekovat
ty sbírky, kde mohou nastat potíže.
•ve workflow používat standardní FIDO/FITS
•přidat mikroslužby, které zkontrolují a ohlásí soubory idenfikované
nebo validované jako octet/stream apod
Archivematica – testování
D. Ingest dat z Digitální knihovny fotografií
•větší objemy dat nelze vkládat jako jeden AIP
•je třeba počítat s přípravou a testováním skriptů/programu pro
přípravu dat pro Archivematicu
•k spuštění Transferů lze použít API Archivematicy, nicméně toto není
dobře dokumentované
Transfer typ Standard je poměrně zajímavý a vhodný zejména pro
zdrojové systémy, které nemají standardizovaný výstupní formát
Archivematica – testování
E. Ingest dat z DSpace
F. Ingest dat ve formátu NDK
Co si z toho odnést?
Hledání kreativních řešení
KLINDT, M. a
AMERHEIM, K.
One core
preservation
system for all
your data. No
exceptions!, In
iPRES 2015, 2-
6.11.2015,
Chapel Hill,
USA.
Co stojí především za vylepšení?
•Archivematica není repozitář
•Vylepšení indexování a možností vyhledávání
•Export DIP baličku
•Další vylepšení mechanismů pro řízení vstupu dat –
workflow
•Použitelnost pro komplexnější projekty
•Publikace metadat
•Vynucení přístupových práv a metadata
•Úprava pro možnost použití jako služby
•Podpora dalších typů popisných metadata
•Integrace
•Dokumentace
•API
Děkuji za pozornost!
Marek Melichar
marek.melichar@ruk.cuni.cz
Národní archiv
V Praze dne 1.12.2015
DOTAZY?
Odkazy, použité zdroje
BROWN, Adrian. Practical digital preservation: a how-to guide for organizations of any size. 1st ed.
London: Facet, c2013, xvi, 336 s. ISBN 978-1-85604-755-5.
CORRADO, E. M., a H. L. MOULAISON. Digital preservation for libraries, archives, and museums.
Lanham, MA: Rowman & Littlefield, 2014. 270 s. ISBN 0810887126.
KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES
2015, 2-6.11.2015, Chapel Hill, USA.
Owens, Trevor, 2012, NDSA levels of digital preservation: release candidate one, Library of Congress.
http://blogs.loc.gov/digitalpreservation/2012/11/ndsa-levels-of-digital-preservation-release-candidate-
one/
http://bit.ly/ltp-portal
http://digitalpowrr.niu.edu/
https://www.artefactual.com/
http://dsa.cuni.cz/
http://www.digitalpreservation.cz/

More Related Content

What's hot

Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...dp-blog-cz
 
Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?dp-blog-cz
 
Martin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibMartin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibLTP-portal-cz
 
Digital curation
Digital curationDigital curation
Digital curationpavluskas
 
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017dp-blog-cz
 
DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"Andrea Fojtu
 

What's hot (6)

Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
 
Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?
 
Martin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibMartin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLib
 
Digital curation
Digital curationDigital curation
Digital curation
 
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
 
DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"
 

Similar to Zkušenosti se systémem Archivematica

Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNETCESNET
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planPetra Dedicova
 
McAfee - ochrana dat, DLP, šifrování, database security
McAfee - ochrana dat, DLP, šifrování, database securityMcAfee - ochrana dat, DLP, šifrování, database security
McAfee - ochrana dat, DLP, šifrování, database securityMarketingArrowECS_CZ
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planUstredni knihovna VUT
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciJaroslav Prodelal
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptxMagdalnaBohuslavov
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2MarketingArrowECS_CZ
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyMoravskaZemskaKnihovna
 
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...locloud
 
Miroslav Kunt: Projekt Národního digitálního archivu
Miroslav Kunt: Projekt Národního digitálního archivu Miroslav Kunt: Projekt Národního digitálního archivu
Miroslav Kunt: Projekt Národního digitálního archivu ÚISK FF UK
 
4313 pristupova prava_k_souborum_a_slozkam_1
4313 pristupova prava_k_souborum_a_slozkam_14313 pristupova prava_k_souborum_a_slozkam_1
4313 pristupova prava_k_souborum_a_slozkam_1pisaceku
 
Dlouhodobá ochrana digitálních informací na Novém Zélandu
Dlouhodobá ochrana digitálních informací na Novém ZélanduDlouhodobá ochrana digitálních informací na Novém Zélandu
Dlouhodobá ochrana digitálních informací na Novém Zélandudp-blog-cz
 

Similar to Zkušenosti se systémem Archivematica (20)

02 Funkční model OAIS.pptx
02 Funkční model OAIS.pptx02 Funkční model OAIS.pptx
02 Funkční model OAIS.pptx
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNET
 
05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx
 
LTP-workshop
LTP-workshopLTP-workshop
LTP-workshop
 
02 OAIS.pptx
02 OAIS.pptx02 OAIS.pptx
02 OAIS.pptx
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
McAfee - ochrana dat, DLP, šifrování, database security
McAfee - ochrana dat, DLP, šifrování, database securityMcAfee - ochrana dat, DLP, šifrování, database security
McAfee - ochrana dat, DLP, šifrování, database security
 
Chráníte správně svoje data?
Chráníte správně svoje data?Chráníte správně svoje data?
Chráníte správně svoje data?
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
Ndk mu
Ndk muNdk mu
Ndk mu
 
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaciWebinář: Ovládněte umění správy dokumentů ve vaší organizaci
Webinář: Ovládněte umění správy dokumentů ve vaší organizaci
 
Data management
Data managementData management
Data management
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
 
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
 
Miroslav Kunt: Projekt Národního digitálního archivu
Miroslav Kunt: Projekt Národního digitálního archivu Miroslav Kunt: Projekt Národního digitálního archivu
Miroslav Kunt: Projekt Národního digitálního archivu
 
4313 pristupova prava_k_souborum_a_slozkam_1
4313 pristupova prava_k_souborum_a_slozkam_14313 pristupova prava_k_souborum_a_slozkam_1
4313 pristupova prava_k_souborum_a_slozkam_1
 
06 Cvičení.pptx
06 Cvičení.pptx06 Cvičení.pptx
06 Cvičení.pptx
 
Dlouhodobá ochrana digitálních informací na Novém Zélandu
Dlouhodobá ochrana digitálních informací na Novém ZélanduDlouhodobá ochrana digitálních informací na Novém Zélandu
Dlouhodobá ochrana digitálních informací na Novém Zélandu
 

Zkušenosti se systémem Archivematica

  • 1. Zkušenosti se systémem Archivematica Možnosti a omezení systému Marek Melichar UVT UK Projekt LTP PILOT Masarykova univerzitaV Praze dne 1.12.2015
  • 2. Obsah ●Obecně o dlouhodobé archivaci ●Pragmatický přístup ●Co je a co není Archivematica ●Jak jsme Archivematiku testovali
  • 4. Aktivistické tenisky Photo: West Papua independence leader Benny Wenda, presenting campaign gifts to Mr. Ondrej Liska, Czech Minister of Education
  • 5. Co je dlouhodobá archivace „uchování obsahu pro budoucí použití a zpřístupnění“ (loc.gov) Systematická, plánovaná, dokumentovaná činnost, která má přímé a nepřímé dopady (budování sbírek, legitimizace existence institucí, smysl instituce, ochrana investic, zákonné požadavky, zvyšování důvěryhodnosti instituce atd.) Pro budoucí „uživatele“ (archivář/knihovník/kurátor vs data science expert)
  • 6. Jak se mluví o dlouhodobé archivaci Teoretický, terminologický diskurs Výzkum v oblasti LTP Archivace v IT kontextu Praxe a potřeby paměťových institucích
  • 7. Mýty o dlouhodobé archivaci •Je to jen konceptuální nebo výzkumná disciplína •Vyžaduje vysoce odborné a technické znalosti, na to nemáte staff •Vyžaduje obrovský rozpočet •Měly by to řešit národní instituce nebo centrální instituce •Tohle můžeme odložit, až se bude vědět jak na to, zatím není řešení •Stačí to uložit na nějaké trvalé médium (PIQL, UDO disk, mikrofilm) •Stačí více kopií na více místech a více technologiích •Musíme počkat, na velký projekt •Nejsou zatím dokonalá řešení, nemá smysl se do toho pouštět
  • 8. Pragmatický přístup •začni hned, start simple, postupuj po krocích •začni s tím, co máš, nečekej na velké finance, na dokonalé řešení… •koukni se kolem, co je k dispozici •využij jednoduché nástroje •rozděl složité úkoly na jednodušší kroky •uvědom si, že plánování a financování jsou stejně důležité jako technologie •hledej partnery, sleduje co se děje v komunitě •definuj krátkodobé cíle pro dlouhodobou archivaci
  • 9. Pragmatický přístup Oblasti a úrovně Úroveň nultá (ukaž data) Úroveň první (ochraň data) Úroveň druhá (poznej data) Úroveň třetí (monitoruj data) Úroveň čtvrtá (oprav data) Datové úložiště a jeho geografické umístění Data jsou někde uložena na nějakých médiích. Existují dvě úplné kopie dat, které nejsou umístěné na stejném místě. Data z heterogenních nosičů (optické disky, přenosné harddisky, apod.) je nutné přenést do datového úložiště. Ukládají se tři úplné kopie dat. Alespoň jedna kopie v jiné lokalitě. Jsou dokumentovány systémy úložiště dat a úložná média včetně informací o všem, co je třeba k jejich použití. Ukládají se nejméně tři úplné kopie dat. Alespoň dvě kopie dat se nacházejí v lokalitách, které nesdílejí shodný druh ohrožení (např. přírodních katastrof, ale znamená to i různý hardware a filesystém). Existuje proces sledování zastarávání úložných systémů a médií. Ukládají se nejméně tři úplné kopie dat. Tři kopie dat se nacházejí každá v jiné lokalitě, žádné dvě z těchto lokalit nesdílejí shodný druh ohrožení. Je vypracován podrobný plán, který zajistí, že soubory i metadata jsou uloženy na dostupných médiích nebo systémech. Integrita dat a neměnnost souborů Není známa / nelze zkontrolovat. Kontrola integrity souborů probíhá při převzetí dat, pokud byla data dodána s kontrolním součtem. Pokud nejsou kontrolní součty součástí dodávky dat, jsou při převzetí dat vytvářeny. Kontrola integrity u všech přebíraných dat. Originální média se blokují proti zápisu. Vysoce rizikový obsah prochází antivirovou kontrolou. Integrita dat je kontrolována v pravidelných intervalech. Udržují se záznamy (logy) o stavu integrity dat, na požádání lze dodat audit těchto informací. Lze detekovat poškozená data. Všechen obsah prochází antivirovou kontrolou. Kontroluje se integrita všech dat v návaznosti na konkrétní události nebo aktivity. Zajistit, že žádná osoba nemá právo zápisu ke všem kopiím dat. Informační bezpečnost Není známa. Ví se, kdo má práva čtení, přesouvání a mazání souborů. Omezit tato přístupová oprávnění k jednotlivým souborům. Přístupová oprávnění k obsahu jsou zdokumentována. Jsou uchovávány záznamy (logy) toho, kdo prováděl jaké akce s jakými soubory, včetně mazání a akcí digitální ochrany. Jsou prováděny audity těchto záznamů. Metadata Nějaká metadata lze odvodit z názvů souborů, jejich atributů a adresářové struktury. Existuje přehled obsahu repozitáře a jeho konkrétního umístění na úložišti. Je zajištěno zálohování tohoto seznamu a jeho záloha v jiné lokalitě. Je zaveden lokální jednoznačný identifikáto.r Jsou ukládány administrativní metadata. Ukládají se metadata o transformacích a záznamy událostí. Ukládají se standardní technická a popisná metadata. Ukládají se standardní ochranná metadata. Je zaveden globálně jednoznačný identifikátor. Formáty souborů Dají se odvodit z přípony souborů. Pokud je to možné ovlivnit, podporujte používání malé skupiny dobře známých a otevřených formátů souborů a kodeků. Existuje seznam formátů, které jsou používány. Monitorují se hrozby zastarávání formátů. Provádí se formátové migrace, emulace a podobné aktivity podle potřeby. Práva Je akceptován fakt, že je nutné mít ujasněny zodpovědnosti za ochranu a právní vztahy k digitálním objektům, které mají být předmětem ochrany. Odpovědnost za ochranu je vyjasněná - máme právo daná data trvale uchovávat. Je známo, co je možné s předmětem ochrany dělat z hlediska použití a zpřístupnění. Existuje oprávnění provádět akce digitální ochrany (např. migraci do nových formátů). Existuje oprávnění vytvářet a zpřístupňovat odvozené dokumenty pro definovanou komunitu. Právo přenést zodpovědnost za ochranu a práva k obsahu na někoho jiného.
  • 10. Pragmatický přístup – OS •Bit level preservation tools (fixity and hash libraries, monitoring tools, backup tools, etc) •Format related tools (Jhove, Droid, Fido, Fits, Jpylyzer, Tikka, etc.) •Data creation and harvest tools (scanning tools, harvesters, etc.) •Metadata open standards (Mets, Mods, Premis, Mix, TextMD other) and tools (parsers etc.) •Open and community developed standards and best practices (global or local) •Community maintained information (formats related information infrastructure, etc.) •Community financed research (result in usable tools or standards E- ARK, Scape, and many other)
  • 11. Co je a co není Archivematica
  • 12. Co je a co není Archivematica Peter Van Garderen 2001: Artefactual inc. 2005: blog pod archivemati.ca 2007: ICA ATOM 2008: vývoj Archivematicy – vytvoření požadavků na základě OAIS
  • 13. Co je a co není Archivematica Archivematica není repozitář DCC definice: Digital Repositories offer a convenient infrastructure through which to store, manage, re-use and curate digital materials …..overall commitment to the stewardship of digital materials; this requires not just software and hardware, but also policies, processes, services, and people, as well as content and metadata
  • 14. Co je a co není Archivematica Archivematica nenaplňuje kompletně všechny funkční entity OAIS….nebo ano?
  • 15. Co je a co není Archivematica Archivematica je systém pro: 1. Vytvoření a uložení AIP 2. Vyhledání a získání AIP 3. Jednorázové vytvoření DIPu a odeslání DIPu 4. Normalizaci souborových formátů (převod do preferovaných formátů) • Má GUI •Je storage agnostic •Je použitelná pro jakýkoli typ digitálního obsahu
  • 16. Archivematica - silné stránky Implementace OAIS AIP BagIt, METS, PREMIS, DC •Fixity info •Info o zabalení /bagit version, datum, payload size atd./ •Logy o průběhu ingestu •Vlastní ochraňované objekty a její normalizované deriváty •Submission documentation (podrobnější záznam zpracování v Premis Events) •METS.xml (DC, PREMIS obj.agent. events)
  • 17. Archivematica - silné stránky Workflow pro příjem - transfer a ingest dat z jiných systémů nebo manuální •kontroly vstupujících dat (kompletnosti, fixity) •antivirové kontroly •identifikace a validace formátů vstupních dat •extrakce technických metadat z vložených objektů •aplikace formátových politik dlouhodobé ochrany (normalizace do preferovaných formátů) a kontrola výsledku normalizace (opět identifikace a validace nových souborů atd.) •doplnění nebo vytvoření popisných metadat •vytvoření METS kontejnerů a zápis metadat •zabalení a export do formátu BagIt balíčku AIP •uložení na předem definovanou storage pro AIP (storage service) •případně export DIP do externího systému pro zpřístupnění koncovým uživatelům
  • 18. Archivematica - silné stránky Architektura založená na „microservices“
  • 19. Archivematica - silné stránky Architektura založená na „microservices“
  • 20. Archivematica – omezení Příjem: •metadata – pouze DC, pouze csv + AR •nelze vložit Archivematica METS nebo AIP •automatické doplnění metadat při ingestu z jiného systému •collections – absence rozumné metody ingestu do AIC •vyjádření a kontrola submission agreementu •identifikace dodavatele a informace o dodání dat •API pro transfer a ingest – zatím omezené funkce •konfigurace workflow – lze exportovat xml, nelze uložit v systému a přiřadit dodavateli s konkrétním ID – oddělení konfiguračního souboru od nastavení FPR v systému •1 instance ideálně jako 1 pipeline
  • 21. Archivematica – omezení Archivní uložení • verzování balíků AIP nebo souborů chybí • vytvoření více kopií • nelze nastavit periodické kontroly fixity Zpřístupnění • externí systém (ICA ATOM, Islandora, atd.) • export DIP pouze v okamžiku ingestu • žádné možnosti konverze DIP • žádná autentizace a vynucování přístupových práv, • žádné zpřístupnění metadat přes OAI nebo SRU apod.
  • 22. Archivematica – omezení Administrace - návaznost mikroslužeb není jasně popsána - nelze snadno regulovat citlivost workflow na hybridní nebo chybné objekty -udržování více worklfow v jednom systému pro více institucí může být noční můra - jednoduché typy rolí uživatelů (admin/non admin) Správa dat -AIP lze pouze najít, stáhnout a vymazat -Základní indexování a vyhledávání -Zcela chybí reporting
  • 23. Archivematica – omezení Jak řešit omezení? •Využít další systém vedle Archivematicy (DAM systémy) •Přidat nebo upravit microslužby •Přidat nebo sponzorovat vývoj dalších funkcí •Rozšířit standard AIPu o další informace (příklad submission manifest z ZUSE)
  • 24. Archivematica – plánování uchovávání FPR databáze se základními informacemi k formátům z Pronom – k tomu pravidla a scripty – jaký nástroj se má použít a jaký command •nelze exportovat celou databázi, neřeší se verzování celé databáze •chybí pravidla pro řešení problémů s nástroji pro standardní chyby (invalid page tree node s Jhove pro PDF apod.) •Jediný způsob realizace ochranné akce je normalizace na vstupu
  • 27. Archivematica – testování A. Možnosti ingestu B. Formátové korpusy C. Ingest dat z CD/DVD D. Ingest dat z Digitální knihovny fotografií E. Ingest dat z DSpace F. Ingest dat ve formátu NDK
  • 28. Archivematica – testování A. Možnosti ingestu •Archivematica Standard •BagIt (zipped a unzipped) •DSpace •DISK Image •API
  • 29. Archivematica – testování B. Formátové korpusy • Používat FITS a FIDO a moc neexperimentovat • Lze použít DROID • Identifikace formátů jen v transferu pokud možno • Validace formátů – teď jen pomocí Jhove •Malá citlivost workflow na nevalidní objekty v případě, že to jsou hybridní soubory, nevalidní soubory - unknown formát je formát •Neexistuje logická vazba mezi identifikací formátu a validací formátu •DROID, ve výsledných metadatech není uvedeno, jakým způsobem byl formát identifikován •Atd.
  • 30. Archivematica – testování C. Ingest dat z CD/DVD •pro každou sbírku odladit workflow a porovnat AIP s vloženými daty •pro některé typy obsahu nelze použít normalizaci •před migrací do Archivematicy data z disků přehrát na file systém a analyzovat jeho obsahu pomocí DROID mimo Archivematicu. Detekovat ty sbírky, kde mohou nastat potíže. •ve workflow používat standardní FIDO/FITS •přidat mikroslužby, které zkontrolují a ohlásí soubory idenfikované nebo validované jako octet/stream apod
  • 31. Archivematica – testování D. Ingest dat z Digitální knihovny fotografií •větší objemy dat nelze vkládat jako jeden AIP •je třeba počítat s přípravou a testováním skriptů/programu pro přípravu dat pro Archivematicu •k spuštění Transferů lze použít API Archivematicy, nicméně toto není dobře dokumentované Transfer typ Standard je poměrně zajímavý a vhodný zejména pro zdrojové systémy, které nemají standardizovaný výstupní formát
  • 32. Archivematica – testování E. Ingest dat z DSpace F. Ingest dat ve formátu NDK
  • 33. Co si z toho odnést?
  • 34. Hledání kreativních řešení KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015, 2- 6.11.2015, Chapel Hill, USA.
  • 35. Co stojí především za vylepšení? •Archivematica není repozitář •Vylepšení indexování a možností vyhledávání •Export DIP baličku •Další vylepšení mechanismů pro řízení vstupu dat – workflow •Použitelnost pro komplexnější projekty •Publikace metadat •Vynucení přístupových práv a metadata •Úprava pro možnost použití jako služby •Podpora dalších typů popisných metadata •Integrace •Dokumentace •API
  • 36. Děkuji za pozornost! Marek Melichar marek.melichar@ruk.cuni.cz Národní archiv V Praze dne 1.12.2015 DOTAZY?
  • 37. Odkazy, použité zdroje BROWN, Adrian. Practical digital preservation: a how-to guide for organizations of any size. 1st ed. London: Facet, c2013, xvi, 336 s. ISBN 978-1-85604-755-5. CORRADO, E. M., a H. L. MOULAISON. Digital preservation for libraries, archives, and museums. Lanham, MA: Rowman & Littlefield, 2014. 270 s. ISBN 0810887126. KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015, 2-6.11.2015, Chapel Hill, USA. Owens, Trevor, 2012, NDSA levels of digital preservation: release candidate one, Library of Congress. http://blogs.loc.gov/digitalpreservation/2012/11/ndsa-levels-of-digital-preservation-release-candidate- one/ http://bit.ly/ltp-portal http://digitalpowrr.niu.edu/ https://www.artefactual.com/ http://dsa.cuni.cz/ http://www.digitalpreservation.cz/

Editor's Notes

  1. Uvod obecne o LTP – trochu kontext pro archivematiku, a pro LTP pilot projekt. aktivitistický úvod – proč se LTP zabývat i ve skromnějsich podmínkach mensich projektu bez dokonaleho sw a reseni – SNIZOVANI barier - nerad bych, aby zprava z LTP pilot byla, ze AM jespatný sw, spis zprava by mela byt ze LTP je dulezite tema a ma smysl se tim zabyvat a jsou nastroje k disppozici
  2. Takže v téhle části s navleču aktivitistické tenisky, a budu mluvit o dlouhodobé archivaci trochu jinak. Budu se snažit zdůraznit, že LTP je problém, kterým má smysl se zabývat.
  3. Digital preservation, LTP, existuje řada termínu, ja budu používat pojem dlouhodobá archivace, i když je mi jasné, že to termín nepřesný vzhledem k archivům, a IT. Ale je to kratší než dlouhodobá archivace informačního obsahu v digitální podobě. Pro paměťové instituce je dnes uchovávání a zpřístupňování digitálních dat každodenní praxe, a do budoucna to nebude jinak. Pokud se neprizpusobi ztratí smysl existence. Scenare budouciho vyvoje a rizika toho, ze AKM nezvladnou prechod do digitani doby si archivari a muzejnici vytvareji sami – kdo bude financovat 70% nezpracovaneho nepopsaneho fondu? Proc ho nevyhodit? K cemu mit TB nezpracovanych dat v bacllogu nebo tuny a metry papiru, který nikdo nikdy nechce videt?
  4. Ne všichni mluví o dlouhodobé archivaci stejně. Jinak o ni mluví lidé v IT – kde je archivace chápana jako uložení dat na pásky, jinak o ní mluví počítačoví vědci, kteří se zabývají výzkumem v téhle oblasti a jinak informační vědci, ale obecně jsou ty jazyky vzdáleny potřebám praxe paměťových institucí.   Dlouhodobá archivace je komunitní záležitost, je to sociální úkol –projekt? Jak se angažují VUT nebo CVUT ve vývoji knihovních a muzejním systémů? Nijak, knihovny si dělají svoje systémy samy, muzea a archivy také – chybí tu silný partner – superkomputer centrum jako mají v Polsku nebo v zuse, který bude vytvářet služby pro pamětové instituce aby třeba i paní z muzea zbiroze vedela co ma se svými daty dělat, a měla k dispozici infrastrukturu a služby, kam může svoje data dat… jo, OAISIS, jo, známe Vyzkum a teoretické debaty – ne vždy dobře reaguji na potřeby AKM
  5. Vytváření obrazu LTP jako konceptuální nebo výzkumné disciplínu - kdo to dělá v podstatě škodí – komplikuje rozhodování institucím, jestli se tím zabývat nebo ne. Často jsou tyhle mýty udržována ze zištných důvodů, nechci, aby někdo věděl co dělám, chci si pro sebe urvat co nejvíc, Vyžaduje vysoce odborné a technické znalosti, - komunita, open source, sdílení informace, Rozpočet - Každý krok může pomoci, pouhé přebalení nebo validace ma smysl, a je to krok LTP, který zvyšuje šanci, ze data prezji Trvalé médium – obvyklé strategie – ale k cemu trvalé médium? Máme historii mikrofilmů, které zplesniveli, ztratily se nebo se nevi co na nich je, proc bychom měli dopadnou lepe s PIQL nebo jiném mediu na 500let? A k čemu na je, ze máme bit streamy na 500Let? LTP je sice na dlouhodobá, ale z praktického hlediska je to predani dat další generaci, vyhledatelnych, validnich, popsanych atd.
  6. Inspirace POWRR - Lower the barier a další projektu – i psychologické bariéry V praktické rovině je krátkodobým cílem předání dat další generaci s dostatečnými doprovodnými metadaty a informacemi o vlastních datech, a také o změnách a kontrolách provedených nad uloženými daty během dosavadní archivace. Trvalé uchovávání vyžaduje pragmatická rozhodnutí o tom, jaké typy informací a událostí zaznamenávat, v jakém formátu, jaké technické informace z objektů extrahovat, jaké kontextové a vysvětlující informace přidávat apod. Pragmatický přístup znamená přistupovat k dlouhodobé archivaci s postupně rostoucími ambicemi, a nikoli očekávat trvalé a dokonalé řešení hned na začátku, nebo případně nedělat nic. Pragmatický a praktický přístup k dlouhodobé archivaci řeší obtížné požadavky na dlouhodobou archivaci pragmatickými rozhodnutími v konkrétních projektech s ohledem na dostupné zdroje, finance, a technologie. Samozřejmě se snaží stále zajistit, aby intelektuální obsah uložených objektů zůstal nezměněný a autentický a byl zároveň použitelný v budoucím neznámém technologickém prostředí uživateli, o jejichž znalostech nic nevíme, byl použitelný i bez původce dat atd. Nicméně každodenní provoz archivu a reálná data mohou vyžadovat pragmatická nebo dočasná řešení. Stejně tak instituce musí řešit výběr dokumentů k dlouhodobé archivaci – bohužel paměťové instituce nikdy nebudou disponovat takovou kapacitou, aby mohly ukládat vše, co by z digitálního světa ukládat chtěly   Dlouhodobá archivace digitálních informací není technický problém, technické problémy jsou řešitelné technickými prostředky. Větším rizikem ztráty informací v digitální podobě je nedostatek vůle a odvahy se problematikou dlouhodobé archivace začít prakticky zabývat, i přesto, že nemáme dokonalé řešení, neomezené zdroje nebo všechny odborné znalosti.  
  7. Úrovně dlouhodobé ochrany digitálních dokumentů podle NDSA, OWENS, 2012
  8. Ze semináře „Archives in digital world“ – září 2015
  9. - ta otázka je tam namístě z několika důvodu   - co je vyhověni OAIS (funkční model vs informační model) – různé chápání vyhovění OAIS – certifikace a audit, pokud odmyslíme, že OAIS je jen jádro, a požadavky institucí vyžadují mnohem víc…ale pokud tyhle problémy vynecháme, i tak jsme v mlhách…. - jedno je jisté - bezpochyby informační model není problém – bagit based AIP, obsahující METS//Premis/DC metadata - popis funkcí v dokumentaci, resp. na wiki je velmi optimisticky - nějakým způsobem naplňuje Archivematica každou oblasti - otázka je jestli to takto stačí - některé klíčové funkce chybí… nebo je třeba je implementovat vně Archivematiky s využitím jiných systémů – ne vždy ideálním způsobem   Problém tedy je v rozsahu funkcí dostupných pro jednotlivé oblasti (příjem - sice transfer a ingest fáze, jako jinde, ale chybí věci, které je třeba řešit jinak – Archivní uložení také nějak implementováno Správa dat velmi stručné – udržování databáze
  10. Storage agnostic – to je výhoda nebo nevýhoda - není optimalizovaná pro určitý typ storage, některé funkce je třeba implementovat vně – nebo nove – například kontroly fixty. Výhoda je ze teoreticky lze použit s jakoukoli storage technologii, která je schopna fungovat jako posix II systém. Archivematica také nevi nic o jednotlivých kopiích (pokud jich vic horizontálně) ani nevi nic o připadnych hierarchiích ve storage …disky, pasky atd.
  11. Ted nemluvím o technickém provedeni, ale o implementovaných funkcích, ze v tom jsou mouchy to je jasné, a ze tam je prostor pro vylepší je také jasné.
  12. Ted nemluvim o technickem provedeni, ale o implementovanych funkcich, ze v tom jsou mouchy to je jasne, a ze tam je prostor pro vylepsi je také jasne.
  13. Ted nemluvim o technickem provedeni, ale o implementovanych funkcich, ze v tom jsou mouchy to je jasne, a ze tam je prostor pro vylepsi je také jasne.
  14. Omezení nebo možnosti pro další vývoj. Není to výčet chyb, spíš uvahy o tom, kde bude třeba při praktickém provozu hledat kreativní resení a kam je třeba se dívat v pripadnem dalsim projektu Nekteré věci jsou v roadmap – financované jinými institucemi - nekteré se dají resit integraci s jinými systémy - nekteré doděláním mikroslužeb na míru – finský příklad predelaní všech služeb - revize kodu všech služeb má smysl – je třeba mit jistoru o návaznosti atd.
  15. Omezení nebo možnosti pro další vývoj. Není to výčet chyb, spíš úvahy o tom, kde bude třeba při praktickém provozu hledat kreativní řešení a kam je třeba se dívat v pripadnem dalším projektu Některé věci jsou v roadmap – financované jinými institucemi - některé se dají řešit integraci s jinými systémy - některé doděláním mikroslužeb na míru – finský příklad předělaní všech služeb - revize kódu všech služeb má smysl – je třeba mít jistotu o návaznosti atd.
  16. – kdy má workflow skončit, zastavit, ohlasit chybu? Ví jedna služba o výsledku druhé? (validace jhove jako octet stream objektu, který bych identifikován jako JP2 apod Ukládání dotazu chybí, chybí sety, chybí kombinace dotazů atd. - Chybí hledání podle konkrétního pole, nelze hledat podle polí techMD apod.
  17. seznam nástrojů, výběr nástroje, pravidel a editaci/vytváření příkazů pro identifikaci formátů, seznam všech nástrojů připojených v konkrétní instalaci Archivematicy pravidla a příkazy pro extrakci technických metadat, pravidla a příkazy pro popis ochranných událostí, pravidla a příkazy extrakci dat (např. z formátů zip, tar apod.) pravidla a příkazy pro normalizaci formátů pravidla a příkazy pro transkripci - OCR z obrazových formátů pravidla pro validaci formátů a verifikaci dat.
  18. seznam nástrojů, výběr nástroje, pravidel a editaci/vytváření příkazů pro identifikaci formátů, seznam všech nástrojů připojených v konkrétní instalaci Archivematicy pravidla a příkazy pro extrakci technických metadat, pravidla a příkazy pro popis ochranných událostí, pravidla a příkazy extrakci dat (např. z formátů zip, tar apod.) pravidla a příkazy pro normalizaci formátů pravidla a příkazy pro transkripci - OCR z obrazových formátů pravidla pro validaci formátů a verifikaci dat.
  19. Standard – mmuze obsahovat objekty, md5 nebo jiny hash, metadata, processing xml – usporadani do struktury Bagit – stejne jako standard, jen neumoznuje vkladat metadata dspace – jednotlivé objekty, tak cele struktury kolekci disk image – obrzay disku ruzných formátů API – jen rcstecne dokumentováno, ale v zásade umožnuje automatizovat ingest – sleduje slozku pro transfer, pokud tam pribudou data zahaji zpracovani, nedokumentované části jde i sledovat stav ingestu a zuložení
  20. - Archivematica není repozitář Hledání kreativních řešení nebo doplnění jinými systémy
  21. - Archivematica není repozitář – možnost aktualizovat deskriptivní metadata uložených balíčků AIP možnost aktualizovat jakékoli části metadat AIPu - pokud je AIP komplexnější a obsahuje více úrovní popisu (MODS a DC pro titul, číslo, článek) hromadné operace nad uloženými AIPy, například operace jako opakované kontroly fixity nebo nové vygenerování user copy, opakované spuštění validace nebo extrakce technických metadata a přidání výstupu/eventu do AIP. Tyto úkony nelze provádět přes ani pomocí API. možnost skutečně pracovat s kolekcemi a nějak definovanými sadami dat. Možnost ukládat metadata kolekcí a publikovat je.