LTP-workshop byl závěrečnou prezentací a zároveň veřejnou obhajobou projektu LTP-Pilot. Členové projektového týmu prezentovali své závěry, zkušenosti a výstupy z testování LTP open-source systému Archivematica. Kromě nás tam vystoupili i zástupci Národní knihovny ČR, Národního archivu ČR, Knihovny Akademie věd ČR a Centrálného dátového archivu (SK), kteří účastníky seznámili se svými projekty a systémy na dlouhodobou archivaci. Na závěr proběhla diskuze o dalším rozvoji LTP v ČR a možnosti užší spolupráce všech zájemců o problematiku.
Moje prezentace představila použití systému Archivematica v LTP repozitářích vybraných zahraničních institucí.
2. Archivematica – výhody
❏ Nízkonákladové řešení
❏ Open source
❏ Spolupráce s Artefactual Systems
❏ Budována na základě OAIS
❏ Variabilita nasazení
❏ Modularita
❏ Neustálý vývoj
❏ Komunita
Řada projektů v paměťových
institucích severní Ameriky a
západní Evropy.
3. City of Vancouver Archives
❏1. uživatelé Archivematiky (AM)
❏Městský archiv – příjem dat od úřadů a soukromých
institucích; data z olympijských a paralympijských
her ve Vancouveru 2010 (různé formáty, cca 20 TB).
❏AM - nástroj pro ingest, mikroslužby provádějí:
❏testy na malware
❏kontrola integrity
❏extrakce metadat
❏identifikace, charakterizace a normalizace
formátů
4. City of Vancouver Archives
❏AIP a DIP postoupeny dále:
AIP -> archivní úložiště
DIP -> AtoM
❏Formátová politika – normalizace dat
do formátů vhodných pro dlouhodobou ochranu.
❏Data v exotických formátech nebo formátech,
nemající vhodnou alternativu jsou ukládány
v původních formátech a LTP probíhá
dle možností.
5. Simon Fraser University Archives
❏ 2011 – pilotní projekt na otestování AM
❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských
balíků, obrázky a audio
❏ Doporučení k dalšímu rozvoji Archivematicy –
oblast GUI, workflow, dávkového zpracování,
zpracování chyb, správy a systémové administrace
6. Simon Fraser University Archives
❏ Uchovávání elektronické pošty z e-mailového
klienta Zimbra (cca 10 000 e-mailů)
❏ konverze formátu Zimbra do Maildir:
❏ Zimbra - proprietární X Maildir - jednotlivé zprávy
❏ otagování pomocí Muse – (ne)zpřístupňování zpráv
❏ Repozitář závěrečných prací
❏ AM je zodpovědná pouze za vytváření archivních
balíčků (uložení řešeno pomocí LOCKSS)
7. Simon Fraser University Archives
❏ Repozitář vědeckých dat – Islandora; LTP řeší AM
+ další systémy
❏ Více instalací AM i AtoMu (pipelines) – import
různých typů dat (AM) a pro různé uživatele
(AtoM)
❏ vlastní dotazovací nástroj AIP Query Tool:
statistiky balíčků AIP (druhy a počty formátů nebo
velikost a počty uložených objektů).
❏ analýza potřeb dalšího rozvoje Archivematicy a
AtoMu
8. Simon Fraser University Archives
Zdroj: https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
9. University of British Columbia Library
Spolupráce s Artefactual Systems:
❏ Pilotní projekty, testování AM
❏ Projekt archivování webu a napojení na DSpace
❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP
AIP -> LOCKSS, lokální úložiště
DIP -> AtoM
10. University of British Columbia Library
Institucionální repozitář (cIRcle):
❏ DSpace - propojený s Archivematicou
❏ Export z DSpace -> import do AM
❏ několik instalací AM (pipelines) - různé druhy dat
❏ Co největší integrace pipelines (propojení s
webovými stránkami univerzity) - rychlost,
jednoduchost, efektivita workflow
12. Columbia University
2011– 2013 zpracování Archives of the Ford
Foundation - International Fellowships Program
❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000
souborů;
❏ 245 různých formátů souborů (kancelářské dokumenty,
audio a video, databáze, e-maily, web, průzkumy,
rozhovory, statistické zprávy, datasety, …)
❏ dlouhé názvy souborů a souborových cest (více než 260
znaků)
❏ 10 jazyků a 7 nerománských znakových sad (včetně
arabštiny a indštiny)
❏ nedostatek popisných metadat
13. Columbia University
❏omezený přístup k některým datům:
veřejně dostupná data
interně dostupná data
data s omezením přístupu až do roku 2075
❏Převod formátů na vhodné pro LTP, extrakce dat ze
zip a rar
❏AM pro příjem SIP (přiřazení UUID, virová kontrola,
normalizace názvů souborů, formátová identifikace,
extrakce metadat a generování souborů METS
❏AIP -> uloženo, DIP -> Fedora
14. Council of Prairie and Pacific
University Libraries – COPPUL
❏ Společné projekty, vyjednávání s dodavateli
softwaru, elektronických databází, …
❏ Zkušenosti se sdílenou archivací dokumentů -
projekt SPAN (Shared Print Archive Network),
distribuce papírových výtisků odborných periodik
❏ Lokální sítě LOCKSS (archivace závěrečných prací,
článků, digitalizované i digital-born dokumenty, …)
❏ Zapojení v původní (globální) LOCKSS síti a
projektu Portico,
Archive-It pro archivaci webu
15. Council of Prairie and Pacific
University Libraries – COPPUL
❏ 2013 - spolupráce COPPUL a Artefactual Systems.
❏ AM jako služba (Digital Preservation as a Service)
❏ COPPUL - propagace, vstup nových členů a
financování vstupních nákladů.
❏ Artefactual Systems - správa účtů a serverů,
instalace, školení a technická podpora
uživatelů.
❏ Univerzita Britské Kolumbie (EduCloud) -
servery a úložný prostor
16. Council of Prairie and Pacific
University Libraries – COPPUL
❏ Tři úrovně služby:
❏ bronzová: identifikace a validace, pravidelné
kontroly checksums, 400 GB; 5500 $/rok
❏ stříbrná: + normalizace vstupních dat, uložení
balíčků AIP v zabezpečeném úložišti,
generování PREMIS a METS , 1 TB; 7500 $/rok
❏ zlatá: + generování DIP balíčků a upload do
AtoMu, 2 TB; 12500 $/rok
17. Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Regionální superpočítačové centrum - 5 PB dat na
discích a 100 PB na páskách.
❏ Budování a testování LTP systému, řada open
source nástrojů:
❏ Archivematica, iRODS a Islandora
❏ AM slouží pro příjem dat – identifikace,
charakterizace a normalizace formátů
❏ DIP -> Fedora/Islandora
❏ AIP -> archivní úložiště (iRODS)
18. Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Administrace dat - propojení Islandory a iRods, AIP
na páskách, DIP uložené online.
❏ Různé druhy daty od partnerských institucí ->
mírná úprava AM, schopnost doplňovat potřebná
metadata do METS v AIP.
❏ ZIB sponzoruje naprogramování re-ingestu balíčku
AIP - úprava/změna metadat, zachování UUID a
existující PREMIS (AM ver. 1.5)
20. ArchivesDirect
❏ Artefactual Systems + DuraSpace -> DPaaS
❏ říjen 2014 - únor 2015 pilotní projekt AM v
cloudu, vybrané univerzity v USA
❏ veřejně - březen 2015, jako ArchivesDirect
21. ArchivesDirect
❏ DuraCloud - správa dat a jejich kopií v cloudu
❏ AM - příjem dat, obohacování o metadata a
normalizace
❏ Nepokrývá správu dat na úložišti, neřídí počet ani
umístění kopií, nekontroluje integritu
❏ DuraCloud + AM = pokus o eliminaci slabých
stránek
❏ 9 999 $/rok – 1 instalace AM, školení a trénink,
1TB
❏ Amazon S3 a Amazon Glacier
23. Použité zdroje
● Archivematica. COPPUL. COPPUL: Council of Prairie and Pacific University Libraries [online]. 2014 [cit. 2015-03-10].
Dostupné z: http://www.coppul.ca/programs/archivematica
● ARTEFACTUAL SYSTEMS. Simon Fraser University Archives Digital Preservation Strategy: Project report [online]. 2012 [cit.
2015-07-13]. Dostupné z: https://wiki.sfu.ca/departments/archives/images/9/95/ProofConceptReport_20120418.pdf
● ARTEFACTUAL SYSTEMS. University of British Columbia Library Persistent Digital Collections Implementation Plan: Final
project report Summary version. 2012. Dostupné z: http://diginit.sites.olt.ubc.ca/files/2012/07/UBCLibrary-
PersistentDigitalCollectionsPlan-ProjectReportCondensed-1.pdf
● CITY OF VANCOUVER ARCHIVES. City of Vancouver Archives [online]. c2015 [cit. 2015-03-08]. Dostupné z:
http://vancouver.ca/your-government/city-of-vancouver-archives.aspx
● DINGWALL, Glenn. Building a Digital Archives at the City of Vancouver [online]. 2010 [cit. 5. 3. 2015]. Dostupné z:
http://www.interpares.org/display_file.cfm?doc=ip3_canada_dissemination_cs_dingwall_ip3-isym03_2010.pdf
● JORDAN, Mark. Preservation of Digital Theses at SFU [online]. 2012 [cit. 2015-06-03]. Dostupné z:
http://summit.sfu.ca/system/files/iritems1/10884/Preservation%20of%20Digital%20Theses%20-%20Jordan.pdf
● MUMMA, Courtney, Glenn DINGWALL a Sue BIGELOW. A First Look at the Acquisition and Appraisal of the 2010 Olympic
and Paralympic Winter Games Fonds: or, SELECT * FROM VANOC_Records AS Archives WHERE Value=“true”;.Archivaria:
The Journal of Association of Canadian Archivists. 2011, č. 72. Dostupné z:
http://journals.sfu.ca/archivar/index.php/archivaria/article/view/13361/14666
24. Použité zdroje
● SFU ARCHIVES AND RECORDS MANAGEMENT DEPARTMENT. DIGITAL REPOSITORY PROJECT: Repository Infrastructure
Requirements [online]. 2014 [cit. 2015-08-03]. Dostupné z:
https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
● Shepherding the bits. THE ZUSE INSTITUTE BERLIN. ZIB [online]. c2014 [cit. 2015-03-10]. Dostupné z:
http://www.zib.de/features/shepherding-bits
● SIMON FRASER UNIVERSITY ARCHIVES. Archivematica Architecture [online]. 2014 [cit. 2015-08-25]. Dostupné z:
https://wiki.sfu.ca/departments/archives/images/3/31/ArchivematicaArchitecture.pdf
● SOKOLOVA, Dina a Jane GORJEVSKY. Adding Metadata and Ingesting Large Born-Digital Archives with Archivematica.
2014. Dostupné z:
http://academiccommons.columbia.edu/download/fedora_content/download/ac:180721/CONTENT/AddingMetadata_SA
A_Forum_2014.pdf
● SOKOLOVA, Dina a GORJEVSKY Jane. Infrastructure Development: Multiple Digital Content Types in a Single Collection.
2014. Dostupné z: https://library.columbia.edu/content/dam/librarywebsecure/behind_the_scenes/ford-
ifp/MultipleContentTypes_DP_2014.pdf
● SPROUT, Bronwen a ROMKEY Sarah. UBC Library's Digital Preservation Strategy [online]. 2014 [cit. 9. 3. 2015]. Dostupné z:
http://elk.library.ubc.ca/bitstream/handle/2429/47021/Sprout_B_et_al_UBC_Library_Digital.pdf
● The Archivematica + DuraCloud “Soup-to-Nuts” Preservation Service Launches a Beta Test. DURASPACE. DuraSpace.org
[online]. 2014 [cit. 2015-03-17]. Dostupné z: http://www.duraspace.org/node/2314
● KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015, 2-6.11.2015,
Chapel Hill, USA.