Archivematica:
projekty
ve světě
LTP-workshop
Národní archiv ČR, 1. 12. 2015
Zdeněk Hruška
Projekt LTP-pilot
Moravská zemská knihovna
Archivematica – výhody
❏ Nízkonákladové řešení
❏ Open source
❏ Spolupráce s Artefactual Systems
❏ Budována na základě OAIS
❏ Variabilita nasazení
❏ Modularita
❏ Neustálý vývoj
❏ Komunita
Řada projektů v paměťových
institucích severní Ameriky a
západní Evropy.
City of Vancouver Archives
❏ 1. uživatelé Archivematiky (AM)
❏ Městský archiv – příjem dat od úřadů a soukromých
institucích; data z olympijských a paralympijských
her ve Vancouveru 2010 (různé formáty, cca 20 TB).
❏ AM - nástroj pro ingest, mikroslužby provádějí:
❏ testy na malware
❏ kontrola integrity
❏ extrakce metadat
❏ identifikace, charakterizace a normalizace
formátů
City of Vancouver Archives
❏ AIP a DIP postoupeny dále:
AIP -> archivní úložiště
DIP -> AtoM
❏ Formátová politika – normalizace dat
do formátů vhodných pro dlouhodobou ochranu.
❏ Data v exotických formátech nebo formátech,
nemající vhodnou alternativu jsou ukládány
v původních formátech a LTP probíhá
dle možností.
Simon Fraser University Archives
❏ 2011 – pilotní projekt na otestování AM
❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských
balíků, obrázky a audio
❏ Doporučení k dalšímu rozvoji Archivematicy – oblast
GUI, workflow, dávkového zpracování, zpracování
chyb, správy a systémové administrace
Simon Fraser University Archives
❏ Uchovávání elektronické pošty z e-mailového
klienta Zimbra (cca 10 000 e-mailů)
❏ konverze formátu Zimbra do Maildir:
❏ Zimbra - proprietární X Maildir - jednotlivé zprávy
❏ otagování pomocí Muse – (ne)zpřístupňování zpráv
❏ Repozitář závěrečných prací
❏ AM je zodpovědná pouze za vytváření archivních
balíčků (uložení řešeno pomocí LOCKSS)
Simon Fraser University Archives
❏ Repozitář vědeckých dat – Islandora; LTP řeší AM
+ další systémy
❏ Více instalací AM i AtoMu (pipelines) – import
různých typů dat (AM) a pro různé uživatele (AtoM)
❏ vlastní dotazovací nástroj AIP Query Tool:
statistiky balíčků AIP (druhy a počty formátů nebo
velikost a počty uložených objektů).
❏ analýza potřeb dalšího rozvoje Archivematicy a
AtoMu
Simon Fraser University Archives
https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
University of British Columbia Library
Spolupráce s Artefactual Systems:
❏ Pilotní projekty, testování AM
❏ Projekt archivování webu a napojení na DSpace
❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP
AIP -> LOCKSS, lokální úložiště
DIP -> AtoM
University of British Columbia Library
Institucionální repozitář (cIRcle):
❏ DSpace - propojený s Archivematicou
❏ Export z DSpace -> import do AM
❏ několik instalací AM (pipelines) - různé druhy dat
❏ Co největší integrace pipelines (propojení s
webovými stránkami univerzity) - rychlost,
jednoduchost, efektivita workflow
http://diginit.sites.olt.ubc.
ca/files/2012/07/UBCLibrary-
PersistentDigitalCollectionsPlan-
ProjectReportCondensed-1.pdf
Columbia University
2011– 2013 zpracování Archives of the Ford
Foundation - International Fellowships Program
❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000
souborů;
❏ 245 různých formátů souborů (kancelářské dokumenty,
audio a video, databáze, e-maily, web, průzkumy,
rozhovory, statistické zprávy, datasety, …)
❏ dlouhé názvy souborů a souborových cest (více než 260
znaků)
❏ 10 jazyků a 7 nerománských znakových sad (včetně
arabštiny a indštiny)
❏ nedostatek popisných metadat
Columbia University
❏ omezený přístup k některým datům:
veřejně dostupná data
interně dostupná data
data s omezením přístupu až do roku 2075
❏ Převod formátů na vhodné pro LTP, extrakce dat ze
zip a rar
❏ AM pro příjem SIP (přiřazení UUID, virová kontrola,
normalizace názvů souborů, formátová identifikace,
extrakce metadat a generování souborů METS
❏ AIP -> uloženo, DIP -> Fedora
Council of Prairie and Pacific
University Libraries – COPPUL
❏ Společné projekty, vyjednávání s dodavateli
softwaru, elektronických databází, …
❏ Zkušenosti se sdílenou archivací dokumentů -
projekt SPAN (Shared Print Archive Network),
distribuce papírových výtisků odborných periodik
❏ Lokální sítě LOCKSS (archivace závěrečných prací,
článků, digitalizované i digital-born dokumenty, …)
❏ Zapojení v původní (globální) LOCKSS síti a projektu
Portico,
Archive-It pro archivaci webu
Council of Prairie and Pacific
University Libraries – COPPUL
❏ 2013 - spolupráce COPPUL a Artefactual Systems.
❏ AM jako služba (Digital Preservation as a Service)
❏ COPPUL - propagace, vstup nových členů a
financování vstupních nákladů.
❏ Artefactual Systems - správa účtů a serverů,
instalace, školení a technická podpora
uživatelů.
❏ Univerzita Britské Kolumbie (EduCloud) -
servery a úložný prostor
Council of Prairie and Pacific
University Libraries – COPPUL
❏ Tři úrovně služby:
❏ bronzová: identifikace a validace, pravidelné
kontroly checksums, 400 GB; 5500 $/rok
❏ stříbrná: + normalizace vstupních dat, uložení
balíčků AIP v zabezpečeném úložišti,
generování PREMIS a METS , 1 TB; 7500 $/rok
❏ zlatá: + generování DIP balíčků a upload do
AtoMu, 2 TB; 12500 $/rok
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Regionální superpočítačové centrum - 5 PB dat na
discích a 100 PB na páskách.
❏ Budování a testování LTP systému, řada open
source nástrojů:
❏ Archivematica, iRODS a Islandora
❏ AM slouží pro příjem dat – identifikace,
charakterizace a normalizace formátů
❏ DIP -> Fedora/Islandora
❏ AIP -> archivní úložiště (iRODS)
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Administrace dat - propojení Islandory a iRods, AIP
na páskách, DIP uložené online.
❏ Různé druhy daty od partnerských institucí -> mírná
úprava AM, schopnost doplňovat potřebná
metadata do METS v AIP.
❏ ZIB sponzoruje naprogramování re-ingestu balíčku
AIP - úprava/změna metadat, zachování UUID a
existující PREMIS (AM ver. 1.5)
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
ArchivesDirect
❏ Artefactual Systems + DuraSpace -> DPaaS
❏ říjen 2014 - únor 2015 pilotní projekt AM v
cloudu, vybrané univerzity v USA
❏ veřejně - březen 2015, jako ArchivesDirect
ArchivesDirect
❏ DuraCloud - správa dat a jejich kopií v cloudu
❏ AM - příjem dat, obohacování o metadata a
normalizace
❏ Nepokrývá správu dat na úložišti, neřídí počet ani
umístění kopií, nekontroluje integritu
❏ DuraCloud + AM = pokus o eliminaci slabých
stránek
❏ 9 999 $/rok – 1 instalace AM, školení a trénink,
1TB
❏ Amazon S3 a Amazon Glacier
Zdeněk Hruška
Moravská zemská knihovna
zdenek.hruska@mzk.cz
Děkuji
za pozornost!
Použité zdroje
●
●
●
●
●
●
●
č
Použité zdroje
●
●
●
●
●
●
●

Zdeněk Hruška - Archivematica a projekty ve světě

  • 1.
    Archivematica: projekty ve světě LTP-workshop Národní archivČR, 1. 12. 2015 Zdeněk Hruška Projekt LTP-pilot Moravská zemská knihovna
  • 2.
    Archivematica – výhody ❏Nízkonákladové řešení ❏ Open source ❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS ❏ Variabilita nasazení ❏ Modularita ❏ Neustálý vývoj ❏ Komunita Řada projektů v paměťových institucích severní Ameriky a západní Evropy.
  • 3.
    City of VancouverArchives ❏ 1. uživatelé Archivematiky (AM) ❏ Městský archiv – příjem dat od úřadů a soukromých institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB). ❏ AM - nástroj pro ingest, mikroslužby provádějí: ❏ testy na malware ❏ kontrola integrity ❏ extrakce metadat ❏ identifikace, charakterizace a normalizace formátů
  • 4.
    City of VancouverArchives ❏ AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM ❏ Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu. ❏ Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány v původních formátech a LTP probíhá dle možností.
  • 5.
    Simon Fraser UniversityArchives ❏ 2011 – pilotní projekt na otestování AM ❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio ❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace
  • 6.
    Simon Fraser UniversityArchives ❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů) ❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy ❏ otagování pomocí Muse – (ne)zpřístupňování zpráv ❏ Repozitář závěrečných prací ❏ AM je zodpovědná pouze za vytváření archivních balíčků (uložení řešeno pomocí LOCKSS)
  • 7.
    Simon Fraser UniversityArchives ❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy ❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM) ❏ vlastní dotazovací nástroj AIP Query Tool: statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů). ❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu
  • 8.
    Simon Fraser UniversityArchives https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
  • 9.
    University of BritishColumbia Library Spolupráce s Artefactual Systems: ❏ Pilotní projekty, testování AM ❏ Projekt archivování webu a napojení na DSpace ❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložiště DIP -> AtoM
  • 10.
    University of BritishColumbia Library Institucionální repozitář (cIRcle): ❏ DSpace - propojený s Archivematicou ❏ Export z DSpace -> import do AM ❏ několik instalací AM (pipelines) - různé druhy dat ❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow
  • 11.
  • 12.
    Columbia University 2011– 2013zpracování Archives of the Ford Foundation - International Fellowships Program ❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů; ❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …) ❏ dlouhé názvy souborů a souborových cest (více než 260 znaků) ❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny) ❏ nedostatek popisných metadat
  • 13.
    Columbia University ❏ omezenýpřístup k některým datům: veřejně dostupná data interně dostupná data data s omezením přístupu až do roku 2075 ❏ Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar ❏ AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS ❏ AIP -> uloženo, DIP -> Fedora
  • 14.
    Council of Prairieand Pacific University Libraries – COPPUL ❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, … ❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik ❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …) ❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico, Archive-It pro archivaci webu
  • 15.
    Council of Prairieand Pacific University Libraries – COPPUL ❏ 2013 - spolupráce COPPUL a Artefactual Systems. ❏ AM jako služba (Digital Preservation as a Service) ❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů. ❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů. ❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor
  • 16.
    Council of Prairieand Pacific University Libraries – COPPUL ❏ Tři úrovně služby: ❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok ❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok ❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok
  • 17.
    Konrad-Zuse-Zentrum für Informationstechnik Berlin(ZIB) ❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách. ❏ Budování a testování LTP systému, řada open source nástrojů: ❏ Archivematica, iRODS a Islandora ❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů ❏ DIP -> Fedora/Islandora ❏ AIP -> archivní úložiště (iRODS)
  • 18.
    Konrad-Zuse-Zentrum für Informationstechnik Berlin(ZIB) ❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online. ❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP. ❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)
  • 19.
  • 20.
    ArchivesDirect ❏ Artefactual Systems+ DuraSpace -> DPaaS ❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA ❏ veřejně - březen 2015, jako ArchivesDirect
  • 21.
    ArchivesDirect ❏ DuraCloud -správa dat a jejich kopií v cloudu ❏ AM - příjem dat, obohacování o metadata a normalizace ❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu ❏ DuraCloud + AM = pokus o eliminaci slabých stránek ❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB ❏ Amazon S3 a Amazon Glacier
  • 22.
    Zdeněk Hruška Moravská zemskáknihovna zdenek.hruska@mzk.cz Děkuji za pozornost!
  • 23.
  • 24.