Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Zdeněk Hruška - Archivematica a projekty ve světě

983 views

Published on

Prezentace nabízí přehled vybraných projektů ze zahraničí, které ukazují možné využití systému Archivematica ve workflow jednotlivých institucí.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Zdeněk Hruška - Archivematica a projekty ve světě

  1. 1. Archivematica: projekty ve světě LTP-workshop Národní archiv ČR, 1. 12. 2015 Zdeněk Hruška Projekt LTP-pilot Moravská zemská knihovna
  2. 2. Archivematica – výhody ❏ Nízkonákladové řešení ❏ Open source ❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS ❏ Variabilita nasazení ❏ Modularita ❏ Neustálý vývoj ❏ Komunita Řada projektů v paměťových institucích severní Ameriky a západní Evropy.
  3. 3. City of Vancouver Archives ❏ 1. uživatelé Archivematiky (AM) ❏ Městský archiv – příjem dat od úřadů a soukromých institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB). ❏ AM - nástroj pro ingest, mikroslužby provádějí: ❏ testy na malware ❏ kontrola integrity ❏ extrakce metadat ❏ identifikace, charakterizace a normalizace formátů
  4. 4. City of Vancouver Archives ❏ AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM ❏ Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu. ❏ Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány v původních formátech a LTP probíhá dle možností.
  5. 5. Simon Fraser University Archives ❏ 2011 – pilotní projekt na otestování AM ❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio ❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace
  6. 6. Simon Fraser University Archives ❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů) ❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy ❏ otagování pomocí Muse – (ne)zpřístupňování zpráv ❏ Repozitář závěrečných prací ❏ AM je zodpovědná pouze za vytváření archivních balíčků (uložení řešeno pomocí LOCKSS)
  7. 7. Simon Fraser University Archives ❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy ❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM) ❏ vlastní dotazovací nástroj AIP Query Tool: statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů). ❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu
  8. 8. Simon Fraser University Archives https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
  9. 9. University of British Columbia Library Spolupráce s Artefactual Systems: ❏ Pilotní projekty, testování AM ❏ Projekt archivování webu a napojení na DSpace ❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložiště DIP -> AtoM
  10. 10. University of British Columbia Library Institucionální repozitář (cIRcle): ❏ DSpace - propojený s Archivematicou ❏ Export z DSpace -> import do AM ❏ několik instalací AM (pipelines) - různé druhy dat ❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow
  11. 11. http://diginit.sites.olt.ubc. ca/files/2012/07/UBCLibrary- PersistentDigitalCollectionsPlan- ProjectReportCondensed-1.pdf
  12. 12. Columbia University 2011– 2013 zpracování Archives of the Ford Foundation - International Fellowships Program ❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů; ❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …) ❏ dlouhé názvy souborů a souborových cest (více než 260 znaků) ❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny) ❏ nedostatek popisných metadat
  13. 13. Columbia University ❏ omezený přístup k některým datům: veřejně dostupná data interně dostupná data data s omezením přístupu až do roku 2075 ❏ Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar ❏ AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS ❏ AIP -> uloženo, DIP -> Fedora
  14. 14. Council of Prairie and Pacific University Libraries – COPPUL ❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, … ❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik ❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …) ❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico, Archive-It pro archivaci webu
  15. 15. Council of Prairie and Pacific University Libraries – COPPUL ❏ 2013 - spolupráce COPPUL a Artefactual Systems. ❏ AM jako služba (Digital Preservation as a Service) ❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů. ❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů. ❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor
  16. 16. Council of Prairie and Pacific University Libraries – COPPUL ❏ Tři úrovně služby: ❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok ❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok ❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok
  17. 17. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) ❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách. ❏ Budování a testování LTP systému, řada open source nástrojů: ❏ Archivematica, iRODS a Islandora ❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů ❏ DIP -> Fedora/Islandora ❏ AIP -> archivní úložiště (iRODS)
  18. 18. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) ❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online. ❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP. ❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)
  19. 19. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
  20. 20. ArchivesDirect ❏ Artefactual Systems + DuraSpace -> DPaaS ❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA ❏ veřejně - březen 2015, jako ArchivesDirect
  21. 21. ArchivesDirect ❏ DuraCloud - správa dat a jejich kopií v cloudu ❏ AM - příjem dat, obohacování o metadata a normalizace ❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu ❏ DuraCloud + AM = pokus o eliminaci slabých stránek ❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB ❏ Amazon S3 a Amazon Glacier
  22. 22. Zdeněk Hruška Moravská zemská knihovna zdenek.hruska@mzk.cz Děkuji za pozornost!
  23. 23. Použité zdroje ● ● ● ● ● ● ● č
  24. 24. Použité zdroje ● ● ● ● ● ● ●

×