SlideShare a Scribd company logo
1 of 24
Archivematica:
projekty
ve světě
LTP-workshop
Národní archiv ČR, 1. 12. 2015
Zdeněk Hruška
Projekt LTP-pilot
Moravská zemská knihovna
Archivematica – výhody
❏ Nízkonákladové řešení
❏ Open source
❏ Spolupráce s Artefactual Systems
❏ Budována na základě OAIS
❏ Variabilita nasazení
❏ Modularita
❏ Neustálý vývoj
❏ Komunita
Řada projektů v paměťových
institucích severní Ameriky a
západní Evropy.
City of Vancouver Archives
❏1. uživatelé Archivematiky (AM)
❏Městský archiv – příjem dat od úřadů a soukromých
institucích; data z olympijských a paralympijských
her ve Vancouveru 2010 (různé formáty, cca 20 TB).
❏AM - nástroj pro ingest, mikroslužby provádějí:
❏testy na malware
❏kontrola integrity
❏extrakce metadat
❏identifikace, charakterizace a normalizace
formátů
City of Vancouver Archives
❏AIP a DIP postoupeny dále:
AIP -> archivní úložiště
DIP -> AtoM
❏Formátová politika – normalizace dat
do formátů vhodných pro dlouhodobou ochranu.
❏Data v exotických formátech nebo formátech,
nemající vhodnou alternativu jsou ukládány
v původních formátech a LTP probíhá
dle možností.
Simon Fraser University Archives
❏ 2011 – pilotní projekt na otestování AM
❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských
balíků, obrázky a audio
❏ Doporučení k dalšímu rozvoji Archivematicy –
oblast GUI, workflow, dávkového zpracování,
zpracování chyb, správy a systémové administrace
Simon Fraser University Archives
❏ Uchovávání elektronické pošty z e-mailového
klienta Zimbra (cca 10 000 e-mailů)
❏ konverze formátu Zimbra do Maildir:
❏ Zimbra - proprietární X Maildir - jednotlivé zprávy
❏ otagování pomocí Muse – (ne)zpřístupňování zpráv
❏ Repozitář závěrečných prací
❏ AM je zodpovědná pouze za vytváření archivních
balíčků (uložení řešeno pomocí LOCKSS)
Simon Fraser University Archives
❏ Repozitář vědeckých dat – Islandora; LTP řeší AM
+ další systémy
❏ Více instalací AM i AtoMu (pipelines) – import
různých typů dat (AM) a pro různé uživatele
(AtoM)
❏ vlastní dotazovací nástroj AIP Query Tool:
statistiky balíčků AIP (druhy a počty formátů nebo
velikost a počty uložených objektů).
❏ analýza potřeb dalšího rozvoje Archivematicy a
AtoMu
Simon Fraser University Archives
Zdroj: https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
University of British Columbia Library
Spolupráce s Artefactual Systems:
❏ Pilotní projekty, testování AM
❏ Projekt archivování webu a napojení na DSpace
❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP
AIP -> LOCKSS, lokální úložiště
DIP -> AtoM
University of British Columbia Library
Institucionální repozitář (cIRcle):
❏ DSpace - propojený s Archivematicou
❏ Export z DSpace -> import do AM
❏ několik instalací AM (pipelines) - různé druhy dat
❏ Co největší integrace pipelines (propojení s
webovými stránkami univerzity) - rychlost,
jednoduchost, efektivita workflow
Zdroj:
http://diginit.sites.olt.ubc.ca/files/201
2/07/UBCLibrary-
PersistentDigitalCollectionsPlan-
ProjectReportCondensed-1.pdf
Columbia University
2011– 2013 zpracování Archives of the Ford
Foundation - International Fellowships Program
❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000
souborů;
❏ 245 různých formátů souborů (kancelářské dokumenty,
audio a video, databáze, e-maily, web, průzkumy,
rozhovory, statistické zprávy, datasety, …)
❏ dlouhé názvy souborů a souborových cest (více než 260
znaků)
❏ 10 jazyků a 7 nerománských znakových sad (včetně
arabštiny a indštiny)
❏ nedostatek popisných metadat
Columbia University
❏omezený přístup k některým datům:
veřejně dostupná data
interně dostupná data
data s omezením přístupu až do roku 2075
❏Převod formátů na vhodné pro LTP, extrakce dat ze
zip a rar
❏AM pro příjem SIP (přiřazení UUID, virová kontrola,
normalizace názvů souborů, formátová identifikace,
extrakce metadat a generování souborů METS
❏AIP -> uloženo, DIP -> Fedora
Council of Prairie and Pacific
University Libraries – COPPUL
❏ Společné projekty, vyjednávání s dodavateli
softwaru, elektronických databází, …
❏ Zkušenosti se sdílenou archivací dokumentů -
projekt SPAN (Shared Print Archive Network),
distribuce papírových výtisků odborných periodik
❏ Lokální sítě LOCKSS (archivace závěrečných prací,
článků, digitalizované i digital-born dokumenty, …)
❏ Zapojení v původní (globální) LOCKSS síti a
projektu Portico,
Archive-It pro archivaci webu
Council of Prairie and Pacific
University Libraries – COPPUL
❏ 2013 - spolupráce COPPUL a Artefactual Systems.
❏ AM jako služba (Digital Preservation as a Service)
❏ COPPUL - propagace, vstup nových členů a
financování vstupních nákladů.
❏ Artefactual Systems - správa účtů a serverů,
instalace, školení a technická podpora
uživatelů.
❏ Univerzita Britské Kolumbie (EduCloud) -
servery a úložný prostor
Council of Prairie and Pacific
University Libraries – COPPUL
❏ Tři úrovně služby:
❏ bronzová: identifikace a validace, pravidelné
kontroly checksums, 400 GB; 5500 $/rok
❏ stříbrná: + normalizace vstupních dat, uložení
balíčků AIP v zabezpečeném úložišti,
generování PREMIS a METS , 1 TB; 7500 $/rok
❏ zlatá: + generování DIP balíčků a upload do
AtoMu, 2 TB; 12500 $/rok
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Regionální superpočítačové centrum - 5 PB dat na
discích a 100 PB na páskách.
❏ Budování a testování LTP systému, řada open
source nástrojů:
❏ Archivematica, iRODS a Islandora
❏ AM slouží pro příjem dat – identifikace,
charakterizace a normalizace formátů
❏ DIP -> Fedora/Islandora
❏ AIP -> archivní úložiště (iRODS)
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
❏ Administrace dat - propojení Islandory a iRods, AIP
na páskách, DIP uložené online.
❏ Různé druhy daty od partnerských institucí ->
mírná úprava AM, schopnost doplňovat potřebná
metadata do METS v AIP.
❏ ZIB sponzoruje naprogramování re-ingestu balíčku
AIP - úprava/změna metadat, zachování UUID a
existující PREMIS (AM ver. 1.5)
Konrad-Zuse-Zentrum für
Informationstechnik Berlin (ZIB)
Zdroj:
KLINDT, M. a AMERHEIM, K. One core
preservation system for all your data.
No exceptions!
In: iPRES 2015, 2-6.11.2015, Chapel
Hill, USA.
ArchivesDirect
❏ Artefactual Systems + DuraSpace -> DPaaS
❏ říjen 2014 - únor 2015 pilotní projekt AM v
cloudu, vybrané univerzity v USA
❏ veřejně - březen 2015, jako ArchivesDirect
ArchivesDirect
❏ DuraCloud - správa dat a jejich kopií v cloudu
❏ AM - příjem dat, obohacování o metadata a
normalizace
❏ Nepokrývá správu dat na úložišti, neřídí počet ani
umístění kopií, nekontroluje integritu
❏ DuraCloud + AM = pokus o eliminaci slabých
stránek
❏ 9 999 $/rok – 1 instalace AM, školení a trénink,
1TB
❏ Amazon S3 a Amazon Glacier
Zdeněk Hruška
Moravská zemská knihovna
zdenek.hruska@mzk.cz
Děkuji
za pozornost!
Použité zdroje
● Archivematica. COPPUL. COPPUL: Council of Prairie and Pacific University Libraries [online]. 2014 [cit. 2015-03-10].
Dostupné z: http://www.coppul.ca/programs/archivematica
● ARTEFACTUAL SYSTEMS. Simon Fraser University Archives Digital Preservation Strategy: Project report [online]. 2012 [cit.
2015-07-13]. Dostupné z: https://wiki.sfu.ca/departments/archives/images/9/95/ProofConceptReport_20120418.pdf
● ARTEFACTUAL SYSTEMS. University of British Columbia Library Persistent Digital Collections Implementation Plan: Final
project report Summary version. 2012. Dostupné z: http://diginit.sites.olt.ubc.ca/files/2012/07/UBCLibrary-
PersistentDigitalCollectionsPlan-ProjectReportCondensed-1.pdf
● CITY OF VANCOUVER ARCHIVES. City of Vancouver Archives [online]. c2015 [cit. 2015-03-08]. Dostupné z:
http://vancouver.ca/your-government/city-of-vancouver-archives.aspx
● DINGWALL, Glenn. Building a Digital Archives at the City of Vancouver [online]. 2010 [cit. 5. 3. 2015]. Dostupné z:
http://www.interpares.org/display_file.cfm?doc=ip3_canada_dissemination_cs_dingwall_ip3-isym03_2010.pdf
● JORDAN, Mark. Preservation of Digital Theses at SFU [online]. 2012 [cit. 2015-06-03]. Dostupné z:
http://summit.sfu.ca/system/files/iritems1/10884/Preservation%20of%20Digital%20Theses%20-%20Jordan.pdf
● MUMMA, Courtney, Glenn DINGWALL a Sue BIGELOW. A First Look at the Acquisition and Appraisal of the 2010 Olympic
and Paralympic Winter Games Fonds: or, SELECT * FROM VANOC_Records AS Archives WHERE Value=“true”;.Archivaria:
The Journal of Association of Canadian Archivists. 2011, č. 72. Dostupné z:
http://journals.sfu.ca/archivar/index.php/archivaria/article/view/13361/14666
Použité zdroje
● SFU ARCHIVES AND RECORDS MANAGEMENT DEPARTMENT. DIGITAL REPOSITORY PROJECT: Repository Infrastructure
Requirements [online]. 2014 [cit. 2015-08-03]. Dostupné z:
https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
● Shepherding the bits. THE ZUSE INSTITUTE BERLIN. ZIB [online]. c2014 [cit. 2015-03-10]. Dostupné z:
http://www.zib.de/features/shepherding-bits
● SIMON FRASER UNIVERSITY ARCHIVES. Archivematica Architecture [online]. 2014 [cit. 2015-08-25]. Dostupné z:
https://wiki.sfu.ca/departments/archives/images/3/31/ArchivematicaArchitecture.pdf
● SOKOLOVA, Dina a Jane GORJEVSKY. Adding Metadata and Ingesting Large Born-Digital Archives with Archivematica.
2014. Dostupné z:
http://academiccommons.columbia.edu/download/fedora_content/download/ac:180721/CONTENT/AddingMetadata_SA
A_Forum_2014.pdf
● SOKOLOVA, Dina a GORJEVSKY Jane. Infrastructure Development: Multiple Digital Content Types in a Single Collection.
2014. Dostupné z: https://library.columbia.edu/content/dam/librarywebsecure/behind_the_scenes/ford-
ifp/MultipleContentTypes_DP_2014.pdf
● SPROUT, Bronwen a ROMKEY Sarah. UBC Library's Digital Preservation Strategy [online]. 2014 [cit. 9. 3. 2015]. Dostupné z:
http://elk.library.ubc.ca/bitstream/handle/2429/47021/Sprout_B_et_al_UBC_Library_Digital.pdf
● The Archivematica + DuraCloud “Soup-to-Nuts” Preservation Service Launches a Beta Test. DURASPACE. DuraSpace.org
[online]. 2014 [cit. 2015-03-17]. Dostupné z: http://www.duraspace.org/node/2314
● KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015, 2-6.11.2015,
Chapel Hill, USA.

More Related Content

Viewers also liked

Flammability Testing Of Plastics Jinish Doshi
Flammability Testing Of Plastics Jinish DoshiFlammability Testing Of Plastics Jinish Doshi
Flammability Testing Of Plastics Jinish Doshi
Jinish Doshi
 

Viewers also liked (11)

Ainda ontem 1
Ainda ontem 1Ainda ontem 1
Ainda ontem 1
 
A4 hair
A4 hairA4 hair
A4 hair
 
World travel tip
World travel tipWorld travel tip
World travel tip
 
e3t5e.pdf
e3t5e.pdfe3t5e.pdf
e3t5e.pdf
 
El golpe continuo contra Venezuela reactiva el tercer frente de guerra imperi...
El golpe continuo contra Venezuela reactiva el tercer frente de guerra imperi...El golpe continuo contra Venezuela reactiva el tercer frente de guerra imperi...
El golpe continuo contra Venezuela reactiva el tercer frente de guerra imperi...
 
La evolución de las comunicaciones en los últimos
La evolución de las comunicaciones en los últimosLa evolución de las comunicaciones en los últimos
La evolución de las comunicaciones en los últimos
 
Turismo
TurismoTurismo
Turismo
 
2016 pp.5 9_savia_disabilità e tecnologie di comunicazione
2016 pp.5 9_savia_disabilità e tecnologie di comunicazione2016 pp.5 9_savia_disabilità e tecnologie di comunicazione
2016 pp.5 9_savia_disabilità e tecnologie di comunicazione
 
Wordcamp_mcglade_ux_mashups
Wordcamp_mcglade_ux_mashupsWordcamp_mcglade_ux_mashups
Wordcamp_mcglade_ux_mashups
 
Fire & the forest
Fire & the forestFire & the forest
Fire & the forest
 
Flammability Testing Of Plastics Jinish Doshi
Flammability Testing Of Plastics Jinish DoshiFlammability Testing Of Plastics Jinish Doshi
Flammability Testing Of Plastics Jinish Doshi
 

Similar to LTP-workshop

5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
KISK FF MU
 
Digital curation
Digital curationDigital curation
Digital curation
pavluskas
 
Ceska digitalni knihovna
Ceska digitalni knihovnaCeska digitalni knihovna
Ceska digitalni knihovna
martinlhotak
 

Similar to LTP-workshop (20)

Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematica
 
05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx
 
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
 
LTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRLTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CR
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNET
 
02 OAIS.pptx
02 OAIS.pptx02 OAIS.pptx
02 OAIS.pptx
 
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak5. 3. O Digitalizace A  Vedecke  Digitalni Knihovny  Martin Lhotak
5. 3. O Digitalizace A Vedecke Digitalni Knihovny Martin Lhotak
 
DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"
 
02 Funkční model OAIS.pptx
02 Funkční model OAIS.pptx02 Funkční model OAIS.pptx
02 Funkční model OAIS.pptx
 
Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?
 
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
 
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
Digital curation
Digital curationDigital curation
Digital curation
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
Seminar KK II.
Seminar KK II.Seminar KK II.
Seminar KK II.
 
Petr Novák: Šedá literatura ve Státní technické knihovně
Petr Novák: Šedá literatura ve Státní technické knihovně Petr Novák: Šedá literatura ve Státní technické knihovně
Petr Novák: Šedá literatura ve Státní technické knihovně
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentů
 
Ceska digitalni knihovna
Ceska digitalni knihovnaCeska digitalni knihovna
Ceska digitalni knihovna
 

More from MoravskaZemskaKnihovna

Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
MoravskaZemskaKnihovna
 
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
MoravskaZemskaKnihovna
 
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
MoravskaZemskaKnihovna
 

More from MoravskaZemskaKnihovna (20)

Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
Issues and Challenges of Audio Heritage Preservation in Czech Memory Institut...
 
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR.
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR.Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR.
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR.
 
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
Virtualní národní fonotéka - jeden portál, dvě země, společné řešení.
 
Kramerius do kapsy?
Kramerius do kapsy?Kramerius do kapsy?
Kramerius do kapsy?
 
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
Terénními projekty k portálu pro zvukové dokumenty. zn. Spěchá.
 
Digitální knihovna Kramerius a její mobilní aplikace
Digitální knihovna Kramerius a její mobilní aplikaceDigitální knihovna Kramerius a její mobilní aplikace
Digitální knihovna Kramerius a její mobilní aplikace
 
Digi 2015
Digi 2015Digi 2015
Digi 2015
 
IASA 2015: Virtuální národní fonotéka
IASA 2015: Virtuální národní fonotékaIASA 2015: Virtuální národní fonotéka
IASA 2015: Virtuální národní fonotéka
 
Google aplikace ve službách knihovny
Google aplikace ve službách knihovnyGoogle aplikace ve službách knihovny
Google aplikace ve službách knihovny
 
Knihovny.cz
Knihovny.czKnihovny.cz
Knihovny.cz
 
Centrální portál knihoven
Centrální portál knihovenCentrální portál knihoven
Centrální portál knihoven
 
Old maps in Moravian Library
Old maps in Moravian LibraryOld maps in Moravian Library
Old maps in Moravian Library
 
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČRVirtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR
Virtuální národní fonotéka – Sektorový agregátor pro zvukové dokumenty ČR
 
Staremapy.cz jako národní agregátor pro Oldmapsonline
Staremapy.cz jako národní agregátor pro OldmapsonlineStaremapy.cz jako národní agregátor pro Oldmapsonline
Staremapy.cz jako národní agregátor pro Oldmapsonline
 
StaréMapy.cz (TEMAP)
StaréMapy.cz (TEMAP)StaréMapy.cz (TEMAP)
StaréMapy.cz (TEMAP)
 
Rekvalifikační kurz MZK - sociální sítě
Rekvalifikační kurz MZK - sociální sítěRekvalifikační kurz MZK - sociální sítě
Rekvalifikační kurz MZK - sociální sítě
 
10 things about moravian library
10 things about moravian library 10 things about moravian library
10 things about moravian library
 
Historiographie bei den Benediktinern in Raigern – Unterschiede in der histor...
Historiographie bei den Benediktinern in Raigern – Unterschiede in der histor...Historiographie bei den Benediktinern in Raigern – Unterschiede in der histor...
Historiographie bei den Benediktinern in Raigern – Unterschiede in der histor...
 
Romana Macháčková - Rajhradský klášter jako kulturní instituce dnes
Romana Macháčková - Rajhradský klášter jako kulturní instituce dnesRomana Macháčková - Rajhradský klášter jako kulturní instituce dnes
Romana Macháčková - Rajhradský klášter jako kulturní instituce dnes
 
PhDr. Jindra Pavelková - Rajhradská historická knihovna v proměnách času
PhDr. Jindra Pavelková - Rajhradská historická knihovna v proměnách časuPhDr. Jindra Pavelková - Rajhradská historická knihovna v proměnách času
PhDr. Jindra Pavelková - Rajhradská historická knihovna v proměnách času
 

LTP-workshop

  • 1. Archivematica: projekty ve světě LTP-workshop Národní archiv ČR, 1. 12. 2015 Zdeněk Hruška Projekt LTP-pilot Moravská zemská knihovna
  • 2. Archivematica – výhody ❏ Nízkonákladové řešení ❏ Open source ❏ Spolupráce s Artefactual Systems ❏ Budována na základě OAIS ❏ Variabilita nasazení ❏ Modularita ❏ Neustálý vývoj ❏ Komunita Řada projektů v paměťových institucích severní Ameriky a západní Evropy.
  • 3. City of Vancouver Archives ❏1. uživatelé Archivematiky (AM) ❏Městský archiv – příjem dat od úřadů a soukromých institucích; data z olympijských a paralympijských her ve Vancouveru 2010 (různé formáty, cca 20 TB). ❏AM - nástroj pro ingest, mikroslužby provádějí: ❏testy na malware ❏kontrola integrity ❏extrakce metadat ❏identifikace, charakterizace a normalizace formátů
  • 4. City of Vancouver Archives ❏AIP a DIP postoupeny dále: AIP -> archivní úložiště DIP -> AtoM ❏Formátová politika – normalizace dat do formátů vhodných pro dlouhodobou ochranu. ❏Data v exotických formátech nebo formátech, nemající vhodnou alternativu jsou ukládány v původních formátech a LTP probíhá dle možností.
  • 5. Simon Fraser University Archives ❏ 2011 – pilotní projekt na otestování AM ❏ Důraz na SIP -> DIP -> AtoM, formáty kancelářských balíků, obrázky a audio ❏ Doporučení k dalšímu rozvoji Archivematicy – oblast GUI, workflow, dávkového zpracování, zpracování chyb, správy a systémové administrace
  • 6. Simon Fraser University Archives ❏ Uchovávání elektronické pošty z e-mailového klienta Zimbra (cca 10 000 e-mailů) ❏ konverze formátu Zimbra do Maildir: ❏ Zimbra - proprietární X Maildir - jednotlivé zprávy ❏ otagování pomocí Muse – (ne)zpřístupňování zpráv ❏ Repozitář závěrečných prací ❏ AM je zodpovědná pouze za vytváření archivních balíčků (uložení řešeno pomocí LOCKSS)
  • 7. Simon Fraser University Archives ❏ Repozitář vědeckých dat – Islandora; LTP řeší AM + další systémy ❏ Více instalací AM i AtoMu (pipelines) – import různých typů dat (AM) a pro různé uživatele (AtoM) ❏ vlastní dotazovací nástroj AIP Query Tool: statistiky balíčků AIP (druhy a počty formátů nebo velikost a počty uložených objektů). ❏ analýza potřeb dalšího rozvoje Archivematicy a AtoMu
  • 8. Simon Fraser University Archives Zdroj: https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf
  • 9. University of British Columbia Library Spolupráce s Artefactual Systems: ❏ Pilotní projekty, testování AM ❏ Projekt archivování webu a napojení na DSpace ❏ AM slouží pro příjem dat a vytváření SIP, DIP a AIP AIP -> LOCKSS, lokální úložiště DIP -> AtoM
  • 10. University of British Columbia Library Institucionální repozitář (cIRcle): ❏ DSpace - propojený s Archivematicou ❏ Export z DSpace -> import do AM ❏ několik instalací AM (pipelines) - různé druhy dat ❏ Co největší integrace pipelines (propojení s webovými stránkami univerzity) - rychlost, jednoduchost, efektivita workflow
  • 12. Columbia University 2011– 2013 zpracování Archives of the Ford Foundation - International Fellowships Program ❏ Uložení a LTP dat z programu; 3,6 TB dat a 350 000 souborů; ❏ 245 různých formátů souborů (kancelářské dokumenty, audio a video, databáze, e-maily, web, průzkumy, rozhovory, statistické zprávy, datasety, …) ❏ dlouhé názvy souborů a souborových cest (více než 260 znaků) ❏ 10 jazyků a 7 nerománských znakových sad (včetně arabštiny a indštiny) ❏ nedostatek popisných metadat
  • 13. Columbia University ❏omezený přístup k některým datům: veřejně dostupná data interně dostupná data data s omezením přístupu až do roku 2075 ❏Převod formátů na vhodné pro LTP, extrakce dat ze zip a rar ❏AM pro příjem SIP (přiřazení UUID, virová kontrola, normalizace názvů souborů, formátová identifikace, extrakce metadat a generování souborů METS ❏AIP -> uloženo, DIP -> Fedora
  • 14. Council of Prairie and Pacific University Libraries – COPPUL ❏ Společné projekty, vyjednávání s dodavateli softwaru, elektronických databází, … ❏ Zkušenosti se sdílenou archivací dokumentů - projekt SPAN (Shared Print Archive Network), distribuce papírových výtisků odborných periodik ❏ Lokální sítě LOCKSS (archivace závěrečných prací, článků, digitalizované i digital-born dokumenty, …) ❏ Zapojení v původní (globální) LOCKSS síti a projektu Portico, Archive-It pro archivaci webu
  • 15. Council of Prairie and Pacific University Libraries – COPPUL ❏ 2013 - spolupráce COPPUL a Artefactual Systems. ❏ AM jako služba (Digital Preservation as a Service) ❏ COPPUL - propagace, vstup nových členů a financování vstupních nákladů. ❏ Artefactual Systems - správa účtů a serverů, instalace, školení a technická podpora uživatelů. ❏ Univerzita Britské Kolumbie (EduCloud) - servery a úložný prostor
  • 16. Council of Prairie and Pacific University Libraries – COPPUL ❏ Tři úrovně služby: ❏ bronzová: identifikace a validace, pravidelné kontroly checksums, 400 GB; 5500 $/rok ❏ stříbrná: + normalizace vstupních dat, uložení balíčků AIP v zabezpečeném úložišti, generování PREMIS a METS , 1 TB; 7500 $/rok ❏ zlatá: + generování DIP balíčků a upload do AtoMu, 2 TB; 12500 $/rok
  • 17. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) ❏ Regionální superpočítačové centrum - 5 PB dat na discích a 100 PB na páskách. ❏ Budování a testování LTP systému, řada open source nástrojů: ❏ Archivematica, iRODS a Islandora ❏ AM slouží pro příjem dat – identifikace, charakterizace a normalizace formátů ❏ DIP -> Fedora/Islandora ❏ AIP -> archivní úložiště (iRODS)
  • 18. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) ❏ Administrace dat - propojení Islandory a iRods, AIP na páskách, DIP uložené online. ❏ Různé druhy daty od partnerských institucí -> mírná úprava AM, schopnost doplňovat potřebná metadata do METS v AIP. ❏ ZIB sponzoruje naprogramování re-ingestu balíčku AIP - úprava/změna metadat, zachování UUID a existující PREMIS (AM ver. 1.5)
  • 19. Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Zdroj: KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions! In: iPRES 2015, 2-6.11.2015, Chapel Hill, USA.
  • 20. ArchivesDirect ❏ Artefactual Systems + DuraSpace -> DPaaS ❏ říjen 2014 - únor 2015 pilotní projekt AM v cloudu, vybrané univerzity v USA ❏ veřejně - březen 2015, jako ArchivesDirect
  • 21. ArchivesDirect ❏ DuraCloud - správa dat a jejich kopií v cloudu ❏ AM - příjem dat, obohacování o metadata a normalizace ❏ Nepokrývá správu dat na úložišti, neřídí počet ani umístění kopií, nekontroluje integritu ❏ DuraCloud + AM = pokus o eliminaci slabých stránek ❏ 9 999 $/rok – 1 instalace AM, školení a trénink, 1TB ❏ Amazon S3 a Amazon Glacier
  • 22. Zdeněk Hruška Moravská zemská knihovna zdenek.hruska@mzk.cz Děkuji za pozornost!
  • 23. Použité zdroje ● Archivematica. COPPUL. COPPUL: Council of Prairie and Pacific University Libraries [online]. 2014 [cit. 2015-03-10]. Dostupné z: http://www.coppul.ca/programs/archivematica ● ARTEFACTUAL SYSTEMS. Simon Fraser University Archives Digital Preservation Strategy: Project report [online]. 2012 [cit. 2015-07-13]. Dostupné z: https://wiki.sfu.ca/departments/archives/images/9/95/ProofConceptReport_20120418.pdf ● ARTEFACTUAL SYSTEMS. University of British Columbia Library Persistent Digital Collections Implementation Plan: Final project report Summary version. 2012. Dostupné z: http://diginit.sites.olt.ubc.ca/files/2012/07/UBCLibrary- PersistentDigitalCollectionsPlan-ProjectReportCondensed-1.pdf ● CITY OF VANCOUVER ARCHIVES. City of Vancouver Archives [online]. c2015 [cit. 2015-03-08]. Dostupné z: http://vancouver.ca/your-government/city-of-vancouver-archives.aspx ● DINGWALL, Glenn. Building a Digital Archives at the City of Vancouver [online]. 2010 [cit. 5. 3. 2015]. Dostupné z: http://www.interpares.org/display_file.cfm?doc=ip3_canada_dissemination_cs_dingwall_ip3-isym03_2010.pdf ● JORDAN, Mark. Preservation of Digital Theses at SFU [online]. 2012 [cit. 2015-06-03]. Dostupné z: http://summit.sfu.ca/system/files/iritems1/10884/Preservation%20of%20Digital%20Theses%20-%20Jordan.pdf ● MUMMA, Courtney, Glenn DINGWALL a Sue BIGELOW. A First Look at the Acquisition and Appraisal of the 2010 Olympic and Paralympic Winter Games Fonds: or, SELECT * FROM VANOC_Records AS Archives WHERE Value=“true”;.Archivaria: The Journal of Association of Canadian Archivists. 2011, č. 72. Dostupné z: http://journals.sfu.ca/archivar/index.php/archivaria/article/view/13361/14666
  • 24. Použité zdroje ● SFU ARCHIVES AND RECORDS MANAGEMENT DEPARTMENT. DIGITAL REPOSITORY PROJECT: Repository Infrastructure Requirements [online]. 2014 [cit. 2015-08-03]. Dostupné z: https://wiki.sfu.ca/departments/archives/images/e/e5/RepositoryInfrastructureRequirements.pdf ● Shepherding the bits. THE ZUSE INSTITUTE BERLIN. ZIB [online]. c2014 [cit. 2015-03-10]. Dostupné z: http://www.zib.de/features/shepherding-bits ● SIMON FRASER UNIVERSITY ARCHIVES. Archivematica Architecture [online]. 2014 [cit. 2015-08-25]. Dostupné z: https://wiki.sfu.ca/departments/archives/images/3/31/ArchivematicaArchitecture.pdf ● SOKOLOVA, Dina a Jane GORJEVSKY. Adding Metadata and Ingesting Large Born-Digital Archives with Archivematica. 2014. Dostupné z: http://academiccommons.columbia.edu/download/fedora_content/download/ac:180721/CONTENT/AddingMetadata_SA A_Forum_2014.pdf ● SOKOLOVA, Dina a GORJEVSKY Jane. Infrastructure Development: Multiple Digital Content Types in a Single Collection. 2014. Dostupné z: https://library.columbia.edu/content/dam/librarywebsecure/behind_the_scenes/ford- ifp/MultipleContentTypes_DP_2014.pdf ● SPROUT, Bronwen a ROMKEY Sarah. UBC Library's Digital Preservation Strategy [online]. 2014 [cit. 9. 3. 2015]. Dostupné z: http://elk.library.ubc.ca/bitstream/handle/2429/47021/Sprout_B_et_al_UBC_Library_Digital.pdf ● The Archivematica + DuraCloud “Soup-to-Nuts” Preservation Service Launches a Beta Test. DURASPACE. DuraSpace.org [online]. 2014 [cit. 2015-03-17]. Dostupné z: http://www.duraspace.org/node/2314 ● KLINDT, M. a AMERHEIM, K. One core preservation system for all your data. No exceptions!, In iPRES 2015, 2-6.11.2015, Chapel Hill, USA.