Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Vlastimil Krejčíř - Systémový pohled na software Archivematica

988 views

Published on

Systémový pohled na Archivematicu - systémová architektura, hardwarové nároky, vstup a zpracování dat, napojení na externí systémy.

Published in: Software
  • Be the first to comment

  • Be the first to like this

Vlastimil Krejčíř - Systémový pohled na software Archivematica

  1. 1. Systémový pohled na open-source software Archivematica Vlastimil Krejčíř Ústav výpočetní techniky Masarykovy univerzity Projekt LTP PILOT Masarykova univerzitaV Praze dne 1.12.2015
  2. 2. Obsah ●Architektura systému Archivematica ●Nároky (hw, lidé, doba zpracování) ●Vstup dat, napojení na externí systémy ●Zhodnocení + zkušenosti
  3. 3. Architektura systému I. Modulární (z hlediska uživatele): ● Archivematica (jádro systému) ● Storage Service (vstup a výstup, ukládání dat) ● FPR (formátové registry) ● AtoM (volitelně)
  4. 4. Architektura systému II. Modulární (z hlediska systémové architektury): ● řídící jádro (MCP server) ○ Gearman (řízení spouštění procesů) ○ MCP klient ○ MySQL (procesní databáze, logy) ● úložiště (Storage Service) ○ lokální disky ○ síťové disky ○ cloudové systémy ● Dashboard (webové uživatelské rozhraní) ● API
  5. 5. Systémová architektura III.
  6. 6. Nároky (systém, lidé) ● hardware ○ doporučený viz dokumentace (procesor i5 dual core, 8 GB pamět) ■ procesorový výkon klíčový ○ dostatek diskového prostoru ■ nejméně objem vstupu krát 3 ■ ale např. u videa nárust 10násobně ● lidé ○ systémový správce (správa a nastavení, Linux) - základ ○ programátor (Python, bash) - pro speciálnější nastavení
  7. 7. Nároky (doba zpracování dat) Doba zpracování vstupních dat variabilní: ● typ a objem vstupních data ● nastavené kroky workflow ● velikost balíku vstupních dat Řádově minuty u jednotlivých menších souborů (dokumenty, fotografie) až hodiny u větších balíků (řádově GB) nebo dny u zpracování velkých objemů (desítky GB).
  8. 8. Vstup dat ● Ruční vkládání dat ○ webové rozhraní Dashboard ○ heterogenní vstup (nutný výběr správcem) ○ ruční doplňování metadat ● Strojové vkládání a zpracování ○ využití API ○ připravená data ○ export z externích systémů
  9. 9. Automatizace vstupu ● přenos a příprava dat ● REST API (špatně dokumentované) ○ formát JSON ○ opakované sledování stavu zpracování ○ nekompletní z hlediska funkcionality ○ dostačují pro odladěný homogenní vstup
  10. 10. Vstupní formáty ● BagIT ● DSpace ○ export ze systému DSpace ● Disk Image ○ obraz disku (např. CD nebo DVD) ● Standard ○ libovolná data ○ možnost speciálního vstupu ■ metadata ■ kontrolní součty ■ struktury
  11. 11. Napojení externích systémů ● AtoM ○ přímá integrace ○ samostatný systém ● Archivist’s Toolkit ○ pouze metadata ● CONTENTdm ○ speciální DIP (přenos ručně) ● Islandora/Fedora (modul Archidora) ○ beta verze (samostatná větev vývoje) ● DSpace ○ AIP AM nekompatibilní s AIP DSpace ● vlastní (custom) kód pro jiné systémy
  12. 12. Zhodnocení: zápory systému Zápory: ● rapidní vývoj ● malá robustnost ● špatná (či neúplná) dokumentace ● chyby v software ● neúplné REST API ● nepružné ovládání přes Dashboard (a nutnost jej používat) ● customizace.
  13. 13. Zhodnocení: klady systému Klady: ● dobře navržená architektura ● Formátový registr FPR a jeho funkce ● rychlý vývoj ● systém funguje na odladěných workflow ● potenciál do budoucna.
  14. 14. Závěr Archivematica je systém s dobrým potenciálem do budoucna. Z hlediska systémové správy není tento systém v řadě aspektů dostatečně dotažený a trpí řadou chyb, které však lze s omezeními eleminovat. Provoz vyžaduje vyžaduje z hlediska systémového správce větší úsilí, než by bylo u vyladěného systému třeba. URL: https://archivematica.org/
  15. 15. Děkuji za pozornost! Vlastimil Krejčíř krejcir@ics.muni.cz Národní archiv V Praze dne 1.12.2015 DOTAZY?

×