SlideShare a Scribd company logo
Systémový pohled
na open-source
software
Archivematica
Vlastimil Krejčíř
Ústav výpočetní techniky Masarykovy univerzity
Projekt LTP PILOT
Masarykova univerzitaV Praze dne 1.12.2015
Obsah
●Architektura systému Archivematica
●Nároky (hw, lidé, doba zpracování)
●Vstup dat, napojení na externí systémy
●Zhodnocení + zkušenosti
Architektura systému I.
Modulární (z hlediska uživatele):
● Archivematica (jádro systému)
● Storage Service (vstup a výstup, ukládání dat)
● FPR (formátové registry)
● AtoM (volitelně)
Architektura systému II.
Modulární (z hlediska systémové architektury):
● řídící jádro (MCP server)
○ Gearman (řízení spouštění procesů)
○ MCP klient
○ MySQL (procesní databáze, logy)
● úložiště (Storage Service)
○ lokální disky
○ síťové disky
○ cloudové systémy
● Dashboard (webové uživatelské rozhraní)
● API
Systémová architektura III.
Nároky (systém, lidé)
● hardware
○ doporučený viz dokumentace (procesor i5 dual core, 8 GB pamět)
■ procesorový výkon klíčový
○ dostatek diskového prostoru
■ nejméně objem vstupu krát 3
■ ale např. u videa nárust 10násobně
● lidé
○ systémový správce (správa a nastavení, Linux) -
základ
○ programátor (Python, bash) - pro speciálnější
nastavení
Nároky (doba zpracování dat)
Doba zpracování vstupních dat variabilní:
● typ a objem vstupních data
● nastavené kroky workflow
● velikost balíku vstupních dat
Řádově minuty u jednotlivých menších souborů
(dokumenty, fotografie) až hodiny u větších balíků (řádově
GB) nebo dny u zpracování velkých objemů (desítky GB).
Vstup dat
● Ruční vkládání dat
○ webové rozhraní Dashboard
○ heterogenní vstup (nutný výběr správcem)
○ ruční doplňování metadat
● Strojové vkládání a zpracování
○ využití API
○ připravená data
○ export z externích systémů
Automatizace vstupu
● přenos a příprava dat
● REST API (špatně dokumentované)
○ formát JSON
○ opakované sledování stavu zpracování
○ nekompletní z hlediska funkcionality
○ dostačují pro odladěný homogenní vstup
Vstupní formáty
● BagIT
● DSpace
○ export ze systému DSpace
● Disk Image
○ obraz disku (např. CD nebo DVD)
● Standard
○ libovolná data
○ možnost speciálního vstupu
■ metadata
■ kontrolní součty
■ struktury
Napojení externích systémů
● AtoM
○ přímá integrace
○ samostatný systém
● Archivist’s Toolkit
○ pouze metadata
● CONTENTdm
○ speciální DIP (přenos ručně)
● Islandora/Fedora (modul Archidora)
○ beta verze (samostatná větev vývoje)
● DSpace
○ AIP AM nekompatibilní s AIP DSpace
● vlastní (custom) kód pro jiné systémy
Zhodnocení: zápory systému
Zápory:
● rapidní vývoj
● malá robustnost
● špatná (či neúplná) dokumentace
● chyby v software
● neúplné REST API
● nepružné ovládání přes Dashboard (a nutnost jej
používat)
● customizace.
Zhodnocení: klady systému
Klady:
● dobře navržená architektura
● Formátový registr FPR a jeho funkce
● rychlý vývoj
● systém funguje na odladěných workflow
● potenciál do budoucna.
Závěr
Archivematica je systém s dobrým potenciálem do
budoucna.
Z hlediska systémové správy není tento systém v řadě
aspektů dostatečně dotažený a trpí řadou chyb, které však
lze s omezeními eleminovat. Provoz vyžaduje vyžaduje z
hlediska systémového správce větší úsilí, než by bylo u
vyladěného systému třeba.
URL: https://archivematica.org/
Děkuji za pozornost!
Vlastimil Krejčíř
krejcir@ics.muni.cz
Národní archiv
V Praze dne 1.12.2015
DOTAZY?

More Related Content

What's hot

Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematica
dp-blog-cz
 
Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?
dp-blog-cz
 
Matlanek 2007 ids11
Matlanek 2007 ids11Matlanek 2007 ids11
Matlanek 2007 ids11
Jiří Kiml
 
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
dp-blog-cz
 
RabbitMQ a ElasticSearch v Previu
RabbitMQ a ElasticSearch v PreviuRabbitMQ a ElasticSearch v Previu
RabbitMQ a ElasticSearch v Previu
Péhápkaři
 
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
dp-blog-cz
 

What's hot (6)

Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematica
 
Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?Identifikace formátů: Jednorázový nebo opakovaný proces?
Identifikace formátů: Jednorázový nebo opakovaný proces?
 
Matlanek 2007 ids11
Matlanek 2007 ids11Matlanek 2007 ids11
Matlanek 2007 ids11
 
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
Libor Coufal - Australská národní knihovna 2 - přednáška Praha 22.3.2017
 
RabbitMQ a ElasticSearch v Previu
RabbitMQ a ElasticSearch v PreviuRabbitMQ a ElasticSearch v Previu
RabbitMQ a ElasticSearch v Previu
 
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...Jan Hutař - Dlouhodobá ochrana digitálních informací  v Národním archivu na N...
Jan Hutař - Dlouhodobá ochrana digitálních informací v Národním archivu na N...
 

Similar to Vlastimil Krejčíř - Systémový pohled na software Archivematica

Implementace systemu HIPS
Implementace systemu HIPSImplementace systemu HIPS
Implementace systemu HIPS
Security Session
 
Základy technického vybavení počítačů
Základy technického vybavení počítačůZáklady technického vybavení počítačů
Základy technického vybavení počítačůMichal Černý
 
Zranitelnosti ovladačů jádra Windows v praxi
Zranitelnosti ovladačů jádra Windows v praxiZranitelnosti ovladačů jádra Windows v praxi
Zranitelnosti ovladačů jádra Windows v praxi
Security Session
 
Ondřej Hlaváček: Životní cyklus featury
Ondřej Hlaváček: Životní cyklus featuryOndřej Hlaváček: Životní cyklus featury
Ondřej Hlaváček: Životní cyklus featury
Develcz
 
Bioinformatics course - lesson 2
Bioinformatics course - lesson 2Bioinformatics course - lesson 2
Bioinformatics course - lesson 2Jan Paces
 
Slovak Sun Training Day 2010 - DTrace
Slovak Sun Training Day 2010 - DTraceSlovak Sun Training Day 2010 - DTrace
Slovak Sun Training Day 2010 - DTrace
Martin Cerveny
 
Slovak Sun Training Day 2010 - OpenSolaris
Slovak Sun Training Day 2010 - OpenSolarisSlovak Sun Training Day 2010 - OpenSolaris
Slovak Sun Training Day 2010 - OpenSolaris
Martin Cerveny
 
Hacknutý Drupal web. A co teď?
Hacknutý Drupal web. A co teď?Hacknutý Drupal web. A co teď?
Hacknutý Drupal web. A co teď?
Radim Klaška
 
Tipy a triky, best practices, deployment, testování
Tipy a triky, best practices, deployment, testováníTipy a triky, best practices, deployment, testování
Tipy a triky, best practices, deployment, testování
Radim Klaška
 
CZNIC: Správa internetu, routing a IPv6
CZNIC: Správa internetu, routing a IPv6CZNIC: Správa internetu, routing a IPv6
CZNIC: Správa internetu, routing a IPv6
Tomáš Holas
 
Jak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache DerbyJak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache Derby
Lukáš Petrlík
 
Produktová prezentace - TiCtOG
Produktová prezentace - TiCtOGProduktová prezentace - TiCtOG
Produktová prezentace - TiCtOG
tomandr
 
Čtvrtkon #98 - Sentry micro talk
Čtvrtkon #98 - Sentry micro talkČtvrtkon #98 - Sentry micro talk
Čtvrtkon #98 - Sentry micro talk
Martin Hlaváč
 
Před čím vás Nette ani Symfony neochrání
Před čím vás Nette ani Symfony neochráníPřed čím vás Nette ani Symfony neochrání
Před čím vás Nette ani Symfony neochrání
Filip Procházka
 
Czech Oracle Solaris Administrators Day 2011 - DTrace
Czech Oracle Solaris Administrators Day 2011 - DTrace Czech Oracle Solaris Administrators Day 2011 - DTrace
Czech Oracle Solaris Administrators Day 2011 - DTrace
Martin Cerveny
 
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
Develcz
 
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS SolarisOracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Martin Cerveny
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
MarketingArrowECS_CZ
 
Možnosti databázové komprese
Možnosti databázové kompreseMožnosti databázové komprese
Možnosti databázové komprese
MarketingArrowECS_CZ
 
06 Cvičení.pptx
06 Cvičení.pptx06 Cvičení.pptx
06 Cvičení.pptx
MagdalnaBohuslavov
 

Similar to Vlastimil Krejčíř - Systémový pohled na software Archivematica (20)

Implementace systemu HIPS
Implementace systemu HIPSImplementace systemu HIPS
Implementace systemu HIPS
 
Základy technického vybavení počítačů
Základy technického vybavení počítačůZáklady technického vybavení počítačů
Základy technického vybavení počítačů
 
Zranitelnosti ovladačů jádra Windows v praxi
Zranitelnosti ovladačů jádra Windows v praxiZranitelnosti ovladačů jádra Windows v praxi
Zranitelnosti ovladačů jádra Windows v praxi
 
Ondřej Hlaváček: Životní cyklus featury
Ondřej Hlaváček: Životní cyklus featuryOndřej Hlaváček: Životní cyklus featury
Ondřej Hlaváček: Životní cyklus featury
 
Bioinformatics course - lesson 2
Bioinformatics course - lesson 2Bioinformatics course - lesson 2
Bioinformatics course - lesson 2
 
Slovak Sun Training Day 2010 - DTrace
Slovak Sun Training Day 2010 - DTraceSlovak Sun Training Day 2010 - DTrace
Slovak Sun Training Day 2010 - DTrace
 
Slovak Sun Training Day 2010 - OpenSolaris
Slovak Sun Training Day 2010 - OpenSolarisSlovak Sun Training Day 2010 - OpenSolaris
Slovak Sun Training Day 2010 - OpenSolaris
 
Hacknutý Drupal web. A co teď?
Hacknutý Drupal web. A co teď?Hacknutý Drupal web. A co teď?
Hacknutý Drupal web. A co teď?
 
Tipy a triky, best practices, deployment, testování
Tipy a triky, best practices, deployment, testováníTipy a triky, best practices, deployment, testování
Tipy a triky, best practices, deployment, testování
 
CZNIC: Správa internetu, routing a IPv6
CZNIC: Správa internetu, routing a IPv6CZNIC: Správa internetu, routing a IPv6
CZNIC: Správa internetu, routing a IPv6
 
Jak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache DerbyJak jsme si vybrali Apache Derby
Jak jsme si vybrali Apache Derby
 
Produktová prezentace - TiCtOG
Produktová prezentace - TiCtOGProduktová prezentace - TiCtOG
Produktová prezentace - TiCtOG
 
Čtvrtkon #98 - Sentry micro talk
Čtvrtkon #98 - Sentry micro talkČtvrtkon #98 - Sentry micro talk
Čtvrtkon #98 - Sentry micro talk
 
Před čím vás Nette ani Symfony neochrání
Před čím vás Nette ani Symfony neochráníPřed čím vás Nette ani Symfony neochrání
Před čím vás Nette ani Symfony neochrání
 
Czech Oracle Solaris Administrators Day 2011 - DTrace
Czech Oracle Solaris Administrators Day 2011 - DTrace Czech Oracle Solaris Administrators Day 2011 - DTrace
Czech Oracle Solaris Administrators Day 2011 - DTrace
 
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
Patrick Zandl: Open source software, hardware, 3D tiskárny a tvrdý business -...
 
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS SolarisOracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
 
Možnosti databázové komprese
Možnosti databázové kompreseMožnosti databázové komprese
Možnosti databázové komprese
 
06 Cvičení.pptx
06 Cvičení.pptx06 Cvičení.pptx
06 Cvičení.pptx
 

Vlastimil Krejčíř - Systémový pohled na software Archivematica

  • 1. Systémový pohled na open-source software Archivematica Vlastimil Krejčíř Ústav výpočetní techniky Masarykovy univerzity Projekt LTP PILOT Masarykova univerzitaV Praze dne 1.12.2015
  • 2. Obsah ●Architektura systému Archivematica ●Nároky (hw, lidé, doba zpracování) ●Vstup dat, napojení na externí systémy ●Zhodnocení + zkušenosti
  • 3. Architektura systému I. Modulární (z hlediska uživatele): ● Archivematica (jádro systému) ● Storage Service (vstup a výstup, ukládání dat) ● FPR (formátové registry) ● AtoM (volitelně)
  • 4. Architektura systému II. Modulární (z hlediska systémové architektury): ● řídící jádro (MCP server) ○ Gearman (řízení spouštění procesů) ○ MCP klient ○ MySQL (procesní databáze, logy) ● úložiště (Storage Service) ○ lokální disky ○ síťové disky ○ cloudové systémy ● Dashboard (webové uživatelské rozhraní) ● API
  • 6. Nároky (systém, lidé) ● hardware ○ doporučený viz dokumentace (procesor i5 dual core, 8 GB pamět) ■ procesorový výkon klíčový ○ dostatek diskového prostoru ■ nejméně objem vstupu krát 3 ■ ale např. u videa nárust 10násobně ● lidé ○ systémový správce (správa a nastavení, Linux) - základ ○ programátor (Python, bash) - pro speciálnější nastavení
  • 7. Nároky (doba zpracování dat) Doba zpracování vstupních dat variabilní: ● typ a objem vstupních data ● nastavené kroky workflow ● velikost balíku vstupních dat Řádově minuty u jednotlivých menších souborů (dokumenty, fotografie) až hodiny u větších balíků (řádově GB) nebo dny u zpracování velkých objemů (desítky GB).
  • 8. Vstup dat ● Ruční vkládání dat ○ webové rozhraní Dashboard ○ heterogenní vstup (nutný výběr správcem) ○ ruční doplňování metadat ● Strojové vkládání a zpracování ○ využití API ○ připravená data ○ export z externích systémů
  • 9. Automatizace vstupu ● přenos a příprava dat ● REST API (špatně dokumentované) ○ formát JSON ○ opakované sledování stavu zpracování ○ nekompletní z hlediska funkcionality ○ dostačují pro odladěný homogenní vstup
  • 10. Vstupní formáty ● BagIT ● DSpace ○ export ze systému DSpace ● Disk Image ○ obraz disku (např. CD nebo DVD) ● Standard ○ libovolná data ○ možnost speciálního vstupu ■ metadata ■ kontrolní součty ■ struktury
  • 11. Napojení externích systémů ● AtoM ○ přímá integrace ○ samostatný systém ● Archivist’s Toolkit ○ pouze metadata ● CONTENTdm ○ speciální DIP (přenos ručně) ● Islandora/Fedora (modul Archidora) ○ beta verze (samostatná větev vývoje) ● DSpace ○ AIP AM nekompatibilní s AIP DSpace ● vlastní (custom) kód pro jiné systémy
  • 12. Zhodnocení: zápory systému Zápory: ● rapidní vývoj ● malá robustnost ● špatná (či neúplná) dokumentace ● chyby v software ● neúplné REST API ● nepružné ovládání přes Dashboard (a nutnost jej používat) ● customizace.
  • 13. Zhodnocení: klady systému Klady: ● dobře navržená architektura ● Formátový registr FPR a jeho funkce ● rychlý vývoj ● systém funguje na odladěných workflow ● potenciál do budoucna.
  • 14. Závěr Archivematica je systém s dobrým potenciálem do budoucna. Z hlediska systémové správy není tento systém v řadě aspektů dostatečně dotažený a trpí řadou chyb, které však lze s omezeními eleminovat. Provoz vyžaduje vyžaduje z hlediska systémového správce větší úsilí, než by bylo u vyladěného systému třeba. URL: https://archivematica.org/
  • 15. Děkuji za pozornost! Vlastimil Krejčíř krejcir@ics.muni.cz Národní archiv V Praze dne 1.12.2015 DOTAZY?