Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

1,140 views

Published on

Prezentace technologického řešení LTP systému v Národní knihovně ČR, jeho jednotlivých částí, slabých i silných stránek.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

  1. 1. Řešení pro dlouhodobou archivaci v Národní knihovně ČR Šárka Hálečková a Tomáš Burda
  2. 2. Správa LTP • obsahový správce • technický správce • spolupráce s Oddělením pro standardy
  3. 3. Osnova přednášky • LTP jako součást projektu NDK • hlavní komponenty subsystému LTP  LTP Safe  Transformační modul a jeho výkonné uzly (tzv. „muly“)  modul úložiště – IBM information archive
  4. 4. Osnova přednášky • zabezpečení a kontroly • technické detaily • postřehy z praxe, silné a slabé stránky zvoleného řešení • diskuse
  5. 5. LTP v rámci NDK • LTP jako součást projektu NDK  sdílí hardware (přináší určité problémy) • sdílení výkonu • sdílení chyb • sdílení diskových polí  má svou míru autonomie • samostatná instance Safe • samostatné LTP WF (včetně samostatné instance Transformačního modulu)
  6. 6. NDK = LTP + digitalizační WF NDK LTP Digitalizační WF LTP Safe LTP WF = uživatelské rozhraní AiP Safe, výkonná část Logica/CGI
  7. 7. LTP WF WF SAFE LTP SAFE Transformační modul Mule ESB IBM information archive
  8. 8. LTP Safe • systém pro správu balíčků • transkripce při ingestu (těží z hlavních i vedlejších mets) • relační databáze (SQL) -> svižná reakce • vlastní LTP WF • přístup k datům – metadata z DB, metadata a celé balíčky z pásky • verzování balíčků • vztažení balíčků k různým dalším informacím – dodavatelé, verze standardů
  9. 9. LTP Safe • automatické i manuální kontroly • správa různého typu exportů – export DIP – export do LTP WF • přehled o IE • sledování akcí vykonaných nad balíčkem • sledování propojení příbuzných IE (vícesvazky, periodika) • deaktivace balíčků • automatické statistiky (možnost vlastních)
  10. 10. LTP Safe
  11. 11. Transformační modul • společný pro WF Safe a LTP Safe (2 instance) • vykonává akce nad balíčky • skládá se z většího množství vzájemně integrovaných opensource komponent  mule ESB (Master, Slave)  procesní plány (Drools Guvnor)  JBPM (Java Business Process Management)  Task Handler
  12. 12. Transformační modul JBoss MQ Master Mule Mule Slave Mule Slave Mule Slave Mule Slave Mule Slave Safe Aplikační server (správa) Fronty úkolů (message queue) Hlavní mula komunikuje se Safe a zařazuje/vyzvedává úkoly do/z MQ
  13. 13. Mule ESB • umožňuje vykonávat operace nad balíčky distribuovaným způsobem • škálovatelnost (možnost rozšiřovat podle potřeby) • muly různě výkonné • muly virtuální a fyzické (pro časově a výpočetně náročnější operace) • postaveno kompletně na opensource technologiích • muly můžeme programovat pomocí „procesních plánů“ (předpisů, jak se mají jednotlivé muly chovat)
  14. 14. Mule ESB • Mule Master komunikuje s workflow a zařazuje úkoly do front MQ (plánuje operace, které mají být vykonány nad jednotlivými rozpracovanými balíčky) • z MQ si berou Mule Slave úkoly podle svých možností • vykonávané procesy si muly zapisují do logů (zpětná vazba pro správce, např. při řešení chyb)
  15. 15. IBM Information archive • systém pro vlastní uložení dat • komunikace s LTP • ukládání na pásky • důvěryhodný archiv • autonomní systém
  16. 16. Zabezpečení – řešení v NK • 3 sady pásek  1x RW – ukládá se ihned v Hostivaři  2x WORM – uložení se zpožděním • 1x uložení v Klementinum • 1x odvoz do MZK • s RW se pracuje, další dvě jsou záložní • systém kontrol  kontrola integrity dat → namátková denní automatická kontrola proti RW, spouští se od 2:00 do 2:30  kontrola pásek prostřednictvím IBM infrmation archive (kontrola i WORM pásek), 1x za 2 roky  export DIP s validací vyvolaný správcem LTP (např. po opravě)
  17. 17. Technický (IT) pohled na IBM IA • zálohování vs. archivace • transparentnost vůči aplikační vrstvě • použitá média (obecně, ve vztahu k NDK) • životní cyklus  uložených informací  médií (kontroly)  LTO mechanik  produktu jako takového (IA vs. SSAM) • integrace, logické rozdělení (postřehy z praxe) • další rozvoj (disky, HA, PoC ... ?)
  18. 18. Technický (IT) pohled na NDK TM • CDM  pracovní prostor  BAGIT, CDMID založený na UUID  rozklad zátěže na bázi HASH • použitá rozhraní, unikátní způsob integrace open a closed source  export/import balíčků  služby na straně AiP Safe (webservices a jejich obsluha, podpisy)  procesy na straně Transformačního modulu (parametry procesu, utility a jejich kategorie)  synchnonní/asynchronní utility (komponenty BPMN)  externí systémy (ALEPH NK/MZK, K4, registr digitaizace, resolver URN:NBN)  vývojové prostředí (SVN, JENKINS) • procesní konzole, řízení linky, řešení chybových stavů
  19. 19. Modelování procesů NDK TM (ukázka)
  20. 20. Postřehy z praxe (slabé stránky) • sdílení chyb s digitalizačním WF (zahlcení, odstávky) • nedostatečná aktualizace šablon vůči vývoji standardů • case-sensitivita • externí dodavatelé (chybně provázané informace ve vedlejších mets → do LTP Safe se nenačítají informace o zpracování vazba event-agent-object) • chyby v zanoření úrovně přílohy (příloha čísla, příloha ročníku u periodik → následné problémy při zpřístupnění v systému Kramerius)
  21. 21. Chybné zobrazení informací o zpracování
  22. 22. Postřehy z praxe (silné stránky) • oddělené metadatové a datové části balíčku na páskách (úspora místa, času, peněz) • metadatové části i v databázi (vhodné pro rychlé kontroly) • verzování • distribuovaný systém – snadno rozšiřitelný • kvalitní IBM information archive • specifikace standardů na dobré úrovni
  23. 23. Diskuse • Máte nějaké otázky?

×