SlideShare a Scribd company logo
Řešení pro dlouhodobou
archivaci v Národní knihovně
ČR
Šárka Hálečková a Tomáš Burda
Správa LTP
• obsahový správce
• technický správce
• spolupráce s Oddělením pro standardy
Osnova přednášky
• LTP jako součást projektu NDK
• hlavní komponenty subsystému LTP
 LTP Safe
 Transformační modul a jeho výkonné uzly
(tzv. „muly“)
 modul úložiště – IBM information archive
Osnova přednášky
• zabezpečení a kontroly
• technické detaily
• postřehy z praxe, silné a slabé stránky
zvoleného řešení
• diskuse
LTP v rámci NDK
• LTP jako součást projektu NDK
 sdílí hardware (přináší určité problémy)
• sdílení výkonu
• sdílení chyb
• sdílení diskových polí
 má svou míru autonomie
• samostatná instance Safe
• samostatné LTP WF (včetně samostatné instance
Transformačního modulu)
NDK = LTP + digitalizační WF
NDK
LTP Digitalizační WF
LTP Safe LTP WF
= uživatelské
rozhraní AiP Safe,
výkonná část
Logica/CGI
LTP
WF
WF SAFE LTP
SAFE
Transformační
modul
Mule ESB
IBM information
archive
LTP Safe
• systém pro správu balíčků
• transkripce při ingestu (těží z hlavních i
vedlejších mets)
• relační databáze (SQL) -> svižná reakce
• vlastní LTP WF
• přístup k datům – metadata z DB, metadata a
celé balíčky z pásky
• verzování balíčků
• vztažení balíčků k různým dalším informacím
– dodavatelé, verze standardů
LTP Safe
• automatické i manuální kontroly
• správa různého typu exportů
– export DIP
– export do LTP WF
• přehled o IE
• sledování akcí vykonaných nad balíčkem
• sledování propojení příbuzných IE
(vícesvazky, periodika)
• deaktivace balíčků
• automatické statistiky (možnost vlastních)
LTP Safe
Transformační modul
• společný pro WF Safe a LTP Safe
(2 instance)
• vykonává akce nad balíčky
• skládá se z většího množství vzájemně
integrovaných opensource komponent
 mule ESB (Master, Slave)
 procesní plány (Drools Guvnor)
 JBPM (Java Business Process Management)
 Task Handler
Transformační modul
JBoss
MQ
Master Mule
Mule
Slave
Mule
Slave
Mule
Slave
Mule
Slave
Mule
Slave
Safe Aplikační server (správa)
Fronty úkolů (message
queue)
Hlavní mula komunikuje se
Safe a zařazuje/vyzvedává
úkoly do/z MQ
Mule ESB
• umožňuje vykonávat operace nad balíčky
distribuovaným způsobem
• škálovatelnost (možnost rozšiřovat podle potřeby)
• muly různě výkonné
• muly virtuální a fyzické (pro časově a výpočetně
náročnější operace)
• postaveno kompletně na opensource
technologiích
• muly můžeme programovat pomocí „procesních
plánů“ (předpisů, jak se mají jednotlivé muly
chovat)
Mule ESB
• Mule Master komunikuje s workflow a
zařazuje úkoly do front MQ (plánuje
operace, které mají být vykonány nad
jednotlivými rozpracovanými balíčky)
• z MQ si berou Mule Slave úkoly podle
svých možností
• vykonávané procesy si muly zapisují do
logů (zpětná vazba pro správce, např. při
řešení chyb)
IBM Information archive
• systém pro vlastní
uložení dat
• komunikace s LTP
• ukládání na pásky
• důvěryhodný archiv
• autonomní systém
Zabezpečení – řešení v NK
• 3 sady pásek
 1x RW – ukládá se ihned v Hostivaři
 2x WORM – uložení se zpožděním
• 1x uložení v Klementinum
• 1x odvoz do MZK
• s RW se pracuje, další dvě jsou záložní
• systém kontrol
 kontrola integrity dat → namátková denní automatická
kontrola proti RW, spouští se od 2:00 do 2:30
 kontrola pásek prostřednictvím IBM infrmation archive
(kontrola i WORM pásek), 1x za 2 roky
 export DIP s validací vyvolaný správcem LTP (např. po
opravě)
Technický (IT) pohled
na IBM IA
• zálohování vs. archivace
• transparentnost vůči aplikační vrstvě
• použitá média (obecně, ve vztahu k NDK)
• životní cyklus
 uložených informací
 médií (kontroly)
 LTO mechanik
 produktu jako takového (IA vs. SSAM)
• integrace, logické rozdělení (postřehy z praxe)
• další rozvoj (disky, HA, PoC ... ?)
Technický (IT) pohled
na NDK TM
• CDM
 pracovní prostor
 BAGIT, CDMID založený na UUID
 rozklad zátěže na bázi HASH
• použitá rozhraní, unikátní způsob integrace open a closed source
 export/import balíčků
 služby na straně AiP Safe (webservices a jejich obsluha, podpisy)
 procesy na straně Transformačního modulu (parametry procesu, utility a
jejich kategorie)
 synchnonní/asynchronní utility (komponenty BPMN)
 externí systémy (ALEPH NK/MZK, K4, registr digitaizace, resolver
URN:NBN)
 vývojové prostředí (SVN, JENKINS)
• procesní konzole, řízení linky, řešení chybových stavů
Modelování procesů
NDK TM (ukázka)
Postřehy z praxe
(slabé stránky)
• sdílení chyb s digitalizačním WF (zahlcení,
odstávky)
• nedostatečná aktualizace šablon vůči vývoji
standardů
• case-sensitivita
• externí dodavatelé (chybně provázané informace
ve vedlejších mets → do LTP Safe se nenačítají
informace o zpracování vazba event-agent-object)
• chyby v zanoření úrovně přílohy (příloha čísla,
příloha ročníku u periodik → následné problémy
při zpřístupnění v systému Kramerius)
Chybné zobrazení
informací o zpracování
Postřehy z praxe
(silné stránky)
• oddělené metadatové a datové části balíčku
na páskách (úspora místa, času, peněz)
• metadatové části i v databázi (vhodné pro
rychlé kontroly)
• verzování
• distribuovaný systém – snadno rozšiřitelný
• kvalitní IBM information archive
• specifikace standardů na dobré úrovni
Diskuse
• Máte nějaké otázky?

More Related Content

Similar to Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS SolarisOracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Martin Cerveny
 
TNPW2-2014-05
TNPW2-2014-05TNPW2-2014-05
TNPW2-2014-05
Lukáš Vacek
 
2009 X33EJA Moderní Technologie Pro Vývoj JEE
2009 X33EJA Moderní Technologie Pro Vývoj JEE2009 X33EJA Moderní Technologie Pro Vývoj JEE
2009 X33EJA Moderní Technologie Pro Vývoj JEE
Martin Ptáček
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
MarketingArrowECS_CZ
 
TNPW2-2014-06
TNPW2-2014-06TNPW2-2014-06
TNPW2-2014-06
Lukáš Vacek
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí cloudu
Jan Kodera
 
OpenStack Technical Overview
OpenStack Technical OverviewOpenStack Technical Overview
OpenStack Technical Overview
Lukas Korous
 
Spring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou TvariSpring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou Tvari
Roman Pichlík
 
TNPW2-2016-06
TNPW2-2016-06TNPW2-2016-06
TNPW2-2016-06
Lukáš Vacek
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPI
Jan Lysý
 
Czech Sun Training Day 2009 - Solaris
Czech Sun Training Day 2009 - SolarisCzech Sun Training Day 2009 - Solaris
Czech Sun Training Day 2009 - Solaris
Martin Cerveny
 
Lotus Notes 7
Lotus Notes 7Lotus Notes 7
Lotus Notes 7
Martin Humpolec
 

Similar to Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR (20)

Oracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS SolarisOracle Solaris Day 2013 - Oracle DB and OS Solaris
Oracle Solaris Day 2013 - Oracle DB and OS Solaris
 
Datasheet simplivity cz
Datasheet simplivity czDatasheet simplivity cz
Datasheet simplivity cz
 
Webové technologie
Webové technologieWebové technologie
Webové technologie
 
TNPW2-2014-05
TNPW2-2014-05TNPW2-2014-05
TNPW2-2014-05
 
2009 X33EJA Moderní Technologie Pro Vývoj JEE
2009 X33EJA Moderní Technologie Pro Vývoj JEE2009 X33EJA Moderní Technologie Pro Vývoj JEE
2009 X33EJA Moderní Technologie Pro Vývoj JEE
 
Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2Co přináší Oracle Database 12c Release 2
Co přináší Oracle Database 12c Release 2
 
CSAS_v06
CSAS_v06CSAS_v06
CSAS_v06
 
TNPW2-2014-06
TNPW2-2014-06TNPW2-2014-06
TNPW2-2014-06
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí cloudu
 
OpenStack Technical Overview
OpenStack Technical OverviewOpenStack Technical Overview
OpenStack Technical Overview
 
Spring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou TvariSpring framework - J2EE S Lidskou Tvari
Spring framework - J2EE S Lidskou Tvari
 
TNPW2-2016-06
TNPW2-2016-06TNPW2-2016-06
TNPW2-2016-06
 
Závěrečný úkol KPI
Závěrečný  úkol KPIZávěrečný  úkol KPI
Závěrečný úkol KPI
 
TNPW2-2012-05
TNPW2-2012-05TNPW2-2012-05
TNPW2-2012-05
 
Czech Sun Training Day 2009 - Solaris
Czech Sun Training Day 2009 - SolarisCzech Sun Training Day 2009 - Solaris
Czech Sun Training Day 2009 - Solaris
 
TNPW2-2012-02
TNPW2-2012-02TNPW2-2012-02
TNPW2-2012-02
 
Lotus Notes 7
Lotus Notes 7Lotus Notes 7
Lotus Notes 7
 
TNPW2-2013-05
TNPW2-2013-05TNPW2-2013-05
TNPW2-2013-05
 
Ndk mu
Ndk muNdk mu
Ndk mu
 
TNPW2-2012-08
TNPW2-2012-08TNPW2-2012-08
TNPW2-2012-08
 

Šárka Hálečková a Tomáš Burda - Řešení pro dlouhodobou archivaci v Národní knihovně ČR

  • 1. Řešení pro dlouhodobou archivaci v Národní knihovně ČR Šárka Hálečková a Tomáš Burda
  • 2. Správa LTP • obsahový správce • technický správce • spolupráce s Oddělením pro standardy
  • 3. Osnova přednášky • LTP jako součást projektu NDK • hlavní komponenty subsystému LTP  LTP Safe  Transformační modul a jeho výkonné uzly (tzv. „muly“)  modul úložiště – IBM information archive
  • 4. Osnova přednášky • zabezpečení a kontroly • technické detaily • postřehy z praxe, silné a slabé stránky zvoleného řešení • diskuse
  • 5. LTP v rámci NDK • LTP jako součást projektu NDK  sdílí hardware (přináší určité problémy) • sdílení výkonu • sdílení chyb • sdílení diskových polí  má svou míru autonomie • samostatná instance Safe • samostatné LTP WF (včetně samostatné instance Transformačního modulu)
  • 6. NDK = LTP + digitalizační WF NDK LTP Digitalizační WF LTP Safe LTP WF = uživatelské rozhraní AiP Safe, výkonná část Logica/CGI
  • 8. LTP Safe • systém pro správu balíčků • transkripce při ingestu (těží z hlavních i vedlejších mets) • relační databáze (SQL) -> svižná reakce • vlastní LTP WF • přístup k datům – metadata z DB, metadata a celé balíčky z pásky • verzování balíčků • vztažení balíčků k různým dalším informacím – dodavatelé, verze standardů
  • 9. LTP Safe • automatické i manuální kontroly • správa různého typu exportů – export DIP – export do LTP WF • přehled o IE • sledování akcí vykonaných nad balíčkem • sledování propojení příbuzných IE (vícesvazky, periodika) • deaktivace balíčků • automatické statistiky (možnost vlastních)
  • 11. Transformační modul • společný pro WF Safe a LTP Safe (2 instance) • vykonává akce nad balíčky • skládá se z většího množství vzájemně integrovaných opensource komponent  mule ESB (Master, Slave)  procesní plány (Drools Guvnor)  JBPM (Java Business Process Management)  Task Handler
  • 12. Transformační modul JBoss MQ Master Mule Mule Slave Mule Slave Mule Slave Mule Slave Mule Slave Safe Aplikační server (správa) Fronty úkolů (message queue) Hlavní mula komunikuje se Safe a zařazuje/vyzvedává úkoly do/z MQ
  • 13. Mule ESB • umožňuje vykonávat operace nad balíčky distribuovaným způsobem • škálovatelnost (možnost rozšiřovat podle potřeby) • muly různě výkonné • muly virtuální a fyzické (pro časově a výpočetně náročnější operace) • postaveno kompletně na opensource technologiích • muly můžeme programovat pomocí „procesních plánů“ (předpisů, jak se mají jednotlivé muly chovat)
  • 14. Mule ESB • Mule Master komunikuje s workflow a zařazuje úkoly do front MQ (plánuje operace, které mají být vykonány nad jednotlivými rozpracovanými balíčky) • z MQ si berou Mule Slave úkoly podle svých možností • vykonávané procesy si muly zapisují do logů (zpětná vazba pro správce, např. při řešení chyb)
  • 15. IBM Information archive • systém pro vlastní uložení dat • komunikace s LTP • ukládání na pásky • důvěryhodný archiv • autonomní systém
  • 16. Zabezpečení – řešení v NK • 3 sady pásek  1x RW – ukládá se ihned v Hostivaři  2x WORM – uložení se zpožděním • 1x uložení v Klementinum • 1x odvoz do MZK • s RW se pracuje, další dvě jsou záložní • systém kontrol  kontrola integrity dat → namátková denní automatická kontrola proti RW, spouští se od 2:00 do 2:30  kontrola pásek prostřednictvím IBM infrmation archive (kontrola i WORM pásek), 1x za 2 roky  export DIP s validací vyvolaný správcem LTP (např. po opravě)
  • 17. Technický (IT) pohled na IBM IA • zálohování vs. archivace • transparentnost vůči aplikační vrstvě • použitá média (obecně, ve vztahu k NDK) • životní cyklus  uložených informací  médií (kontroly)  LTO mechanik  produktu jako takového (IA vs. SSAM) • integrace, logické rozdělení (postřehy z praxe) • další rozvoj (disky, HA, PoC ... ?)
  • 18. Technický (IT) pohled na NDK TM • CDM  pracovní prostor  BAGIT, CDMID založený na UUID  rozklad zátěže na bázi HASH • použitá rozhraní, unikátní způsob integrace open a closed source  export/import balíčků  služby na straně AiP Safe (webservices a jejich obsluha, podpisy)  procesy na straně Transformačního modulu (parametry procesu, utility a jejich kategorie)  synchnonní/asynchronní utility (komponenty BPMN)  externí systémy (ALEPH NK/MZK, K4, registr digitaizace, resolver URN:NBN)  vývojové prostředí (SVN, JENKINS) • procesní konzole, řízení linky, řešení chybových stavů
  • 20. Postřehy z praxe (slabé stránky) • sdílení chyb s digitalizačním WF (zahlcení, odstávky) • nedostatečná aktualizace šablon vůči vývoji standardů • case-sensitivita • externí dodavatelé (chybně provázané informace ve vedlejších mets → do LTP Safe se nenačítají informace o zpracování vazba event-agent-object) • chyby v zanoření úrovně přílohy (příloha čísla, příloha ročníku u periodik → následné problémy při zpřístupnění v systému Kramerius)
  • 22. Postřehy z praxe (silné stránky) • oddělené metadatové a datové části balíčku na páskách (úspora místa, času, peněz) • metadatové části i v databázi (vhodné pro rychlé kontroly) • verzování • distribuovaný systém – snadno rozšiřitelný • kvalitní IBM information archive • specifikace standardů na dobré úrovni