SlideShare a Scribd company logo
1 of 46
Dlouhodobá ochrana digitálních
           informací :

Ex Libris Rosetta v Národním archivu
           Nového Zélandu

                Jan Hutař
         Digital Preservation Analyst
            Archives New Zealand


                  Praha, 21.2.2013      1
Obsah
• úvod o Archivu Nového Zélandu
• GDA program
• Digitální archiv, aplikace a LTP Rosetta
• Digitální transfery




                        Praha, 21.2.2013     2
Archives New Zealand
• 125 zaměstnanců
• 4 regionální pobočky
• rozpočet 25 mil. NZD (380 mil. Kč) na rok
• 45TB dat
• 2 digitální repozitáře
• 96 km papírových archiválií
• 1 LTP systém (Rosetta, ExLibris)
• 2.4 milionu fotografií a negativů
• 552.000 map a plánů
• 21.500 filmových kotoučů
• 1.000 video pásek atd.

                       Praha, 21.2.2013       3
Praha, 21.2.2013                           4
http://upload.wikimedia.org/wikipedia/commons/8/80/Archives_New_Zealand_building_in_Wellington.JPG
Struktura Department of Internal Affairs




                 Praha, 21.2.2013      5
Public Record Act 2005
• zahrnuty i dokumenty v digitální podobě
• nutnost je získávat, uchovat, zpřístupňovat
• agentury musí posílat dokumenty starší 25 let do
  archivu (skartační řízení atd.)
• „Informace z vládního sektoru identifikované jako
  archiválie musí být bezpečně dlouhodobě chráněny tak,
  aby se neztratily, nebyly pozměněny nebo neoprávněně
  užívány. Musejí zůstat vyhledatelné a čitelné, procesy a
  systémy toto zajišťující musejí být nenáročné na
  náklady a údržbu a musejí vyhovovat uživatelům.“
• informace musí být autentické – audit událostí

                         Praha, 21.2.2013                6
Government Digital Archive
Programme - GDAP
• projekt na implementaci digitálního archivu +
  transformaci ANZ
• instituce veřejného i soukromého sektoru přecházejí na
  digitální dokumenty
   • ANZ nebylo schopno digitální dokumenty organizovaně
     přijmout, zpracovat, zpřístupnit
• dlouhodobé uchování – samostatný problém
• tj. celková neschopnost dostát povinnostem z Public
  Record Act 2005
• vnímáno velmi negativně veřejností i institucemi
  (otevřená vláda, omezený přístup k veřejným
  informacím atd.)

                          Praha, 21.2.2013                 7
Government Digital Archive
Programme
• projekt na 3 roky (2010-2013); náklady 12,6 mil. NZD (200
  milionů Kč) na 4 roky (přechod na běžný provoz)
• financování po 2014 je plánovanou součástí rozpočtu vlády
• návaznost na vládní koncepce o přístupu k informacím a
  dlouhodobé ochraně dokumentů v digit. podobě
• od počátku byla cílem aktivní dlouhodobá ochrana (vs.
  pasivní ochrana bit-streamu – IDA)
• cílem co nejrychlejší implementace existujícího a funkčního
  LTP systému + transformace instituce + změnit myšlení lidí i
  původců
• samotné instituce začaly na Archives NZ tlačit (problémy s
  daty, ztráty atp.)
                           Praha, 21.2.2013                  8
3 fáze GDAP
1.   Fáze – online zpřístupnění digitalizovaného obsahu (září 2012)
     •   najít, stáhnout zdigitalizované volné dokumenty přes Internet
     •   data uložena v Rosettě (migrace a SW Ingestor)
     •   Ingestor v1.0 – jednotliviny, pouze TIFF/PDF/XML
2.   Fáze – transfery digitálních dat (březen 2013)
     •   Ingestor v2.0 – bulk ingest, různé reprezentace, více formátů
     •   synchronizace DB Archway, Rosetty a Ingest service (Ingest via
         Archway)
3.   Fáze – zabezpečený online přístup a procesy dlouhodobé
     ochrany (červen 2013)
     •   zpřístupnění k archiváliím s omezením přístupu (veřejnost i původce)
     •   omezení lze upravovat, udělovat/odebírat (70let + možnost
         prodloužení) – lze žádat o přístup i přes omezení
     •   rutinní provádění procesů DP

                                 Praha, 21.2.2013                           9
GDAP a proměna Archivu NZ
• maxim. míra integrace „digi“ procesů do procesů stávajících
• GDAP = přerod celé organizace
    • jejích procesů a způsobu řízení
    • změna technického zajištění
    • ANZ musí být schopen fungovat novým způsobem
• výsledek a nová podoba Archivu NZ se dotkne všech
• také „nedotčení“ pracovníci musejí být ztotožněni s cíli a
  významem této změny; musejí chápat přínos a jak se změní jejich
  denní činnosti
• zaměstnanci jsou průběžně seznamováni s postupem GDAP
• několikastupňové školení pro interní pracovníky a kolegy z regionů
  – podstata DP, využití archivu, nové procesy, transfery digitálních
  dat, jednání s původci aj.

                             Praha, 21.2.2013                      10
Co předcházelo GDAP?
• GDAP vznikl na základě starších přípravných aktivit
  (koncepce, legislativa, získávání znalostí atd.)
• cíl získat/vychovat odborníky pro digitální archiválie, ERDM
  systémy apod.
• nepřidávat tuto problematiku stávajícím archivářům
• 2006 vzniklo oddělení Digital Continuity, 2007 schváleno
  financování tohoto oddělení v rámci vládní podpory
  uchování digitálních informací
• první hlavní výstup akční plán (Digital Continuity Action
  Plan, DCAP, 2009)


                           Praha, 21.2.2013                      11
IDA (Interim Digital Archive)
• IDA – dočasné řešení pro data z digitalizace, 2008-
  2012, 45TB
   • Fedora SW na správu dat
   • žádné procesy dlouhodobé ochrany (identifikace
     formátů, extrakce MD, preservation plan etc.)
   • ochrana bit-streamu, kontrola přístupů, kontr. součty
     apod.
   • propojení do systému na popis archiválií, vyhledávání a
     zpřístupnění (Archway Staff a Public)
• migrace dat do LTP systému Rosetta

                          Praha, 21.2.2013                     12
Zdroje dat pro digitální archiv ≈
LTP systém Rosetta
• digitalizace
   •   on site + externě (NZ micrographics) + on demand do 2h
   •   TIFF > JPG + PDF; přechod na JPEG2000
   •   i regiony (Dunedin, Christchurch, Auckland)
   •   ingest přes ingestor
   •   dlouhodobá ochrana není plánována pro všechna data
• transfery born-digital dokumentů
   •   dlouhodobá ochrana pro všechna data
   •   různé formáty – snaha omezit
   •   ingest via Archway Staff a ingestor service
   •   pilotní transfery – viz dále
• migrace z repozitáře IDA
   • 45TB – převážně digitalizovaná data, TIFF
   • data extrahována z IDA skriptem, další skript vytvoří SIP (METS) pro
     Ingestor service
                                 Praha, 21.2.2013                       13
Government Digital Archive – technické systémy
          AGENCIES
    selected digital                                                                                                                           WEB APPS
    information
                                           ARCHWAY




                                                                                                     unrestricted items
Agency tools




                                                                              Search & display
   standard transfer
   format file            intellectual                                                                                                         CONTENT
                            metadata
                                                                                                                                             AGGREGATORS




                                                                                    tools
   Archives’
   transfer /          digital




                                                                                                                          restricted items
                       content &
     ingest                                   Digital




                                                                                                     Identity/
                       technical




                                                                                                      Access
   processes           metadata                                                                                                                AGENCIES
                                            Repository
 selected digitised
            copies
                                              Preservation
                                               processes
                                                                                                  secure
                                                                                                  logon;
                                                                                                 agency
                                         Data storage & server                                   links to
                                                                                                                                                PUBLIC
                                             infrastructure                                      “their”
AGENCIES                                                                                         records
                                                                                                                                                USERS
   or                                                        shared with NDHA (National
ARCHIVES                                                      Library), supported by GTS
Government Digital Archive – policies
  Digital RK
    AGENCIES
  processes,
    advice                      Archives control /
                                   description                                                       WEB
                                ARCHWAY                                                             Online
                                 standards and                                                        APPS
                                                                                                   services
                                   processes




                                                        Search & display
   Agency tools                                                                                   strategy –
                   and ingest                                                                    CONTENT
                   processes
                                                                                                 public users
                    Transfer
   policy and
   processes
   Appraisal




                                                                    policies and
                                                                                               AGGREGATORS




                                                                     processes
                                                              tools
      Archives’




                                                                      Access
      transfer /
        ingest




                                                                                   Identity/
                                                                                    Access
      processes                   Digital
                                                                                                    PUBLIC
                                 Repository
                                    Digital                                                         USERS
                                 preservation
  Digitisation                    Preservati
                                 policies and
  strategy &                          on                                                         Online
                                  processes
  processes                        processes                                                    services
                                                                                                strategy -
AGENCIES                        data storage & server                                           AGENCIES
                                                                                                agencies
   or                              infrastructure

ARCHIVES
Jak ovlivní digitální archiv
jednotlivé role (výběr)?
• klasický archivář – popis, archivní zpracování, skartační řízení
     •   postupy stejné, ale nové technologie – SW, papír vs. digi
     •   nové znalosti pro skartační řízení
     •   transfer je diametrálně odlišný, ne proces, ale způsob
     •   může ovlivnit samotné LTP – bulk delete
• původce
     • nový typ transferu
     • nové nároky na dokumenty – určité formáty
     • možné změny proERDMS
• oddělení digitalizace
     • ovlivněno velmi – nutná spolupráce s dig. archiváři
     • výběr formátů, kontrola výstupů ext. i inhouse digitalizace (JHOVE)
• uživatel/občan
• stát
     • vědomí, že po papíru nepřišla potopa
     • transparentnost > spokojený občan
     • znovu využití informací


                                           Praha, 21.2.2013                  16
Personální obsazení –
provoz LTP systému
• 2 PÚ admin – nastavení, migrace dat z IDA; skripty na hromadné opravy
  dat z migrace co se chytí do TAW; správa/analýzy DB, architektury etc.
• 2 PÚ DP analytik – nastavení LTP systému, koncepce ochrany, policies,
  procesy, komunikuje s archiváři co chtějí, řeší TA problémy, plány rozvoje
  funkcionality LTP, organizuje updaty, spolupráce s ExL, analýzy formátů …
• 0,5 PÚ sys admin - DB, servery, storage, restarty, updaty apod. (NK NZ)
• 3 PÚ archivář (recordkeeping) - domluva transferů s původci, analýzy
  archivního popisu, mapování metadat, archivní standardy, omezená
  manipulace s daty (vymazaní do odpadkového koše např.) v LTP
• 0,2 PÚ vývojář – stará se o aplikaci pro ingest (vývoj, opravy atd.)




                                  Praha, 21.2.2013                          17
Personální obsazení –
další úvazky v GDAP
• v GDAP vznikly úvazky Business Analyst a Business Change Manager
• klíčoví pro GDAP a přeměnu Archivu NZ
• most mezi běžnými procesy a programem
    • pracují s archiváři na identifikaci potřebných změn
    • tyto změny pak vedou k jejich naplnění.
• vývojáři (3-4) – převádějí potřeby odborných archivářů do podoby
  funkčních aplikací nebo vylepšení stávajících
    • případové studie (use case) pro desítky jednotlivých procesů a
      funkcionalit
• testeři (3-4) - systematicky testují práci vývojářů podle use casů
• po ukončení GDAP tito lidé nebudou v Archives NZ pokračovat
• již nyní se intenzivně pracuje na budoucí podobě práce a procesů
  bez těchto pracovníků
• zůstává kompletní oddělení Digital Continuity

                                 Praha, 21.2.2013                      18
Aplikace pro implementaci GDA -
Ingestor
•   na vkládání dat do archivu (LTP systému) – vývoj začal v rámci GDAP
•   web klient + ingestor service
•   jednotliviny nebo větší balíky dat
•   1 jednotlivost = 1 SIP - záměrně
•   různé formáty, pouze PM nebo i MM a AC (kde nutno – video apod.)
•   web klient je pro archiváře; ingestor service vytváří SIP (METS), včetně
    multipage PDF pokud nutno
•   normální ingest vs. urgentní ingest
•   propojeno s DB Archway – pro popisná metadata (4 pole) a ingest via
    Archway; s Rosettou pro autentikaci a deposit API (reporty o ingestu)
•   vytváří administrativní metadata
•   systém validace formátů před odesláním
•   kontrola množství dat ve frontě na ingest (noc, den)
•   reporty – přehled ingestů uživatele, jejich status apod.
                                  Praha, 21.2.2013                             19
Aplikace pro implementaci GDA –
Archway Staff
•   Archway Staff i Public existovaly před GDAP
•   v rámci GDAP je pouze změna Archway Staff – model popisu archiválií
•   interní aplikace pro archiváře, funkční od 2002
•   archivní management systém používaný k popisu kontextových entit
    (organizace, jurisdikce, funkce, původce, série) a samotných archiválií
    (dokumentů a jednotlivostí)
•   workflow ke sledování schvalovacího procesu, zaznamenává jednotlivé
    kroky a změny
•   archiváři jej také využívají k vyhledávání v metadatech archiválií
    nedostupných přes Archway Public
•   mnoho variant rolí a oprávnění pro různé pracovníky
•   omezení přístupu spravováno přes Archway, ne přes LTP


                                  Praha, 21.2.2013                            20
Aplikace pro implementaci GDA –
Archway Public
• zpřístupněno 2005 – univerzální portál pro interakci uživatele s ANZ
• relativně dost změn do současnosti
• aplikace na vyhledávání v metadatech za účelem nalezení fyzických, a nově i
  digitálních, archiválií (jednotlivostí), sbírek nebo sérií a jejich kontextu
• umožňuje navigovat mezi kontextovými entitami, tedy souvisejícími
  dokumenty, úrovněmi popisu apod.
• zpřístupňuje data a tech. MTD z LTP Rosetta (různé reprezentace
  jednotlivosti)
• otázka prohlížečů (Rosetta interní vs. externí)
• obsahuje pouze entity, které byly zkontrolovány a odsouhlaseny ke
  zveřejnění
• Archway báze - společná pro Archway Public i Staff - obsahuje elektronické
  záznamy o 4,6 milionech jednotlivostí
    • každá má popisné údaje, údaje o dostupnosti apod.
    • http://www.archway.archives.govt.nz/


                                      Praha, 21.2.2013                      21
Vývoj aplikací okolo Rosetty
• business analýza – požadavky funkční nefunkční
  (business + BA)
• vznikne Use Case
• rozčleněn na karty pro vývojáře > vývoj funkcionalit
• testeři testují pak kompletní UC (ne dle karet) > reporty,
  issues, opravy > business acceptance testing > na konci
  všichni podepíší (další požadavky nelze začlenit)
• DIA testing agency (GTS) pro všechny vládní úřady
   • profesionální testeři - vědí jak testovat
   • test plans pro UC > varianty positivní, negativní, variantní;
     dopady, rizika atd.

                             Praha, 21.2.2013                        22
Praha, 21.2.2013   23
LTP Rosetta
• programy DCAP a později GDAP vznikaly zároveň s projektem NK
  NZ National Digital Heritage Archive (NDHA)
• od roku 2005 vznikaly v NK NZ požadavky na digitální archiv a LTP
  systém pro logickou dlouhodobou ochranu dat
• vývoj probíhal ve spolupráci s ExLibris – NK dodala funkční a
  nefunkční specifikace, ExLibris vývoj
• LTP Rosetta byl v NK NZ ve verzi 1 zprovozněn v roce 2008 a je
  komerčně nabízen jako Rosetta (nyní ve verzi 3.1)
• šlo o první instalaci systému na světě > dnes jej používá více než
  15 institucí po celém světě
• Rosetta podporuje konsorciální využití pro více institucí (entit),
  které mají možnost spravovat pouze svá data a svoji část systému

                             Praha, 21.2.2013                     24
Varianty GDAP a cesta k LTP
Rosetta
SP GDAP – 4 varianty řešení
    1. rozšíření stávajícího řešení NK NZ (2008) = nákup další
        licence na systém Rosetta a rozšíření HW vybavení
        v kombinaci s tvorbou nových procesů, strategií a úprav
        stávajících systémů;
    2. výběrové řízení na LTP systém a infrastrukturu
    3. rozšíření a rozvoj dočasného repozitáře IDA
    4. nedělat nic
• v květnu 2010 vláda schválila variantu 1)
• varianta 2) vyhodnocena jako zbytečný výdaj nákladů na
  organizaci tendru, jehož nejlepším výsledkem by bylo stejné nebo
  velmi podobné řešení, jaké má již NK NZ

                            Praha, 21.2.2013                     25
Rosetta v Archivu NZ a NK NZ
sdílení LTP systému Rosetta a vzájemná spolupráce vyžadovalo:
• rozšíření jádra softwaru Rosetta a hardwarové infrastruktury
  (servery, úložiště aj.);
• integraci systému Rosetta s aplikací Archway; + s novou aplikací
  na vkládání jednotlivostí do digitálního archivu - Ingestor;
• rozšíření funkcionality systému Rosetta o několik procesů
  požadovaných pro Archiv NZ (bulk delete externí; vytvořit set dat
  ze souboru)
• osvojení nových znalostí a nábor nových pracovníků v Archivu NZ;
• začlenění problematiky DP do aktivit, které Archiv NZ běžně
  provádí, zkoumá je a dále rozvíjí;
• spolupráci s NK na sdílených strategiích, procesech, administraci,
  vytvoření pravidel, dokumentace apod.
                             Praha, 21.2.2013                      26
Klíčové technické výzvy
• první implementace Rosetty v archivu
• první implementace konsorciálního modelu Rosetty (nyní již více
  zákazníků)
• sdílení úložiště dat, systému, správy s NK NZ
• komplexní integrace se systémem Archway (duplicitní prohlížeče,
  provázání dat a MTD, synchronizace); Archway je výchozí systém pro
  popisná MTD
• vývoj pro aplikaci, která se stále vyvíjí (nové verze > testování)
• migrace dat ze starého repozitáře (nakonec ne tak komplikovaná),
  problém jsou samotná data (chyby)
• přechod na IaaS 2012-2013 – outsourcing serverů a storage do vládních
  datových center
• proměnné prostředí – spojení ANZ a NK NZ; nová struktura ANZ;
  společný nákup HW a SW pro vládní úřady, sdílené služby, business
  požadavky atd. atd.

                               Praha, 21.2.2013                       27
Co od LTP Rosetta potřebujeme
• logická ochrana digitalizovaných dat
• logická ochrana digital-born dat (transfery)
• možnost konsorcia a flexibilního udělování rolí pracovníkům,
  dodavatelům
• flexibilita pro různé typy storage
• správa dat – výběr, manipulace, mazání, tvorba reprezentací
• identifikace formátů
• validace formátů > jednotná množina konkrétních verzí FF
• extrakce metadat > nové extraktory > opakovaně
• extrakce rizik, možnost přidávání rizik

                          Praha, 21.2.2013                   28
Co od LTP Rosetta potřebujeme
• flexibilita pro větší množství dat; pluginy (extraktory,
  identifikace FF, prohlížeče, nástroje na migrace atd.) a
  způsoby využití LTP
• flexibilní workflow pro ingest
• otevřenost – standardy dat i metadat
• bázi FF, rizik, aplikací (FF bez aplikace = riziko)
• prostředí na migrace (preservation planning modul)
• komunitu (velmi silná spolupráce – nátlak na
  dodavatele, nové požadavky, sdílení znalostí)
• vstřícnost dodavatele – roadmap, nové verze,
  respektování požadavků zákazníků
                          Praha, 21.2.2013                   29
Format Library
                           Applications
                                                                              SHARED DIGITAL
 Ingest                                                                       ARCHIVE



                                                  ROSETTA      ROSETTA            ROSETTA
                                                  DEPOSIT      STAGING          PERMANENT
   Extract & Validation                                                         REPOSITORY
           Tools
    transfer list &
         contents
                                                                                 metadata
                                                                              synchronisation
                              Ingestor
                                Tools
                                                  ingest
                                                processing
                                                                               ARCHWAY
• Check package format               •    Fixity (bit check)                   DATABASE
                                                                                SERVER
• Check against transfer             •    Virus check
  agreement                          •    Form SIPs
                                     •    Identify file formats from Format Library
                                     •    Fix or reject problems
                                     •    Extract technical file metadata
                                     •    Parse intellectual metadata & create Archway entries
                                     •    Write technical metadata, preservation masters,
                                          access derivatives to digital repository
Risks     Applications
                                 Digital            Digital preservation
                                 Archive
                                (permanent
                                                         processes – e.g.
                                  Storage)                                Migration

                                                 Operational
        Format                                     (temp)
        Library                                   Storage




Formats Risk Report      Evaluate alternatives   Preservation       Monitor, fix,
> Preservation Set                               Plan > Apply       complete
                                                 migration action
Digital preservation
Applications
                                      processes
                                      – e.g. Emulation



       Format                 Emulation
       Library                 software
                  Digital
                  Archive




                 ARCHWAY
Transfery dig. dat od původců
• 5 pilotních transferů (Canterbury Earthquake Commission;
  Pike River Commission aj.)
• počítáme s vyjednáváním s každým původcem
• postupné osvojení zásad
• nelze nic nařizovat – formáty apod.
• STF (Standard Transfer Format) XML pro přenos metadat
• mapování
• diskuze s australskými a USkolegy
• transfer musí být co nejjednodušší pro původce
• nechceme aby původce migroval data do preferovaných
  formátů
                          Praha, 21.2.2013                   33
Proměna práce s agenturami
• záleží na tom jaké mají EDRMS
• co z nich lze exportovat
• zákonná lhůta pro odevzdání archiválií je 25 let – příliš
  dlouho pro digitální dokumenty
   • čím je čas od vzniku dokumentu do transferu delší, tím je
     ochrana a celý proces náročnější a dražší
• migrování metadat do STF – případ od případu z
  počátku, systém od systému
• snaha zachovat pořádání materiálu v EDRMS > nutno
  pochopit základní intelektuální model pořádání té
  instituce v EDRMS > pomůže s mapováním do STF a
  popisem
• použití stejných EDRMS různým způsobem (Lotus
  Notes, Summation) > problémy při popisu entit
                            Praha, 21.2.2013                     34
Jak probíhá transfer?
• data a metadata od původců přenášena v balících
• celistvost, integritu a strukturu dat kontroluje a obsahuje
  STF XML soubor
• STF schéma bylo v Archivu NZ vytvořeno za účelem přenosu
  dat a metadat od původců
• STF XML soubor > Archway Staff > automaticky vzniknou
  záznamy jednotlivostí > uložena do DB > archivář (kontrola,
  pořádání, vnitřní skartace) > ingest do systému Rosetta
• do Rosetty technická a administrativní metadata, která byla
  součástí STF záznamu od původce
• data mezitím čekala na pracovním úložišti - v okamžiku
  ingestu vkládána do Rosetty spolu s metadaty
• zajištěno, že všechny jednotlivosti mají záznam v Archway
  bázi

                          Praha, 21.2.2013                  35
Formáty dat
• Archiv NZ musí být schopen akceptovat soubor v jakémkoliv
  formátu, pokud je pro svůj obsah vybrán k archivaci
• Rosetta je schopna uložit jakýkoliv soubor a formát
• Analýza pilotního transferu - 70 tisíc dokumentů (records) - 355
  tisíc souborů v několika desítkách formátů
• nejvíce běžné formáty kancelářských aplikací + soubory
  proprietární
• interní směrnice pro transfery - nelze převzít soubory poškozené,
  zavirované, s neznámým obsahem apod. – otázka skartačního
  procesu
• směrnice neuvádí jaké datové formáty lze akceptovat
• pro původce bude publikován dokument o preferovaných
  formátech - nebude nařizovat, aby je původci vytvářeli

                             Praha, 21.2.2013                     36
Zdroje
• požadavek z DIA - za málo peněz hodně muziky
• mírné omezování výdajů – spíše cesta zefektivnění
• i tak schopnost zaplatit odborníky ze soukromého
  sektoru i ze zahraničí
• marketing
• plánování
• risk management
• zdroje na ICT – vláda je aktivní (centralizace HW,
  nákupů, sdílený desktop atd.)
                       Praha, 21.2.2013                38
Organizace
• mandát, organizační rámec, business plan, řízení,
  reporting atd.
• pochopení proč máme LTP systém
• digitalizace - my si uložíme data jinam, protože je to
  levnější, LTP nás nezajímá
• digitalizace pro ochranu vs. digitalizace pro přístup -
  patří pro přístup do LTP? ano nebo ne?
• Rosetta není CMS, i když se to k tomu posouvá na
  žádost klientů - CMS vs LTP
• nepotřebujeme LTP, zdigitalizujeme znovu
• školení
                          Praha, 21.2.2013                  39
Technologie
•   IT infrastruktura
•   DP procesy
•   udržitelnost a pokračování v budoucnu
•   preservation metadata
•   bezpečnost
•   audit a standardy




                      Praha, 21.2.2013      40
Problémy technické
• identifikace formátů, extrakce metadat – problémem
  jsou data, ne LTP systém, ne jiné podpůrné systémy a
  aplikace
• nedostatek nástrojů na extrakci metadat obecně
• minimální znalost o formátech u původců – nikdo
  nekontroluje jak kvalitní PDF, Word etc produkuje
• SW nevytváří soubory podle specifikací formátů >
  otázka co s tím – bude to vadit dlouhodobé ochraně?
• debata o pre-condition – ano nebo ne? co je a co není
  autentické?
• důraz na psané policies a popisy procesů, které
  odsouhlasí odpovědní pracovníci podpisem
• chceme ochraňovat vše nebo něco je méně důležité?

                        Praha, 21.2.2013                  41
Zpřístupnění
• hlavní cíl, politika NZ vlády – zpřístupnit ideálně co
  nejvíce dat, využít novým způsobem
• co není omezeno, zpřístupnit okamžitě
• už teď víme, že původci budou opatrní
• nevíme co to udělá s lidmi > digi není papír, spousta
  možností využití a vytěžení dat, dávání do souvislostí
  automaticky
• co se stane až zpřístupníme maily instituce XY příští
  rok? např. Canterbury EQ commision
• český přístup jen ve studovně nepřipadá do úvahy, lidé
  mají na public record nárok

                        Praha, 21.2.2013                   42
Otázky do budoucna
•   škálovatelnost procesů typu pre-conditioning,
    ingest, migrace
•   Digital Preservation Centre of Excellence
•   certifikované externí repozitáře u původců?
•   Preservation-as-a-service
•   použití vládních datových center a GDA pro
    středně-dobé uložení
•   využití digitálního archivu pro neveřejné (tajné)
    dokumenty

                        Praha, 21.2.2013                43
Shrnutí
• problémem není technologie (HW a SW), ale:
   • organizace
   • změna chápání lidí
• chápání DP a toho co je LTP se mění a bude měnit
• budování digitálního archivu a LTP je střelba na pohyblivý cíl
  – proměny technologií, organizační změny, krize atd.
• spousta neznámých – zpřístupnění digital-born je odlišné od
  zpřístupnění papírových dokumentů
• i přes podrobné plány stále nové a nové neznámé
• povědomí o FF je minimální – původci nechápou proč
  chceme validní TIFF
• nutno mluvit s původci o digitálních archivu, LTP a jeho
  funkčnosti – zatáhnout je do toho

                           Praha, 21.2.2013                    44
GDAP je první krok …
GDA program a jeho jednotlivé fáze vývoj v Archivu
  NZ nezakonzervují, právě naopak, položí základy
 k dalšímu rozvoji funkcionalit a služeb týkajících se
  digitálních dokumentů jak pro veřejnost, tak pro
                      původce.




                       Praha, 21.2.2013              45
Děkuji za pozornost

www.archives.govt.nz/gdap




                    Praha, 21.2.2013   46

More Related Content

Similar to Dlouhodobá ochrana digitálních informací na Novém Zélandu

DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"Andrea Fojtu
 
Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematicadp-blog-cz
 
Marek Melichar - Zkušenosti se systémem Archivematica
Marek Melichar - Zkušenosti se systémem ArchivematicaMarek Melichar - Zkušenosti se systémem Archivematica
Marek Melichar - Zkušenosti se systémem ArchivematicaLTP-portal-cz
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůMoravskaZemskaKnihovna
 
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...locloud
 
Andrea Miranda - Archivematica a standardy
Andrea Miranda - Archivematica a standardyAndrea Miranda - Archivematica a standardy
Andrea Miranda - Archivematica a standardyLTP-portal-cz
 
GTS platforma pro vyvojáře webexpo 2012
GTS platforma pro vyvojáře webexpo 2012GTS platforma pro vyvojáře webexpo 2012
GTS platforma pro vyvojáře webexpo 2012Milan Petrásek
 
Služby e-infrastruktury CESNET
Služby e-infrastruktury CESNETSlužby e-infrastruktury CESNET
Služby e-infrastruktury CESNETCESNET
 
Dopřejte GIS i svým kolegům
Dopřejte GIS i svým kolegůmDopřejte GIS i svým kolegům
Dopřejte GIS i svým kolegůmJan Novotný
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptxMagdalnaBohuslavov
 
E docat dms_produktovy_list_2012_1v0
E docat dms_produktovy_list_2012_1v0E docat dms_produktovy_list_2012_1v0
E docat dms_produktovy_list_2012_1v0Onlio
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management planPetra Dedicova
 
EA2017 - Czech Government EA (Informační koncepce ČR)
EA2017 - Czech Government EA (Informační koncepce ČR)EA2017 - Czech Government EA (Informační koncepce ČR)
EA2017 - Czech Government EA (Informační koncepce ČR)Pavel Hrabe
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNETCESNET
 
Martin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibMartin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibLTP-portal-cz
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)Tomas Moser
 
Dms by onlio cpress connect-11-2012_plus_inzerce
Dms by onlio cpress connect-11-2012_plus_inzerceDms by onlio cpress connect-11-2012_plus_inzerce
Dms by onlio cpress connect-11-2012_plus_inzerceOnlio
 

Similar to Dlouhodobá ochrana digitálních informací na Novém Zélandu (20)

DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"DSA a jiné možnosti "self-auditu"
DSA a jiné možnosti "self-auditu"
 
Zkušenosti se systémem Archivematica
Zkušenosti se systémem ArchivematicaZkušenosti se systémem Archivematica
Zkušenosti se systémem Archivematica
 
Marek Melichar - Zkušenosti se systémem Archivematica
Marek Melichar - Zkušenosti se systémem ArchivematicaMarek Melichar - Zkušenosti se systémem Archivematica
Marek Melichar - Zkušenosti se systémem Archivematica
 
Digitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentůDigitalizace a dlouhodobá ochrana digitálních dokumentů
Digitalizace a dlouhodobá ochrana digitálních dokumentů
 
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
Portál Europeana, evropské projekty CARARE a LoCloud – inspirace pro informač...
 
Andrea Miranda - Archivematica a standardy
Andrea Miranda - Archivematica a standardyAndrea Miranda - Archivematica a standardy
Andrea Miranda - Archivematica a standardy
 
GTS platforma pro vyvojáře webexpo 2012
GTS platforma pro vyvojáře webexpo 2012GTS platforma pro vyvojáře webexpo 2012
GTS platforma pro vyvojáře webexpo 2012
 
Služby e-infrastruktury CESNET
Služby e-infrastruktury CESNETSlužby e-infrastruktury CESNET
Služby e-infrastruktury CESNET
 
05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx05 Standardy a nástroje.pptx
05 Standardy a nástroje.pptx
 
Dopřejte GIS i svým kolegům
Dopřejte GIS i svým kolegůmDopřejte GIS i svým kolegům
Dopřejte GIS i svým kolegům
 
04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx04 Strategie dlouhodobé ochrany.pptx
04 Strategie dlouhodobé ochrany.pptx
 
E docat dms_produktovy_list_2012_1v0
E docat dms_produktovy_list_2012_1v0E docat dms_produktovy_list_2012_1v0
E docat dms_produktovy_list_2012_1v0
 
Data management a jak psát data management plan
Data management a jak psát data management planData management a jak psát data management plan
Data management a jak psát data management plan
 
EA2017 - Czech Government EA (Informační koncepce ČR)
EA2017 - Czech Government EA (Informační koncepce ČR)EA2017 - Czech Government EA (Informační koncepce ČR)
EA2017 - Czech Government EA (Informační koncepce ČR)
 
Datová úložiště CESNET
Datová úložiště CESNETDatová úložiště CESNET
Datová úložiště CESNET
 
02 OAIS.pptx
02 OAIS.pptx02 OAIS.pptx
02 OAIS.pptx
 
SAS - Integrace dat
SAS - Integrace datSAS - Integrace dat
SAS - Integrace dat
 
Martin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLibMartin Lhoták - Projektový záměr ArcLib
Martin Lhoták - Projektový záměr ArcLib
 
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
PSUG 2 - 2024-04-15: Proactive IT Monitoring & Dynamic Asset Management (Czech)
 
Dms by onlio cpress connect-11-2012_plus_inzerce
Dms by onlio cpress connect-11-2012_plus_inzerceDms by onlio cpress connect-11-2012_plus_inzerce
Dms by onlio cpress connect-11-2012_plus_inzerce
 

Dlouhodobá ochrana digitálních informací na Novém Zélandu

  • 1. Dlouhodobá ochrana digitálních informací : Ex Libris Rosetta v Národním archivu Nového Zélandu Jan Hutař Digital Preservation Analyst Archives New Zealand Praha, 21.2.2013 1
  • 2. Obsah • úvod o Archivu Nového Zélandu • GDA program • Digitální archiv, aplikace a LTP Rosetta • Digitální transfery Praha, 21.2.2013 2
  • 3. Archives New Zealand • 125 zaměstnanců • 4 regionální pobočky • rozpočet 25 mil. NZD (380 mil. Kč) na rok • 45TB dat • 2 digitální repozitáře • 96 km papírových archiválií • 1 LTP systém (Rosetta, ExLibris) • 2.4 milionu fotografií a negativů • 552.000 map a plánů • 21.500 filmových kotoučů • 1.000 video pásek atd. Praha, 21.2.2013 3
  • 4. Praha, 21.2.2013 4 http://upload.wikimedia.org/wikipedia/commons/8/80/Archives_New_Zealand_building_in_Wellington.JPG
  • 5. Struktura Department of Internal Affairs Praha, 21.2.2013 5
  • 6. Public Record Act 2005 • zahrnuty i dokumenty v digitální podobě • nutnost je získávat, uchovat, zpřístupňovat • agentury musí posílat dokumenty starší 25 let do archivu (skartační řízení atd.) • „Informace z vládního sektoru identifikované jako archiválie musí být bezpečně dlouhodobě chráněny tak, aby se neztratily, nebyly pozměněny nebo neoprávněně užívány. Musejí zůstat vyhledatelné a čitelné, procesy a systémy toto zajišťující musejí být nenáročné na náklady a údržbu a musejí vyhovovat uživatelům.“ • informace musí být autentické – audit událostí Praha, 21.2.2013 6
  • 7. Government Digital Archive Programme - GDAP • projekt na implementaci digitálního archivu + transformaci ANZ • instituce veřejného i soukromého sektoru přecházejí na digitální dokumenty • ANZ nebylo schopno digitální dokumenty organizovaně přijmout, zpracovat, zpřístupnit • dlouhodobé uchování – samostatný problém • tj. celková neschopnost dostát povinnostem z Public Record Act 2005 • vnímáno velmi negativně veřejností i institucemi (otevřená vláda, omezený přístup k veřejným informacím atd.) Praha, 21.2.2013 7
  • 8. Government Digital Archive Programme • projekt na 3 roky (2010-2013); náklady 12,6 mil. NZD (200 milionů Kč) na 4 roky (přechod na běžný provoz) • financování po 2014 je plánovanou součástí rozpočtu vlády • návaznost na vládní koncepce o přístupu k informacím a dlouhodobé ochraně dokumentů v digit. podobě • od počátku byla cílem aktivní dlouhodobá ochrana (vs. pasivní ochrana bit-streamu – IDA) • cílem co nejrychlejší implementace existujícího a funkčního LTP systému + transformace instituce + změnit myšlení lidí i původců • samotné instituce začaly na Archives NZ tlačit (problémy s daty, ztráty atp.) Praha, 21.2.2013 8
  • 9. 3 fáze GDAP 1. Fáze – online zpřístupnění digitalizovaného obsahu (září 2012) • najít, stáhnout zdigitalizované volné dokumenty přes Internet • data uložena v Rosettě (migrace a SW Ingestor) • Ingestor v1.0 – jednotliviny, pouze TIFF/PDF/XML 2. Fáze – transfery digitálních dat (březen 2013) • Ingestor v2.0 – bulk ingest, různé reprezentace, více formátů • synchronizace DB Archway, Rosetty a Ingest service (Ingest via Archway) 3. Fáze – zabezpečený online přístup a procesy dlouhodobé ochrany (červen 2013) • zpřístupnění k archiváliím s omezením přístupu (veřejnost i původce) • omezení lze upravovat, udělovat/odebírat (70let + možnost prodloužení) – lze žádat o přístup i přes omezení • rutinní provádění procesů DP Praha, 21.2.2013 9
  • 10. GDAP a proměna Archivu NZ • maxim. míra integrace „digi“ procesů do procesů stávajících • GDAP = přerod celé organizace • jejích procesů a způsobu řízení • změna technického zajištění • ANZ musí být schopen fungovat novým způsobem • výsledek a nová podoba Archivu NZ se dotkne všech • také „nedotčení“ pracovníci musejí být ztotožněni s cíli a významem této změny; musejí chápat přínos a jak se změní jejich denní činnosti • zaměstnanci jsou průběžně seznamováni s postupem GDAP • několikastupňové školení pro interní pracovníky a kolegy z regionů – podstata DP, využití archivu, nové procesy, transfery digitálních dat, jednání s původci aj. Praha, 21.2.2013 10
  • 11. Co předcházelo GDAP? • GDAP vznikl na základě starších přípravných aktivit (koncepce, legislativa, získávání znalostí atd.) • cíl získat/vychovat odborníky pro digitální archiválie, ERDM systémy apod. • nepřidávat tuto problematiku stávajícím archivářům • 2006 vzniklo oddělení Digital Continuity, 2007 schváleno financování tohoto oddělení v rámci vládní podpory uchování digitálních informací • první hlavní výstup akční plán (Digital Continuity Action Plan, DCAP, 2009) Praha, 21.2.2013 11
  • 12. IDA (Interim Digital Archive) • IDA – dočasné řešení pro data z digitalizace, 2008- 2012, 45TB • Fedora SW na správu dat • žádné procesy dlouhodobé ochrany (identifikace formátů, extrakce MD, preservation plan etc.) • ochrana bit-streamu, kontrola přístupů, kontr. součty apod. • propojení do systému na popis archiválií, vyhledávání a zpřístupnění (Archway Staff a Public) • migrace dat do LTP systému Rosetta Praha, 21.2.2013 12
  • 13. Zdroje dat pro digitální archiv ≈ LTP systém Rosetta • digitalizace • on site + externě (NZ micrographics) + on demand do 2h • TIFF > JPG + PDF; přechod na JPEG2000 • i regiony (Dunedin, Christchurch, Auckland) • ingest přes ingestor • dlouhodobá ochrana není plánována pro všechna data • transfery born-digital dokumentů • dlouhodobá ochrana pro všechna data • různé formáty – snaha omezit • ingest via Archway Staff a ingestor service • pilotní transfery – viz dále • migrace z repozitáře IDA • 45TB – převážně digitalizovaná data, TIFF • data extrahována z IDA skriptem, další skript vytvoří SIP (METS) pro Ingestor service Praha, 21.2.2013 13
  • 14. Government Digital Archive – technické systémy AGENCIES selected digital WEB APPS information ARCHWAY unrestricted items Agency tools Search & display standard transfer format file intellectual CONTENT metadata AGGREGATORS tools Archives’ transfer / digital restricted items content & ingest Digital Identity/ technical Access processes metadata AGENCIES Repository selected digitised copies Preservation processes secure logon; agency Data storage & server links to PUBLIC infrastructure “their” AGENCIES records USERS or shared with NDHA (National ARCHIVES Library), supported by GTS
  • 15. Government Digital Archive – policies Digital RK AGENCIES processes, advice Archives control / description WEB ARCHWAY Online standards and APPS services processes Search & display Agency tools strategy – and ingest CONTENT processes public users Transfer policy and processes Appraisal policies and AGGREGATORS processes tools Archives’ Access transfer / ingest Identity/ Access processes Digital PUBLIC Repository Digital USERS preservation Digitisation Preservati policies and strategy & on Online processes processes processes services strategy - AGENCIES data storage & server AGENCIES agencies or infrastructure ARCHIVES
  • 16. Jak ovlivní digitální archiv jednotlivé role (výběr)? • klasický archivář – popis, archivní zpracování, skartační řízení • postupy stejné, ale nové technologie – SW, papír vs. digi • nové znalosti pro skartační řízení • transfer je diametrálně odlišný, ne proces, ale způsob • může ovlivnit samotné LTP – bulk delete • původce • nový typ transferu • nové nároky na dokumenty – určité formáty • možné změny proERDMS • oddělení digitalizace • ovlivněno velmi – nutná spolupráce s dig. archiváři • výběr formátů, kontrola výstupů ext. i inhouse digitalizace (JHOVE) • uživatel/občan • stát • vědomí, že po papíru nepřišla potopa • transparentnost > spokojený občan • znovu využití informací Praha, 21.2.2013 16
  • 17. Personální obsazení – provoz LTP systému • 2 PÚ admin – nastavení, migrace dat z IDA; skripty na hromadné opravy dat z migrace co se chytí do TAW; správa/analýzy DB, architektury etc. • 2 PÚ DP analytik – nastavení LTP systému, koncepce ochrany, policies, procesy, komunikuje s archiváři co chtějí, řeší TA problémy, plány rozvoje funkcionality LTP, organizuje updaty, spolupráce s ExL, analýzy formátů … • 0,5 PÚ sys admin - DB, servery, storage, restarty, updaty apod. (NK NZ) • 3 PÚ archivář (recordkeeping) - domluva transferů s původci, analýzy archivního popisu, mapování metadat, archivní standardy, omezená manipulace s daty (vymazaní do odpadkového koše např.) v LTP • 0,2 PÚ vývojář – stará se o aplikaci pro ingest (vývoj, opravy atd.) Praha, 21.2.2013 17
  • 18. Personální obsazení – další úvazky v GDAP • v GDAP vznikly úvazky Business Analyst a Business Change Manager • klíčoví pro GDAP a přeměnu Archivu NZ • most mezi běžnými procesy a programem • pracují s archiváři na identifikaci potřebných změn • tyto změny pak vedou k jejich naplnění. • vývojáři (3-4) – převádějí potřeby odborných archivářů do podoby funkčních aplikací nebo vylepšení stávajících • případové studie (use case) pro desítky jednotlivých procesů a funkcionalit • testeři (3-4) - systematicky testují práci vývojářů podle use casů • po ukončení GDAP tito lidé nebudou v Archives NZ pokračovat • již nyní se intenzivně pracuje na budoucí podobě práce a procesů bez těchto pracovníků • zůstává kompletní oddělení Digital Continuity Praha, 21.2.2013 18
  • 19. Aplikace pro implementaci GDA - Ingestor • na vkládání dat do archivu (LTP systému) – vývoj začal v rámci GDAP • web klient + ingestor service • jednotliviny nebo větší balíky dat • 1 jednotlivost = 1 SIP - záměrně • různé formáty, pouze PM nebo i MM a AC (kde nutno – video apod.) • web klient je pro archiváře; ingestor service vytváří SIP (METS), včetně multipage PDF pokud nutno • normální ingest vs. urgentní ingest • propojeno s DB Archway – pro popisná metadata (4 pole) a ingest via Archway; s Rosettou pro autentikaci a deposit API (reporty o ingestu) • vytváří administrativní metadata • systém validace formátů před odesláním • kontrola množství dat ve frontě na ingest (noc, den) • reporty – přehled ingestů uživatele, jejich status apod. Praha, 21.2.2013 19
  • 20. Aplikace pro implementaci GDA – Archway Staff • Archway Staff i Public existovaly před GDAP • v rámci GDAP je pouze změna Archway Staff – model popisu archiválií • interní aplikace pro archiváře, funkční od 2002 • archivní management systém používaný k popisu kontextových entit (organizace, jurisdikce, funkce, původce, série) a samotných archiválií (dokumentů a jednotlivostí) • workflow ke sledování schvalovacího procesu, zaznamenává jednotlivé kroky a změny • archiváři jej také využívají k vyhledávání v metadatech archiválií nedostupných přes Archway Public • mnoho variant rolí a oprávnění pro různé pracovníky • omezení přístupu spravováno přes Archway, ne přes LTP Praha, 21.2.2013 20
  • 21. Aplikace pro implementaci GDA – Archway Public • zpřístupněno 2005 – univerzální portál pro interakci uživatele s ANZ • relativně dost změn do současnosti • aplikace na vyhledávání v metadatech za účelem nalezení fyzických, a nově i digitálních, archiválií (jednotlivostí), sbírek nebo sérií a jejich kontextu • umožňuje navigovat mezi kontextovými entitami, tedy souvisejícími dokumenty, úrovněmi popisu apod. • zpřístupňuje data a tech. MTD z LTP Rosetta (různé reprezentace jednotlivosti) • otázka prohlížečů (Rosetta interní vs. externí) • obsahuje pouze entity, které byly zkontrolovány a odsouhlaseny ke zveřejnění • Archway báze - společná pro Archway Public i Staff - obsahuje elektronické záznamy o 4,6 milionech jednotlivostí • každá má popisné údaje, údaje o dostupnosti apod. • http://www.archway.archives.govt.nz/ Praha, 21.2.2013 21
  • 22. Vývoj aplikací okolo Rosetty • business analýza – požadavky funkční nefunkční (business + BA) • vznikne Use Case • rozčleněn na karty pro vývojáře > vývoj funkcionalit • testeři testují pak kompletní UC (ne dle karet) > reporty, issues, opravy > business acceptance testing > na konci všichni podepíší (další požadavky nelze začlenit) • DIA testing agency (GTS) pro všechny vládní úřady • profesionální testeři - vědí jak testovat • test plans pro UC > varianty positivní, negativní, variantní; dopady, rizika atd. Praha, 21.2.2013 22
  • 24. LTP Rosetta • programy DCAP a později GDAP vznikaly zároveň s projektem NK NZ National Digital Heritage Archive (NDHA) • od roku 2005 vznikaly v NK NZ požadavky na digitální archiv a LTP systém pro logickou dlouhodobou ochranu dat • vývoj probíhal ve spolupráci s ExLibris – NK dodala funkční a nefunkční specifikace, ExLibris vývoj • LTP Rosetta byl v NK NZ ve verzi 1 zprovozněn v roce 2008 a je komerčně nabízen jako Rosetta (nyní ve verzi 3.1) • šlo o první instalaci systému na světě > dnes jej používá více než 15 institucí po celém světě • Rosetta podporuje konsorciální využití pro více institucí (entit), které mají možnost spravovat pouze svá data a svoji část systému Praha, 21.2.2013 24
  • 25. Varianty GDAP a cesta k LTP Rosetta SP GDAP – 4 varianty řešení 1. rozšíření stávajícího řešení NK NZ (2008) = nákup další licence na systém Rosetta a rozšíření HW vybavení v kombinaci s tvorbou nových procesů, strategií a úprav stávajících systémů; 2. výběrové řízení na LTP systém a infrastrukturu 3. rozšíření a rozvoj dočasného repozitáře IDA 4. nedělat nic • v květnu 2010 vláda schválila variantu 1) • varianta 2) vyhodnocena jako zbytečný výdaj nákladů na organizaci tendru, jehož nejlepším výsledkem by bylo stejné nebo velmi podobné řešení, jaké má již NK NZ Praha, 21.2.2013 25
  • 26. Rosetta v Archivu NZ a NK NZ sdílení LTP systému Rosetta a vzájemná spolupráce vyžadovalo: • rozšíření jádra softwaru Rosetta a hardwarové infrastruktury (servery, úložiště aj.); • integraci systému Rosetta s aplikací Archway; + s novou aplikací na vkládání jednotlivostí do digitálního archivu - Ingestor; • rozšíření funkcionality systému Rosetta o několik procesů požadovaných pro Archiv NZ (bulk delete externí; vytvořit set dat ze souboru) • osvojení nových znalostí a nábor nových pracovníků v Archivu NZ; • začlenění problematiky DP do aktivit, které Archiv NZ běžně provádí, zkoumá je a dále rozvíjí; • spolupráci s NK na sdílených strategiích, procesech, administraci, vytvoření pravidel, dokumentace apod. Praha, 21.2.2013 26
  • 27. Klíčové technické výzvy • první implementace Rosetty v archivu • první implementace konsorciálního modelu Rosetty (nyní již více zákazníků) • sdílení úložiště dat, systému, správy s NK NZ • komplexní integrace se systémem Archway (duplicitní prohlížeče, provázání dat a MTD, synchronizace); Archway je výchozí systém pro popisná MTD • vývoj pro aplikaci, která se stále vyvíjí (nové verze > testování) • migrace dat ze starého repozitáře (nakonec ne tak komplikovaná), problém jsou samotná data (chyby) • přechod na IaaS 2012-2013 – outsourcing serverů a storage do vládních datových center • proměnné prostředí – spojení ANZ a NK NZ; nová struktura ANZ; společný nákup HW a SW pro vládní úřady, sdílené služby, business požadavky atd. atd. Praha, 21.2.2013 27
  • 28. Co od LTP Rosetta potřebujeme • logická ochrana digitalizovaných dat • logická ochrana digital-born dat (transfery) • možnost konsorcia a flexibilního udělování rolí pracovníkům, dodavatelům • flexibilita pro různé typy storage • správa dat – výběr, manipulace, mazání, tvorba reprezentací • identifikace formátů • validace formátů > jednotná množina konkrétních verzí FF • extrakce metadat > nové extraktory > opakovaně • extrakce rizik, možnost přidávání rizik Praha, 21.2.2013 28
  • 29. Co od LTP Rosetta potřebujeme • flexibilita pro větší množství dat; pluginy (extraktory, identifikace FF, prohlížeče, nástroje na migrace atd.) a způsoby využití LTP • flexibilní workflow pro ingest • otevřenost – standardy dat i metadat • bázi FF, rizik, aplikací (FF bez aplikace = riziko) • prostředí na migrace (preservation planning modul) • komunitu (velmi silná spolupráce – nátlak na dodavatele, nové požadavky, sdílení znalostí) • vstřícnost dodavatele – roadmap, nové verze, respektování požadavků zákazníků Praha, 21.2.2013 29
  • 30. Format Library Applications SHARED DIGITAL Ingest ARCHIVE ROSETTA ROSETTA ROSETTA DEPOSIT STAGING PERMANENT Extract & Validation REPOSITORY Tools transfer list & contents metadata synchronisation Ingestor Tools ingest processing ARCHWAY • Check package format • Fixity (bit check) DATABASE SERVER • Check against transfer • Virus check agreement • Form SIPs • Identify file formats from Format Library • Fix or reject problems • Extract technical file metadata • Parse intellectual metadata & create Archway entries • Write technical metadata, preservation masters, access derivatives to digital repository
  • 31. Risks Applications Digital Digital preservation Archive (permanent processes – e.g. Storage) Migration Operational Format (temp) Library Storage Formats Risk Report Evaluate alternatives Preservation Monitor, fix, > Preservation Set Plan > Apply complete migration action
  • 32. Digital preservation Applications processes – e.g. Emulation Format Emulation Library software Digital Archive ARCHWAY
  • 33. Transfery dig. dat od původců • 5 pilotních transferů (Canterbury Earthquake Commission; Pike River Commission aj.) • počítáme s vyjednáváním s každým původcem • postupné osvojení zásad • nelze nic nařizovat – formáty apod. • STF (Standard Transfer Format) XML pro přenos metadat • mapování • diskuze s australskými a USkolegy • transfer musí být co nejjednodušší pro původce • nechceme aby původce migroval data do preferovaných formátů Praha, 21.2.2013 33
  • 34. Proměna práce s agenturami • záleží na tom jaké mají EDRMS • co z nich lze exportovat • zákonná lhůta pro odevzdání archiválií je 25 let – příliš dlouho pro digitální dokumenty • čím je čas od vzniku dokumentu do transferu delší, tím je ochrana a celý proces náročnější a dražší • migrování metadat do STF – případ od případu z počátku, systém od systému • snaha zachovat pořádání materiálu v EDRMS > nutno pochopit základní intelektuální model pořádání té instituce v EDRMS > pomůže s mapováním do STF a popisem • použití stejných EDRMS různým způsobem (Lotus Notes, Summation) > problémy při popisu entit Praha, 21.2.2013 34
  • 35. Jak probíhá transfer? • data a metadata od původců přenášena v balících • celistvost, integritu a strukturu dat kontroluje a obsahuje STF XML soubor • STF schéma bylo v Archivu NZ vytvořeno za účelem přenosu dat a metadat od původců • STF XML soubor > Archway Staff > automaticky vzniknou záznamy jednotlivostí > uložena do DB > archivář (kontrola, pořádání, vnitřní skartace) > ingest do systému Rosetta • do Rosetty technická a administrativní metadata, která byla součástí STF záznamu od původce • data mezitím čekala na pracovním úložišti - v okamžiku ingestu vkládána do Rosetty spolu s metadaty • zajištěno, že všechny jednotlivosti mají záznam v Archway bázi Praha, 21.2.2013 35
  • 36. Formáty dat • Archiv NZ musí být schopen akceptovat soubor v jakémkoliv formátu, pokud je pro svůj obsah vybrán k archivaci • Rosetta je schopna uložit jakýkoliv soubor a formát • Analýza pilotního transferu - 70 tisíc dokumentů (records) - 355 tisíc souborů v několika desítkách formátů • nejvíce běžné formáty kancelářských aplikací + soubory proprietární • interní směrnice pro transfery - nelze převzít soubory poškozené, zavirované, s neznámým obsahem apod. – otázka skartačního procesu • směrnice neuvádí jaké datové formáty lze akceptovat • pro původce bude publikován dokument o preferovaných formátech - nebude nařizovat, aby je původci vytvářeli Praha, 21.2.2013 36
  • 37.
  • 38. Zdroje • požadavek z DIA - za málo peněz hodně muziky • mírné omezování výdajů – spíše cesta zefektivnění • i tak schopnost zaplatit odborníky ze soukromého sektoru i ze zahraničí • marketing • plánování • risk management • zdroje na ICT – vláda je aktivní (centralizace HW, nákupů, sdílený desktop atd.) Praha, 21.2.2013 38
  • 39. Organizace • mandát, organizační rámec, business plan, řízení, reporting atd. • pochopení proč máme LTP systém • digitalizace - my si uložíme data jinam, protože je to levnější, LTP nás nezajímá • digitalizace pro ochranu vs. digitalizace pro přístup - patří pro přístup do LTP? ano nebo ne? • Rosetta není CMS, i když se to k tomu posouvá na žádost klientů - CMS vs LTP • nepotřebujeme LTP, zdigitalizujeme znovu • školení Praha, 21.2.2013 39
  • 40. Technologie • IT infrastruktura • DP procesy • udržitelnost a pokračování v budoucnu • preservation metadata • bezpečnost • audit a standardy Praha, 21.2.2013 40
  • 41. Problémy technické • identifikace formátů, extrakce metadat – problémem jsou data, ne LTP systém, ne jiné podpůrné systémy a aplikace • nedostatek nástrojů na extrakci metadat obecně • minimální znalost o formátech u původců – nikdo nekontroluje jak kvalitní PDF, Word etc produkuje • SW nevytváří soubory podle specifikací formátů > otázka co s tím – bude to vadit dlouhodobé ochraně? • debata o pre-condition – ano nebo ne? co je a co není autentické? • důraz na psané policies a popisy procesů, které odsouhlasí odpovědní pracovníci podpisem • chceme ochraňovat vše nebo něco je méně důležité? Praha, 21.2.2013 41
  • 42. Zpřístupnění • hlavní cíl, politika NZ vlády – zpřístupnit ideálně co nejvíce dat, využít novým způsobem • co není omezeno, zpřístupnit okamžitě • už teď víme, že původci budou opatrní • nevíme co to udělá s lidmi > digi není papír, spousta možností využití a vytěžení dat, dávání do souvislostí automaticky • co se stane až zpřístupníme maily instituce XY příští rok? např. Canterbury EQ commision • český přístup jen ve studovně nepřipadá do úvahy, lidé mají na public record nárok Praha, 21.2.2013 42
  • 43. Otázky do budoucna • škálovatelnost procesů typu pre-conditioning, ingest, migrace • Digital Preservation Centre of Excellence • certifikované externí repozitáře u původců? • Preservation-as-a-service • použití vládních datových center a GDA pro středně-dobé uložení • využití digitálního archivu pro neveřejné (tajné) dokumenty Praha, 21.2.2013 43
  • 44. Shrnutí • problémem není technologie (HW a SW), ale: • organizace • změna chápání lidí • chápání DP a toho co je LTP se mění a bude měnit • budování digitálního archivu a LTP je střelba na pohyblivý cíl – proměny technologií, organizační změny, krize atd. • spousta neznámých – zpřístupnění digital-born je odlišné od zpřístupnění papírových dokumentů • i přes podrobné plány stále nové a nové neznámé • povědomí o FF je minimální – původci nechápou proč chceme validní TIFF • nutno mluvit s původci o digitálních archivu, LTP a jeho funkčnosti – zatáhnout je do toho Praha, 21.2.2013 44
  • 45. GDAP je první krok … GDA program a jeho jednotlivé fáze vývoj v Archivu NZ nezakonzervují, právě naopak, položí základy k dalšímu rozvoji funkcionalit a služeb týkajících se digitálních dokumentů jak pro veřejnost, tak pro původce. Praha, 21.2.2013 45