Normalización y preservación digital

  • 1,865 views
Uploaded on

Normas ISO para la conservación de documentos digitales.

Normas ISO para la conservación de documentos digitales.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,865
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
84
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Normalización y preservación digital:de la gestión cultural a la continuidad delnegocioJornadas Innovadoc’08Ricardo Eito BrunUniversidad Carlos III de Madrid Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 1: UNA PROBLEMÁTICA CONOCIDA… PROBLEMÁ CONOCIDA…
  • 2. La preservación yEl ciclo de vida de los contenidos digitales El ciclo de vida de los contenidos digitales abarca las actividades relacionadas con su creación, almacenamiento, uso corriente (recuperación) y posterior archivo a corto, medio y largo plazo. Hasta la fecha actual, se ha prestado mayor atención a las técnicas relacionadas con las primeras etapas del ciclo de vida: ◦ Desarrollo de herramientas ◦ Desarrollo de sistemas de metadatos ◦ Desarrollo de estándares. Ejemplo: ◦ gestión de metadatos claramente enfocada a la recuperación ◦ Inversión en tecnologías GED prioritarias: indexación, workflow distribución, servicios de biblioteca.La preservación yEl ciclo de vida de los contenidos digitales Enfoque tradicional: “preservación + digital” equivalía a: ◦ Digitalización de documentos en papel, ◦ con el objetivo de evitar el uso de las versiones impresas y ◦ Garantizar la preservación de los originales. ◦ Se trataba de preservar documentos impresos usando representaciones digitales de los mismos que evitasen su deterioro. ◦ En los primeros sistemas de gestión de flujos de trabajo, la digitalización de documentos impresos constituía un medio para agilizar su tratamiento en el contexto de los procesos administrativos. La digitalización era una actividad orientada a la consecución de unos objetivos ajenos a la representación digital en sí misma. Prácticas asociadas normalmente a la protección de bienes culturales.
  • 3. La preservación yEl ciclo de vida de los contenidos digitales Enfoque actual: ◦ Estamos en un entorno caracterizado por: generación de documentos en formato electrónico directamente Interrogantes y dudas sobre la validez legal y carácter probatorio de los documentos Documentos vs Datos, y Documentos con mayor complejidad estructural Cada día más transacciones de las que no existe una evidencia en papel. Especial atención a cuestiones relativas a la Seguridad de la Información y de los activos “menos tangibles” de las organizaciones. ◦ ha supuesto un cambio de aproximación necesario: las copias impresas se generan para soportar actividades de trabajo y el uso de los documentos, los documentos se almacenan y transmiten en soporte digital El documento digital pasa a ser el objeto de la preservación, y no el medio.La preservación yEl ciclo de vida de los contenidos digitales Enfoque actual: ◦ Prácticas asociadas a: Protección de bienes culturales / patrimonio documental Protección de la organización (de sus actividades, derechos, PI) Aseguramiento de la continuidad de las actividades. Protección de registros e “información basada en documentos” ◦ Implicaciones adicionales a la accesibilidad para garantizar en el largo plazo: Inteligibilidad de la información Confidencialidad en el acceso Autenticidad de los objetos Integridad de la información ◦ ISO 15489-1, 7.1 “To support the continuing conduct of business, comply with the regulatory environment, and provide necessary accountability, organizations should create an maintain authentic, reliable and useable records, and protect the integrity for those records for as long as required”
  • 4. La preservación yEl ciclo de vida de los contenidos digitales ¿Qué significa “largo plazo”? ◦ ISO/TR 18492:2005: “Long-term preservation of electronic document-based information” ◦ “Cuando el periodo de conservación excede la expectativa de vida de la tecnología (hardware y software) utilizada para crear y mantener la información” ◦ Periodo variable ◦ Depende de las características y necesidades de cada organización. ◦ ISO/PDTR 26102:2007: “Tiempo lo suficientemente amplio como para tener que preocuparnos por el impacto de cambios en la tecnología, nuevos media y formatos de datos, o por una comunidad de usuarios cambiante. Se puede extender indefinidamente.”La preservación yEl ciclo de vida de los contenidos digitales ¿Qué significa “documento”? ISO/TR 18492:2005, “Long-term preservation of electronic document-based information” ◦ Información “auténtica” basada en documentos: “Información que puede tratarse como una unidad (por ejemplo una imagen, texto, hoja de cálculo, vistas de una base de datos)” “Información electrónica cuya exactitud, fiabilidad e integridad se mantiene a lo largo del tiempo” ◦ Información + Contexto + Estructura: “Contexto: información acerca de las circunstancias de creación, control, uso, almacenamiento y gestión de la información-e basada en otros documentos; e información acerca de su relación con otro material similar” “Estructura: atributos lógicos y físicos de la información (jerarquía con apartados, tipo de fuente, espaciado, etc.)” ◦ Estos tres aspectos son inicialmente el objeto de la preservación digital
  • 5. La preservación digitaluna problemática bien conocida… Una de las grandes incógnitas relacionadas con la documentación en soporte electrónico es su preservación futura Dentro de un número no determinado de años, ¿podremos seguir accediendo a estos materiales de la misma forma en que hoy accedemos a los documentos impresos años y siglos atrás? ◦ Los documentos digitales no sólo exigen conservar sus soportes en un estado óptimo que permita su uso, ◦ también es necesario: mantener y asegurar el correcto funcionamiento de los equipos informáticos (hardware y software) empleados para acceder a ellos Mantener la capacidad de interpretar los formatos en los que están codificados los documentos.La preservación digitaluna problemática bien conocida… El problema anterior se acentúa por la continua evolución de la tecnología, que afecta: ◦ a los soportes, ◦ a los formatos y ◦ a las aplicaciones informáticas capaces de interpretarlos. Las presiones del mercado obligan a revisar y actualizar formatos y programas informáticos: La continua evolución genera en ocasiones: ◦ versiones incompatibles de un mismo aplicativo software o formato, y ◦ dificultades para reconocer los documentos creados con las versiones anteriores de un programa. Evolución continua Obsolescencia Innovación ¿posible enemigo de la normalización?
  • 6. La preservación digitaluna problemática bien conocida… A corto plazo estos problemas pueden evitarse gestionando con atención la evolución de los “parques informáticos” de las instituciones, A largo plazo la situación exige un enfoque sistemático, dada la dificultad de prever la evolución futura de las tecnologías. Una actuación adecuada exige: ◦ Formulación de políticas y planes orientados a la preservación de los documentos y recursos de información digital. ◦ Los objetivos de estas políticas no deben centrarse únicamente en la conservación de los materiales, sino también en asegurar su uso mediante la infraestructura técnica necesaria para acceder a ellos. ◦ Se debe atender a cuestiones relativas a la autenticidad e integridad de los documentos.La preservación digitaluna problemática bien conocida… Así, las políticas y estrategias de preservación de documentos electrónicos deben prestar atención a tres factores: ◦ la obsolescencia de los soportes físicos utilizados para su almacenamiento, ◦ la obsolescencia de los formatos empleados para su codificación, y ◦ la obsolescencia de las aplicaciones informáticas y equipamiento hardware necesarios para su lectura.
  • 7. La preservación digitaluna problemática bien conocida… Hay dificultades adicionales a las “técnicas” Muchas de las medidas que se deberían adoptar están en manos de terceras partes: productores de contenidos fabricantes de aplicaciones hardware y software. Cuyos intereses pueden entrar en conflicto con las recomendaciones para la preservación.◦ Ejemplo: aunque se recomienda el uso de formatos estándares el productor de contenidos puede optar por elegir formatos menos costosos o que le permitan diferenciarse de sus competidores. La concienciación y colaboración de los distintos actores que intervienen en la producción, gestión, almacenamiento y distribución de los contenidos se convierte en un imperativo para disponer de garantías a largo plazo.La preservación digitaluna problemática bien conocida… Las organizaciones que desarrollan políticas de preservación digital contraen una importante responsabilidad como: ◦ Garante de la continuidad del legado intelectual, científico o literario de una comunidad y de su preservación para las siguientes generaciones. ◦ Garante de la “continuidad administrativa” de una organización. ◦ Garante de la integridad de los documentos digitales – es decir, el que nadie pueda alterar su contenido intencionada o accidentalmente, ni su autenticidad. ◦ Establecer criterios de selección: en el medio digital no se puede pretender preservar todo lo que se publica/genera. ◦ Asumir complejidad y costes técnicos
  • 8. La preservación digitaltécnicas ampliamente aceptadas… La literatura (texto y normas) y las prácticas profesionales describen una serie de técnicas en torno a las que articular un programa de preservación. ◦ Renovación de soportes o “rejuvenecimiento”, ◦ Migración de datos ◦ Preservación de sistemas informáticos ◦ Emulación ◦ Autodocumentación ◦ Uso de formatos estándaresLa preservación digitaltécnicas ampliamente aceptadas… Renovación de soportes o rejuvenecimiento ◦ Consiste en traspasar regularmente los datos de un soporte de almacenamiento a otro más moderno. No se hacen cambios en el formato de los datos; Migración ◦ Implica un cambio en el formato de los documentos para reemplazar su formato por otro más actual; Preservación de sistemas informáticos ◦ Costosa, exige mantener el HW y SW original en condiciones de uso. ◦ Se usa en periodos de retención cortos (entre 3-5 años una vez se ha reemplazado una tecnología) Emuladores ◦ También costosa, exige preservar las aplicaciones informáticas utilizadas para emular a la original. Auto-documentación/Encapsulado ◦ inclusión – como parte del documento – de la información necesaria para que éste pueda ser interpretado / comprendido por un “usuario” (SW o persona)
  • 9. La preservación digitaltécnicas ampliamente aceptadas… El rejuvenecimiento y migración (técnicas más comunes) deben realizarse de forma sistemática: ◦ planificada, ◦ siguiendo unos procedimientos, ◦ por personal competente y herramientas cualificadas, ◦ verificando sus resultados, y ◦ documentando la ejecución del proceso. Las transferencias y los cambios que se realicen en los documentos digitales pueden causar efectos no deseados que afecten a su contenido, legibilidad, o que pongan en duda su autenticidad e integridad.La preservación digitalMetadatos Todas estas técnicas exigen información sobre los materiales objeto de preservación, que se recogerá en forma de metadatos. Nos permitirán conocer datos como el tipo de aplicación informática necesaria para leer el documento, formato, versión, surrogados generados mediante algoritmos para evaluar su autenticidad, etc. El enfoque tradicional “mantener metadatos descriptivos para identificar y recuperar documentos” se completa con otros que garanticen su preservación, integridad, autenticidad y capacidad de usarlos.
  • 10. La preservación digitalMetadatos Estos metadatos para la preservación deberán quedar vinculados al objeto al que se refieren a lo largo de todo su ciclo de vida/preservacion. “Los metadatos se necesitan para permitir la re-creación e interpretación del contenido, contexto, estructura, apariencia y comportamiento de los registros digitales a lo largo del tiempo.” ISO/PDTR 26102.4 Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2: BREVE RESUMEN DE LA NORMATIVA
  • 11. La preservación digitalNormativa específica Incluimos normas e informes técnicos elaborados por organismos de normalización Cubren distintos aspectos: ◦ Formatos orientados a la preservación ISO 19005-1:2005, “Document management -- Electronic document file format for long-term preservation -- Part 1: Use of PDF 1.4 (PDF/A-1)” Especificaciones XML del W3C ◦ Prácticas de gestión y organizativas ISO 14721:2003, “Space data and information transfer systems -- Open archival information system -- Reference model” ISO/TR 18492:2005, “Long-term preservation of electronic document-based information” (UNE-ISO/TR 18492:2008 IN Conservación a largo plazo de la información basada en documentos) ISO/CD TR 26102, “Information and documentation -- Requirements for long-term preservation of electronic records” (periodo de comentarios) ◦ Metadatos para la preservación Iniciativa PREMIS (Library of Congress) Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2.1: BREVE RESUMEN DE LA NORMATIVA ISO 19005-1:2005, “DOCUMENT MANAGEMENT -- ELECTRONIC 19005- DOCUMENT FILE FORMAT FOR LONG-TERM PRESERVATION -- PART 1: LONG- USE OF PDF 1.4 (PDF/A-1)” (PDF/A- 1)”
  • 12. La preservación digitalISO 19005-1:2005, PDF/A-1 El uso de formatos estándares es una de las recomendaciones en todas las estrategias / políticas de preservación digital. Formatos independientes de fabricantes específicos, no sujetos a la evolución ni a presiones del mercado. Formatos que evolucionan en respuesta al consenso alcanzado por representantes de la industria y usuarios que participan en organismos de normalización. La función de los “depósitos de almacenamiento” incluiría la conversión de los documentos recibidos a formatos más idóneos para la preservación a largo plazo. El uso de formatos estándar es sólo un componente dentro de las estrategias de preservación (no un garante absoluto de ésta)La preservación digitalISO 19005-1:2005, PDF/A-1 PDF/A puede verse como una versión simplificada de la versión 1.4 del formato PDF, publicado por Adobe®. Puede verse como una versión “estabilizada” del formato. Hereda las ventajas del formato: independencia de plataforma, metadatos embebidos, archivos compactos, fidelidad al original, costes de producción bajos. 3 años de desarrollo, con la participación de: ◦ AIIM (Association for Information and Image Management), ◦ NPES (National Printing Equipment Association) ◦ Administrative Office of the U.S. Court ◦ Adobe Systems ◦ Library of Congress, ◦ NARA (National Archives & Records Administration). ◦ Xerox, EMC, Honeywell, EDS, etc.
  • 13. La preservación digitalISO 19005-1:2005, PDF/A-1 Establece: ◦ “un formato de archivo basado en PDF, llamado PDF/A, que ofrece mecanismos para representar documentos electrónicos de forma que preserva en el tiempo su apariencia visual, independientemente de las herramientas y sistemas usados para crear, almacenar o mostrar los archivos” Características del formato: ◦ Auto-contenidos, sin dependencias de enlaces u objetos externos. ◦ Se añaden restricciones a la versión 1.4 de PDF y se excluyen algunas características de este formato, con el fin de asegurar una mayor estabilidad. 2 niveles de conformidad, PDF/A-1a y PDF/A-1b (capacidad de extraer texto limitada). En proceso la revisión para adaptar características de PDF 1.5, 1.6 y 1.7 (PDF/A-2) Herramientas disponibles y soporte de la industria. Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2.2: BREVE RESUMEN DE LA NORMATIVA ISO 14721:2003, “SPACE DATA AND INFORMATION TRANSFER SYSTEMS -- OPEN ARCHIVAL INFORMATION SYSTEM -- REFERENCE MODEL”
  • 14. La preservación digitalISO 14721:2003, Modelo Referencia OAIS OAIS (Open Archival Information System) Define un modelo de referencia para un “archivo digital” (sería más correcto hablar de sistema de información de archivo). Modelo de referencia es: ◦ “marco para comprender las relaciones entre las entidades de un entorno determinado, para el desarrollo de estándares o especificaciones; un modelo de referencia se basa en un número pequeño de conceptos que pueden usarse como una base para la formación y para explicar las normas a personas no especializadas” Propone un modelo conceptual, independiente de implementación técnica. No debemos asociar este concepto con los archivos abiertos (open archives) y OAI (Open Archives Initiative)La preservación digitalISO 14721:2003, Modelo Referencia OAIS Su origen se encuentra en el sector espacial., en 1990 Publicada por el Consultative Committee for Space Data Systems (CCSDS), organismo en el que participan distintas agencias nacionales para desarro estándares para la gestión de datos espaciales. Reference Model for an Open Archival Information System (Blue Book Version) publicado en enero del 2002 ◦ Establece un modelo de referencia frente al cual se pueden evaluar los sistemas dedicados a la preservación digital. ◦ Define funciones que caracterizan a este tipo de organizaciones y los servicios que deben prestar a sus usuarios. ◦ La falta de un modelo similar que pudiese tomarse como referencia, hizo que OAIS pasase de ser un modelo genérico (no sólo para espacio).
  • 15. La preservación digitalISO 14721:2003, Modelo Referencia OAIS Un archivo digital u OAIS se define como una “organización formada por personas y sistemas que han aceptado la responsabilidad de preservar información y hacerla disponible (facilitar el acceso) para una determinada comunidad de usuarios.” OAIS no especifica una implementación particular del modelo; ni siquiera se mencionan sistemas informáticos, bases de datos o tecnologías particulares. Diferencia: ◦ Responsabilidades ◦ Entorno ◦ Modelo funcional ◦ Modelo de información Apartado 5 cita técnicas: transformación, rejuvenecimiento, preservación HW/SW, emulación y conservación del código fuente.La preservación digitalISO 14721:2003, Modelo Referencia OAIS Responsabilidades de un OAIS: ◦ Establecer criterios de selección para los materiales (consideración de derechos de autor y lograr el interés de los productores de información para depositar materiales); ◦ Aceptar información por parte de los productores (reglas establecidas para su ingreso); ◦ Asegurar que la información que se preserva es comprensible por la comunidad de usuarios ◦ Poner a disposición de los usuarios la información que se preserva ◦ Aplicar procedimientos y políticas documentadas que aseguren la preservación de la información frente a contingencias razonables y la difusión de copias de autenticidad contrastada. ◦ Control del uso que la comunidad hace del sistema
  • 16. La preservación digitalISO 14721:2003, Modelo Referencia OAIS Entorno de un OAIS Tres entidades externas que interactúan con el archivo: productores, usuarios y encargados de su gestión. ◦ OAIS debe ofrecer algún tipo de interfaz para que los productores puedan transferir o volcar información., regulada por algún tipo de acuerdo . ◦ Los usuarios o consumidores son las personas, organizaciones o sistemas informáticos que consultan los materiales preservados en el archivo. Soporte a búsqueda (ad hoc y basadas en eventos) y petición de documentos, asistencia, etc. ◦ Los encargados de la gestión del OAIS serán los responsables de formular las políticas, gestionar su financiación, establecer precios para los servicios que se prestan, revisar el funcionamiento del archivo y resolver conflictos con productores y usuarios.La preservación digitalISO 14721:2003, Modelo Referencia OAIS Modelo funcional de una OAIS ◦ Ingreso o admisión (ingest): proceso para la recepción de los objetos digitales procedentes de los productores;. ◦ Almacenamiento (archival storage): se refiere a la preservación de los objetos digitales en un archivo. ◦ Gestión de datos (data management): se encarga de la gestión y mantenimiento de los metadatos descriptivos. ◦ Planificación de la preservación (preservation planning): hace un seguimiento del entorno exterior del archivo para identificar la influencia de las nuevas tecnologías. ◦ Acceso (access): servicios que usarán los usuarios para consultar los materiales, solicitarlos y obtener copias. ◦ Gestión (administration): gestión diaria del archivo.
  • 17. La preservación digitalISO 14721:2003, Modelo Referencia OAISLa preservación digitalISO 14721:2003, Modelo Referencia OAIS CCSDS 650.0-B-1 detalla mediante representaciones gráficas cada uno de estos seis servicios, descomponiendo las actividades que conforman el servicio y el procesamiento que se espera se haga con los datos. Estos seis servicios se complementan con los llamados servicios comunes, que incluyen funciones relativas a la seguridad (claves de acceso, autenticación de usuarios, etc.), servicios de red, etc.
  • 18. La preservación digitalISO 14721:2003, Modelo de Información Modelo de información Propone la gestión de documentos digitales junto con los metadatos necesarios para su preservación. Se habla de un information package o IP, que reúne en una misma entidad el documento digital junto a sus metadatos. Distingue tres tipos de IP: ◦ el utilizado por los proveedores para enviar información al archivo, llamado Submission Information Package (SIP); ◦ el utilizado por el archivo para el almacenamiento y preservación de los objetos, llamado Archival Information Package (AIP); y ◦ el que se usa para la distribución de los objetos al usuario final, o Dissemination Information Package (DIP). La relación entre estos tres tipos de IP no es uno a uno.La preservación digitalISO 14721:2003, Modelo de Información
  • 19. La preservación digitalISO 14721:2003, Modelo de Información La distinción entre IP resulta en una mayor flexibilidad para las distintas partes implicadas en el mantenimiento y uso del archivo. ◦ Se acepta que distintas organizaciones pueden optar por usar distintos metadatos y formatos de transferencia. ◦ No toda la información necesaria para la preservación de la información podrá ser facilitada por el productor, ni será necesario facilitarla a los usuarios. El modelo exige contar así con mecanismos para la transformación entre los formatos y metadatos usados por los distintos IP.La preservación digitalISO 14721:2003, Modelo de Información Un IP consta de partes: ◦ Información-Contenido (Content Information o CI), consiste en el contenido a preservar y la información que los usuarios necesitan para comprenderla. ◦ Información de preservación / descriptión (Preservation Description Information o PDI), que recoge los metadatos necesarios para su preservación. ◦ Información de empaquetado (Packaging Information) – datos que agrupan el CI (Content Information) con el PDI (Preservation Description Information) en una única entidad. ◦ Información descriptiva (Descriptive Information) – son metadatos para facilitar la recuperación del objeto, búsquedas, etc.
  • 20. La preservación digitalISO 14721:2003, Modelo de Información Los metadatos para preservación se subdividen en: ◦ Información de referencia (Reference Information) – son los identificadores del objeto en el archivo, o externos tipo ISBN, DOI. ◦ Información de contexto (Context Information) – representa las relaciones del objeto con su entorno y con otros objetos (distintas versiones, copias en otros formatos, etc.) ◦ Información de procedencia (Provenance Information) – información sobre la creación del objeto, acciones que se ha hecho sobre él con el fin de preservarlo, cambios en su custodia, etc. ◦ Información de integridad (Fixity Information) –metadatos que permiten comprobar la autenticidad e integridad del objeto, como marcas digitales, check sums, hash, etc.La preservación digitalISO 14721:2003, Interoperabilidad OAIS plantea la posibilidad de consultar y acceder a datos disponibles en distintos archivos OAIS y tener interfaces. Establece cuatro niveles de clasificación de los OAIS: ◦ Independencia, cuando no existe ningún tipo de interacción con otros OAIS; el archivo atiende únicamente las solicitudes de su propia comunidad de usuarios. ◦ Cooperación: un OAIS actúa como usuario de otro OAIS ◦ Recursos compartidos – cuando existen acuerdos entre OAIS para compartir recursos. ◦ Federados – cuando varios OAIS sirven a una comunidad global a la que se ofrecen herramientas de búsqueda comunes. Normalmente se añadirá a este modelo un catálogo común
  • 21. La preservación digitalISO 14721:2003, aplicación en bibliotecas La especificación OAIS se formuló en el contexto de la gestión de datos espaciales. Pronto se reconoció su valor como una aproximación general, válida en cualquier contexto. La comunidad bibliotecaria desarrolló iniciativas que tomaron como punto de partida este modelo de referencia, : ◦ DIAS (Digital Information Archiving System) de la Koninklijke Bibliotheek (Biblioteca Nacional de Holanda e IBM) ◦ NEDLIB (Networked European Deposit Library) ◦ CEDARS (CURL Exemplars in Digital Archives). Proyecto conjunto de las universidades inglesas de Oxford, Leads y Cambridge ◦ PANDORA (Preserving and Accessing Networked Documentary Resources of Australia), proyecto de la National Library of Australia Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2.3: BREVE RESUMEN DE LA NORMATIVA ”ISO/TR 18492:2005, “LONG-TERM PRESERVATION OF LONG- ELECTRONIC DOCUMENT-BASED INFORMATION” DOCUMENT- INFORMATION”
  • 22. La preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document- information” Estado: 60.60 International Standard published Objetivos: ◦ “Marco para el desarrollo de estrategias y buenas prácticas aplicables a una amplia gama de información electrónica basada en documentos del sector público y privado” ◦ “Se aplica a todas las formas de información generada por los sistemas de información y guardada como evidencia de transacciones y actividades de gestión” ◦ Define características de la información que deben asegurarse: Legibilidad = estado del soporte, obsolescencia y vulnerabilidad. Inteligibilidad = capacidad de que un aplicativo SW interprete el formato Recuperabilidad = capacidad de que un aplicativo SW recupere secciones del archivo. Comprensibilidad = capacidad de que una persona/SW acceda al contexto del documento (relación con otros documentos u enlaces lógicos).La preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document - information” Recomendaciones (se pueden agrupar en): ◦ Relativas al uso de técnicas de preservación ◦ Relativas al uso de formatos estándares ◦ Relativas a aspectos organizativos y enfoque de gestión. ◦ Relativas a la seguridad de la información (física y lógica) ◦ Relativas al registro y control de las acciones de preservación ◦ Relativas a la auditoría de las acciones de preservación y al seguimiento de procedimientos.
  • 23. La preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document- information” Recomendaciones: Técnicas de preservación: ◦ Menciona la renovación de soportes, migración de información, autodocumentación (no aborda emulación). ◦ “La estrategia debería abordar la obsolescencia de los soportes estableciendo procedimientos para transferir periódicamente la información de soportes antiguos a nuevos” ◦ “Una estrategia de conservación a largo plazo debería abordar la cuestión de la dependencia del software. “ “Cuando se actualiza el software la información debería trasladarse automáticamente, junto con el esquema de representación física subyacente, y el contenido y el contexto, al nuevo entorno.” ◦ “Uso de soportes no reescribibles, accesos sólo-lectura, códigos CRC, funciones hash o similar para poder verificar la integridad de los documentos” ◦ “Información inteligible para el ordenador”La preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document - information” Recomendaciones: Uso de formatos estándares: ◦ “Asegurar que los datos se formatean de manera que los usuarios en el futuro procesen los datos (formatos válidos para cualquier tecnología)” ◦ “Los depósitos de almacenamiento deberían considerar la migración desde una amplia variedad de formatos utilizados por los creadores o receptores a […] formatos “normalizados” a partir de su transferencia a la custodia del depósito. “ ◦ Formatos citados de forma explícita: PDF/A, TIFF, JPEG y XML
  • 24. La preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document- information” Recomendaciones: Enfoque de gestión/SegInf.: ◦ Establecer un depósito de almacenamiento ante la dificultad de proteger la información de ser alterada mientras permanezca en un entorno de producción. ◦ Crear políticas y procedimientos documentados ◦ Aclarar y documentar roles y funciones del personal ◦ Identificar el tipo de custodia y las circunstancias en las que se iniciarán acciones de preservación, técnicas a usar, etc. ◦ Establecer controles y auditorías de conformidad ◦ Disponer de registros y control de acceso para el personal ◦ Disponer de medidas de seguridad física contra desastres ◦ Establecer procedimientos de recuperación ante desastres ◦ Disponer de una instalación de almacenamiento secundaria para las copias de seguridad de los soportes de almacenamientoLa preservación digitalISO/TR 18492:2005, “Long-term preservation of electronic Long-document-based information”document - information” Recomendaciones: Registro de actividades preservación: ◦ Documentación minuciosa y completa de todos los pasos seguidos en el reformateo. ◦ Personas (agentes) que ejecutaron el proceso; ◦ Fecha en que tuvo lugar; ◦ Formato de los datos; ◦ Comparación de los valores CRC o hash generados antes y después de la operación; ◦ Comparación visual de instancias reformateadas con sus equivalentes en el antiguo formato. Recomendaciones: Auditoría de actividades preservación: ◦ “Una tercera parte debería revisar estas acciones para determinar que se llevaron a cabo de acuerdo con procedimientos establecidos. “
  • 25. Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2.4: BREVE RESUMEN DE LA NORMATIVA ”ISO/CD TR 26102, “INFORMATION AND DOCUMENTATION -- REQUIREMENTS FOR LONG-TERM LONG- PRESERVATION OF ELECTRONIC RECORDS” RECORDS”La preservación digital ISO/CD TR 26102, “Requirements for long-term long-preservation of electronic records Estado: 30.60 (en desarrollo) Extiende requisitos sobre gestión de documentos de la ISO 15489-1, en aspectos relacionados con su preservación a largo plazo. La política de gestión de documentos incluirá: ◦ Compromiso con las actividades preservación (disponer de recursos) ◦ Uso de estándares ◦ Descripción de prácticas de preservación ◦ Descripción de roles y funciones. ◦ Sistemas de auditoría ◦ Identificar situaciones donde se inician acciones de preservación. ◦ Normalización de formatos, herramientas y dispositivos almacenamiento.
  • 26. La preservación digital ISO/CD TR 26102, “Requirements for long-term long-preservation of electronic records Prácticas específicas: ◦ Captura de metadatos automáticamente ◦ Crear un sistema centralizado para la preservación de registros. ◦ Asegurar existencia de logs y datos de auditoría ◦ Implementar controles de acceso y seguridad ◦ Migrar registros digitales a nuevos sistemas. ◦ Señala características deseables de los formatos de archivo ◦ Referencia a políticas de seguridad, firma digital, encriptado, compresión, etc. Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 2.5: BREVE RESUMEN DE LA NORMATIVA “PREMIS (PRESERVATION METADATA IMPLEMENTATION STRATEGIES)” STRATEGIES)”
  • 27. La preservación digitalPREMIS: normalización de metadatos Resultado de sintetizar los logros de iniciativas anteriores Formuló un estándar que recogiese las conclusiones de experiencias previas. El grupo de trabajo se estableció en 2003 (OCLC y RLG), con la participación de expertos procedentes de bibliotecas, archivos y museos de distintos países bajo la coordinación de Rebecca Guenther y Priscilla Caplan. En la actualidad la información sobre PREMIS y el mantenimiento de sus especificaciones está disponible en el sitio web de la Library of Congress. Si OAIS plantea un modelo de referencia genérico, PREMIS ofrece información más detallada sobre los metadatos que deben gestionarse y los esquemas XML para su codificación. ¿dos extremos en la evolución de la preservación digital?La preservación digitalPREMIS: normalización de metadatosPrecedentes y trabajo previo En 2000, OCLC y RLG crearon grupo de trabajo , Preservation Metadata Framework Working Group, cuyas conclusiones se publicaron en un informe publicado en enero del 2001 En junio del 2002, publicó el informe Preservation Metadata and the OAIS Information Model: A Metadata Framework to Support the Preservation of Digital Objects. Se tomó como punto de partida el modelo de referencia OAIS para identificar un conjunto de metadatos para la preservación (muchos procedentes de conjuntos de metadatos ya usados en CEDARS, NLA o NEDLIB),
  • 28. La preservación digitalPREMIS: normalización de metadatosPREMIS: Objetivos e hitos Definir un conjunto de metadatos para la preservación, que tuviese un carácter práctico (es decir, que pudiesen implementarse y utilizarse en un sistema real) y Evaluar alternativas para su codificación, almacenamiento e intercambio. Preparación de programas pilotos para verificar conclusiones Los principales hitos en el desarrollo de PREMIS han sido ◦ Informe Implementing Preservation Repositories for Digital Materials: Current Practice and Emerging Trends in the Cultural Heritage Community; en septiembre del 2004 ◦ Data Dictionary for Preservation Metadata en mayo del 2005 (V2 abril 2008).La preservación digitalPREMIS: normalización de metadatosInforme Implementing… Resultados de una encuesta dirigida a setenta instituciones de trece países diferentes (aunque un 46% eran norteamericanas). Más tarde, en febrero del 2004, se distribuyó a trece instituciones más, obteniéndose un total de cuarenta y ocho respuestas, un 58% procedente de bibliotecas, un 15% de archivos, un 6% de museos y el 23% restante de otro tipo de centros (agencias gubernamentales, ONG, prensa, etc.). La encuesta incluía un amplio conjunto de preguntas: relativas al uso de tecnologías, metadatos y aplicaciones informáticas, la gestión de derechos de copia, disponibilidad de procedimientos para la preservación, etc.
  • 29. La preservación digitalPREMIS: normalización de metadatosData Dictionary for Preservation Metadata Describe exhaustivamente los metadatos identificados como esenciales para la preservación digital. Son metadatos válidos para cualquier tipo de formato de archivo, omitiendo propiedades que fuesen únicamente aplicables a formatos específicos. Habla de “unidades semánticas”: dato que debemos conocer para poder articular un programa de preservación; metadato sería la forma en que lo registramos. Culminación de iniciativas anteriores y principal referente en la normalización de metadatos para la preservación. El grupo de trabajo PREMIS también ha publicado unos esquemas XML para la codificación de estos metadatos.La preservación digitalPREMIS: normalización de metadatosMetadatos y entidadesLos metadatos se organizan en torno a cinco entidades: Entidad intelectual: contenidos tratados como una unidad, por ejemplo una monografía. Objeto: corresponde a un documento en formato electrónico, como puede ser un archivo en formato PDF, TIFF, ZIP, etc. Constituye la principal entidad del modelo. Eventos: actividades que se realizan para la preservación de un objeto, registro y almacenamiento en un archivo, rejuvenecimiento, migración, etc. Agentes: personas, entidades o aplicaciones SW relacionadas con un evento (no directamente con objetos) Derechos: permisos para hacer ciertas acciones sobre un objeto para su preservación. (se excluyen otro tipo de acciones)
  • 30. La preservación digitalPREMIS: normalización de metadatosTipos de objetos bitstream (secuencia de bits), file (archivos), correspondientes a los archivos procesables por un programa informático, filestream, equivalente al tipo file a todos los efectos, se usaría para archivos comprimidos, encriptados o incluidos dentro de otro archivo y representation (representación), resultado de agrupar todos los archivos necesarios para ensamblar un documento con entidad propia, y permitir una “presentación completa y razonable de la entidad intelectual correspondiente” (libro, documento compuesto, etc.).La preservación digitalPREMIS: normalización de metadatosMetadatos específicos PREMIS recoge metadatos para los objetos, eventos y derechos No se incluyeron en su alcance los metadatos para las llamadas entidades intelectuales, (la comunidad de usuarios ya dispone de numerosos sistemas de metadatos) ni agentes Hincapié en aquellos que puedan extraerse automáticamente de los documentos. Para cada unidad semántica se indica un nombre, definición, restricciones, aplicabilidad para cada tipo de objeto (representación, archivo secuencia de bits), carácter opcional u obligatorio, repetible o no, notas sobre la creación y mantenimiento del metadato, sobre su uso y ejemplos.
  • 31. La preservación digitalPREMIS: normalización de metadatosSemantic Unit EnvironmentCharacteristicSemantic components NoneDefinition An assessment of the extent to which the described environment supports its purpose.Rational If multiple environments are described, this element can help to distinguish among them.Data constraint Value should be taken from a controlled vocabulary.Object category Representation File BitstreamApplicability Applicable Applicable ApplicableExamples Unspecified Recommended Minimum MinimumRepeatibility Not repeatable Not repeatable Not repeatableObligation Optional Optional OptionalCreation / Maintenance Noes This value could be supplied by the submitter or by the repository. If environment software and hardware information is obtained from an environment registry, environmentCharacteristic might also be obtained from the registry. Note however that the criteria for “recommended” may be different for different repositories.Usage Notes Suggested values: Unspecified: no attempt made to provide this value Known to work = the object can be rendered in this environment Etc.La preservación digitalPREMIS: normalización de metadatos Un repositorio que cumpla con PREMIS debe registrar información para los metadatos marcados como obligatorios en el Diccionario. Los metadatos que tengan igual nombre que una “unidad semántica” de PREMIS, deben compartir la misma definición. PREMIS permite añadir metadatos adicionales a los que figuran en el diccionario, siempre que éstos no entren en conflicto con los descritos en él. No se exige ningún tipo de implementación particular para los metadatos (forma de almacenarlos, uso de XML, etc.). Únicamente se dan recomendaciones como tratar de automatizar en la mayor medida que sea posible la extracción de los metadatos a partir de los objetos que se añadan al repositorio, o utilizar vocabularios controlados para los valores de algunos metadatos.
  • 32. La preservación digitalPREMIS: normalización de metadatosLa preservación digitalPREMIS: normalización de metadatos
  • 33. La preservación digitalPREMIS: normalización de metadatosLa preservación digitalPREMIS: normalización de metadatos
  • 34. La preservación digitalPREMIS: normalización de metadatosImplementación Sirve como referencia para herramientas en desarrollo/existentes. Se dispone de herramientas para automatización de captura de metadatos: JHOVE, NLNZ Metadata Extraction Tool, DROID, XENA… Registros de formatos: Pronom y Global Digital Format Registry (GDFR) Necesidad de gestionar metadatos adicionales Nivel de entidad intelectual Derechos y agentes Posibilidad de combinar metadatos PREMIS con otros sistemas de codificación de documentos electrónicos que actúan como “contenedores” (METS/MPEG DID ISO/IEC 21000-2: Digital Item Declaration) Normalización y preservación digital: de la gestión cultural a la continuidad del negocio PARTE 3: CONCLUSIONES
  • 35. La preservación digitalConclusiones Nivel de normalización suficiente para articular sistemas y desarrollar iniciativas. Las normas actuales ofrecen pautas a nivel de: Modelos y prácticas de gestión Sistemas de metadatos Formatos de almacenamiento. Estado de las herramientas, posiblemente deficitario en ciertos aspectos puntuales. Amplias posibilidades abiertas por los sistemas código abierto. Fomentar la visibilidad de las iniciativas de preservación: Se encuadran en proyectos de Biblioteca Digital enfocados a la creación / difusión preliminar y pueden quedar en un “lugar secundario”. Integrar con / adoptar prácticas “Seguridad Información”.