Archivo web fesabid1

1,489 views
1,383 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,489
On SlideShare
0
From Embeds
0
Number of Embeds
159
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Archivo web fesabid1

  1. 1. El archivo de Internet, bibliotecas que piensan en el futuro Mar Pérez Morillo Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
  2. 2. Índice – Contexto • Consideraciones generales – Panorama internacional • IIPC • Biblioteca Nacional de Francia • Biblioteca Nacional de Austria • ISO TC 46/SC 8/WG 9 – La ley de Depósito Legal – El proyecto de la BNE • Primeros pasos • Situación actual – Planes inmediatos • Perspectivas de futuroBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 2
  3. 3. Contexto Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003) – Volumen de los datos. – Duración de la información en línea (44 días y 2 años). – Internet constituye un invalorable espejo de la sociedad. – La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 3
  4. 4. Contexto: consideraciones generales – Tarea llena de retos – Finales de los 90: Internet → fundamental en la difusión del conocimiento – Los documentos en línea desaparecen de repente – Falta de perspectiva histórica: valor impredecible – La web no es un depósito de ejemplares – Características de la web: grande, global, rápida, intangible, universalBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 4
  5. 5. Panorama Internacional: IIPC – Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive – Adquirir, preservar y hacer accesible la información en internet para el futuro – Objetivos: • Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet • Desarrollar herramientas comunes para crear archivos internacionales • Defender iniciativas internacionales con este propósito • Apoyar a instituciones dedicadas a esta tareaBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 5
  6. 6. Panorama Internacional: IIPC – Grupos de trabajo muy activos: • Recolección • Acceso • Preservación – Proyectos de colaboración: • Facebook • Wikileaks • Terremoto y tsunami en Japón (Internet Archive - National Diet) • Olimpiadas 2012 • MementoBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 6
  7. 7. Panorama Internacional – BnF (Biblioteca Nacional de Francia) → desde 2002 • Al amparo de su ley de DL • Sólo acceso para investigadores en sus instalaciones • Combinan recolección masiva y selectiva • Empezaron con Internet Archive y se independizaron – Biblioteca Nacional de Austria • Empezaron haciendo sólo recolección selectiva y por acontecimientos • En 2010 hicieron su primera recolección del dominio .at • Su política es combinar los tres modelos (selectiva, por acontecimientos y masiva) – Ambas utilizan Netarchive SuiteBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 7
  8. 8. Panorama Internacional: Iniciativas de archivado webBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 8
  9. 9. Panorama Internacional: ISO TC 46/SC 8/WG 9Estadísticas y aspectos de calidad en los archivos web – Objetivo: elaborar un informe técnico – Definición de términos y elementos relativos a estos proyectos – Establecer aspectos cuantificables para medir la calidad – Repaso de distintos aspectos relacionados con este tipo de proyectos: • Personal • Costes • Evaluación → establecimiento de indicadores de calidad • Tipos de proyectos según distintos criterios – Estado actual de la cuestión BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 9
  10. 10. La Ley de Depósito Legal en España – Decreto del 57: • Preocupación por regular “las obras derivadas de los inventos modernos” – Anteproyecto de ley de DL (2011) • Publicaciones digitales → patrimonio a preservar • Acceso y consulta de publicaciones almacenadas • Publicaciones digitales →objeto de DL • Sitios web → incluidos en el DL • Centros de conservación → habilitados para rastrearlos y conservarlos • Límites: propiedad intelectual y protección de datosBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 10
  11. 11. El proyecto de la BNE: Primeros pasos• Primer contrato con Internet Archive: 2009-2010• Objetivo: recolectar, archivar y preservar el dominio .es• Primeras recolecciones  4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010• Después de cada recolección:  Deduplicación  Indización  Rastreo de parcheadoBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 11
  12. 12. El proyecto de la BNE: Primeros pasosBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 12
  13. 13. El proyecto de la BNE: Situación actual• Resultados:  30 TB de información almacenada  Más de 875 millones de URL:  Más de 317 millones en la primera recolección  Cantidades menores en las tres siguientes complementarias• Acceso a la colección• Interfaz de consulta que necesita personalización• Búsquedas:  Por URL  Por palabra a texto completo (necesita depuración)BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 13
  14. 14. El proyecto de la BNE: Situación actual• Informes  MIME (Multipurpose Internet Mail Extension)  Respuestas de servidores  Servidores  Exclusiones• Análisis de la colección mediante calas:  Páginas recolectadas con éxito  Niveles de navegación que se han guardado  Porcentaje de webs guardadas que han desaparecido (casi un 3%)  Otros dominios capturados aparte de .es  Aproximación a porcentaje de temáticasBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 14
  15. 15. El proyecto de la BNE: Planes inmediatos• Perspectivas de crecimiento 2011-2012• Nuevo contrato con Internet Archive:  2 recolecciones masivas (2011), alternadas con  2 recolecciones selectivas (2011 y 2012):  Temáticas  Acontecimientos (Elecciones Generales 2012)• Buscar colaboradores para las recolecciones selectivas• Probablemente estaremos cerca de duplicar la colección actual• Análisis de la colección muy de cerca durante los rastreos• Pruebas de rastreo propias con NetarchiveSuite  podremos evaluar en algunos aspectos nuestra capacidad de autogestiónBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 15
  16. 16. El proyecto de la BNE: Planes inmediatosBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 16
  17. 17. El proyecto de la BNE: Planes inmediatosBIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 17
  18. 18. El proyecto de la BNE: Perspectivas de futuro• Acceso a la colección ¿en local o en remoto?• Personalización de la interfaz• Traslado de la colección:  Propuesta con varias alternativas por parte de IA  Habilitación de espacio físico  Recursos para el mantenimiento de la colección• Recolectamos nosotros  adopción y desarrollo de un software• Gestión de la colección:  Organización temática  Planificación de nuevas recolecciones  Inclusión de otros dominios españoles fuera del .es• Colaboración con Comunidades Autónomas (??)BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 18
  19. 19. Referencias de interés – IIPC: www.netpreserve.org – Proyecto Memento: http://www.mementoweb.org/ – Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives – Internet Archive: www.archive.org – Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_int ernet.html – Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm – Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html – NetarchiveSuite: http://netarchive.dk/suite/Welcome – “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a- memory-of-webs-past/0BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 19
  20. 20. Mar Pérez Morillo Servicio de Coordinación Web mar.perez@bne.es Pº de Recoletos, 20-22 28071 Madrid España T +34 915 807 800 www.bne.esBIBLIOTECA NACIONAL DE ESPAÑA

×