El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo
1. El archivo de Internet, bibliotecas que piensan en el futuro
Mar Pérez Morillo
Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
2. Índice
– Contexto
• Consideraciones generales
– Panorama internacional
• IIPC
• Biblioteca Nacional de Francia
• Biblioteca Nacional de Austria
• ISO TC 46/SC 8/WG 9
– La ley de Depósito Legal
– El proyecto de la BNE
• Primeros pasos
• Situación actual – Planes inmediatos
• Perspectivas de futuro
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
2
3. Contexto
Directrices de la UNESCO para la Preservación del Patrimonio Digital
(marzo, 2003)
– Volumen de los datos.
– Duración de la información en línea (44 días y 2 años).
– Internet constituye un invalorable espejo de la sociedad.
– La producción de información en el mundo en medios
tradicionales disminuye año tras año frente a los objetos digitales
que crecen sin cesar.
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
3
4. Contexto: consideraciones generales
– Tarea llena de retos
– Finales de los 90: Internet → fundamental en la difusión del
conocimiento
– Los documentos en línea desaparecen de repente
– Falta de perspectiva histórica: valor impredecible
– La web no es un depósito de ejemplares
– Características de la web: grande, global, rápida, intangible,
universal
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
4
5. Panorama Internacional: IIPC
– Fundada en 2003 por 11 bibliotecas nacionales e Internet
Archive
– Adquirir, preservar y hacer accesible la información en internet
para el futuro
– Objetivos:
• Posibilitar recolección, preservación y acceso a largo plazo
a contenidos de internet
• Desarrollar herramientas comunes para crear archivos
internacionales
• Defender iniciativas internacionales con este propósito
• Apoyar a instituciones dedicadas a esta tarea
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
5
6. Panorama Internacional: IIPC
– Grupos de trabajo muy activos:
• Recolección
• Acceso
• Preservación
– Proyectos de colaboración:
• Facebook
• Wikileaks
• Terremoto y tsunami en Japón (Internet Archive - National Diet)
• Olimpiadas 2012
• Memento
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
6
7. Panorama Internacional
– BnF (Biblioteca Nacional de Francia) → desde 2002
• Al amparo de su ley de DL
• Sólo acceso para investigadores en sus instalaciones
• Combinan recolección masiva y selectiva
• Empezaron con Internet Archive y se independizaron
– Biblioteca Nacional de Austria
• Empezaron haciendo sólo recolección selectiva y por
acontecimientos
• En 2010 hicieron su primera recolección del dominio .at
• Su política es combinar los tres modelos (selectiva, por
acontecimientos y masiva)
– Ambas utilizan Netarchive Suite
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
7
8. Panorama Internacional: Iniciativas de archivado web
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
8
9. Panorama Internacional: ISO TC 46/SC 8/WG 9
Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico
– Definición de términos y elementos relativos a estos proyectos
– Establecer aspectos cuantificables para medir la calidad
– Repaso de distintos aspectos relacionados con este tipo de proyectos:
• Personal
• Costes
• Evaluación → establecimiento de indicadores de calidad
• Tipos de proyectos según distintos criterios
– Estado actual de la cuestión
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
9
10. La Ley de Depósito Legal en España
– Decreto del 57:
• Preocupación por regular “las obras derivadas de los inventos
modernos”
– Anteproyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar
• Acceso y consulta de publicaciones almacenadas
• Publicaciones digitales →objeto de DL
• Sitios web → incluidos en el DL
• Centros de conservación → habilitados para rastrearlos y
conservarlos
• Límites: propiedad intelectual y protección de datos
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
10
11. El proyecto de la BNE: Primeros pasos
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
11
12. El proyecto de la BNE: Primeros pasos
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
12
13. El proyecto de la BNE: Situación actual
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
13
14. El proyecto de la BNE: Situación actual
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
14
15. El proyecto de la BNE: Planes inmediatos
• Perspectivas de crecimiento 2011-2012
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Buscar colaboradores para las recolecciones selectivas
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección muy de cerca durante los rastreos
• Pruebas de rastreo propias con NetarchiveSuite → podremos evaluar en
algunos aspectos nuestra capacidad de autogestión
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
15
16. El proyecto de la BNE: Planes inmediatos
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
16
17. El proyecto de la BNE: Planes inmediatos
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
17
18. El proyecto de la BNE: Perspectivas de futuro
• Acceso a la colección ¿en local o en remoto?
• Personalización de la interfaz
• Traslado de la colección:
Propuesta con varias alternativas por parte de IA
Habilitación de espacio físico
Recursos para el mantenimiento de la colección
• Recolectamos nosotros → adopción y desarrollo de un software
• Gestión de la colección:
Organización temática
Planificación de nuevas recolecciones
Inclusión de otros dominios españoles fuera del .es
• Colaboración con Comunidades Autónomas (??)
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
18
19. Referencias de interés
– IIPC: www.netpreserve.org
– Proyecto Memento: http://www.mementoweb.org/
– Wiki de proyectos de archivado web:
http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
– Internet Archive: www.archive.org
– Archivos de internet en la BnF:
http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_int
ernet.html
– Archivo web de la Biblioteca Nacional de Austria:
http://www.onb.ac.at/ev/about/webarchive.htm
– Preservación digital del dominio .es:
http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
– NetarchiveSuite: http://netarchive.dk/suite/Welcome
– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-
memory-of-webs-past/0
BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro
19
20. Mar Pérez Morillo
Servicio de Coordinación Web
mar.perez@bne.es
Pº de Recoletos, 20-22
28071 Madrid
España
T +34 915 807 800
www.bne.es
BIBLIOTECA NACIONAL DE ESPAÑA