Your SlideShare is downloading. ×
0
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

4,397

Published on

Presentada en "Cita en la BNE". 8 de junio de 2011. Biblioteca Nacional de España

Presentada en "Cita en la BNE". 8 de junio de 2011. Biblioteca Nacional de España

Published in: Technology, Design
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,397
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
43
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Mar Pérez Morillo – Jefe del Servicio de Coordinación Web Icíar Muguerza López – Servicio de Coordinación Web Cita en la BNE / Salón de Actos / 8 de Junio de 2011 PATRIMONIO DEL FUTURO Y FUTURO DEL PATRIMONIO
  • 2. Biblioteca Nacional de España ÍNDICE 1. INTRODUCCIÓN: La importancia del medio Características de la web ¿Por qué archivar la web? El Patrimonio Digital La misión del bibliotecario ante los “nacidos digitales” 2. INICIATIVAS MUNDIALES Proyectos internacionales: Internet Archive, IIPC, Minerva, Pandora, BnF, British Library Proyectos nacionales: PADICAT, ONDARENET 3. ASPECTOS TÉCNICOS • ¿Cómo se archiva Internet? Recolección masiva/selectiva/híbrida • Nociones esenciales: herramientas y formato de archivo WARC 4. EL PROYECTO DE LA BNE Marco legal El Internet Archive y el archivo web de la BNE Estado actual: tamaño de la colección, contenido y formato. Hosting. Análisis de la colección Nuevo contrato y recolecciones futuras Uso de la colección Cooperación con especialistas y otras instituciones 5. CUESTIONES A DEBATE Archivo de la web española
  • 3. Biblioteca Nacional de España Ruptura y continuidadRuptura y continuidad Archivo de la Web española
  • 4. Biblioteca Nacional de España Afán de permanencia sufre la amenaza de lo efímero Hoy los bytes → rivales del papel Internet → fruto del progreso acumulativo del saber humano El medio condiciona El uso de internet condiciona la producción cultural Ruptura y continuidadRuptura y continuidad
  • 5. Biblioteca Nacional de EspañaArchivo de la Web española Grande → casi inabarcable Global → límites borrosos Rápida → contenidos efímeros, cambiantes Intangible → archivos virtuales Universal Puzzle Características de la web
  • 6. Biblioteca Nacional de España ¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB… ¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB… 1 B = 1 carácter 10 KB = 1 página escrita 500 MB = 1 CD-ROM 1 GB = 1 película 10 TB = toda la colección impresa de la LoC 200 PB = todo el material impreso en la Historia 5 EB = todas las palabras pronunciadas por el hombre 1 ZB = todo el universo digital Archivo de la Web española
  • 7. Biblioteca Nacional de España – Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003) – Recomendación de la Comisión Europea (24 de agosto de 2006) sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital – Orden CUL/1014/2007, de 30 de marzo, por la que se constituye la Comisión Española sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital Archivo de la web española ¿Por qué archivar la web?
  • 8. Biblioteca Nacional de España La misión del bibliotecario El rol del bibliotecario descansaba sobre algunas certidumbres del mundo impreso… Archivo de la Web española Hasta que el advenimiento de los documentos “nacidos digitales” nos hace replantearnos muchas de esas certidumbres
  • 9. Biblioteca Nacional de EspañaArchivo de la Web española Primeros proyectos: Internet Archive
  • 10. Biblioteca Nacional de España 400.000 500.000 950.000 2.700.000 150.000.000.000 Horas de televisión Imágenes en movim. Grabaciones sonoras Libros Páginas web Archivo de la Web española Desde 1996
  • 11. Biblioteca Nacional de España Institución pionera en este campo Archiva la web desde 1996 Objetivo principal: construir biblioteca de internet accesible y permanente Recolecta para distintas instituciones: – BN de Australia – LoC – BNE… Desde 2001 da acceso público a sus colecciones (Wayback Machine) Miembro fundador del IIPC: posición de liderazgo Internet Archive
  • 12. Biblioteca Nacional de EspañaArchivo de la Web española LAS DISTINTAS VERSIONES DE LA WEB DE LA BNE EN LA WAYBACK MACHINE DEL IA
  • 13. Biblioteca Nacional de EspañaArchivo de la Web española Otros proyectos internacionales
  • 14. Biblioteca Nacional de EspañaArchivo de la Web española Proyecto PANDORA (Biblioteca Nacional de Australia)
  • 15. Biblioteca Nacional de España Proyecto PANDORA (Biblioteca Nacional de Australia) Uno de los proyectos pioneros mundiales en este campo (1996) Colección en línea de publicaciones históricas relativas a Australia Archivado selectivo según los criterios de su política de recolección Acceso público Colección organizada por materias
  • 16. Biblioteca Nacional de EspañaArchivo de la Web española Proyecto MINERVA (Library of Congress)
  • 17. Biblioteca Nacional de España Proyecto MINERVA (Library of Congress) La LoC archiva la web desde el año 2000 Colaboración con Internet Archive Recolección selectiva → asesoría de especialistas Acceso público Destacan sus recolecciones por acontecimientos: – Guerra de Irak (2003) – 11-S – Elección papal tras la muerte de Juan Pablo II (2005) – Elecciones presidenciales EE.UU.
  • 18. Biblioteca Nacional de EspañaArchivo de la Web española Archives de l’Internet (BnF)
  • 19. Biblioteca Nacional de España Archivan la web desde 2002 con la colaboración de Internet Archive Al amparo de su ley de DL desde 2006 Recolectan: – El dominio .fr – Webs en otros dominios con contenidos relativos a Francia En 2009 recolectan por sí mismos Combinan recolecciones masivas y selectivas Acceso a la colección restringido a investigadores en terminales de su sede Archives de l’Internet (BnF)
  • 20. Biblioteca Nacional de EspañaArchivo de la Web española Panorama internacional: lista de iniciativas de archivado web
  • 21. Biblioteca Nacional de EspañaArchivo de la Web española – Fundado en 2003 por 11 bibliotecas nacionales e Internet Archive – Adquirir, preservar y hacer accesible la información en internet para el futuro – Objetivos: • Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet • Desarrollar herramientas comunes para crear archivos internacionales • Defender iniciativas internacionales con este propósito • Apoyar a instituciones dedicadas a esta tarea El International Internet Preservation Consortium (IIPC)
  • 22. Biblioteca Nacional de EspañaArchivo de la Web española El International Internet Preservation Consortium (IIPC) – Grupos de trabajo muy activos: • Recolección • Acceso • Preservación – Proyectos de colaboración: • Facebook • Wikileaks • Terremoto y tsunami en Japón (Internet Archive - National Diet) • Olimpiadas 2012 • Memento
  • 23. Biblioteca Nacional de España La revolución del jazmín: Túnez 2011; archivado a cargo del Internet Archive; contribuciones de la LOC y la BnF; idiomas: francés, árabe e inglés Archivo de la Web española
  • 24. Biblioteca Nacional de España LA BNE UNE SUS ESFUERZOS A LOS DE ORGANISMOS INTERNACIONALES Archivo de la Web española
  • 25. Biblioteca Nacional de España ISO TC 46/SC 8/WG 9 Estadísticas y aspectos de calidad en los archivos web – Objetivo: elaborar un informe técnico – Reflejar el estado actual de la cuestión – Definición de términos y elementos relativos a estos proyectos – Establecer aspectos cuantificables para medir la calidad (indicadores)
  • 26. Biblioteca Nacional de EspañaArchivo de la Web española Proyectos nacionales PADICAT ONDARENET
  • 27. Biblioteca Nacional de España Proyecto pionero en España (2005) Objetivo: archivar la web catalana Recolección híbrida: – Masiva del dominio .cat – Producción web de las entidades catalanas (convenios) Recursos fácilmente localizables por: – Categorías temáticas – Palabras clave – URL Acceso público en línea Desarrollan CAT (Curator Archiving Tool)
  • 28. Biblioteca Nacional de España ONDARENET Proyecto de recolección web del gobierno vasco Objetivo: recopilar la memoria digital vasca Modelo de recolección híbrido: – Recolección integral regional – Recolección selectiva y temática
  • 29. Biblioteca Nacional de EspañaArchivo de la Web española Software de rastreo: rastreador (crawler) a gran escala de código abierto respeta exclusiones del tipo robots.txt diseñado para no interrumpir la actividad del sitio web rastreado rastreo continuo Paquetes de software que utilizan Heritrix: Netarchive Suite Web Curator Tool CAT (Curator Archiving Tool) ¿Cómo se archiva Internet?
  • 30. Biblioteca Nacional de España Formato de archivo para almacenamiento → WARC (Web ARChive) Norma ISO 28500:2009: – guarda contenido junto a información de control de los protocolos – guarda metadatos enlazados a otros datos – permite compresión de datos y preservar integridad de registros – permite manejo de registros excesivamente largos – detecta duplicados y transformaciones posteriores de un archivo ¿Cómo se archiva Internet? Archivo de la Web española
  • 31. Biblioteca Nacional de EspañaArchivo de la Web española ¿Cómo se archiva Internet? Softwares de búsqueda
  • 32. Biblioteca Nacional de EspañaArchivo de la Web española ¿Cómo se archiva Internet? Almacenamiento • Reto constante • Ahorro de espacio, fiabilidad • Mantener la accesibilidad • Minimizar riesgo de pérdidas • Distribución de copias en distintos sitios • Impedir la degradación de los datos • El Petabox: 1 PB = 1.000 TB = 1.000.000 GB
  • 33. Biblioteca Nacional de España El petabox, hoy Archivo de la Web española Mayor densidad que el modelo anterior Diciembre, 2010: almacenamiento total de IA → 5,8PB
  • 34. Biblioteca Nacional de EspañaArchivo de la Web española Según el alcance: Masiva Selectiva Temática Por acontecimientos Híbrida Ventajas e inconvenientes Según los permisos: Sin permiso (al amparo de una ley de DL) Con permiso expreso de los propietarios Ventajas e inconvenientes Tipos de recolección
  • 35. Biblioteca Nacional de España EL PROYECTO DE LA BNE Marco legal – Decreto del 57: • Preocupación por regular “las obras derivadas de los inventos modernos” – Proyecto de ley de DL (2011) • Publicaciones digitales → patrimonio a preservar • Acceso y consulta de publicaciones almacenadas • Sitios web → incluidos en el DL • Centros de conservación → habilitados para rastrearlos y conservarlos • Límites: propiedad intelectual y protección de datos Archivo de la Web española
  • 36. Biblioteca Nacional de España EL PROYECTO DE LA BNE Primeros pasos • Primer contrato con Internet Archive: 2009-2010 • Objetivo: recolectar, archivar y preservar el dominio .es • Primeras recolecciones 4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010 • Después de cada recolección: Deduplicación Indización Rastreo de parcheado Archivo de la Web española
  • 37. Biblioteca Nacional de España EL PROYECTO DE LA BNE Primeros pasos Archivo de la Web española
  • 38. Biblioteca Nacional de España EL PROYECTO DE LA BNE Situación actual (I) • Resultados: 30 TB de información almacenada Más de 875 millones de URL: Más de 317 millones en la primera recolección Cantidades menores en las tres siguientes complementarias • Acceso a la colección • Interfaz de consulta que necesita personalización • Búsquedas: Por URL Por palabra a texto completo (necesita depuración) Archivo de la Web española
  • 39. Biblioteca Nacional de España EL PROYECTO DE LA BNE Situación actual (II) • Informes MIME (Multipurpose Internet Mail Extension) Respuestas de servidores Servidores Exclusiones • Análisis de la colección mediante calas: Páginas recolectadas con éxito Niveles de navegación que se han guardado Porcentaje de webs guardadas que han desaparecido (casi un 3%) Otros dominios capturados aparte de .es Aproximación a porcentaje de temáticas Archivo de la Web española
  • 40. Biblioteca Nacional de España EL PROYECTO DE LA BNE Pruebas Archivo de la Web española
  • 41. Biblioteca Nacional de España EL PROYECTO DE LA BNE Pruebas Con motivo de las elecciones municipales y autonómicas de 2011 Pruebas de rastreo selectivo de la web española NetarchiveSuite: – Software de código abierto y gratuito – También utilizado por Dinamarca, Francia y Austria Búsqueda de conclusiones para evaluar capacidad de autogestión Selección de 23 dominios: – Cabeceras de prensa – Medios de comunicación audiovisuales – Partidos políticos
  • 42. Biblioteca Nacional de España EL PROYECTO DE LA BNE Pruebas Archivo de la Web española
  • 43. Biblioteca Nacional de España EL PROYECTO DE LA BNE Pruebas Archivo de la Web española
  • 44. Biblioteca Nacional de España EL PROYECTO DE LA BNE Planes inmediatos • Nuevo contrato con Internet Archive: 2 recolecciones masivas (2011), alternadas con 2 recolecciones selectivas (2011 y 2012): Temáticas Acontecimientos (Elecciones Generales 2012) • Probablemente estaremos cerca de duplicar la colección actual • Análisis de la colección más de cerca durante los rastreos • Seguiremos con pruebas de recolección y archivado autogestionadas Archivo de la Web española
  • 45. Biblioteca Nacional de España EL PROYECTO DE LA BNE Planes inmediatos: cooperación Colaboración para las recolecciones selectivas: • Personal de la BNE • Universidades • Otras instituciones (CSIC, bibliotecas, ministerios…) Aunar esfuerzos con otros proyectos de archivado web en España: • PADICAT • ONDARENET Cooperación con Comunidades Autónomas ?? archivoweb@bne.es Archivo de la Web española
  • 46. Biblioteca Nacional de EspañaArchivo de la Web española EL PROYECTO DE LA BNE Planes a medio plazo Trasladar la colección Dar acceso a los investigadores Realizar rastreos de la web con medios propios
  • 47. Biblioteca Nacional de EspañaArchivo de la Web española Cuestiones a debate ¿Podemos capturarlo todo? ¿Debemos capturarlo todo? Conveniencia de una selección: criterios Derecho al olvido Acceso universal Límites legales ¿Cómo usarán los investigadores estos archivos? Uso de los metadatos: descriptivos/de preservación Preservación: emulación/migración
  • 48. Biblioteca Nacional de España Enlaces de interés IIPC: www.netpreserve.org Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives Internet Archive: www.archive.org Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html Heritrix: http://crawler.archive.org/ NetarchiveSuite: http://netarchive.dk/suite/Welcome NutchWax: http://archive-access.sourceforge.net/projects/nutch/ Blog de Hanzo Archives: http://web.hanzoarchives.com/ Proyecto de Ley de depósito legal: http://www.congreso.es/portal/page/portal/Congreso/PopUpCGI?CMD=VERLST& BASE=puw9&DOCS=1- 1&DOCORDER=LIFO&QUERY=%28CDA20110602011808.CODI.%29#(Página1) Archivo de la Web española
  • 49. Biblioteca Nacional de España Colecciones web Wayback Machine: http://www.archive.org/web/web.php PANDORA (Archivo web de Australia): http://pandora.nla.gov.au MINERVA (Biblioteca del Congreso): http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html Archivo web de la Biblioteca Británica: http://www.webarchive.org.uk/ukwa/ PADICAT (Patrimonio Digital de Cataluña): http://www.padicat.cat/ ONDARENET (Patrimonio Digital Vasco): http://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editC onsultaBase.do?dispatch=editConsultaBase Archivo de la Web española
  • 50. Biblioteca Nacional de España Bibliografía A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of- webs-past/0 Oxford Internet Institute, “Web archives: the future(s)” [documento de trabajo], 2011, http://www.netpreserve.org/events/Hague/Presentations/OII-IIPC.pdf E. Bermes, L. Fauduet et al., “A data first approach to digital preservation: the SPAR project”, World Library and Information Congress: 76th IFLA General Conference and Assembly (2010), http://www.ifla.org/files/hq/papers/ifla76/157-bermes- en.pdf E. Bermes y G. Illien, “Metrics and Strategies for Web Heritage. Management and Preservation”, 75th IFLA General Conference and Assembly (2009), http://www.ifla.org/files/hq/papers/ifla75/92-bermes-en.pdf G. Mohr, et al., “An introduction to Heritrix. An open source archival quality web crawler”, 4th International Web Archiving Workshop (2004), http://iwaw.europarchive.org/04/Mohr.pdf WARC File Format ISO/DIS 28500 (Borrador, 2008), http://bibnum.bnf.fr/WARC/warc_ISO_DIS_28500.pdf Archivo de la Web española
  • 51. Biblioteca Nacional de EspañaArchivo de la Web española Agradecimientos
  • 52. Biblioteca Nacional de España Icíar Muguerza López Mar Pérez Morillo Servicio de Coordinación Web archivoweb@bne.es Pº de Recoletos 20 -22 28071 Madrid Tfno: 91 580 782 www.bne.es Archivo de la Web española

×