El archivo de Internet, bibliotecas que piensan en el futuro Mar Pérez Morillo Jefe del Servicio de Coordinación Web, Bibl...
Índice <ul><ul><li>Contexto </li></ul></ul><ul><ul><ul><li>Consideraciones generales </li></ul></ul></ul><ul><ul><li>Panor...
Contexto <ul><li>Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003) </li></ul><ul><ul><li>...
Contexto: consideraciones generales <ul><ul><li>Tarea llena de retos </li></ul></ul><ul><ul><li>Finales de los 90: Interne...
Panorama Internacional: IIPC <ul><ul><li>Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive </li></ul></ul><...
Panorama Internacional: IIPC <ul><ul><li>Grupos de trabajo muy activos: </li></ul></ul><ul><ul><ul><li>Recolección </li></...
Panorama Internacional <ul><ul><li>BnF (Biblioteca Nacional de Francia)  ->  desde 2002 </li></ul></ul><ul><ul><ul><li>Al ...
Panorama Internacional: Iniciativas de archivado web El archivo de Internet, bibliotecas que piensan en el futuro
Panorama Internacional: ISO TC 46/SC 8/WG 9 <ul><li>Estadísticas y aspectos de calidad en los archivos web </li></ul><ul><...
La Ley de Depósito Legal en España <ul><ul><li>Decreto del 57: </li></ul></ul><ul><ul><ul><li>Preocupación por regular “la...
El proyecto de la BNE: Primeros pasos <ul><li>Primer contrato con Internet Archive: 2009-2010 </li></ul><ul><li>Objetivo: ...
El proyecto de la BNE: Primeros pasos El archivo de Internet, bibliotecas que piensan en el futuro
El proyecto de la BNE: Situación actual <ul><li>Resultados: </li></ul><ul><ul><li>30 TB de información almacenada </li></u...
El proyecto de la BNE: Situación actual <ul><li>Informes </li></ul><ul><ul><li>MIME (Multipurpose Internet Mail Extension)...
El proyecto de la BNE: Planes inmediatos <ul><li>Perspectivas de crecimiento 2011-2012 </li></ul><ul><li>Nuevo contrato co...
El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
El proyecto de la BNE: Perspectivas de futuro <ul><li>Acceso a la colección ¿en local o en remoto?  </li></ul><ul><li>Pers...
Referencias de interés <ul><ul><li>IIPC:  www.netpreserve.org   </li></ul></ul><ul><ul><li>Proyecto Memento:  http://www.m...
Mar Pérez Morillo Servicio de Coordinación Web [email_address] Pº de Recoletos, 20-22  28071 Madrid  España T +34  915 807...
Upcoming SlideShare
Loading in …5
×

4ºarchivo web fesabid1

387 views
309 views

Published on

Published in: Technology, Travel
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
387
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • En las directrices publicadas por la UNESCO en marzo de 2003 para la preservaci ó n del patrimonio digital ya se reconoce el problema de la preservaci ó n de la informaci ó n digital y se proponen l í neas de acci ó n para resolverlo. En primer lugar se parte del reconocimiento de los contenidos nacidos digitales como parte del patrimonio cultural. A partir de este reconocimiento surge la necesidad de preservar dicho patrimonio. En el prefacio de esas directrices se dice que: “ Gran parte de la ingente cantidad de informaci ó n que se produce en el mundo es de origen digital y existe en una gran variedad de formatos: texto, bases de datos, grabaciones sonoras, pel í culas, im á genes. Para las instituciones culturales que tienen a su cargo el acopio y la preservaci ó n del patrimonio cultural, definir qu é elementos deben conservarse para las generaciones futuras y c ó mo proceder en su selecci ó n y conservaci ó n, se est á volviendo un problema apremiante. El enorme tesoro de informaci ó n digital producida hoy d í a en pr á cticamente todas las á reas de las actividades humanas y concebida para ser consultada con computadoras, podr í a perderse si no se elaboran t é cnicas y pol í ticas espec í ficas para su conservaci ó n. ” As í mismo se se ñ alan las dificultades de preservaci ó n de toda esta informaci ó n y se alerta sobre el peligro de p é rdida. La UNESCO insta a elaborar estrategias y pol í ticas encaminadas a preservar este patrimonio, teniendo en cuenta el grado de urgencia, las circunstancias locales, los medios disponibles y las previsiones de futuro, y as í mismo anima a los creadores, titulares de derechos de autor e instituciones competentes a colaborar en la consecuci ó n de este objetivo. La tarea que se nos presenta parece inabarcable – y en cierto modo as í lo es-, y la propia UNESCO -en estas Directrices y reconociendo las dificultades que plantea el proceso- dice literalmente que “ aunque no sea de manera exhaustiva ni impecable … m á s vale avanzar a peque ñ os pasos que no avanzar. ”
  • Estamos ante una tarea llena de retos por las especiales caracter í sticas del material a preservar. Desde finales de los 90 se vio claro que la web iba a jugar un papel fundamental en el desarrollo de las comunicaciones y en la difusi ó n del conocimiento. Los documentos en l í nea no se degradan con el tiempo, sino que desaparecen de repente. Nos falta distancia y perspectiva temporal para saber qu é partes de la producci ó n digital contempor á nea y en crecimiento constante deber í an formar parte o no del patrimonio cultural. A lo largo de la Historia hay bastantes ejemplos de p é rdidas notables por unos criterios de selecci ó n err ó neos (obras de autores cl á sicos, pinturas murales rom á nicas … ). El bibliotecario digital tiene que hacer frente a unos retos parecidos a los del archivero. ¿ Qui é n es é l para juzgar y elegir lo que ser á de inter é s para las generaciones futuras? El valor futuro de la informaci ó n de hoy no se puede predecir. La web es m á s una red, un proceso, una historia en progresi ó n que un dep ó sito de documentos. Hay que tener en cuenta que: Incluso en comparaci ó n con las colecciones bibliotecarias m á s grandes, la web es extremadamente grande. T é cnica, legal y culturalmente las nociones de naci ó n y territorio son muy dif í ciles de reflejar en la web, que es fundamentalmente un medio internacional. Incluso las diferencias de idioma, no resultan muy clarificadoras en este sentido. As í que dif í cilmente se pueden hacer clasificaciones atendiendo a la lengua o la geograf í a. El í ndice de cambio y desaparici ó n de publicaciones en l í nea es mucho m á s alto que el de materiales impresos. La web est á formada por archivos virtuales. Las p á ginas web muestran archivos de datos, formatos y reproductores muy heterog é neos, muchos de los cuales no est á n normalizados ni documentados, lo que los hace m á s dif í ciles de identificar, describir y, por lo tanto, preservar a largo plazo. Universalidad: casi cualquiera puede publicar casi todo en casi cualquier parte de la web (blogs, wikis, Facebook … ). El nivel de detalle de las p á ginas o los sitios web -y los enlaces hipertextuales entre ellos- hacen muy dif í cil delimitar lo que los bibliotecarios llamar í an un documento. Capturar la web implica mostrar su estructura org á nica y sus enlaces, no s ó lo sus datos. Esto hace m á s dif í cil definir los l í mites de este nuevo documento.
  • El Consorcio Internacional para la Preservaci ó n de Internet (IIPC) fue fundado en 2003 por Internet Archive, la Biblioteca del Congreso y otras 10 bibliotecas nacionales m á s (Canad á , Australia, Dinamarca, Finlandia, Francia, Islandia, Italia, Noruega, Suecia y Reino Unido). Hoy son ya 40 sus miembros. Su misi ó n es preservar la informaci ó n en internet para las generaciones futuras a trav é s de la colaboraci ó n internacional. Sus objetivos son: Posibilitar la recolecci ó n, preservaci ó n y acceso a largo plazo de un corpus nutrido de contenidos de internet de todo el mundo. Apoyar el desarrollo y uso de herramientas, t é cnicas y normas comunes para la creaci ó n de archivos internacionales. Defender iniciativas y legislaciones internacionales que faciliten la recolecci ó n, preservaci ó n y acceso al contenido en internet. Animar y apoyar a bibliotecas, archivos, museos e instituciones patrimoniales de todas partes que se dediquen a recolectar y preservar contenido de internet.
  • La actividad de la organizaci ó n gira en torno a tres grupos de trabajo, dedicados a los tres aspectos fundamentales en estos proyectos: El proceso de recolecci ó n de los sitios web El acceso a las colecciones archivadas La preservaci ó n de dichas colecciones En un entorno de colaboraci ó n muy din á mico, la informaci ó n y el apoyo entre las instituciones integrantes es muy fluido: Facebook Wikileaks Iniciativa de Internet Archive para recolectar webs relacionadas con la reciente cat á strofe en Jap ó n, en apoyo de la Biblioteca Nacional del Jap ó n Olimpiadas 2012 Memento (del Laboratorio Nacional de Los Álamos, en EE.UU): proyecto para integrar los archivos web en la web viva.
  • Dependiendo de sus recursos y su legislaci ó n los distintos proyectos internacionales: dan acceso o no a sus colecciones, dan acceso p ú blico en l í nea o s ó lo a investigadores en sus instalaciones, necesitan permiso expreso de los propietarios de los sitios web para recolectarlos o no. Bibliotecas como la francesa, la austriaca o la danesa dan s ó lo acceso a los archivos web recolectados a investigadores en los ordenadores de sus instituciones. La BnF empez ó archivando su web a trav é s de contratos con Internet Archive en 2002. Desde hace un par de a ñ os, la BnF lleva a cabo todo el proceso de rastreo, recolecci ó n, archivado y acceso con recursos propios. Sus recolecciones son mixtas: combinan recolecciones masivas del dominio .fr con selectivas por temas y por acontecimientos. En 2010 el tama ñ o del archivo web franc é s era ya de 180 TB. Su ley de Dep ó sito Legal les permite recolectar sin pedir permiso a los propietarios de los derechos de las p á ginas web, pero, por otro lado, deben respetar la protecci ó n de datos y la propiedad intelectual, lo que les obliga a dar acceso a su colecci ó n s ó lo a trav é s de ordenadores dedicados a tal efecto en su sede. La Biblioteca Nacional de Austria comenz ó haciendo s ó lo recolecci ó n selectiva y de acontecimientos determinados. En 2010 -y gracias a la cobertura legal que supuso la aprobaci ó n en 2009 de una nueva Ley de Medios- hicieron su primera recolecci ó n masiva del dominio .at. Su pol í tica en este campo contempla la combinaci ó n de los tres tipos de recolecciones (masiva, selectiva y por acontecimientos) incluyendo p á ginas establecidas en Austria y otras de especial conexi ó n con el pa í s. Ambas bibliotecas utilizan el conjunto de herramientas Netarchive Suite, que es un desarrollo de la Biblioteca Nacional Danesa.
  • Recientemente la Biblioteca Nacional de Portugal ha creado una wiki en la que se incluyen todas las iniciativas de archivado de la web en el mundo y distintos datos de importancia relacionados con cada proyecto. De esta forma, se insta a todos los participantes a mantener actualizados los datos que les afectan.
  • En el decreto de 1957 que contiene el Reglamento del Servicio de Dep ó sito Legal, a ú n vigente, se recoge la preocupaci ó n constante de las autoridades competentes por regular “ el Dep ó sito Legal de obras derivadas de los inventos modernos en el campo de las artes gr á ficas y en el de los nuevos procedimientos de reproducci ó n ” . Por aquel entonces, aparte de los impresos, preocupaba especialmente regular el Dep ó sito Legal de “ Producciones fotogr á ficas, obras cinematogr á ficas y, en general, todas las producciones de im á genes realizadas por artes gr á ficas o qu í micas en ejemplares m ú ltiples ” , as í como “ Las impresiones o grabaciones sonoras realizadas por cualquiera de los procedimientos o sistemas empleados en la actualidad o en el futuro. ” En el anteproyecto de ley de Dep ó sito Legal que se aprobar á en breve: Se considera objetivo del DL “ recopilar, almacenar y conservar … las publicaciones que constituyen el patrimonio bibliogr á fico, sonoro, visual, audiovisual y digital espa ñ ol, con objeto de preservarlo y legarlo a las generaciones futuras, velar por su difusi ó n y permitir el acceso al mismo para garantizar el derecho de acceso a la cultura, a la informaci ó n y a la investigaci ó n. ” Otro objetivo: “ Permitir el acceso y la consulta de las publicaciones almacenadas, bien en las instalaciones de los propios centros de conservaci ó n o bien a trav é s de bases de datos en l í nea de acceso restringido, asegurando su correcta conservaci ó n y respetando en todo caso la legislaci ó n sobre propiedad intelectual y la normativa sobre accesibilidad. ” “ Son objeto de dep ó sito legal todo tipo de publicaciones, producidas o editadas en Espa ñ a, por cualquier procedimiento de producci ó n, edici ó n o difusi ó n, y distribuidas en cualquier soporte, tangible o intangible. ” “ El dep ó sito legal comprender á… (entre otros, los) sitios web fijables o registrables cuyo contenido pueda variar en el tiempo y sea susceptible de ser copiado en un momento dado. ” “ Se habilita a los centros de conservaci ó n … a detectar y reproducir los sitios web libremente accesibles a trav é s de redes de comunicaciones que puedan resultar de inter é s para los fines del DL, respetando en todo caso la legislaci ó n sobre protecci ó n de datos y propiedad intelectual. ”
  • Los resultados obtenidos de las primeras recolecciones son: 30 TB de información almacenada Más de 875 millones de URL, de los cuales: Más de 317 corresponden al primer rastreo El resto de recolecciones dieron como resultado un número menor de URL El acceso del que disponemos a la colección archivada del dominio .es se realiza a través de una interfaz que requiere de una personalización para adaptarla a la imagen institucional de la BNE. Ofrece la posibilidad de buscar por URL y también a texto completo, que necesita depuración.
  • A través de ella tenemos acceso a: la cantidad de URL recolectadas en cada rastreo Los informes: MIME  especifica el método que debe utilizarse para devolver el archivo a su forma original cuando se muestra; respuestas de los servidores  200 (petición con éxito), 404 (la página solicitada no existe), 3xx (de redireccionamiento) servidores  todos los servidores recolectados con el número de bytes y de URL exclusiones  por tamaño, excesivo tiempo de descarga o exclusión de robots.txt. Los archivos que quedan excluidos de la recolección lo son por varios motivos: Tardan más de 20 minutos en descargarse Su tamaño es superior a 200 MB Afectados por la exclusión de robots.txt Estamos llevando a cabo un análisis de la colección, que nunca podrá ser exhaustivo debido a su tamaño. Investigamos la manera de aplicar sistemas de análisis automáticos en cierta medida, que nos permitan analizar un porcentaje mayor de la colección. Sobre todo queremos saber: Si las páginas que aparecen como recolectadas lo están siempre Hasta qué niveles de navegación se ha llegado a recolectar (aprox. 2-3 niveles) Qué porcentaje de webs guardadas han desaparecido de la web viva Qué dominios –aparte del .es, que era el objetivo de la recolección- se han capturado accidentalmente (aparecen incluso páginas en guaraní) Cierta aproximación a una clasificación temática gruesa de lo recolectado
  • En nuestros planes inmediatos está renovar el contrato con Internet Archive, en virtud del cual llevemos a cabo: 2 recolecciones masivas del dominio .es 2 recolecciones selectivas: en función de criterios temáticos y por acontecimientos (Elecciones Generales 2012) Estas recolecciones se alternarán, de manera que podamos hacer 2 masivas dentro de 2011 y una selectiva en 2011 y otra en 2012. Vamos depurando los objetivos. En esta línea, para llevar a cabo las recolecciones selectivas sería deseable poder contar con las propuestas de profesionales especializados (universitarios y bibliotecarios de la BNE). En este sentido vamos a lanzar una propuesta al personal de la BNE: Cita en la BNE, formulario de propuesta de materias y URL a recolectar (organizaciones culturales, cabeceras de prensa, organismos oficiales, literatura, fondo antiguo, historia, geografía española…) Con las recolecciones previstas en este segundo contrato probablemente duplicaremos la colección existente ahora mismo. En esta segunda fase, trataremos de analizar más de cerca los resultados de las recolecciones para poder rellenar en los rastreos de parcheado los huecos que se detecten. Con apoyos a tiempo parcial del personal de la Casa, queremos llevar a cabo pruebas de rastreo propias con el software NetarchiveSuite, que es fácilmente configurable y muy manejable. Estamos pensando probar con las elecciones municipales de este próximo mes de mayo. De esta manera podríamos evaluar en algunos aspectos nuestra capacidad de autogestión, al menos en lo que a recolección atañe. Otra cosa es el almacenamiento, acceso y preservación de lo recolectado.
  • Estas pruebas ya se están haciendo, con la instalación de NetarchiveSuite en una máquina virtual. Se han rastreado 20 sitios web de las principales cabeceras de prensa más los principales partidos políticos y alguna otra web como tomalaplaza.net.
  • 4ºarchivo web fesabid1

    1. 1. El archivo de Internet, bibliotecas que piensan en el futuro Mar Pérez Morillo Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
    2. 2. Índice <ul><ul><li>Contexto </li></ul></ul><ul><ul><ul><li>Consideraciones generales </li></ul></ul></ul><ul><ul><li>Panorama internacional </li></ul></ul><ul><ul><ul><li>IIPC </li></ul></ul></ul><ul><ul><ul><li>Biblioteca Nacional de Francia </li></ul></ul></ul><ul><ul><ul><li>Biblioteca Nacional de Austria </li></ul></ul></ul><ul><ul><ul><li>ISO TC 46/SC 8/WG 9 </li></ul></ul></ul><ul><ul><li>La ley de Depósito Legal </li></ul></ul><ul><ul><li>El proyecto de la BNE </li></ul></ul><ul><ul><ul><li>Primeros pasos </li></ul></ul></ul><ul><ul><ul><li>Situación actual – Planes inmediatos </li></ul></ul></ul><ul><ul><ul><li>Perspectivas de futuro </li></ul></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    3. 3. Contexto <ul><li>Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003) </li></ul><ul><ul><li>Volumen de los datos. </li></ul></ul><ul><ul><li>Duración de la información en línea (44 días y 2 años). </li></ul></ul><ul><ul><li>Internet constituye un invalorable espejo de la sociedad. </li></ul></ul><ul><ul><li>La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar. </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    4. 4. Contexto: consideraciones generales <ul><ul><li>Tarea llena de retos </li></ul></ul><ul><ul><li>Finales de los 90: Internet -> fundamental en la difusión del conocimiento </li></ul></ul><ul><ul><li>Los documentos en línea desaparecen de repente </li></ul></ul><ul><ul><li>Falta de perspectiva histórica: valor impredecible </li></ul></ul><ul><ul><li>La web no es un depósito de ejemplares </li></ul></ul><ul><ul><li>Características de la web: grande, global, rápida, intangible, universal </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    5. 5. Panorama Internacional: IIPC <ul><ul><li>Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive </li></ul></ul><ul><ul><li>Adquirir, preservar y hacer accesible la información en internet para el futuro </li></ul></ul><ul><ul><li>Objetivos: </li></ul></ul><ul><ul><ul><li>Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet </li></ul></ul></ul><ul><ul><ul><li>Desarrollar herramientas comunes para crear archivos internacionales </li></ul></ul></ul><ul><ul><ul><li>Defender iniciativas internacionales con este propósito </li></ul></ul></ul><ul><ul><ul><li>Apoyar a instituciones dedicadas a esta tarea </li></ul></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    6. 6. Panorama Internacional: IIPC <ul><ul><li>Grupos de trabajo muy activos: </li></ul></ul><ul><ul><ul><li>Recolección </li></ul></ul></ul><ul><ul><ul><li>Acceso </li></ul></ul></ul><ul><ul><ul><li>Preservación </li></ul></ul></ul><ul><ul><li>Proyectos de colaboración: </li></ul></ul><ul><ul><ul><li>Facebook </li></ul></ul></ul><ul><ul><ul><li>Wikileaks </li></ul></ul></ul><ul><ul><ul><li>Terremoto y tsunami en Japón (Internet Archive - National Diet) </li></ul></ul></ul><ul><ul><ul><li>Olimpiadas 2012 </li></ul></ul></ul><ul><ul><ul><li>Memento </li></ul></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    7. 7. Panorama Internacional <ul><ul><li>BnF (Biblioteca Nacional de Francia) -> desde 2002 </li></ul></ul><ul><ul><ul><li>Al amparo de su ley de DL </li></ul></ul></ul><ul><ul><ul><li>Sólo acceso para investigadores en sus instalaciones </li></ul></ul></ul><ul><ul><ul><li>Combinan recolección masiva y selectiva </li></ul></ul></ul><ul><ul><ul><li>Empezaron con Internet Archive y se independizaron </li></ul></ul></ul><ul><ul><li>Biblioteca Nacional de Austria </li></ul></ul><ul><ul><ul><li>Empezaron haciendo sólo recolección selectiva y por acontecimientos </li></ul></ul></ul><ul><ul><ul><li>En 2010 hicieron su primera recolección del dominio .at </li></ul></ul></ul><ul><ul><ul><li>Su política es combinar los tres modelos (selectiva, por acontecimientos y masiva) </li></ul></ul></ul><ul><ul><li>Ambas utilizan Netarchive Suite </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    8. 8. Panorama Internacional: Iniciativas de archivado web El archivo de Internet, bibliotecas que piensan en el futuro
    9. 9. Panorama Internacional: ISO TC 46/SC 8/WG 9 <ul><li>Estadísticas y aspectos de calidad en los archivos web </li></ul><ul><ul><li>Objetivo: elaborar un informe técnico </li></ul></ul><ul><ul><li>Definición de términos y elementos relativos a estos proyectos </li></ul></ul><ul><ul><li>Establecer aspectos cuantificables para medir la calidad </li></ul></ul><ul><ul><li>Repaso de distintos aspectos relacionados con este tipo de proyectos: </li></ul></ul><ul><ul><ul><li>Personal </li></ul></ul></ul><ul><ul><ul><li>Costes </li></ul></ul></ul><ul><ul><ul><li>Evaluación -> establecimiento de indicadores de calidad </li></ul></ul></ul><ul><ul><ul><li>Tipos de proyectos según distintos criterios </li></ul></ul></ul><ul><ul><li>Estado actual de la cuestión </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    10. 10. La Ley de Depósito Legal en España <ul><ul><li>Decreto del 57: </li></ul></ul><ul><ul><ul><li>Preocupación por regular “las obras derivadas de los inventos modernos” </li></ul></ul></ul><ul><ul><li>Anteproyecto de ley de DL (2011) </li></ul></ul><ul><ul><ul><li>Publicaciones digitales -> patrimonio a preservar </li></ul></ul></ul><ul><ul><ul><li>Acceso y consulta de publicaciones almacenadas </li></ul></ul></ul><ul><ul><ul><li>Publicaciones digitales -> objeto de DL </li></ul></ul></ul><ul><ul><ul><li>Sitios web -> incluidos en el DL </li></ul></ul></ul><ul><ul><ul><li>Centros de conservación -> habilitados para rastrearlos y conservarlos </li></ul></ul></ul><ul><ul><ul><li>Límites: propiedad intelectual y protección de datos </li></ul></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    11. 11. El proyecto de la BNE: Primeros pasos <ul><li>Primer contrato con Internet Archive: 2009-2010 </li></ul><ul><li>Objetivo: recolectar, archivar y preservar el dominio .es </li></ul><ul><li>Primeras recolecciones </li></ul><ul><ul><li>4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010 </li></ul></ul><ul><li>Después de cada recolección: </li></ul><ul><ul><li>Deduplicación </li></ul></ul><ul><ul><li>Indización </li></ul></ul><ul><ul><li>Rastreo de parcheado </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    12. 12. El proyecto de la BNE: Primeros pasos El archivo de Internet, bibliotecas que piensan en el futuro
    13. 13. El proyecto de la BNE: Situación actual <ul><li>Resultados: </li></ul><ul><ul><li>30 TB de información almacenada </li></ul></ul><ul><ul><li>Más de 875 millones de URL: </li></ul></ul><ul><ul><ul><li>Más de 317 millones en la primera recolección </li></ul></ul></ul><ul><ul><ul><li>Cantidades menores en las tres siguientes complementarias </li></ul></ul></ul><ul><li>Acceso a la colección </li></ul><ul><li>Interfaz de consulta que necesita personalización </li></ul><ul><li>Búsquedas: </li></ul><ul><ul><li>Por URL </li></ul></ul><ul><ul><li>Por palabra a texto completo (necesita depuración) </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    14. 14. El proyecto de la BNE: Situación actual <ul><li>Informes </li></ul><ul><ul><li>MIME (Multipurpose Internet Mail Extension) </li></ul></ul><ul><ul><li>Respuestas de servidores </li></ul></ul><ul><ul><li>Servidores </li></ul></ul><ul><ul><li>Exclusiones </li></ul></ul><ul><li>Análisis de la colección mediante calas: </li></ul><ul><ul><li>Páginas recolectadas con éxito </li></ul></ul><ul><ul><li>Niveles de navegación que se han guardado </li></ul></ul><ul><ul><li>Porcentaje de webs guardadas que han desaparecido (casi un 3%) </li></ul></ul><ul><ul><li>Otros dominios capturados aparte de .es </li></ul></ul><ul><ul><li>Aproximación a porcentaje de temáticas </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    15. 15. El proyecto de la BNE: Planes inmediatos <ul><li>Perspectivas de crecimiento 2011-2012 </li></ul><ul><li>Nuevo contrato con Internet Archive: </li></ul><ul><ul><li>2 recolecciones masivas (2011), alternadas con </li></ul></ul><ul><ul><li>2 recolecciones selectivas (2011 y 2012): </li></ul></ul><ul><ul><ul><li>Temáticas </li></ul></ul></ul><ul><ul><ul><li>Acontecimientos (Elecciones Generales 2012) </li></ul></ul></ul><ul><li>Buscar colaboradores para las recolecciones selectivas </li></ul><ul><li>Probablemente estaremos cerca de duplicar la colección actual </li></ul><ul><li>Análisis de la colección muy de cerca durante los rastreos </li></ul><ul><li>Pruebas de rastreo propias con NetarchiveSuite  podremos evaluar en algunos aspectos nuestra capacidad de autogestión </li></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    16. 16. El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
    17. 17. El proyecto de la BNE: Planes inmediatos El archivo de Internet, bibliotecas que piensan en el futuro
    18. 18. El proyecto de la BNE: Perspectivas de futuro <ul><li>Acceso a la colección ¿en local o en remoto? </li></ul><ul><li>Personalización de la interfaz </li></ul><ul><li>Traslado de la colección: </li></ul><ul><ul><li>Propuesta con varias alternativas por parte de IA </li></ul></ul><ul><ul><li>Habilitación de espacio físico </li></ul></ul><ul><ul><li>Recursos para el mantenimiento de la colección </li></ul></ul><ul><li>Recolectamos nosotros  adopción y desarrollo de un software </li></ul><ul><li>Gestión de la colección: </li></ul><ul><ul><li>Organización temática </li></ul></ul><ul><ul><li>Planificación de nuevas recolecciones </li></ul></ul><ul><ul><li>Inclusión de otros dominios españoles fuera del .es </li></ul></ul><ul><li>Colaboración con Comunidades Autónomas (??) </li></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    19. 19. Referencias de interés <ul><ul><li>IIPC: www.netpreserve.org </li></ul></ul><ul><ul><li>Proyecto Memento: http://www.mementoweb.org/ </li></ul></ul><ul><ul><li>Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives </li></ul></ul><ul><ul><li>Internet Archive: www.archive.org </li></ul></ul><ul><ul><li>Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html </li></ul></ul><ul><ul><li>Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm </li></ul></ul><ul><ul><li>Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html </li></ul></ul><ul><ul><li>NetarchiveSuite: http://netarchive.dk/suite/Welcome </li></ul></ul><ul><ul><li>“ A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0 </li></ul></ul>El archivo de Internet, bibliotecas que piensan en el futuro
    20. 20. Mar Pérez Morillo Servicio de Coordinación Web [email_address] Pº de Recoletos, 20-22 28071 Madrid España T +34 915 807 800 www.bne.es BIBLIOTECA NACIONAL DE ESPAÑA

    ×