Este documento describe el proyecto de la Biblioteca Nacional de España para generar datos enlazados a partir de su catálogo. El proyecto incluyó las fases de especificación, modelado, generación y publicación de los datos. El objetivo final es migrar todo el catálogo a RDF usando FRBR como modelo de datos y vocabularios de la IFLA, y vincular los datos con otros conjuntos para mejorar la interoperabilidad.
Generación de datos enlazados en la Biblioteca Nacional de España
1. Departamento de Proceso Técnico
Dirección de Biblioteca Digital y Sistemas de
Información
Datos enlazados en la Biblioteca Nacional de España.
Ana Manchado Mangas – Jefe de Servicio de Proyectos
Bibliográficos
Ricardo Santos Muñoz – Jefe de Sección de Autoridades
2. Índice
Origen del proyecto
Fases de especificación y modelado
Fase de generación
Fase de publicación
Presente y futuro del proyecto: explotación
BIBLIOTECA NACIONAL DE ESPAÑA
3. Origen del proyecto:
Fichero de autoridades compartido
Proyecto de cooperación de la BNE y las Bibliotecas Nacionales y
Regionales de las Comunidades Autónomas
Objetivo: Creación de un Sistema Nacional de Autoridades (Fichero de
Autoridades compartido – “tipo VIAF”)
Principal dificultad: Multilingüismo en los nombres de persona y entidad.
Primeras aproximaciones:
– Desarrollo dentro de nuestro SIGB
– Desarrollo por parte de una empresa privada
BIBLIOTECA NACIONAL DE ESPAÑA
4. Origen del proyecto:
Proyecto de colaboración con la UPM
A partir de los contactos que la Biblioteca Nacional de España llevó a cabo
con la Universidad Politécnica de Madrid en septiembre de 2010 para
investigar la posibilidad de colaboración en este proyecto, se acordó un
convenio marco y un convenio específico para la realización del proyecto:
“Generación de datos enlazados a partir del catálogo bibliográfico y de
autoridades”
Primeras acciones: conocimiento del dominio: estándares y modelos de
datos. Selección de los datos, selección de los vocabularios
BIBLIOTECA NACIONAL DE ESPAÑA
5. Fase de especificación:
Identificar la fuente de datos: FASE 1
Seleccionamos un subconjunto de nuestros ficheros de autoridad y
bibliográficos en formato MARC21
Partiendo de los registros de autoridad que empiezan por Cervantes
Saavedra, Miguel de (1547-1616) (550 registros), navegamos a sus
bibliográficos relacionados (unos 8.000 registros bibliográficos)
Para completar el conjunto y multiplicar las posibilidades, seleccionamos
en nuestro catálogo las autoridades relacionadas con los bibliográficos
anteriores
( unos 7.351 registros de autoridad en total)
BIBLIOTECA NACIONAL DE ESPAÑA
6. Fase de especificación:
Identificar la fuente de datos: FASE 2
La segunda fase consistirá en la transformación a RDF de todo el
catálogo.
Hasta ahora se ha transformado todo el catálogo de autoridades y un
subconjunto muy representativo del catálogo bibliográfico, formado por
2.400.000 registros bibliográficos de los formatos
– Monografías modernas: 1.947.332
– Monografías antiguas: 107.803
– Música escrita: 162.519
– Grabaciones sonoras: 172.484
BIBLIOTECA NACIONAL DE ESPAÑA
7. Fase de modelado:
Análisis y selección de las ontologías y vocabularios
Estudio de otras iniciativas y proyectos de Library Linked Data
Selección de FRBR, FRAD, FRSAD e ISBD
» por tratarse de las ontologías proporcionadas por el
trabajo realizado en la IFLA
» por ser más exhaustivas y más precisas
» se encuentran inscritas en el Open Metadata Registry
BIBLIOTECA NACIONAL DE ESPAÑA
9. Fase de generación:
Características propias del proyecto BNE
Objetivo: migrar todo el catálogo:
– Autoridades
– Bibliográficos
– Relaciones entre ellos
Modelo de datos: modelos de la familia FR.
Vocabularios IFLA.
BIBLIOTECA NACIONAL DE ESPAÑA
10. Fase de generación:
FRBR como modelo de datos
FRBR es un modelo de referencia, un modelo abstracto y general,
que conceptualiza el mundo bibliográfico.
Como modelo de datos describe de un modo muy ordenado y
coherente el universo bibliográfico, contenido en un catálogo
bibliotecario.
Describe un conjunto muy rico de relaciones entre las entidades.
Permite la interoperabilidad con otros modelos similares de otros
ámbitos.
Ha sido asumido por otros modelos: RDA
BIBLIOTECA NACIONAL DE ESPAÑA
11. Fase de generación:
Vocabularios
Se han empleado vocabularios que se alinean con los estándares
de IFLA. Están reconocidos como estándares válidos de la web
semántica por la W3C.
Estos vocabularios tienen su origen en los estándares oficiales
(FRBR, FRAD, FRSAD e ISBD consolidada), y recogen las
propiedades de las entidades descritas en la catalogación.
Los vocabularios FRBR, FRAD recogen los atributos de Obra,
Expresión, Persona, Entidad Corporativa. ( Registros de
autoridad)
El vocabulario ISBD recoge los atributos de manifestación. (
Registro bibliográfico)
BIBLIOTECA NACIONAL DE ESPAÑA
14. Fase de generación:
Proceso de conversión
Se basa en el mapeo o correspondencia entre los registros base
(MARC21) con las propiedades citadas. Consta de 3 fases:
– Identificación de las entidades: Persona, Entidad
Corporativa, Obra y Expresión.
– Identificación de las relaciones entre entidades.
– Anotación de las propiedades.
BIBLIOTECA NACIONAL DE ESPAÑA
15. Fase de generación: proceso de conversión. Identificación de
autoridades
Desde los registros de autoridad.
Dada una etiqueta de campos y una combinación de subcampos, se determina a
qué entidad FRBR se relaciona:
100 $a $d Persona (FRBR Grupo 2)
110 $a $b –> Entidad corporativa (FRBR Grupo 2)
111 $a $n $d $c Entidad corporativa (FRBR Grupo 2)
130 $a Obra (FRBR Grupo 1)
100 $a $d $t Obra (FRBR Grupo 1)
100 $a $d $t $l Expresión (FRBR Grupo 1)
150 $a $z $v Thema (FRBR Grupo 3)
Cada registro bibliográfico Manifestación (FRBR Grupo 1)
BIBLIOTECA NACIONAL DE ESPAÑA
16. Fase de generación: proceso de conversión. Identificación de
entidades, modo de trabajo
BIBLIOTECA NACIONAL DE ESPAÑA
17. Fase de generación: proceso de conversión. Identificación de
relaciones
Entre los registros de autoridad
100 $a $t ($a es autor de $t)
Entre los registros de autoridad y los registros bibliográficos: a través de
los puntos de acceso.
100 $a
240 $a $l
(El registro bibliográfico es una manifestación de la expresión 100 + 240)
Entre los registros bibliográficos.
Es la parte más compleja, que ha de tener en cuenta más factores.
BIBLIOTECA NACIONAL DE ESPAÑA
18. Fase de generación: proceso de conversión. Anotación de las
propiedades
Propiedades o atributos de cada una de las entidades. Ej.
Persona –>” tiene fechas”
Entidad corporativa “tiene lugar asociado”
Obra “tiene nombre”
Expresión “tiene lengua”
Manifestación “tiene lugar de publicación”
Las propiedades se han anotado desde subcampos.
• Registros de autoridad FRBR, FRAD, FRSAD
• Registros bibliográficos ISBD
BIBLIOTECA NACIONAL DE ESPAÑA
19. Fase de generación: proceso de conversión. Anotación de las
propiedades
Propiedades o atributos de cada una de las entidades. Ej.
Persona –>” tiene fechas” 100 $d
Entidad corporativa “tiene lugar asociado” 110 $c
Obra “tiene nombre” 130 $a; 100 $t
Expresión “tiene lengua” 100 $l
Manifestación “tiene lugar de publicación” 260 $a
Las propiedades se han anotado desde subcampos.
• Registros de autoridad FRBR, FRAD, FRSAD
• Registros bibliográficos ISBD
BIBLIOTECA NACIONAL DE ESPAÑA
20. Fase de generación: proceso de conversión. Anotación de
propiedades: modo de trabajo
BIBLIOTECA NACIONAL DE ESPAÑA
21. Fase de generación: proceso de conversión. Problemas encontrados
Subcampos para los que no existe una propiedad específica.
– 670 $b, 100 $p
Subcampos para los que existe más de una propiedad posible.
– 245 $b
Propiedades que son difíciles de mapear
– “Es un resumen (obra) de (obra)”
– “Es una adaptación (obra) de (obra)”
Problemas con el modelo de datos.
– obra
Expresión
manifestación
BIBLIOTECA NACIONAL DE ESPAÑA
22. Fase de generación: CONCLUSIONES
Importancia de LD para las bibliotecas
Integración de nuestros datos con los de otras instituciones.
Extensibilidad, mediante la agregación a nuestros datos de otros
de diferente proveniencia.
Recombinación de los datos.
Plataforma para el multilingüismo.
BIBLIOTECA NACIONAL DE ESPAÑA
23. Fase de generación: CONCLUSIONES
Datos enlazados y datos de bibliotecas
Interoperabilidad, pero esta vez no solo entre bibliotecas.
Reutilización, pero esta vez no solo entre bibliotecas
Enlazado de datos relacionados, pero esta vez no sólo dentro de
nuestro catálogo.
Naturaleza autodescriptiva de los datos datos sobre datos
Representar datos y conocimiento como un conjunto de cosas
interrelacionadas.
Todas las cosas tienen un identificador único
BIBLIOTECA NACIONAL DE ESPAÑA
24. Fase de generación: CONCLUSIONES
Datos enlazados y datos de bibliotecas
Nuestros datos son muy “semánticos”.
Nuestros datos son bastante estructurados.
Nuestros datos tienen “calidad”.
Nuestros datos son “bastante” universales.
Tenemos un modelo de datos.
BIBLIOTECA NACIONAL DE ESPAÑA
25. Fase de publicación
Adquisición de un servidor para almacenar los datos del catálogo en RDF,
de acuerdo con la configuración recomendada
Instalación del SPARQL endpoint en dicho servidor para realizar las
consultas a los datos
Creación del dominio datos.bne.es
Creación de una página web o portal para diseminar y presentar los
resultados. Ver http://datos.bne.es/
BIBLIOTECA NACIONAL DE ESPAÑA
26. Presente y futuro del proyecto
Formación
– Impartido el Curso de Linked Data, incluido en el Plan de Formación
de la BNE (21 a 25 de noviembre 2011), por personal del OEG
Enlaces con otros dataset: VIAF, DNB, SUDOC, LIBRIS y DBPEDIA
Transformación a RDF de todo el catálogo – actualizaciones
Registro de datos.bne.es en el registro CKAN
Inclusión de datos.bne.es en la nube de Linking Open Data
Fase de explotación:
– Enlaces con otros conjuntos de datos.
– Desarrollo de aplicaciones que combinen diversos conjuntos de datos
enlazados
BIBLIOTECA NACIONAL DE ESPAÑA
27. Ana Manchado Mangas
Dirección de Biblioteca Digital y Sistemas de Información
ana.manchado@bne.es
Ricardo Santos Muñoz
Departamento de Proceso Técnico
ricardo.santos@bne.es
Pº de Recoletos 20 -22
28071 Madrid
España
T +34 915 807 800
www.bne.es
BIBLIOTECA NACIONAL DE ESPAÑA