AGREGACIÓN DE CONTENIDOS EN EUROPEANA Andrés Viedma Peláez Coordinador Dpto. Informática TRANSFORMACIONES Y MAPEOS DE LOS ...
<ul><li>Inicio del proyecto </li></ul><ul><ul><li>OAI-PMH + Dublin Core (dc + dcterms) </li></ul></ul><ul><li>Fase Rhin (V...
<ul><li>type: text, image, video, sound </li></ul><ul><li>object: fichero del que extraer la imagen en miniatura </li></ul...
<ul><li>ESE 3.3 </li></ul><ul><ul><li>dataProvider: biblioteca digital original </li></ul></ul><ul><ul><li>rights: mejor c...
Formato ESE: ejemplo < europeana:record> < dc: title > [Commentaria in Apocalipsin libri XII] [Manuscrito] </ dc:title > <...
<ul><li>Obliga a bibliotecas a adaptar continuamente su software </li></ul><ul><li>Cambios muy rápidos </li></ul><ul><ul><...
Formato EDM: La llegada “ Miré, y vi un caballo bayo. El que lo montaba tenía por nombre Muerte, y el Hades lo seguía: y l...
<ul><li>Número tan alto de registros difícil de manejar para el usuario </li></ul><ul><ul><li>Fácil perderse, difícil enco...
EDM: Linked Data Prácticas y técnicas que permiten publicar, compartir y conectar elementos de información en la Web Semán...
EDM: Datos sin relacionar Quijote (BIDICAM) Quijote (BV Andalucía) Quijote (BD Castilla y León) Publisher: Fundación Ignac...
EDM: Datos relacionados Miguel de Cervantes Saavedra Quijote edición A Quijote edición B Quijote copia digital A1 (BIDICAM...
<ul><li>El modelo base es el formato ESE </li></ul><ul><li>Separa en distintas entidades: </li></ul><ul><ul><li>Objeto ori...
<ul><li>Autores, materias, lugares, épocas... EDM define clases específicas para estas entidades, para: </li></ul><ul><ul>...
<ul><li>Agent: personas ó instituciones (grupos)  </li></ul><ul><li>Event: sobre todo para datos de museos </li></ul><ul><...
EDM: SKOS Concept <ul><li>Simple Knowledge Organization System: vocabulario genérico que permite definir “conceptos” </li>...
EDM: SKOS Concept - Materias Problema multi-idioma: se necesitan entidades intermedias que mapeen el concepto en español c...
EDM: Agent Basado en SKOS, FOAF, DC y los RDA Group 2 Elements rdaGr2:dateOfBirth rdaGr2:dateOfDeath rdaGr2:dateOfEstablis...
EDM: Place GeoNames más internacional GeoLinked Data más completo para lugares que no sean entidades administrativas: pozo...
<ul><li>EDM: Modelo interno    Modelo de intercambio </li></ul><ul><li>Usar RDF como modelo interno: NO </li></ul><ul><li...
EDM: Registros aislados
<ul><li>100 / 110 (no autor-título, no subdivisión): Agent </li></ul><ul><li>111: Event </li></ul><ul><li>100 / 110 / 111 ...
<ul><li>024 : “Other standard identifier” - URI Linked Data - skos: closeMatch </li></ul><ul><li>Autoridad con subdivisión...
<ul><li>Filosofía WEMI (Obra-Expresión-Manifestación-Item) de FRBR / RDA facilita la detección de duplicados </li></ul><ul...
EDM: ¿Qué permite? - Autocompletar Auto-completar inteligente: mientras escribes, identifica de forma independiente person...
EDM: ¿Qué permite? - Resultados organizados Al identificar “leonardo” como una persona, se agrupan las obras según el resu...
EDM: ¿Qué permite? - Contextualización Al identificar “darwin” como una persona, se muestra la información de la Wikipedia...
EDM: ¿Qué permite? - Contenido relacionado Los “contenidos relacionados” se pueden obtener con mucha mayor precisión. Incl...
<ul><li>Mapa temporal / espacial: restringir temporal y espacialmente y ver registros de esos rangos </li></ul><ul><li>Rep...
<ul><li>ESE v3.4 -  http://version1.europeana.eu/web/guest/technical-requirements/ </li></ul><ul><ul><li>ESE specification...
<ul><li>Content checker </li></ul><ul><ul><li>Portal “de prueba”, copia de Europeana </li></ul></ul><ul><ul><li>Permite al...
<ul><li>Europeana proyecto aún en evolución </li></ul><ul><li>Cambios constantes en los formatos de metadatos </li></ul><u...
Agregación de contenidos en Europeana Transformaciones y mapeos de los datos FIN GRACIAS POR LA ATENCIÓN Andrés Viedma Pel...
Upcoming SlideShare
Loading in …5
×

Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

3,517 views
3,335 views

Published on

Published in: Technology
1 Comment
6 Likes
Statistics
Notes
No Downloads
Views
Total views
3,517
On SlideShare
0
From Embeds
0
Number of Embeds
78
Actions
Shares
0
Downloads
57
Comments
1
Likes
6
Embeds 0
No embeds

No notes for slide

Agregación de contenidos en Europeana, de Andrés Viedma Peláez, coordinador dpto. Informática de DIGIBÍS

  1. 1. AGREGACIÓN DE CONTENIDOS EN EUROPEANA Andrés Viedma Peláez Coordinador Dpto. Informática TRANSFORMACIONES Y MAPEOS DE LOS DATOS
  2. 2. <ul><li>Inicio del proyecto </li></ul><ul><ul><li>OAI-PMH + Dublin Core (dc + dcterms) </li></ul></ul><ul><li>Fase Rhin (Verano 2010) </li></ul><ul><ul><li>ESE : Europeana Semantic Elements </li></ul></ul><ul><li>Fase Danubio (Verano 2011) </li></ul><ul><ul><li>EDM : Europeana Data Model </li></ul></ul>Formatos intercambio Europeana
  3. 3. <ul><li>type: text, image, video, sound </li></ul><ul><li>object: fichero del que extraer la imagen en miniatura </li></ul><ul><li>isShownAt / By: enlaces a la web original </li></ul><ul><li>provider: Repositorio del que se han recolectado los datos - se fomenta la existencia de agregadores: Hispana </li></ul>Formato ESE
  4. 4. <ul><li>ESE 3.3 </li></ul><ul><ul><li>dataProvider: biblioteca digital original </li></ul></ul><ul><ul><li>rights: mejor control de derechos de las obras </li></ul></ul><ul><li>ESE 3.4 </li></ul><ul><ul><li>Más elementos requeridos (3.3) </li></ul></ul><ul><li>Normalizaciones de campos DC </li></ul><ul><ul><li>language, date... </li></ul></ul>Formato ESE: nuevas versiones
  5. 5. Formato ESE: ejemplo < europeana:record> < dc: title > [Commentaria in Apocalipsin libri XII] [Manuscrito] </ dc:title > < dcterms:alternative > Summa dicendorum </ dcterms:alternative > < dc: date > 1050 </ dc:date > < dc: creator > Beato de Liébana, Santo </ dc:creator > < dc:contributor > Jerónimo, Santo (ca. 345-420) </ dc:contributor > < dc:contributor > Apringio de Beja </ dc:contributor > < dc:type > Manuscritos </ dc:type > < dc: language > lat </ dc:language > < dc:format > image/jpeg </ dc:format > < dc: subject > Códices </ dc:subject > < dcterms:extent > 282 h. (2 col.) </ dcterms:extent > < europeana:object > http://bvpb.mcu.es/i18n/catalogo_imagenes/imagen_id.cmd?idImagen=1350585 </ europeana:object > < europeana:provider > Hispana </ europeana:provider > < europeana:type > TEXT </ europeana:type > < europeana:dataProvider > BV del Patrimonio Bibliográfico </ europeana:dataProvider > < europeana:isShownAt > http://bvpb.mcu.es/es/catalogo_imagenes/grupo.cmd?path=8524 </ europeana:isShownAt > < europeana:rights > http://creativecommons.org/publicdomain/mark/1.0/ </ europeana:rights > </ europeana:record >
  6. 6. <ul><li>Obliga a bibliotecas a adaptar continuamente su software </li></ul><ul><li>Cambios muy rápidos </li></ul><ul><ul><li>Software “open source” americano no lo genera </li></ul></ul><ul><ul><li>Plugin dSpace de Vangelis Banos </li></ul></ul><ul><ul><li>Complicado de instalar: DIGIBÍS ha proporcionado unas instrucciones que faciliten la instalación http://www.digibis.com/index.php?option=com_content&view=article&id=9&Itemid=15 </li></ul></ul>Formato ESE: problemática para las bibliotecas
  7. 7. Formato EDM: La llegada “ Miré, y vi un caballo bayo. El que lo montaba tenía por nombre Muerte, y el Hades lo seguía: y les fue dada potestad sobre la cuarta parte de la tierra, para matar con espada, con hambre, con mortandad y con las fieras de la tierra” Apocalipsis 6,8
  8. 8. <ul><li>Número tan alto de registros difícil de manejar para el usuario </li></ul><ul><ul><li>Fácil perderse, difícil encontrar lo que realmente se quiere </li></ul></ul><ul><li>Datos de origen estructurados. Esto permite: </li></ul><ul><ul><li>Relacionar lo mejor posible los registros </li></ul></ul><ul><ul><li>Distinguir valores comunes: autores, materias, lugares, épocas... aunque sean términos diferentes o estén escritos en idiomas distintos </li></ul></ul><ul><ul><li>Distinguir duplicados: varias copias digitales de una misma obra </li></ul></ul>EDM: ¿Por qué?
  9. 9. EDM: Linked Data Prácticas y técnicas que permiten publicar, compartir y conectar elementos de información en la Web Semántica usando URIs y RDF Se trata de crear “redes” de información que permitan conectar los elementos de forma directa o indirecta
  10. 10. EDM: Datos sin relacionar Quijote (BIDICAM) Quijote (BV Andalucía) Quijote (BD Castilla y León) Publisher: Fundación Ignacio Larramendi La cultura literaria de Miguel de Cervantes Creator: Miguel de Cervantes Creator: Miguel de Cervantes Saavedra Creator: Cervantes de Saavedra, Miguel Búsqueda: “Miguel de Cervantes” Aparecen muchos registros con copias de la misma obra (por ejemplo el Quijote) Este registro no aparece (nombre diferente) Aparecen registros que contienen la cadena en algún campo pero que no son lo que se buscaba de origen
  11. 11. EDM: Datos relacionados Miguel de Cervantes Saavedra Quijote edición A Quijote edición B Quijote copia digital A1 (BIDICAM) Quijote copia digital A2 (BV Andalucía) Fundación Ignacio Larramendi Quijote copia digital B1 (BD Castilla y León) El Quijote Parodia de Novelas de caballería La cultura literaria de Miguel de Cervantes Menéndez Pelayo Novelas de caballería Tirant lo Blanc = “Cervantes de Saavedra, Miguel”
  12. 12. <ul><li>El modelo base es el formato ESE </li></ul><ul><li>Separa en distintas entidades: </li></ul><ul><ul><li>Objeto original </li></ul></ul><ul><ul><li>Metadatos del objeto original proporcionados por una biblioteca (título, autor...) </li></ul></ul><ul><ul><li>Metadatos de la copia digital (formato, enlace a la miniatura...) </li></ul></ul><ul><li>Uso de agregaciones OAI-ORE para crear entidades separadas </li></ul>EDM: Varias entidades para un objeto digital
  13. 13. <ul><li>Autores, materias, lugares, épocas... EDM define clases específicas para estas entidades, para: </li></ul><ul><ul><li>Enlazar con conjuntos de datos (datasets) conocidos, para facilitar la identificación de estas entidades </li></ul></ul><ul><ul><li>Conectar obras a través de las relaciones entre las entidades contextuales, sobre todo a través de relaciones de equivalencia (owl:isSameAs, skos:closeMatch) </li></ul></ul><ul><ul><li>Enriquecer la información de una obra, añadiendo información de sus autores o de sus épocas </li></ul></ul><ul><ul><li>Obtener todas las etiquetas equivalentes para una entidad, con lo que se mejoran las búsquedas </li></ul></ul><ul><li>A esto se le llama enriquecimiento de datos </li></ul>EDM: Entidades contextuales
  14. 14. <ul><li>Agent: personas ó instituciones (grupos) </li></ul><ul><li>Event: sobre todo para datos de museos </li></ul><ul><li>Concept (SKOS) </li></ul><ul><li>Place </li></ul><ul><li>TimeSpan </li></ul><ul><li>PhysicalThing </li></ul>EDM: Entidades contextuales
  15. 15. EDM: SKOS Concept <ul><li>Simple Knowledge Organization System: vocabulario genérico que permite definir “conceptos” </li></ul><ul><li>Permite dar varias etiquetas al concepto: prefLabel, altLabel </li></ul><ul><li>Permite establecer relaciones entre las materias </li></ul><ul><ul><li>exactMatch, closeMatch: concepto equivalente en otro espacio de datos </li></ul></ul><ul><ul><li>narrower, broader: concepto más genérico / más específico </li></ul></ul><ul><ul><li>related: otras relaciones </li></ul></ul>
  16. 16. EDM: SKOS Concept - Materias Problema multi-idioma: se necesitan entidades intermedias que mapeen el concepto en español con el concepto de la LCSH El MCU está trabajando en obtener las Listas de Encabezamientos de Materias para bibliotecas públicas en un formato descargable por el usuario (MARC21, SKOS), enlazadas con las LCSH LCSH está enlazado con Rameau
  17. 17. EDM: Agent Basado en SKOS, FOAF, DC y los RDA Group 2 Elements rdaGr2:dateOfBirth rdaGr2:dateOfDeath rdaGr2:dateOfEstablishment rdaGr2:dateOfTermination rdaGr2:gender rdaGr2:professionOrOccupation rdaGr2:biographicalInformation VIAF no completamente enlazado con Dbpedia (algunos registros sí)
  18. 18. EDM: Place GeoNames más internacional GeoLinked Data más completo para lugares que no sean entidades administrativas: pozos, rías, caminos, barrancos... Basado en SKOS, DC y WGS84 para coordenadas espaciales GeoLinked Data tiene enlaces a GeoNames, cuando la entidad existe
  19. 19. <ul><li>EDM: Modelo interno  Modelo de intercambio </li></ul><ul><li>Usar RDF como modelo interno: NO </li></ul><ul><li>Publicar datos como Linked Data (URI propia): SÍ (si relaciones) </li></ul><ul><li>Diferenciar duplicados: Conveniente, si los hay (muchas bibliotecas virtuales no los tendrán) </li></ul><ul><li>Enriquecimiento realizado por el proveedor de datos (enlaces con URIs de registros en datasets externos) : DESEABLE </li></ul><ul><ul><li>Complicado para modelos de datos “planos” que no tienen ya creadas entidades secundarias - ej.: DC </li></ul></ul><ul><ul><li>Muy factible para modelos de datos más ricos en los que existen conceptos de autoridades: ej. MARC 21 </li></ul></ul>EDM: ¿Qué implica para los proveedores?
  20. 20. EDM: Registros aislados
  21. 21. <ul><li>100 / 110 (no autor-título, no subdivisión): Agent </li></ul><ul><li>111: Event </li></ul><ul><li>100 / 110 / 111 con subdivisión: Concept </li></ul><ul><li>150 / 155: Concept </li></ul><ul><li>148: TimeSpan </li></ul><ul><li>151: Place </li></ul>MARC 21 a EDM: Autoridades
  22. 22. <ul><li>024 : “Other standard identifier” - URI Linked Data - skos: closeMatch </li></ul><ul><li>Autoridad con subdivisión: skos:broader a autoridad aceptada, dcterms:hasPart a subdivisión </li></ul><ul><li>1xx : skos:prefLabel, 4xx : skos:altLabel </li></ul><ul><li>5xx : skos:related, skos:narrower, skos:broader </li></ul><ul><li>7xx : skos:closeMatch </li></ul><ul><li>Otros campos mapeables a notas y otros campos informativos (por ejemplo, los campos de información RDA de personas) </li></ul>MARC 21 a EDM: Campos especiales
  23. 23. <ul><li>Filosofía WEMI (Obra-Expresión-Manifestación-Item) de FRBR / RDA facilita la detección de duplicados </li></ul><ul><li>Diferenciación entre registros bibliográficos y registros de holdings facilita la separación entre metadatos del objeto original y del objeto digital </li></ul><ul><li>Si no, los datos del objeto digital se pueden extraer al menos del campo 856 </li></ul>MARC 21 a EDM: Objeto físico <> digital
  24. 24. EDM: ¿Qué permite? - Autocompletar Auto-completar inteligente: mientras escribes, identifica de forma independiente personas, lugares, conceptos... que encajen en los términos de búsqueda
  25. 25. EDM: ¿Qué permite? - Resultados organizados Al identificar “leonardo” como una persona, se agrupan las obras según el resultado sea una obra del autor, una obra acerca del autor, una obra de algún autor relacionado, etc.
  26. 26. EDM: ¿Qué permite? - Contextualización Al identificar “darwin” como una persona, se muestra la información de la Wikipedia sobre esa persona Esta idea de la contextualización es también una de las líneas maestras de la BV de la Fundación Ignacio Larramendi
  27. 27. EDM: ¿Qué permite? - Contenido relacionado Los “contenidos relacionados” se pueden obtener con mucha mayor precisión. Incluso, se podrían categorizar según el tipo de relación que tengan (temática, temporal, mismo autor, etc.)
  28. 28. <ul><li>Mapa temporal / espacial: restringir temporal y espacialmente y ver registros de esos rangos </li></ul><ul><li>Representación de objetos jerárquicos: agrupar por “padres” comunes, ir al siguiente / anterior en una secuencia => por ejemplo, números de una publicación periódica </li></ul><ul><li>Sólo estamos empezando... </li></ul>EDM: ¿Qué permite? - Otros
  29. 29. <ul><li>ESE v3.4 - http://version1.europeana.eu/web/guest/technical-requirements/ </li></ul><ul><ul><li>ESE specifications </li></ul></ul><ul><ul><li>Metadata mapping and normalisation Guidelines </li></ul></ul><ul><li>EDM - http://version1.europeana.eu/web/europeana-project/technicaldocuments/ </li></ul><ul><ul><li>EDM Data Model Primer </li></ul></ul><ul><ul><li>EDM Data Model Definition 5.2 </li></ul></ul><ul><ul><li>Aún NO se ha definido un esquema EDM en XML para que lo proporcionen los proveedores de datos </li></ul></ul>Europeana: estado actual formatos
  30. 30. <ul><li>Content checker </li></ul><ul><ul><li>Portal “de prueba”, copia de Europeana </li></ul></ul><ul><ul><li>Permite al usuario recolectar nuevos datos (ingestor) y luego consultarlos (portal) </li></ul></ul><ul><ul><li>No está preparado para repositorios OAI-PMH, sólo recolecta ficheros con metadatos </li></ul></ul><ul><ul><li>Aún no recolecta EDM, sólo ESE </li></ul></ul><ul><ul><li>http://contentchecker.isti.cnr.it:8080/ingestor/ http://contentchecker.isti.cnr.it:8080/portal/ </li></ul></ul><ul><li>The Aggregator’s Handbook http://version1.europeana.eu/c/document_library/get_file?uuid=94bcddbf-3625-4e6d-8135-c7375d6bbc62&groupId=10602 </li></ul>Europeana: enviar datos
  31. 31. <ul><li>Europeana proyecto aún en evolución </li></ul><ul><li>Cambios constantes en los formatos de metadatos </li></ul><ul><li>Las bibliotecas virtuales y digitales tienen que hacer un esfuerzo para adaptarse a esos cambios </li></ul><ul><li>La recompensa será la visibilidad que otorga Europeana (y la que otorgará en el futuro) </li></ul><ul><li>Si se entra “a medias” se corre el riesgo de “casi no estar” </li></ul>Conclusión
  32. 32. Agregación de contenidos en Europeana Transformaciones y mapeos de los datos FIN GRACIAS POR LA ATENCIÓN Andrés Viedma Peláez Coordinador Departamento de Informática

×