Propuesta de actualización de macro-tesauros a partir de noticias de divulgación

  • 199 views
Uploaded on

Presentación de la comunicación presentada al XI Congreso ISKO España - I Congreso ISKO Espanha-Portugal, disponible en: …

Presentación de la comunicación presentada al XI Congreso ISKO España - I Congreso ISKO Espanha-Portugal, disponible en:

BAÑOS-MORENO, María-José, PASTOR-SÁNCHEZ Juan Antonio y MARTÍNEZ-BÉJAR, Rodrigo. Propuesta de actualización de macro-tesauros a partir de noticias de divulgación científico-tecnológica. En: RIBEIRO, Fernanda y CERVEIRA, Maria Elisa (org.). Informação e/ou Conhecimento: as duas faces de Jano. Porto: Faculdade de Letras da Universidade do Porto - CETAC.MEDIA, 2013. I Congresso ISKO Espanha e Portugal / XI Congresso ISKO Espanha, Oporto, 7 a 9 de noviembre de 2013. pp. 99-112. http://www.youblisher.com/p/745761-I-Congresso-ISKO-Espanha-e-Portugal-XI-Congreso-ISKO-Espana/.

Los tesauros son herramientas de organización del conocimiento necesarias para el control de la información, más aún en el mundo de la información digital. Sin embargo, muchos de ellos adolecen de una falta de actualización que reduce considerablemente su utilidad. Este trabajo tiene precisamente como objetivo analizar el grado de actualización de dos de los tesauros más importante, el de la UNESCO y el de la Unión Europea (Eurovoc). Así, para la descripción de artículos de prensa, se procedió a la extracción de términos descriptivos de contenido a partir de titulares de artículos de divulgación científico-tecnológica publicados en prensa digital. A continuación mediante técnicas de Recuperación de Información se buscaron equivalencias con los tesauros mencionados anteriormente. Los resultados obtenidos muestran un nivel de equivalencia exacta o cercana que ronda el 50%. Este porcentaje se aproxima al 75% considerando equivalencias jerárquicas y asociativas. Este dato permite confirmar que ambos macro-tesauros pueden ser la base para elaborar otros vocabularios. En el caso concreto de su aplicación para la indización de noticias de divulgación científico-tecnológica, Eurovoc es ligeramente mejor que el Tesauro de la UNESCO, puesto que los términos y relaciones están más actualizados. El nivel de equivalencia exacta o cercana indica que las noticias de divulgación científico-tecnológica constituyen una fuente adecuada para la actualización de tesauros bien para la inclusión de nuevos términos o para la redefinición de las relaciones entre estos

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
199
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Actualización de tesauros a partir de noticias de divulgación María-José Baños-Moreno, Juan Antonio Pastor-Sánchez, Rodrigo Martínez-Béjar I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013
  • 2. INTRODUCCIÓN ● Contexto: crecimiento exponencial de información en Internet ● Herramientas de control: tesauros, para 1) la descripción de documentos; 2) la recuperación de información; 3) construir otros productos documentales ● Destacan: Unesco y Eurovoc. ● Requisito fundamental: actualización frecuente
  • 3. OBJETIVOS ● Analizar el grado de actualización de los Tesauros de la UNESCO y de la Unión Europea (Teurovoc); ● Conocer si los Tesauros de la UNESCO y Eurovoc pueden ser utilizados para indizar noticias;
  • 4. METODOLOGÍA ● Obtención de muestra mediante: ○ Selección de países punteros en ciencia y tecnología; ○ Selección del periódico más leído por país; ○ Selección de una noticia diaria de la sección de ciencia y tecnología; ○ Extracción de entre 1 y 6 palabras clave mediante indización en lenguaje natural; ○ Traducción a español, francés e inglés --> Corpus de 320 noticias y 599 términos.
  • 5. METODOLOGÍA ● Construcción de una colección de términos de tesauro, a la que se interroga posteriormente: ● Búsqueda de equivalencias, mediante Apache Solr, entre pares de términos según score proporcionado
  • 6. METODOLOGÍA ● Búsqueda de equivalencias, mediante Apache Solr: Por palabras en índice general (Q1). Literal en el campo descriptor (Q2). Literal en el campo no-descriptor (Q3). Lematizada de expresión en el campo descriptor (Q4). Lematizada de expresión en el campo no-descriptor (Q5). ○ Lematizada por palabras en campo descriptor (Q6). ○ Lematizada por palabras en campo no-descriptor (Q7) ○ ○ ○ ○ ○
  • 7. METODOLOGÍA ● Apache Solr proporciona una medida de similitud (score) que clasifica los resultados: ○ A las consultas Q2 y Q3 se les aplicó un factor de potenciación del score de 5 y 3. ○ Experimentalmente se comprobó la necesidad de potenciar los resultados de la consulta Q1, aplicando en este caso un boost de 2,5. ○ Los primeros datos obtenidos aconsejaron establecer un umbral mínimo de score por debajo del cual debían desecharse dichos resultados: 0,4 para el Tesauro de la UNESCO y 0,5 para EUROVOC
  • 8. METODOLOGÍA ● Resultados obtenidos con Solr para los términos de los tesauros:
  • 9. METODOLOGÍA ● Clasificación en función de la relación entre los pares de términos en: ○ ○ ○ ○ ○ ○ ○ Correctos (TC) Sinónimos (TS) Específicos (TE) Genéricos (TG) Término relacionado (TR); Término nuevo (TN); Falso equivalente (TFE)
  • 10. RESULTADOS ● Varios cálculos de precisión: ○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi 50% de términos indizados aparecían en el tesauro; ○ Precisión total (TC+TS+TG+TE): Cerca de 75% de palabras clave extraídas mantienen alguna relación con los términos de tesauros, aunque no implica una recuperación satisfactoria
  • 11. CONCLUSIONES ● Casi la mitad de los términos extraídos, son recogidos por los dos tesauros. Se puede estimar que existe cierta preocupación por su renovación; ● De las equivalencias halladas, más de un 25% son de tipo jerárquico (TE, TG) o asociativo (TR). Una búsqueda eventual por dichas palabras clave no aportaría el resultado más adecuado. ● Para casi un 25% de los términos extraídos no se halló ninguna equivalencia (TN) o era falsa (TFE). ● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar su frecuencia de actualización; ● En su estado actual, estos tesauros no pueden ser utilizados para indizar noticias;
  • 12. LÍNEAS FUTURAS ● Los lenguajes pivote resuelven casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir otras lenguas al estudio ● Apache Solr, a diferencia de otras técnicas, como N-gramas, detecta automáticamente términos nuevos. Otra línea podría centrarse en el análisis de las búsquedas para mejorar los resultados
  • 13. GRACIAS POR VUESTRA ATENCIÓN