Actualización de
tesauros a partir de
noticias de divulgación
María-José Baños-Moreno, Juan Antonio Pastor-Sánchez,
Rodrig...
INTRODUCCIÓN
● Contexto: crecimiento exponencial de
información en Internet
● Herramientas de control: tesauros, para 1)
l...
OBJETIVOS
● Analizar el grado de actualización de los
Tesauros de la UNESCO y de la Unión
Europea (Teurovoc);
● Conocer si...
METODOLOGÍA
● Obtención de muestra mediante:
○ Selección de países punteros en ciencia y tecnología;
○ Selección del perió...
METODOLOGÍA
● Construcción de una colección de términos de
tesauro, a la que se interroga posteriormente:

● Búsqueda de e...
METODOLOGÍA
● Búsqueda de equivalencias, mediante Apache Solr:
Por palabras en índice general (Q1).
Literal en el campo de...
METODOLOGÍA
● Apache Solr proporciona una medida de similitud

(score) que clasifica los resultados:
○ A las consultas Q2 ...
METODOLOGÍA
● Resultados obtenidos con Solr para los términos de
los tesauros:
METODOLOGÍA
● Clasificación en función de la relación entre
los pares de términos en:
○
○
○
○
○
○
○

Correctos (TC)
Sinóni...
RESULTADOS
● Varios cálculos de precisión:

○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi
50% de términos indi...
CONCLUSIONES
● Casi la mitad de los términos extraídos, son recogidos por los dos
tesauros. Se puede estimar que existe ci...
LÍNEAS FUTURAS
● Los lenguajes pivote resuelven casos de
homonimia, polisemia y riqueza lingüística.
En el futuro se podrí...
GRACIAS POR
VUESTRA ATENCIÓN
Upcoming SlideShare
Loading in …5
×

Propuesta de actualización de macro-tesauros a partir de noticias de divulgación

551 views

Published on

Presentación de la comunicación presentada al XI Congreso ISKO España - I Congreso ISKO Espanha-Portugal, disponible en:

BAÑOS-MORENO, María-José, PASTOR-SÁNCHEZ Juan Antonio y MARTÍNEZ-BÉJAR, Rodrigo. Propuesta de actualización de macro-tesauros a partir de noticias de divulgación científico-tecnológica. En: RIBEIRO, Fernanda y CERVEIRA, Maria Elisa (org.). Informação e/ou Conhecimento: as duas faces de Jano. Porto: Faculdade de Letras da Universidade do Porto - CETAC.MEDIA, 2013. I Congresso ISKO Espanha e Portugal / XI Congresso ISKO Espanha, Oporto, 7 a 9 de noviembre de 2013. pp. 99-112. http://www.youblisher.com/p/745761-I-Congresso-ISKO-Espanha-e-Portugal-XI-Congreso-ISKO-Espana/.

Los tesauros son herramientas de organización del conocimiento necesarias para el control de la información, más aún en el mundo de la información digital. Sin embargo, muchos de ellos adolecen de una falta de actualización que reduce considerablemente su utilidad. Este trabajo tiene precisamente como objetivo analizar el grado de actualización de dos de los tesauros más importante, el de la UNESCO y el de la Unión Europea (Eurovoc). Así, para la descripción de artículos de prensa, se procedió a la extracción de términos descriptivos de contenido a partir de titulares de artículos de divulgación científico-tecnológica publicados en prensa digital. A continuación mediante técnicas de Recuperación de Información se buscaron equivalencias con los tesauros mencionados anteriormente. Los resultados obtenidos muestran un nivel de equivalencia exacta o cercana que ronda el 50%. Este porcentaje se aproxima al 75% considerando equivalencias jerárquicas y asociativas. Este dato permite confirmar que ambos macro-tesauros pueden ser la base para elaborar otros vocabularios. En el caso concreto de su aplicación para la indización de noticias de divulgación científico-tecnológica, Eurovoc es ligeramente mejor que el Tesauro de la UNESCO, puesto que los términos y relaciones están más actualizados. El nivel de equivalencia exacta o cercana indica que las noticias de divulgación científico-tecnológica constituyen una fuente adecuada para la actualización de tesauros bien para la inclusión de nuevos términos o para la redefinición de las relaciones entre estos

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
551
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Propuesta de actualización de macro-tesauros a partir de noticias de divulgación

  1. 1. Actualización de tesauros a partir de noticias de divulgación María-José Baños-Moreno, Juan Antonio Pastor-Sánchez, Rodrigo Martínez-Béjar I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013
  2. 2. INTRODUCCIÓN ● Contexto: crecimiento exponencial de información en Internet ● Herramientas de control: tesauros, para 1) la descripción de documentos; 2) la recuperación de información; 3) construir otros productos documentales ● Destacan: Unesco y Eurovoc. ● Requisito fundamental: actualización frecuente
  3. 3. OBJETIVOS ● Analizar el grado de actualización de los Tesauros de la UNESCO y de la Unión Europea (Teurovoc); ● Conocer si los Tesauros de la UNESCO y Eurovoc pueden ser utilizados para indizar noticias;
  4. 4. METODOLOGÍA ● Obtención de muestra mediante: ○ Selección de países punteros en ciencia y tecnología; ○ Selección del periódico más leído por país; ○ Selección de una noticia diaria de la sección de ciencia y tecnología; ○ Extracción de entre 1 y 6 palabras clave mediante indización en lenguaje natural; ○ Traducción a español, francés e inglés --> Corpus de 320 noticias y 599 términos.
  5. 5. METODOLOGÍA ● Construcción de una colección de términos de tesauro, a la que se interroga posteriormente: ● Búsqueda de equivalencias, mediante Apache Solr, entre pares de términos según score proporcionado
  6. 6. METODOLOGÍA ● Búsqueda de equivalencias, mediante Apache Solr: Por palabras en índice general (Q1). Literal en el campo descriptor (Q2). Literal en el campo no-descriptor (Q3). Lematizada de expresión en el campo descriptor (Q4). Lematizada de expresión en el campo no-descriptor (Q5). ○ Lematizada por palabras en campo descriptor (Q6). ○ Lematizada por palabras en campo no-descriptor (Q7) ○ ○ ○ ○ ○
  7. 7. METODOLOGÍA ● Apache Solr proporciona una medida de similitud (score) que clasifica los resultados: ○ A las consultas Q2 y Q3 se les aplicó un factor de potenciación del score de 5 y 3. ○ Experimentalmente se comprobó la necesidad de potenciar los resultados de la consulta Q1, aplicando en este caso un boost de 2,5. ○ Los primeros datos obtenidos aconsejaron establecer un umbral mínimo de score por debajo del cual debían desecharse dichos resultados: 0,4 para el Tesauro de la UNESCO y 0,5 para EUROVOC
  8. 8. METODOLOGÍA ● Resultados obtenidos con Solr para los términos de los tesauros:
  9. 9. METODOLOGÍA ● Clasificación en función de la relación entre los pares de términos en: ○ ○ ○ ○ ○ ○ ○ Correctos (TC) Sinónimos (TS) Específicos (TE) Genéricos (TG) Término relacionado (TR); Término nuevo (TN); Falso equivalente (TFE)
  10. 10. RESULTADOS ● Varios cálculos de precisión: ○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi 50% de términos indizados aparecían en el tesauro; ○ Precisión total (TC+TS+TG+TE): Cerca de 75% de palabras clave extraídas mantienen alguna relación con los términos de tesauros, aunque no implica una recuperación satisfactoria
  11. 11. CONCLUSIONES ● Casi la mitad de los términos extraídos, son recogidos por los dos tesauros. Se puede estimar que existe cierta preocupación por su renovación; ● De las equivalencias halladas, más de un 25% son de tipo jerárquico (TE, TG) o asociativo (TR). Una búsqueda eventual por dichas palabras clave no aportaría el resultado más adecuado. ● Para casi un 25% de los términos extraídos no se halló ninguna equivalencia (TN) o era falsa (TFE). ● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar su frecuencia de actualización; ● En su estado actual, estos tesauros no pueden ser utilizados para indizar noticias;
  12. 12. LÍNEAS FUTURAS ● Los lenguajes pivote resuelven casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir otras lenguas al estudio ● Apache Solr, a diferencia de otras técnicas, como N-gramas, detecta automáticamente términos nuevos. Otra línea podría centrarse en el análisis de las búsquedas para mejorar los resultados
  13. 13. GRACIAS POR VUESTRA ATENCIÓN

×