Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Fuentes para la actualización de macrotesauros: Noticias de divulgación científica
María José Baños Moreno
Master en Gesti...
Introducción
• Contexto: ritmo exponencial del crecimiento de la información y
la dispersión de datos
• Productos que trat...
Entidad
Creación
Objeto
Campos
Jerarquía
Idiomas
Actualización

Tunesco
UNESCO
1977

Multidisplinar
Monojerárquico
Español...
Objetivos
• Analizar el grado de actualización de Tunesco y Teurovoc.
Consideración: indicador de calidad extrínseca
• Con...
Metodología
Muestra: corpus de 1599
noticias
de
divulgación
científica, obtenidas a partir de
la selección sucesiva de paí...
Metodología
• Indización manual y en
lenguaje natural de titulares
• Traducción a español, inglés y
francés
• Búsqueda
aut...
Método N-gramas
SUB-MUESTRA M1, 10% NOTICIAS
1.Identificación de los bi-gramas únicos solapados:

•Cálculo del Coeficiente...
Método N-gramas, resultados
≈ 55% de términos
correctos (TC)
≈ 6% de relaciones de tipo
jerárquico (TE + TG)
≈ 10% de térm...
Un par de ejemplos de falsos equivalentes

“dinosaurio” y “tesauro”
Grado de equivalencia: 0,40

“evacuación” y “devaluaci...
Método Apache Solr
SUB-MUESTRA M2, 20% NOTICIAS
•Construcción de una colección de documentos (términos del
tesauro)
Campo
...
Método Apache Solr
• Ecuación de búsqueda (términos extraídos) compuesta por 7
procesos para hallar la mejor correspondenc...
Método Apache Solr, resultados
- 50% de términos extraídos tenían
similitud exacta
≈ 15% mantienen una relación de
jerarqu...
Resultados (TFE y TN)

Términos Falsos Equivalentes y Nuevos
devueltos por ambas técnicas para
Tunesco. FUENTE: Elaboració...
Un ejemplo de falso equivalente

“virus animal” y “virus informático” (Teurovoc) –> TFE
“virus animal” y “virus” (Tunesco)...
Resultados de precisión
• Para evaluar la eficacia de cada método, se calculó su precisión (P) con
cada macro-tesauro:

• ...
• Método N-gramas aporta mejores
resultados
• Teurovoc,
ligeramente
más
actualizado

Precisión total

Precisión exacta
Pre...
Discusión
• Influencia de la especialización de los campos
elegidos
• Subjetividad de la indización humana
• Ausencia de r...
Conclusiones: los macro-tesauros
En cuanto a los OBJETIVOS 1 y 3:
•Es necesaria una mayor frecuencia de revisión de Tunesc...
Conclusiones: las noticias
En cuanto al OBJETIVO 2:
•Las noticias de divulgación científica son una fuente adecuada
para l...
Conclusiones: las técnicas
•

Los lenguajes pivote permiten resolver casos de homonimia, polisemia y
riqueza lingüística. ...
GRACIAS POR VUESTRA
ATENCIÓN
Upcoming SlideShare
Loading in …5
×

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

378 views

Published on

Se plantea la posibilidad de utilizar las expresiones que describen noticias publicadas en prensa de información general, como fuente para la actualización de los macrotesauros de la UNESCO y de la Unión Europea (EUROVOC), que requieren una frecuencia de revisión mayor que la presente. Para ello, se ha indizado un conjunto de artículos periodísticos de divulgación científico-tecnológica, mediante un proceso de comparación terminológica y analizado la similitud conceptual y léxica entre las palabras clave ex- traídas y los términos (preferentes y no preferentes) recogidos en los macrotesauros indicados. Los resultados preliminares indican que alrededor del 40% de los términos obtenidos no se incluyen en éstos y aproximadamente un 10% podrían incluirse como término genérico o específico respecto al término propuesto por el método. Estos datos confirmarían la necesidad de actualizar con más frecuencia los macrotesauros estudiados y que las noticias de periódicos generalistas constituyen una fuente adecuada para dicho proceso

Esta presentación deriva del siguiente artículo:

BAÑOS-MORENO, María-José. "Fuentes para la actualización de macro-tesauros: Noticias de divulgación científica". Cuadernos de Gestión de Información. Volumen 3 (1), 2013 http://fcdmurcia.es/ojs/index.php?journal=cuadernos&page=article&op=view&path%5B%5D=143 - See more at: http://documentalistaparaboss.blogspot.com.es/p/curriculum.html#sthash.U6xvA4qn.dpuf

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

  1. 1. Fuentes para la actualización de macrotesauros: Noticias de divulgación científica María José Baños Moreno Master en Gestión de Información en las Organizaciones Facultad de Comunicación y Documentación Universidad de Murcia Julio, 2013
  2. 2. Introducción • Contexto: ritmo exponencial del crecimiento de la información y la dispersión de datos • Productos que tratan de solucionar el problema: los tesauros. Fines: o Describir la información o Recuperar la información o Servir de fuente para elaborar otras herramientas que respondan a necesidades específicas • Tesauros analizados: Unesco y Unión Europea, fundamentales para la construcción de otros productos Diapositiva 2
  3. 3. Entidad Creación Objeto Campos Jerarquía Idiomas Actualización Tunesco UNESCO 1977 Multidisplinar Monojerárquico Español, inglés, francés y ruso Teurovoc Unión Europea 1984 Tratamiento de información generada internamente Multidisplinar Polijerárquico 22 lenguas UE + Croata + Serbio 2008 2012 Análisis temático y búsqueda de documento Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE: Elaboración propia a partir de la información que consta en las webs de las respectivas instituciones Diapositiva 3
  4. 4. Objetivos • Analizar el grado de actualización de Tunesco y Teurovoc. Consideración: indicador de calidad extrínseca • Conocer si las noticias de divulgación científica pueden ser utilizadas como fuente de renovación • Determinar si estos vocabularios resultan adecuados para describir noticias de divulgación científica Diapositiva 4
  5. 5. Metodología Muestra: corpus de 1599 noticias de divulgación científica, obtenidas a partir de la selección sucesiva de países, diarios, secciones y titulares durante 4 meses (del 9 de marzo al 9 de julio de 2012) Dos submuestras:  M1: 159 noticias (10%)  M2: 320 noticias (20%) País Alemania Canadá Medio Süddeutsche Zeitung The Global and Mail China Daily China The China Post Corea The Korea Times España El Mundo The New York Times EE.UU The Washington Post Francia Le Monde Italia La Reppublica Japón Yomiuri Shimbun Reino Unido The Daily Telegraph Rusia* Pravda Selección de países y medios y conformación de las sub-muestras M1 y M2. FUENTE: Elaboración propia Diapositiva 5
  6. 6. Metodología • Indización manual y en lenguaje natural de titulares • Traducción a español, inglés y francés • Búsqueda automática de equivalencias con N-gramas y Apache Solr • Clasificación de resultados según equivalencias • Cálculo de estadísticas • Cálculo de precisión exacta, cercana y total Código Relación TC Equivalencia exacta TS Sinonimia TE Específica TG Genérica TR Asociativa TN* Nueva TFE Falsa equivalencia Códigos de clasificación de resultados para cada par de términos. FUENTE: Elaboración propia Diapositiva 6
  7. 7. Método N-gramas SUB-MUESTRA M1, 10% NOTICIAS 1.Identificación de los bi-gramas únicos solapados: •Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos (titular y tesauro) y de la media (Msi) de los tres idiomas •Selección del término con Msi más elevada, entre posibles candidatos •Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6), [0,6 – 0,8) y [0,8 – 1] Diapositiva 7
  8. 8. Método N-gramas, resultados ≈ 55% de términos correctos (TC) ≈ 6% de relaciones de tipo jerárquico (TE + TG) ≈ 10% de términos relacionados (TR) + 22% de falsos equivalentes (TFE) TC TS TG TE TR TFE Tunesco Teurovoc Total % Total % 161 53,49 176 58,47 7 2,33 4 1,33 7 2,33 9 2,99 15 4,98 11 3,65 28 9,30 30 9,97 83 27,57 69 22,92 Clasificación de términos de acuerdo a resultados obtenidos con N-gramas. FUENTE: Elaboración propia Diapositiva 8
  9. 9. Un par de ejemplos de falsos equivalentes “dinosaurio” y “tesauro” Grado de equivalencia: 0,40 “evacuación” y “devaluación” Grado de equivalencia: 0,75 Diapositiva 9
  10. 10. Método Apache Solr SUB-MUESTRA M2, 20% NOTICIAS •Construcción de una colección de documentos (términos del tesauro) Campo id type des_es des_fr des_en nd_es nd_fr nd_en Descripción Identificador del concepto Tesauro (Tunesco ó Teurovoc) Término descriptor en Español Término descriptor en Francés Término descriptor en Inglés Término no-descriptor en Español Término no-descriptor en Francés Término no-descriptor en Inglés Estructura de campos para la indización de términos como documentos en Apache Solr. FUENTE: Elaboración propia Diapositiva 10
  11. 11. Método Apache Solr • Ecuación de búsqueda (términos extraídos) compuesta por 7 procesos para hallar la mejor correspondencia entre términos: Consulta Q1 Q2 Q3 Q4 Q5 Q6 Q7 Descripción Palabras, en índice general Literal, en el campo descriptor Literal, en el campo no-descriptor Expresión lematizada, en el campo descriptor Expresión lematizada, en el campo no-descriptor Palabras lematizadas, en campo descriptor Palabras lematizadas en campo no-descriptor Boost 2,5 5 3 0 0 0 0 Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia • Apache Solr proporciona una medida de similitud o score entre pares de términos Diapositiva 11
  12. 12. Método Apache Solr, resultados - 50% de términos extraídos tenían similitud exacta ≈ 15% mantienen una relación de jerarquía ≈ 12% guardan una relación de tipo asociativo (TR) Para ≈ 25% no se halló ninguna relación (términos nuevos, TN) o ésta fue mal asignada (falsos equivalentes, TFE). TC TS TG TE TR TFE TN Tunesco Teurovoc Total % Total % 264 44,07 290 48,41 14 2,34 10 1,67 25 4,17 43 7,18 69 11,52 42 7,01 75 12,52 70 11,69 69 11,52 83 13,86 83 13,86 61 10,18 Clasificación de términos de acuerdo a resultados obtenidos con Apache Solr. FUENTE: Elaboración propia Diapositiva 12
  13. 13. Resultados (TFE y TN) Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para Tunesco. FUENTE: Elaboración propia Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para Teurovoc. FUENTE: Elaboración propia Diapositiva 13
  14. 14. Un ejemplo de falso equivalente “virus animal” y “virus informático” (Teurovoc) –> TFE “virus animal” y “virus” (Tunesco) -> TG Diapositiva 14
  15. 15. Resultados de precisión • Para evaluar la eficacia de cada método, se calculó su precisión (P) con cada macro-tesauro: • Se realizaron varios cálculos:  Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)  Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)  Precisión total (PTOTAL): incluye cualquier tipo de relación entre términos (TC+TS+TE+TG+TR) Diapositiva 15
  16. 16. • Método N-gramas aporta mejores resultados • Teurovoc, ligeramente más actualizado Precisión total Precisión exacta Precisión cercana Resultados Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia Diapositiva 16
  17. 17. Discusión • Influencia de la especialización de los campos elegidos • Subjetividad de la indización humana • Ausencia de relación semántica entre pares de términos: las técnicas empleadas se basan en el cálculo de similitud morfológica • No se ha profundizado en las relaciones entre términos presentes en los tesauros. Se aprecia la necesidad de revisión, para la redefinición de categorías y relaciones Diapositiva 17
  18. 18. Conclusiones: los macro-tesauros En cuanto a los OBJETIVOS 1 y 3: •Es necesaria una mayor frecuencia de revisión de Tunesco y Teurovoc para incrementar su grado de actualización •Por tanto, ninguno debe ser utilizado para describir noticias de divulgación •Sin embargo, sí que se pueden utilizar como base para la construcción de otras herramientas. En este sentido, un trabajo posterior podría analizar el uso concreto de Tunesco y Teurovoc como punto de partida de otros vocabularios Diapositiva 18
  19. 19. Conclusiones: las noticias En cuanto al OBJETIVO 2: •Las noticias de divulgación científica son una fuente adecuada para la actualización de estos macro-tesauros. Incluyen muchos términos no contemplados por éstos, que son reflejo de la evolución en ciencia y tecnología •En el futuro, un estudio podría centrarse en la utilidad de la información periodística para la construcción y/o actualización de otros tesauros o herramientas de organización del conocimiento distintas Diapositiva 19
  20. 20. Conclusiones: las técnicas • Los lenguajes pivote permiten resolver casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas • La lematización es necesaria. No se ha utilizado en N-gramas, provocando errores en los resultados. Un estudio posterior podría trabajar en esta cuestión • La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política” y “coalición política”. Es otra línea futura para mejorar el método N-gramas • Las precisiones exacta y cerca son aproximadamente un 10% mejores para la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los que no existe equivalencia. Otra línea de investigación podría centrarse en el análisis concreto de los datos obtenidos para cada palabra clave extraída y técnica, analizando las diferencias Diapositiva 20
  21. 21. GRACIAS POR VUESTRA ATENCIÓN

×