Intelligent Methods for Information Access in Context: The Role of Topic Descriptors and Discriminators

487 views

Published on

Successful access to information sources on the Web depends on effective methods for identifying the needs of a user and making relevant information resources available when needed. This paper formulates a theoretical framework for the study of context-driven Web search and proposes new methods for learning query terms based on the user task. These methods use an incrementally-retrieved, topic-dependent selection of Web documents for term-weight reinforcement reflecting the aptness of the terms in describing and discriminating the topic of the user context. Based on this framework, we propose an incremental search algorithm for information retrieval agents that has the potential to improve significantly over the traditional IR techniques. The new algorithm learns new descriptors by searching for terms that tend to occur often in relevant documents, and learns good discriminators by identifying terms that tend to occur only in the context of the given topic. We discuss the technical challenges posed by this new framework, outline our agent system architecture, and present an evaluation of the proposed techniques.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
487
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Intelligent Methods for Information Access in Context: The Role of Topic Descriptors and Discriminators

  1. 1. Incremental Methods for Information Access in Context: The Role of Topic Descriptors and Discriminators Carlos M. Lorenzetti – Rocío L. Cecchini Ana G. Maguitman
  2. 2. Problemas: ambigüedad Java?
  3. 3. Problemas: ambigüedad Java?
  4. 4. Problemas: ambigüedad Java? Animales
  5. 5. Problemas: ambigüedad Java? Animales Computación
  6. 6. Problemas: ambigüedad Java? Animales Computación Alimentos
  7. 7. Problemas: ambigüedad Java? Animales Computación Alimentos Entretenimiento
  8. 8. Problemas: ambigüedad Java? Animales Computación Alimentos Entretenimiento Geografía
  9. 9. Problemas: ambigüedad Java? Animales Computación Alimentos Entretenimiento Geografía Plantas
  10. 10. Problemas: ambigüedad Java? Animales Computación Alimentos Entretenimiento Geografía Plantas Barcos
  11. 11. Soluciones <ul><li>Proponemos: </li></ul><ul><ul><li>identificar términos específicos </li></ul></ul><ul><ul><li>encontrar fuentes relevantes </li></ul></ul><ul><ul><li>generar incrementalmente consultas </li></ul></ul>
  12. 12. Una solución: CONTEXTO Lista de palabras Contexto Artículos Diario Otros
  13. 13. Una solución: CONTEXTO Lista de palabras T1 p1 T2 p2 T3 p3 T4 p4 Tn pn Contexto Artículos Diario Otros
  14. 14. Importancia de los términos <ul><li>Método tradicional: TF-IDF </li></ul><ul><ul><ul><li>emplea la forma más simple </li></ul></ul></ul>
  15. 15. Importancia de los términos <ul><li>Método tradicional: TF-IDF </li></ul><ul><ul><ul><li>emplea la forma más simple </li></ul></ul></ul>Cuenta las apariciones de un término en el documento Penaliza a aquella palabras que son muy comunes
  16. 16. Importancia de los términos <ul><li>Método Propuesto: Incremental </li></ul><ul><ul><li>Descriptores </li></ul></ul><ul><ul><ul><li>Términos que aparecen muchas veces en documentos de un mismo tópico: </li></ul></ul></ul><ul><ul><ul><li>¿Sobre qué trata este tema? </li></ul></ul></ul><ul><ul><li>Discriminadores </li></ul></ul><ul><ul><ul><li>Términos que sólo aparecen en documentos de un mismo tópico: </li></ul></ul></ul><ul><ul><ul><li>¿Qué palabras utilizo para encontrar información similar? </li></ul></ul></ul>
  17. 17. Descriptores y Discriminadores Java Lenguaje Applets Código Tópico: Máquina Virtual de Java NetBeans Computadoras JVM Ruby Programación JDK Virtual Máquina
  18. 18. Descriptores y Discriminadores Java Lenguaje Applets Código NetBeans Computadoras JVM Ruby Programación JDK Virtual Máquina Buenos descriptores Tópico: Máquina Virtual de Java
  19. 19. Descriptores y Discriminadores Java Lenguaje Applets Código NetBeans Computadoras JVM Ruby Programación JDK Virtual Máquina Buenos discriminadores Tópico: Máquina Virtual de Java
  20. 20. <ul><li>Cálculo de Descriptores y Discriminadores </li></ul>
  21. 21. Cantidad de ocurrencias del término k en el documento i Tópico: Máquina Virtual de Java Descriptores y Discriminadores en Documentos Contexto Inicial H <ul><li>espressotec.com </li></ul><ul><li>netbeans.org </li></ul><ul><li>sun.com </li></ul><ul><li>wikitravel.org </li></ul>(1) (2) (3) (4) 0 3 3 0 0 1 2 0 1 0 0 4 2 0 0 4 3 0 0 3 0 2 2 0 1 1 2 0 0 1 1 0 0 2 3 6 2 5 5 2 0 jdk 0 jvm 0 provincia 0 isla 0 café 3 programación 1 lenguaje 1 virtual 2 máquina 4 java
  22. 22. Tópico: Máquina Virtual de Java Poder descriptivo de un término de un documento Descriptores de Documentos Contexto Inicial 0 jdk 0 jvm 0 provincia 0 isla 0 café 3 programación 1 lenguaje 1 virtual 2 máquina 4 java 0,000 0,000 0,000 0,000 0,000 0,539 0,180 0,180 0,359 0,718
  23. 23. Tópico: Máquina Virtual de Java Poder discriminante de un término de un documento Discriminadores de Documentos Contexto Inicial 0 jdk 0 jvm 0 provincia 0 isla 0 café 3 programación 1 lenguaje 1 virtual 2 máquina 4 java 0,000 0,000 0,000 0,000 0,000 0,577 0,500 0,577 0,500 0,447
  24. 24. Similitud entre documentos K 1 K 3 K 2 d 2 d 1  Criterio de comparación de documentos: Similitud por coseno
  25. 25. Poder descriptivo de un término en el tópico de un documento Descriptores de Tópicos Contexto Inicial Tópico: Máquina Virtual de Java 1 virtual 0 jvm 0 provincia 1 lenguaje 3 programación 0 isla 0 café 0 jdk 2 máquina 4 java 0,014 0,032 0,040 0,040 0,055 0,064 0,089 0,124 0,158 0,385
  26. 26. Poder discriminante de un término en el tópico de un documento Discriminadores de Tópicos Contexto Inicial Tópico: Máquina Virtual de Java 0,385 0,385 0,385 0,493 0,517 0,524 0,566 0,566 0,848 0,848 0 provincia 0 isla 0 café 4 java 1 lenguaje 2 máquina 3 programación 1 virtual 0 jdk 0 jvm
  27. 27. <ul><li>Implementación </li></ul>
  28. 28. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  29. 29. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  30. 30. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  31. 31. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  32. 32. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  33. 33. Framework Search Engine Context-Based Filtering Component Results Retrieval Component Incremental Context Refinement Component Query Generation Component User Task Monitoring Component AGENT Richer Context User Context
  34. 34. <ul><li>Evaluación </li></ul>
  35. 35. Evaluación <ul><li>Intelligent Incremental Method </li></ul><ul><li>Generar k consultas usando los términos del contexto </li></ul><ul><li>Enviar las Q(i) al motor de búsqueda </li></ul><ul><li>Obtener las respuestas y convertirlas a repres. vectorial </li></ul><ul><li>Generar una lista ordenada de descriptores, L’  </li></ul><ul><li>Generar una lista ordenada de discriminadores, L’  </li></ul><ul><li>Actualizar incrementalmente las listas L  y L  </li></ul><ul><li>Generar k consultas, Q(i)  una combinación de L  y L  </li></ul><ul><li>Enviar las Q(i) al motor de búsqueda </li></ul><ul><li>Obtener las respuestas y convertirlas a repres. vectorial </li></ul><ul><li>Para cada respuesta, comprobar si es una buena consulta </li></ul><ul><li>Para cada mala consulta , tratar de reformularla </li></ul><ul><li>ir al paso 4 </li></ul>
  36. 36. Evaluación <ul><li>Naïve Method </li></ul><ul><li>Generar k consultas usando los términos del contexto </li></ul><ul><li>Enviar las Q(i) al motor de búsqueda </li></ul><ul><li>Obtener las respuestas y convertirlas a repres. Vectorial </li></ul><ul><li>Generar una lista ordenada términos L TF por frecuencia </li></ul><ul><li>Generar k consultas, Q(i)  una combinación de L TF </li></ul><ul><li>ir al paso 2 </li></ul>
  37. 37. Evaluación <ul><li>Contexto Inicial </li></ul><ul><ul><li>15 páginas en inglés del DMOZ </li></ul></ul><ul><ul><li>Tópicos: Recreación , Negocios , Sociedad </li></ul></ul><ul><li>Consulta </li></ul><ul><ul><li>5 términos L  + 1 término L  </li></ul></ul><ul><ul><li>20 consultas simultáneas </li></ul></ul><ul><ul><li> = 0.4 </li></ul></ul><ul><ul><li>Motor de búsqueda: Google </li></ul></ul><ul><li>Resultados analizados </li></ul><ul><ul><li>Similitudes promedio mínima y promedio por iteración </li></ul></ul>
  38. 38. Evaluación iteration 0,150 0,200 0,250 0,300 0,350 0,400 0,450 0,500 q u a l i t y IIM average quality NM average quality 0 1 2 3 4 5 6 7 8 9 0,150 0,200 0,250 0,300 0,350 0,400 0,450 0,500 0 1 2 3 4 5 6 7 8 9 iteration q u a l i t y IIM minimum quality NM minimum quality
  39. 39. Trabajo a Futuro <ul><li>Evaluaciones intensivas con colecciones estándar (TREC, etc) </li></ul><ul><li>Mejorar la pérdida del foco </li></ul><ul><li>Evaluar métodos cualitativos para reordenar los resultados basándose en preferencias </li></ul><ul><li>Pruebas con usuarios </li></ul>
  40. 40. Incremental Methods for Information Access in Context: The Role of Topic Descriptors and Discriminators Carlos M. Lorenzetti – Rocío L. Cecchini Ana G. Maguitman

×