Your SlideShare is downloading. ×
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

281
views

Published on

La Web se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la …

La Web se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recuperación de información que ayuda al usuario a recuperar información relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuentran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación del método propuesto se desarrolló un marco teórico de evaluación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrollaron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algoritmos desarrollados a la largo de esta tesis evolucionan consultas de alta calidad, permitiendo recuperar recursos relevantes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles.
--
The Web has become a potentially infinite information resource, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users' contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the user’s current thematic context. In order to evaluate the proposed method, a theoretical framework for the evaluation of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
281
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Presentación Defensa de tesis oral de doctorado, bajo la dirección de Guillermo y Ana. Título ...
  • Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
  • Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
  • Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
  • Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
  • Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
  • El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
  • El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
  • El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
  • En este caso los recursos más apropiados serán aquellos que se refieran a la variedad de café llamada java, sus cualidades y los nombres de compañias exportadoras.
  • El turista estará buscando información acerca de la isla de Indonesia, paquetes turísticos, sitios de interés, etc.
  • En este caso serán resultados relevantes aquellos que se refieran al lenguaje, ejemplos, sintaxis, etc.
  • Los ejemplos mencionados muestran algunos de los problemas con los que se enfrentan los sistemas actuales de IR al intentar responder consultas sin tener en cuenta el contexto en el que estas se producen. Los términos toman significado de acuerdo a la forma en la que se los utilice y vemos que la búsqueda basada en contexto puede ayudarnos el proceso de recuperación identificando términos útiles que mejoren las consultas de un usuario. Encontrar buenos términos para crear consultas es un problema computacionalmente complejo y la situación empeora en un espacio abierto como la web en donde es posible incorporar términos que no pertenecen al contexto actual.
  • El proceso de creación de consultas es complejo y está condicionado a quien lo inicia, a su conocimiento sobre el contenido que está buscando, el vocabulario y otros aspectos. Las probabilidades de que los resultados de una consulta satisfaga a un usuario varían muchísimo en cualquier sistema de IR. Un usuario que conoce de la existencia de un documento en un sistema puede crear una consulta idéntica a ese documento, en cambio un usuario que busca información sobre un tema que desconoce tiene muy pocas probabilidades de recuperar el mejor documento. Esta variabilidad llevó a la creación de técnicas que reduzcan tal varianza. En los '70s Rocchio propuso una técnica de realimentación de relevancia análoga a la realimentación en la Teoría de Control. Se basa en la utilización de la salida de un sistema de IR para mejorar la entrada y de esa forma tratar de acercarnos al conjunto de documentos ideal para un pedido de un usuario. La suposición que hace este tipo de sistemas es que la consulta resultante será una mejor aproximación que la consulta inicial a la consulta óptima, aquella que obtendrá solo documentos relevantes para el usuario.
  • Un escenario típico para este proceso involucra los siguientes pasos:
  • El usuario formula la consulta inicial.
  • El sistema devuelve un conjunto inicial de documentos.
  • Se calcula la relevancia de los resultados obtenidos. Este paso distingue tres formas de realimentación. La primera necesita de una intervención explícita del usuario, quien debe indicar cuáles de los documentos le son relevantes y cuáles no. Dado que la relevancia es al subjetivo esta sería la forma más precisa de obtenerla, pero trae aparejado un esfuerzo que en general los usuarios no están dispuestos a realizar. Algunos sistema web han optado por esta solución sin demasiado éxito.
  • Esta segunda forma de realimentación, también se la conoce como realimentación ciega, ya que el sistema no tiene la asistencia del usuario para decidir cuáles documentos son relevantes y cuáles no. Existen varios tipos de sistemas de este tipo, el más común asume que los k primeros resultados devueltos en el punto 2 son relevantes. Hay que tener en cuenta que esa lista se supone ordenada con alguna función de orden que coloca primero a los que, a criterio del sistema, responden mejor a la consulta ingresa en el punto 1. Esta forma es muy dependiente de la calidad de los resultados obtenidos en el punto 2. Si la consulta inicial está muy alejada de los documentos relevantes para el usuario, el sistema será incapaz de recuperarse.
  • Esta última forma tampoco necesita de la intervención del usuario explícita, ya que el sistema infiere la relevancia de cada documento. Una forma de hacer esto es monitorear el comportamiento del usuario y obtener la relevancia de forma implícita a partir del comportamiento del usuario, como ser en qué documentos hace click. Otra manera de inferir la relevancia es comparar el documento con el contexto actual del usuario y es la forma que se utiliza en los algoritmos propuestos en esta tesis.
  • El sistema calcula una mejor representación de las necesidades del usuario basándose en la realimentación obtenida en el punto anterior.
  • El sistema devuelve un conjunto revisado de documentos.
  • Entonces, esta tesis tiene como principal objetivo proponer, investigar y evaluar nuevas técnicas semisupervisadas de IR orientadas a entender mejor las necesidades de los usuarios. Para abordar este objetivo, se plantearon las siguientes preguntas de investigación: 1 ¿Puede el contexto del usuario explotarse satisfactoriamente para acceder a material relevante en la Web? 2 ¿Puede un conjunto de términos específicos de un contexto ser refinado incrementalmente basándose en el análisis de los resultados de una búsqueda? 3 ¿Los términos específicos de un contexto aprendidos mediante métodos incrementales, son mejores para generar consultas comparados con aquellos encontrados por técnicas clásicas de IR o métodos clásicos de reformulación de consultas?
  • 1 Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar efectivamente material relacionado semánticamente. 2 Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial.
  • Los términos específicos a un contexto juegan distintos roles. En la literatura existen muchos trabajos acerca del cálculo del nivel de información que tiene un término en un conjunto de documentos y algunos se han enfocado en el cálculo del poder descriptivo y discriminante de un término en un documento respecto de ese conjunto. Sin embargo, estos trabajos se han basado en conjuntos predefinidos de documentos e independientemente de un contexto temático. En esta tesis se utilizó un estudio del poder descriptivo y discriminante de un término basado en su distribución en lo largo los tópicos de las páginas recuperadas por un motor de búsqueda y esto propone nuevos desafíos ya que limita la cantidad de información disponible.
  • Para distinguir entre descriptores y discriminadores de tópicos se argumenta que buenos descriptores de tópicos pueden encontrarse buscando aquellos términos que aparecen en la mayoría de los documentos relacionados con el tópico deseado. Por otro lado, buenos discriminadores de tópicos pueden hallarse buscando términos que sólo aparecen en documentos relacionados con el tópico deseado. Ambos tipos de términos son importantes a la hora de generar consultas. Utilizar términos descriptores del tópico mejora el problema de los resultados falso-negativos porque aparecen frecuentemente en páginas relevantes. De la misma manera, los buenos discriminadores de tópicos ayudan a reducir el problema de los falsos-positivos, ya que aparecen principalmente en páginas relevantes.
  • As our objective is to learn the user needs , instead of extracting the descriptors and discriminator of documents (like the user context) we need to find user context topic descriptors and discriminators. This term identification needs an Incremental Method that identifies which documents are similar to the user context. So, we need … A document comparison criteria and we choose Cosine Similarity. En este trabajo utilizamos para representar los documentos, la representación vectorial. Los documentos están formados por términos y cada término representa una dimensión en un espacio vectorial. El peso que se le asigna a cada término puede ser su frecuencia en el documento o alguna otra métrica. It uses the most simple way to compare documents and it’s the most common method in IR. La similitud en fción de lambda defino antes se expresa como:
  • La propuesta es aproximar el poder descriptivo y discriminante de los términos del contexto bajo análisis con el propósito de generar buenas consultas. Esta aproximación adapta el mecanismo típico de realimentación de relevancia para que considere un contexto temático en evolución
  • Un esquema del método incremental para el refinamiento de consultas basado en un contexto temático se muestra en la figura.
  • Contexto del usuario, navegadores, procesadores de texto, lectores de correo, etc
  • First, we extract terms from the user context.
  • Ponderación de términos
  • With these terms we make queries and the system returns an initial set of results. Métricas These steps are repeated until no improvements are observed.
  • with the obtained results and the context the descriptors and discriminators lists are built.
  • Then, the context characterization is updated with new learned material and the process starts again. If after a number of trials the retrieval effectiveness no significant improvements are observed after certain number of trials, the system forces to explore new potentially useful regions of the vocabulary landscape and it can be regarded as an improvement of the context characterization.
  • 1 Un sistema de búsqueda basada en la tarea del usuario que evolucione consultas de alta calidad puede generar automáticamente sugerencias que estén contextualizadas en la tarea del usuario. 2 Una alternativa para la recolección del material puede hallarse formulando consultas temáticas en un motor de búsqueda y eligiendo del conjunto de resultados aquellos recursos que están relacionados con el tópico en cuestión. 3 Gran parte de la información de la Web puede encontrarse en esta forma y estas páginas no existen hasta que son creadas dinámicamente. Por lo tanto, la generación de consultas de alta calidad es de gran importancia al momento de querer acceder a recursos de la Web oculta. 4 La administración efectiva del conocimiento necesita ir más allá de su captura inicial y la Web proporciona una fuente rica en información en donde buscar nuevo material para incluir en estos modelos. De esta manera, el material puede accederse por medio de consultas que se presentan a un motor de búsqueda convencional, en donde el contexto está dado por el modelo de conocimiento que se está construyendo.
  • El método descripto en el capítulo anterior fue implementado en el contexto de una plataforma general de IR. Esta se desarrolló con el propósito de proponer y evaluar nuevos algoritmos en el área de IR. Los resultados de las evaluaciones del algoritmo incremental presentado en el capítulo anterior y de otros algoritmos serán mostrados a continuación.
  • Una representación esquemática de la Plataforma de Evaluación se muestra en la figura. Como se puede observar existe una primera parte que se encarga de la representación de las consultas. Estas pueden ingresarse como un conjunto o como un documento, a partir del cual el sistema generará las consultas necesarias. Por otro lado, la plataforma ofrece una interfaz de comunicación con los distintos motores de búsqueda. Como se dijo más arriba, una de las posibilidades es contar con un motor de búsqueda web. También existe un componente dedicado al cálculo de las métricas que guiarán los algoritmos de búsqueda y que también servirán para su evaluación. A continuación se explicarán con más detalles los componentes de la plataforma.
  • Este componente del sistema se encarga del proceso de generación de las consultas que iniciarán o que utilizarán los algoritmos que se evaluarán con la plataforma. Los algoritmos evaluados y propuestos en esta tesis caen en la categoría algoritmos de recuperación basada en contexto, por lo que en todos los casos se cuenta con el contexto del usuario. La generación de consultas puede llevarse a cabo con distintas técnicas. La primera es de forma aleatoria, en donde se seleccionan al azar palabras del contexto del usuario, todas con la misma probabilidad, y es la que se utilizó en varios artículos publicados. Otra técnica es el mecanismo de selección por ruleta, en donde la probabilidad de selección de un término está dada por el peso que tiene asignado. Esto provoca una exploración no determinística del espacio de términos que favorece a los más efectivos. Estos dos métodos se utilizaron en esta tesis.
  • Este componente del sistema se encarga de realizar los pedidos de información a los distintos motores de búsqueda con los que cuenta la plataforma. También lleva a cabo la tarea de preprocesar y convertir los resultados a un formato uniforme a todos los motores.
  • Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
  • Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
  • Con el objetivo de medir la efectividad que alcanza el sistema, este componente se encarga de calcular distintas métricas sobre los resultados que le entrega el algoritmo en evaluación.
  • Las medidas que pueden aplicarse para guiar al algoritmo son las clásicas del área de IR (como las vistas en la \\autoref{sec:metricas}) u otras nuevas.
  • Comenzamos con las medidas clásicas de Pre. y Cob. Si representamos la salida de un sist. de IR con conjuntos tenemos el cjto de doc relevantes (los que son relevantes para la consulta del usuario) y los docs. recuperados.
  • Entonces tenemos tres subcjtos. los docs relev. recp., los docs. recup. que son relv. y los docs recup. pero que no son relev.
  • Las mét. de P y C se definen en fción. de estos subcjtos. La P es la rel. entre ... La C es la rel. entre ... Ahora bien, tener 2 métricas para comparar sist. de IR puede traer deficultades ya que un sist. puede mejorar la P y otro sist. puede mej. la R. Entonces en la Plataf. de eval. también se implementó la métrica conocida como F que pondera ambas métricas en una sola y permite comparar los sistemas de forma absoluta.
  • En particular, puede notarse que al utilizar un motor web no es posible calcular otras métricas como la cobertura, dado que no hay una forma de saber de antemano qué páginas pertenecen al conjunto de documentos relevantes para la consulta que se está haciendo. Como se mencionó, el motor de búsqueda web, devuelve como parte de los resultados un pequeño fragmento del documento recuperado y se lo utilizó con la medida clásica de IR, similitud por coseno. Otro problema que aparece es que, en general, este fragmento contiene porciones del documento cercanas a las palabras de la consulta y, por lo tanto, es muy probable que estas estén contenidas dentro de este. Lo que perjudica a aquellos documentos que pudieran ser relevantes y que no emplean el mismo vocabulario que el usuario, desfavoreciendo la exploración de material novedoso. En vista de las consideraciones expuestas arriba, en esta tesis se propone una nueva métrica llamada Similitud Novedosa . La similitud novedosa es una medida de similitud ad~hoc que está basada en la cosine_similarity. Esta nueva medida descarta los términos que forman parte de la consulta al momento de hacer los cálculos, reduciendo el sesgo introducido por esos términos y favoreciendo la exploración de nuevos documentos.
  • La medida estándar de sim x coseno es una medida muy estricta respecto de que necesita que los documentos analizados contengan exáctamente los mismos términos para lograr una similitud alta. En la web es necesaria una medida de sim. semántica, ya que queremos encontrar documentos que a pesar de estar descriptos con vocabularios difierentes, son similares conceptualmente. En esta tesis se utilizó una medida de sim. semántica generalizada para grafos que tiene en cuenta los distintos tipos de enlaces en ODP y que permite encontrar relaciones semánticas entre tópicos que de otra manera se perderían. Como ser ... A partir de esta métrica, en esta tesis, de definió una nueva métrica llamana Precisión Semántica que es similar a la Precisión estándar pero fue modificada para encontrar documentos parcialmente relacionados y potencialmente útiles.
  • Base Bo1: asume que los k primeros docs. de la 1era pasada son relevantes. Bo1 super: se desarrolló en esta tesis una versión supervisada del alg. bo1 que en lugar de utilizar los k primeros documentos de la 1era pasada, utiliza los k primeros que efectivamente son relevantes, a partir de la información provista por el motor local. Gen: son algoritmos que se utilizan para problemas de optimización y búsqueda y que tratan de mejorar algún objetivo.
  • Algunos resultados a los que se pudo llegar x medio de la plataforma al evaluar los distintos algorit.
  • Por medio de la plataforma desarrollada en esta tesis se pudo analizar el comportamiento de, en este caso, el algoritmo incremental propuesto. En la figura vemos las mejoras obtenidas a lo largo de las iteraciones en la simlitud novedosa promedio para todos los tópicos analizados. Zonas. Esto muestra la efectividad del algoritmo para recuperar material relevante.
  • Por medio de la plataforma desarrollada también se evalúo … Precisión
  • Precisión semántica
  • sim novedosa
  • Por medio de la plataforma desarrollada también se analizó el comportamiento de dos tipos de algoritmos genéticos multiobjetivo, NSGA y agregativo … Precisión
  • Cobertura
  • A lo largo de esta tesis se desarrolló una herramienta de IR que ayuda al usuario en la tarea que está realizando, brindándole información relevante y basada en su contexto actual. Para ello se propuso una solución al problema de la sensibilidad semántica, que es la limitación que surge cuando no se puede hallar una relación entre dos documentos similares semánticamente, porque contienen distintos términos en su vocabulario, resultando en un falso-negativo al intentar recuperar material relevante. Además, mediante la identificación de buenos discriminadores de tópicos, la propuesta presentada en esta tesis ayuda a mitigar el problema de falsos-positivos, que aparece cuando el mismo término (p. ej., java) aparece en dos tópicos diferentes. El método enunciado trabaja aprendiendo incrementalmente mejores vocabularios de un gran conjunto de datos como la Web. En esta tesis se implementó una plataforma de evaluación y comparación de métodos y técnicas para la IR. La misma permitió el desarrollo de los algoritmos presentados en este trabajo, proporcionando el soporte necesario para un análisis detallado de los resultados obtenidos. Dentro de esta plataforma también se implementaron las nuevas métricas propuestas en esta tesis. Una de ellas es la Similitud novedosa, una medida de comparación entre documentos que descarta los términos que pudieran introducir un sesgo en la medición, favoreciendo la exploración de nuevo material. La otra es la Precisión semántica, una métrica para la comparación de los resultados de un sistema de recuperación de información. Esta medida brinda una noción más rigurosa de la calidad de los documentos recuperados por un algoritmo de IR, al incorporar la noción de relevancia parcial entre tópicos.
  • Transcript

    • 1. CONICET Defensa Oral de Tesis Doctor en Ciencias de la ComputaciónCaracterización Formal y AnálisisEmpírico de Mecanismos Incrementalesde Búsqueda basados en Contexto Carlos M. Lorenzetti Directores : Guillermo R. Simari Ana G. Maguitman Universidad Nacional del Sur
    • 2. Cambio de roles
    • 3. Cambio de roles
    • 4. Cambio de roles
    • 5. Oportunidades DESAFÍOS ACCESIBILIDAD RECURSOS
    • 6. Oportunidades ASISTENCIA INTELIGENTE CPU OCIOSAS
    • 7. El problema del contextoCantidad deinformación
    • 8. El problema del contexto Consulta Contexto
    • 9. El problema del contexto Consultas basadas en contexto
    • 10. Búsqueda basada en contexto IMPORTADOR DE CAFÉ ¿Variedades?¿Cualidades? ¿Exportadoras?
    • 11. Búsqueda basada en contexto TURISTA ¿Sitios de interés? ¿Paquetes? ¿Historia?
    • 12. Búsqueda basada en contexto ESTUDIANTE ¿Sintaxis? ¿Ejemplos? ¿Comparación?
    • 13. Búsqueda basada en contexto PROBLEMASCOMPLEJIDAD SIGNIFICADO WEB
    • 14. FORMULACIÓN DE CONSULTAS
    • 15. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 16. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 17. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 18. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 19. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 20. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 21. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 22. Refinamiento de consultasREFINAMIENTO DE CONSULTAS1.Consulta original2.Conjunto inicial de documentos3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada4.Mejora de la representación5.Recuperación de mejores resultados
    • 23. OBJETIVOSProponer, investigar y evaluar nuevas técnicassemisupervisadas de IR orientadas a entendermejor las necesidades de los usuarios.Preguntas de investigación• ¿Puede el contexto del usuario explotarse para acceder a material relevante en la Web?• ¿Pueden los términos específicos a un contexto ser refinados incrementalmente basándose en el análisis de los resultados de un motor de búsqueda?• ¿Estos términos son mejores?
    • 24. OBJETIVOS1) Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar material relacionado semánticamente. semánticamente2) Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial. parcial
    • 25. Distintos roles de los términosNivel de información de un término en unconjunto de documentos.Poder descriptivo y discriminante de untérmino en un documento respecto de unconjunto de documentos.Conjunto predefinidos.Independientes de un contexto.Estudio basado en distribución a lo largo delos tópicos de las páginas recuperadas porun motor de búsqueda.
    • 26. Distintos roles de los términos• Descriptores ● Términos que aparecen en la mayoría de los documentos de un tópico ¿Sobre qué trata el tópico?• Discriminadores ● Términos que aparecen sólo en los documentos de un tópico ¿Qué términos utilizo para encontrar información similar ?
    • 27. Descriptores y discriminadores MachineJava LanguageVirtual Programming Ruby Applets NetBeansComputers JVM Code JDK Tópico: Máquina Virtual de Java
    • 28. Descriptores y discriminadores Machine Buenos descriptoresJava LanguageVirtual Programming Ruby Applets NetBeansComputers JVM Code JDK Tópico: Máquina Virtual de Java
    • 29. Descriptores y discriminadores MachineJava LanguageVirtual Programming Ruby Applets NetBeansComputers JVM Code JDK Buenos discriminadores Tópico: Máquina Virtual de Java
    • 30. Descriptores y discriminadores d0 java 4 machine 2 Contexto virtual 1 Inicial language 1programming 3 Tópico: Máquina Virtual de Java
    • 31. Descriptores y discriminadores H d0 (1) (2) (3) (4) java 4 2 5 5 2 machine 2 6 3 2 0 virtual 1 0 1 1 0 (1) espressotec.com (2) netbeans.org language 1 0 2 1 1 (3) sun.com (4) wikitravel.orgprogramming 3 0 0 2 0 H [i , j]= p Número de apariciones del término ki en el documento dj Tópico: Máquina Virtual de Java
    • 32. Descriptores y discriminadores H d0 (1) (2) (3) (4) java 4 2 5 5 2 machine 2 6 3 2 0 virtual 1 0 1 1 0 (1) espressotec.com (2) netbeans.org language 1 0 2 1 1 (3) sun.com (4) wikitravel.orgprogramming 3 0 0 2 0 coffee 0 3 0 0 3 island 0 4 0 0 2 province 0 4 0 0 1 H [i , j]= p jvm 0 0 2 1 0 Número de apariciones del jdk 0 0 3 3 0 término ki en el documento dj Tópico: Máquina Virtual de Java
    • 33. Descriptores y discriminadores d 0  d 0 , k i   d 0 , k i  java 4 0,718 0,447 Poder descriptivo de un término machine 2 0,359 0,500 en un documento virtual 1 0,180 0,577 H [i , j ] language 1 0,180 0,500  d j , k i =programming 3 0,539 0,577  n−1 ∑k=0  H [i , j ]2 coffee 0 0,000 0,000 island 0 0,000 0,000 Poder discriminante de un término en un documento province 0 0,000 0,000 jvm 0 0,000 0,000 s  H [ i , j ]  d j , k i = jdk 0 0,000 0,000 ∑ m−1 h=0 s  H [ i , h ] Tópico: Máquina Virtual de Java
    • 34. Modelo de representación k1 d2 Modelo vectorial d1 αk2 k3 Función de similitud entre documentos Similitud por coseno n−1 1 sim ( d j , d k )= ∑ λ( d j , k h ) . λ (d k , k h ) h=0
    • 35. Descriptores y discriminadores d 0   d 0 , k i   d 0 , k i  java 4 0,385 0,493 Poder descriptivo de un término en machine 2 0,158 0,524 el tópico de un documento m−1 virtual 1 0,124 0,566 ∑h=0 sim (d j , d h ).[ λ (d h ,k i )]2 h≠ j language 1 0,089 0,517 Λ (d j , k i)= m −1programming 3 0,064 0,566 ∑h=0 sim(d j ,d h) h≠ j coffee 0 0,055 0,385 island 0 0,040 0,385 Poder discriminante de un término province 0 0,040 0,385 en el tópico de un documento jvm 0 0,032 0,848 m −1 jdk 0 0,014 0,848 Δ (d j , k i)=∑ h=0 sim (d j , d h ).[δ(d h , k i )]2 h≠ j Tópico: Máquina Virtual de Java
    • 36. MÉTODO INCREMENTAL DERECUPERACIÓN DE INFORMACIÓN BASADO EN CONTEXTO
    • 37. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 38. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 39. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 40. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 41. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 MÉTRICAS discriminadores resultado n consulta n
    • 42. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 43. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 44. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores
    • 45. Alcances y aplicaciones1. Búsqueda basada en contexto ● Explotan la interacción del usuario con las aplicaciones en su computadora para determinar la tarea actual del usuario y poner en contexto sus necesidades de información.2. Recuperación de recursos para portales temáticos ● Tienen el propósito de reunir recursos sobre temas específicos. El material recolectado se utiliza para construir directorios y sitios de búsqueda especializados.3. Búsqueda en la Web oculta ● Se llama Web Oculta a las páginas generadas dinámicamente como el resultado de una consulta presentada a un formulario de búsqueda en sitios específicos.4. Soporte para la administración y modelado del conocimiento ● Es el proceso mediante el cual se representa un cuerpo de conocimiento para facilitar su posterior acceso.
    • 46. PLATAFORMA DE EVALUACIÓN
    • 47. Plataforma de evaluación representación estadísticas métricasconsulta 01consulta 02 documentosconsulta 03 pedidosconsulta n
    • 48. Plataforma de evaluación representación estadísticas métricasconsulta 01consulta 02 documentosconsulta 03 pedidosconsulta n
    • 49. Plataforma de evaluación representación estadísticas métricasconsulta 01consulta 02 documentosconsulta 03 pedidosconsulta n
    • 50. Plataforma de evaluación
    • 51. Plataforma de evaluación TOP ARTE DEPORTE HOGAR ..... COMPRAS JARDINERIA CASA Y JARDIN JARDINES COCINA HISTORIA BONSAI Y PLANTAS SUISEKI 350mil páginas JARDINES ÁRBOLES FAMOSOS BONSAI enlace taxonómico JARDINES enlace simbólico JAPONESES enlace relacionadoBOTÁNICOS BONSAI
    • 52. Plataforma de evaluación representación estadísticas métricasconsulta 01consulta 02 documentosconsulta 03 pedidosconsulta n
    • 53. Plataforma de evaluación ✔ PRECISIÓN ✔ COBERTURA ✔ SIMILITUD ✔ SIMILITUD NOVEDOSA ✔ PRECISIÓN SEMÁNTICA ✔ SIMILITUD SEMÁNTICAMÉTRICAS
    • 54. Plataforma de evaluación PRECISIÓN Y COBERTURA Recuperados RelevantesMÉTRICAS A R Espacio de documentos
    • 55. Plataforma de evaluación PRECISIÓN Y COBERTURA Relevantes Recuperados relevantes no recuperados Recuperados RelevantesMÉTRICAS A R Recuperados no relevantes Espacio de documentos
    • 56. Plataforma de evaluación PRECISIÓN Y COBERTURA ∣A∩R∣ ∣A∩R∣ (β 2+1) P.C P= C= Fβ = ∣A∣ ∣R∣ C+β2 P Recuperados RelevantesMÉTRICAS A R Espacio de documentos
    • 57. Plataforma de evaluación SIMILITUD Y SIMILITUD NOVEDOSA k1 ⃗j . ⃗ d dk d2 sim ( d j , d k )= d1 ∣⃗∣.∣⃗∣ jd d k  k2 k3MÉTRICAS sim (q , d j , d k )=sim (⃗ ,⃗ N d j−q d k −q)
    • 58. Plataforma de evaluación SIMILITUD SEMÁNTICA Y PRECISIÓN SEMÁNTICA TOP ARTE DEPORTE HOGAR ..... COMPRAS JARDINERIA COCINA CASA Y JARDIN JARDINES HISTORIA BONSAI Y PLANTAS SUISEKI JARDINES FAMOSOS ÁRBOLESMÉTRICAS JARDINES BONSAI JAPONESES BONSAI BOTÁNICOS ∑d ∈ A sim S ( τ (C ) , τ( d j )) enlace taxonómico S enlace simbólico P = j enlace relacionado ∣A∣
    • 59. Plataforma de evaluación representación estadísticas métricasconsulta 01consulta 02 documentosconsulta 03 pedidosconsulta n
    • 60. Plataforma de evaluación BASE BO1-DFR y BO1 SUPERVISADO INCREMENTAL GENÉTICO MONO Y MULTIOBJETIVO
    • 61. EVALUACIONES
    • 62. Evaluaciones Promedio sobre todos los tópicos evaluados Formulación de consultas ySimilitud novedosa recuperación de información Cambio de fase ALGORITMO INCREMENTAL
    • 63. Evaluaciones ALGORITMO INCREMENTALBaseBo1 (24%)Incremental (67%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.5 0.2 0 1 0.6 0.4 Bo1 0.8 1 base Precisión
    • 64. Evaluaciones ALGORITMO INCREMENTALBaseBo1 (28%)Incremental (65%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.5 0.2 0 1 0.6 0.4 Bo1 0.8 1 base Precisión semántica
    • 65. Evaluaciones ALGORITMO INCREMENTALBaseBo1Incremental (100%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.1 0.05 0 0.25 0.2 0.15 0.4 0.35 0.3 Bo1 0.4 base Similitud novedosa
    • 66. Evaluaciones NSGA-II mejora a los demás Agregativo mejora a los demás Precisión Bo1* mejora a los demás Base mejora a los demás AgregativoNSGA-II Bo1* Bo1* Base Base ALGORITMOS GENÉTICOS
    • 67. Evaluaciones NSGA-II mejora a los demás Agregativo mejora a los demás Cobertura Bo1* mejora a los demás Base mejora a los demás AgregativoNSGA-II Bo1* Bo1* Base Base ALGORITMOS GENÉTICOS
    • 68. Conclusiones➢ Herramienta de Recuperación de Información ➔ Ayuda al usuario en la tarea que realiza ➔ Soluciona el problema de sensibilidad semántica • falsos-negativos (distinto vocabulario) • falsos-positivos (java)➢ Plataforma de evaluación ➔ Desarrollo, evaluación y comparación de algoritmos ➔ Nuevas métricas
    • 69. Trabajo a futuro➢ Clasificación de texto y clustering ➔ Aplicación de las técnicas incrementales➢ Nuevas métricas y estrategias ➔ Mejorar el rendimiento➢ Disponibilidad ➔ Ampliación de la plataforma
    • 70. CONICET ¡MUCHAS GRACIAS!Caracterización Formal y AnálisisEmpírico de Mecanismos Incrementalesde Búsqueda basados en Contexto Carlos M. Lorenzetti Directores : Guillermo R. Simari Ana G. Maguitman Universidad Nacional del Sur