2. Recuperación de información
Se refiere a la consulta de los datos de texto no estructurados.
A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la
relevancia de los documentos a consultar, la clasificación y la indexación de los
documentos.
El proceso de recuperación de la información consiste en localizar documentos
pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o
documentos de ejemplo.
3. Algunas diferencias entre los Sistemas de Bases de
Datos y los Sistemas de Recuperación
Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos
transaccionales asociados de control de concurrencia y durabilidad. Para los
sistemas de recuperación esto no es tan importante.
los sistemas de base de datos se ocupan de información estructurada organizada
con modelos de datos relativamente complejos (por ejemplo el modelo relacional),
los sistemas de recuperación de información tradicionalmente han utilizado un
modelo mucho más simple, en donde la información en la base de datos está
organizado simplemente como una colección de documentos no estructurados
Los sistemas de recuperación se han centrado en temas como consulta de palabras
clave y de clasificación de los documentos en el grado estimado de relevancia de
los documentos a la consulta.
4. Los sistemas de recuperación más sofisticados estiman relevancia de los
documentos a una consulta para que los documentos pueden mostrarse en
orden de relevancia estimada. Existen diferentes métodos para asignar la
relevancia de un documento, a continuación veremos algunos de ellos:
Clasificación de Relevancia usando Términos
Clasificación usando TF-IDF
Recuperación Basado en Similitud
Relevancia utilizando hipervínculos
Ranking de popularidad
PageRank
Otras mediciones de popularidad
Spam de motores de búsqueda
La combinación TF- IDF y Medidas Popularidad Clasificación
7. Recuperación Basado en Similitud
Ciertos sistemas de información de recuperación permite la recuperación
basada en la similitud. Aquí, el usuario puede dar el documento del
sistema A, y pedir al sistema para recuperar documentos que son
"similares" a A. La similitud de un documento a otro se puede definir, por
ejemplo, sobre la base de términos comunes. Un enfoque consiste en
encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y
utilizar estos términos k como una consulta para encontrar relevancia de
otros documentos. Los términos de la consulta se ponderan por sí mismos TF
(A, t) * IDF (t).
Más en general, la similitud de los documentos se define por la métrica de
similitud del coseno. Deje que los términos que aparecen en cualquiera de
los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A
continuación, la similitud entre documentos coseno métrica d y e se define
como:
Clasificación de Relevancia usando Términos
11. Ranking de popularidad
La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es
encontrar páginas que son populares, y para clasificarlos superior a otras páginas que
contengan las palabras clave especificadas.
Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden
combinar con la popularidad de la página para obtener una medida global de la
relevancia de la página para la consulta.
Una primera solución para estimar la popularidad de una página es utilizar el número de
páginas que enlazan con la página como una medida de su popularidad. El
inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a
diferentes partes de la misma.
Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas .
Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y
otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la
popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o
groups.google.com)
Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más
populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una
página popular de X a una página es tratada como una concesión más prestigio a la
página y que un enlace de una página Z.
Relevancia utilizando hipervínculos
12. PageRank
El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de
una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de
popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las
técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más
utilizado, en un período relativamente corto de tiempo.
. La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un
caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j .
Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es
el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado
como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como:
dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un
paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen
resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la
iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La
iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo
de un valor de corte.
Relevancia utilizando hipervínculos
14. Otras Mediciones de Popularidad
Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad
es calcular una medida de la popularidad utilizando sólo las páginas que contienen las
palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad
disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de
popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras
que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las
consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden
darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este
enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .
El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las
palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este
conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades.
Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que
puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas
que contienen información real. Por el contrario , una autoridad es una página que contiene
información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas
páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro
(hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de
prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales
simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una
gran authority-prestige, mientras que una página se hace mayor authority-prestige si es
apuntado por muchas páginas con un alto hub-prestige.
Relevancia utilizando hipervínculos
15. Spam de motores de Búsqueda
Spam de motores de búsqueda se refiere a la práctica de la creación de
páginas Web, o conjuntos de páginas Web , diseñado para conseguir un
alto rango de importancia en algunas consultas , a pesar de que los sitios
no son en realidad sitios populares.
Como ejemplos encontramos las paginas que repiten muchas veces un
termino o palabra clave y con eso conseguir una alta puntuación en TF-
IDF .
El enfoque del algoritmo HITS, los centros y las autoridades son más
susceptibles a spamming. Un spammer puede crear una pagina Web que
contiene enlaces a buenas autoridades en un tema, y obtiene una
puntuación alta hub como resultado.
Relevancia utilizando hipervínculos
16. Los sinónimos, homónimos y ontologías
Considere el problema de la localización de los documentos sobre el mantenimiento de
la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las
palabras clave de cada documento son las palabras en el título y los nombres de los
autores. El documento titulado Reparación de motos no se puede recuperar, ya que la
palabra "mantenimiento" no aparece en el título. Podemos resolver este problema
mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos
definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus
sinónimos (incluyendo la propia palabra).
Consultas basadas en palabras clave también sufren del problema de homónimos, es
decir una sola palabra con múltiples significados.
Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad
de cada palabra en el documento, y sustituirlo por el concepto que represente, la
desambiguación se hace generalmente mirando otras palabras que la acompañan en el
documento. Y comparándolas con las demás palabras claves.
Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos.
las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo
que es un paso importante en la construcción de una infraestructura estándar para el
procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.
17. Indexación de documentos
Una estructura efectiva de índices es importante para el procesamiento eficiente de las
consultas en los sistemas de recuperación de la información. Los documentos que
contengan las palabras clave especificadas pueden localizarse de manera efectiva
utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los
identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el
vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada
termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:
18. Medida de la Eficacia de la
Recuperación
Para ahorrar espacio de almacenamiento a veces se almacena el índice
de modo que la recuperación es aproximada; puede que no se
recuperen unos pocos documentos de importancia (lo que se denomina
un rechazo falso o un falso negativo), o puede que se recuperen unos
pocos documentos sin importancia (lo que se denomina un falso positivo).
Se utilizan dos métricas para medir la calidad con que los sistemas de
recuperación de la información pueden contestar las consultas. La
primera, la precisión, mide el porcentaje de los documentos recuperados
que son verdaderamente importantes para la consulta. La segunda, la
recuperación, mide el porcentaje de los documentos importantes para la
consulta que se han recuperado.
19. Rastreo e Indexación de la WEB
Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la Web.
Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar
otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada
en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos
motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un
acceso más rápido a los documentos.
Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la
Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren
únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o
meses en realizar un solo rastreo de todas las páginas que abarcan.
20. Recuperación de Información : Más
allá de clasificación de páginas
Los sistemas de recuperación de información fueron diseñados originalmente para
encontrar documentos textuales relacionados con una consulta, y posteriormente
extenderse a la búsqueda de páginas de la Web que están relacionados con una
consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas
simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más
amplio de búsqueda de información sobre un tema de interés.
También hay una creciente necesidad de sistemas que tratan de entender los
documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado)
conocimiento. Un enfoque consiste en crear información estructurada de documentos
no estructurados y para responder a preguntas basadas en la información
estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar
documentos relacionados con una pregunta (expresado en lenguaje natural) y
devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.
21. La diversidad de resultados de la consulta
Hoy en día, los motores de búsqueda no sólo devuelven una lista
clasificada de las páginas Web relevantes para una consulta. También
regresan imagen y video resultados relevantes a una consulta. Además,
hay una variedad de sitios que proporcionan el cambio de contenido de
forma dinámica , como resultados deportivos, o teletipos de la bolsa .
Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los
motores de búsqueda tratan de proporcionar un conjunto de resultados
que son diversos en cuanto a sus temas , para minimizar la posibilidad de
que un usuario podría estar insatisfecho .
Los resultados obtenidos a partir de una pagina Web necesitan ser
resumido como un fragmento en un resultado de consulta.
Tradicionalmente, los motores de búsqueda proporcionan unas palabras
que rodean a las palabras clave de la consulta como un fragmento que
ayuda a indicar lo que la página contiene . Sin embargo , hay muchos
ámbitos en los que el fragmento se puede generar de una manera mucho
más significativa . Tales fragmentos especializados se generan a menudo
para los resultados recuperados de una base de datos , por ejemplo , una
base de datos de restaurantes .
Más allá de clasificación de páginas
22. Extracción de Información
Sistemas de información de extracción se encargan de convertir la
información de forma textual a una forma más estructurada.
Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de
investigación académica , como Citeseer and Google Scholar, la Web de
rastreo para recuperar documentos que pueden ser artículos de investigación.
Ellos examinan algunas de las características de cada documento recuperado
, tales como la presencia de palabras tales como " bibliografía " , "referencias" y
"abstracto", para juzgar si un documento es en realidad un artículo de
investigación académica. A continuación, extraer el título , lista de autores , y
las citaciones en el final del artículo , mediante el uso de técnicas de
extracción de información .
Más allá de clasificación de páginas
23. Búsqueda de Respuestas
Los sistemas de recuperación de información se centran en la búsqueda de
documentos relevantes para una consulta determinada . Sin embargo , la
respuesta a una pregunta puede estar sólo en una parte de un documento, o
en pequeñas partes de varios documentos. Respuesta automática a preguntas
intentan dar respuestas directas a las preguntas formuladas por los usuarios.
Sistemas de búsqueda de respuestas dirigidas a la información en la Web
suelen generar una o más consultas de palabras clave de una cuestión
prejudicial , se ejecutan las consultas de palabras clave en contra de los
motores de búsqueda Web, además de analizar los documentos devueltos
para encontrar los segmentos de los documentos que responden a la pregunta
. Un número de técnicas lingüísticas y heurística se utiliza para generar
consultas de palabras clave , y para encontrar los segmentos relevantes del
documento.
Un problema en responder a las preguntas es que los diferentes documentos
pueden indicar diferentes respuestas a una pregunta.
Sistemas de pregunta de respuesta actual generación están limitados en
potencia, ya que realmente no entienden bien la pregunta o los documentos
utilizados para responder a la pregunta. Sin embargo, son útiles para un
número de tareas pregunta de respuesta simples.
Más allá de clasificación de páginas
24. Consultar Datos Estructurados
Los datos estructurados están representados principalmente ya sea en
forma relacional o XML . Varios sistemas se han construido para soportar
consultas de palabras clave en los datos relacionales y XML. Un tema
común entre estos sistemas radica en la búsqueda de nodos ( tuplas o
elementos XML) que contienen las palabras clave especificadas , y la
búsqueda de caminos que conectan (o ancestros comunes, en el caso de
datos XML) entre ellos.
Más allá de clasificación de páginas
25. Directorios y Categorías
En un sistema de recuperación de información, no hay necesidad de almacenar los
documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los
documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de
este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca
como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra
un documento en particular , también puede mostrar una breve descripción de los
documentos que se encuentran cerca de la jerarquía.
26. En un sistema de recuperación de información , no hay necesidad de mantener un
documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas
para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la
informática. Todo lo que se almacena en cada punto es un identificador del documento ( es
decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento
mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede
ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación
puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico "
puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la
jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en
la figura
27. Resumen
Los sistemas de recuperación de información se utilizan para almacenar datos de texto y
de consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los
sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos
dentro del modelo restringido.
Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo,
los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general
no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información
piden respuestas sobre la base del potencial relevancia.
Clasificación Relevancia hace uso de varios tipos de información, tales como:
Frecuencia de un término a la importancia de cada término es a cada documento
Frecuencia inversa de documento.
Clasificación de popularidad.
Similitud de documentos se utiliza para recuperar documentos similares a un documento de
ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de
espacio vectorial
PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de
la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva
mediante un modelo de paseo aleatorio . Información de texto de anclaje también se
utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de
recuperación de información necesitan combinar las puntuaciones de múltiples factores
tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..
28. Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto
rango para una página.
Sinónimos y homónimos complican la tarea de recuperación de información.
Consulta basada en el concepto apunta a encontrar documentos que
contengan conceptos especificados , independientemente de las palabras
exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se
utilizan para relacionar conceptos usando relaciones como es-un - o parte de .
Los índices invertidos se utilizan para responder a las consultas de palabras
clave.
Precisión y el recuperación son dos medidas de la efectividad de un sistema de
recuperación de información.
Los motores de búsqueda Web rastrean la Web para encontrar las páginas ,
analizarlos para calcular medidas de prestigio , y los índices.
Se han desarrollado técnicas para extraer información estructurada de datos
de texto , para realizar consultas de palabras clave en los datos estructurados ,
y para dar respuestas directas a preguntas sencillas planteadas en lenguaje
natural.
Estructura de los directorios y las categorías se utilizan para clasificar
documentos con otros documentos similares.