SlideShare a Scribd company logo
1 of 28
RECUPERACIÓN DE
INFORMACIÓN
Jhonathan Henao Barbosa
Andrés Mariño Ramírez
Bases de Datos II - 2014
Recuperación de información
 Se refiere a la consulta de los datos de texto no estructurados.
 A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la
relevancia de los documentos a consultar, la clasificación y la indexación de los
documentos.
 El proceso de recuperación de la información consiste en localizar documentos
pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o
documentos de ejemplo.
Algunas diferencias entre los Sistemas de Bases de
Datos y los Sistemas de Recuperación
 Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos
transaccionales asociados de control de concurrencia y durabilidad. Para los
sistemas de recuperación esto no es tan importante.
 los sistemas de base de datos se ocupan de información estructurada organizada
con modelos de datos relativamente complejos (por ejemplo el modelo relacional),
los sistemas de recuperación de información tradicionalmente han utilizado un
modelo mucho más simple, en donde la información en la base de datos está
organizado simplemente como una colección de documentos no estructurados
 Los sistemas de recuperación se han centrado en temas como consulta de palabras
clave y de clasificación de los documentos en el grado estimado de relevancia de
los documentos a la consulta.
Los sistemas de recuperación más sofisticados estiman relevancia de los
documentos a una consulta para que los documentos pueden mostrarse en
orden de relevancia estimada. Existen diferentes métodos para asignar la
relevancia de un documento, a continuación veremos algunos de ellos:
 Clasificación de Relevancia usando Términos
 Clasificación usando TF-IDF
 Recuperación Basado en Similitud
 Relevancia utilizando hipervínculos
 Ranking de popularidad
 PageRank
 Otras mediciones de popularidad
 Spam de motores de búsqueda
 La combinación TF- IDF y Medidas Popularidad Clasificación
Clasificación usando TF-IDF
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Recuperación Basado en Similitud
 Ciertos sistemas de información de recuperación permite la recuperación
basada en la similitud. Aquí, el usuario puede dar el documento del
sistema A, y pedir al sistema para recuperar documentos que son
"similares" a A. La similitud de un documento a otro se puede definir, por
ejemplo, sobre la base de términos comunes. Un enfoque consiste en
encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y
utilizar estos términos k como una consulta para encontrar relevancia de
otros documentos. Los términos de la consulta se ponderan por sí mismos TF
(A, t) * IDF (t).
 Más en general, la similitud de los documentos se define por la métrica de
similitud del coseno. Deje que los términos que aparecen en cualquiera de
los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A
continuación, la similitud entre documentos coseno métrica d y e se define
como:
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Clasificación de Relevancia usando Términos
Ranking de popularidad
 La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es
encontrar páginas que son populares, y para clasificarlos superior a otras páginas que
contengan las palabras clave especificadas.
 Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden
combinar con la popularidad de la página para obtener una medida global de la
relevancia de la página para la consulta.
 Una primera solución para estimar la popularidad de una página es utilizar el número de
páginas que enlazan con la página como una medida de su popularidad. El
inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a
diferentes partes de la misma.
 Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas .
Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y
otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la
popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o
groups.google.com)
 Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más
populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una
página popular de X a una página es tratada como una concesión más prestigio a la
página y que un enlace de una página Z.
Relevancia utilizando hipervínculos
PageRank
 El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de
una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de
popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las
técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más
utilizado, en un período relativamente corto de tiempo.
 . La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un
caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j .
Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es
el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado
como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como:
dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un
paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen
resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la
iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La
iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo
de un valor de corte.
Relevancia utilizando hipervínculos
Relevancia utilizando hipervínculos
Otras Mediciones de Popularidad
 Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad
es calcular una medida de la popularidad utilizando sólo las páginas que contienen las
palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad
disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de
popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras
que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las
consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden
darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este
enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .
 El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las
palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este
conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades.
Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que
puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas
que contienen información real. Por el contrario , una autoridad es una página que contiene
información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas
páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro
(hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de
prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales
simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una
gran authority-prestige, mientras que una página se hace mayor authority-prestige si es
apuntado por muchas páginas con un alto hub-prestige.
Relevancia utilizando hipervínculos
Spam de motores de Búsqueda
 Spam de motores de búsqueda se refiere a la práctica de la creación de
páginas Web, o conjuntos de páginas Web , diseñado para conseguir un
alto rango de importancia en algunas consultas , a pesar de que los sitios
no son en realidad sitios populares.
 Como ejemplos encontramos las paginas que repiten muchas veces un
termino o palabra clave y con eso conseguir una alta puntuación en TF-
IDF .
 El enfoque del algoritmo HITS, los centros y las autoridades son más
susceptibles a spamming. Un spammer puede crear una pagina Web que
contiene enlaces a buenas autoridades en un tema, y obtiene una
puntuación alta hub como resultado.
Relevancia utilizando hipervínculos
Los sinónimos, homónimos y ontologías
 Considere el problema de la localización de los documentos sobre el mantenimiento de
la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las
palabras clave de cada documento son las palabras en el título y los nombres de los
autores. El documento titulado Reparación de motos no se puede recuperar, ya que la
palabra "mantenimiento" no aparece en el título. Podemos resolver este problema
mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos
definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus
sinónimos (incluyendo la propia palabra).
 Consultas basadas en palabras clave también sufren del problema de homónimos, es
decir una sola palabra con múltiples significados.
Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad
de cada palabra en el documento, y sustituirlo por el concepto que represente, la
desambiguación se hace generalmente mirando otras palabras que la acompañan en el
documento. Y comparándolas con las demás palabras claves.
 Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos.
las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo
que es un paso importante en la construcción de una infraestructura estándar para el
procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.
Indexación de documentos
 Una estructura efectiva de índices es importante para el procesamiento eficiente de las
consultas en los sistemas de recuperación de la información. Los documentos que
contengan las palabras clave especificadas pueden localizarse de manera efectiva
utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los
identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el
vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada
termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:
Medida de la Eficacia de la
Recuperación
 Para ahorrar espacio de almacenamiento a veces se almacena el índice
de modo que la recuperación es aproximada; puede que no se
recuperen unos pocos documentos de importancia (lo que se denomina
un rechazo falso o un falso negativo), o puede que se recuperen unos
pocos documentos sin importancia (lo que se denomina un falso positivo).
 Se utilizan dos métricas para medir la calidad con que los sistemas de
recuperación de la información pueden contestar las consultas. La
primera, la precisión, mide el porcentaje de los documentos recuperados
que son verdaderamente importantes para la consulta. La segunda, la
recuperación, mide el porcentaje de los documentos importantes para la
consulta que se han recuperado.
Rastreo e Indexación de la WEB
 Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la Web.
Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar
otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada
en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos
motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un
acceso más rápido a los documentos.
 Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la
Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren
únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o
meses en realizar un solo rastreo de todas las páginas que abarcan.
Recuperación de Información : Más
allá de clasificación de páginas
 Los sistemas de recuperación de información fueron diseñados originalmente para
encontrar documentos textuales relacionados con una consulta, y posteriormente
extenderse a la búsqueda de páginas de la Web que están relacionados con una
consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas
simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más
amplio de búsqueda de información sobre un tema de interés.
 También hay una creciente necesidad de sistemas que tratan de entender los
documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado)
conocimiento. Un enfoque consiste en crear información estructurada de documentos
no estructurados y para responder a preguntas basadas en la información
estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar
documentos relacionados con una pregunta (expresado en lenguaje natural) y
devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.
La diversidad de resultados de la consulta
 Hoy en día, los motores de búsqueda no sólo devuelven una lista
clasificada de las páginas Web relevantes para una consulta. También
regresan imagen y video resultados relevantes a una consulta. Además,
hay una variedad de sitios que proporcionan el cambio de contenido de
forma dinámica , como resultados deportivos, o teletipos de la bolsa .
 Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los
motores de búsqueda tratan de proporcionar un conjunto de resultados
que son diversos en cuanto a sus temas , para minimizar la posibilidad de
que un usuario podría estar insatisfecho .
 Los resultados obtenidos a partir de una pagina Web necesitan ser
resumido como un fragmento en un resultado de consulta.
Tradicionalmente, los motores de búsqueda proporcionan unas palabras
que rodean a las palabras clave de la consulta como un fragmento que
ayuda a indicar lo que la página contiene . Sin embargo , hay muchos
ámbitos en los que el fragmento se puede generar de una manera mucho
más significativa . Tales fragmentos especializados se generan a menudo
para los resultados recuperados de una base de datos , por ejemplo , una
base de datos de restaurantes .
Más allá de clasificación de páginas
Extracción de Información
 Sistemas de información de extracción se encargan de convertir la
información de forma textual a una forma más estructurada.
 Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de
investigación académica , como Citeseer and Google Scholar, la Web de
rastreo para recuperar documentos que pueden ser artículos de investigación.
Ellos examinan algunas de las características de cada documento recuperado
, tales como la presencia de palabras tales como " bibliografía " , "referencias" y
"abstracto", para juzgar si un documento es en realidad un artículo de
investigación académica. A continuación, extraer el título , lista de autores , y
las citaciones en el final del artículo , mediante el uso de técnicas de
extracción de información .
Más allá de clasificación de páginas
Búsqueda de Respuestas
 Los sistemas de recuperación de información se centran en la búsqueda de
documentos relevantes para una consulta determinada . Sin embargo , la
respuesta a una pregunta puede estar sólo en una parte de un documento, o
en pequeñas partes de varios documentos. Respuesta automática a preguntas
intentan dar respuestas directas a las preguntas formuladas por los usuarios.
 Sistemas de búsqueda de respuestas dirigidas a la información en la Web
suelen generar una o más consultas de palabras clave de una cuestión
prejudicial , se ejecutan las consultas de palabras clave en contra de los
motores de búsqueda Web, además de analizar los documentos devueltos
para encontrar los segmentos de los documentos que responden a la pregunta
. Un número de técnicas lingüísticas y heurística se utiliza para generar
consultas de palabras clave , y para encontrar los segmentos relevantes del
documento.
 Un problema en responder a las preguntas es que los diferentes documentos
pueden indicar diferentes respuestas a una pregunta.
 Sistemas de pregunta de respuesta actual generación están limitados en
potencia, ya que realmente no entienden bien la pregunta o los documentos
utilizados para responder a la pregunta. Sin embargo, son útiles para un
número de tareas pregunta de respuesta simples.
Más allá de clasificación de páginas
Consultar Datos Estructurados
 Los datos estructurados están representados principalmente ya sea en
forma relacional o XML . Varios sistemas se han construido para soportar
consultas de palabras clave en los datos relacionales y XML. Un tema
común entre estos sistemas radica en la búsqueda de nodos ( tuplas o
elementos XML) que contienen las palabras clave especificadas , y la
búsqueda de caminos que conectan (o ancestros comunes, en el caso de
datos XML) entre ellos.
Más allá de clasificación de páginas
Directorios y Categorías
 En un sistema de recuperación de información, no hay necesidad de almacenar los
documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los
documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de
este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca
como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra
un documento en particular , también puede mostrar una breve descripción de los
documentos que se encuentran cerca de la jerarquía.
 En un sistema de recuperación de información , no hay necesidad de mantener un
documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas
para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la
informática. Todo lo que se almacena en cada punto es un identificador del documento ( es
decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento
mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede
ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación
puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico "
puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la
jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en
la figura
Resumen
 Los sistemas de recuperación de información se utilizan para almacenar datos de texto y
de consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los
sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos
dentro del modelo restringido.
 Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo,
los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general
no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información
piden respuestas sobre la base del potencial relevancia.
 Clasificación Relevancia hace uso de varios tipos de información, tales como:
 Frecuencia de un término a la importancia de cada término es a cada documento
 Frecuencia inversa de documento.
 Clasificación de popularidad.
 Similitud de documentos se utiliza para recuperar documentos similares a un documento de
ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de
espacio vectorial
 PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de
la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva
mediante un modelo de paseo aleatorio . Información de texto de anclaje también se
utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de
recuperación de información necesitan combinar las puntuaciones de múltiples factores
tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..
 Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto
rango para una página.
 Sinónimos y homónimos complican la tarea de recuperación de información.
Consulta basada en el concepto apunta a encontrar documentos que
contengan conceptos especificados , independientemente de las palabras
exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se
utilizan para relacionar conceptos usando relaciones como es-un - o parte de .
 Los índices invertidos se utilizan para responder a las consultas de palabras
clave.
 Precisión y el recuperación son dos medidas de la efectividad de un sistema de
recuperación de información.
 Los motores de búsqueda Web rastrean la Web para encontrar las páginas ,
analizarlos para calcular medidas de prestigio , y los índices.
 Se han desarrollado técnicas para extraer información estructurada de datos
de texto , para realizar consultas de palabras clave en los datos estructurados ,
y para dar respuestas directas a preguntas sencillas planteadas en lenguaje
natural.
 Estructura de los directorios y las categorías se utilizan para clasificar
documentos con otros documentos similares.

More Related Content

What's hot

Caracteristicas de las bases de datos
Caracteristicas de las bases de datosCaracteristicas de las bases de datos
Caracteristicas de las bases de datosNelson Rubio
 
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercadosmdelriomejia
 
Diagramas de clases y actividades
Diagramas de clases y actividadesDiagramas de clases y actividades
Diagramas de clases y actividadesTerryJoss
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionMonica Naranjo
 
Análisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónAnálisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónLourdes Castillo
 
Ventajas y desventajas de las bdoo
Ventajas y desventajas de las bdooVentajas y desventajas de las bdoo
Ventajas y desventajas de las bdooNerhys Palacios
 
Diseño de entradas para sistemas de información
Diseño de entradas para sistemas de informaciónDiseño de entradas para sistemas de información
Diseño de entradas para sistemas de informaciónYaskelly Yedra
 
Propuesta de Investigacion de mercados
 Propuesta de Investigacion de mercados Propuesta de Investigacion de mercados
Propuesta de Investigacion de mercadosstephmiranda
 
Los sistemas-de-informacion-de-la-mercadotecnia-sim
Los sistemas-de-informacion-de-la-mercadotecnia-simLos sistemas-de-informacion-de-la-mercadotecnia-sim
Los sistemas-de-informacion-de-la-mercadotecnia-simabigail
 
Busqueda de información
Busqueda de informaciónBusqueda de información
Busqueda de informaciónvittoriagm
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacionMonica Naranjo
 

What's hot (20)

Caracteristicas de las bases de datos
Caracteristicas de las bases de datosCaracteristicas de las bases de datos
Caracteristicas de las bases de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados
(Inv. Mercados) Tema 1 - Introducción a la investigación de mercados
 
Intranet y Extranet
Intranet y ExtranetIntranet y Extranet
Intranet y Extranet
 
Base de datos ppt
Base de datos pptBase de datos ppt
Base de datos ppt
 
Base de datos tienda de abarrotes
Base de datos tienda de abarrotesBase de datos tienda de abarrotes
Base de datos tienda de abarrotes
 
Diagramas de clases y actividades
Diagramas de clases y actividadesDiagramas de clases y actividades
Diagramas de clases y actividades
 
Ejercicio parciall 2
Ejercicio parciall 2Ejercicio parciall 2
Ejercicio parciall 2
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
Análisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organizaciónAnálisis de las necesidades de información de una organización
Análisis de las necesidades de información de una organización
 
Desnormalización de Base de Datos
Desnormalización de Base de DatosDesnormalización de Base de Datos
Desnormalización de Base de Datos
 
Ventajas y desventajas de las bdoo
Ventajas y desventajas de las bdooVentajas y desventajas de las bdoo
Ventajas y desventajas de las bdoo
 
Ejercicio 10
Ejercicio 10Ejercicio 10
Ejercicio 10
 
Diseño de entradas para sistemas de información
Diseño de entradas para sistemas de informaciónDiseño de entradas para sistemas de información
Diseño de entradas para sistemas de información
 
Capa de aplicación
Capa de aplicaciónCapa de aplicación
Capa de aplicación
 
Propuesta de Investigacion de mercados
 Propuesta de Investigacion de mercados Propuesta de Investigacion de mercados
Propuesta de Investigacion de mercados
 
Los sistemas-de-informacion-de-la-mercadotecnia-sim
Los sistemas-de-informacion-de-la-mercadotecnia-simLos sistemas-de-informacion-de-la-mercadotecnia-sim
Los sistemas-de-informacion-de-la-mercadotecnia-sim
 
Busqueda de información
Busqueda de informaciónBusqueda de información
Busqueda de información
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacion
 
RFC
RFCRFC
RFC
 

Viewers also liked

Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimientoJose Giraldez
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Sebastián Alvarado Vergara
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónJairo626
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialAlfonso E. Romero
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRaúl Larios
 
Análisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesAnálisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesÓscar Muñoz García
 

Viewers also liked (8)

Analisis de sentimiento
Analisis de sentimientoAnalisis de sentimiento
Analisis de sentimiento
 
Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.Aplicaciones de text mining para gestión de información.
Aplicaciones de text mining para gestión de información.
 
Data Science
Data ScienceData Science
Data Science
 
Quimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificaciónQuimica unidad 2 elementos quimicos y su clasificación
Quimica unidad 2 elementos quimicos y su clasificación
 
Recuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio VectorialRecuperación de Información y el modelo de Espacio Vectorial
Recuperación de Información y el modelo de Espacio Vectorial
 
IR
IRIR
IR
 
Recursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIsRecursos lingüísticos, análisis de sentimiento y APIs
Recursos lingüísticos, análisis de sentimiento y APIs
 
Análisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes SocialesAnálisis de Sentimientos en un Corpus de Redes Sociales
Análisis de Sentimientos en un Corpus de Redes Sociales
 

Similar to Sistemas de recuperación de informacion.cap 21

Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadoresaltanet
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webDecaunlz
 
Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Carmen Gerea
 
Acceso Internet.pptx
Acceso Internet.pptxAcceso Internet.pptx
Acceso Internet.pptxRicMar9
 
Cómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioCómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioAuxi Gifmania
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking webbloxxx
 
Posicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoPosicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoFernando Amaro
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internetshirley0222
 
Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.computacion1
 
Mètodos de bùsquedad
Mètodos de bùsquedadMètodos de bùsquedad
Mètodos de bùsquedadjb8911
 

Similar to Sistemas de recuperación de informacion.cap 21 (20)

Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Posicionamiento En Buscadores
Posicionamiento En BuscadoresPosicionamiento En Buscadores
Posicionamiento En Buscadores
 
Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la web
 
Informatica
InformaticaInformatica
Informatica
 
Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona Qué es el posicionamiento orgánico (SEO) y cómo funciona
Qué es el posicionamiento orgánico (SEO) y cómo funciona
 
Acceso Internet.pptx
Acceso Internet.pptxAcceso Internet.pptx
Acceso Internet.pptx
 
Cómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominioCómo obtener las palabras clave de un dominio
Cómo obtener las palabras clave de un dominio
 
Reporte
ReporteReporte
Reporte
 
Herramientas de ranking web
Herramientas de ranking webHerramientas de ranking web
Herramientas de ranking web
 
Motores de busqueda y paginas web yakambú
Motores de busqueda y paginas web yakambúMotores de busqueda y paginas web yakambú
Motores de busqueda y paginas web yakambú
 
Posicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento InternoPosicionamiento Web: Conociendo Su Funcionamiento Interno
Posicionamiento Web: Conociendo Su Funcionamiento Interno
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.Trabajo practico de informatica - Luciana G.
Trabajo practico de informatica - Luciana G.
 
Mètodos de bùsquedad
Mètodos de bùsquedadMètodos de bùsquedad
Mètodos de bùsquedad
 

Recently uploaded

proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñotapirjackluis
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfFrancisco158360
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Éteres. Química Orgánica. Propiedades y reacciones
Éteres. Química Orgánica. Propiedades y reaccionesÉteres. Química Orgánica. Propiedades y reacciones
Éteres. Química Orgánica. Propiedades y reaccionesLauraColom3
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dstEphaniiie
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...JonathanCovena1
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...JAVIER SOLIS NOYOLA
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxKarlaMassielMartinez
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 

Recently uploaded (20)

proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Presentacion Metodología de Enseñanza Multigrado
Presentacion Metodología de Enseñanza MultigradoPresentacion Metodología de Enseñanza Multigrado
Presentacion Metodología de Enseñanza Multigrado
 
Éteres. Química Orgánica. Propiedades y reacciones
Éteres. Química Orgánica. Propiedades y reaccionesÉteres. Química Orgánica. Propiedades y reacciones
Éteres. Química Orgánica. Propiedades y reacciones
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptxTECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
TECNOLOGÍA FARMACEUTICA OPERACIONES UNITARIAS.pptx
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 

Sistemas de recuperación de informacion.cap 21

  • 1. RECUPERACIÓN DE INFORMACIÓN Jhonathan Henao Barbosa Andrés Mariño Ramírez Bases de Datos II - 2014
  • 2. Recuperación de información  Se refiere a la consulta de los datos de texto no estructurados.  A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la relevancia de los documentos a consultar, la clasificación y la indexación de los documentos.  El proceso de recuperación de la información consiste en localizar documentos pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o documentos de ejemplo.
  • 3. Algunas diferencias entre los Sistemas de Bases de Datos y los Sistemas de Recuperación  Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos transaccionales asociados de control de concurrencia y durabilidad. Para los sistemas de recuperación esto no es tan importante.  los sistemas de base de datos se ocupan de información estructurada organizada con modelos de datos relativamente complejos (por ejemplo el modelo relacional), los sistemas de recuperación de información tradicionalmente han utilizado un modelo mucho más simple, en donde la información en la base de datos está organizado simplemente como una colección de documentos no estructurados  Los sistemas de recuperación se han centrado en temas como consulta de palabras clave y de clasificación de los documentos en el grado estimado de relevancia de los documentos a la consulta.
  • 4. Los sistemas de recuperación más sofisticados estiman relevancia de los documentos a una consulta para que los documentos pueden mostrarse en orden de relevancia estimada. Existen diferentes métodos para asignar la relevancia de un documento, a continuación veremos algunos de ellos:  Clasificación de Relevancia usando Términos  Clasificación usando TF-IDF  Recuperación Basado en Similitud  Relevancia utilizando hipervínculos  Ranking de popularidad  PageRank  Otras mediciones de popularidad  Spam de motores de búsqueda  La combinación TF- IDF y Medidas Popularidad Clasificación
  • 5. Clasificación usando TF-IDF Clasificación de Relevancia usando Términos
  • 6. Clasificación de Relevancia usando Términos
  • 7. Recuperación Basado en Similitud  Ciertos sistemas de información de recuperación permite la recuperación basada en la similitud. Aquí, el usuario puede dar el documento del sistema A, y pedir al sistema para recuperar documentos que son "similares" a A. La similitud de un documento a otro se puede definir, por ejemplo, sobre la base de términos comunes. Un enfoque consiste en encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y utilizar estos términos k como una consulta para encontrar relevancia de otros documentos. Los términos de la consulta se ponderan por sí mismos TF (A, t) * IDF (t).  Más en general, la similitud de los documentos se define por la métrica de similitud del coseno. Deje que los términos que aparecen en cualquiera de los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A continuación, la similitud entre documentos coseno métrica d y e se define como: Clasificación de Relevancia usando Términos
  • 8. Clasificación de Relevancia usando Términos
  • 9. Clasificación de Relevancia usando Términos
  • 10. Clasificación de Relevancia usando Términos
  • 11. Ranking de popularidad  La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es encontrar páginas que son populares, y para clasificarlos superior a otras páginas que contengan las palabras clave especificadas.  Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden combinar con la popularidad de la página para obtener una medida global de la relevancia de la página para la consulta.  Una primera solución para estimar la popularidad de una página es utilizar el número de páginas que enlazan con la página como una medida de su popularidad. El inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a diferentes partes de la misma.  Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas . Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o groups.google.com)  Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una página popular de X a una página es tratada como una concesión más prestigio a la página y que un enlace de una página Z. Relevancia utilizando hipervínculos
  • 12. PageRank  El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más utilizado, en un período relativamente corto de tiempo.  . La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j . Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como: dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo de un valor de corte. Relevancia utilizando hipervínculos
  • 14. Otras Mediciones de Popularidad  Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad es calcular una medida de la popularidad utilizando sólo las páginas que contienen las palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .  El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades. Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas que contienen información real. Por el contrario , una autoridad es una página que contiene información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro (hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una gran authority-prestige, mientras que una página se hace mayor authority-prestige si es apuntado por muchas páginas con un alto hub-prestige. Relevancia utilizando hipervínculos
  • 15. Spam de motores de Búsqueda  Spam de motores de búsqueda se refiere a la práctica de la creación de páginas Web, o conjuntos de páginas Web , diseñado para conseguir un alto rango de importancia en algunas consultas , a pesar de que los sitios no son en realidad sitios populares.  Como ejemplos encontramos las paginas que repiten muchas veces un termino o palabra clave y con eso conseguir una alta puntuación en TF- IDF .  El enfoque del algoritmo HITS, los centros y las autoridades son más susceptibles a spamming. Un spammer puede crear una pagina Web que contiene enlaces a buenas autoridades en un tema, y obtiene una puntuación alta hub como resultado. Relevancia utilizando hipervínculos
  • 16. Los sinónimos, homónimos y ontologías  Considere el problema de la localización de los documentos sobre el mantenimiento de la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las palabras clave de cada documento son las palabras en el título y los nombres de los autores. El documento titulado Reparación de motos no se puede recuperar, ya que la palabra "mantenimiento" no aparece en el título. Podemos resolver este problema mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus sinónimos (incluyendo la propia palabra).  Consultas basadas en palabras clave también sufren del problema de homónimos, es decir una sola palabra con múltiples significados. Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad de cada palabra en el documento, y sustituirlo por el concepto que represente, la desambiguación se hace generalmente mirando otras palabras que la acompañan en el documento. Y comparándolas con las demás palabras claves.  Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos. las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo que es un paso importante en la construcción de una infraestructura estándar para el procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.
  • 17. Indexación de documentos  Una estructura efectiva de índices es importante para el procesamiento eficiente de las consultas en los sistemas de recuperación de la información. Los documentos que contengan las palabras clave especificadas pueden localizarse de manera efectiva utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:
  • 18. Medida de la Eficacia de la Recuperación  Para ahorrar espacio de almacenamiento a veces se almacena el índice de modo que la recuperación es aproximada; puede que no se recuperen unos pocos documentos de importancia (lo que se denomina un rechazo falso o un falso negativo), o puede que se recuperen unos pocos documentos sin importancia (lo que se denomina un falso positivo).  Se utilizan dos métricas para medir la calidad con que los sistemas de recuperación de la información pueden contestar las consultas. La primera, la precisión, mide el porcentaje de los documentos recuperados que son verdaderamente importantes para la consulta. La segunda, la recuperación, mide el porcentaje de los documentos importantes para la consulta que se han recuperado.
  • 19. Rastreo e Indexación de la WEB  Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la Web. Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un acceso más rápido a los documentos.  Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o meses en realizar un solo rastreo de todas las páginas que abarcan.
  • 20. Recuperación de Información : Más allá de clasificación de páginas  Los sistemas de recuperación de información fueron diseñados originalmente para encontrar documentos textuales relacionados con una consulta, y posteriormente extenderse a la búsqueda de páginas de la Web que están relacionados con una consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más amplio de búsqueda de información sobre un tema de interés.  También hay una creciente necesidad de sistemas que tratan de entender los documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado) conocimiento. Un enfoque consiste en crear información estructurada de documentos no estructurados y para responder a preguntas basadas en la información estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar documentos relacionados con una pregunta (expresado en lenguaje natural) y devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.
  • 21. La diversidad de resultados de la consulta  Hoy en día, los motores de búsqueda no sólo devuelven una lista clasificada de las páginas Web relevantes para una consulta. También regresan imagen y video resultados relevantes a una consulta. Además, hay una variedad de sitios que proporcionan el cambio de contenido de forma dinámica , como resultados deportivos, o teletipos de la bolsa .  Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los motores de búsqueda tratan de proporcionar un conjunto de resultados que son diversos en cuanto a sus temas , para minimizar la posibilidad de que un usuario podría estar insatisfecho .  Los resultados obtenidos a partir de una pagina Web necesitan ser resumido como un fragmento en un resultado de consulta. Tradicionalmente, los motores de búsqueda proporcionan unas palabras que rodean a las palabras clave de la consulta como un fragmento que ayuda a indicar lo que la página contiene . Sin embargo , hay muchos ámbitos en los que el fragmento se puede generar de una manera mucho más significativa . Tales fragmentos especializados se generan a menudo para los resultados recuperados de una base de datos , por ejemplo , una base de datos de restaurantes . Más allá de clasificación de páginas
  • 22. Extracción de Información  Sistemas de información de extracción se encargan de convertir la información de forma textual a una forma más estructurada.  Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de investigación académica , como Citeseer and Google Scholar, la Web de rastreo para recuperar documentos que pueden ser artículos de investigación. Ellos examinan algunas de las características de cada documento recuperado , tales como la presencia de palabras tales como " bibliografía " , "referencias" y "abstracto", para juzgar si un documento es en realidad un artículo de investigación académica. A continuación, extraer el título , lista de autores , y las citaciones en el final del artículo , mediante el uso de técnicas de extracción de información . Más allá de clasificación de páginas
  • 23. Búsqueda de Respuestas  Los sistemas de recuperación de información se centran en la búsqueda de documentos relevantes para una consulta determinada . Sin embargo , la respuesta a una pregunta puede estar sólo en una parte de un documento, o en pequeñas partes de varios documentos. Respuesta automática a preguntas intentan dar respuestas directas a las preguntas formuladas por los usuarios.  Sistemas de búsqueda de respuestas dirigidas a la información en la Web suelen generar una o más consultas de palabras clave de una cuestión prejudicial , se ejecutan las consultas de palabras clave en contra de los motores de búsqueda Web, además de analizar los documentos devueltos para encontrar los segmentos de los documentos que responden a la pregunta . Un número de técnicas lingüísticas y heurística se utiliza para generar consultas de palabras clave , y para encontrar los segmentos relevantes del documento.  Un problema en responder a las preguntas es que los diferentes documentos pueden indicar diferentes respuestas a una pregunta.  Sistemas de pregunta de respuesta actual generación están limitados en potencia, ya que realmente no entienden bien la pregunta o los documentos utilizados para responder a la pregunta. Sin embargo, son útiles para un número de tareas pregunta de respuesta simples. Más allá de clasificación de páginas
  • 24. Consultar Datos Estructurados  Los datos estructurados están representados principalmente ya sea en forma relacional o XML . Varios sistemas se han construido para soportar consultas de palabras clave en los datos relacionales y XML. Un tema común entre estos sistemas radica en la búsqueda de nodos ( tuplas o elementos XML) que contienen las palabras clave especificadas , y la búsqueda de caminos que conectan (o ancestros comunes, en el caso de datos XML) entre ellos. Más allá de clasificación de páginas
  • 25. Directorios y Categorías  En un sistema de recuperación de información, no hay necesidad de almacenar los documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra un documento en particular , también puede mostrar una breve descripción de los documentos que se encuentran cerca de la jerarquía.
  • 26.  En un sistema de recuperación de información , no hay necesidad de mantener un documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la informática. Todo lo que se almacena en cada punto es un identificador del documento ( es decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico " puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en la figura
  • 27. Resumen  Los sistemas de recuperación de información se utilizan para almacenar datos de texto y de consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos dentro del modelo restringido.  Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo, los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información piden respuestas sobre la base del potencial relevancia.  Clasificación Relevancia hace uso de varios tipos de información, tales como:  Frecuencia de un término a la importancia de cada término es a cada documento  Frecuencia inversa de documento.  Clasificación de popularidad.  Similitud de documentos se utiliza para recuperar documentos similares a un documento de ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de espacio vectorial  PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva mediante un modelo de paseo aleatorio . Información de texto de anclaje también se utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de recuperación de información necesitan combinar las puntuaciones de múltiples factores tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..
  • 28.  Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto rango para una página.  Sinónimos y homónimos complican la tarea de recuperación de información. Consulta basada en el concepto apunta a encontrar documentos que contengan conceptos especificados , independientemente de las palabras exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se utilizan para relacionar conceptos usando relaciones como es-un - o parte de .  Los índices invertidos se utilizan para responder a las consultas de palabras clave.  Precisión y el recuperación son dos medidas de la efectividad de un sistema de recuperación de información.  Los motores de búsqueda Web rastrean la Web para encontrar las páginas , analizarlos para calcular medidas de prestigio , y los índices.  Se han desarrollado técnicas para extraer información estructurada de datos de texto , para realizar consultas de palabras clave en los datos estructurados , y para dar respuestas directas a preguntas sencillas planteadas en lenguaje natural.  Estructura de los directorios y las categorías se utilizan para clasificar documentos con otros documentos similares.