Introduccion SRI

8,397 views
8,167 views

Published on

MATERIAL DEL DOCENTE

ING LAUREANO FELIPE GÓMEZ

Published in: Education, Technology, Travel
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
8,397
On SlideShare
0
From Embeds
0
Number of Embeds
17
Actions
Shares
0
Downloads
49
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Introduccion SRI

    1. 1. Introducción a los SARI Recuperación de Información Ing. Laureano Felipe Gómez felipe.gomez3@gmail.com UNIVERSIDAD DE LA SALLE FACULTAD DE SISTEMAS DE INF. Y DOC.
    2. 3. Plan de Trabajo <ul><li>Introducción </li></ul>
    3. 4. ¿Para qué sirve un SRI? <ul><li>Un SRI permite la recuperación de la información, previamente almacenada (claro está), por medio de la realización de una serie de consultas (“queries”) a los documentos contenidos en la base de datos. Esta serie de preguntas o interrogaciones se conceptúan como sentencias formales de expresión de necesidades de información, y suelen venir expresadas por medio de un lenguaje de interrogación. </li></ul><ul><li>Un documento es un objeto de datos, textual tradicionalmente, aunque la evolución tecnológica propicia la profusión de documentos multimedia, incorporándose fotografías, ilustraciones gráficas, vídeo animado, audio, etc., </li></ul><ul><li>Un SRI debe soportar una serie de operaciones básicas sobre los documentos almacenados en el mismo, como son: introducción de nuevos documentos, modificación de los documentos almacenados y eliminación de los mismos. </li></ul><ul><li>Debemos también contar con algún método de localización de los documentos (o con varios generalmente), para presentárselos posteriormente al usuario. </li></ul>
    4. 5. Recordando!!! <ul><li>Qué debe hacer un SRI: </li></ul><ul><li>Dado una necesidad de Información y un Conjunto de Documentos  Se requiere satisfacer la necesidad, presentando documentos relevantes. </li></ul><ul><li>Cómo hace el SRI? </li></ul><ul><li>Elegir un modelo que calcule Relevancia </li></ul><ul><ul><ul><li>Un Documento Vs Una Pregunta </li></ul></ul></ul><ul><li>Diseñar algoritmos y estructuras de datos que lo implementen eficientemente </li></ul>
    5. 6. Modelo Universal de un SRI <ul><li>NI -> Análisis -> RNI -> </li></ul><ul><li>Comparación </li></ul><ul><li><- RTEXTO <- Análisis <- TEXTO </li></ul><ul><li>NI : necesidad de información (la pregunta del usuario)‏ </li></ul><ul><li>Análisis: totalmente automático, totalmente intelectual, o una combinación de ambos </li></ul><ul><li>RNI: representación de la necesidad de información (representación de la pregunta)‏ </li></ul><ul><li>Comparación: función que genera los resultados mediante la comparación de la representación de la pregunta con la representación del texto, </li></ul><ul><li>RTexto : representación del texto (representación del documento)‏ </li></ul><ul><li>TEXTO : documento </li></ul>Fuente: Adaptado de Belkin y Croft
    6. 7. ¿Análisis de Dominio? <ul><li>Permite identificar y recordar las similitudes y diferencias entre SRI </li></ul><ul><li>Se crea por la gran cantidad de variedades y métodos posibles para generar SRI </li></ul><ul><li>En la práctica, cada sistema concreto de RI desarrolla una solución de una forma distinta. </li></ul>
    7. 8. Asignación Ids  Indización   Grafos Espacio Vectorial Enmascaramiento Truncamiento Clustering Árbol PAT Búsqueda por cadenas Ordenación Lista de palabras vacías Booleanas Patrones de bits Probabilístico Rango Ponderación por pesos Parsing Fichero Inverso Booleano extendido Visualización documentos Stemming Reutilización Fichero Plano Booleano Operaciones sobre documentos Operaciones sobre términos Operaciones de consulta Estructura de Indices Modelo Conceptual
    8. 9. Modelos Conceptuales <ul><li>El desarrollo de modelos teóricos en los que se basan las técnicas de recuperación permite: </li></ul><ul><li>Comprobar la eficacia de las técnicas (Algoritmos) para evaluar Relevancia </li></ul><ul><li>Facilitar el análisis y racionalización que pueden ser necesarias para comprobar la eficacia de los sistemas con un conjunto real de documentos, búsquedas. </li></ul>
    9. 10. Modelos Conceptuales Taxonomía de los modelos de RI Recuperación: Búsqueda retrospectiva DSI Navegación MODELOS CLASICOS Booleano Espacios Vectoriales Probabilístico MODELOS ESTRUCTURADOS Listas no solapadas Nodos próximos NAVEGACION Plana Guía estructurada Hipertexto TEORIA DE CONJUNTOS Conjuntos difusos Booleano extendido ALGEBRAICO Vector generalizado Latent Semantic Indexing Redes Neuronales PROBABILISTICO Redes de inferencia Redes de confianza ACCIONES DEL USUARIO
    10. 11. Estructura de Ficheros (Índices)‏ <ul><li>Indización: Elaborar índices o estructuras de acceso a los documentos (representación alterna) a partir de las palabras (términos) que contienen. </li></ul><ul><li>Los índices de estructura de datos de un SRI permiten realizar operaciones de búsqueda mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema. </li></ul><ul><li>Un SRI, puede determinar si usa ó no Índices </li></ul>
    11. 12. Estructura de Ficheros (Índices)‏
    12. 13. Operaciones de Consulta <ul><li>Mientras los SRI no manejen efectivamente el procesamiento automático de lenguaje natural, las consultas a los SRI se expresan por medio de sentencias formales (generalmente ecuaciones) de las necesidades de información de los usuarios del sistema. </li></ul><ul><li>Determinan de forma clara al SRI y permiten diferenciar a unos de otros (ó su estandarización CCL, CQL, etc…)‏ </li></ul>
    13. 14. Operaciones sobre Términos <ul><li>Para mejorar la eficiencia y el tamaño de los índices, se pueden efectuar operaciones que se pueden llevar a cabo sobre los términos en un SRI: </li></ul><ul><li>Stemming </li></ul><ul><li>Truncamiento </li></ul><ul><li>Ponderación por pesos </li></ul><ul><li>Palabras vacías (StopWords)‏ </li></ul><ul><li>Tesauros (Ontologías)‏ </li></ul>
    14. 15. Operaciones sobre Documentos <ul><li>Los documentos son los objetos primarios en un SRI. </li></ul><ul><li>Se pueden utilizar y transformar de muchas maneras para optimizar su recuperación y determinar su relevancia frente a una necesidad: </li></ul><ul><li>Estructuración </li></ul><ul><li>Identificación única </li></ul><ul><li>Enmascaramiento </li></ul><ul><li>Visualización (Total, parcial)‏ </li></ul><ul><li>Ordenamiento </li></ul><ul><li>Rangos (Clustering)‏ </li></ul>
    15. 16. Vista funcional del paradigma de un SRI. <ul><li>Se busca registrar la actividad asociada con un tipo común de SRI. </li></ul><ul><li>Involucra aspectos que debe manejar un SRI </li></ul><ul><li>Se puede dividir en dos procesos (adaptado del Modelo Universal de un SRI ): </li></ul><ul><ul><li>Manejo de Documentos </li></ul></ul><ul><ul><li>Manejo de la Necesidad de Información </li></ul></ul>
    16. 18. Manejo de Documentos <ul><li>Involucra las siguientes tareas: </li></ul><ul><li>A cada documento que entra se le asigna un Identificador </li></ul><ul><li>Se identifican las palabras contenidas en el documento </li></ul><ul><li>Se excluyen las palabras vacías </li></ul><ul><li>Se &quot;cortan&quot; las palabras, es decir, se extraen las raíces de las palabras </li></ul><ul><li>Se establece un peso de ponderación para cada raiz </li></ul><ul><li>Finalmente las raíces debidamente ponderadas se introducen en la base de datos </li></ul>
    17. 20. Manejo de la Necesidad de Información <ul><li>El usuario (según su perfil) elabora una ecuación de búsqueda </li></ul><ul><li>El SRI, descompone la ecuación en sus partes fundamentales (Términos). </li></ul><ul><li>Los términos son procesados (&quot;cortados“) para extraer de ellos sus raíces. </li></ul><ul><li>Se realiza una comparación entre términos de la pregunta y los documentos existentes en el SRI </li></ul><ul><li>Los documentos pueden alinearse (presentación) según ranking determinado. </li></ul>
    18. 21. Bibliografía <ul><li>Tramullas, Jesus. &quot;Introducción a la Documática, 1: Teoría&quot; (Zaragoza: Kronos, 1997) </li></ul>
    19. 22. ¿Preguntas? Gracias - Thanks Merci - Danke Obrigado - Arigato Grazie - Tack Laureano Felipe Gómez Dueñas Universidad de La Salle felipe.gomez3@gmail.com [email_address]

    ×