• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Sistemas Basados en el Conocimiento
 

Sistemas Basados en el Conocimiento

on

  • 4,322 views

 

Statistics

Views

Total Views
4,322
Views on SlideShare
4,309
Embed Views
13

Actions

Likes
0
Downloads
31
Comments
0

1 Embed 13

http://www.slideshare.net 13

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Sistemas Basados en el Conocimiento Sistemas Basados en el Conocimiento Presentation Transcript

    • Universidad Técnica Particular de Loja Escuela de Ciencias de la Computación Sistemas Basados en el Conocimiento Arabel Aguilar Encalada Adriana Becerra Arciniegas Marcela Gómez González Nancy Loarte Aguinsaca Juan Pablo Pizarro Julio 2008
      • La recuperación de información es una actividad que el ser humano realiza tanto consciente como inconscientemente de forma continua, y en el marco de cualquier actividad.
      • La investigación en la recuperación de información intenta diseñar sistemas que acepten consultas en lenguaje natural y proporcionen documentos adecuados a las consultas hechas por los usuarios, ordenados según algún criterio del sistema, de acuerdo a las características de los documentos y a las necesidades informativas expresadas por el usuario en su consulta.
      • Desde los últimos años u no de los principales beneficios que se esperaba de la Web semántica es la Búsqueda semántica y recuperación de información. El primer paso es colocar los datos en la Web de modo en que las máquinas puedan entenderlos naturalmente o convertirlos a esa forma, de esta manera queda constituida una red de datos que pueden ser procesados directamente o indirectamente por máquinas.
      • La relevancia es una medida que le sirve al usuario para determinar si los resultados, en qué grado, son adecuados de acuerdo a sus necesidades informativas.
      • Existen 2 tipos de relevancia: formal y semántica.
      • La relevancia formal es cuando los resultados de una búsqueda responden a la ecuación de búsqueda planteada.
      • La relevancia semántica es cuando los resultados obtenidos responden a las necesidades del usuario .
    •  
      • Pre procesamiento. Consiste en eliminar aquellos fragmentos de texto que no tienen nada que ver con el documento a tratar. Se trata de un análisis de patrones léxicos en el flujo del texto. Como resultado obtenemos documentos delimitados y sin cabeceras informativas que no sean útiles.
      • Eliminación de palabras vacías. Las palabras vacías sólo son descartadas cuando se trate de obtener descriptores simples, ya que pueden formar parte de descriptores compuestos.
      • Stemming (reducción de la raíz). Este paso consiste en ofrecer al usuario la posibilidad de encontrar las variantes morfológicas de los términos que busque. Se procede por tanto a la reducción de la raíz de las palabras restantes.
      • Vectorización. Este método es ampliamente usado en operaciones de Recuperación de Información, así como también en operaciones de categorización automática, filtrado de información.
    •  
      • Se distinguen dos grupos de medidas principalmente entre el conjunto de documentos recuperados:
        • Documentos relevantes recuperados, es decir aquellos que se han recuperados correctamente.
        • Documentos no relevantes, recuperados erróneamente que provocan ruido en la salida.
      • Precisión. Es la proporción de material recuperado realmente relevante, del total de los documentos recuperados.
      • Exhaustividad. Es la proporción de material relevante recuperado, del total de los documentos que son relevantes en la base de datos, independientemente de que éstos, se recuperen o no. Esta medida es inversamente proporcional a la precisión.
      • Relación entre la precisión y la exhaustividad
        • Existe una relación entre la precisión y la exhaustividad, en la que ambas se complementan, pues un sistema con una exhaustividad muy alta pero con baja precisión y viceversa no puede ser adecuado.
      • Querying. El usuario introduce en el buscador un conjunto de palabras clave, tras lo que el buscador devuelve una lista de resultados pertinentes para su consulta, generalmente ordenada de acuerdo a su relevancia.
      • Browsing. En esta estrategia el usuario explora visual y espacialmente el conjunto documental, sin necesidad de tener que expresar de forma previa cuáles son sus necesidades de información. Existen tres tipos de browsing:
        • Browsing de búsqueda directa.
        • Browsing de propósito general.
        • Browsing fortuito o por ‘serendipia.
      • Índices.- Son los buscadores que mantienen una organización de las páginas incluidas en su base de datos por categorías.
      • Motores de búsqueda.  Son buscadores que basan su recolección de páginas en un robot, denominado araña.
      • Multibuscadores.   Estos últimos no tienen una base de datos propia.
    •  
      • La gran cantidad de información contenida en la Web debería facilitar a los usuarios de la misma a encontrar resultados más exactos y eficaces a sus interrogantes, sin embargo en la realidad no sucede esto, sino mas bien el usuario consume mucho más tiempo tratando de encontrar los documentos que realmente contengan la información necesaria para realizar sus actividades.
      • El problema radica en que la mayoría de los métodos de recuperación de información requieren que sean los mismos usuarios los que indiquen cómo representar sus necesidades de información.
      • La necesidad de información del usuario debe ser expresada en forma de una consulta en lenguaje natural.
      • No es fácil concretar en un texto los pensamientos o ideas que han dado lugar a la necesidad de información.
      • Los documentos y términos muy populares pueden generar una carga mal repartida.
      • La falta de organización de la información produce que los resultados de las búsquedas sean inexactos.
      • La Web Semántica es una Web extendida, que posee un mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus búsquedas de forma rápida y sencilla, gracias a una información mejor definida en base a  estructuras formales y lenguajes que complementan.
      • En el modelo de recuperación de información semántica propuesto asume la existencia de Bases de Conocimiento asociadas a las fuentes de información o repositorio de documentos.  
      • Motor de búsqueda semántica: es una herramienta que recibe consultas basadas en ontologías (RDQL, RQL, SPARQL), que son ejecutadas hacía una base de conocimiento, y devuelve información que satisfacen la consulta .
      • La visión ideal del contenido de información, consiste en partes formales de conocimiento ontológico sin ambigüedad ni redundancia. 
      • De acuerdo a esta visión, un elemento de conocimiento es una respuesta  correcta o incorrecta que proviene de la petición de información por ende los resultados de la búsqueda se suponen siempre 100% precisos. 
      • Un modelo de recuperación basado en ontologías, tiene sentido cuando la base de información puede ser completamente representado  como una base de conocimiento formal, de manera que los resultados de las  búsquedas sean datos precisos.  
      • Debido a la gran cantidad de información que se encuentra disponible (texto, contenidos multimedia no estructurados), convertir dicha información   en conocimiento ontológico, es un proceso muy complicado, por lo que cada documento se lo considera por su propio valor.
      •  
      • Un buscador semántico realiza el rastreo de acuerdo al significado del grupo de palabras que escribe el usuario.
      • Swoogle  
      • Es un motor de recuperación especializado que descubre, analiza e indexa conocimiento codificado en documentos publicados en la Web Semántica. Swoogle "razona" sobre estos documentos y las partes que los componen y almacena metadatos significativos sobre ellos  
      • SicWebSearch. 
      • Los criterios de búsqueda son más específicos, por lo que se obtiene un resultado de mayor calidad
      • NaturalFinder 
      • Es la respuesta a los enfoques realizados por las empresas españolas Sitesa y Bitext, las mismas que obtuvieron este complemento, que  al ser integrado en los buscadores como Google es capaz de comprender el lenguaje natural.
      • Swootti 
      • Creado por la empresa española BuzzTrend, este buscador rastrea las opiniones sobre los productos, apoyándose la web semántica.
      •  
      • Para que el ordenamiento de Resultados sea eficiente para el usuario final, los buscadores deben presentar los resultados obtenidos ordenados de mayor a menor calidad en relación a los requerimientos de búsqueda del usuario
      • Interoperabilidad .- Facilita el intercambio de información entre distintas aplicaciones de usuarios y herramientas, basada en estándares de Web Semántica como RDF, RDFS, OWL.  
      • Generalidad.- proporciona un marco común de trabajo en la documentación de métricas e indicadores.  
      • Simplicidad .- el uso de los repositorios por parte de los administradores, usuarios, o herramientas finales deba hacerse a través de interfaces y operaciones estándares.  
      • Extensibilidad .- facilita la publicación de nueva información y actualización de la existente tanto en la estructura como en la semántica de los datos.  
      • No-ambigüedad .- para que los resultados de la aplicación de distintos proyectos de evaluación puedan ser confiablemente comparados
      • Usabilidad . Es la medida en la cual una página web puede ser usada por usuarios para conseguir información específica con efectividad, eficiencia y satisfacción en la recuperación de información.  
      •    
      • Accesibilidad. Se basa en la calidad y facilidad de acceder a la información del sitio web y la posibilidad de realizar búsquedas.  
      • Ranking específicamente diseñado para un modelo de recuperación basado en ontologías, utilizando un sistema de indexado semántico utilizando ponderaciones de las anotaciones.
      •   Este algoritmo es un complemento de los dos métodos como KIM y TAP, los cuales se centran en el poblado de ontologías y la anotación automática de textos . 
      • [HAMON] HASSAN MONTERO, Yusef, Visualización y Recuperación de Información, [consultado en línea], Disponible en: [http://www.nosolousabilidad.com/hassan visualizacion_y_recuperacion_de_informacion.pdf].
      • [FRAKES92] Frakes, W. B. and Baeza Yates, R. (ed.) Information Retrieval: data structures and Algorithms. Mexico: Prentice-Hall, 1992
      • [SALTON83] Salton, G. y M. J. McGill.. Introduction to Modern Information Retrieval. New York: McGraw Hill. 1983 [Korfhage 97] Korfhage, R., Information Storage and Retrieval, New York.: John Wiley, 1997.
      • [GAZAL02] GARCÍA FIGUEROLA, Carlos, ZAZO, Ángel Francisco, ALONSO BERROCAL, José Luis, La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia, 1992 [consultado en línea],  Disponible en: [http://ibersid.eu/ojs/index.php/scire/article/viewFile/1160/1142].
      • [PORTER] The Porter Steeming Algoritm [consultado en línea]. Disponible en: http://tartarus.org/~martin/PorterStemmer/
      • [MOREIRO] MOREIRO González José Antonio, Aplicaciones al análisis automatico del contenido provenientes de la teoría automática [consultado en línea]. Disponible en: http://www.um.es/ojs/index.php/analesdoc/article/viewFile/2101/2091
      • [GARCIA ] GARCIA Figuerola Carlos, ZAZO Ángel Francisco, ALONSO Berrocal José Luis, La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia [consultado en línea]. Disponible en:http://ibersid.eu/ojs/index.php/scire/article/viewFile/1160/1142
      • [CASAFONT] Casafont Mercè Lorente. Ontología sobre economía y recuperación de información. [Consultado en línea]. Disponible en: http://eprints.rclis.org/archive/00008747/01/Ontología_sobre_economía_y_recuperación_de_información.pdf
      • [SALARQ05] SALVADOR OLIVÁN, José Antonio y ARQUERO AVILÉS, Rosario, Una aproximación al concepto de recuperación de información en marco de la ciencia de la documentación, 2005 [Consultado en línea]. Disponible en: [http://www.ejournal.unam.mx/ibi/vol20-41/IBI002004101.pd f
      • [NAVBAZ] NAVARRO, Gonzalo y BAEZA YATES, Ricardo, Recuperación de la información: Algoritmos, Estructuras de datos y Búsquedas en la web, Universidad de Chile, [Consultado en línea]. Disponible en: [http://www.irit.fr/~Jose.Arias/Homepage_files/docs/cc52d.pdf]
      • [LUQUE] LUQUE Maria, Modelos de Recuperación de la Información basados en Informacion Lingüística Difusa y Algoritmos evolutivos [consultado en línea]. Disponible en: http://hera.ugr.es/tesisugr/15350605.pdf
      • [EXTR] Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso [en línea]. Disponible en: http://www.galeon.com/recuperacionpatrones/arquitectura.html
      • [ALGRAVI] ALONSO, Miguel, GRAÑA, Jorge y VILARES, Jesús, Recuperación de Información en Internet: Principios de Recuperación de Información, Departamento de Computación, Facultad de Informática, Universidade da Coruña, [Consultado en línea]. Disponible en: [http://coleweb.dc.fi.udc.es/docencia/rii/RII_3.pdf]
      • [GÓMEZ] Gómez Díaz Raquel. La evaluación en recuperación de la información. [Consultado en línea]. Disponible en: http://www.hipertext.net/web/pag238.htm
      • [Cornella] Cornella Alfons. LA IMPORTANCIA DE LA "RELEVANCIA" EN INFORMACIÓN. [Consultado en línea]. Disponible en: http://intranet.logiconline.org.ve/Techinfo/relevancia.html 
      • [CAST]  CASTELLS, Pablo, La web semántica [consultado en línea], disponible en: [http://arantxa.ii.uam.es/~castells/publications/castells-uclm03.pdf]
      • [Martin] Martín  María de los Ángeles, Indicadores con Potencia de Web Semántica, Grupo de Investigación y desarrollo en Ingeniería de Software (GIDIS),Calle 9 y 110, (6360) General Pico, La Pampa, Argentina, disponible en:  [ http://postgrado.info.unlp.edu.ar/Carrera/Magister/Ingenieria%20de%20Software/Tesis/MartinMA.pdf ]  
      • [Beitmantt] Cárdenas Quintero Beitmantt Giovanni, “La Web semántica – técnicas para la recuperación de información”, ISSN 1909-9525 Volumen 1 - Año 2007, Revista Digital TIC@ Tecnología, Investigación y Ciencia Aplicada.  
      •  
      • [ISO9126] ISO/IEC 9126-1:2001 International Standard, Software Engineering – Product. 
      • [RIWS] Recuperación de informaciónen la Web Semántica, Escuela Politécnica Superior, Universidad Autónoma de Madrid. http://www.ati.es/novatica/2005/178/178-6.pdf . 
      •  
      • [Lassila,Swick] Lassila O. and Swick R:R (editores). “Resource description framework (RDF):Model and syntax specification”, 1999.W3C. Disponible en : [ http://www.w3.org/TR/REC-rdf-syntax ]
      • [Javier] Javier, The bits and text company, buscadores semánticos, más información disponible en: [ http://www.ojomicroformatos.com/noticias/buscadores-semanticos ]
      • [Miriam] Miriam Fernández Sánchez, Recuperación de Información en la web semántica disponible en:  [ http://www.ati.es/novatica/2005/178/178-6.pdf ]  
      • [Fenmir] Fernandez Miriam, Universidad Autónoma de Madrid,  Escuela Politécnica Superior Ciudad Universitaria de Cantoblanco, c/ Tomás y Valiente 11, 28049 Madrid, disponible en: [ http://www.ii.uam.es/esp/posgrado/proyectos/miriam.pdf ]
      •  
      • [BITEXT]  Información relacionada con el buscador semántico NaturalFinder, disponible en: [ http://demos.bitext.com/LIVE]
      • GRACIAS