• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Web Semántica (2007)
 

Web Semántica (2007)

on

  • 7,732 views

Presentación para el curso de doctorado "Web Semántica" (2006/2007)

Presentación para el curso de doctorado "Web Semántica" (2006/2007)

Statistics

Views

Total Views
7,732
Views on SlideShare
7,665
Embed Views
67

Actions

Likes
11
Downloads
0
Comments
2

6 Embeds 67

http://www.slideshare.net 38
http://www.di.uniovi.es 14
http://perezparedes.wordpress.com 11
http://www.evcsc.es 2
http://di002.edv.uniovi.es 1
http://bibliotecaeconomicas.wikispaces.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

12 of 2 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • Es mas sobre mineria de datos que sobre web semantica. Es una buena motivacion para entrar al tema de la web semantica (RDF, RDFs, ontologias) desde una mirada a data mining sobre motores de busqueda.
    Are you sure you want to
    Your message goes here
    Processing…
  • Simplemente increíble, muy completa :D
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Web Semántica (2007) Web Semántica (2007) Presentation Transcript

    • Programa de doctorado “Avances en informática” (2006/07) Departamento de Informática Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007
      • Evaluación del curso
        • La evaluación del curso consistirá en la realización de un trabajo sobre algún tema relacionado con la Web Semántica y consistente en la escritura y presentación de una comunicación a un congreso simulado
        • La comunicación (5 páginas) se presentará durante las clases del curso de doctorado y tiene que ser admitida por los profesores del curso
        • La presentación será de 15 minutos con otros 15 minutos para preguntas
        • Los alumnos que no puedan asistir a las clases y al congreso simulado presentarán un trabajo con formato de artículo de revista (15 páginas) a entregar el 11 de Abril de 2007
      • Más información en http://www.di.uniovi.es/~labra/cursos/Doc07UniOvi/
      Antes de empezar… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • La Web-de-datos La Web como fuente de información Presente y futuro de la Web ¿Qué vamos a ver los próximos tres días? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? No hay cuchara… En suma… La Web-de-datos Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Suiza, 1989 Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Berners-Lee, T. 1989 , Information Management: A Proposal , Informe técnico, CERN.
          • Keywords can be nodes which stand for a concept. A keyword node is then no different from any other node. One can link documents, etc., to keywords. One can then find keywords by finding any node to which they are related. In this way, documents on similar topics are indirectly linked , through their key concepts. A keyword search then becomes a search starting from a small number of named nodes, and finding nodes which are close to all of them.
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¡Genial! ¿Dónde hay que firmar? Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Massachusetts (EE.UU.), 12 años después… Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
          • The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users.
          • ...
          • The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning , better enabling computers and people to work in cooperation.
          • ...
          • For the semantic web to function, computers must have access to structured collections of information and sets of inference rules that they can use to conduct automated reasoning .
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
          • ...
          • The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings."
          • ...
          • [...] the third basic component of the Semantic Web, collections of information called ontologies .
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for the Web has a taxonomy and a set of inference rules.
      • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
          • ...
          • The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings."
          • ...
          • [...] the third basic component of the Semantic Web, collections of information called ontologies .
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¡Genial! ¿Dónde hay que firmar? Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Reino Unido, 5 años después… Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol. 21, no. 3, pp. 96-101.
          • The Semantic Web is a Web of actionable information —information derived from data through a semantic theory for interpreting the symbols. The semantic theory provides an account of “meaning” in which the logical connection of terms establishes interoperability between systems. [...] This simple idea, however, remains largely unrealized .
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol.21, no.3, pp. 96-101.
          • The Scientific American article assumed that this would be straightforward, but it’s still difficult to achieve in today’s Web.
          • ...
          • Because we haven’t yet delivered large-scale, agent-based mediation, some commentators argue that the Semantic Web has failed to deliver. We argue that agents can only flourish when standards are well established [...]
          • ...
          • The ontologies that will furnish the semantics for the Semantic Web must be developed, managed, and endorsed by practice communities.
      Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Aquí y ahora… Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Resulta que no era pa’ hoy… Cuando éramos suficientemente jóvenes… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”, Journal of the American Society for Information Science , vol.50, no.12, pp. 1119-1120.
          • Ontologies are developed in many communities of research and practice. Unfortunately, there is little communication and mutual learning; thus, efforts are fragmented, resulting in considerable reinvention and less than optimal products.
      • Bates, M.J. 2002, “After the Dot-Bomb: Getting Web Information Retrieval Right This Time”, First Monday , vol. 7, no. 7
          • Succumbing to the “ontology” fallacy...
      Advocatus diaboli Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Abelson, H. 2005
          • [...] A lot of the enthusiasm around the SemWeb reminds me of the AI hullabaloo of the 1980s. [...] Over the past 20 years, AI researchers have come to appreciate the limitations of traditional knowledge representation techniques. It seems that statistical methods and machine learning have proven more productive than reasoning based on ontologies. [...]
      • Hendler, J. 2006, “The Dark Side of the Semantic Web”
          • [...] the Semantic Web vision of Tim’s, before Ora and I polluted it with all this ontology stuff [...]
      Advocatus diaboli Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Según el W3C:
          • The Semantic Web is a web of data.
          • The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources , where on the original Web mainly concentrated on the interchange of documents. It is also about language for recording how the data relates to real world objects. That allows a person, or a machine, to start off in one database, and then move through an unending set of databases which are connected not by wires but by being about the same thing.
      Web Semántica es esto… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¿Es esto Web Semántica? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Yahoo! pipes
          • Pipes is an interactive feed aggregator and manipulator. Using Pipes, you can create feeds that are more powerful, useful and relevant.
      • Tim O'Reilly
          • Yahoo!'s new Pipes service is a milestone in the history of the internet . It's a service that generalizes the idea of the mashup, [...] [it] allows you to connect internet data sources, process them, and redirect the output.
      ¿Es esto Web Semántica? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • ¿Hay combinación de datos?
      • ¿Hay formatos comunes?
        • Sí ( RSS y JSON )
      • ¿Puede una persona/máquina moverse de una “base de datos” a otra sin solución de continuidad?
        • Más o menos…
      • ¿Usa alguna de las tecnologías propuestas por el W3C?
        • Bueeeno… RSS 1.0 se construye a partir de RDF que es una tecnología W3C.
      • ¿Es Web Semántica?
        • No en el sentido ortodoxo, pero sí un paso para la Web-como-base-de-datos
      ¿Es esto Web Semántica? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Olvidemos el nombre, Web Semántica…
      • Olvidemos la ortodoxia (ontologías, RDF, etc.)
      • ¿Qué perseguimos?
        • La Web-como-base-de-datos
      • ¿Alguien más, aparte de la gente-de-la-Web-Semántica , busca más o menos lo mismo?
        • Claro 
      • ¿Por ejemplo? Los siguientes campos en solitario o combinados:
        • Extracción de información, de entidades, de términos…
        • Respuesta de preguntas.
        • Recuperación de información.
        • Resumen automático.
        • Traducción automática.
      No hay cuchara… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Extracción de información (Information Extraction)
        • El objetivo fundamental de la extracción de información es obtener información estructurada (fundamentalmente entidades y relaciones entre las mismas) a partir de texto poco o nada estructurado.
      • Extracción de entidades (Entity Extraction, Named-Entity Recognition)
        • Una subtarea dentro del campo de extracción de información cuyo objetivo es localizar en un texto libre aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares, etc.
      • Extracción de términos (Term Extraction)
        • Otra subtarea del campo de extracción de información. Su objetivo es localizar términos (palabras o frases) relevantes para el tema de una colección de documentos.
      No hay cuchara… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Respuesta a preguntas (Question Answering, QA)
        • Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez.
        • http://start.csail.mit.edu/
      • Recuperación de información (Information Retrieval, IR)
        • El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta.
      • Resumen automático (Automatic Summarization)
        • Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales.
      No hay cuchara… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Traducción automática (Machine Translation)
        • El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe).
      • Muchas de estas tareas son módulos en Yahoo! pipes…
      No hay cuchara… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Recuperación de información Recuperación de información Extracción de términos Extracción de entidades (aprox.) Traducción automática
      • Traducción automática (Machine Translation)
        • El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe).
      • Muchas de estas tareas son módulos en Yahoo! pipes…
      No hay cuchara… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa Web-de-datos además de otras varias para extraer conocimiento de la Web. En suma… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • clustering folksonomía click-through data modelo booleano modelo vectorial etiquetado recuperación de información PageRank evaluación stemming relevance feedback relevancia pseudo-relevance feedback búsquedas en la Web HITS NGD tf*idf En suma… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar información en la Web (antes de Google ) Recuperación de información en dos palabras (o más…) Hitos en recuperación de información (hasta Google ) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? La Web es un grafo PageRank Búsquedas en la Web con PageRank ¿Son adecuados los buscadores modernos? (Más) Problemas del ranking basado en hiperenlaces No hay talla única… La Web como fuente de información Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Algunas cifras (la mayoría obsoletas):
        • Desde 1981 se han generado más de 845 x 10 6 de mensajes en USENET
        • Reuters produce 11 x 10 3 artículos diarios
        • Springer publicó en 2003 90 x 10 6 palabras en textos científicos
        • El tamaño real de la Web es desconocido:
          • La Web superficial tiene más de 4 x 10 9 documentos
          • La Web oculta puede ser entre 2x y 500x
        • Existen más de 70 x 10 6 blogs
        • flickr contiene más de 17 x 10 6 fotografías y sus usuarios añaden cada día 1,2 x 10 6 etiquetas
      Pero, ¿cuál es el problema real? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Alvin Tofler (1970) definió la “sobrecarga de información” como la condición que se deriva de la incapacidad de la mente humana para enfrentarse a demasiados elementos de información simultáneamente. Pero, ¿cuál es el problema real? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Se puede decir más alto pero no más claro…
          • Me gusta Internet. De verdad, me encanta. Siempre que necesito algo de shareware o ver qué tiempo hace en Bogotá soy el primero en hacer zumbar el módem. Pero como fuente de información, es una mierda. Encuentras millones de datos peleándose por hacerse oír, ver y descargar y parece que todo lo que quieres saber está aplastado por la multitud.
      • Michael Marshall, The Straw Men (traducción libre)
      Pero, ¿cuál es el problema real? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Propuesta original para la Web (Berners-Lee, 1989)
        • Evitar pérdida de información
        • Facilitar acceso a toda la información
      • Características que facilitaron crecimiento de la Web
        • Naturaleza distribuida (documentos pueden residir en distintas máquinas)
        • Hiperenlaces
        • Sistema tanto más útil cuantos más documentos contenga
      • Reflexiones…
        • Búsqueda por palabras clave es un problema
        • En la propuesta original los conceptos son nodos idénticos a los documentos
      • Desarrollo inicial de la Web
        • No hay nodos conceptuales, sólo documentos
        • No se implementa método alguno para buscar información
      De aquellos polvos… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Evolución en el número de servidores web… … vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está aplastado por la multitud. Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Directorios
      • Bases de datos de enlaces organizados en categorías. Los enlaces suelen ser enviados por los responsables del sitio web y pueden existir editores que organicen la información disponible.
      • Por ejemplo, CERN (extinto) NCSA (extinto), Yahoo! , ODP/Dmoz
      • Problemas
        • Muchos sitios web no notifican a los índices de su existencia
        • No consiguen indexar la Web al ritmo que crece
        • Recuperación de información “tradicional”
        • Superabundancia de resultados y escasa relevancia
      Encontrar información en la Web (antes de Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Buscadores
      • Artefactos software que exploran la Web almacenando en una base de datos parte o todo el texto de los documentos que analizan. Al ir procesando documentos se crea un índice que emplea las palabras que aparecen en cada página web. Cuando un buscador recibe una consulta toma las palabras utilizadas por el usuario y obtiene los documentos indexados por las mismas.
      • Por ejemplo, ALIWEB , WebCrawler , Lycos (extintos, permanecen las marcas)
      • Problemas
        • Cobertura: la base de datos de cada buscador apenas representaba 1/3 de la Web
        • Recuperación de información “tradicional”
        • Superabundancia de resultados y escasa relevancia
      Encontrar información en la Web (antes de Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Google cambió el panorama gracias al algoritmo PageRank Para saber qué cambió, antes hay que entender cómo funciona un sistema de recuperación de información “tradicional” Encontrar información en la Web (antes de Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • El término “recuperación de información” ( information retrieval o IR ) hace referencia al conjunto de procesos necesarios para representar, almacenar, buscar y encontrar información relevante para las consultas de los usuarios. Un sistema de recuperación de información no informa al usuario, simplemente le indica la existencia (o inexistencia) de documentos relativos a la consulta . Aunque, en principio, IR podría referirse a diversas manifestaciones de la información como imágenes, audio, texto, etc. se acepta generalmente que la “recuperación de información” se ocupa únicamente de información textual . “ La recuperación de información es un proceso de ensayo y error … Una consulta no es más que una suposición acerca de los atributos que se espera tenga el documento deseado. En general, se emplea la respuesta del sistema para corregir esa suposición inicial en posteriores intentos .” (Swanson 1977) Recuperación de información en dos palabras (o más…) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1950s
        • Primera descripción de un sistema IR automático. Utilización de la frecuencia de aparición de un término para determinar su relevancia, uso de stoplists . Luhn, H.P. 1957, “A Statistical Approach to Mechanized Encoding and Searching Information”, IBM Journal of Research and Development , vol. 1, no. 4, pp. 309-317.
        • Primera propuesta para un sistema de resumen automático. Luhn, H.P. 1958, “The Automatic Creation of Literature Abstracts”, IBM Journal of Research and Development , vol. 2, no. 2, pp. 159-165.
      • 1960s
        • Primera alternativa “aritmética” a la búsqueda booleana . Maron, M.E. y Kuhns, K.L. 1960, “On relevance, probabilistic indexing and information retrieval”, Journal of the ACM , vol. 7, no. 3, pp. 216-244.
        • Primer esfuerzo para la evaluación experimental de sistemas IR . Cleverdon, C.W. 1962, Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems , College of Aeronautics, Reino Unido.
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1960s
        • Se propone el modelo vectorial de documentos y medida coseno de similitud . Salton, G. y Lesk, M.E. 1965, “The SMART Automatic Document Retrieval System – An Illustration”, Communications of the ACM , vol. 8, no. 6, pp. 391-398.
      • 1970s
        • Se propone la cluster hypothesis , documentos estrechamente asociados tienden a ser relevantes para las mismas peticiones. Jardine, N. y van Rijsbergen, C.J. 1971, “The use of hierarchic clustering in information retrieval”, Information Storage and Retrieval , vol. 7, pp. 217-240.
        • Introducción del concepto idf (inverse document frequency) . Spärck-Jones, K. 1972, “A statistical interpretation of term specificity and its application in retrieval”, Journal of Documentation , vol. 28, no. 1, pp. 11-21.
        • Se propone el modelo probabilista de IR . Robertson, S.E. y Spärck-Jones, K. 1976, “Relevance weighting of search terms”, Journal of the ASIS , vol. 27, no. 3, pp. 129-146.
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1970s
        • Por primera vez se señala la naturaleza interactiva de los sistemas IR . Swanson, D.R. 1977, “Information retrieval as a trial-and-error process”, Library Quarterly , vol. 47, no. 2.
        • Primera colección moderadamente grande, NPL (11.500 documentos). Spärck-Jones, K. y Webster, C.A. 1979, Research in Relevance Weighting , Informe técnico, University of Cambridge.
      • 1980s
        • Se inventa el primer algoritmo de stemming . Porter, M.F. 1980, “An algorithm for suffix stripping”, Program , vol. 14, no. 3, pp. 130-137.
        • Se inventan los mapas auto-organizados. Kohonen, T. 1982, “Self-organized formation of topologically correct feature maps”, Biological Cybernetics , 43, pp. 59-69.
        • Probabilidad de coincidencia entre dos individuos en el uso de la misma palabra para identificar un concepto está entre el 10 y el 20%. Furnas, G.W., Landauer, T.K., Gómez, L.M. y Dumais, S.T. 1987, “The vocabulary problem in human system communication”, Communications of the ACM , vol. 30, no. 11, pp. 964-971.
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1980s
        • Se inventa la Semántica Latente. Dumais, S.T., Furnas, G.W., Landauer, T.K., Deerwester, S. y Harshman, R. 1988, “Using Latent Semantic Analysis to improve access to textual information”, en Human Factors in Computing Systems , CHI’88 Conference Proceedings, pp. 281-285.
        • Se inventa la Web. Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN.
      • 1990s
        • Se inventan las Support Vector Machines . Boser, B., Guyon, I. y Vapnik, V. 1992, “A training algorithm for optimal margin classifiers”, en Fifth Annual Workshop on Computational Learning Theory , pp. 144-152.
        • Se propone un método para detección de terminología. Dunning, T. 1993, “Accurate methods for the statistics of surprise and coincidence”, en Computational Linguistics , vol. 19, no. 1, pp. 61-74.
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1990s
        • Se desarrollan los primeros buscadores web… Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB”, Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation”
        • … Y los primeros índices Filo, D. y Yang, J. 1994, Yahoo!
        • Desarrollo de sistemas IR “tolerantes”por medio de n-gramas. Cavnar, W.B. 1994, “Using an n-gram-based document representation with a vector processing retrieval model”, en Proceedings of TREC-3 , pp. 269-277.
        • Primeros sistemas con pseudo-relevance feedback . Robertson, S.E., Walker, S., Jones, S., Hancock-Beaulieu, M. y Gatford, M. 1994, “Okapi at TREC-2”, en Text REtrieval Conference , pp. 21-34. Buckley, C., Salton, G., Allan, J. y Singhal, A. 1995, “Automatic Query Expansion Using SMART: TREC-3”, en Text REtrieval Conference , pp. 69-80.
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • 1990s
        • Se desarrolla la t écnica TextTiling para detección de pasajes. Hearst, M.A. 1994, “Multi-Paragraph Segmentation of Expository Text”, en Proceedings of the 32nd Meeting of the Association for Computational Linguistics , pp. 9-16.
        • Primeros pasos hacia la Web Semántica. Luke, S., Spector, L. y Rager, D. 1996, “Ontology-Based Knowledge Discovery on the World-Wide Web”, en Working Notes of the Workshop on Internet-Based Information Systems at the 13th National Conference on Artificial Intelligence (AAAI96) .
      • 1998 ANNO MACHIN Æ INVENT Æ
      Hitos en recuperación de información (hasta Google ) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Por hoy estuvo bien…
        • ¿Preguntas?
      • Para mañana…
        • Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN.
        • Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB” , Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182.
        • Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” , [Online], Internet Archive, en Electronic Proceedings of the “Second World Wide Web Conference '94: Mosaic and the Web” , NCSA, Disponible en: <http://web.archive.org/web/20010904075500/http://archive. ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html>
        • Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” , [Online], en Proceedings of the ACM Special Interest Group on Networked Information Discovery and Retrieval , Disponible en: <http://web.archive.org/web/19970607125802/ http://fuzine.mt.cs.cmu.edu/mlm/signidr94.html>
      • ¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas?
      STOP! Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • En primer lugar, ¿cómo funcionaban primeros buscadores?
        • ALIWEB: Los administradores de los sitios web debían registrarse en el buscador proporcionando la URL a una ficha descriptiva del sitio (unas pocas palabras clave) que era incluida en una base de datos. No hay información sobre la relevancia de los resultados pero se presume escasa (¿búsqueda booleana?)
        • WWW Worm: Para cada documento se almacenaba el título, URL y texto de los enlaces recibidos . Exploraba la Web en busca de nuevos recursos. Usaba egrep para las búsquedas (coincidencia con una expresión regular).
        • Web Crawler: También exploraba la Web para localizar nuevos documentos (pero el índice solo podía almacenar 50.000). Empleaba un modelo vectorial y eliminaba palabras vacías. Por primera vez se ofrecen datos sobre exhaustividad (adecuada) y precisión (escasa).
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • En primer lugar, ¿cómo funcionaban primeros buscadores?
        • Lycos : También explora la Web en busca de nuevos documentos (no parece tener un límite arbitrario). No indexa el texto completo del documento (título, cabeceras, 100 palabras más relevantes tf*idf y primeras 20 líneas). Como WWW Worm , también utiliza el texto de los enlaces entrantes. No emplea exactamente un modelo vectorial pues el cálculo de la relevancia se hace en base a: número de términos de la consulta que aparecen en el documento, frecuencia de los mismos o proximidad.
        • Naturalmente, hubo más buscadores ( Altavista , inktomi , etc.) pero no hay muchos detalles sobre su funcionamiento.
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • En resumen, el mejor buscador Web antes de 1998 sería así…
        • Empleaba robots para explorar la Web en busca de documentos
        • Almacenaba el texto completo de las páginas web además del texto de los enlaces entrantes
        • No tenía en cuenta las palabras vacías en documentos ni en consultas
        • Los términos podían ponderarse mediante tf*idf
        • Retornaba resultados ordenados por relevancia decreciente
        • La relevancia se calculaba ad hoc teniendo en cuenta no sólo el peso de los términos según el modelo vectorial sino relativos a la proximidad entre los términos o aspectos de “formateo” (título, cabeceras, etc.)
      • Y no funcionaba “bien”…
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Un momento, no tan rápido…
        • ¿Búsqueda booleana?
        • ¿Modelo vectorial?
        • ¿ tf*idf ?
        • ¿Palabras vacías?
        • ¿ Stemming ?
        • ¿Precisión y exhaustividad?
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Búsqueda booleana
        • Modelo bag-of-words , los términos están presentes o no
        • Las consultas son expresiones lógicas que combinan términos y operadores lógicos
        • Problemas
          • Las consultas retornan o demasiados documentos o muy pocos
          • No hay ninguna forma de ordenar los resultados por relevancia.
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Búsqueda booleana con medidas de asociación
        • Tanto documentos y consultas se representan mediante bags-of-words
        • Se dispone de coeficientes que determinan cuán relevante es un documento para una consulta
          • Coeficiente de Dice
          • Coeficiente de Jaccard
          • Coseno
          • Coeficiente de solapamiento
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Modelo vectorial
        • Los documentos son puntos en un entorno T -dimensional, donde T es el número de términos diferentes en la colección
        • Los términos son generalmente palabras o raíces ( stems ) o lemas de palabras
        • Cada coordenada de un vector documental tendrá un peso que será nulo si el término no aparece en el documento y no nulo en caso contrario
        • Pueden usarse distintos métodos de ponderación, habitualmente tf*idf
        • Es posible definir distancias (y similitudes) entre los documentos de manera algebraica
        • La función del coseno es la medida más común
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • tf
        • Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante
      • idf (inverse document frequency)
        • Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean
      • tf*idf
        • Método para ponderar los términos de un documento que combina los dos anteriores
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Función del coseno (cosine similarity)
        • Medida de similitud empleada en el modelo vectorial
        • En la siguiente ecuación n es el número de términos (dimensiones del espacio vectorial) y q i y d i son, respectivamente, el i- ésimo término de los documentos q y d .
        • La función del coseno admite una interpretación geométrica sencilla puesto que mide el ángulo formado por los vectores de los documentos a comparar.
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Palabras vacías (stop words)
        • Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto
        • Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136.
        • Además, ¿qué es una palabra vacía? Por ejemplo, ser
          • Verbo (palabra vacía)
          • Cadena SER (no es palabra vacía)
          • SER Society for Ecological Restoration (no es castellano)
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Stemming (reducción a la raíz)
        • Algoritmos que colapsan múltiples formas de una palabra en un único término.
        • Por ejemplo, investigación , investigaciones , investigador , investigadora e investigadores colapsan en investig . En cambio universidad colapsa a univers mientras que universitario lo hace a universitari .
        • Aplicando stemming se reduce el número de términos y, al mismo tiempo, se consigue que una misma consulta abarque más palabras (algo que puede ser un problema, p.ej. universo )
        • http://snowball.tartarus.org/
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Colección Documentos relevantes Documentos resultantes
      • Precisión (precision) y exhaustividad (recall)
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B)
      • Precisión (precision) y exhaustividad (recall)
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C)
      • Precisión (precision) y exhaustividad (recall)
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Precisión (precision) y exhaustividad (recall)
        • En resumen,
          • Precisión es el porcentaje de los documentos resultantes que son verdaderamente relevantes
          • Exhaustividad es el porcentaje de los documentos relevantes que son retornados al usuario
        • Un sistema IR perfecto tendría precisión y exhaustividad 1.00 siempre; sin embargo, eso es imposible .
        • Y ahí es donde volvemos a los buscadores Web pre- Google…
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • En 1998 la cota inferior para la Web era de 320 x 10 6 documentos . Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web”, Science , vol. 280, no. 3, pp. 98-100.
      • La mayor colección de evaluación de la época tenía “sólo” 7.5 x 10 6 documentos.
      • Características de las consultas
        • Son muy cortas (casi el 90% constan de 3 términos o menos) Más del 60% son únicas
      • Dado el número de documentos y la longitud de las consultas la mayor parte de los resultados eran irrelevantes ≡
      ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translations ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Hasta aquí hemos llegado…
        • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
          • as of November 1997, only one of the top four commercial search engines finds itself.
          • […] we have seen a major search engine return a page containing only &quot;Bill Clinton Sucks&quot; and picture from a &quot;Bill Clinton&quot; query. […] If a user issues a query like &quot;Bill Clinton&quot; they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web.
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Demos un paseo…
        • Plagiar , v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído. Plagio , s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable.
        • … Siempre hay que acreditar las fuentes que hemos usado
          • Bierce, A. 1906, The Devil’s Dictionary
        • En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis.
        • Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad .
        • Citando dotamos de autoridad a un tercero…
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Sigamos con el paseo…
        • Textos científicos y citas constituyen los nodos y aristas de un grafo
        • Hace ya ¡80 años! que se estudian estos patrones
        • Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos
        • Los documentos, autores y revistas más citados tendrán mayor autoridad : el (infame) “índice de impacto” . Garfield, E. 1972, “Citation Analysis as a Tool in Journal Evaluation”, Science, vol. 178, pp. 471-479.
        • Off-topic: Harzing's Publish or Perish
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Donde dije “cita” digo “hiperenlace”…
        • Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
          • A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext .
          • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
          • The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
          • Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
          • This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […]
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Donde dije “cita” digo “hiperenlace”…
        • Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
          • A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext .
          • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
          • The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
          • Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
          • This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […]
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Donde dije “cita” digo “hiperenlace”…
          • Jon Kleinberg define los conceptos de autoridad y hub
          • Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677.
        • Una autoridad es un documento fuertemente enlazado
        • Un hub es un documento que enlaza a muchas autoridades
        • Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes , frente al 40% de Yahoo! (un directorio) o Altavista
          • Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7 th World-Wide Web conference , pp. 65-74.
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Google comienza a operar en 1998
        • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
      • El núcleo de su sistema de ponderación es el algoritmo PageRank , similar al método de Kleinberg
        • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
      • El algoritmo asocia a cada documento un valor (tb. PageRank ) de este modo:
        • Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientes
        • Un documento muy enlazado tendrá un PageRank elevado
        • Un documento enlazado desde documentos prestigiosos tendrá un PageRank elevado
      La Web es un grafo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C F E D PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 1 B C F E D 0,33 0,33 0,33 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B 1 C F E D 0,33 0,33 0,33 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C 1 F E D 1 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C F E D 1 0,33 0,33 0,33 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C F E 1 D 0,50 0,50 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C F 1 E D 0,33 0,33 0,33 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A B C F E D PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Algunas características interesantes de PageRank
        • Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces)
        • Es relativamente insensible a los valores de “partida” , afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido
        • El PageRank total en la Web es constante
        • Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar ( random surfer model )
      PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Suposiciones sobre la Web…
        • Es un grafo fuertemente conectado (desde cualquier nodo v se puede llegar a cualquier nodo w )
        • Todos los nodos tienen enlaces salientes
      • … que son falsas…
        • La Web no es un grafo fuertemente conectado , es una pajarita...
          • Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference
        • Sólo el 90% de la Web está fuertemente conectada
      • … así que habrá que usar algún “truco”
      PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • A vueltas de nuevo con el random surfer…
        • El modelo descrito hasta ahora se correspondería con esta ecuación
        • que modela a un usuario que va de página en página siguiendo enlaces aleatoriamente, ad infinitum …
        • Problema: Aquellas páginas que no forman parte del núcleo fuertemente conectado de la Web siempre tendrán PR nulo…
      PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • A vueltas de nuevo con el random surfer…
        • Lo que hay que conseguir es que, de vez en cuando, el navegante “salte” a una página aleatoriamente. Es decir, en cada página el usuario toma una “decisión”
          • Saltar a una página aleatoria con probabilidad d
          • Continuar con un enlace al azar de la página actual con probabilidad 1-d
        • Este modelo puede representarse según esta ecuación (un valor habitual para d es 0,15)
      PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • ¿Y los nodos sin enlaces salientes?
        • Se eliminan para después calcular el PageRank del resto del grafo
        • Una vez calculado éste se determina el de los nodos sin enlaces salientes en base al PageRank de sus enlaces entrantes
      PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Recordemos lo que dijo Marchiori
          • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
      • PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces
      • ¿Cómo se realizan las búsquedas entonces? (Versión simplificada)
        • Se extraen los términos (palabras) de la consulta
        • Se localizan documentos que contengan todos los términos
        • Se ordenan los documentos obtenidos por PageRank decreciente
      • Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web
      Búsquedas en la Web con PageRank Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Por hoy estuvo bien…
        • ¿Preguntas?
      • Para mañana…
        • Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web” , Science , vol. 280, no. 3, pp. 98-100.
        • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine” , Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
        • Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment” , en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677.
        • Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed” , The 4th International Conference on Internet Computing , pp. 65-69.
      • ¿Para qué tipo de consultas son adecuados los buscadores actuales?
      STOP! Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69.
        • 24 horas
        • 150.000 sesiones de usuario
        • 450.000 consultas
        • 13% de las consultas eran únicas
        • 53% de las sesiones constituidas por una única consulta
        • 54% de las sesiones sólo examinaron primera página de resultados
        • 54% de las consultas sólo examinaron un único resultado
        • 66% de las sesiones examinaron de 1 a 5 resultados
        • Para 530 consultas evaluadas “manualmente” en el 48,5% de los casos el resultado visitado no era relevante
      ¿Son adecuados los buscadores modernos? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69.
      • Conclusiones Jansen y Spink
        • Mayoría de usuarios tienen necesidades de información simples
        • Los buscadores resuelven bien este tipo de consultas
        • Usuario promedio necesita ver 2 documentos para encontrar 1 relevante
      • ¿Mis conclusiones?
        • Echémosle un ojo a este artículo que trabaja sobre los mismos logs …
        • Jansen, B.J. y Spink, A. 2006, “How are we searching the World Wide Web? A comparison of nine search engine transaction logs”, Information Processing and Management
      ¿Son adecuados los buscadores modernos? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Distribución temática de las consultas (2.503 consultas)
        • People, places or things 22,50%
        • Computers or Internet 21,80%
        • Commerce, travel, employment, or economy 12,30%
        • Entertainment or recreation 9,10%
        • Sex and pornography 10,80%
        • Health or sciences 7,80%
        • Society, culture, ethnicity, or religion 4,80%
        • Performing or fine arts 4,70%
        • Education or humanities 2,90%
        • Government or legal 2,70%
        • Non–English or unknown 0,60%
      • 42,4% de todas las consultas son sobre famosos, ocio y sexo (“fáciles”)
      • 55%-84% de las consultas más frecuentes son análogas (dependiendo de la lista el porcentaje de sexo varía entre el 3%, el 48% o el 60%)
      • Las consultas frecuentes suponen entre el 2% y el 18% del total de consultas
      • Este tipo de consultas constituyen el 45% del total…
      ¿Son adecuados los buscadores modernos? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Más datos (elaboración propia)
        • Relevancia promedio de los resultados está, efectivamente, alrededor del 50%
        • Sin embargo, ¿cuál es la dispersión?
        • 20% consultas de la muestra tiene una precisión media del 21%
        • 23% consultas no obtienen ningún resultado relevante en la primera página
        • Estimación: 15%-20% todas las consultas no obtienen resultados relevantes
      • Mis conclusiones
        • Casi la mitad de las consultas son relativas a famosos, ocio y sexo (es decir, “fáciles” de sastisfacer)
        • En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados
        • Pero… Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados
      ¿Son adecuados los buscadores modernos? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Tres escenarios problemáticos
        • Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval , pp. 104-111.
        • Enlaces “nepotistas”
          • Cada enlace es un “voto” aunque provengan todos del mismo servidor
          • No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search , pp. 23-28.
        • Enlaces automáticos
          • Todos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto ( Wordpress scandal )
        • Documentos irrelevantes enlazados desde autoridades
          • Inevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
          • […] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
          • […] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Granjas de enlaces
        • Recordemos que el PageRank total es constante, sólo se reparte entre los nodos
        • ¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces ?
        • Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente
        • Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor
        • Web Spam Challenge http://webspam.lip6.fr/
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Google bombing
        • Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube )
        • Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones , miserable failure o horrid operating system
        • A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica
        • Pero…
          • Algunas siguen funcionando: horrid operating system
          • Búsquedas que deberían funcionar no lo hacen: spanish airlines
          • Todos los buscadores son vulnerables a esta técnica
        • Off-topic : ¿qué retornan las consultas click here o pinche aquí ?
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Daños “colaterales” (usuarios y autores)
      • La ausencia de “prestigio” no implica carencia de relevancia
      • Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario.
      • El autor del documento puede no desear tales visitas.
      • Algunas consultas reales que me han traído “público”…
        • algoritmos genéticos(documentos en inglés)
        • que es disertacion doctoral
        • articulos o comentarios de prensa sobre algoritmos geneticos
      • ¿Qué tienen en común? Son consultas informativas , el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10.
      (Más) Problemas del ranking basado en hiperenlaces Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Los buscadores actuales son muy buenos…
        • … localizando sitios web conocidos/”oficiales”
        • … facilitando el acceso a servicios on-line (mapas, tiempo, e-mail , subastas, etc.)
        • … resolviendo consultas simples (famosos, ocio y sexo)
      • En suma… Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo
      • Pero como fuente de información la Web sigue siendo…
      No hay talla única… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¿Web 2.0? Filtrado colaborativo Personalización Minería Web (Web Mining) Análisis de tendencias Normalized Google Distance La Web como corpus Para saber más… Evolución Presente y futuro de la Web Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • O’Reilly, T. 2006, Web 2.0 Compact Definition: Trying Again
          • Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform , and an attempt to understand the rules for success on that new platform. Chief among those rules is this: Build applications that harness network effects to get better the more people use them.
      ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • ¿Son lo mismo Web 2.0 y Web Semántica?
        • Según Tim Berners-Lee se parecen lo mismo que un huevo a una castaña ( “chalk and cheese” )… Sin embargo, son buenas por separado y mucho mejor juntas
        • Según el W3C ambas se centran en el intercambio y combinación de datos heterogéneos pero la Web Semántica proporciona un modelo más consistente
      ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
        • También hay algunos puntos interesantes…
          • People subscribe to each others' sites, and easily link to individual comments on a page, but also, via […] trackbacks , they can see when anyone else links to their pages, and can respond […] Interestingly, two-way links were the goal of early hypertext systems like Xanadu. Hypertext purists have celebrated trackbacks as a step towards two way links.
          • (The Long Tail) Small sites make up the bulk of the internet's content; […] Therefore: Leverage customer-self service and algorithmic data management to reach out to the entire web, to the edges and not just the center, to the long tail and not just the head.
          • The key to competitive advantage in internet applications is the extent to which users add their own data to that which you provide.
      ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Folksonomía ( folksonomy = folk + taxonomy )
        • Una forma de metadatos
        • Etiquetado colaborativo de recursos en la Web
        • Las etiquetas no proceden de un vocabulario controlado sino que son elegidas libremente por los usuarios
        • La co-ocurrencia de etiquetas lleva a las folksonomías…
        • Otra cuestión es cómo emplearlas (más allá de la búsqueda por “serendipia” )
        • Ejemplos: del.icio.us , flickr, tagzania
        • Problemas: sinonimia, polisemia, acrónimos, términos multipalabra, multilingüismo…
        • Mathes, A. 2004, F olksonomies – Cooperative Classification and Communication Through Shared Metadata
      ¿Web 2.0? Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Un sistema de filtrado de información procesa grandes volúmenes de datos para transmitir al usuario sólo aquellos items con mayores probabilidades de ser “interesantes”
      • El filtrado puede hacerse en base al contenido de los items o en base al juicio de otros usuarios del sistema (colaborativo)
      • El filtrado colaborativo no es reciente…
        • Goldberg, D., Nichols, D., Oki, B.M. y Terry, D. 1992, “Using Collaborative Filtering to Weave an Information Tapestry”, Com. of the ACM , vol.35, no.12, pp. 61-70.
      • … Amazon lleva usándolo desde hace bastante tiempo ( “Customers who bought this book also bought“ ). Funciona muy bien porque los usuarios “votan con dólares”
      • Otros ejemplos: last.fm (música), IMDB (películas)
      Filtrado colaborativo Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • No hay talla única. Cada usuario es un mundo…
      • Lo ideal sería darle a cada persona justo lo que necesita
      • El problema es ¿cómo?
        • PageRank personalizado . Recordemos el modelo del random surfer , había una probabilidad d de “saltar” a una página cualquiera de la Web; sin embargo no todas las páginas de la Web tienen que ser equiprobables. Page, L., et al. 1998, The PageRank Citation Ranking: Bringing Order to the Web
        • Inviable, no se puede calcular el PageRank para toda la Web y cada usuario
        • Otra posible solución radicaría en calcular el PageRank tras dividir la Web en subgrafos “temáticos” ; después se personalizaría la consulta en base a la temática de la misma y/o la detectada en el contexto del usuario. Haveliwala, T.H. 2003, “ Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search”, IEEE Transactions on Knowledge and Data Engineering
        • Explotando el historial de búsquedas y consultas. Lawrence, S. 2000, “Context in Web Search”, IEEE Data Engineering Bulletin , vo. 23, no. 3, pp. 25–32
      Personalización Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • La extracción de conocimiento de la Web , minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario
      • La minería Web puede dividirse en tres grandes áreas:
        • Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS )
        • Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores)
        • Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus )
      • Multidisciplinar: aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Los buscadores modernos son un ejemplo del conocimiento que se puede derivar de la estructura topológica de la Web
      • Los sistemas de filtrado colaborativo obtienen conocimiento a partir de las acciones de los usuarios en un sitio web concreto (podría considerarse un caso particular de minería de uso )
      • Aplicar minería de datos a los archivos de log de un servidor web no es nuevo
        • Mobasher, B. et al. 1996, Web Mining: Pattern Discovery from World Wide Web Transactions , informe técnico, Universidad de Minnesota
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /nol/shared/css/news_r5.css HTTP/1.0&quot; 404 312 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /shared/css/toolbar_banner.css HTTP/1.0&quot; 404 315 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /CursoWeb20/ HTTP/1.0&quot; 200 1894 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/blank.gif HTTP/1.0&quot; 200 148 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/back.gif HTTP/1.0&quot; 200 216 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/folder.gif HTTP/1.0&quot; 200 225 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/compressed.gif HTTP/1.0&quot; 200 1038 En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente ( proxies ) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs) Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo) Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Objetivos de la extracción de conocimiento a partir de archivos de log :
        • Entender los intereses de los usuarios de un sitio web
        • Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses
        • Facilitar el acceso a la información mediante recomendaciones en tiempo real
      • El último objetivo también puede alcanzarse empleando swarm intelligence
        • Wu, J. y Aberer, K. 2003, “ Swarm Intelligent Surfing in the Web”, ICWE 2003 , LNCS 2722, pp. 431–440
      • Off-topic: video sobre robots, swarm intelligence y rastros de feromonas http://www.youtube.com/watch?v=z3E86D4dKN4
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Los motores de búsqueda también disponen de archivos de log en los que se almacena información como:
        • Identificador de sesión
        • Fecha y hora
        • Texto de la consulta
        • URL visitada
        • Posición de la URL visitada dentro de la página de resultados
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Los logs de un buscador resultan muy útiles para mejorar la precisión
        • Baeza-Yates, R. 2004, “Query Usage Mining in Search Engines”, en Web Mining: Applications and Techniques
          • After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked).
        • Zhang, D. y Dong, Y. 2002, “A novel Web usage mining approach for search engines”, Computer Networks , vol. 39, no. 3, pp. 303-310
          • A user is “good” if he/she issues many “good” queries, while a queryis “good” if it can retrieve many “good” resources, while a resource is “good” if it is accessed by many
          • “ good” users.
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Los logs de un buscador resultan muy útiles para mejorar la precisión
        • Joachims, T. “Optimizing Search Engines Using Clickthrough Data”, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD)
          • http://svmlight.joachims.org/
        • Más artículos interesantes:
          • “ Accurately Interpreting Clickthrough Data as Implicit Feedback”
          • “ Query-Log Based Authority Analysis for Web Information Search”
          • “ Optimizing Web Search using Spreading Activation on the Clickthrough Data”
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados.
        • Baeza-Yates, R. et al. 2004, “ Query recommendation using query logs in search engines ”, e n Current Trends in Database Technology , LNCS 3268, p. 588-596.
      • Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks ) que retorna cada una
      • Una vez determinados los conjuntos de consultas pueden emplearse para…
        • … ofrecer consultas alternativas
        • … mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores)
        • http://wrg.upf.edu/WRG/dctos/talk2.pdf
      • Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas
      • http://grupoweb.upf.es/workshop/slides/fws_baeza_yates.pdf
      Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo)… Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos… … no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P . Si os interesan quizás podáis descargarlos… AOL-data.tgz Minería web (Web Mining) Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • AOL gate Análisis de tendencias Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Análisis de tendencias Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07) Google compra YouTube AOL gate
    • Análisis de tendencias Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Análisis de tendencias Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • La frecuencia absoluta ya es un indicador interesante La co-ocurrencia de términos es aún más interesante Análisis de tendencias Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098
          • The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents . The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense .
      • Normalized Google Distance (NGD)
      Normalized Google Distance Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Distancias NGD entre algunos pa íses portugal 0 0,02 0,21 0,07 0,23 0,09 0,11 spain 0,02 0 0,18 -0,01 0,15 0,10 0,12 france 0,21 0,18 0 0,16 -0,01 0,20 0,30 italy 0,07 -0,01 0,16 0 0,12 0,11 0,16 germany 0,23 0,15 -0,01 0,12 0 0,17 0,24 belgium 0,09 0,10 0,20 0,11 0,17 0 0,00 netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0 Primer problema: Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado “gruesa” (p.ej. spain 311x10 6 , italy 303x10 6 , spain italy 330x10 6 ) Normalized Google Distance Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Segundo problema:
        • ¿Sobre qué “eje” se mide la distancia?
        • En este ejemplo, ¿población? ¿superficie? ¿PIB?
      • En resumen, interesante, inspiradora… Aún se necesita más trabajo…
      Normalized Google Distance Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07) Portugal Belgium Netherlands Spain Germany France Italy
    • Viktor aprende inglés comparando dos guías turísticas de Nueva York
      • Un corpus es una colección de documentos que muestran el uso real de la lengua natural
      • Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables
      • Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática
        • Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics , vol. 16, no. 2
      • http://video.google.com/videoplay?docid=6934089019347797736
      La Web como corpus Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web… Sin embargo, es uno de los más espectaculares
      • Trabajos interesantes:
        • Jones, R. y Ghani, R. 2000, “Automatically Building a Corpus for a Minority Language from the Web”, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics , pp. 29–36
        • Resnik, P. y Smith, N.A. 2003, “The Web as a parallel corpus”, Computational Linguistics , vol. 29, no. 3, pp. 349-380
        • Kilgarriff, A. y Grefenstette, G. 2003, “Introduction to the special issue on the web as corpus”, Computational Linguistics , vol. 29, no. 3, pp. 333-347
      • A tener en cuenta: WAC (Web as a Corpus Workshop) , CLEANEVAL
      La Web como corpus Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Manning, C.D. y Schutze, H. 1999, Foundations of statistical natural language processing , MIT Press Chakrabarti, S. 2002, Mining the Web: Discovering Knowledge from Hypertext Data , Morgan Kaufmann Manning, C.D., Raghavan, P. y Schütze, H. 2007, Introduction to Information Retrieval , Cambridge University Press ( online ) Para saber más… Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Aplicando las técnicas que hemos comentado ¿qué nos depara el futuro? ¿Cómo pueden evolucionar los buscadores? Echemos a volar la imaginación “a la Berners-Lee” …  Evolución Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Lenssen, P. 2007, “Evolution of a search Engine”, Google Blogoscoped , http://blog.outer-court.com/archive/2007-02-02-n25.html Evolución El presente Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Evolución El futuro inmediato Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Clustering Resumen automático Evolución El futuro inmediato Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Evolución Verdadera personalización Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Evolución Inferencia Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • I'M SORRY, FRANK, BUT I DON'T THINK I CAN ANSWER THAT QUESTION WITHOUT KNOWING EVERYTHING THAT ALL OF YOU KNOW. Evolución … y más allá Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
      • Por hoy estuvo bien…
        • ¿Preguntas?
      • Lecturas de hoy
        • Broder, A. 2002, “A taxonomy of web search” , ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10.
        • Wu, J. y Aberer, K. 2003, “Swarm Intelligent Surfing in the Web” , ICWE 2003 , LNCS 2722, pp. 431–440
        • Baeza-Yates, R. et al. 2004, “Query recommendation using query logs in search engines” , en Current Trends in Database Technology , LNCS 3268, p. 588-596.
        • Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098
      • ¿Quieres pasarte al lado oscuro?
      STOP! Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007 Departamento de Informática Programa de doctorado “Avances en informática” (2006/07)
    • Programa de doctorado “Avances en informática” (2006/07) Departamento de Informática Web Semántica Oviedo, 5, 6 y 7 de Marzo de 2007