• Save
Web Semántica MIW EUITIO 2008
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Web Semántica MIW EUITIO 2008

  • 6,730 views
Uploaded on

Transparencias utilizadas en la parte de la asignatura "Web Semántica" impartida por Daniel Gayo en Junio de 2008 en la EUITIO.

Transparencias utilizadas en la parte de la asignatura "Web Semántica" impartida por Daniel Gayo en Junio de 2008 en la EUITIO.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
6,730
On Slideshare
6,615
From Embeds
115
Number of Embeds
5

Actions

Shares
Downloads
0
Comments
0
Likes
2

Embeds 115

http://www.di.uniovi.es 70
http://di002.edv.uniovi.es 24
http://www.ticmania.es 17
http://www.slideshare.net 2
http://www.mashme.tv 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Web Semántica Oviedo, 2, 3 y 4 de Junio de 2008
  • 2. Antes de empezar…
    • Evaluación de la asignatura
      • Cada profesor indicará las tareas a realizar para la evaluación de su parte.
      • En mi caso habrá que realizar un único trabajo cuya naturaleza dependerá de la “rama” del alumno:
        • Rama profesional: ejercicio teórico-práctico sobre SearchMonkey .
        • Rama investigadora: ejercicio práctico en base al artículo “Improving Tag-Clouds as Visual Information Retrieval Interfaces”
      • La entrega tendrá lugar en la misma fecha que el resto de trabajos de la asignatura, lo único que tenéis que hacer es enviarme un correo electrónico con la URL correspondiente.
      • Más información en: http://www.di.uniovi.es/~dani/?doctorado_y_m%E1ster
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 3. ¿Qué vamos a ver los próximos tres días? La Web-de-datos La Web como fuente de información Presente y futuro de la Web Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica ¡Protesto!
  • 4. La Web-de-datos Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? No hay cuchara… En suma… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 5. Cuando éramos suficientemente jóvenes… Suiza, 1989 Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 6. Cuando éramos suficientemente jóvenes…
    • Berners-Lee, T. 1989 , Information Management: A Proposal , Informe técnico, CERN.
        • Keywords can be nodes which stand for a concept. A keyword node is then no different from any other node. One can link documents, etc., to keywords. One can then find keywords by finding any node to which they are related. In this way, documents on similar topics are indirectly linked , through their key concepts. A keyword search then becomes a search starting from a small number of named nodes, and finding nodes which are close to all of them.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 7. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 8. Cuando éramos suficientemente jóvenes… Massachusetts (EE.UU.), 12 años después… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 9. Cuando éramos suficientemente jóvenes…
    • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
        • The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users.
        • ...
        • The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning , better enabling computers and people to work in cooperation.
        • ...
        • For the semantic web to function, computers must have access to structured collections of information and sets of inference rules that they can use to conduct automated reasoning .
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 10. Cuando éramos suficientemente jóvenes…
    • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
        • ...
        • The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings."
        • ...
        • [...] the third basic component of the Semantic Web, collections of information called ontologies .
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 11. An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for the Web has a taxonomy and a set of inference rules. Cuando éramos suficientemente jóvenes…
    • Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43.
        • ...
        • The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings."
        • ...
        • [...] the third basic component of the Semantic Web, collections of information called ontologies .
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 12. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 13. Cuando éramos suficientemente jóvenes… Reino Unido, 5 años después… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 14. Cuando éramos suficientemente jóvenes…
    • Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol. 21, no. 3, pp. 96-101.
        • The Semantic Web is a Web of actionable information —information derived from data through a semantic theory for interpreting the symbols. The semantic theory provides an account of “meaning” in which the logical connection of terms establishes interoperability between systems. [...] This simple idea, however, remains largely unrealized .
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 15. Cuando éramos suficientemente jóvenes…
    • Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol.21, no.3, pp. 96-101.
        • The Scientific American article assumed that this would be straightforward, but it’s still difficult to achieve in today’s Web.
        • ...
        • Because we haven’t yet delivered large-scale, agent-based mediation, some commentators argue that the Semantic Web has failed to deliver. We argue that agents can only flourish when standards are well established [...]
        • ...
        • The ontologies that will furnish the semantics for the Semantic Web must be developed, managed, and endorsed by practice communities.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 16. Cuando éramos suficientemente jóvenes… Aquí y ahora… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 17. Cuando éramos suficientemente jóvenes… Resulta que no era pa’ hoy… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 18. by steena Advocatus diaboli
  • 19. Advocatus diaboli
    • Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”, Journal of the American Society for Information Science , vol.50, no.12, pp. 1119-1120.
        • Ontologies are developed in many communities of research and practice. Unfortunately, there is little communication and mutual learning; thus, efforts are fragmented, resulting in considerable reinvention and less than optimal products.
    • Bates, M.J. 2002, “After the Dot-Bomb: Getting Web Information Retrieval Right This Time”, First Monday , vol. 7, no. 7
        • Succumbing to the “ontology” fallacy...
    • Shirky, C. 2005. “Ontology is Overrated: Categories, Links and Tags” , <http://www.shirky.com/writings/ontology_overrated.html>
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 20. Advocatus diaboli
    • Abelson, H. 2005
        • [...] A lot of the enthusiasm around the SemWeb reminds me of the AI hullabaloo of the 1980s. [...] Over the past 20 years, AI researchers have come to appreciate the limitations of traditional knowledge representation techniques. It seems that statistical methods and machine learning have proven more productive than reasoning based on ontologies. [...]
    • Hendler, J. 2006, “The Dark Side of the Semantic Web”
        • [...] the Semantic Web vision of Tim’s, before Ora and I polluted it with all this ontology stuff [...]
    • Antoniou, G. 2007, charla invitada durante MTSR’07
        • The semantic web may fail but semantic web technologies will stay.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 21. Web Semántica es esto…
    • Según el W3C:
        • The Semantic Web is a web of data.
        • The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources , where on the original Web mainly concentrated on the interchange of documents. It is also about language for recording how the data relates to real world objects. That allows a person, or a machine, to start off in one database, and then move through an unending set of databases which are connected not by wires but by being about the same thing.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 22. ¿Es esto Web Semántica? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 23. ¿Es esto Web Semántica?
    • Yahoo! pipes
        • Pipes is an interactive feed aggregator and manipulator. Using Pipes, you can create feeds that are more powerful, useful and relevant.
    • Tim O'Reilly (febrero 2007)
        • Yahoo!'s new Pipes service is a milestone in the history of the internet . It's a service that generalizes the idea of the mashup, [...] [it] allows you to connect internet data sources, process them, and redirect the output.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 24. ¿Es esto Web Semántica?
    • ¿Hay combinación de datos?
    • ¿Hay formatos comunes?
      • Sí ( RSS y JSON )
    • ¿Puede una persona/máquina moverse de una “base de datos” a otra sin solución de continuidad?
      • Más o menos…
    • ¿Usa alguna de las tecnologías propuestas por el W3C?
      • Bueeeno… RSS 1.0 se construye a partir de RDF que es una tecnología W3C.
    • ¿Es Web Semántica?
      • No en el sentido ortodoxo, pero tal vez sea un paso para la Web-como-base-de-datos
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 25.
    • No hay cuchara …
      • Olvidemos el nombre…
      • Olvidemos la ortodoxia (ontologías, RDF, …)
      • ¿Qué perseguimos?
      • La Web-como-Base-de-Datos
    by Kevin Labianco
  • 26. No hay cuchara…
    • ¿Alguien más, aparte de la gente-de-la-Web-Semántica , busca más o menos lo mismo?
      • Claro 
    • ¿Por ejemplo? Los siguientes campos en solitario o combinados:
      • Extracción de información, de entidades, de términos…
      • Respuesta de preguntas.
      • Recuperación de información.
      • Resumen automático.
      • Traducción automática.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 27. No hay cuchara…
    • Extracción de información (Information Extraction)
      • El objetivo fundamental de la extracción de información es obtener información estructurada (fundamentalmente entidades y relaciones entre las mismas) a partir de texto poco o nada estructurado.
    • Extracción de entidades (Entity Extraction, Named-Entity Recognition)
      • Una subtarea dentro del campo de extracción de información cuyo objetivo es localizar en un texto libre aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares, etc.
    • Extracción de términos (Term Extraction)
      • Otra subtarea del campo de extracción de información. Su objetivo es localizar términos (palabras o frases) relevantes para el tema de una colección de documentos.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 28. Extracción de términos (term extraction)
    • Su objetivo es localizar términos (palabras o frases) relevantes para el tema de un documento o una colección de documentos.
    • Ejemplo:
      • The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 29. Extracción de términos (term extraction)
    • Su objetivo es localizar términos (palabras o frases) relevantes para el tema de un documento o una colección de documentos.
    • Ejemplo:
      • The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 30. Extracción de entidades (entity extraction, named-entity recognition)
    • Su objetivo es localizar en un texto aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares…
    • Ejemplo:
      • The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 31. Compañía Término industrial Persona Tecnología Extracción de entidades (entity extraction, named-entity recognition)
    • Su objetivo es localizar en un texto aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares…
    • Ejemplo:
      • The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 32. No hay cuchara…
    • Respuesta a preguntas (Question Answering, QA)
      • Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez.
      • http://start.csail.mit.edu/
    • Recuperación de información (Information Retrieval, IR)
      • El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta.
    • Resumen automático (Automatic Summarization)
      • Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 33. No hay cuchara…
    • Respuesta a preguntas (Question Answering, QA)
      • Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez.
      • http://start.csail.mit.edu/
    • Recuperación de información (Information Retrieval, IR)
      • El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta.
    • Resumen automático (Automatic Summarization)
      • Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 34. No hay cuchara…
    • Traducción automática (Machine Translation)
      • El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe).
    • Muchas de estas tareas están disponibles como servicios web…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 35. En suma… Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa Web-de-datos además de otras varias para extraer conocimiento de la Web. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 36. En suma… clustering folksonomía click-through data modelo booleano modelo vectorial etiquetado recuperación de información PageRank evaluación stemming relevance feedback relevancia pseudo-relevance feedback búsquedas en la Web HITS NGD tf*idf Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 37. by evilnick
    • Se puede decir más alto pero no más claro…
        • Me gusta Internet. De verdad, me encanta. Siempre que necesito algo de shareware o ver qué tiempo hace en Bogotá soy el primero en hacer zumbar el módem. Pero como fuente de información, es una mierda . Encuentras millones de datos peleándose por hacerse oír, ver y descargar y parece que todo lo que quieres saber está aplastado por la multitud.
    • Michael Marshall (2002), The Straw Men (traducción libre)
  • 38. La Web como fuente de información Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar información en la Web (antes de Google ) Recuperación de información en dos palabras (o más…) Hitos en recuperación de información (hasta Google ) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? La Web es un grafo PageRank Búsquedas en la Web con PageRank ¿Son adecuados los buscadores modernos? (Más) Problemas del ranking basado en hiperenlaces No hay talla única… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 39. Pero, ¿cuál es el problema real?
    • Algunas cifras (la mayoría obsoletas):
      • Desde 1981 se han generado más de 845 x 10 6 de mensajes en USENET
      • Reuters produce 11 x 10 3 artículos diarios
      • Springer publicó en 2003 90 x 10 6 palabras en textos científicos
      • El tamaño real de la Web es desconocido:
        • La Web superficial tiene más de 4 x 10 9 documentos
        • La Web oculta puede ser entre 2x y 500x
      • Existen más de 70 x 10 6 blogs
      • flickr contiene más de 17 x 10 6 fotografías y sus usuarios añaden cada día 1,2 x 10 6 etiquetas
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 40. Pero, ¿cuál es el problema real? Alvin Tofler (1970) definió la “sobrecarga de información” como la condición que se deriva de la incapacidad de la mente humana para enfrentarse a demasiados elementos de información simultáneamente. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 41. ¿Wikipedia killed the search engine? (Intermedio)
    • Véronis, J. 2007, “Search: Google-Yahoo Comparison”
    • <http://aixtal.blogspot.com/2007/11/search-google-yahoo-comparison.html>
        • The most surprising result came from the use of Wikipedia. This use was marginal in December 2005. At the time, for all 10 results on the first page, 2% of the links proposed by Google and 4% of those proposed by Yahoo came from Wikipedia.
        • The strategies have changed completely. Today 27% of Google’s results on the first link alone come from Wikipedia, as do 31 % of Yahoo’s.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 42. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica ¿Wikipedia killed the search engine? (Intermedio)
    • Manber, U. 2007, “Encouraging people to contribute knowledge”
    • <http://googleblog.blogspot.com/2007/12/encouraging-people-to-contribute.html>
        • The web contains an enormous amount of information […] But not everything is written nor is everything well organized to make it easily discoverable. There are millions of people who possess useful knowledge that they would love to share, and there are billions of people who can benefit from it [….] many do not share that knowledge today simply because it is not easy enough to do that.
        • […] we [Google] started inviting a selected group of people to try a new, free tool that we are calling &quot;knol&quot;, which stands for a unit of knowledge. Our goal is to encourage people who know a particular subject to write an authoritative article about it.
  • 43. ¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 44. ¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 45. Pensemos un poco sobre esto … by galo/* ¿Wikipedia killed the search engine?
  • 46. De aquellos polvos…
    • Propuesta original para la Web (Berners-Lee, 1989)
      • Evitar pérdida de información
      • Facilitar acceso a toda la información
    • Características que facilitaron crecimiento de la Web
      • Naturaleza distribuida (documentos pueden residir en distintas máquinas)
      • Hiperenlaces
      • Sistema tanto más útil cuantos más documentos contenga
    • Reflexiones…
      • Búsqueda por palabras clave es un problema
      • En la propuesta original los conceptos son nodos idénticos a los documentos
    • Desarrollo inicial de la Web
      • No hay nodos conceptuales, sólo documentos
      • No se implementa método alguno para buscar información
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 47. … vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está aplastado por la multitud. Evolución en el número de servidores web… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 48. Encontrar información en la Web (antes de Google )
    • Directorios
    • Bases de datos de enlaces organizados en categorías. Los enlaces suelen ser enviados por los responsables del sitio web y pueden existir editores que organicen la información disponible.
    • Por ejemplo, CERN (extinto) NCSA (extinto), Yahoo! , ODP/Dmoz
    • Problemas
      • Muchos sitios web no notifican a los índices de su existencia
      • No consiguen indexar la Web al ritmo que crece
      • Recuperación de información “tradicional”
      • Superabundancia de resultados y escasa relevancia
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 49. Encontrar información en la Web (antes de Google )
    • Buscadores
    • Artefactos software que exploran la Web almacenando en una base de datos parte o todo el texto de los documentos que analizan. Al ir procesando documentos se crea un índice que emplea las palabras que aparecen en cada página web. Cuando un buscador recibe una consulta toma las palabras utilizadas por el usuario y obtiene los documentos indexados por las mismas.
    • Por ejemplo, ALIWEB , WebCrawler , Lycos (extintos, permanecen las marcas)
    • Problemas
      • Cobertura: la base de datos de cada buscador apenas representaba 1/3 de la Web
      • Recuperación de información “tradicional”
      • Superabundancia de resultados y escasa relevancia
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 50. Encontrar información en la Web (antes de Google ) Google cambió el panorama gracias al algoritmo PageRank Para saber qué cambió, antes hay que entender cómo funciona un sistema de recuperación de información “tradicional” Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 51. by Irina Souiki Recuperación de información ( information retrieval o IR ) hace referencia al conjunto de procesos necesarios para representar, almacenar, buscar y encontrar información relevante para las consultas de los usuarios. Un sistema de recuperación de información simplemente indica la existencia (o inexistencia) de documentos relativos a la consulta.
  • 52. Consulta Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 53. Documentos “relevantes” Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 54. Recuperación de información (continúo…) Podría referirse a diversas manifestaciones de la información como imágenes, audio, texto, etc. pero se acepta generalmente que la “recuperación de información” se ocupa únicamente de información textual . “ La recuperación de información es un proceso de ensayo y error … Una consulta no es más que una suposición acerca de los atributos que se espera tenga el documento deseado. En general, se emplea la respuesta del sistema para corregir esa suposición inicial en posteriores intentos .” (Swanson 1977) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 55. ¡Atención! Pregunta by dhammza
  • 56. ¿Son sistemas de recuperación de información? ¿Por qué? ¿Por qué no? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 57. ¿Hay algún tipo de buscador que no sea un sistema de recuperación de información? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 58. retriev r http://labs.systemone.at/retrievr/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 59. http://www.midomi.com/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 60. Hitos en recuperación de información (hasta Google )
    • 1950s
      • Primera descripción de un sistema IR automático. Utilización de la frecuencia de aparición de un término para determinar su relevancia, uso de stoplists . Luhn, H.P. 1957, “A Statistical Approach to Mechanized Encoding and Searching Information”, IBM Journal of Research and Development , vol. 1, no. 4, pp. 309-317.
      • Primera propuesta para un sistema de resumen automático. Luhn, H.P. 1958, “The Automatic Creation of Literature Abstracts”, IBM Journal of Research and Development , vol. 2, no. 2, pp. 159-165.
    • 1960s
      • Primera alternativa “aritmética” a la búsqueda booleana . Maron, M.E. y Kuhns, K.L. 1960, “On relevance, probabilistic indexing and information retrieval”, Journal of the ACM , vol. 7, no. 3, pp. 216-244.
      • Primer esfuerzo para la evaluación experimental de sistemas IR . Cleverdon, C.W. 1962, Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems , College of Aeronautics, Reino Unido.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 61. Hitos en recuperación de información (hasta Google )
    • 1960s
      • Se propone el modelo vectorial de documentos y medida coseno de similitud . Salton, G. y Lesk, M.E. 1965, “The SMART Automatic Document Retrieval System – An Illustration”, Communications of the ACM , vol. 8, no. 6, pp. 391-398.
    • 1970s
      • Se propone la cluster hypothesis , documentos estrechamente asociados tienden a ser relevantes para las mismas peticiones. Jardine, N. y van Rijsbergen, C.J. 1971, “The use of hierarchic clustering in information retrieval”, Information Storage and Retrieval , vol. 7, pp. 217-240.
      • Introducción del concepto idf (inverse document frequency) . Spärck-Jones, K. 1972, “A statistical interpretation of term specificity and its application in retrieval”, Journal of Documentation , vol. 28, no. 1, pp. 11-21.
      • Se propone el modelo probabilista de IR . Robertson, S.E. y Spärck-Jones, K. 1976, “Relevance weighting of search terms”, Journal of the ASIS , vol. 27, no. 3, pp. 129-146.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica by Mikelo
  • 62. Hitos en recuperación de información (hasta Google )
    • 1970s
      • Por primera vez se señala la naturaleza interactiva de los sistemas IR . Swanson, D.R. 1977, “Information retrieval as a trial-and-error process”, Library Quarterly , vol. 47, no. 2.
      • Primera colección moderadamente grande, NPL (11.500 documentos). Spärck-Jones, K. y Webster, C.A. 1979, Research in Relevance Weighting , Informe técnico, University of Cambridge.
    • 1980s
      • Se inventa el primer algoritmo de stemming . Porter, M.F. 1980, “An algorithm for suffix stripping”, Program , vol. 14, no. 3, pp. 130-137.
      • Se inventan los mapas auto-organizados. Kohonen, T. 1982, “Self-organized formation of topologically correct feature maps”, Biological Cybernetics , 43, pp. 59-69.
      • Probabilidad de coincidencia entre dos individuos en el uso de la misma palabra para identificar un concepto está entre el 10 y el 20%. Furnas, G.W., Landauer, T.K., Gómez, L.M. y Dumais, S.T. 1987, “The vocabulary problem in human system communication”, Communications of the ACM , vol. 30, no. 11, pp. 964-971.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 63. Hitos en recuperación de información (hasta Google )
    • 1980s
      • Se inventa la Semántica Latente. Dumais, S.T., Furnas, G.W., Landauer, T.K., Deerwester, S. y Harshman, R. 1988, “Using Latent Semantic Analysis to improve access to textual information”, en Human Factors in Computing Systems , CHI’88 Conference Proceedings, pp. 281-285.
      • Se inventa la Web. Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN.
    • 1990s
      • Se inventan las Support Vector Machines . Boser, B., Guyon, I. y Vapnik, V. 1992, “A training algorithm for optimal margin classifiers”, en Fifth Annual Workshop on Computational Learning Theory , pp. 144-152.
      • Se propone un método para detección de terminología. Dunning, T. 1993, “Accurate methods for the statistics of surprise and coincidence”, en Computational Linguistics , vol. 19, no. 1, pp. 61-74.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 64. Hitos en recuperación de información (hasta Google )
    • 1990s
      • Se desarrollan los primeros buscadores web… Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB”, Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation”
      • … Y los primeros índices Filo, D. y Yang, J. 1994, Yahoo!
      • Desarrollo de sistemas IR “tolerantes”por medio de n-gramas. Cavnar, W.B. 1994, “Using an n-gram-based document representation with a vector processing retrieval model”, en Proceedings of TREC-3 , pp. 269-277.
      • Primeros sistemas con pseudo-relevance feedback . Robertson, S.E., Walker, S., Jones, S., Hancock-Beaulieu, M. y Gatford, M. 1994, “Okapi at TREC-2”, en Text REtrieval Conference , pp. 21-34. Buckley, C., Salton, G., Allan, J. y Singhal, A. 1995, “Automatic Query Expansion Using SMART: TREC-3”, en Text REtrieval Conference , pp. 69-80.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 65. Hitos en recuperación de información (hasta Google )
    • 1990s
      • Se desarrolla la t écnica TextTiling para detección de pasajes. Hearst, M.A. 1994, “Multi-Paragraph Segmentation of Expository Text”, en Proceedings of the 32nd Meeting of the Association for Computational Linguistics , pp. 9-16.
      • Primeros pasos hacia la Web Semántica. Luke, S., Spector, L. y Rager, D. 1996, “Ontology-Based Knowledge Discovery on the World-Wide Web”, en Working Notes of the Workshop on Internet-Based Information Systems at the 13th National Conference on Artificial Intelligence (AAAI96) .
    • 1998 ANNO MACHIN Æ INVENT Æ
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 66. by iko
    • Por hoy estuvo bien…
      • ¿Preguntas?
    • Para mañana…
      • Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN.
      • Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB” , Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182.
      • Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” , en Electronic Proceedings of the “Second World Wide Web Conference '94: Mosaic and the Web”
      • Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” , en Proceedings of the ACM Special Interest Group on Networked Information Discovery and Retrieval
    • ¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas?
  • 67. by robertvoors ¿Preparados?
    • ¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas?
  • 68. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web?
    • En primer lugar, ¿cómo funcionaban primeros buscadores?
      • ALIWEB: Los administradores de los sitios web debían registrarse en el buscador proporcionando la URL a una ficha descriptiva del sitio (unas pocas palabras clave) que era incluida en una base de datos. No hay información sobre la relevancia de los resultados pero se presume escasa (¿búsqueda booleana?)
      • WWW Worm: Para cada documento se almacenaba el título, URL y texto de los enlaces recibidos . Exploraba la Web en busca de nuevos recursos. Usaba egrep para las búsquedas (coincidencia con una expresión regular).
      • Web Crawler: También exploraba la Web para localizar nuevos documentos (pero el índice solo podía almacenar 50.000). Empleaba un modelo vectorial y eliminaba palabras vacías. Por primera vez se ofrecen datos sobre exhaustividad (adecuada) y precisión (escasa).
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 69. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web?
    • En primer lugar, ¿cómo funcionaban primeros buscadores?
      • Lycos : También explora la Web en busca de nuevos documentos (no parece tener un límite arbitrario). No indexa el texto completo del documento (título, cabeceras, 100 palabras más relevantes tf*idf y primeras 20 líneas). Como WWW Worm , también utiliza el texto de los enlaces entrantes. No emplea exactamente un modelo vectorial pues el cálculo de la relevancia se hace en base a: número de términos de la consulta que aparecen en el documento, frecuencia de los mismos o proximidad.
      • Naturalmente, hubo más buscadores ( Altavista , inktomi , etc.) pero no hay muchos detalles sobre su funcionamiento.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 70. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web?
    • En resumen, el mejor buscador Web antes de 1998 sería así…
      • Empleaba robots para explorar la Web en busca de documentos
      • Almacenaba el texto completo de las páginas web además del texto de los enlaces entrantes
      • No tenía en cuenta las palabras vacías en documentos ni en consultas
      • Los términos podían ponderarse mediante tf*idf
      • Retornaba resultados ordenados por relevancia decreciente
      • La relevancia se calculaba ad hoc teniendo en cuenta no sólo el peso de los términos según el modelo vectorial sino relativos a la proximidad entre los términos o aspectos de “formateo” (título, cabeceras, etc.)
    • Y no funcionaba “bien”…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 71. by Thomas Hawk ¿Por qué las técnicas IR clásicas no funcionan bien en la Web?
    • Un momento, no tan rápido…
      • ¿Búsqueda booleana?
      • ¿Modelo vectorial?
      • ¿ tf*idf ?
      • ¿Palabras vacías?
      • ¿ Stemming ?
      • ¿Precisión y exhaustividad?
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 72. ¿Bag-of-words? El orden de las palabras es irrelevante. Por ejemplo, un pobre hombre y un hombre pobre darían lugar a la misma representación. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Búsqueda booleana
      • Modelo bag-of-words , los términos están presentes o no
      • Las consultas son expresiones lógicas que combinan términos y operadores lógicos
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 73. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 74. Demasiados resultados… ¿Es el primer resultado más relevante que el segundo? (Va a ser que no) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 75. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 76. ¿Sólo 3 resultados? ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 77. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Problemas de la búsqueda booleana
      • Las consultas retornan o demasiados documentos o muy pocos
      • No hay ninguna forma de ordenar los resultados por relevancia.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 78. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Búsqueda booleana con medidas de asociación
      • Tanto documentos y consultas se representan mediante bags-of-words
      • Se dispone de coeficientes que determinan cuán relevante es un documento para una consulta
        • Coeficiente de Dice
        • Coeficiente de Jaccard
        • Coseno
        • Coeficiente de solapamiento
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 79. No todas las palabras son iguales… by fibredesign
  • 80. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Palabras vacías (stop words)
      • Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto
      • Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136.
      • Además, ¿qué es una palabra vacía? Por ejemplo, ser
        • Verbo (palabra vacía)
        • Cadena SER (no es palabra vacía)
        • SER Society for Ecological Restoration (no es castellano)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 81. Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta (algo). ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Palabras vacías (stop words)
      • Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto
      • Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136.
      • Además, ¿qué es una palabra vacía? Por ejemplo, ser
        • Verbo (palabra vacía)
        • Cadena SER (no es palabra vacía)
        • SER Society for Ecological Restoration (no es castellano)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 82. Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta (algo). de la que el en y a los del se las por un para con no una su al es lo como más i me my myself we our ours ourselves you your yours yourself yourselves he him his himself she her hers herself it its au aux avec ce ces dans de des du elle en et eux il je la le leur lui ma mais me même ad al allo ai agli all agl alla alle con col coi da dal dallo dai dagli dall dagl dalla dalle di del de a o que e do da em um para é com não uma os no se na por mais as dos como ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 83. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • tf
      • Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante
    • idf (inverse document frequency)
      • Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean
    • tf*idf
      • Método para ponderar los términos de un documento que combina los dos anteriores
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 84. Cuanto más se repite un término en un documento y menos en la colección más importante/diferenciador resulta… ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • tf
      • Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante
    • idf (inverse document frequency)
      • Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean
    • tf*idf
      • Método para ponderar los términos de un documento que combina los dos anteriores
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 85. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Stemming (reducción a la raíz)
      • Algoritmos que colapsan múltiples formas de una palabra en un único término.
      • Por ejemplo, investigación , investigaciones , investigador , investigadora e investigadores colapsan en investig . En cambio universidad colapsa a univers mientras que universitario lo hace a universitari .
      • Aplicando stemming se reduce el número de términos y, al mismo tiempo, se consigue que una misma consulta abarque más palabras (algo que puede ser un problema, p.ej. universo )
      • http://snowball.tartarus.org/
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 86. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Modelo vectorial
      • Los documentos son puntos en un entorno T -dimensional, donde T es el número de términos diferentes en la colección
      • Los términos son generalmente palabras o raíces ( stems ) o lemas de palabras
      • Cada coordenada de un vector documental tendrá un peso que será nulo si el término no aparece en el documento y no nulo en caso contrario
      • Pueden usarse distintos métodos de ponderación, habitualmente tf*idf
      • Es posible definir distancias (y similitudes) entre los documentos de manera algebraica
      • La función del coseno es la medida más común
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 87. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Función del coseno (cosine similarity)
      • Medida de similitud empleada en el modelo vectorial
      • En la siguiente ecuación n es el número de términos (dimensiones del espacio vectorial) y q i y d i son, respectivamente, el i- ésimo término de los documentos q y d .
      • La función del coseno admite una interpretación geométrica sencilla puesto que mide el ángulo formado por los vectores de los documentos a comparar.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 88. Evaluación de sistemas IR by sergis blog
  • 89. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra.
    • Elementos necesarios para evaluar un sistema IR:
      • Una colección de documentos.
      • Una lista de necesidades de información expresables como consultas
      • Un conjunto de juicios de relevancia para cada par (documento, necesidad de información)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 90. <REUTERS TOPICS=&quot;YES&quot; LEWISSPLIT=&quot;TRAIN“ CGISPLIT=&quot;TRAINING-SET&quot; OLDID=&quot;5549“ NEWID=&quot;6&quot;> <DATE>26-FEB-1987 15:14:36.41</DATE> <TOPICS><D>veg-oil</D> … <D>wheat</D></TOPICS> <PLACES><D>argentina</D></PLACES> <PEOPLE></PEOPLE> <ORGS></ORGS> <EXCHANGES></EXCHANGES> <COMPANIES></COMPANIES> <UNKNOWN> G f0754 reuter f BC-ARGENTINE-1986/87-GRA 02-26 0066 </UNKNOWN> <TEXT> <TITLE> ARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONS </TITLE> <DATELINE> BUENOS AIRES, Feb 26 - </DATELINE> <BODY> Argentine grain board figures show crop … </BODY> </TEXT> </REUTERS> Un documento de la colección Reuters-21578 ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra.
    • Elementos necesarios para evaluar un sistema IR:
      • Una colección de documentos.
      • Una lista de necesidades de información expresables como consultas
      • Un conjunto de juicios de relevancia para cada par (documento, necesidad de información)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 91. <top> <num> C154 </num> <ES-title> Libertad de Expresión en Internet </ES-title> <ES-desc> Encontrar documentos en los que se hable sobre la censura y la libertad de expresión en Internet. </ES-desc> <ES-narr> Los documentos en los que se discutan asuntos como la pornografía o el racismo en Internet, sin mencionar el tema de la censura o libertad de expresión, no se considerarán relevantes. </ES-narr> </top> Un “tópico” del CLEF (que no una consulta) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra.
    • Elementos necesarios para evaluar un sistema IR:
      • Una colección de documentos.
      • Una lista de necesidades de información expresables como consultas
      • Un conjunto de juicios de relevancia para cada par (documento, necesidad de información)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 92. Colección Documentos relevantes Documentos resultantes ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Precisión (precision) y exhaustividad (recall)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 93. Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Precisión (precision) y exhaustividad (recall)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 94. Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Precisión (precision) y exhaustividad (recall)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 95. ¡Atención! Pregunta by Chris Owens
  • 96. ¿Qué sistema es mejor? ¿Por qué? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica Exhaustividad Precisión
  • 97. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio)
    • Precisión (precision) y exhaustividad (recall)
      • En resumen,
        • Precisión es el porcentaje de los documentos resultantes que son verdaderamente relevantes
        • Exhaustividad es el porcentaje de los documentos relevantes que son retornados al usuario
      • Un sistema IR perfecto tendría precisión y exhaustividad 1.00 siempre; sin embargo, eso es imposible .
      • Otras medidas
        • Medida F: combina precisión y exhaustividad.
        • Curvas precisión-exhaustividad.
        • Precisión en k resultados.
      • Y ahí es donde volvemos a los buscadores Web pre- Google…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 98. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web?
    • En 1998 la cota inferior para la Web era de 320 x 10 6 documentos . Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web”, Science , vol. 280, no. 3, pp. 98-100.
    • La mayor colección de evaluación de la época tenía “sólo” 7.5 x 10 6 documentos.
    • Características de las consultas
      • Son muy cortas (casi el 90% constan de 3 términos o menos) Más del 60% son únicas
    • Dado el número de documentos y la longitud de las consultas la mayor parte de los resultados eran irrelevantes ≡
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 99. sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translations ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 100. La Web es un grafo
    • Hasta aquí hemos llegado…
      • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
        • as of November 1997, only one of the top four commercial search engines finds itself.
        • […] we have seen a major search engine return a page containing only &quot;Bill Clinton Sucks&quot; and picture from a &quot;Bill Clinton&quot; query. […] If a user issues a query like &quot;Bill Clinton&quot; they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 101. A major search engine result for the query “BILL CLINTON” (The Web cca. 1997) La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 102. Resultados ofrecidos por Google, Yahoo! y Live Search para la query “GEORGE BUSH”. La Web, hoy (aproximadamente) La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 103. La Web es un grafo
    • Demos un paseo…
      • Plagiar , v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído. Plagio , s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable.
      • … Siempre hay que acreditar las fuentes que hemos usado
        • Bierce, A. 1906, The Devil’s Dictionary
      • En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis.
      • Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad .
      • Citando dotamos de autoridad a un tercero…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 104. La Web es un grafo
    • Sigamos con el paseo…
      • Textos científicos y citas constituyen los nodos y aristas de un grafo
      • Hace ya ¡80 años! que se estudian estos patrones
      • Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos
      • Los documentos, autores y revistas más citados tendrán mayor autoridad : el (infame) “índice de impacto” . Garfield, E. 1972, “Citation Analysis as a Tool in Journal Evaluation”, Science, vol. 178, pp. 471-479.
      • Off-topic: Harzing's Publish or Perish
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 105. AÚN MÁS OFF-TOPIC La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 106. La Web es un grafo
    • Donde dije “cita” digo “hiperenlace”…
      • Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
        • A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext .
        • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
        • The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
        • Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
        • This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […]
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 107. La Web es un grafo
    • Donde dije “cita” digo “hiperenlace”…
      • Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97).
        • A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext .
        • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
        • The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects.
        • Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […]
        • This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […]
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 108. La Web es un grafo
    • Donde dije “cita” digo “hiperenlace”…
        • Jon Kleinberg define los conceptos de autoridad y hub
        • Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677.
      • Una autoridad es un documento fuertemente enlazado
      • Un hub es un documento que enlaza a muchas autoridades
      • Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes , frente al 40% de Yahoo! (un directorio) o Altavista
        • Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7 th World-Wide Web conference , pp. 65-74.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 109. La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 110. La Web es un grafo
    • Google comienza a operar en 1998
      • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
    • El núcleo de su sistema de ponderación es el algoritmo PageRank , similar al método de Kleinberg
      • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
    • El algoritmo asocia a cada documento un valor (tb. PageRank ) de este modo:
      • Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientes
      • Un documento muy enlazado tendrá un PageRank elevado
      • Un documento enlazado desde documentos prestigiosos tendrá un PageRank elevado
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 111. A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 112. A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 113. A 1 B C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 114. A B 1 C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 115. A B C 1 F E D 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 116. A B C F E D 1 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 117. A B C F E 1 D 0,50 0,50 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 118. A B C F 1 E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 119. A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 120. A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 121. A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 122. A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 123. A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 124. A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 125. A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 126. A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 127. A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 128. PageRank
    • Algunas características interesantes de PageRank
      • Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces)
      • Es relativamente insensible a los valores de “partida” , afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido
      • El PageRank total en la Web es constante
      • Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar ( random surfer model )
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 129. PageRank
    • Suposiciones sobre la Web…
      • Es un grafo fuertemente conectado (desde cualquier nodo v se puede llegar a cualquier nodo w )
      • Todos los nodos tienen enlaces salientes
    • … que son falsas…
      • La Web no es un grafo fuertemente conectado , es una pajarita...
        • Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference
      • Sólo el 90% de la Web está fuertemente conectada
    • … así que habrá que usar algún “truco”
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 130. PageRank
    • A vueltas de nuevo con el random surfer…
      • El modelo descrito hasta ahora se correspondería con esta ecuación
      • que modela a un usuario que va de página en página siguiendo enlaces aleatoriamente, ad infinitum …
      • Problema: Aquellas páginas que no forman parte del núcleo fuertemente conectado de la Web siempre tendrán PR nulo…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 131. PageRank
    • A vueltas de nuevo con el random surfer…
      • Lo que hay que conseguir es que, de vez en cuando, el navegante “salte” a una página aleatoriamente. Es decir, en cada página el usuario toma una “decisión”
        • Saltar a una página aleatoria con probabilidad d
        • Continuar con un enlace al azar de la página actual con probabilidad 1-d
      • Este modelo puede representarse según esta ecuación (un valor habitual para d es 0,15)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 132. PageRank
    • ¿Y los nodos sin enlaces salientes?
      • Se eliminan para después calcular el PageRank del resto del grafo
      • Una vez calculado éste se determina el de los nodos sin enlaces salientes en base al PageRank de sus enlaces entrantes
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 133. Búsquedas en la Web con PageRank
    • Recordemos lo que dijo Marchiori
        • [...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components.
    • PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces
    • ¿Cómo se realizan las búsquedas entonces? (Versión simplificada)
      • Se extraen los términos (palabras) de la consulta
      • Se localizan documentos que contengan todos los términos
      • Se ordenan los documentos obtenidos por PageRank decreciente
    • Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 134. by iko
    • Por hoy estuvo bien…
      • ¿Preguntas?
    • Para mañana…
      • Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web” , Science , vol. 280, no. 3, pp. 98-100.
      • Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine” , Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117.
      • Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment” , en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677.
      • Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed” , The 4th International Conference on Internet Computing , pp. 65-69.
    • ¿Para qué tipo de consultas son adecuados los buscadores actuales?
  • 135. by robertvoors ¿Preparados?
    • ¿Para qué tipo de consultas son adecuados los buscadores actuales?
  • 136. ¿Son adecuados los buscadores modernos?
    • Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69.
      • 24 horas
      • 150.000 sesiones de usuario
      • 450.000 consultas
      • 13% de las consultas eran únicas
      • 53% de las sesiones constituidas por una única consulta
      • 54% de las sesiones sólo examinaron primera página de resultados
      • 54% de las consultas sólo examinaron un único resultado
      • 66% de las sesiones examinaron de 1 a 5 resultados
      • Para 530 consultas evaluadas “manualmente” en el 48,5% de los casos el resultado visitado no era relevante
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 137. ¿Son adecuados los buscadores modernos?
    • Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69.
    • Conclusiones Jansen y Spink
      • Mayoría de usuarios tienen necesidades de información simples
      • Los buscadores resuelven bien este tipo de consultas
      • Usuario promedio necesita ver 2 documentos para encontrar 1 relevante
    • ¿Mis conclusiones?
      • Echémosle un ojo a este artículo que trabaja sobre los mismos logs …
      • Jansen, B.J. y Spink, A. 2006, “How are we searching the World Wide Web? A comparison of nine search engine transaction logs”, Information Processing and Management
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 138. ¿Son adecuados los buscadores modernos?
    • Distribución temática de las consultas (2.503 consultas)
      • People, places or things 22,50%
      • Computers or Internet 21,80%
      • Commerce, travel, employment, or economy 12,30%
      • Entertainment or recreation 9,10%
      • Sex and pornography 10,80%
      • Health or sciences 7,80%
      • Society, culture, ethnicity, or religion 4,80%
      • Performing or fine arts 4,70%
      • Education or humanities 2,90%
      • Government or legal 2,70%
      • Non–English or unknown 0,60%
    • 42,4% de todas las consultas son sobre famosos, ocio y sexo (“fáciles”)
    • 55%-84% de las consultas más frecuentes son análogas (dependiendo de la lista el porcentaje de sexo varía entre el 3%, el 48% o el 60%)
    • Las consultas frecuentes suponen entre el 2% y el 18% del total de consultas
    • Este tipo de consultas constituyen el 45% del total…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 139. ¿Son adecuados los buscadores modernos?
    • Más datos (elaboración propia)
      • Relevancia promedio de los resultados está, efectivamente, alrededor del 50%
      • Sin embargo, ¿cuál es la dispersión?
      • 20% consultas de la muestra tiene una precisión media del 21%
      • 23% consultas no obtienen ningún resultado relevante en la primera página
      • Estimación: 15%-20% todas las consultas no obtienen resultados relevantes
    • Mis conclusiones
      • Casi la mitad de las consultas son relativas a famosos, ocio y sexo (es decir, “fáciles” de sastisfacer)
      • En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados
      • Pero… Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 140. (Más) Problemas del ranking basado en hiperenlaces
    • Tres escenarios problemáticos
      • Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval , pp. 104-111.
      • Enlaces “nepotistas”
        • Cada enlace es un “voto” aunque provengan todos del mismo servidor
        • No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search , pp. 23-28.
      • Enlaces automáticos
        • Todos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto ( Wordpress scandal )
      • Documentos irrelevantes enlazados desde autoridades
        • Inevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 141. (Más) Problemas del ranking basado en hiperenlaces
    • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
        • […] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 142. (Más) Problemas del ranking basado en hiperenlaces
    • Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web
        • […] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 143. (Más) Problemas del ranking basado en hiperenlaces
    • Granjas de enlaces
      • Recordemos que el PageRank total es constante, sólo se reparte entre los nodos
      • ¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces ?
      • Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente
      • Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 144. (Más) Problemas del ranking basado en hiperenlaces
    • Google bombing
      • Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube )
      • Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones , miserable failure o horrid operating system
      • A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica
      • Pero…
        • Algunas siguen funcionando: horrid operating system
        • Búsquedas que deberían funcionar no lo hacen: spanish airlines
        • Todos los buscadores son vulnerables a esta técnica
      • Off-topic : ¿qué retornan las consultas click here o pinche aquí ?
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 145. (Más) Problemas del ranking basado en hiperenlaces
    • Daños “colaterales” (usuarios y autores)
    • La ausencia de “prestigio” no implica carencia de relevancia
    • Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario.
    • El autor del documento puede no desear tales visitas.
    • Algunas consultas reales que me han traído “público”…
      • algoritmos genéticos(documentos en inglés)
      • que es disertacion doctoral
      • articulos o comentarios de prensa sobre algoritmos geneticos
    • ¿Qué tienen en común? Son consultas informativas , el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 146. (Más) Problemas del ranking basado en hiperenlaces Web Spam Challenge http://webspam.lip6.fr/
    • En la Web también hay spam  y es preciso detectarlo y luchar contra él… Por esa razón se habla de adversarial information retrieval
    • Algunos artículos interesantes:
      • Gyöngyi, Z. et al. 2004, “Combating web spam with TrustRank” Gyöngyi, Z. y Garcia-Molina, H. 2005, “Web spam taxonomy” Fetterly, D. et al. 2004, “Spam, damn spam, and statistics: using statistical analysis to locate spam web pages” Benczúr, A.A. et al. 2005, “SpamRank–Fully Automatic Link Spam Detection Work in progress” Ntoulas, A. et al. 2006, “Detecting spam web pages through content analysis” Becchetti, L. et al. 2006, “Link-Based Characterization and Detection of Web Spam” Castillo, C. et al. 2006, “A reference collection for web spam”
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 147. No hay talla única…
    • Los buscadores actuales son muy buenos…
      • … localizando sitios web conocidos/”oficiales”
      • … facilitando el acceso a servicios on-line (mapas, tiempo, e-mail , subastas, etc.)
      • … resolviendo consultas simples (famosos, ocio y sexo)
    • En suma… Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo
    • Pero como fuente de información la Web sigue siendo…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 148. … y recordemos que las suposiciones son falsas
    • La Web no es un grafo fuertemente conectado ,
      • Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference
    • Sólo el 90% de la Web está fuertemente conectada
    • Meiss, M.R. et al. 2008, “Ranking web sites with real user traffic”
        • PageRank ranks sites very differently than actual human traffic, especially for the most important hosts. This finding is interpreted in light of our empirical analysis, showing how each of the random behavior assumptions underlying PageRank is violated : not all links from a site are followed equally, but even more importantly, some sites are much more likely than others to be the starting or ending points of surfing sessions.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 149. Presente y futuro de la Web ¿Web 2.0? Filtrado colaborativo Personalización Minería Web (Web Mining) Análisis de tendencias Normalized Google Distance La Web como corpus Para saber más… Evolución Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 150. by Markus Angermeier
  • 151. ¿Web 2.0?
    • O’Reilly, T. 2005, Web 2.0 Compact Definition?
        • Web 2.0 is the network as platform , spanning all connected devices; Web 2.0 applications are those that make the most of the intrinsic advantages of that platform: delivering software as a continually-updated service that gets better the more people use it , consuming and remixing data from multiple sources , including individual users, while providing their own data and services in a form that allows remixing by others, creating network effects through an &quot;architecture of participation,&quot; and going beyond the page metaphor of Web 1.0 to deliver rich user experiences.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 152. ¿Web 2.0?
    • O’Reilly, T. 2006, Web 2.0 Compact Definition: Trying Again
        • Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform , and an attempt to understand the rules for success on that new platform. Chief among those rules is this: Build applications that harness network effects to get better the more people use them.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 153. ¿Web 2.0?
    • ¿Son lo mismo Web 2.0 y Web Semántica?
      • Según Tim Berners-Lee se parecen lo mismo que un huevo a una castaña ( “chalk and cheese” )… Sin embargo, son buenas por separado y mucho mejor juntas
      • Según el W3C ambas se centran en el intercambio y combinación de datos heterogéneos pero la Web Semántica proporciona un modelo más consistente
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 154. ¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 155. ¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 156. ¿Web 2.0?
      • También hay algunos puntos interesantes…
        • People subscribe to each others' sites, and easily link to individual comments on a page, but also, via […] trackbacks , they can see when anyone else links to their pages, and can respond […] Interestingly, two-way links were the goal of early hypertext systems like Xanadu. Hypertext purists have celebrated trackbacks as a step towards two way links.
        • (The Long Tail) Small sites make up the bulk of the internet's content; […] Therefore: Leverage customer-self service and algorithmic data management to reach out to the entire web, to the edges and not just the center, to the long tail and not just the head.
        • The key to competitive advantage in internet applications is the extent to which users add their own data to that which you provide.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 157. ¿Web 2.0?
    • Folksonomía ( folksonomy = folk + taxonomy )
      • Una forma de metadatos
      • Etiquetado colaborativo de recursos en la Web
      • Las etiquetas no proceden de un vocabulario controlado sino que son elegidas libremente por los usuarios
      • La co-ocurrencia de etiquetas lleva a las folksonomías…
      • Otra cuestión es cómo emplearlas (más allá de la búsqueda por “serendipia” )
      • Ejemplos: del.icio.us , flickr, tagzania
      • Problemas: sinonimia, polisemia, acrónimos, términos multipalabra, multilingüismo…
      • Mathes, A. 2004, F olksonomies – Cooperative Classification and Communication Through Shared Metadata
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 158. Filtrado colaborativo
    • Un sistema de filtrado de información procesa grandes volúmenes de datos para transmitir al usuario sólo aquellos items con mayores probabilidades de ser “interesantes”
    • El filtrado puede hacerse en base al contenido de los items o en base al juicio de otros usuarios del sistema (colaborativo)
    • El filtrado colaborativo no es reciente…
      • Goldberg, D., Nichols, D., Oki, B.M. y Terry, D. 1992, “Using Collaborative Filtering to Weave an Information Tapestry”, Com. of the ACM , vol.35, no.12, pp. 61-70.
    • … Amazon lleva usándolo desde hace bastante tiempo ( “Customers who bought this book also bought“ ). Funciona muy bien porque los usuarios “votan con dólares”
    • Otros ejemplos: last.fm (música), IMDB (películas)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 159. Filtrado colaborativo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 160. Personalización
    • No hay talla única. Cada usuario es un mundo…
    • Lo ideal sería darle a cada persona justo lo que necesita
    • El problema es ¿cómo?
      • PageRank personalizado . Recordemos el modelo del random surfer , había una probabilidad d de “saltar” a una página cualquiera de la Web; sin embargo no todas las páginas de la Web tienen que ser equiprobables. Page, L., et al. 1998, The PageRank Citation Ranking: Bringing Order to the Web
      • Inviable, no se puede calcular el PageRank para toda la Web y cada usuario
      • Otra posible solución radicaría en calcular el PageRank tras dividir la Web en subgrafos “temáticos” ; después se personalizaría la consulta en base a la temática de la misma y/o la detectada en el contexto del usuario. Haveliwala, T.H. 2003, “ Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search”, IEEE Transactions on Knowledge and Data Engineering
      • Explotando el historial de búsquedas y consultas. Lawrence, S. 2000, “Context in Web Search”, IEEE Data Engineering Bulletin , vo. 23, no. 3, pp. 25–32
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 161. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 162. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 163. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 164. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 165. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 166. Minería Web by Thorbion
  • 167. Minería web (Web Mining)
    • La extracción de conocimiento de la Web , minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario
    • La minería Web puede dividirse en tres grandes áreas:
      • Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS ); es decir, explotar que la Web es un grafo
      • Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores)
      • Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus )
    • Multidisciplinar: aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 168. Minería web (Web Mining)
    • Los buscadores modernos son un ejemplo del conocimiento que se puede derivar de la estructura topológica de la Web
    • Los sistemas de filtrado colaborativo obtienen conocimiento a partir de las acciones de los usuarios en un sitio web concreto (podría considerarse un caso particular de minería de uso )
    • Aplicar minería de datos a los archivos de log de un servidor web no es nuevo
      • Mobasher, B. et al. 1996, Web Mining: Pattern Discovery from World Wide Web Transactions , informe técnico, Universidad de Minnesota
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 169. Minería web (Web Mining) Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /nol/shared/css/news_r5.css HTTP/1.0&quot; 404 312 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /shared/css/toolbar_banner.css HTTP/1.0&quot; 404 315 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /CursoWeb20/ HTTP/1.0&quot; 200 1894 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/blank.gif HTTP/1.0&quot; 200 148 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/back.gif HTTP/1.0&quot; 200 216 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/folder.gif HTTP/1.0&quot; 200 225 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/compressed.gif HTTP/1.0&quot; 200 1038 En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente ( proxies ) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs) Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 170. Minería web (Web Mining)
    • Objetivos de la extracción de conocimiento a partir de archivos de log :
      • Entender los intereses de los usuarios de un sitio web
      • Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses
      • Facilitar el acceso a la información mediante recomendaciones en tiempo real
    • El último objetivo también puede alcanzarse empleando swarm intelligence
      • Wu, J. y Aberer, K. 2003, “ Swarm Intelligent Surfing in the Web”, ICWE 2003 , LNCS 2722, pp. 431–440
    • Off-topic: video sobre robots, swarm intelligence y rastros de feromonas http://www.youtube.com/watch?v=z3E86D4dKN4
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 171. Minería web (Web Mining)
    • Los motores de búsqueda también disponen de archivos de log en los que se almacena información como:
      • Identificador de sesión
      • Fecha y hora
      • Texto de la consulta
      • URL visitada
      • Posición de la URL visitada dentro de la página de resultados
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 172. Minería web (Web Mining)
    • Los logs de un buscador resultan muy útiles para mejorar la precisión
      • Baeza-Yates, R. 2004, “Query Usage Mining in Search Engines”, en Web Mining: Applications and Techniques
        • After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked).
      • Zhang, D. y Dong, Y. 2002, “A novel Web usage mining approach for search engines”, Computer Networks , vol. 39, no. 3, pp. 303-310
        • A user is “good” if he/she issues many “good” queries, while a queryis “good” if it can retrieve many “good” resources, while a resource is “good” if it is accessed by many
        • “ good” users.
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 173. Minería web (Web Mining)
    • Los logs de un buscador resultan muy útiles para mejorar la precisión
      • Joachims, T. “Optimizing Search Engines Using Clickthrough Data”, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD)
        • http://svmlight.joachims.org/
      • Más artículos interesantes:
        • “ Accurately Interpreting Clickthrough Data as Implicit Feedback”
        • “ Query-Log Based Authority Analysis for Web Information Search”
        • “ Optimizing Web Search using Spreading Activation on the Clickthrough Data”
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 174. Minería web (Web Mining)
    • Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados.
      • Baeza-Yates, R. et al. 2004, “ Query recommendation using query logs in search engines ”, e n Current Trends in Database Technology , LNCS 3268, p. 588-596.
    • Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks ) que retorna cada una
    • Una vez determinados los conjuntos de consultas pueden emplearse para…
      • … ofrecer consultas alternativas
      • … mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores)
    • Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 175. Minería web (Web Mining) A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo)… Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos… … no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P . Si os interesan quizás podáis descargarlos… AOL-data.tgz En 2007 Microsoft volvió a financiar proyectos de investigación relacionados con semantic computing e internet economics proporcionando, aparentemente, el mismo log de consultas que en 2006. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 176. AOL gate Análisis de tendencias Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 177. Análisis de tendencias Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica Google compra YouTube AOL gate
  • 178. Análisis de tendencias Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 179. Análisis de tendencias Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 180. La frecuencia absoluta ya es un indicador interesante La co-ocurrencia de términos es aún más interesante Análisis de tendencias Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 181. Normalized Google Distance
    • Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098
        • The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents . The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense .
    • Normalized Google Distance (NGD)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 182. NGD calculator http://digitalhistory.uwo.ca/cgi-bin/ngd-calculator.cgi Normalized Google Distance
    • Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098
        • The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents . The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense .
    • Normalized Google Distance (NGD)
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 183. Normalized Google Distance Distancias NGD entre algunos pa íses portugal 0 0,02 0,21 0,07 0,23 0,09 0,11 spain 0,02 0 0,18 -0,01 0,15 0,10 0,12 france 0,21 0,18 0 0,16 -0,01 0,20 0,30 italy 0,07 -0,01 0,16 0 0,12 0,11 0,16 germany 0,23 0,15 -0,01 0,12 0 0,17 0,24 belgium 0,09 0,10 0,20 0,11 0,17 0 0,00 netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0 Primer problema: Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado “gruesa” (p.ej. spain 311x10 6 , italy 303x10 6 , spain italy 330x10 6 ) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 184. Normalized Google Distance
    • Segundo problema:
      • ¿Sobre qué “eje” se mide la distancia?
      • En este ejemplo, ¿población? ¿superficie? ¿PIB?
    • En resumen, interesante, inspiradora… Aún se necesita más trabajo…
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica Portugal Belgium Netherlands Spain Germany France Italy
  • 185. by superbez, iwouldstay, wok, hellothomas La Web como corpus
  • 186. Viktor aprende inglés comparando dos guías turísticas de Nueva York La Web como corpus
    • Un corpus es una colección de documentos que muestran el uso real de la lengua natural
    • Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables
    • Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática
      • Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics , vol. 16, no. 2
    • http://video.google.com/videoplay?docid=6934089019347797736
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 187. Viktor aprende inglés comparando dos guías turísticas de Nueva York Google Language API La Web como corpus
    • Un corpus es una colección de documentos que muestran el uso real de la lengua natural
    • Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables
    • Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática
      • Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics , vol. 16, no. 2
    • http://video.google.com/videoplay?docid=6934089019347797736
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 188. La Web como corpus
    • La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web… Sin embargo, es uno de los más espectaculares
    • Trabajos interesantes:
      • Jones, R. y Ghani, R. 2000, “Automatically Building a Corpus for a Minority Language from the Web”, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics , pp. 29–36
      • Resnik, P. y Smith, N.A. 2003, “The Web as a parallel corpus”, Computational Linguistics , vol. 29, no. 3, pp. 349-380
      • Kilgarriff, A. y Grefenstette, G. 2003, “Introduction to the special issue on the web as corpus”, Computational Linguistics , vol. 29, no. 3, pp. 333-347
    • A tener en cuenta: WAC (Web as a Corpus Workshop) , CLEANEVAL
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 189. Para saber más… Manning, C.D. y Schutze, H. 1999, Foundations of statistical natural language processing , MIT Press Chakrabarti, S. 2002, Mining the Web: Discovering Knowledge from Hypertext Data , Morgan Kaufmann Manning, C.D., Raghavan, P. y Schütze, H. 2007, Introduction to Information Retrieval , Cambridge University Press ( online ) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 190. by Saffanna Herramientas, utilidades y recursos
  • 191. Herramientas y utilidades
    • Servicios web
      • Google Search – http://code.google.com/apis/ajaxsearch/
      • Yahoo Search – http://developer.yahoo.com/search/
      • Google Language API – http://code.google.com/apis/ajaxlanguage/
      • Open Calais – http://www.opencalais.com/
      • Yahoo Term Extraction – http://developer.yahoo.com/search/content/V1/termExtraction.html
    • Herramientas
      • Snowball – http://snowball.tartarus.org/
      • Lucene – http://lucene.apache.org/
      • Nutch – http://lucene.apache.org/nutch/
      • JUNG – http://jung.sourceforge.net/
      • WEKA – http://www.cs.waikato.ac.nz/ml/weka/
      • LingPipe – http://alias-i.com/lingpipe/
    Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 192. Evolución by dbostrom
  • 193. by dbostrom Aplicando las técnicas que hemos comentado… … ¿qué nos depara el futuro? ¿Cómo pueden evolucionar los buscadores? Echemos a volar la imaginación “a la Berners-Lee” … 
  • 194. Evolución El presente Lenssen, P. 2007, “Evolution of a search Engine”, Google Blogoscoped , http://blog.outer-court.com/archive/2007-02-02-n25.html Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 195. Evolución El futuro inmediato Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 196. Clustering Resumen automático Evolución El futuro inmediato Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 197. Evolución Verdadera personalización Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 198. Evolución Inferencia Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 199. I'M SORRY, FRANK, BUT I DON'T THINK I CAN ANSWER THAT QUESTION WITHOUT KNOWING EVERYTHING THAT ALL OF YOU KNOW. Evolución … y más allá Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  • 200. by iko
    • Por hoy estuvo bien…
      • ¿Preguntas?
    • Lecturas de hoy
      • Broder, A. 2002, “A taxonomy of web search” , ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10.
      • Wu, J. y Aberer, K. 2003, “Swarm Intelligent Surfing in the Web” , ICWE 2003 , LNCS 2722, pp. 431–440
      • Baeza-Yates, R. et al. 2004, “Query recommendation using query logs in search engines” , en Current Trends in Database Technology , LNCS 3268, p. 588-596.
      • Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098
    • ¿Quieres pasarte al lado oscuro?
  • 201. YVAN EHT NIOJ by parl
  • 202. YVAN EHT NIOJ by parl
    • ¿Qué cosas se han hecho hasta ahora o se están haciendo en el lado oscuro…?
      • Prototipos de sistemas de recuperación de información, resumen automático, identificación de idiomas.
      • Se he preparado un corpus paralelo inglés japonés alineado a nivel de sentencia que se siente muy solo…
      • Un compañero está explorando la forma de aplicar swarm intelligence al campo de la recuperación de información en la Web.
      • Otra compañera ha estudiado distintos algoritmos para obtener redes asociativas a partir de texto plano (un ejemplo a continuación).
      • Varios alumnos están trabajando en la forma de explotar la Web como un corpus libre de ruido sin necesidad de recurrir al screen-scraping .
  • 203. by parl YVAN EHT NIOJ
    • Un ejemplo reciente, se generó una red asociativa para los artículos de la Wikipedia enlazados con el de Pablo Picasso.
      • ¿Qué términos serán los que están más fuertemente asociados con Picasso de los 12.000 términos directamente relacionados?
  • 204. That’s all folks by nobara