Programa de doctorado  “Sistemas y servicios informáticos para Internet”  (2007/08) Departamento de Informática Web Semánt...
Antes de empezar… <ul><li>Evaluación del curso </li></ul><ul><ul><li>La evaluación del curso consistirá en la realización ...
¿Qué vamos a ver los próximos tres días? La  Web-de-datos La Web como fuente de información Presente y futuro de la Web Si...
La  Web-de-datos Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? N...
Cuando éramos suficientemente jóvenes… Suiza, 1989 Sistemas y servicios informáticos para Internet  (2007/08) Departamento...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  1989 ,  Information Management: A Proposal , Informe técni...
Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Sistemas y servicios informáticos para Internet  (2...
Cuando éramos suficientemente jóvenes… Massachusetts (EE.UU.), 12 años después… Sistemas y servicios informáticos para Int...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  et al.   2001 ,  “The Semantic Web”,  Scientific American ...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  et al.   2001 ,  “The Semantic Web”,  Scientific American ...
An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for t...
Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Sistemas y servicios informáticos para Internet  (2...
Cuando éramos suficientemente jóvenes… Reino Unido, 5 años después… Sistemas y servicios informáticos para Internet  (2007...
Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N.  et al.   2006 , “The Semantic Web Revisited”,  IEEE Intellige...
Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N.  et al.   2006 , “The Semantic Web Revisited”,  IEEE Intellige...
Cuando éramos suficientemente jóvenes… Aquí y ahora… Sistemas y servicios informáticos para Internet  (2007/08) Departamen...
Cuando éramos suficientemente jóvenes… Resulta que no era pa’ hoy… Sistemas y servicios informáticos para Internet  (2007/...
Advocatus diaboli <ul><li>Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”,  Journal of the...
Advocatus diaboli <ul><li>Abelson, H. 2005 </li></ul><ul><ul><ul><li>[...]  A lot of the enthusiasm around the SemWeb remi...
Web Semántica es esto… <ul><li>Según el W3C: </li></ul><ul><ul><ul><li>The Semantic Web is a web of data.  </li></ul></ul>...
¿Es esto Web Semántica? Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, ...
¿Es esto Web Semántica? <ul><li>Yahoo! pipes </li></ul><ul><ul><ul><li>Pipes is an interactive feed aggregator and manipul...
¿Es esto Web Semántica? <ul><li>¿Hay combinación de datos? </li></ul><ul><ul><li>Sí </li></ul></ul><ul><li>¿Hay formatos c...
No hay cuchara… <ul><li>Olvidemos el nombre,  Web Semántica… </li></ul><ul><li>Olvidemos la ortodoxia  (ontologías, RDF, e...
No hay cuchara… <ul><li>Extracción de información  (Information Extraction) </li></ul><ul><ul><li>El objetivo fundamental ...
No hay cuchara… <ul><li>Respuesta a preguntas  (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a pr...
No hay cuchara… <ul><li>Traducción automática  (Machine Translation) </li></ul><ul><ul><li>El objetivo de la traducción au...
Recuperación de información Recuperación de información Extracción de términos Extracción de entidades (aprox.) Traducción...
En suma… Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa  Web-de-datos  además de ...
En suma… clustering   folksonomía   click-through data   modelo booleano  modelo vectorial  etiquetado   recuperación de i...
La Web como fuente de información Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar info...
Pero, ¿cuál es el problema real? <ul><li>Algunas cifras  (la mayoría obsoletas): </li></ul><ul><ul><li>Desde 1981 se han g...
Pero, ¿cuál es el problema real? Alvin Tofler (1970) definió la  “sobrecarga de información”  como la condición que se der...
Pero, ¿cuál es el problema real? <ul><li>Se puede decir más alto pero no más claro… </li></ul><ul><ul><ul><li>Me gusta Int...
Reflexionad sobre esto… Pero, ¿cuál es el problema real? (Intermedio) <ul><li>Véronis, J. 2007, “Search: Google-Yahoo Comp...
Pero, ¿cuál es el problema real? (Intermedio) <ul><li>Manber, U. 2007, “Encouraging people to contribute knowledge” </li><...
Pero, ¿cuál es el problema real? (Intermedio) Sistemas y servicios informáticos para Internet  (2007/08) Departamento de I...
De aquellos polvos… <ul><li>Propuesta original para la Web  (Berners-Lee, 1989) </li></ul><ul><ul><li>Evitar pérdida de in...
…  vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está ...
Encontrar información en la Web (antes de  Google ) <ul><li>Directorios </li></ul><ul><li>Bases de datos de enlaces organi...
Encontrar información en la Web (antes de  Google ) <ul><li>Buscadores </li></ul><ul><li>Artefactos  software  que explora...
Encontrar información en la Web (antes de  Google ) Google  cambió el panorama gracias al algoritmo  PageRank Para saber q...
Recuperación de información en dos palabras   (o más…) El término  “recuperación de información”  ( information retrieval ...
Hitos en recuperación de información  (hasta  Google ) <ul><li>1950s </li></ul><ul><ul><li>Primera descripción de un siste...
Hitos en recuperación de información (hasta  Google ) <ul><li>1960s </li></ul><ul><ul><li>Se propone el  modelo vectorial ...
Hitos en recuperación de información (hasta  Google ) <ul><li>1970s </li></ul><ul><ul><li>Por primera vez se señala la nat...
Hitos en recuperación de información (hasta  Google ) <ul><li>1980s </li></ul><ul><ul><li>Se inventa la Semántica Latente....
Hitos en recuperación de información (hasta  Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrollan los primeros busc...
Hitos en recuperación de información (hasta  Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrolla la t écnica  TextT...
STOP! <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En primer lugar,  ¿cómo funcionaban primeros busc...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En primer lugar,  ¿cómo funcionaban primeros busc...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En resumen,  el mejor buscador Web antes de 1998 ...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Un momento, no tan rápido… </li></ul...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Búsqueda booleana </li></ul><ul><ul>...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Búsqueda booleana con medidas de as...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Modelo vectorial </li></ul><ul><ul>...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>tf </li></ul><ul><ul><li>Método par...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Función del coseno  (cosine similar...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Palabras vacías  (stop words) </li>...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Stemming  (reducción a la raíz) </l...
Colección Documentos  relevantes Documentos  resultantes ¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? ...
Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B) ¿Por qué las técnicas  IR...
Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C) ¿Por qué las técnicas  IR  cl...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Precisión  (precision)  y exhaustiv...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En 1998 la cota inferior para la Web era de  320 ...
sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translat...
La Web es un grafo <ul><li>Hasta aquí hemos llegado… </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Lar...
A major search engine result for the query “BILL CLINTON” (The Web cca. 1997) La Web es un grafo Sistemas y servicios info...
Resultados ofrecidos por Google, Yahoo! y Live Search para la query “GEORGE BUSH”. La Web, hoy (aproximadamente) La Web es...
La Web es un grafo <ul><li>Demos un paseo… </li></ul><ul><ul><li>Plagiar , v. Adoptar el pensamiento o el estilo de otro e...
AÚN MÁS OFF-TOPIC La Web es un grafo <ul><li>Sigamos con el paseo… </li></ul><ul><ul><li>Textos  científicos y  citas  con...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for C...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for C...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><ul><li>Jon Kleinberg define los concep...
La Web es un grafo Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5...
La Web es un grafo <ul><li>Google  comienza a operar en 1998 </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy ...
A B C F E D PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y...
A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de In...
A 1 B C F E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informáti...
A B 1 C F E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informáti...
A B C 1 F E D 1 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3,...
A B C F E D 1 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informáti...
A B C F E 1 D 0,50 0,50 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Ov...
A B C F 1 E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informáti...
A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Sistemas y servicios informáticos para Internet  (2007/08) ...
A B C F E D PageRank Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y...
PageRank <ul><li>Algunas características interesantes de  PageRank </li></ul><ul><ul><li>Los valores de  PageRank  calcula...
PageRank <ul><li>Suposiciones sobre la Web… </li></ul><ul><ul><li>Es un grafo fuertemente conectado (desde cualquier nodo ...
PageRank <ul><li>A vueltas de nuevo con el  random surfer… </li></ul><ul><ul><li>El modelo descrito hasta ahora se corresp...
PageRank <ul><li>A vueltas de nuevo con el  random surfer… </li></ul><ul><ul><li>Lo que hay que conseguir es que, de vez e...
PageRank <ul><li>¿Y los nodos sin enlaces salientes? </li></ul><ul><ul><li>Se eliminan para después calcular el  PageRank ...
Búsquedas en la Web con  PageRank <ul><li>Recordemos lo que dijo Marchiori </li></ul><ul><ul><ul><li>[...]  focusing separ...
STOP! <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul...
¿Son adecuados  los buscadores modernos? <ul><li>Estudio realizado sobre  logs  de  AlltheWeb .  Jansen, B.J. y Spink, A. ...
¿Son adecuados  los buscadores modernos? <ul><li>Estudio realizado sobre  logs  de  AlltheWeb .  Jansen, B.J. y Spink, A. ...
¿Son adecuados  los buscadores modernos? <ul><li>Distribución temática de las consultas  (2.503 consultas) </li></ul><ul><...
¿Son adecuados  los buscadores modernos? <ul><li>Más datos  (elaboración propia) </li></ul><ul><ul><li>Relevancia promedio...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Tres escenarios problemáticos </li></ul><ul><ul><li>Bharat, ...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998,  The Pa...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998,  The Pa...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Granjas de enlaces </li></ul><ul><ul><li>Recordemos que el  ...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Google bombing </li></ul><ul><ul><li>Además de emplear la to...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Daños “colaterales”  (usuarios y autores) </li></ul><ul><li>...
(Más)  Problemas del  ranking  basado en hiperenlaces Web Spam Challenge  http://webspam.lip6.fr/ <ul><li>En la Web tambié...
No hay talla única… <ul><li>Los buscadores actuales son muy buenos… </li></ul><ul><ul><li>… localizando sitios web conocid...
…  y recordemos que las suposiciones son falsas <ul><li>La Web no es un grafo fuertemente conectado ,  </li></ul><ul><ul><...
Presente y futuro de la Web ¿Web 2.0? Filtrado colaborativo Personalización Minería Web  (Web Mining) Análisis de tendenci...
¿Web 2.0? <ul><li>O’Reilly, T. 2006,  Web 2.0 Compact Definition: Trying Again  </li></ul><ul><ul><ul><li>Web 2.0 is the b...
¿Web 2.0? <ul><li>¿Son lo mismo Web 2.0 y Web Semántica? </li></ul><ul><ul><li>Según Tim Berners-Lee se parecen lo mismo q...
¿Web 2.0? Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo...
¿Web 2.0? Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo...
¿Web 2.0? <ul><ul><li>También hay algunos puntos interesantes… </li></ul></ul><ul><ul><ul><li>People subscribe to each oth...
¿Web 2.0? <ul><li>Folksonomía  ( folksonomy = folk + taxonomy ) </li></ul><ul><ul><li>Una forma de metadatos </li></ul></u...
Filtrado colaborativo <ul><li>Un sistema de filtrado de información procesa grandes volúmenes de datos para  transmitir al...
Personalización <ul><li>No hay talla única. Cada usuario es un mundo… </li></ul><ul><li>Lo ideal sería darle a cada person...
Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 W...
Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 W...
Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 W...
Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 W...
Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 W...
Minería web   (Web Mining) <ul><li>La  extracción de conocimiento de la Web ,  minería Web  o  Web mining  tiene como obje...
Minería web   (Web Mining) <ul><li>Los  buscadores modernos  son un ejemplo del conocimiento que se puede derivar de la  e...
Minería web   (Web Mining) Todos los servidores web generan archivos de  log  en los que se recoge información sobre las  ...
Minería web   (Web Mining) <ul><li>Objetivos de la extracción de conocimiento a partir de archivos de  log : </li></ul><ul...
Minería web   (Web Mining) <ul><li>Los  motores de búsqueda  también disponen de archivos de  log  en los que se almacena ...
Minería web   (Web Mining) <ul><li>Los  logs  de un buscador resultan muy útiles para mejorar la  precisión </li></ul><ul>...
Minería web   (Web Mining) <ul><li>Los  logs  de un buscador resultan muy útiles para mejorar la  precisión </li></ul><ul>...
Minería web   (Web Mining) <ul><li>Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para  agrupar consultas t...
Minería web   (Web Mining) A mediados de 2006  Microsoft  financió una serie de proyectos de investigación sobre un conjun...
AOL gate Análisis de tendencias Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Ovi...
Análisis de tendencias Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4...
Análisis de tendencias Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4...
Análisis de tendencias Sistemas y servicios informáticos para Internet  (2007/08) Departamento de Informática Oviedo, 3, 4...
La frecuencia absoluta ya es un indicador interesante La co-ocurrencia de términos es aún más interesante Análisis de tend...
Normalized  Google  Distance <ul><li>Cilibrasi, R. y Vitanyi, P. 2005,  Automatic Meaning Discovery Using Google ,  http:/...
Normalized  Google  Distance Distancias  NGD  entre algunos pa íses portugal 0 0,02 0,21 0,07 0,23 0,09 0,11 spain 0,02 0 ...
Normalized  Google  Distance <ul><li>Segundo problema:  </li></ul><ul><ul><li>¿Sobre qué “eje” se mide la distancia? </li>...
Viktor aprende inglés comparando dos guías turísticas de Nueva York La Web como  corpus <ul><li>Un  corpus  es una  colecc...
La Web como  corpus <ul><li>La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de...
Para saber más… Manning, C.D. y Schutze, H. 1999,  Foundations of statistical natural language processing , MIT Press Chak...
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Web Semántica (2008)
Upcoming SlideShare
Loading in …5
×

Web Semántica (2008)

4,043 views
3,963 views

Published on

Presentación correspondiente al curso de doctorado "Web Semántica" (curso 2007/2008)

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,043
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Web Semántica (2008)

  1. 1. Programa de doctorado “Sistemas y servicios informáticos para Internet” (2007/08) Departamento de Informática Web Semántica Oviedo, 3, 4 y 5 de Marzo de 2008
  2. 2. Antes de empezar… <ul><li>Evaluación del curso </li></ul><ul><ul><li>La evaluación del curso consistirá en la realización de un trabajo sobre algún tema relacionado con la Web Semántica y consistente en la escritura y presentación de una comunicación a un congreso simulado </li></ul></ul><ul><ul><li>La comunicación (5 páginas) se presentará durante las clases del curso de doctorado y tiene que ser admitida por los profesores del curso </li></ul></ul><ul><ul><li>La presentación será de 15 minutos con otros 15 minutos para preguntas </li></ul></ul><ul><ul><li>Los alumnos que no puedan asistir a las clases y al congreso simulado presentarán un trabajo con formato de artículo de revista (LNCS, 15 páginas) a entregar el 21 de Abril de 2008 </li></ul></ul><ul><li>Más información en: http://www.di.uniovi.es/~labra/cursos/Doc08UniOvi/ </li></ul><ul><li>Calendario </li></ul><ul><ul><li>L 3, M 4 y X 5 de marzo (Dani Gayo) J 6 y V 7 de marzo (sin clase) L 10 de marzo (Labra) M 11 y X 12 de marzo (videoconferencia en Gijón) J 13 y V 14 de marzo (Labra) X 26, J 27 y V 28 de marzo (Labra + presentación de trabajos) </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  3. 3. ¿Qué vamos a ver los próximos tres días? La Web-de-datos La Web como fuente de información Presente y futuro de la Web Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  4. 4. La Web-de-datos Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? No hay cuchara… En suma… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  5. 5. Cuando éramos suficientemente jóvenes… Suiza, 1989 Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  6. 6. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. 1989 , Information Management: A Proposal , Informe técnico, CERN. </li></ul><ul><ul><ul><li>Keywords can be nodes which stand for a concept. A keyword node is then no different from any other node. One can link documents, etc., to keywords. One can then find keywords by finding any node to which they are related. In this way, documents on similar topics are indirectly linked , through their key concepts. A keyword search then becomes a search starting from a small number of named nodes, and finding nodes which are close to all of them. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  7. 7. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  8. 8. Cuando éramos suficientemente jóvenes… Massachusetts (EE.UU.), 12 años después… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  9. 9. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning , better enabling computers and people to work in cooperation. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>For the semantic web to function, computers must have access to structured collections of information and sets of inference rules that they can use to conduct automated reasoning . </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  10. 10. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings.&quot; </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>[...] the third basic component of the Semantic Web, collections of information called ontologies . </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  11. 11. An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for the Web has a taxonomy and a set of inference rules. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings.&quot; </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>[...] the third basic component of the Semantic Web, collections of information called ontologies . </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  12. 12. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  13. 13. Cuando éramos suficientemente jóvenes… Reino Unido, 5 años después… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  14. 14. Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol. 21, no. 3, pp. 96-101. </li></ul><ul><ul><ul><li>The Semantic Web is a Web of actionable information —information derived from data through a semantic theory for interpreting the symbols. The semantic theory provides an account of “meaning” in which the logical connection of terms establishes interoperability between systems. [...] This simple idea, however, remains largely unrealized . </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  15. 15. Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol.21, no.3, pp. 96-101. </li></ul><ul><ul><ul><li>The Scientific American article assumed that this would be straightforward, but it’s still difficult to achieve in today’s Web. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>Because we haven’t yet delivered large-scale, agent-based mediation, some commentators argue that the Semantic Web has failed to deliver. We argue that agents can only flourish when standards are well established [...] </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The ontologies that will furnish the semantics for the Semantic Web must be developed, managed, and endorsed by practice communities. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  16. 16. Cuando éramos suficientemente jóvenes… Aquí y ahora… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  17. 17. Cuando éramos suficientemente jóvenes… Resulta que no era pa’ hoy… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  18. 18. Advocatus diaboli <ul><li>Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”, Journal of the American Society for Information Science , vol.50, no.12, pp. 1119-1120. </li></ul><ul><ul><ul><li>Ontologies are developed in many communities of research and practice. Unfortunately, there is little communication and mutual learning; thus, efforts are fragmented, resulting in considerable reinvention and less than optimal products. </li></ul></ul></ul><ul><li>Bates, M.J. 2002, “After the Dot-Bomb: Getting Web Information Retrieval Right This Time”, First Monday , vol. 7, no. 7 </li></ul><ul><ul><ul><li>Succumbing to the “ontology” fallacy... </li></ul></ul></ul><ul><li>Shirky, C. 2005. “Ontology is Overrated: Categories, Links and Tags” , <http://www.shirky.com/writings/ontology_overrated.html> </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  19. 19. Advocatus diaboli <ul><li>Abelson, H. 2005 </li></ul><ul><ul><ul><li>[...] A lot of the enthusiasm around the SemWeb reminds me of the AI hullabaloo of the 1980s. [...] Over the past 20 years, AI researchers have come to appreciate the limitations of traditional knowledge representation techniques. It seems that statistical methods and machine learning have proven more productive than reasoning based on ontologies. [...] </li></ul></ul></ul><ul><li>Hendler, J. 2006, “The Dark Side of the Semantic Web” </li></ul><ul><ul><ul><li>[...] the Semantic Web vision of Tim’s, before Ora and I polluted it with all this ontology stuff [...] </li></ul></ul></ul><ul><li>Antoniou, G. 2007, charla invitada durante MTSR’07 </li></ul><ul><ul><ul><li>The semantic web may fail but semantic web technologies will stay. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  20. 20. Web Semántica es esto… <ul><li>Según el W3C: </li></ul><ul><ul><ul><li>The Semantic Web is a web of data. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources , where on the original Web mainly concentrated on the interchange of documents. It is also about language for recording how the data relates to real world objects. That allows a person, or a machine, to start off in one database, and then move through an unending set of databases which are connected not by wires but by being about the same thing. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  21. 21. ¿Es esto Web Semántica? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  22. 22. ¿Es esto Web Semántica? <ul><li>Yahoo! pipes </li></ul><ul><ul><ul><li>Pipes is an interactive feed aggregator and manipulator. Using Pipes, you can create feeds that are more powerful, useful and relevant. </li></ul></ul></ul><ul><li>Tim O'Reilly (febrero 2007) </li></ul><ul><ul><ul><li>Yahoo!'s new Pipes service is a milestone in the history of the internet . It's a service that generalizes the idea of the mashup, [...] [it] allows you to connect internet data sources, process them, and redirect the output. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  23. 23. ¿Es esto Web Semántica? <ul><li>¿Hay combinación de datos? </li></ul><ul><ul><li>Sí </li></ul></ul><ul><li>¿Hay formatos comunes? </li></ul><ul><ul><li>Sí ( RSS y JSON ) </li></ul></ul><ul><li>¿Puede una persona/máquina moverse de una “base de datos” a otra sin solución de continuidad? </li></ul><ul><ul><li>Más o menos… </li></ul></ul><ul><li>¿Usa alguna de las tecnologías propuestas por el W3C? </li></ul><ul><ul><li>Bueeeno… RSS 1.0 se construye a partir de RDF que es una tecnología W3C. </li></ul></ul><ul><li>¿Es Web Semántica? </li></ul><ul><ul><li>No en el sentido ortodoxo, pero tal vez sea un paso para la Web-como-base-de-datos </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  24. 24. No hay cuchara… <ul><li>Olvidemos el nombre, Web Semántica… </li></ul><ul><li>Olvidemos la ortodoxia (ontologías, RDF, etc.) </li></ul><ul><li>¿Qué perseguimos? </li></ul><ul><ul><li>La Web-como-base-de-datos </li></ul></ul><ul><li>¿Alguien más, aparte de la gente-de-la-Web-Semántica , busca más o menos lo mismo? </li></ul><ul><ul><li>Claro  </li></ul></ul><ul><li>¿Por ejemplo? Los siguientes campos en solitario o combinados: </li></ul><ul><ul><li>Extracción de información, de entidades, de términos… </li></ul></ul><ul><ul><li>Respuesta de preguntas. </li></ul></ul><ul><ul><li>Recuperación de información. </li></ul></ul><ul><ul><li>Resumen automático. </li></ul></ul><ul><ul><li>Traducción automática. </li></ul></ul><ul><ul><li>… </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  25. 25. No hay cuchara… <ul><li>Extracción de información (Information Extraction) </li></ul><ul><ul><li>El objetivo fundamental de la extracción de información es obtener información estructurada (fundamentalmente entidades y relaciones entre las mismas) a partir de texto poco o nada estructurado. </li></ul></ul><ul><li>Extracción de entidades (Entity Extraction, Named-Entity Recognition) </li></ul><ul><ul><li>Una subtarea dentro del campo de extracción de información cuyo objetivo es localizar en un texto libre aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares, etc. </li></ul></ul><ul><li>Extracción de términos (Term Extraction) </li></ul><ul><ul><li>Otra subtarea del campo de extracción de información. Su objetivo es localizar términos (palabras o frases) relevantes para el tema de una colección de documentos. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  26. 26. No hay cuchara… <ul><li>Respuesta a preguntas (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez. </li></ul></ul><ul><ul><li>http://start.csail.mit.edu/ </li></ul></ul><ul><li>Recuperación de información (Information Retrieval, IR) </li></ul><ul><ul><li>El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta. </li></ul></ul><ul><li>Resumen automático (Automatic Summarization) </li></ul><ul><ul><li>Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  27. 27. No hay cuchara… <ul><li>Traducción automática (Machine Translation) </li></ul><ul><ul><li>El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe). </li></ul></ul><ul><li>Muchas de estas tareas son módulos en Yahoo! pipes… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  28. 28. Recuperación de información Recuperación de información Extracción de términos Extracción de entidades (aprox.) Traducción automática No hay cuchara… <ul><li>Traducción automática (Machine Translation) </li></ul><ul><ul><li>El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe). </li></ul></ul><ul><li>Muchas de estas tareas son módulos en Yahoo! pipes… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  29. 29. En suma… Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa Web-de-datos además de otras varias para extraer conocimiento de la Web. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  30. 30. En suma… clustering folksonomía click-through data modelo booleano modelo vectorial etiquetado recuperación de información PageRank evaluación stemming relevance feedback relevancia pseudo-relevance feedback búsquedas en la Web HITS NGD tf*idf Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  31. 31. La Web como fuente de información Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar información en la Web (antes de Google ) Recuperación de información en dos palabras (o más…) Hitos en recuperación de información (hasta Google ) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? La Web es un grafo PageRank Búsquedas en la Web con PageRank ¿Son adecuados los buscadores modernos? (Más) Problemas del ranking basado en hiperenlaces No hay talla única… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  32. 32. Pero, ¿cuál es el problema real? <ul><li>Algunas cifras (la mayoría obsoletas): </li></ul><ul><ul><li>Desde 1981 se han generado más de 845 x 10 6 de mensajes en USENET </li></ul></ul><ul><ul><li>Reuters produce 11 x 10 3 artículos diarios </li></ul></ul><ul><ul><li>Springer publicó en 2003 90 x 10 6 palabras en textos científicos </li></ul></ul><ul><ul><li>El tamaño real de la Web es desconocido: </li></ul></ul><ul><ul><ul><li>La Web superficial tiene más de 4 x 10 9 documentos </li></ul></ul></ul><ul><ul><ul><li>La Web oculta puede ser entre 2x y 500x </li></ul></ul></ul><ul><ul><li>Existen más de 70 x 10 6 blogs </li></ul></ul><ul><ul><li>flickr contiene más de 17 x 10 6 fotografías y sus usuarios añaden cada día 1,2 x 10 6 etiquetas </li></ul></ul><ul><ul><li>… </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  33. 33. Pero, ¿cuál es el problema real? Alvin Tofler (1970) definió la “sobrecarga de información” como la condición que se deriva de la incapacidad de la mente humana para enfrentarse a demasiados elementos de información simultáneamente. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  34. 34. Pero, ¿cuál es el problema real? <ul><li>Se puede decir más alto pero no más claro… </li></ul><ul><ul><ul><li>Me gusta Internet. De verdad, me encanta. Siempre que necesito algo de shareware o ver qué tiempo hace en Bogotá soy el primero en hacer zumbar el módem. Pero como fuente de información, es una mierda . Encuentras millones de datos peleándose por hacerse oír, ver y descargar y parece que todo lo que quieres saber está aplastado por la multitud. </li></ul></ul></ul><ul><li>Michael Marshall (2002), The Straw Men (traducción libre) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  35. 35. Reflexionad sobre esto… Pero, ¿cuál es el problema real? (Intermedio) <ul><li>Véronis, J. 2007, “Search: Google-Yahoo Comparison” </li></ul><ul><li><http://aixtal.blogspot.com/2007/11/search-google-yahoo-comparison.html> </li></ul><ul><ul><ul><li>The most surprising result came from the use of Wikipedia. This use was marginal in December 2005. At the time, for all 10 results on the first page, 2% of the links proposed by Google and 4% of those proposed by Yahoo came from Wikipedia. </li></ul></ul></ul><ul><ul><ul><li>The strategies have changed completely. Today 27% of Google’s results on the first link alone come from Wikipedia, as do 31 % of Yahoo’s. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  36. 36. Pero, ¿cuál es el problema real? (Intermedio) <ul><li>Manber, U. 2007, “Encouraging people to contribute knowledge” </li></ul><ul><li><http://googleblog.blogspot.com/2007/12/encouraging-people-to-contribute.html> </li></ul><ul><ul><ul><li>The web contains an enormous amount of information […] But not everything is written nor is everything well organized to make it easily discoverable. There are millions of people who possess useful knowledge that they would love to share, and there are billions of people who can benefit from it [….] many do not share that knowledge today simply because it is not easy enough to do that. </li></ul></ul></ul><ul><ul><ul><li>[…] we [Google] started inviting a selected group of people to try a new, free tool that we are calling &quot;knol&quot;, which stands for a unit of knowledge. Our goal is to encourage people who know a particular subject to write an authoritative article about it. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  37. 37. Pero, ¿cuál es el problema real? (Intermedio) Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  38. 38. De aquellos polvos… <ul><li>Propuesta original para la Web (Berners-Lee, 1989) </li></ul><ul><ul><li>Evitar pérdida de información </li></ul></ul><ul><ul><li>Facilitar acceso a toda la información </li></ul></ul><ul><li>Características que facilitaron crecimiento de la Web </li></ul><ul><ul><li>Naturaleza distribuida (documentos pueden residir en distintas máquinas) </li></ul></ul><ul><ul><li>Hiperenlaces </li></ul></ul><ul><ul><li>Sistema tanto más útil cuantos más documentos contenga </li></ul></ul><ul><li>Reflexiones… </li></ul><ul><ul><li>Búsqueda por palabras clave es un problema </li></ul></ul><ul><ul><li>En la propuesta original los conceptos son nodos idénticos a los documentos </li></ul></ul><ul><li>Desarrollo inicial de la Web </li></ul><ul><ul><li>No hay nodos conceptuales, sólo documentos </li></ul></ul><ul><ul><li>No se implementa método alguno para buscar información </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  39. 39. … vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está aplastado por la multitud. Evolución en el número de servidores web… Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  40. 40. Encontrar información en la Web (antes de Google ) <ul><li>Directorios </li></ul><ul><li>Bases de datos de enlaces organizados en categorías. Los enlaces suelen ser enviados por los responsables del sitio web y pueden existir editores que organicen la información disponible. </li></ul><ul><li>Por ejemplo, CERN (extinto) NCSA (extinto), Yahoo! , ODP/Dmoz </li></ul><ul><li>Problemas </li></ul><ul><ul><li>Muchos sitios web no notifican a los índices de su existencia </li></ul></ul><ul><ul><li>No consiguen indexar la Web al ritmo que crece </li></ul></ul><ul><ul><li>Recuperación de información “tradicional” </li></ul></ul><ul><ul><li>Superabundancia de resultados y escasa relevancia </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  41. 41. Encontrar información en la Web (antes de Google ) <ul><li>Buscadores </li></ul><ul><li>Artefactos software que exploran la Web almacenando en una base de datos parte o todo el texto de los documentos que analizan. Al ir procesando documentos se crea un índice que emplea las palabras que aparecen en cada página web. Cuando un buscador recibe una consulta toma las palabras utilizadas por el usuario y obtiene los documentos indexados por las mismas. </li></ul><ul><li>Por ejemplo, ALIWEB , WebCrawler , Lycos (extintos, permanecen las marcas) </li></ul><ul><li>Problemas </li></ul><ul><ul><li>Cobertura: la base de datos de cada buscador apenas representaba 1/3 de la Web </li></ul></ul><ul><ul><li>Recuperación de información “tradicional” </li></ul></ul><ul><ul><li>Superabundancia de resultados y escasa relevancia </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  42. 42. Encontrar información en la Web (antes de Google ) Google cambió el panorama gracias al algoritmo PageRank Para saber qué cambió, antes hay que entender cómo funciona un sistema de recuperación de información “tradicional” Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  43. 43. Recuperación de información en dos palabras (o más…) El término “recuperación de información” ( information retrieval o IR ) hace referencia al conjunto de procesos necesarios para representar, almacenar, buscar y encontrar información relevante para las consultas de los usuarios. Un sistema de recuperación de información no informa al usuario, simplemente le indica la existencia (o inexistencia) de documentos relativos a la consulta . Aunque, en principio, IR podría referirse a diversas manifestaciones de la información como imágenes, audio, texto, etc. se acepta generalmente que la “recuperación de información” se ocupa únicamente de información textual . “ La recuperación de información es un proceso de ensayo y error … Una consulta no es más que una suposición acerca de los atributos que se espera tenga el documento deseado. En general, se emplea la respuesta del sistema para corregir esa suposición inicial en posteriores intentos .” (Swanson 1977) Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  44. 44. Hitos en recuperación de información (hasta Google ) <ul><li>1950s </li></ul><ul><ul><li>Primera descripción de un sistema IR automático. Utilización de la frecuencia de aparición de un término para determinar su relevancia, uso de stoplists . Luhn, H.P. 1957, “A Statistical Approach to Mechanized Encoding and Searching Information”, IBM Journal of Research and Development , vol. 1, no. 4, pp. 309-317. </li></ul></ul><ul><ul><li>Primera propuesta para un sistema de resumen automático. Luhn, H.P. 1958, “The Automatic Creation of Literature Abstracts”, IBM Journal of Research and Development , vol. 2, no. 2, pp. 159-165. </li></ul></ul><ul><li>1960s </li></ul><ul><ul><li>Primera alternativa “aritmética” a la búsqueda booleana . Maron, M.E. y Kuhns, K.L. 1960, “On relevance, probabilistic indexing and information retrieval”, Journal of the ACM , vol. 7, no. 3, pp. 216-244. </li></ul></ul><ul><ul><li>Primer esfuerzo para la evaluación experimental de sistemas IR . Cleverdon, C.W. 1962, Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems , College of Aeronautics, Reino Unido. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  45. 45. Hitos en recuperación de información (hasta Google ) <ul><li>1960s </li></ul><ul><ul><li>Se propone el modelo vectorial de documentos y medida coseno de similitud . Salton, G. y Lesk, M.E. 1965, “The SMART Automatic Document Retrieval System – An Illustration”, Communications of the ACM , vol. 8, no. 6, pp. 391-398. </li></ul></ul><ul><li>1970s </li></ul><ul><ul><li>Se propone la cluster hypothesis , documentos estrechamente asociados tienden a ser relevantes para las mismas peticiones. Jardine, N. y van Rijsbergen, C.J. 1971, “The use of hierarchic clustering in information retrieval”, Information Storage and Retrieval , vol. 7, pp. 217-240. </li></ul></ul><ul><ul><li>Introducción del concepto idf (inverse document frequency) . Spärck-Jones, K. 1972, “A statistical interpretation of term specificity and its application in retrieval”, Journal of Documentation , vol. 28, no. 1, pp. 11-21. </li></ul></ul><ul><ul><li>Se propone el modelo probabilista de IR . Robertson, S.E. y Spärck-Jones, K. 1976, “Relevance weighting of search terms”, Journal of the ASIS , vol. 27, no. 3, pp. 129-146. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  46. 46. Hitos en recuperación de información (hasta Google ) <ul><li>1970s </li></ul><ul><ul><li>Por primera vez se señala la naturaleza interactiva de los sistemas IR . Swanson, D.R. 1977, “Information retrieval as a trial-and-error process”, Library Quarterly , vol. 47, no. 2. </li></ul></ul><ul><ul><li>Primera colección moderadamente grande, NPL (11.500 documentos). Spärck-Jones, K. y Webster, C.A. 1979, Research in Relevance Weighting , Informe técnico, University of Cambridge. </li></ul></ul><ul><li>1980s </li></ul><ul><ul><li>Se inventa el primer algoritmo de stemming . Porter, M.F. 1980, “An algorithm for suffix stripping”, Program , vol. 14, no. 3, pp. 130-137. </li></ul></ul><ul><ul><li>Se inventan los mapas auto-organizados. Kohonen, T. 1982, “Self-organized formation of topologically correct feature maps”, Biological Cybernetics , 43, pp. 59-69. </li></ul></ul><ul><ul><li>Probabilidad de coincidencia entre dos individuos en el uso de la misma palabra para identificar un concepto está entre el 10 y el 20%. Furnas, G.W., Landauer, T.K., Gómez, L.M. y Dumais, S.T. 1987, “The vocabulary problem in human system communication”, Communications of the ACM , vol. 30, no. 11, pp. 964-971. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  47. 47. Hitos en recuperación de información (hasta Google ) <ul><li>1980s </li></ul><ul><ul><li>Se inventa la Semántica Latente. Dumais, S.T., Furnas, G.W., Landauer, T.K., Deerwester, S. y Harshman, R. 1988, “Using Latent Semantic Analysis to improve access to textual information”, en Human Factors in Computing Systems , CHI’88 Conference Proceedings, pp. 281-285. </li></ul></ul><ul><ul><li>Se inventa la Web. Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN. </li></ul></ul><ul><li>1990s </li></ul><ul><ul><li>Se inventan las Support Vector Machines . Boser, B., Guyon, I. y Vapnik, V. 1992, “A training algorithm for optimal margin classifiers”, en Fifth Annual Workshop on Computational Learning Theory , pp. 144-152. </li></ul></ul><ul><ul><li>Se propone un método para detección de terminología. Dunning, T. 1993, “Accurate methods for the statistics of surprise and coincidence”, en Computational Linguistics , vol. 19, no. 1, pp. 61-74. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  48. 48. Hitos en recuperación de información (hasta Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrollan los primeros buscadores web… Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB”, Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” </li></ul></ul><ul><ul><li>… Y los primeros índices Filo, D. y Yang, J. 1994, Yahoo! </li></ul></ul><ul><ul><li>Desarrollo de sistemas IR “tolerantes”por medio de n-gramas. Cavnar, W.B. 1994, “Using an n-gram-based document representation with a vector processing retrieval model”, en Proceedings of TREC-3 , pp. 269-277. </li></ul></ul><ul><ul><li>Primeros sistemas con pseudo-relevance feedback . Robertson, S.E., Walker, S., Jones, S., Hancock-Beaulieu, M. y Gatford, M. 1994, “Okapi at TREC-2”, en Text REtrieval Conference , pp. 21-34. Buckley, C., Salton, G., Allan, J. y Singhal, A. 1995, “Automatic Query Expansion Using SMART: TREC-3”, en Text REtrieval Conference , pp. 69-80. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  49. 49. Hitos en recuperación de información (hasta Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrolla la t écnica TextTiling para detección de pasajes. Hearst, M.A. 1994, “Multi-Paragraph Segmentation of Expository Text”, en Proceedings of the 32nd Meeting of the Association for Computational Linguistics , pp. 9-16. </li></ul></ul><ul><ul><li>Primeros pasos hacia la Web Semántica. Luke, S., Spector, L. y Rager, D. 1996, “Ontology-Based Knowledge Discovery on the World-Wide Web”, en Working Notes of the Workshop on Internet-Based Information Systems at the 13th National Conference on Artificial Intelligence (AAAI96) . </li></ul></ul><ul><li>1998 ANNO MACHIN Æ INVENT Æ </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  50. 50. STOP! <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul><li>Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN. </li></ul></ul><ul><ul><li>Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB” , Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. </li></ul></ul><ul><ul><li>Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” , [Online], Internet Archive, en Electronic Proceedings of the “Second World Wide Web Conference '94: Mosaic and the Web” , NCSA, Disponible en: <http://web.archive.org/web/20010904075500/http://archive. ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html> </li></ul></ul><ul><ul><li>Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” , [Online], en Proceedings of the ACM Special Interest Group on Networked Information Discovery and Retrieval , Disponible en: <http://web.archive.org/web/19970607125802/ http://fuzine.mt.cs.cmu.edu/mlm/signidr94.html> </li></ul></ul><ul><li>¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas? </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  51. 51. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En primer lugar, ¿cómo funcionaban primeros buscadores? </li></ul><ul><ul><li>ALIWEB: Los administradores de los sitios web debían registrarse en el buscador proporcionando la URL a una ficha descriptiva del sitio (unas pocas palabras clave) que era incluida en una base de datos. No hay información sobre la relevancia de los resultados pero se presume escasa (¿búsqueda booleana?) </li></ul></ul><ul><ul><li>WWW Worm: Para cada documento se almacenaba el título, URL y texto de los enlaces recibidos . Exploraba la Web en busca de nuevos recursos. Usaba egrep para las búsquedas (coincidencia con una expresión regular). </li></ul></ul><ul><ul><li>Web Crawler: También exploraba la Web para localizar nuevos documentos (pero el índice solo podía almacenar 50.000). Empleaba un modelo vectorial y eliminaba palabras vacías. Por primera vez se ofrecen datos sobre exhaustividad (adecuada) y precisión (escasa). </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  52. 52. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En primer lugar, ¿cómo funcionaban primeros buscadores? </li></ul><ul><ul><li>Lycos : También explora la Web en busca de nuevos documentos (no parece tener un límite arbitrario). No indexa el texto completo del documento (título, cabeceras, 100 palabras más relevantes tf*idf y primeras 20 líneas). Como WWW Worm , también utiliza el texto de los enlaces entrantes. No emplea exactamente un modelo vectorial pues el cálculo de la relevancia se hace en base a: número de términos de la consulta que aparecen en el documento, frecuencia de los mismos o proximidad. </li></ul></ul><ul><ul><li>Naturalmente, hubo más buscadores ( Altavista , inktomi , etc.) pero no hay muchos detalles sobre su funcionamiento. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  53. 53. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En resumen, el mejor buscador Web antes de 1998 sería así… </li></ul><ul><ul><li>Empleaba robots para explorar la Web en busca de documentos </li></ul></ul><ul><ul><li>Almacenaba el texto completo de las páginas web además del texto de los enlaces entrantes </li></ul></ul><ul><ul><li>No tenía en cuenta las palabras vacías en documentos ni en consultas </li></ul></ul><ul><ul><li>Los términos podían ponderarse mediante tf*idf </li></ul></ul><ul><ul><li>Retornaba resultados ordenados por relevancia decreciente </li></ul></ul><ul><ul><li>La relevancia se calculaba ad hoc teniendo en cuenta no sólo el peso de los términos según el modelo vectorial sino relativos a la proximidad entre los términos o aspectos de “formateo” (título, cabeceras, etc.) </li></ul></ul><ul><li>Y no funcionaba “bien”… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  54. 54. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Un momento, no tan rápido… </li></ul><ul><ul><li>¿Búsqueda booleana? </li></ul></ul><ul><ul><li>¿Modelo vectorial? </li></ul></ul><ul><ul><li>¿ tf*idf ? </li></ul></ul><ul><ul><li>¿Palabras vacías? </li></ul></ul><ul><ul><li>¿ Stemming ? </li></ul></ul><ul><ul><li>¿Precisión y exhaustividad? </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  55. 55. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Búsqueda booleana </li></ul><ul><ul><li>Modelo bag-of-words , los términos están presentes o no </li></ul></ul><ul><ul><li>Las consultas son expresiones lógicas que combinan términos y operadores lógicos </li></ul></ul><ul><ul><li>Problemas </li></ul></ul><ul><ul><ul><li>Las consultas retornan o demasiados documentos o muy pocos </li></ul></ul></ul><ul><ul><ul><li>No hay ninguna forma de ordenar los resultados por relevancia. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  56. 56. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Búsqueda booleana con medidas de asociación </li></ul><ul><ul><li>Tanto documentos y consultas se representan mediante bags-of-words </li></ul></ul><ul><ul><li>Se dispone de coeficientes que determinan cuán relevante es un documento para una consulta </li></ul></ul><ul><ul><ul><li>Coeficiente de Dice </li></ul></ul></ul><ul><ul><ul><li>Coeficiente de Jaccard </li></ul></ul></ul><ul><ul><ul><li>Coseno </li></ul></ul></ul><ul><ul><ul><li>Coeficiente de solapamiento </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  57. 57. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Modelo vectorial </li></ul><ul><ul><li>Los documentos son puntos en un entorno T -dimensional, donde T es el número de términos diferentes en la colección </li></ul></ul><ul><ul><li>Los términos son generalmente palabras o raíces ( stems ) o lemas de palabras </li></ul></ul><ul><ul><li>Cada coordenada de un vector documental tendrá un peso que será nulo si el término no aparece en el documento y no nulo en caso contrario </li></ul></ul><ul><ul><li>Pueden usarse distintos métodos de ponderación, habitualmente tf*idf </li></ul></ul><ul><ul><li>Es posible definir distancias (y similitudes) entre los documentos de manera algebraica </li></ul></ul><ul><ul><li>La función del coseno es la medida más común </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  58. 58. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>tf </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante </li></ul></ul><ul><li>idf (inverse document frequency) </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean </li></ul></ul><ul><li>tf*idf </li></ul><ul><ul><li>Método para ponderar los términos de un documento que combina los dos anteriores </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  59. 59. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Función del coseno (cosine similarity) </li></ul><ul><ul><li>Medida de similitud empleada en el modelo vectorial </li></ul></ul><ul><ul><li>En la siguiente ecuación n es el número de términos (dimensiones del espacio vectorial) y q i y d i son, respectivamente, el i- ésimo término de los documentos q y d . </li></ul></ul><ul><ul><li>La función del coseno admite una interpretación geométrica sencilla puesto que mide el ángulo formado por los vectores de los documentos a comparar. </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  60. 60. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Palabras vacías (stop words) </li></ul><ul><ul><li>Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto </li></ul></ul><ul><ul><li>Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136. </li></ul></ul><ul><ul><li>Además, ¿qué es una palabra vacía? Por ejemplo, ser </li></ul></ul><ul><ul><ul><li>Verbo (palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>Cadena SER (no es palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>SER Society for Ecological Restoration (no es castellano) </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  61. 61. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Stemming (reducción a la raíz) </li></ul><ul><ul><li>Algoritmos que colapsan múltiples formas de una palabra en un único término. </li></ul></ul><ul><ul><li>Por ejemplo, investigación , investigaciones , investigador , investigadora e investigadores colapsan en investig . En cambio universidad colapsa a univers mientras que universitario lo hace a universitari . </li></ul></ul><ul><ul><li>Aplicando stemming se reduce el número de términos y, al mismo tiempo, se consigue que una misma consulta abarque más palabras (algo que puede ser un problema, p.ej. universo ) </li></ul></ul><ul><ul><li>http://snowball.tartarus.org/ </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  62. 62. Colección Documentos relevantes Documentos resultantes ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  63. 63. Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  64. 64. Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  65. 65. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul><ul><ul><li>En resumen, </li></ul></ul><ul><ul><ul><li>Precisión es el porcentaje de los documentos resultantes que son verdaderamente relevantes </li></ul></ul></ul><ul><ul><ul><li>Exhaustividad es el porcentaje de los documentos relevantes que son retornados al usuario </li></ul></ul></ul><ul><ul><li>Un sistema IR perfecto tendría precisión y exhaustividad 1.00 siempre; sin embargo, eso es imposible . </li></ul></ul><ul><ul><li>Y ahí es donde volvemos a los buscadores Web pre- Google… </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  66. 66. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En 1998 la cota inferior para la Web era de 320 x 10 6 documentos . Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web”, Science , vol. 280, no. 3, pp. 98-100. </li></ul><ul><li>La mayor colección de evaluación de la época tenía “sólo” 7.5 x 10 6 documentos. </li></ul><ul><li>Características de las consultas </li></ul><ul><ul><li>Son muy cortas (casi el 90% constan de 3 términos o menos) Más del 60% son únicas </li></ul></ul><ul><li>Dado el número de documentos y la longitud de las consultas la mayor parte de los resultados eran irrelevantes ≡ </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  67. 67. sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translations ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  68. 68. La Web es un grafo <ul><li>Hasta aquí hemos llegado… </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><ul><ul><li>as of November 1997, only one of the top four commercial search engines finds itself. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>[…] we have seen a major search engine return a page containing only &quot;Bill Clinton Sucks&quot; and picture from a &quot;Bill Clinton&quot; query. […] If a user issues a query like &quot;Bill Clinton&quot; they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  69. 69. A major search engine result for the query “BILL CLINTON” (The Web cca. 1997) La Web es un grafo Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  70. 70. Resultados ofrecidos por Google, Yahoo! y Live Search para la query “GEORGE BUSH”. La Web, hoy (aproximadamente) La Web es un grafo Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  71. 71. La Web es un grafo <ul><li>Demos un paseo… </li></ul><ul><ul><li>Plagiar , v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído. Plagio , s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable. </li></ul></ul><ul><ul><li>… Siempre hay que acreditar las fuentes que hemos usado </li></ul></ul><ul><ul><ul><li>Bierce, A. 1906, The Devil’s Dictionary </li></ul></ul></ul><ul><ul><li>En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis. </li></ul></ul><ul><ul><li>Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad . </li></ul></ul><ul><ul><li>Citando dotamos de autoridad a un tercero… </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  72. 72. AÚN MÁS OFF-TOPIC La Web es un grafo <ul><li>Sigamos con el paseo… </li></ul><ul><ul><li>Textos científicos y citas constituyen los nodos y aristas de un grafo </li></ul></ul><ul><ul><li>Hace ya ¡80 años! que se estudian estos patrones </li></ul></ul><ul><ul><li>Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos </li></ul></ul><ul><ul><li>Los documentos, autores y revistas más citados tendrán mayor autoridad : el (infame) “índice de impacto” . Garfield, E. 1972, “Citation Analysis as a Tool in Journal Evaluation”, Science, vol. 178, pp. 471-479. </li></ul></ul><ul><ul><li>Off-topic: Harzing's Publish or Perish </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  73. 73. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97). </li></ul></ul><ul><ul><ul><li>A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext . </li></ul></ul></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><ul><ul><li>The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. </li></ul></ul></ul><ul><ul><ul><li>Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […] </li></ul></ul></ul><ul><ul><ul><li>This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […] </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  74. 74. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97). </li></ul></ul><ul><ul><ul><li>A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext . </li></ul></ul></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><ul><ul><li>The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. </li></ul></ul></ul><ul><ul><ul><li>Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […] </li></ul></ul></ul><ul><ul><ul><li>This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […] </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  75. 75. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><ul><li>Jon Kleinberg define los conceptos de autoridad y hub </li></ul></ul></ul><ul><ul><ul><li>Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677. </li></ul></ul></ul><ul><ul><li>Una autoridad es un documento fuertemente enlazado </li></ul></ul><ul><ul><li>Un hub es un documento que enlaza a muchas autoridades </li></ul></ul><ul><ul><li>Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes , frente al 40% de Yahoo! (un directorio) o Altavista </li></ul></ul><ul><ul><ul><li>Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7 th World-Wide Web conference , pp. 65-74. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  76. 76. La Web es un grafo Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  77. 77. La Web es un grafo <ul><li>Google comienza a operar en 1998 </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><li>El núcleo de su sistema de ponderación es el algoritmo PageRank , similar al método de Kleinberg </li></ul><ul><ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul></ul><ul><li>El algoritmo asocia a cada documento un valor (tb. PageRank ) de este modo: </li></ul><ul><ul><li>Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientes </li></ul></ul><ul><ul><li>Un documento muy enlazado tendrá un PageRank elevado </li></ul></ul><ul><ul><li>Un documento enlazado desde documentos prestigiosos tendrá un PageRank elevado </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  78. 78. A B C F E D PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  79. 79. A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  80. 80. A 1 B C F E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  81. 81. A B 1 C F E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  82. 82. A B C 1 F E D 1 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  83. 83. A B C F E D 1 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  84. 84. A B C F E 1 D 0,50 0,50 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  85. 85. A B C F 1 E D 0,33 0,33 0,33 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  86. 86. A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  87. 87. A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  88. 88. A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  89. 89. A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  90. 90. A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  91. 91. A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  92. 92. A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  93. 93. A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  94. 94. A B C F E D PageRank Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  95. 95. PageRank <ul><li>Algunas características interesantes de PageRank </li></ul><ul><ul><li>Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces) </li></ul></ul><ul><ul><li>Es relativamente insensible a los valores de “partida” , afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido </li></ul></ul><ul><ul><li>El PageRank total en la Web es constante </li></ul></ul><ul><ul><li>Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar ( random surfer model ) </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  96. 96. PageRank <ul><li>Suposiciones sobre la Web… </li></ul><ul><ul><li>Es un grafo fuertemente conectado (desde cualquier nodo v se puede llegar a cualquier nodo w ) </li></ul></ul><ul><ul><li>Todos los nodos tienen enlaces salientes </li></ul></ul><ul><li>… que son falsas… </li></ul><ul><ul><li>La Web no es un grafo fuertemente conectado , es una pajarita... </li></ul></ul><ul><ul><ul><li>Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference </li></ul></ul></ul><ul><ul><li>Sólo el 90% de la Web está fuertemente conectada </li></ul></ul><ul><li>… así que habrá que usar algún “truco” </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  97. 97. PageRank <ul><li>A vueltas de nuevo con el random surfer… </li></ul><ul><ul><li>El modelo descrito hasta ahora se correspondería con esta ecuación </li></ul></ul><ul><ul><li>que modela a un usuario que va de página en página siguiendo enlaces aleatoriamente, ad infinitum … </li></ul></ul><ul><ul><li>Problema: Aquellas páginas que no forman parte del núcleo fuertemente conectado de la Web siempre tendrán PR nulo… </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  98. 98. PageRank <ul><li>A vueltas de nuevo con el random surfer… </li></ul><ul><ul><li>Lo que hay que conseguir es que, de vez en cuando, el navegante “salte” a una página aleatoriamente. Es decir, en cada página el usuario toma una “decisión” </li></ul></ul><ul><ul><ul><li>Saltar a una página aleatoria con probabilidad d </li></ul></ul></ul><ul><ul><ul><li>Continuar con un enlace al azar de la página actual con probabilidad 1-d </li></ul></ul></ul><ul><ul><li>Este modelo puede representarse según esta ecuación (un valor habitual para d es 0,15) </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  99. 99. PageRank <ul><li>¿Y los nodos sin enlaces salientes? </li></ul><ul><ul><li>Se eliminan para después calcular el PageRank del resto del grafo </li></ul></ul><ul><ul><li>Una vez calculado éste se determina el de los nodos sin enlaces salientes en base al PageRank de sus enlaces entrantes </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  100. 100. Búsquedas en la Web con PageRank <ul><li>Recordemos lo que dijo Marchiori </li></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><li>PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces </li></ul><ul><li>¿Cómo se realizan las búsquedas entonces? (Versión simplificada) </li></ul><ul><ul><li>Se extraen los términos (palabras) de la consulta </li></ul></ul><ul><ul><li>Se localizan documentos que contengan todos los términos </li></ul></ul><ul><ul><li>Se ordenan los documentos obtenidos por PageRank decreciente </li></ul></ul><ul><li>Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  101. 101. STOP! <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul><li>Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web” , Science , vol. 280, no. 3, pp. 98-100. </li></ul></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine” , Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><ul><li>Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment” , en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677. </li></ul></ul><ul><ul><li>Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed” , The 4th International Conference on Internet Computing , pp. 65-69. </li></ul></ul><ul><li>¿Para qué tipo de consultas son adecuados los buscadores actuales? </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  102. 102. ¿Son adecuados los buscadores modernos? <ul><li>Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69. </li></ul><ul><ul><li>24 horas </li></ul></ul><ul><ul><li>150.000 sesiones de usuario </li></ul></ul><ul><ul><li>450.000 consultas </li></ul></ul><ul><ul><li>13% de las consultas eran únicas </li></ul></ul><ul><ul><li>53% de las sesiones constituidas por una única consulta </li></ul></ul><ul><ul><li>54% de las sesiones sólo examinaron primera página de resultados </li></ul></ul><ul><ul><li>54% de las consultas sólo examinaron un único resultado </li></ul></ul><ul><ul><li>66% de las sesiones examinaron de 1 a 5 resultados </li></ul></ul><ul><ul><li>Para 530 consultas evaluadas “manualmente” en el 48,5% de los casos el resultado visitado no era relevante </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  103. 103. ¿Son adecuados los buscadores modernos? <ul><li>Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69. </li></ul><ul><li>Conclusiones Jansen y Spink </li></ul><ul><ul><li>Mayoría de usuarios tienen necesidades de información simples </li></ul></ul><ul><ul><li>Los buscadores resuelven bien este tipo de consultas </li></ul></ul><ul><ul><li>Usuario promedio necesita ver 2 documentos para encontrar 1 relevante </li></ul></ul><ul><li>¿Mis conclusiones? </li></ul><ul><ul><li>Echémosle un ojo a este artículo que trabaja sobre los mismos logs … </li></ul></ul><ul><ul><li>Jansen, B.J. y Spink, A. 2006, “How are we searching the World Wide Web? A comparison of nine search engine transaction logs”, Information Processing and Management </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  104. 104. ¿Son adecuados los buscadores modernos? <ul><li>Distribución temática de las consultas (2.503 consultas) </li></ul><ul><ul><li>People, places or things 22,50% </li></ul></ul><ul><ul><li>Computers or Internet 21,80% </li></ul></ul><ul><ul><li>Commerce, travel, employment, or economy 12,30% </li></ul></ul><ul><ul><li>Entertainment or recreation 9,10% </li></ul></ul><ul><ul><li>Sex and pornography 10,80% </li></ul></ul><ul><ul><li>Health or sciences 7,80% </li></ul></ul><ul><ul><li>Society, culture, ethnicity, or religion 4,80% </li></ul></ul><ul><ul><li>Performing or fine arts 4,70% </li></ul></ul><ul><ul><li>Education or humanities 2,90% </li></ul></ul><ul><ul><li>Government or legal 2,70% </li></ul></ul><ul><ul><li>Non–English or unknown 0,60% </li></ul></ul><ul><li>42,4% de todas las consultas son sobre famosos, ocio y sexo (“fáciles”) </li></ul><ul><li>55%-84% de las consultas más frecuentes son análogas (dependiendo de la lista el porcentaje de sexo varía entre el 3%, el 48% o el 60%) </li></ul><ul><li>Las consultas frecuentes suponen entre el 2% y el 18% del total de consultas </li></ul><ul><li>Este tipo de consultas constituyen el 45% del total… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  105. 105. ¿Son adecuados los buscadores modernos? <ul><li>Más datos (elaboración propia) </li></ul><ul><ul><li>Relevancia promedio de los resultados está, efectivamente, alrededor del 50% </li></ul></ul><ul><ul><li>Sin embargo, ¿cuál es la dispersión? </li></ul></ul><ul><ul><li>20% consultas de la muestra tiene una precisión media del 21% </li></ul></ul><ul><ul><li>23% consultas no obtienen ningún resultado relevante en la primera página </li></ul></ul><ul><ul><li>Estimación: 15%-20% todas las consultas no obtienen resultados relevantes </li></ul></ul><ul><li>Mis conclusiones </li></ul><ul><ul><li>Casi la mitad de las consultas son relativas a famosos, ocio y sexo (es decir, “fáciles” de sastisfacer) </li></ul></ul><ul><ul><li>En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados </li></ul></ul><ul><ul><li>Pero… Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  106. 106. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Tres escenarios problemáticos </li></ul><ul><ul><li>Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval , pp. 104-111. </li></ul></ul><ul><ul><li>Enlaces “nepotistas” </li></ul></ul><ul><ul><ul><li>Cada enlace es un “voto” aunque provengan todos del mismo servidor </li></ul></ul></ul><ul><ul><ul><li>No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search , pp. 23-28. </li></ul></ul></ul><ul><ul><li>Enlaces automáticos </li></ul></ul><ul><ul><ul><li>Todos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto ( Wordpress scandal ) </li></ul></ul></ul><ul><ul><li>Documentos irrelevantes enlazados desde autoridades </li></ul></ul><ul><ul><ul><li>Inevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  107. 107. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul><ul><ul><ul><li>[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  108. 108. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul><ul><ul><ul><li>[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  109. 109. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Granjas de enlaces </li></ul><ul><ul><li>Recordemos que el PageRank total es constante, sólo se reparte entre los nodos </li></ul></ul><ul><ul><li>¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces ? </li></ul></ul><ul><ul><li>Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente </li></ul></ul><ul><ul><li>Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  110. 110. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Google bombing </li></ul><ul><ul><li>Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube ) </li></ul></ul><ul><ul><li>Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones , miserable failure o horrid operating system </li></ul></ul><ul><ul><li>A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica </li></ul></ul><ul><ul><li>Pero… </li></ul></ul><ul><ul><ul><li>Algunas siguen funcionando: horrid operating system </li></ul></ul></ul><ul><ul><ul><li>Búsquedas que deberían funcionar no lo hacen: spanish airlines </li></ul></ul></ul><ul><ul><ul><li>Todos los buscadores son vulnerables a esta técnica </li></ul></ul></ul><ul><ul><li>Off-topic : ¿qué retornan las consultas click here o pinche aquí ? </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  111. 111. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Daños “colaterales” (usuarios y autores) </li></ul><ul><li>La ausencia de “prestigio” no implica carencia de relevancia </li></ul><ul><li>Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario. </li></ul><ul><li>El autor del documento puede no desear tales visitas. </li></ul><ul><li>Algunas consultas reales que me han traído “público”… </li></ul><ul><ul><li>algoritmos genéticos(documentos en inglés) </li></ul></ul><ul><ul><li>que es disertacion doctoral </li></ul></ul><ul><ul><li>articulos o comentarios de prensa sobre algoritmos geneticos </li></ul></ul><ul><li>¿Qué tienen en común? Son consultas informativas , el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10. </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  112. 112. (Más) Problemas del ranking basado en hiperenlaces Web Spam Challenge http://webspam.lip6.fr/ <ul><li>En la Web también hay spam  y es preciso detectarlo y luchar contra él… Por esa razón se habla de adversarial information retrieval </li></ul><ul><li>Algunos artículos interesantes: </li></ul><ul><ul><li>Gyöngyi, Z. et al. 2004, “Combating web spam with TrustRank” Gyöngyi, Z. y Garcia-Molina, H. 2005, “Web spam taxonomy” Fetterly, D. et al. 2004, “Spam, damn spam, and statistics: using statistical analysis to locate spam web pages” Benczúr, A.A. et al. 2005, “SpamRank–Fully Automatic Link Spam Detection Work in progress” Ntoulas, A. et al. 2006, “Detecting spam web pages through content analysis” Becchetti, L. et al. 2006, “Link-Based Characterization and Detection of Web Spam” Castillo, C. et al. 2006, “A reference collection for web spam” </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  113. 113. No hay talla única… <ul><li>Los buscadores actuales son muy buenos… </li></ul><ul><ul><li>… localizando sitios web conocidos/”oficiales” </li></ul></ul><ul><ul><li>… facilitando el acceso a servicios on-line (mapas, tiempo, e-mail , subastas, etc.) </li></ul></ul><ul><ul><li>… resolviendo consultas simples (famosos, ocio y sexo) </li></ul></ul><ul><li>En suma… Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo </li></ul><ul><li>Pero como fuente de información la Web sigue siendo… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  114. 114. … y recordemos que las suposiciones son falsas <ul><li>La Web no es un grafo fuertemente conectado , </li></ul><ul><ul><li>Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference </li></ul></ul><ul><li>Sólo el 90% de la Web está fuertemente conectada </li></ul><ul><li>Meiss, M.R. et al. 2008, “Ranking web sites with real user traffic” </li></ul><ul><ul><ul><li>PageRank ranks sites very differently than actual human traffic, especially for the most important hosts. This finding is interpreted in light of our empirical analysis, showing how each of the random behavior assumptions underlying PageRank is violated : not all links from a site are followed equally, but even more importantly, some sites are much more likely than others to be the starting or ending points of surfing sessions. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  115. 115. Presente y futuro de la Web ¿Web 2.0? Filtrado colaborativo Personalización Minería Web (Web Mining) Análisis de tendencias Normalized Google Distance La Web como corpus Para saber más… Evolución Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  116. 116. ¿Web 2.0? <ul><li>O’Reilly, T. 2006, Web 2.0 Compact Definition: Trying Again </li></ul><ul><ul><ul><li>Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform , and an attempt to understand the rules for success on that new platform. Chief among those rules is this: Build applications that harness network effects to get better the more people use them. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  117. 117. ¿Web 2.0? <ul><li>¿Son lo mismo Web 2.0 y Web Semántica? </li></ul><ul><ul><li>Según Tim Berners-Lee se parecen lo mismo que un huevo a una castaña ( “chalk and cheese” )… Sin embargo, son buenas por separado y mucho mejor juntas </li></ul></ul><ul><ul><li>Según el W3C ambas se centran en el intercambio y combinación de datos heterogéneos pero la Web Semántica proporciona un modelo más consistente </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  118. 118. ¿Web 2.0? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  119. 119. ¿Web 2.0? Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  120. 120. ¿Web 2.0? <ul><ul><li>También hay algunos puntos interesantes… </li></ul></ul><ul><ul><ul><li>People subscribe to each others' sites, and easily link to individual comments on a page, but also, via […] trackbacks , they can see when anyone else links to their pages, and can respond […] Interestingly, two-way links were the goal of early hypertext systems like Xanadu. Hypertext purists have celebrated trackbacks as a step towards two way links. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>(The Long Tail) Small sites make up the bulk of the internet's content; […] Therefore: Leverage customer-self service and algorithmic data management to reach out to the entire web, to the edges and not just the center, to the long tail and not just the head. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>The key to competitive advantage in internet applications is the extent to which users add their own data to that which you provide. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  121. 121. ¿Web 2.0? <ul><li>Folksonomía ( folksonomy = folk + taxonomy ) </li></ul><ul><ul><li>Una forma de metadatos </li></ul></ul><ul><ul><li>Etiquetado colaborativo de recursos en la Web </li></ul></ul><ul><ul><li>Las etiquetas no proceden de un vocabulario controlado sino que son elegidas libremente por los usuarios </li></ul></ul><ul><ul><li>La co-ocurrencia de etiquetas lleva a las folksonomías… </li></ul></ul><ul><ul><li>Otra cuestión es cómo emplearlas (más allá de la búsqueda por “serendipia” ) </li></ul></ul><ul><ul><li>Ejemplos: del.icio.us , flickr, tagzania </li></ul></ul><ul><ul><li>Problemas: sinonimia, polisemia, acrónimos, términos multipalabra, multilingüismo… </li></ul></ul><ul><ul><li>Mathes, A. 2004, F olksonomies – Cooperative Classification and Communication Through Shared Metadata </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  122. 122. Filtrado colaborativo <ul><li>Un sistema de filtrado de información procesa grandes volúmenes de datos para transmitir al usuario sólo aquellos items con mayores probabilidades de ser “interesantes” </li></ul><ul><li>El filtrado puede hacerse en base al contenido de los items o en base al juicio de otros usuarios del sistema (colaborativo) </li></ul><ul><li>El filtrado colaborativo no es reciente… </li></ul><ul><ul><li>Goldberg, D., Nichols, D., Oki, B.M. y Terry, D. 1992, “Using Collaborative Filtering to Weave an Information Tapestry”, Com. of the ACM , vol.35, no.12, pp. 61-70. </li></ul></ul><ul><li>… Amazon lleva usándolo desde hace bastante tiempo ( “Customers who bought this book also bought“ ). Funciona muy bien porque los usuarios “votan con dólares” </li></ul><ul><li>Otros ejemplos: last.fm (música), IMDB (películas) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  123. 123. Personalización <ul><li>No hay talla única. Cada usuario es un mundo… </li></ul><ul><li>Lo ideal sería darle a cada persona justo lo que necesita </li></ul><ul><li>El problema es ¿cómo? </li></ul><ul><ul><li>PageRank personalizado . Recordemos el modelo del random surfer , había una probabilidad d de “saltar” a una página cualquiera de la Web; sin embargo no todas las páginas de la Web tienen que ser equiprobables. Page, L., et al. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul></ul><ul><ul><li>Inviable, no se puede calcular el PageRank para toda la Web y cada usuario </li></ul></ul><ul><ul><li>Otra posible solución radicaría en calcular el PageRank tras dividir la Web en subgrafos “temáticos” ; después se personalizaría la consulta en base a la temática de la misma y/o la detectada en el contexto del usuario. Haveliwala, T.H. 2003, “ Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search”, IEEE Transactions on Knowledge and Data Engineering </li></ul></ul><ul><ul><li>Explotando el historial de búsquedas y consultas. Lawrence, S. 2000, “Context in Web Search”, IEEE Data Engineering Bulletin , vo. 23, no. 3, pp. 25–32 </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  124. 124. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  125. 125. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  126. 126. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  127. 127. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  128. 128. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  129. 129. Minería web (Web Mining) <ul><li>La extracción de conocimiento de la Web , minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario </li></ul><ul><li>La minería Web puede dividirse en tres grandes áreas: </li></ul><ul><ul><li>Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS ) </li></ul></ul><ul><ul><li>Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores) </li></ul></ul><ul><ul><li>Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus ) </li></ul></ul><ul><li>Multidisciplinar: aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  130. 130. Minería web (Web Mining) <ul><li>Los buscadores modernos son un ejemplo del conocimiento que se puede derivar de la estructura topológica de la Web </li></ul><ul><li>Los sistemas de filtrado colaborativo obtienen conocimiento a partir de las acciones de los usuarios en un sitio web concreto (podría considerarse un caso particular de minería de uso ) </li></ul><ul><li>Aplicar minería de datos a los archivos de log de un servidor web no es nuevo </li></ul><ul><ul><li>Mobasher, B. et al. 1996, Web Mining: Pattern Discovery from World Wide Web Transactions , informe técnico, Universidad de Minnesota </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  131. 131. Minería web (Web Mining) Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /nol/shared/css/news_r5.css HTTP/1.0&quot; 404 312 156.35.14.9 - - [17/Oct/2006:20:34:26 +0200] &quot;GET /shared/css/toolbar_banner.css HTTP/1.0&quot; 404 315 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /CursoWeb20/ HTTP/1.0&quot; 200 1894 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/blank.gif HTTP/1.0&quot; 200 148 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/back.gif HTTP/1.0&quot; 200 216 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/folder.gif HTTP/1.0&quot; 200 225 156.35.14.9 - - [17/Oct/2006:20:35:23 +0200] &quot;GET /icons/compressed.gif HTTP/1.0&quot; 200 1038 En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente ( proxies ) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs) Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo) Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  132. 132. Minería web (Web Mining) <ul><li>Objetivos de la extracción de conocimiento a partir de archivos de log : </li></ul><ul><ul><li>Entender los intereses de los usuarios de un sitio web </li></ul></ul><ul><ul><li>Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses </li></ul></ul><ul><ul><li>Facilitar el acceso a la información mediante recomendaciones en tiempo real </li></ul></ul><ul><li>El último objetivo también puede alcanzarse empleando swarm intelligence </li></ul><ul><ul><li>Wu, J. y Aberer, K. 2003, “ Swarm Intelligent Surfing in the Web”, ICWE 2003 , LNCS 2722, pp. 431–440 </li></ul></ul><ul><li>Off-topic: video sobre robots, swarm intelligence y rastros de feromonas http://www.youtube.com/watch?v=z3E86D4dKN4 </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  133. 133. Minería web (Web Mining) <ul><li>Los motores de búsqueda también disponen de archivos de log en los que se almacena información como: </li></ul><ul><ul><li>Identificador de sesión </li></ul></ul><ul><ul><li>Fecha y hora </li></ul></ul><ul><ul><li>Texto de la consulta </li></ul></ul><ul><ul><li>URL visitada </li></ul></ul><ul><ul><li>Posición de la URL visitada dentro de la página de resultados </li></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  134. 134. Minería web (Web Mining) <ul><li>Los logs de un buscador resultan muy útiles para mejorar la precisión </li></ul><ul><ul><li>Baeza-Yates, R. 2004, “Query Usage Mining in Search Engines”, en Web Mining: Applications and Techniques </li></ul></ul><ul><ul><ul><li>After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked). </li></ul></ul></ul><ul><ul><li>Zhang, D. y Dong, Y. 2002, “A novel Web usage mining approach for search engines”, Computer Networks , vol. 39, no. 3, pp. 303-310 </li></ul></ul><ul><ul><ul><li>A user is “good” if he/she issues many “good” queries, while a queryis “good” if it can retrieve many “good” resources, while a resource is “good” if it is accessed by many </li></ul></ul></ul><ul><ul><ul><li>“ good” users. </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  135. 135. Minería web (Web Mining) <ul><li>Los logs de un buscador resultan muy útiles para mejorar la precisión </li></ul><ul><ul><li>Joachims, T. “Optimizing Search Engines Using Clickthrough Data”, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD) </li></ul></ul><ul><ul><ul><li>http://svmlight.joachims.org/ </li></ul></ul></ul><ul><ul><li>Más artículos interesantes: </li></ul></ul><ul><ul><ul><li>“ Accurately Interpreting Clickthrough Data as Implicit Feedback” </li></ul></ul></ul><ul><ul><ul><li>“ Query-Log Based Authority Analysis for Web Information Search” </li></ul></ul></ul><ul><ul><ul><li>“ Optimizing Web Search using Spreading Activation on the Clickthrough Data” </li></ul></ul></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  136. 136. Minería web (Web Mining) <ul><li>Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados. </li></ul><ul><ul><li>Baeza-Yates, R. et al. 2004, “ Query recommendation using query logs in search engines ”, e n Current Trends in Database Technology , LNCS 3268, p. 588-596. </li></ul></ul><ul><li>Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks ) que retorna cada una </li></ul><ul><li>Una vez determinados los conjuntos de consultas pueden emplearse para… </li></ul><ul><ul><li>… ofrecer consultas alternativas </li></ul></ul><ul><ul><li>… mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores) </li></ul></ul><ul><li>Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  137. 137. Minería web (Web Mining) A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo)… Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos… … no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P . Si os interesan quizás podáis descargarlos… AOL-data.tgz En 2007 Microsoft volvió a financiar proyectos de investigación relacionados con semantic computing e internet economics proporcionando, aparentemente, el mismo log de consultas que en 2006. Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  138. 138. AOL gate Análisis de tendencias Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  139. 139. Análisis de tendencias Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica Google compra YouTube AOL gate
  140. 140. Análisis de tendencias Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  141. 141. Análisis de tendencias Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  142. 142. La frecuencia absoluta ya es un indicador interesante La co-ocurrencia de términos es aún más interesante Análisis de tendencias Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  143. 143. Normalized Google Distance <ul><li>Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google , http://arxiv.org/abs/cs.CL/0412098 </li></ul><ul><ul><ul><li>The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents . The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense . </li></ul></ul></ul><ul><li>Normalized Google Distance (NGD) </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  144. 144. Normalized Google Distance Distancias NGD entre algunos pa íses portugal 0 0,02 0,21 0,07 0,23 0,09 0,11 spain 0,02 0 0,18 -0,01 0,15 0,10 0,12 france 0,21 0,18 0 0,16 -0,01 0,20 0,30 italy 0,07 -0,01 0,16 0 0,12 0,11 0,16 germany 0,23 0,15 -0,01 0,12 0 0,17 0,24 belgium 0,09 0,10 0,20 0,11 0,17 0 0,00 netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0 Primer problema: Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado “gruesa” (p.ej. spain 311x10 6 , italy 303x10 6 , spain italy 330x10 6 ) Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  145. 145. Normalized Google Distance <ul><li>Segundo problema: </li></ul><ul><ul><li>¿Sobre qué “eje” se mide la distancia? </li></ul></ul><ul><ul><li>En este ejemplo, ¿población? ¿superficie? ¿PIB? </li></ul></ul><ul><li>En resumen, interesante, inspiradora… Aún se necesita más trabajo… </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica Portugal Belgium Netherlands Spain Germany France Italy
  146. 146. Viktor aprende inglés comparando dos guías turísticas de Nueva York La Web como corpus <ul><li>Un corpus es una colección de documentos que muestran el uso real de la lengua natural </li></ul><ul><li>Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables </li></ul><ul><li>Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática </li></ul><ul><ul><li>Brown, P.F. et al. 1990, “A Statistical Approach to Machine Translation”, Computational Linguistics , vol. 16, no. 2 </li></ul></ul><ul><li>http://video.google.com/videoplay?docid=6934089019347797736 </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  147. 147. La Web como corpus <ul><li>La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web… Sin embargo, es uno de los más espectaculares </li></ul><ul><li>Trabajos interesantes: </li></ul><ul><ul><li>Jones, R. y Ghani, R. 2000, “Automatically Building a Corpus for a Minority Language from the Web”, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics , pp. 29–36 </li></ul></ul><ul><ul><li>Resnik, P. y Smith, N.A. 2003, “The Web as a parallel corpus”, Computational Linguistics , vol. 29, no. 3, pp. 349-380 </li></ul></ul><ul><ul><li>Kilgarriff, A. y Grefenstette, G. 2003, “Introduction to the special issue on the web as corpus”, Computational Linguistics , vol. 29, no. 3, pp. 333-347 </li></ul></ul><ul><li>A tener en cuenta: WAC (Web as a Corpus Workshop) , CLEANEVAL </li></ul>Sistemas y servicios informáticos para Internet (2007/08) Departamento de Informática Oviedo, 3, 4 y 5 de Marzo de 2008 Web Semántica
  148. 148. Para saber más… Manning, C.D. y Schutze, H. 1999, Foundations of statistical natural language processing , MIT Press Chakrabarti, S. 2002, Mining the We

×