Máster en Ingeniería Web  (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Web Semántica Oviedo, 2, 3 y 4 de ...
Antes de empezar… <ul><li>Evaluación de la asignatura </li></ul><ul><ul><li>Cada profesor indicará las tareas a realizar p...
¿Qué vamos a ver los próximos tres días? La  Web-de-datos La Web como fuente de información Presente y futuro de la Web Má...
La  Web-de-datos Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? N...
Cuando éramos suficientemente jóvenes… Suiza, 1989 Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Inform...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  1989 ,  Information Management: A Proposal , Informe técni...
Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingenier...
Cuando éramos suficientemente jóvenes… Massachusetts (EE.UU.), 12 años después… Máster en Ingeniería Web (2007/08) E.U. de...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  et al.   2001 ,  “The Semantic Web”,  Scientific American ...
Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T.  et al.   2001 ,  “The Semantic Web”,  Scientific American ...
An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for t...
Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingenier...
Cuando éramos suficientemente jóvenes… Reino Unido, 5 años después… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería ...
Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N.  et al.   2006 , “The Semantic Web Revisited”,  IEEE Intellige...
Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N.  et al.   2006 , “The Semantic Web Revisited”,  IEEE Intellige...
Cuando éramos suficientemente jóvenes… Aquí y ahora… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Info...
Cuando éramos suficientemente jóvenes… Resulta que no era pa’ hoy… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería T...
by steena Advocatus diaboli
Advocatus diaboli <ul><li>Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”,  Journal of the...
Advocatus diaboli <ul><li>Abelson, H. 2005 </li></ul><ul><ul><ul><li>[...]  A lot of the enthusiasm around the SemWeb remi...
Web Semántica es esto… <ul><li>Según el W3C: </li></ul><ul><ul><ul><li>The Semantic Web is a web of data.  </li></ul></ul>...
¿Es esto Web Semántica? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, ...
¿Es esto Web Semántica? <ul><li>Yahoo! pipes </li></ul><ul><ul><ul><li>Pipes is an interactive feed aggregator and manipul...
¿Es esto Web Semántica? <ul><li>¿Hay combinación de datos? </li></ul><ul><ul><li>Sí </li></ul></ul><ul><li>¿Hay formatos c...
<ul><li>No hay cuchara … </li></ul><ul><ul><li>Olvidemos el nombre… </li></ul></ul><ul><ul><li>Olvidemos la ortodoxia (ont...
No hay cuchara… <ul><li>¿Alguien más,  aparte de la  gente-de-la-Web-Semántica , busca más o menos lo mismo? </li></ul><ul...
No hay cuchara… <ul><li>Extracción de información  (Information Extraction) </li></ul><ul><ul><li>El objetivo fundamental ...
Extracción de términos  (term extraction) <ul><li>Su objetivo es localizar términos (palabras o frases) relevantes para el...
Extracción de términos  (term extraction) <ul><li>Su objetivo es localizar términos (palabras o frases) relevantes para el...
Extracción de entidades (entity extraction, named-entity recognition) <ul><li>Su objetivo es localizar en un texto aquello...
Compañía Término industrial Persona Tecnología Extracción de entidades (entity extraction, named-entity recognition) <ul><...
No hay cuchara… <ul><li>Respuesta a preguntas  (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a pr...
No hay cuchara… <ul><li>Respuesta a preguntas  (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a pr...
No hay cuchara… <ul><li>Traducción automática  (Machine Translation) </li></ul><ul><ul><li>El objetivo de la traducción au...
En suma… Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa  Web-de-datos  además de ...
En suma… clustering   folksonomía   click-through data   modelo booleano  modelo vectorial  etiquetado   recuperación de i...
by evilnick <ul><li>Se puede decir más alto pero no más claro… </li></ul><ul><ul><ul><li>Me gusta Internet. De verdad, me ...
La Web como fuente de información Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar info...
Pero, ¿cuál es el problema real? <ul><li>Algunas cifras  (la mayoría obsoletas): </li></ul><ul><ul><li>Desde 1981 se han g...
Pero, ¿cuál es el problema real? Alvin Tofler (1970) definió la  “sobrecarga de información”  como la condición que se der...
¿Wikipedia killed the search engine? (Intermedio) <ul><li>Véronis, J. 2007, “Search: Google-Yahoo Comparison” </li></ul><u...
Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 W...
¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informá...
¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informá...
Pensemos un poco sobre esto … by galo/* ¿Wikipedia killed the search engine?
De aquellos polvos… <ul><li>Propuesta original para la Web  (Berners-Lee, 1989) </li></ul><ul><ul><li>Evitar pérdida de in...
…  vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está ...
Encontrar información en la Web (antes de  Google ) <ul><li>Directorios </li></ul><ul><li>Bases de datos de enlaces organi...
Encontrar información en la Web (antes de  Google ) <ul><li>Buscadores </li></ul><ul><li>Artefactos  software  que explora...
Encontrar información en la Web (antes de  Google ) Google  cambió el panorama gracias al algoritmo  PageRank Para saber q...
by Irina Souiki Recuperación de información  ( information retrieval  o  IR ) hace referencia al conjunto de procesos nece...
Consulta Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio ...
Documentos  “relevantes” Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2,...
Recuperación de información   (continúo…) Podría referirse a diversas manifestaciones de la información como imágenes, aud...
¡Atención! Pregunta by dhammza
¿Son sistemas de recuperación de información? ¿Por qué? ¿Por qué no? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería...
¿Hay algún tipo de buscador que no sea un sistema de recuperación de información? Máster en Ingeniería Web (2007/08) E.U. ...
retriev r http://labs.systemone.at/retrievr/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática ...
http://www.midomi.com/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3...
Hitos en recuperación de información  (hasta  Google ) <ul><li>1950s </li></ul><ul><ul><li>Primera descripción de un siste...
Hitos en recuperación de información (hasta  Google ) <ul><li>1960s </li></ul><ul><ul><li>Se propone el  modelo vectorial ...
Hitos en recuperación de información (hasta  Google ) <ul><li>1970s </li></ul><ul><ul><li>Por primera vez se señala la nat...
Hitos en recuperación de información (hasta  Google ) <ul><li>1980s </li></ul><ul><ul><li>Se inventa la Semántica Latente....
Hitos en recuperación de información (hasta  Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrollan los primeros busc...
Hitos en recuperación de información (hasta  Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrolla la t écnica  TextT...
by iko <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><u...
by robertvoors ¿Preparados? <ul><li>¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas?  </li></ul>
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En primer lugar,  ¿cómo funcionaban primeros busc...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En primer lugar,  ¿cómo funcionaban primeros busc...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En resumen,  el mejor buscador Web antes de 1998 ...
by Thomas Hawk ¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>Un momento, no tan rápido… </li></...
¿Bag-of-words?  El orden de las palabras es irrelevante. Por ejemplo,  un pobre hombre   y  un hombre pobre  darían lugar ...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de I...
Demasiados resultados… ¿Es el primer resultado más relevante  que el segundo?  (Va a ser que no) ¿Por qué las técnicas  IR...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de I...
¿Sólo 3 resultados? ¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Problemas de la búsqueda booleana </...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Búsqueda booleana con medidas de as...
No todas las palabras son iguales… by fibredesign
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Palabras vacías  (stop words) </li>...
Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta  (algo). ¿Por qué las técnicas  IR  clá...
Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta  (algo). de  la  que el  en  y a los de...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>tf </li></ul><ul><ul><li>Método par...
Cuanto más se repite un término en un documento y menos en la colección más importante/diferenciador resulta… ¿Por qué las...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Stemming  (reducción a la raíz) </l...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Modelo vectorial </li></ul><ul><ul>...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Función del coseno  (cosine similar...
Evaluación de sistemas IR by sergis blog
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>La recuperación de información es u...
<REUTERS TOPICS=&quot;YES&quot; LEWISSPLIT=&quot;TRAIN“ CGISPLIT=&quot;TRAINING-SET&quot; OLDID=&quot;5549“ NEWID=&quot;6&...
<top> <num> C154 </num> <ES-title> Libertad de Expresión en Internet </ES-title> <ES-desc> Encontrar documentos en los que...
Colección Documentos  relevantes Documentos  resultantes ¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? ...
Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B) ¿Por qué las técnicas  IR...
Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C) ¿Por qué las técnicas  IR  cl...
¡Atención! Pregunta by Chris Owens
¿Qué sistema es mejor? ¿Por qué? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Ov...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web?  (Intermedio) <ul><li>Precisión  (precision)  y exhaustiv...
¿Por qué las técnicas  IR  clásicas no funcionan bien en la Web? <ul><li>En 1998 la cota inferior para la Web era de  320 ...
sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translat...
La Web es un grafo <ul><li>Hasta aquí hemos llegado… </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Lar...
A major search engine result for the query “BILL CLINTON” (The Web cca. 1997) La Web es un grafo Máster en Ingeniería Web ...
Resultados ofrecidos por Google, Yahoo! y Live Search para la query “GEORGE BUSH”. La Web, hoy (aproximadamente) La Web es...
La Web es un grafo <ul><li>Demos un paseo… </li></ul><ul><ul><li>Plagiar , v. Adoptar el pensamiento o el estilo de otro e...
La Web es un grafo <ul><li>Sigamos con el paseo… </li></ul><ul><ul><li>Textos  científicos y  citas  constituyen los  nodo...
AÚN MÁS OFF-TOPIC La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Ovied...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for C...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for C...
La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><ul><li>Jon Kleinberg define los concep...
La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4...
La Web es un grafo <ul><li>Google  comienza a operar en 1998 </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy ...
A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y...
A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática ...
A 1 B C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Ovie...
A B 1 C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Ovie...
A B C 1 F E D 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2,...
A B C F E D 1 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Ovie...
A B C F E 1 D 0,50 0,50 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Ov...
A B C F 1 E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Ovie...
A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técni...
A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y...
PageRank <ul><li>Algunas características interesantes de  PageRank </li></ul><ul><ul><li>Los valores de  PageRank  calcula...
PageRank <ul><li>Suposiciones sobre la Web… </li></ul><ul><ul><li>Es un grafo fuertemente conectado (desde cualquier nodo ...
PageRank <ul><li>A vueltas de nuevo con el  random surfer… </li></ul><ul><ul><li>El modelo descrito hasta ahora se corresp...
PageRank <ul><li>A vueltas de nuevo con el  random surfer… </li></ul><ul><ul><li>Lo que hay que conseguir es que, de vez e...
PageRank <ul><li>¿Y los nodos sin enlaces salientes? </li></ul><ul><ul><li>Se eliminan para después calcular el  PageRank ...
Búsquedas en la Web con  PageRank <ul><li>Recordemos lo que dijo Marchiori </li></ul><ul><ul><ul><li>[...]  focusing separ...
by iko <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><u...
by robertvoors ¿Preparados? <ul><li>¿Para qué tipo de consultas son adecuados  los buscadores actuales?  </li></ul>
¿Son adecuados  los buscadores modernos? <ul><li>Estudio realizado sobre  logs  de  AlltheWeb .  Jansen, B.J. y Spink, A. ...
¿Son adecuados  los buscadores modernos? <ul><li>Estudio realizado sobre  logs  de  AlltheWeb .  Jansen, B.J. y Spink, A. ...
¿Son adecuados  los buscadores modernos? <ul><li>Distribución temática de las consultas  (2.503 consultas) </li></ul><ul><...
¿Son adecuados  los buscadores modernos? <ul><li>Más datos  (elaboración propia) </li></ul><ul><ul><li>Relevancia promedio...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Tres escenarios problemáticos </li></ul><ul><ul><li>Bharat, ...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998,  The Pa...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998,  The Pa...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Granjas de enlaces </li></ul><ul><ul><li>Recordemos que el  ...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Google bombing </li></ul><ul><ul><li>Además de emplear la to...
(Más)  Problemas del  ranking  basado en hiperenlaces <ul><li>Daños “colaterales”  (usuarios y autores) </li></ul><ul><li>...
(Más)  Problemas del  ranking  basado en hiperenlaces Web Spam Challenge  http://webspam.lip6.fr/ <ul><li>En la Web tambié...
No hay talla única… <ul><li>Los buscadores actuales son muy buenos… </li></ul><ul><ul><li>… localizando sitios web conocid...
…  y recordemos que las suposiciones son falsas <ul><li>La Web no es un grafo fuertemente conectado ,  </li></ul><ul><ul><...
Presente y futuro de la Web ¿Web 2.0? Filtrado colaborativo Personalización Minería Web  (Web Mining) Análisis de tendenci...
by Markus Angermeier
¿Web 2.0? <ul><li>O’Reilly, T. 2005,  Web 2.0 Compact Definition? </li></ul><ul><ul><ul><li>Web 2.0 is the network as plat...
¿Web 2.0? <ul><li>O’Reilly, T. 2006,  Web 2.0 Compact Definition: Trying Again  </li></ul><ul><ul><ul><li>Web 2.0 is the b...
¿Web 2.0? <ul><li>¿Son lo mismo Web 2.0 y Web Semántica? </li></ul><ul><ul><li>Según Tim Berners-Lee se parecen lo mismo q...
¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio...
¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio...
¿Web 2.0? <ul><ul><li>También hay algunos puntos interesantes… </li></ul></ul><ul><ul><ul><li>People subscribe to each oth...
¿Web 2.0? <ul><li>Folksonomía  ( folksonomy = folk + taxonomy ) </li></ul><ul><ul><li>Una forma de metadatos </li></ul><...
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Web Semántica MIW EUITIO 2008
Upcoming SlideShare
Loading in...5
×

Web Semántica MIW EUITIO 2008

5,045

Published on

Transparencias utilizadas en la parte de la asignatura "Web Semántica" impartida por Daniel Gayo en Junio de 2008 en la EUITIO.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,045
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Web Semántica MIW EUITIO 2008

  1. 1. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Web Semántica Oviedo, 2, 3 y 4 de Junio de 2008
  2. 2. Antes de empezar… <ul><li>Evaluación de la asignatura </li></ul><ul><ul><li>Cada profesor indicará las tareas a realizar para la evaluación de su parte. </li></ul></ul><ul><ul><li>En mi caso habrá que realizar un único trabajo cuya naturaleza dependerá de la “rama” del alumno: </li></ul></ul><ul><ul><ul><li>Rama profesional: ejercicio teórico-práctico sobre SearchMonkey . </li></ul></ul></ul><ul><ul><ul><li>Rama investigadora: ejercicio práctico en base al artículo “Improving Tag-Clouds as Visual Information Retrieval Interfaces” </li></ul></ul></ul><ul><ul><li>La entrega tendrá lugar en la misma fecha que el resto de trabajos de la asignatura, lo único que tenéis que hacer es enviarme un correo electrónico con la URL correspondiente. </li></ul></ul><ul><ul><li>Más información en: http://www.di.uniovi.es/~dani/?doctorado_y_m%E1ster </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  3. 3. ¿Qué vamos a ver los próximos tres días? La Web-de-datos La Web como fuente de información Presente y futuro de la Web Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica ¡Protesto!
  4. 4. La Web-de-datos Cuando éramos suficientemente jóvenes… Advocatus diaboli Web Semántica es esto… ¿Es esto Web Semántica? No hay cuchara… En suma… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  5. 5. Cuando éramos suficientemente jóvenes… Suiza, 1989 Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  6. 6. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. 1989 , Information Management: A Proposal , Informe técnico, CERN. </li></ul><ul><ul><ul><li>Keywords can be nodes which stand for a concept. A keyword node is then no different from any other node. One can link documents, etc., to keywords. One can then find keywords by finding any node to which they are related. In this way, documents on similar topics are indirectly linked , through their key concepts. A keyword search then becomes a search starting from a small number of named nodes, and finding nodes which are close to all of them. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  7. 7. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  8. 8. Cuando éramos suficientemente jóvenes… Massachusetts (EE.UU.), 12 años después… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  9. 9. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning , better enabling computers and people to work in cooperation. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>For the semantic web to function, computers must have access to structured collections of information and sets of inference rules that they can use to conduct automated reasoning . </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  10. 10. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings.&quot; </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>[...] the third basic component of the Semantic Web, collections of information called ontologies . </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  11. 11. An ontology is a document or file that formally defines the relations among terms. The most typical kind of ontology for the Web has a taxonomy and a set of inference rules. Cuando éramos suficientemente jóvenes… <ul><li>Berners-Lee, T. et al. 2001 , “The Semantic Web”, Scientific American , vol. 284, no. 5, pp. 34-43. </li></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings.&quot; </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>[...] the third basic component of the Semantic Web, collections of information called ontologies . </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  12. 12. Cuando éramos suficientemente jóvenes… ¡Genial! ¿Dónde hay que firmar? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  13. 13. Cuando éramos suficientemente jóvenes… Reino Unido, 5 años después… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  14. 14. Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol. 21, no. 3, pp. 96-101. </li></ul><ul><ul><ul><li>The Semantic Web is a Web of actionable information —information derived from data through a semantic theory for interpreting the symbols. The semantic theory provides an account of “meaning” in which the logical connection of terms establishes interoperability between systems. [...] This simple idea, however, remains largely unrealized . </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  15. 15. Cuando éramos suficientemente jóvenes… <ul><li>Shadbolt, N. et al. 2006 , “The Semantic Web Revisited”, IEEE Intelligent Systems , vol.21, no.3, pp. 96-101. </li></ul><ul><ul><ul><li>The Scientific American article assumed that this would be straightforward, but it’s still difficult to achieve in today’s Web. </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>Because we haven’t yet delivered large-scale, agent-based mediation, some commentators argue that the Semantic Web has failed to deliver. We argue that agents can only flourish when standards are well established [...] </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><ul><ul><li>The ontologies that will furnish the semantics for the Semantic Web must be developed, managed, and endorsed by practice communities. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  16. 16. Cuando éramos suficientemente jóvenes… Aquí y ahora… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  17. 17. Cuando éramos suficientemente jóvenes… Resulta que no era pa’ hoy… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  18. 18. by steena Advocatus diaboli
  19. 19. Advocatus diaboli <ul><li>Soergel, D. 1999, “The rise of ontologies or the reinvention of classification”, Journal of the American Society for Information Science , vol.50, no.12, pp. 1119-1120. </li></ul><ul><ul><ul><li>Ontologies are developed in many communities of research and practice. Unfortunately, there is little communication and mutual learning; thus, efforts are fragmented, resulting in considerable reinvention and less than optimal products. </li></ul></ul></ul><ul><li>Bates, M.J. 2002, “After the Dot-Bomb: Getting Web Information Retrieval Right This Time”, First Monday , vol. 7, no. 7 </li></ul><ul><ul><ul><li>Succumbing to the “ontology” fallacy... </li></ul></ul></ul><ul><li>Shirky, C. 2005. “Ontology is Overrated: Categories, Links and Tags” , <http://www.shirky.com/writings/ontology_overrated.html> </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  20. 20. Advocatus diaboli <ul><li>Abelson, H. 2005 </li></ul><ul><ul><ul><li>[...] A lot of the enthusiasm around the SemWeb reminds me of the AI hullabaloo of the 1980s. [...] Over the past 20 years, AI researchers have come to appreciate the limitations of traditional knowledge representation techniques. It seems that statistical methods and machine learning have proven more productive than reasoning based on ontologies. [...] </li></ul></ul></ul><ul><li>Hendler, J. 2006, “The Dark Side of the Semantic Web” </li></ul><ul><ul><ul><li>[...] the Semantic Web vision of Tim’s, before Ora and I polluted it with all this ontology stuff [...] </li></ul></ul></ul><ul><li>Antoniou, G. 2007, charla invitada durante MTSR’07 </li></ul><ul><ul><ul><li>The semantic web may fail but semantic web technologies will stay. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  21. 21. Web Semántica es esto… <ul><li>Según el W3C: </li></ul><ul><ul><ul><li>The Semantic Web is a web of data. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources , where on the original Web mainly concentrated on the interchange of documents. It is also about language for recording how the data relates to real world objects. That allows a person, or a machine, to start off in one database, and then move through an unending set of databases which are connected not by wires but by being about the same thing. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  22. 22. ¿Es esto Web Semántica? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  23. 23. ¿Es esto Web Semántica? <ul><li>Yahoo! pipes </li></ul><ul><ul><ul><li>Pipes is an interactive feed aggregator and manipulator. Using Pipes, you can create feeds that are more powerful, useful and relevant. </li></ul></ul></ul><ul><li>Tim O'Reilly (febrero 2007) </li></ul><ul><ul><ul><li>Yahoo!'s new Pipes service is a milestone in the history of the internet . It's a service that generalizes the idea of the mashup, [...] [it] allows you to connect internet data sources, process them, and redirect the output. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  24. 24. ¿Es esto Web Semántica? <ul><li>¿Hay combinación de datos? </li></ul><ul><ul><li>Sí </li></ul></ul><ul><li>¿Hay formatos comunes? </li></ul><ul><ul><li>Sí ( RSS y JSON ) </li></ul></ul><ul><li>¿Puede una persona/máquina moverse de una “base de datos” a otra sin solución de continuidad? </li></ul><ul><ul><li>Más o menos… </li></ul></ul><ul><li>¿Usa alguna de las tecnologías propuestas por el W3C? </li></ul><ul><ul><li>Bueeeno… RSS 1.0 se construye a partir de RDF que es una tecnología W3C. </li></ul></ul><ul><li>¿Es Web Semántica? </li></ul><ul><ul><li>No en el sentido ortodoxo, pero tal vez sea un paso para la Web-como-base-de-datos </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  25. 25. <ul><li>No hay cuchara … </li></ul><ul><ul><li>Olvidemos el nombre… </li></ul></ul><ul><ul><li>Olvidemos la ortodoxia (ontologías, RDF, …) </li></ul></ul><ul><ul><li>¿Qué perseguimos? </li></ul></ul><ul><ul><li>La Web-como-Base-de-Datos </li></ul></ul>by Kevin Labianco
  26. 26. No hay cuchara… <ul><li>¿Alguien más, aparte de la gente-de-la-Web-Semántica , busca más o menos lo mismo? </li></ul><ul><ul><li>Claro  </li></ul></ul><ul><li>¿Por ejemplo? Los siguientes campos en solitario o combinados: </li></ul><ul><ul><li>Extracción de información, de entidades, de términos… </li></ul></ul><ul><ul><li>Respuesta de preguntas. </li></ul></ul><ul><ul><li>Recuperación de información. </li></ul></ul><ul><ul><li>Resumen automático. </li></ul></ul><ul><ul><li>Traducción automática. </li></ul></ul><ul><ul><li>… </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  27. 27. No hay cuchara… <ul><li>Extracción de información (Information Extraction) </li></ul><ul><ul><li>El objetivo fundamental de la extracción de información es obtener información estructurada (fundamentalmente entidades y relaciones entre las mismas) a partir de texto poco o nada estructurado. </li></ul></ul><ul><li>Extracción de entidades (Entity Extraction, Named-Entity Recognition) </li></ul><ul><ul><li>Una subtarea dentro del campo de extracción de información cuyo objetivo es localizar en un texto libre aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares, etc. </li></ul></ul><ul><li>Extracción de términos (Term Extraction) </li></ul><ul><ul><li>Otra subtarea del campo de extracción de información. Su objetivo es localizar términos (palabras o frases) relevantes para el tema de una colección de documentos. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  28. 28. Extracción de términos (term extraction) <ul><li>Su objetivo es localizar términos (palabras o frases) relevantes para el tema de un documento o una colección de documentos. </li></ul><ul><li>Ejemplo: </li></ul><ul><ul><li>The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  29. 29. Extracción de términos (term extraction) <ul><li>Su objetivo es localizar términos (palabras o frases) relevantes para el tema de un documento o una colección de documentos. </li></ul><ul><li>Ejemplo: </li></ul><ul><ul><li>The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  30. 30. Extracción de entidades (entity extraction, named-entity recognition) <ul><li>Su objetivo es localizar en un texto aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares… </li></ul><ul><li>Ejemplo: </li></ul><ul><ul><li>The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  31. 31. Compañía Término industrial Persona Tecnología Extracción de entidades (entity extraction, named-entity recognition) <ul><li>Su objetivo es localizar en un texto aquellos fragmentos que se corresponden con nombres de personas, organizaciones, lugares… </li></ul><ul><li>Ejemplo: </li></ul><ul><ul><li>The Semantic Web is an evolving extension of the World Wide Web in which the semantics of information and services on the web is defined, making it possible for the web to understand and satisfy the requests of people and machines to use the web content. It derives from W3C director Tim Berners-Lee's vision of the Web as a universal medium for data, information, and knowledge exchange. At its core, the semantic web comprises a set of design principles, collaborative working groups, and a variety of enabling technologies. Some elements of the semantic web are expressed as prospective future possibilities that are yet to be implemented or realized. Other elements of the semantic web are expressed in formal specifications. Some of these include Resource Description Framework (RDF), a variety of data interchange formats (e.g. RDF/XML, N3, Turtle, N-Triples), and notations such as RDF Schema (RDFS) and the Web Ontology Language (OWL), all of which are intended to provide a formal description of concepts, terms, and relationships within a given knowledge domain. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  32. 32. No hay cuchara… <ul><li>Respuesta a preguntas (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez. </li></ul></ul><ul><ul><li>http://start.csail.mit.edu/ </li></ul></ul><ul><li>Recuperación de información (Information Retrieval, IR) </li></ul><ul><ul><li>El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta. </li></ul></ul><ul><li>Resumen automático (Automatic Summarization) </li></ul><ul><ul><li>Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  33. 33. No hay cuchara… <ul><li>Respuesta a preguntas (Question Answering, QA) </li></ul><ul><ul><li>Un sistema de respuesta a preguntas es aquel que permite a los usuarios plantear una pregunta en lenguaje natural y recibir una respuesta concisa (no un documento) con suficiente contexto como para verificar su validez. </li></ul></ul><ul><ul><li>http://start.csail.mit.edu/ </li></ul></ul><ul><li>Recuperación de información (Information Retrieval, IR) </li></ul><ul><ul><li>El término recuperación de información hace referencia, en general, al estudio de sistemas automáticos que permitan a un usuario determinar la existencia o inexistencia de documentos (esto es, textos) relativos a una necesidad de información formulada habitualmente como una consulta. </li></ul></ul><ul><li>Resumen automático (Automatic Summarization) </li></ul><ul><ul><li>Las técnicas de resumen automático tienen como misión obtener a partir de un documento o conjunto de documentos un único texto mucho más corto que aún contenga los aspectos más relevantes de los originales. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  34. 34. No hay cuchara… <ul><li>Traducción automática (Machine Translation) </li></ul><ul><ul><li>El objetivo de la traducción automática es bastante obvio: traducir, sin intervención humana, un texto de un idioma a otro. En la actualidad el paradigma más empleado es el estadístico (empleando modelos generados a partir de grandes cantidades de texto bilingüe). </li></ul></ul><ul><li>Muchas de estas tareas están disponibles como servicios web… </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  35. 35. En suma… Los próximos 3 días vamos a hablar de todas estas técnicas que pueden conducirnos a esa Web-de-datos además de otras varias para extraer conocimiento de la Web. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  36. 36. En suma… clustering folksonomía click-through data modelo booleano modelo vectorial etiquetado recuperación de información PageRank evaluación stemming relevance feedback relevancia pseudo-relevance feedback búsquedas en la Web HITS NGD tf*idf Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  37. 37. by evilnick <ul><li>Se puede decir más alto pero no más claro… </li></ul><ul><ul><ul><li>Me gusta Internet. De verdad, me encanta. Siempre que necesito algo de shareware o ver qué tiempo hace en Bogotá soy el primero en hacer zumbar el módem. Pero como fuente de información, es una mierda . Encuentras millones de datos peleándose por hacerse oír, ver y descargar y parece que todo lo que quieres saber está aplastado por la multitud. </li></ul></ul></ul><ul><li>Michael Marshall (2002), The Straw Men (traducción libre) </li></ul>
  38. 38. La Web como fuente de información Pero, ¿cuál es el problema real? De aquellos polvos… … vienen estos lodos Encontrar información en la Web (antes de Google ) Recuperación de información en dos palabras (o más…) Hitos en recuperación de información (hasta Google ) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? La Web es un grafo PageRank Búsquedas en la Web con PageRank ¿Son adecuados los buscadores modernos? (Más) Problemas del ranking basado en hiperenlaces No hay talla única… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  39. 39. Pero, ¿cuál es el problema real? <ul><li>Algunas cifras (la mayoría obsoletas): </li></ul><ul><ul><li>Desde 1981 se han generado más de 845 x 10 6 de mensajes en USENET </li></ul></ul><ul><ul><li>Reuters produce 11 x 10 3 artículos diarios </li></ul></ul><ul><ul><li>Springer publicó en 2003 90 x 10 6 palabras en textos científicos </li></ul></ul><ul><ul><li>El tamaño real de la Web es desconocido: </li></ul></ul><ul><ul><ul><li>La Web superficial tiene más de 4 x 10 9 documentos </li></ul></ul></ul><ul><ul><ul><li>La Web oculta puede ser entre 2x y 500x </li></ul></ul></ul><ul><ul><li>Existen más de 70 x 10 6 blogs </li></ul></ul><ul><ul><li>flickr contiene más de 17 x 10 6 fotografías y sus usuarios añaden cada día 1,2 x 10 6 etiquetas </li></ul></ul><ul><ul><li>… </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  40. 40. Pero, ¿cuál es el problema real? Alvin Tofler (1970) definió la “sobrecarga de información” como la condición que se deriva de la incapacidad de la mente humana para enfrentarse a demasiados elementos de información simultáneamente. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  41. 41. ¿Wikipedia killed the search engine? (Intermedio) <ul><li>Véronis, J. 2007, “Search: Google-Yahoo Comparison” </li></ul><ul><li><http://aixtal.blogspot.com/2007/11/search-google-yahoo-comparison.html> </li></ul><ul><ul><ul><li>The most surprising result came from the use of Wikipedia. This use was marginal in December 2005. At the time, for all 10 results on the first page, 2% of the links proposed by Google and 4% of those proposed by Yahoo came from Wikipedia. </li></ul></ul></ul><ul><ul><ul><li>The strategies have changed completely. Today 27% of Google’s results on the first link alone come from Wikipedia, as do 31 % of Yahoo’s. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  42. 42. Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica ¿Wikipedia killed the search engine? (Intermedio) <ul><li>Manber, U. 2007, “Encouraging people to contribute knowledge” </li></ul><ul><li><http://googleblog.blogspot.com/2007/12/encouraging-people-to-contribute.html> </li></ul><ul><ul><ul><li>The web contains an enormous amount of information […] But not everything is written nor is everything well organized to make it easily discoverable. There are millions of people who possess useful knowledge that they would love to share, and there are billions of people who can benefit from it [….] many do not share that knowledge today simply because it is not easy enough to do that. </li></ul></ul></ul><ul><ul><ul><li>[…] we [Google] started inviting a selected group of people to try a new, free tool that we are calling &quot;knol&quot;, which stands for a unit of knowledge. Our goal is to encourage people who know a particular subject to write an authoritative article about it. </li></ul></ul></ul>
  43. 43. ¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  44. 44. ¿Wikipedia killed the search engine? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  45. 45. Pensemos un poco sobre esto … by galo/* ¿Wikipedia killed the search engine?
  46. 46. De aquellos polvos… <ul><li>Propuesta original para la Web (Berners-Lee, 1989) </li></ul><ul><ul><li>Evitar pérdida de información </li></ul></ul><ul><ul><li>Facilitar acceso a toda la información </li></ul></ul><ul><li>Características que facilitaron crecimiento de la Web </li></ul><ul><ul><li>Naturaleza distribuida (documentos pueden residir en distintas máquinas) </li></ul></ul><ul><ul><li>Hiperenlaces </li></ul></ul><ul><ul><li>Sistema tanto más útil cuantos más documentos contenga </li></ul></ul><ul><li>Reflexiones… </li></ul><ul><ul><li>Búsqueda por palabras clave es un problema </li></ul></ul><ul><ul><li>En la propuesta original los conceptos son nodos idénticos a los documentos </li></ul></ul><ul><li>Desarrollo inicial de la Web </li></ul><ul><ul><li>No hay nodos conceptuales, sólo documentos </li></ul></ul><ul><ul><li>No se implementa método alguno para buscar información </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  47. 47. … vienen estos lodos Encuentras millones de datos peleándose por hacerse ver y parece que todo lo que quieres saber está aplastado por la multitud. Evolución en el número de servidores web… Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  48. 48. Encontrar información en la Web (antes de Google ) <ul><li>Directorios </li></ul><ul><li>Bases de datos de enlaces organizados en categorías. Los enlaces suelen ser enviados por los responsables del sitio web y pueden existir editores que organicen la información disponible. </li></ul><ul><li>Por ejemplo, CERN (extinto) NCSA (extinto), Yahoo! , ODP/Dmoz </li></ul><ul><li>Problemas </li></ul><ul><ul><li>Muchos sitios web no notifican a los índices de su existencia </li></ul></ul><ul><ul><li>No consiguen indexar la Web al ritmo que crece </li></ul></ul><ul><ul><li>Recuperación de información “tradicional” </li></ul></ul><ul><ul><li>Superabundancia de resultados y escasa relevancia </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  49. 49. Encontrar información en la Web (antes de Google ) <ul><li>Buscadores </li></ul><ul><li>Artefactos software que exploran la Web almacenando en una base de datos parte o todo el texto de los documentos que analizan. Al ir procesando documentos se crea un índice que emplea las palabras que aparecen en cada página web. Cuando un buscador recibe una consulta toma las palabras utilizadas por el usuario y obtiene los documentos indexados por las mismas. </li></ul><ul><li>Por ejemplo, ALIWEB , WebCrawler , Lycos (extintos, permanecen las marcas) </li></ul><ul><li>Problemas </li></ul><ul><ul><li>Cobertura: la base de datos de cada buscador apenas representaba 1/3 de la Web </li></ul></ul><ul><ul><li>Recuperación de información “tradicional” </li></ul></ul><ul><ul><li>Superabundancia de resultados y escasa relevancia </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  50. 50. Encontrar información en la Web (antes de Google ) Google cambió el panorama gracias al algoritmo PageRank Para saber qué cambió, antes hay que entender cómo funciona un sistema de recuperación de información “tradicional” Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  51. 51. by Irina Souiki Recuperación de información ( information retrieval o IR ) hace referencia al conjunto de procesos necesarios para representar, almacenar, buscar y encontrar información relevante para las consultas de los usuarios. Un sistema de recuperación de información simplemente indica la existencia (o inexistencia) de documentos relativos a la consulta.
  52. 52. Consulta Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  53. 53. Documentos “relevantes” Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  54. 54. Recuperación de información (continúo…) Podría referirse a diversas manifestaciones de la información como imágenes, audio, texto, etc. pero se acepta generalmente que la “recuperación de información” se ocupa únicamente de información textual . “ La recuperación de información es un proceso de ensayo y error … Una consulta no es más que una suposición acerca de los atributos que se espera tenga el documento deseado. En general, se emplea la respuesta del sistema para corregir esa suposición inicial en posteriores intentos .” (Swanson 1977) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  55. 55. ¡Atención! Pregunta by dhammza
  56. 56. ¿Son sistemas de recuperación de información? ¿Por qué? ¿Por qué no? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  57. 57. ¿Hay algún tipo de buscador que no sea un sistema de recuperación de información? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  58. 58. retriev r http://labs.systemone.at/retrievr/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  59. 59. http://www.midomi.com/ Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  60. 60. Hitos en recuperación de información (hasta Google ) <ul><li>1950s </li></ul><ul><ul><li>Primera descripción de un sistema IR automático. Utilización de la frecuencia de aparición de un término para determinar su relevancia, uso de stoplists . Luhn, H.P. 1957, “A Statistical Approach to Mechanized Encoding and Searching Information”, IBM Journal of Research and Development , vol. 1, no. 4, pp. 309-317. </li></ul></ul><ul><ul><li>Primera propuesta para un sistema de resumen automático. Luhn, H.P. 1958, “The Automatic Creation of Literature Abstracts”, IBM Journal of Research and Development , vol. 2, no. 2, pp. 159-165. </li></ul></ul><ul><li>1960s </li></ul><ul><ul><li>Primera alternativa “aritmética” a la búsqueda booleana . Maron, M.E. y Kuhns, K.L. 1960, “On relevance, probabilistic indexing and information retrieval”, Journal of the ACM , vol. 7, no. 3, pp. 216-244. </li></ul></ul><ul><ul><li>Primer esfuerzo para la evaluación experimental de sistemas IR . Cleverdon, C.W. 1962, Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems , College of Aeronautics, Reino Unido. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  61. 61. Hitos en recuperación de información (hasta Google ) <ul><li>1960s </li></ul><ul><ul><li>Se propone el modelo vectorial de documentos y medida coseno de similitud . Salton, G. y Lesk, M.E. 1965, “The SMART Automatic Document Retrieval System – An Illustration”, Communications of the ACM , vol. 8, no. 6, pp. 391-398. </li></ul></ul><ul><li>1970s </li></ul><ul><ul><li>Se propone la cluster hypothesis , documentos estrechamente asociados tienden a ser relevantes para las mismas peticiones. Jardine, N. y van Rijsbergen, C.J. 1971, “The use of hierarchic clustering in information retrieval”, Information Storage and Retrieval , vol. 7, pp. 217-240. </li></ul></ul><ul><ul><li>Introducción del concepto idf (inverse document frequency) . Spärck-Jones, K. 1972, “A statistical interpretation of term specificity and its application in retrieval”, Journal of Documentation , vol. 28, no. 1, pp. 11-21. </li></ul></ul><ul><ul><li>Se propone el modelo probabilista de IR . Robertson, S.E. y Spärck-Jones, K. 1976, “Relevance weighting of search terms”, Journal of the ASIS , vol. 27, no. 3, pp. 129-146. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica by Mikelo
  62. 62. Hitos en recuperación de información (hasta Google ) <ul><li>1970s </li></ul><ul><ul><li>Por primera vez se señala la naturaleza interactiva de los sistemas IR . Swanson, D.R. 1977, “Information retrieval as a trial-and-error process”, Library Quarterly , vol. 47, no. 2. </li></ul></ul><ul><ul><li>Primera colección moderadamente grande, NPL (11.500 documentos). Spärck-Jones, K. y Webster, C.A. 1979, Research in Relevance Weighting , Informe técnico, University of Cambridge. </li></ul></ul><ul><li>1980s </li></ul><ul><ul><li>Se inventa el primer algoritmo de stemming . Porter, M.F. 1980, “An algorithm for suffix stripping”, Program , vol. 14, no. 3, pp. 130-137. </li></ul></ul><ul><ul><li>Se inventan los mapas auto-organizados. Kohonen, T. 1982, “Self-organized formation of topologically correct feature maps”, Biological Cybernetics , 43, pp. 59-69. </li></ul></ul><ul><ul><li>Probabilidad de coincidencia entre dos individuos en el uso de la misma palabra para identificar un concepto está entre el 10 y el 20%. Furnas, G.W., Landauer, T.K., Gómez, L.M. y Dumais, S.T. 1987, “The vocabulary problem in human system communication”, Communications of the ACM , vol. 30, no. 11, pp. 964-971. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  63. 63. Hitos en recuperación de información (hasta Google ) <ul><li>1980s </li></ul><ul><ul><li>Se inventa la Semántica Latente. Dumais, S.T., Furnas, G.W., Landauer, T.K., Deerwester, S. y Harshman, R. 1988, “Using Latent Semantic Analysis to improve access to textual information”, en Human Factors in Computing Systems , CHI’88 Conference Proceedings, pp. 281-285. </li></ul></ul><ul><ul><li>Se inventa la Web. Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN. </li></ul></ul><ul><li>1990s </li></ul><ul><ul><li>Se inventan las Support Vector Machines . Boser, B., Guyon, I. y Vapnik, V. 1992, “A training algorithm for optimal margin classifiers”, en Fifth Annual Workshop on Computational Learning Theory , pp. 144-152. </li></ul></ul><ul><ul><li>Se propone un método para detección de terminología. Dunning, T. 1993, “Accurate methods for the statistics of surprise and coincidence”, en Computational Linguistics , vol. 19, no. 1, pp. 61-74. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  64. 64. Hitos en recuperación de información (hasta Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrollan los primeros buscadores web… Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB”, Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” </li></ul></ul><ul><ul><li>… Y los primeros índices Filo, D. y Yang, J. 1994, Yahoo! </li></ul></ul><ul><ul><li>Desarrollo de sistemas IR “tolerantes”por medio de n-gramas. Cavnar, W.B. 1994, “Using an n-gram-based document representation with a vector processing retrieval model”, en Proceedings of TREC-3 , pp. 269-277. </li></ul></ul><ul><ul><li>Primeros sistemas con pseudo-relevance feedback . Robertson, S.E., Walker, S., Jones, S., Hancock-Beaulieu, M. y Gatford, M. 1994, “Okapi at TREC-2”, en Text REtrieval Conference , pp. 21-34. Buckley, C., Salton, G., Allan, J. y Singhal, A. 1995, “Automatic Query Expansion Using SMART: TREC-3”, en Text REtrieval Conference , pp. 69-80. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  65. 65. Hitos en recuperación de información (hasta Google ) <ul><li>1990s </li></ul><ul><ul><li>Se desarrolla la t écnica TextTiling para detección de pasajes. Hearst, M.A. 1994, “Multi-Paragraph Segmentation of Expository Text”, en Proceedings of the 32nd Meeting of the Association for Computational Linguistics , pp. 9-16. </li></ul></ul><ul><ul><li>Primeros pasos hacia la Web Semántica. Luke, S., Spector, L. y Rager, D. 1996, “Ontology-Based Knowledge Discovery on the World-Wide Web”, en Working Notes of the Workshop on Internet-Based Information Systems at the 13th National Conference on Artificial Intelligence (AAAI96) . </li></ul></ul><ul><li>1998 ANNO MACHIN Æ INVENT Æ </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  66. 66. by iko <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul><li>Berners-Lee, T. 1989, Information Management: A Proposal , Informe técnico, CERN. </li></ul></ul><ul><ul><li>Koster, M. 1994, “ALIWEB – Archie-Like Indexing in the WEB” , Computer Networks and ISDN Systems , vol. 27, no. 2, pp. 175-182. </li></ul></ul><ul><ul><li>Pinkerton, B. 1994, “Finding what people want: Experiences with the WebCrawler” , en Electronic Proceedings of the “Second World Wide Web Conference '94: Mosaic and the Web” </li></ul></ul><ul><ul><li>Mauldin, M.L. y Leavitt, J.R.R. 1994, “Web Agent Related Research at the Center for Machine Translation” , en Proceedings of the ACM Special Interest Group on Networked Information Discovery and Retrieval </li></ul></ul><ul><li>¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas? </li></ul>
  67. 67. by robertvoors ¿Preparados? <ul><li>¿En qué se diferencian las búsquedas en la Web de otro tipo de búsquedas? </li></ul>
  68. 68. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En primer lugar, ¿cómo funcionaban primeros buscadores? </li></ul><ul><ul><li>ALIWEB: Los administradores de los sitios web debían registrarse en el buscador proporcionando la URL a una ficha descriptiva del sitio (unas pocas palabras clave) que era incluida en una base de datos. No hay información sobre la relevancia de los resultados pero se presume escasa (¿búsqueda booleana?) </li></ul></ul><ul><ul><li>WWW Worm: Para cada documento se almacenaba el título, URL y texto de los enlaces recibidos . Exploraba la Web en busca de nuevos recursos. Usaba egrep para las búsquedas (coincidencia con una expresión regular). </li></ul></ul><ul><ul><li>Web Crawler: También exploraba la Web para localizar nuevos documentos (pero el índice solo podía almacenar 50.000). Empleaba un modelo vectorial y eliminaba palabras vacías. Por primera vez se ofrecen datos sobre exhaustividad (adecuada) y precisión (escasa). </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  69. 69. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En primer lugar, ¿cómo funcionaban primeros buscadores? </li></ul><ul><ul><li>Lycos : También explora la Web en busca de nuevos documentos (no parece tener un límite arbitrario). No indexa el texto completo del documento (título, cabeceras, 100 palabras más relevantes tf*idf y primeras 20 líneas). Como WWW Worm , también utiliza el texto de los enlaces entrantes. No emplea exactamente un modelo vectorial pues el cálculo de la relevancia se hace en base a: número de términos de la consulta que aparecen en el documento, frecuencia de los mismos o proximidad. </li></ul></ul><ul><ul><li>Naturalmente, hubo más buscadores ( Altavista , inktomi , etc.) pero no hay muchos detalles sobre su funcionamiento. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  70. 70. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En resumen, el mejor buscador Web antes de 1998 sería así… </li></ul><ul><ul><li>Empleaba robots para explorar la Web en busca de documentos </li></ul></ul><ul><ul><li>Almacenaba el texto completo de las páginas web además del texto de los enlaces entrantes </li></ul></ul><ul><ul><li>No tenía en cuenta las palabras vacías en documentos ni en consultas </li></ul></ul><ul><ul><li>Los términos podían ponderarse mediante tf*idf </li></ul></ul><ul><ul><li>Retornaba resultados ordenados por relevancia decreciente </li></ul></ul><ul><ul><li>La relevancia se calculaba ad hoc teniendo en cuenta no sólo el peso de los términos según el modelo vectorial sino relativos a la proximidad entre los términos o aspectos de “formateo” (título, cabeceras, etc.) </li></ul></ul><ul><li>Y no funcionaba “bien”… </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  71. 71. by Thomas Hawk ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>Un momento, no tan rápido… </li></ul><ul><ul><li>¿Búsqueda booleana? </li></ul></ul><ul><ul><li>¿Modelo vectorial? </li></ul></ul><ul><ul><li>¿ tf*idf ? </li></ul></ul><ul><ul><li>¿Palabras vacías? </li></ul></ul><ul><ul><li>¿ Stemming ? </li></ul></ul><ul><ul><li>¿Precisión y exhaustividad? </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  72. 72. ¿Bag-of-words? El orden de las palabras es irrelevante. Por ejemplo, un pobre hombre y un hombre pobre darían lugar a la misma representación. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Búsqueda booleana </li></ul><ul><ul><li>Modelo bag-of-words , los términos están presentes o no </li></ul></ul><ul><ul><li>Las consultas son expresiones lógicas que combinan términos y operadores lógicos </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  73. 73. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  74. 74. Demasiados resultados… ¿Es el primer resultado más relevante que el segundo? (Va a ser que no) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  75. 75. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  76. 76. ¿Sólo 3 resultados? ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  77. 77. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Problemas de la búsqueda booleana </li></ul><ul><ul><li>Las consultas retornan o demasiados documentos o muy pocos </li></ul></ul><ul><ul><li>No hay ninguna forma de ordenar los resultados por relevancia. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  78. 78. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Búsqueda booleana con medidas de asociación </li></ul><ul><ul><li>Tanto documentos y consultas se representan mediante bags-of-words </li></ul></ul><ul><ul><li>Se dispone de coeficientes que determinan cuán relevante es un documento para una consulta </li></ul></ul><ul><ul><ul><li>Coeficiente de Dice </li></ul></ul></ul><ul><ul><ul><li>Coeficiente de Jaccard </li></ul></ul></ul><ul><ul><ul><li>Coseno </li></ul></ul></ul><ul><ul><ul><li>Coeficiente de solapamiento </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  79. 79. No todas las palabras son iguales… by fibredesign
  80. 80. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Palabras vacías (stop words) </li></ul><ul><ul><li>Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto </li></ul></ul><ul><ul><li>Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136. </li></ul></ul><ul><ul><li>Además, ¿qué es una palabra vacía? Por ejemplo, ser </li></ul></ul><ul><ul><ul><li>Verbo (palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>Cadena SER (no es palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>SER Society for Ecological Restoration (no es castellano) </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  81. 81. Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta (algo). ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Palabras vacías (stop words) </li></ul><ul><ul><li>Se denominan stop words o palabras vacías aquellas palabras que , a pesar de un uso frecuente , aportan por sí solas poco significado a un texto </li></ul></ul><ul><ul><li>Eliminarlas no siempre es una buena idea. Riloff, E. 1995, “Little words can make a big difference for text classification”, en Proceedings of the 18 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval , pp. 130-136. </li></ul></ul><ul><ul><li>Además, ¿qué es una palabra vacía? Por ejemplo, ser </li></ul></ul><ul><ul><ul><li>Verbo (palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>Cadena SER (no es palabra vacía) </li></ul></ul></ul><ul><ul><ul><li>SER Society for Ecological Restoration (no es castellano) </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  82. 82. Los buscadores web antes ignoraban las palabras vacías. Ahora las tienen en cuenta (algo). de la que el en y a los del se las por un para con no una su al es lo como más i me my myself we our ours ourselves you your yours yourself yourselves he him his himself she her hers herself it its au aux avec ce ces dans de des du elle en et eux il je la le leur lui ma mais me même ad al allo ai agli all agl alla alle con col coi da dal dallo dai dagli dall dagl dalla dalle di del de a o que e do da em um para é com não uma os no se na por mais as dos como ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  83. 83. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>tf </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante </li></ul></ul><ul><li>idf (inverse document frequency) </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean </li></ul></ul><ul><li>tf*idf </li></ul><ul><ul><li>Método para ponderar los términos de un documento que combina los dos anteriores </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  84. 84. Cuanto más se repite un término en un documento y menos en la colección más importante/diferenciador resulta… ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>tf </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base a la frecuencia de aparición de los mismos en el propio documento; se supone que un término muy repetido será muy importante </li></ul></ul><ul><li>idf (inverse document frequency) </li></ul><ul><ul><li>Método para ponderar los términos de un documento en base al número de documentos de la colección que los contienen. Un término es tanto más informativo (i.e. importante) cuanto menor es el número de documentos que lo emplean </li></ul></ul><ul><li>tf*idf </li></ul><ul><ul><li>Método para ponderar los términos de un documento que combina los dos anteriores </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  85. 85. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Stemming (reducción a la raíz) </li></ul><ul><ul><li>Algoritmos que colapsan múltiples formas de una palabra en un único término. </li></ul></ul><ul><ul><li>Por ejemplo, investigación , investigaciones , investigador , investigadora e investigadores colapsan en investig . En cambio universidad colapsa a univers mientras que universitario lo hace a universitari . </li></ul></ul><ul><ul><li>Aplicando stemming se reduce el número de términos y, al mismo tiempo, se consigue que una misma consulta abarque más palabras (algo que puede ser un problema, p.ej. universo ) </li></ul></ul><ul><ul><li>http://snowball.tartarus.org/ </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  86. 86. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Modelo vectorial </li></ul><ul><ul><li>Los documentos son puntos en un entorno T -dimensional, donde T es el número de términos diferentes en la colección </li></ul></ul><ul><ul><li>Los términos son generalmente palabras o raíces ( stems ) o lemas de palabras </li></ul></ul><ul><ul><li>Cada coordenada de un vector documental tendrá un peso que será nulo si el término no aparece en el documento y no nulo en caso contrario </li></ul></ul><ul><ul><li>Pueden usarse distintos métodos de ponderación, habitualmente tf*idf </li></ul></ul><ul><ul><li>Es posible definir distancias (y similitudes) entre los documentos de manera algebraica </li></ul></ul><ul><ul><li>La función del coseno es la medida más común </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  87. 87. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Función del coseno (cosine similarity) </li></ul><ul><ul><li>Medida de similitud empleada en el modelo vectorial </li></ul></ul><ul><ul><li>En la siguiente ecuación n es el número de términos (dimensiones del espacio vectorial) y q i y d i son, respectivamente, el i- ésimo término de los documentos q y d . </li></ul></ul><ul><ul><li>La función del coseno admite una interpretación geométrica sencilla puesto que mide el ángulo formado por los vectores de los documentos a comparar. </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  88. 88. Evaluación de sistemas IR by sergis blog
  89. 89. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra. </li></ul><ul><li>Elementos necesarios para evaluar un sistema IR: </li></ul><ul><ul><li>Una colección de documentos. </li></ul></ul><ul><ul><li>Una lista de necesidades de información expresables como consultas </li></ul></ul><ul><ul><li>Un conjunto de juicios de relevancia para cada par (documento, necesidad de información) </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  90. 90. <REUTERS TOPICS=&quot;YES&quot; LEWISSPLIT=&quot;TRAIN“ CGISPLIT=&quot;TRAINING-SET&quot; OLDID=&quot;5549“ NEWID=&quot;6&quot;> <DATE>26-FEB-1987 15:14:36.41</DATE> <TOPICS><D>veg-oil</D> … <D>wheat</D></TOPICS> <PLACES><D>argentina</D></PLACES> <PEOPLE></PEOPLE> <ORGS></ORGS> <EXCHANGES></EXCHANGES> <COMPANIES></COMPANIES> <UNKNOWN> G f0754 reuter f BC-ARGENTINE-1986/87-GRA 02-26 0066 </UNKNOWN> <TEXT> <TITLE> ARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONS </TITLE> <DATELINE> BUENOS AIRES, Feb 26 - </DATELINE> <BODY> Argentine grain board figures show crop … </BODY> </TEXT> </REUTERS> Un documento de la colección Reuters-21578 ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra. </li></ul><ul><li>Elementos necesarios para evaluar un sistema IR: </li></ul><ul><ul><li>Una colección de documentos. </li></ul></ul><ul><ul><li>Una lista de necesidades de información expresables como consultas </li></ul></ul><ul><ul><li>Un conjunto de juicios de relevancia para cada par (documento, necesidad de información) </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  91. 91. <top> <num> C154 </num> <ES-title> Libertad de Expresión en Internet </ES-title> <ES-desc> Encontrar documentos en los que se hable sobre la censura y la libertad de expresión en Internet. </ES-desc> <ES-narr> Los documentos en los que se discutan asuntos como la pornografía o el racismo en Internet, sin mencionar el tema de la censura o libertad de expresión, no se considerarán relevantes. </ES-narr> </top> Un “tópico” del CLEF (que no una consulta) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>La recuperación de información es un campo empírico  es preciso experimentar para justificar la superioridad de una técnica sobre otra. </li></ul><ul><li>Elementos necesarios para evaluar un sistema IR: </li></ul><ul><ul><li>Una colección de documentos. </li></ul></ul><ul><ul><li>Una lista de necesidades de información expresables como consultas </li></ul></ul><ul><ul><li>Un conjunto de juicios de relevancia para cada par (documento, necesidad de información) </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  92. 92. Colección Documentos relevantes Documentos resultantes ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  93. 93. Documentos relevantes NO retornados: B Documentos relevantes retornados: A Exhaustividad A/(A+B) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  94. 94. Documentos NO relevantes retornados: C Documentos relevantes retornados: A Precisión A/(A+C) ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  95. 95. ¡Atención! Pregunta by Chris Owens
  96. 96. ¿Qué sistema es mejor? ¿Por qué? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica Exhaustividad Precisión
  97. 97. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? (Intermedio) <ul><li>Precisión (precision) y exhaustividad (recall) </li></ul><ul><ul><li>En resumen, </li></ul></ul><ul><ul><ul><li>Precisión es el porcentaje de los documentos resultantes que son verdaderamente relevantes </li></ul></ul></ul><ul><ul><ul><li>Exhaustividad es el porcentaje de los documentos relevantes que son retornados al usuario </li></ul></ul></ul><ul><ul><li>Un sistema IR perfecto tendría precisión y exhaustividad 1.00 siempre; sin embargo, eso es imposible . </li></ul></ul><ul><ul><li>Otras medidas </li></ul></ul><ul><ul><ul><li>Medida F: combina precisión y exhaustividad. </li></ul></ul></ul><ul><ul><ul><li>Curvas precisión-exhaustividad. </li></ul></ul></ul><ul><ul><ul><li>Precisión en k resultados. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><li>Y ahí es donde volvemos a los buscadores Web pre- Google… </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  98. 98. ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? <ul><li>En 1998 la cota inferior para la Web era de 320 x 10 6 documentos . Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web”, Science , vol. 280, no. 3, pp. 98-100. </li></ul><ul><li>La mayor colección de evaluación de la época tenía “sólo” 7.5 x 10 6 documentos. </li></ul><ul><li>Características de las consultas </li></ul><ul><ul><li>Son muy cortas (casi el 90% constan de 3 términos o menos) Más del 60% son únicas </li></ul></ul><ul><li>Dado el número de documentos y la longitud de las consultas la mayor parte de los resultados eran irrelevantes ≡ </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  99. 99. sex porno mp3 chat warez playboy … algoritmo de una camara web.java discounted flowers &quot;romeo & juliet&quot; translations ¿Por qué las técnicas IR clásicas no funcionan bien en la Web? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  100. 100. La Web es un grafo <ul><li>Hasta aquí hemos llegado… </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><ul><ul><li>as of November 1997, only one of the top four commercial search engines finds itself. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>[…] we have seen a major search engine return a page containing only &quot;Bill Clinton Sucks&quot; and picture from a &quot;Bill Clinton&quot; query. […] If a user issues a query like &quot;Bill Clinton&quot; they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  101. 101. A major search engine result for the query “BILL CLINTON” (The Web cca. 1997) La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  102. 102. Resultados ofrecidos por Google, Yahoo! y Live Search para la query “GEORGE BUSH”. La Web, hoy (aproximadamente) La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  103. 103. La Web es un grafo <ul><li>Demos un paseo… </li></ul><ul><ul><li>Plagiar , v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído. Plagio , s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable. </li></ul></ul><ul><ul><li>… Siempre hay que acreditar las fuentes que hemos usado </li></ul></ul><ul><ul><ul><li>Bierce, A. 1906, The Devil’s Dictionary </li></ul></ul></ul><ul><ul><li>En los trabajos científicos se citan trabajos de terceros por dos razones: para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis. </li></ul></ul><ul><ul><li>Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad . </li></ul></ul><ul><ul><li>Citando dotamos de autoridad a un tercero… </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  104. 104. La Web es un grafo <ul><li>Sigamos con el paseo… </li></ul><ul><ul><li>Textos científicos y citas constituyen los nodos y aristas de un grafo </li></ul></ul><ul><ul><li>Hace ya ¡80 años! que se estudian estos patrones </li></ul></ul><ul><ul><li>Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos </li></ul></ul><ul><ul><li>Los documentos, autores y revistas más citados tendrán mayor autoridad : el (infame) “índice de impacto” . Garfield, E. 1972, “Citation Analysis as a Tool in Journal Evaluation”, Science, vol. 178, pp. 471-479. </li></ul></ul><ul><ul><li>Off-topic: Harzing's Publish or Perish </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  105. 105. AÚN MÁS OFF-TOPIC La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  106. 106. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97). </li></ul></ul><ul><ul><ul><li>A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext . </li></ul></ul></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><ul><ul><li>The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. </li></ul></ul></ul><ul><ul><ul><li>Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […] </li></ul></ul></ul><ul><ul><ul><li>This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […] </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  107. 107. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><li>Marchiori, M. 1997 “The Quest for Correct Information on the Web: Hyper Search Engines”. The Sixth International WWW Conference (WWW 97). </li></ul></ul><ul><ul><ul><li>A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext . </li></ul></ul></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><ul><ul><li>The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. </li></ul></ul></ul><ul><ul><ul><li>Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it […] </li></ul></ul></ul><ul><ul><ul><li>This is clearly unfeasible in practice , so, for practical reasons, we have to stop the analysis at a certain depth […] </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  108. 108. La Web es un grafo <ul><li>Donde dije “cita” digo “hiperenlace”… </li></ul><ul><ul><ul><li>Jon Kleinberg define los conceptos de autoridad y hub </li></ul></ul></ul><ul><ul><ul><li>Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment”, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677. </li></ul></ul></ul><ul><ul><li>Una autoridad es un documento fuertemente enlazado </li></ul></ul><ul><ul><li>Un hub es un documento que enlaza a muchas autoridades </li></ul></ul><ul><ul><li>Esta técnica logró que el 50% de los resultados para las consultas fueran relevantes , frente al 40% de Yahoo! (un directorio) o Altavista </li></ul></ul><ul><ul><ul><li>Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, “Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text”, en Proceedings of the 7 th World-Wide Web conference , pp. 65-74. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  109. 109. La Web es un grafo Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  110. 110. La Web es un grafo <ul><li>Google comienza a operar en 1998 </li></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><li>El núcleo de su sistema de ponderación es el algoritmo PageRank , similar al método de Kleinberg </li></ul><ul><ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul></ul><ul><li>El algoritmo asocia a cada documento un valor (tb. PageRank ) de este modo: </li></ul><ul><ul><li>Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientes </li></ul></ul><ul><ul><li>Un documento muy enlazado tendrá un PageRank elevado </li></ul></ul><ul><ul><li>Un documento enlazado desde documentos prestigiosos tendrá un PageRank elevado </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  111. 111. A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  112. 112. A 1 B 1 C 1 F 1 E 1 D 1 Iteración 0 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  113. 113. A 1 B C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  114. 114. A B 1 C F E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  115. 115. A B C 1 F E D 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  116. 116. A B C F E D 1 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  117. 117. A B C F E 1 D 0,50 0,50 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  118. 118. A B C F 1 E D 0,33 0,33 0,33 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  119. 119. A 1,17 B 0,33 C 1,83 F 1,33 E 0,67 D 0,67 Iteración 1 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  120. 120. A 0,65 B 0,22 C 1,61 F 1,72 E 0,93 D 0,87 Iteración 2 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  121. 121. A 0,83 B 0,22 C 1,62 F 1,83 E 0,86 D 0,65 Iteración 3 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  122. 122. A 0,72 B 0,28 C 1,60 F 1,89 E 0,82 D 0,68 Iteración 4 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  123. 123. A 0,73 B 0,24 C 1,60 F 1,85 E 0,86 D 0,72 Iteración 5 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  124. 124. A 0,75 B 0,24 C 1,61 F 1,85 E 0,86 D 0,70 Iteración 6 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  125. 125. A 0,74 B 0,25 C 1,61 F 1,86 E 0,85 D 0,70 Iteración 7 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  126. 126. A 0,74 B 0,25 C 1,61 F 1,85 E 0,85 D 0,70 Iteración 8 PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  127. 127. A B C F E D PageRank Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  128. 128. PageRank <ul><li>Algunas características interesantes de PageRank </li></ul><ul><ul><li>Los valores de PageRank calculados para los nodos se “estabilizan” con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces) </li></ul></ul><ul><ul><li>Es relativamente insensible a los valores de “partida” , afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido </li></ul></ul><ul><ul><li>El PageRank total en la Web es constante </li></ul></ul><ul><ul><li>Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar ( random surfer model ) </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  129. 129. PageRank <ul><li>Suposiciones sobre la Web… </li></ul><ul><ul><li>Es un grafo fuertemente conectado (desde cualquier nodo v se puede llegar a cualquier nodo w ) </li></ul></ul><ul><ul><li>Todos los nodos tienen enlaces salientes </li></ul></ul><ul><li>… que son falsas… </li></ul><ul><ul><li>La Web no es un grafo fuertemente conectado , es una pajarita... </li></ul></ul><ul><ul><ul><li>Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference </li></ul></ul></ul><ul><ul><li>Sólo el 90% de la Web está fuertemente conectada </li></ul></ul><ul><li>… así que habrá que usar algún “truco” </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  130. 130. PageRank <ul><li>A vueltas de nuevo con el random surfer… </li></ul><ul><ul><li>El modelo descrito hasta ahora se correspondería con esta ecuación </li></ul></ul><ul><ul><li>que modela a un usuario que va de página en página siguiendo enlaces aleatoriamente, ad infinitum … </li></ul></ul><ul><ul><li>Problema: Aquellas páginas que no forman parte del núcleo fuertemente conectado de la Web siempre tendrán PR nulo… </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  131. 131. PageRank <ul><li>A vueltas de nuevo con el random surfer… </li></ul><ul><ul><li>Lo que hay que conseguir es que, de vez en cuando, el navegante “salte” a una página aleatoriamente. Es decir, en cada página el usuario toma una “decisión” </li></ul></ul><ul><ul><ul><li>Saltar a una página aleatoria con probabilidad d </li></ul></ul></ul><ul><ul><ul><li>Continuar con un enlace al azar de la página actual con probabilidad 1-d </li></ul></ul></ul><ul><ul><li>Este modelo puede representarse según esta ecuación (un valor habitual para d es 0,15) </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  132. 132. PageRank <ul><li>¿Y los nodos sin enlaces salientes? </li></ul><ul><ul><li>Se eliminan para después calcular el PageRank del resto del grafo </li></ul></ul><ul><ul><li>Una vez calculado éste se determina el de los nodos sin enlaces salientes en base al PageRank de sus enlaces entrantes </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  133. 133. Búsquedas en la Web con PageRank <ul><li>Recordemos lo que dijo Marchiori </li></ul><ul><ul><ul><li>[...] focusing separately on the &quot;textual&quot; and &quot;hyper&quot; components. </li></ul></ul></ul><ul><li>PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces </li></ul><ul><li>¿Cómo se realizan las búsquedas entonces? (Versión simplificada) </li></ul><ul><ul><li>Se extraen los términos (palabras) de la consulta </li></ul></ul><ul><ul><li>Se localizan documentos que contengan todos los términos </li></ul></ul><ul><ul><li>Se ordenan los documentos obtenidos por PageRank decreciente </li></ul></ul><ul><li>Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  134. 134. by iko <ul><li>Por hoy estuvo bien… </li></ul><ul><ul><li>¿Preguntas? </li></ul></ul><ul><li>Para mañana… </li></ul><ul><ul><li>Lawrence, S. y Giles, C.E. 1998, “Searching the World Wide Web” , Science , vol. 280, no. 3, pp. 98-100. </li></ul></ul><ul><ul><li>Brin, S. y Page, L. 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine” , Computer Networks and ISDN Systems , vol. 30, no. 1-7, pp. 107-117. </li></ul></ul><ul><ul><li>Kleinberg, J.M. 1998, “Authoritative sources in a hyperlinked environment” , en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms , pp. 668-677. </li></ul></ul><ul><ul><li>Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed” , The 4th International Conference on Internet Computing , pp. 65-69. </li></ul></ul><ul><li>¿Para qué tipo de consultas son adecuados los buscadores actuales? </li></ul>
  135. 135. by robertvoors ¿Preparados? <ul><li>¿Para qué tipo de consultas son adecuados los buscadores actuales? </li></ul>
  136. 136. ¿Son adecuados los buscadores modernos? <ul><li>Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69. </li></ul><ul><ul><li>24 horas </li></ul></ul><ul><ul><li>150.000 sesiones de usuario </li></ul></ul><ul><ul><li>450.000 consultas </li></ul></ul><ul><ul><li>13% de las consultas eran únicas </li></ul></ul><ul><ul><li>53% de las sesiones constituidas por una única consulta </li></ul></ul><ul><ul><li>54% de las sesiones sólo examinaron primera página de resultados </li></ul></ul><ul><ul><li>54% de las consultas sólo examinaron un único resultado </li></ul></ul><ul><ul><li>66% de las sesiones examinaron de 1 a 5 resultados </li></ul></ul><ul><ul><li>Para 530 consultas evaluadas “manualmente” en el 48,5% de los casos el resultado visitado no era relevante </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  137. 137. ¿Son adecuados los buscadores modernos? <ul><li>Estudio realizado sobre logs de AlltheWeb . Jansen, B.J. y Spink, A. 2003, “An Analysis of Web Documents Retrieved and Viewed”, The 4 th International Conference on Internet Computing , pp. 65-69. </li></ul><ul><li>Conclusiones Jansen y Spink </li></ul><ul><ul><li>Mayoría de usuarios tienen necesidades de información simples </li></ul></ul><ul><ul><li>Los buscadores resuelven bien este tipo de consultas </li></ul></ul><ul><ul><li>Usuario promedio necesita ver 2 documentos para encontrar 1 relevante </li></ul></ul><ul><li>¿Mis conclusiones? </li></ul><ul><ul><li>Echémosle un ojo a este artículo que trabaja sobre los mismos logs … </li></ul></ul><ul><ul><li>Jansen, B.J. y Spink, A. 2006, “How are we searching the World Wide Web? A comparison of nine search engine transaction logs”, Information Processing and Management </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  138. 138. ¿Son adecuados los buscadores modernos? <ul><li>Distribución temática de las consultas (2.503 consultas) </li></ul><ul><ul><li>People, places or things 22,50% </li></ul></ul><ul><ul><li>Computers or Internet 21,80% </li></ul></ul><ul><ul><li>Commerce, travel, employment, or economy 12,30% </li></ul></ul><ul><ul><li>Entertainment or recreation 9,10% </li></ul></ul><ul><ul><li>Sex and pornography 10,80% </li></ul></ul><ul><ul><li>Health or sciences 7,80% </li></ul></ul><ul><ul><li>Society, culture, ethnicity, or religion 4,80% </li></ul></ul><ul><ul><li>Performing or fine arts 4,70% </li></ul></ul><ul><ul><li>Education or humanities 2,90% </li></ul></ul><ul><ul><li>Government or legal 2,70% </li></ul></ul><ul><ul><li>Non–English or unknown 0,60% </li></ul></ul><ul><li>42,4% de todas las consultas son sobre famosos, ocio y sexo (“fáciles”) </li></ul><ul><li>55%-84% de las consultas más frecuentes son análogas (dependiendo de la lista el porcentaje de sexo varía entre el 3%, el 48% o el 60%) </li></ul><ul><li>Las consultas frecuentes suponen entre el 2% y el 18% del total de consultas </li></ul><ul><li>Este tipo de consultas constituyen el 45% del total… </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  139. 139. ¿Son adecuados los buscadores modernos? <ul><li>Más datos (elaboración propia) </li></ul><ul><ul><li>Relevancia promedio de los resultados está, efectivamente, alrededor del 50% </li></ul></ul><ul><ul><li>Sin embargo, ¿cuál es la dispersión? </li></ul></ul><ul><ul><li>20% consultas de la muestra tiene una precisión media del 21% </li></ul></ul><ul><ul><li>23% consultas no obtienen ningún resultado relevante en la primera página </li></ul></ul><ul><ul><li>Estimación: 15%-20% todas las consultas no obtienen resultados relevantes </li></ul></ul><ul><li>Mis conclusiones </li></ul><ul><ul><li>Casi la mitad de las consultas son relativas a famosos, ocio y sexo (es decir, “fáciles” de sastisfacer) </li></ul></ul><ul><ul><li>En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados </li></ul></ul><ul><ul><li>Pero… Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  140. 140. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Tres escenarios problemáticos </li></ul><ul><ul><li>Bharat, K., y Henzinger, M. 1998, “Improved Algorithms for Topic Distillation in a Hyperlinked Environment”, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval , pp. 104-111. </li></ul></ul><ul><ul><li>Enlaces “nepotistas” </li></ul></ul><ul><ul><ul><li>Cada enlace es un “voto” aunque provengan todos del mismo servidor </li></ul></ul></ul><ul><ul><ul><li>No es un problema fácil de resolver. Davison, B.D. 2000, “Recognizing Nepotistic Links on the Web”, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search , pp. 23-28. </li></ul></ul></ul><ul><ul><li>Enlaces automáticos </li></ul></ul><ul><ul><ul><li>Todos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto ( Wordpress scandal ) </li></ul></ul></ul><ul><ul><li>Documentos irrelevantes enlazados desde autoridades </li></ul></ul><ul><ul><ul><li>Inevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  141. 141. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul><ul><ul><ul><li>[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  142. 142. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking: Bringing Order to the Web </li></ul><ul><ul><ul><li>[…] PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it . At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  143. 143. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Granjas de enlaces </li></ul><ul><ul><li>Recordemos que el PageRank total es constante, sólo se reparte entre los nodos </li></ul></ul><ul><ul><li>¿Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces ? </li></ul></ul><ul><ul><li>Respuesta: Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente </li></ul></ul><ul><ul><li>Si, además, la granja de enlaces es alojada o enlazada desde algún sitio “prestigioso” mejor que mejor </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  144. 144. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Google bombing </li></ul><ul><ul><li>Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube ) </li></ul></ul><ul><ul><li>Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir “bromas” como las famosas: ladrones , miserable failure o horrid operating system </li></ul></ul><ul><ul><li>A finales de enero de 2007 Google anunció que las “bombas” ya no funcionaban gracias a una solución algorítmica </li></ul></ul><ul><ul><li>Pero… </li></ul></ul><ul><ul><ul><li>Algunas siguen funcionando: horrid operating system </li></ul></ul></ul><ul><ul><ul><li>Búsquedas que deberían funcionar no lo hacen: spanish airlines </li></ul></ul></ul><ul><ul><ul><li>Todos los buscadores son vulnerables a esta técnica </li></ul></ul></ul><ul><ul><li>Off-topic : ¿qué retornan las consultas click here o pinche aquí ? </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  145. 145. (Más) Problemas del ranking basado en hiperenlaces <ul><li>Daños “colaterales” (usuarios y autores) </li></ul><ul><li>La ausencia de “prestigio” no implica carencia de relevancia </li></ul><ul><li>Al desvincularse el “prestigio” de los contenidos, resultados “prestigiosos” pueden satisfacer la consulta pero no al usuario. </li></ul><ul><li>El autor del documento puede no desear tales visitas. </li></ul><ul><li>Algunas consultas reales que me han traído “público”… </li></ul><ul><ul><li>algoritmos genéticos(documentos en inglés) </li></ul></ul><ul><ul><li>que es disertacion doctoral </li></ul></ul><ul><ul><li>articulos o comentarios de prensa sobre algoritmos geneticos </li></ul></ul><ul><li>¿Qué tienen en común? Son consultas informativas , el usuario quiere información/respuestas. Broder, A. 2002, “A taxonomy of web search”, ACM SIGIR Forum , vol. 36, no. 2, pp. 3-10. </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  146. 146. (Más) Problemas del ranking basado en hiperenlaces Web Spam Challenge http://webspam.lip6.fr/ <ul><li>En la Web también hay spam  y es preciso detectarlo y luchar contra él… Por esa razón se habla de adversarial information retrieval </li></ul><ul><li>Algunos artículos interesantes: </li></ul><ul><ul><li>Gyöngyi, Z. et al. 2004, “Combating web spam with TrustRank” Gyöngyi, Z. y Garcia-Molina, H. 2005, “Web spam taxonomy” Fetterly, D. et al. 2004, “Spam, damn spam, and statistics: using statistical analysis to locate spam web pages” Benczúr, A.A. et al. 2005, “SpamRank–Fully Automatic Link Spam Detection Work in progress” Ntoulas, A. et al. 2006, “Detecting spam web pages through content analysis” Becchetti, L. et al. 2006, “Link-Based Characterization and Detection of Web Spam” Castillo, C. et al. 2006, “A reference collection for web spam” </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  147. 147. No hay talla única… <ul><li>Los buscadores actuales son muy buenos… </li></ul><ul><ul><li>… localizando sitios web conocidos/”oficiales” </li></ul></ul><ul><ul><li>… facilitando el acceso a servicios on-line (mapas, tiempo, e-mail , subastas, etc.) </li></ul></ul><ul><ul><li>… resolviendo consultas simples (famosos, ocio y sexo) </li></ul></ul><ul><li>En suma… Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo </li></ul><ul><li>Pero como fuente de información la Web sigue siendo… </li></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  148. 148. … y recordemos que las suposiciones son falsas <ul><li>La Web no es un grafo fuertemente conectado , </li></ul><ul><ul><li>Broder, A. et al. 2000, “ Graph structure in the web: experiments and models ”, en Proceedings of the ninth WWW Conference </li></ul></ul><ul><li>Sólo el 90% de la Web está fuertemente conectada </li></ul><ul><li>Meiss, M.R. et al. 2008, “Ranking web sites with real user traffic” </li></ul><ul><ul><ul><li>PageRank ranks sites very differently than actual human traffic, especially for the most important hosts. This finding is interpreted in light of our empirical analysis, showing how each of the random behavior assumptions underlying PageRank is violated : not all links from a site are followed equally, but even more importantly, some sites are much more likely than others to be the starting or ending points of surfing sessions. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  149. 149. Presente y futuro de la Web ¿Web 2.0? Filtrado colaborativo Personalización Minería Web (Web Mining) Análisis de tendencias Normalized Google Distance La Web como corpus Para saber más… Evolución Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  150. 150. by Markus Angermeier
  151. 151. ¿Web 2.0? <ul><li>O’Reilly, T. 2005, Web 2.0 Compact Definition? </li></ul><ul><ul><ul><li>Web 2.0 is the network as platform , spanning all connected devices; Web 2.0 applications are those that make the most of the intrinsic advantages of that platform: delivering software as a continually-updated service that gets better the more people use it , consuming and remixing data from multiple sources , including individual users, while providing their own data and services in a form that allows remixing by others, creating network effects through an &quot;architecture of participation,&quot; and going beyond the page metaphor of Web 1.0 to deliver rich user experiences. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  152. 152. ¿Web 2.0? <ul><li>O’Reilly, T. 2006, Web 2.0 Compact Definition: Trying Again </li></ul><ul><ul><ul><li>Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform , and an attempt to understand the rules for success on that new platform. Chief among those rules is this: Build applications that harness network effects to get better the more people use them. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  153. 153. ¿Web 2.0? <ul><li>¿Son lo mismo Web 2.0 y Web Semántica? </li></ul><ul><ul><li>Según Tim Berners-Lee se parecen lo mismo que un huevo a una castaña ( “chalk and cheese” )… Sin embargo, son buenas por separado y mucho mejor juntas </li></ul></ul><ul><ul><li>Según el W3C ambas se centran en el intercambio y combinación de datos heterogéneos pero la Web Semántica proporciona un modelo más consistente </li></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  154. 154. ¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  155. 155. ¿Web 2.0? Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  156. 156. ¿Web 2.0? <ul><ul><li>También hay algunos puntos interesantes… </li></ul></ul><ul><ul><ul><li>People subscribe to each others' sites, and easily link to individual comments on a page, but also, via […] trackbacks , they can see when anyone else links to their pages, and can respond […] Interestingly, two-way links were the goal of early hypertext systems like Xanadu. Hypertext purists have celebrated trackbacks as a step towards two way links. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>(The Long Tail) Small sites make up the bulk of the internet's content; […] Therefore: Leverage customer-self service and algorithmic data management to reach out to the entire web, to the edges and not just the center, to the long tail and not just the head. </li></ul></ul></ul><ul><ul><ul><li>… </li></ul></ul></ul><ul><ul><ul><li>The key to competitive advantage in internet applications is the extent to which users add their own data to that which you provide. </li></ul></ul></ul>Máster en Ingeniería Web (2007/08) E.U. de Ingeniería Técnica en Informática de Oviedo Oviedo, 2, 3 y 4 de Junio de 2008 Web Semántica
  157. 157. ¿Web 2.0? <ul><li>Folksonomía ( folksonomy = folk + taxonomy ) </li></ul><ul><ul><li>Una forma de metadatos </li></ul></ul><ul><ul><li>Etiquetado colaborativo de recursos en la Web </li></ul></ul><ul><ul><li>Las etiquetas no proceden de un vocabulario controlado sino que son elegidas libremente por los usuarios </li></ul></ul><ul><ul><li>La co-ocurrencia de etiquetas lleva a las folksonomías… </li></ul></ul><ul><ul><li>Otra cuestión es cómo emplearlas (más allá de la búsqueda por “serendipia” ) </li></ul></ul><ul><ul><li>Ejemplos: del.icio.us , flickr, tagzania </li></ul></ul><ul><ul><li>Problemas: sinonimia, polisemia, acrónimos, términos multipalabra, multilingüismo… </li></ul></ul><ul><ul><li>Mathes, A. 2004, F olksonomies

×