Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Web Link Analysis

197 views

Published on

Presentación en el curso Web y Text Mining en la Universidad de Palermo.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Web Link Analysis

  1. 1. WEB y TEXT MINING Link AnalysisJuan Azcurra
  2. 2. Introducción  Al comienzo los motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas.  Utilizando métodos de information retrieval coseno, TF-IDF, ...  A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente.  El número de páginas creció rapidamente a mediados de los 90.  Intentaron “técnicas de clasificación”, Google estimó 10 millones de páginas relevantes.  Cómo seleccionar solo 30-40 páginas y clasificarlas adecuadamente para presentarlas a los usuarios?  Similaridad de contenido es fácil de spam  El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas. 2
  3. 3. Introducción  A comienzo de 1996 los investigadores comenzaron a trabajar e el problema, recurriendo a hyperlinks.  En 1997 Robin Li registró una patente de búsqueda basada en hyperlinks. El método usa las palabras en el texto del hyperlink.  Las páginas web son conectadas a través de hyperlinks, que contienen información importante:  Algunos hyperlinks: organizan información al mismo sitio.  Otros hyperlinks: apuntan a páginas de otros Web sites. Estos hyperlinks salientes a menudo indican una transmisión implicita de autoridad a las páginas que apuntan.  Aquellas páginas que son apuntadas por muchas otras páginas pueden contener información fidedigna (autoridad). 3
  4. 4. Introducción  Durante 1997-1998 aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.  Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad.  HITS: Jon Kleinberg (Cornel University), en el Simposio sobre algoritmos discretos, enero de 1998.  PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google. 4
  5. 5. Introducción  Además del ranking de búsquedas, los hyperlinks son útiles encontrando comunidades Web.  Una comunidad Web es un conjunto de páginas densamente unidas representando un grupo de personas con un interés en común.  Más allá de hyperlinks explícitos en la Web, links en otros contextos son útiles también.  para descubrir comunidades de entidades (personas u organizaciones) en textos libres de documentos, etc.  para analizar fenómenos sociales en mais. 5
  6. 6. Análisis de redes sociales  Redes sociales es el estudio de entidades sociales (personas en una organización, llamados actores) y sus interacciones y relaciones.  Las interacciones y relaciones pueden ser representadas con una red o grafo,  cada vértice (o nodo) representa un actor  cada link representa una relación.  Desde la red, podemos estudiar las propiedades de su estructura, y el rol, posición y prestigio de cada actor social.  Podemos también encontrar varios tipos de sub- grafos, comunidades formadas por grupos de actores. 6
  7. 7. Redes sociales y la Web  Análisis de redes sociales es muy útil para la Web porque la Web es esencialmente una sociedad virtual,  cada página: un actor social,  cada hyperlink: una relación.  Muchos resultados de redes sociales pueden ser adaptados y extendidos para usar en el contexto de la Web.  Estudiaremos 2 tipos de análisis de redes sociales, centralidad y prestigio, que están relacionadas a análisis de hyperlink y búsqueda en la Web. 7
  8. 8. Centralidad  Actores importantes o prominentes son aquellos que están involucrados con otros actores ampliamente.  Una persona con amplios contactos (links) o comunicaciones con muchas otras personas en la organización es considerado más importante que una persona con menos contactos.  Los links también pueden ser llamados lazos. Un actor central es uno que participa en muchos lazos. 8
  9. 9. Grado de centralidad 9
  10. 10. Prestigio  El prestigio es una medida más precisa de un actor que la centralidad.  Distinguir: lazo enviado (link saliente) y lazo recibido (link entrante)  Un actor de prestigio es aquel con altos vinculos entrantes.  Para calcular el prestigio: solamente utilizamos links entrantes.  Diferencia entre centralidad y prestigio:  Centralidad se basa en los links salientes.  Prestigio se basa en los links entrantes.  Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS. 10
  11. 11. Grado de prestigio 11
  12. 12. PageRank  El año 1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueron publicados en ese año.  Las conexiones entre PageRank y HITS son bastantes sorprendentes.  Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:  debido a la independencia de las consultas,  su habilidad para combatir el spamming,  gran suceso del negocio de Google. 12
  13. 13. PageRank: definición general  PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cada página individual.  PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.  Sin embargo, PageRank mira más que el número total de votos, también analiza la página que emite el voto.  Votos emitidos por páginas “importantes” pesan más y ayudan a hacer “más importantes” otras páginas.  Esto es exactamente la idea de ranking de prestigio en una red social. 13
  14. 14. PageRank: más especificamente  Un hyperlink de una página a otra es un medio implícito de autoridad a la página de destino.  Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.  Las páginas que apuntan a la página i también tienen su nivel de prestigio.  Una página de alto prestigio apuntando a i es más importante que una página de menor prestigio apuntando a i.  En otras palabras, una página es más importante si es apuntanda por otras páginas importantes. 14
  15. 15. PageRank: Algoritmo  De acuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.  Desde que una página puede apuntar a muchas otras, su valor de prestigio debe ser compartido.  La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotada P(i)) es definida como:, )( )( ),(   Eij jO jP iP Oj is the number of out-link of j 15
  16. 16. PageRank: Ejemplo  Asumiendo 4 páginas (A, B, C, D) con un PageRank inicial de 0.25  Si B, C y D apuntan a A, entonces el PR de A será de 0.75  Suponiendo que B tiene links a C y A y D tiene links a las 3, entonces en la siguiente iteración B le transferirá la mitad de su valor a A y D a las 3, mientras que C no tiene links salientes.  En otras palabras, el PR conferido por un link saliente es igual al score de PR divido la cantidad de links salientes.  Obteniendo la formula general: 16
  17. 17. PageRank: Ejemplo Matematicamente PageRanks para una red simple, expresado como porcentajes (Google usa una escala logaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C viene de una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por una página al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a una página elegida al azar de la web, ellos llegarían a la página E el 8,1% de las veces (el 15% de probabilidad de saltar a una página arbitraria corresponde al factor de damping de 85%). 17
  18. 18. PageRank: Ventajas  Lucha contra el spam. Una página es importante si las páginas que apuntan a ella también lo son.  Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.  PageRank es una medida global independiente de las consultas.  Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempo de la consulta. 18
  19. 19. HITS  HITS proviene de Hypertext Induced Topic Search.  A diferencia de PageRank que es un algoritmo de ranking estático, HITS es dependiente a la consulta de búsqueda.  Cuando un usuario envia una consulta de búsqueda,  HITS primero expande la lista de páginas relevantes devueltas por el motor de búsqueda, y  produce 2 rankings del conjunto de páginas expandidas, ranking de autoridad y ranking 19
  20. 20. Autoridad y Hubs Autoridad: a grandes rasgos, la autoridad es una página con muchos links entrantes.  La idea es que la página tenga un buen contenido o autoridad sobre un tema,  así que mucha gente confía en ella y enlazar con ella. Hub: Un hub es una página con muchos links salientes.  La página sirve como un organizador de la información de un tema en particular y  apunta a muchas páginas de autoridad sobre el 20
  21. 21. Ejemplos 21
  22. 22. Ideas claves de HITS 22  Un hub bueno apunta a muchas autoridades buenas, y  Una autoridad buena es apuntada por muchos hubs buenos.  Autoridades y hubs tienen una relación de refuerzo mutuo
  23. 23. HITS: Algoritmo 23  Dado una consulta de búsqueda q, HITS recolecta un conjunto de páginas con los siguientes pasos:  Envia la consulta q al motor de búsqueda.  Se recoge entonces t (t = 200 es usando en el paper de HITS) el valor más alto de páginas rankeadas. Esto es llamada el conjunto raiz W.  Crece W incluyendo cualquier página que apunte a una en W y cualquiera apuntada por W. Esto da lugar al conjunto S, conjunto base.
  24. 24. Grafo G 24  HITS trabaja en las páginas en S y asigna a cada página S un score de autoridad y un score de hub.  Sea n el número de páginas en S.  Nuevamente se usa G = (V, E) para denotar el grafo de hyperlinks de S  Usamos L para denotar la matriz de adyacencia del grafo.      otherwise Ejiif Lij 0 ),(1
  25. 25. HITS: Algoritmo 25  Sea a(i) el score de autoridad de una página i, y h(i) el score de hub de la página i.  La relación de refuerzo mutual de los dos scores están representado por:   Eij jhia ),( )()(   Eji jaih ),( )()(
  26. 26. Ventajas y desventas de HITS 26  Ventajas: su habilidad de rankear páginas de acuerdo al tema de la consulta, puede ser capaz de proveer autoridades y hubs más relevantes.  Desventajas:  Spam. De hecho es facil de influenciar HITS desde afuera añadiendo enlaces de la propia página.  Derivación de temas. Muchas páginas en el conjunto expandido no pueden ser del mismo tema.  Tiempo de respuesta ineficiente. El tiempo de evaluación de la consulta es bajo. Recolectar el conjunto raiz, expandirlo y calcular el autovector de todas las operaciones es expansiva.

×