Your SlideShare is downloading. ×
0
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Análise de Links
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Análise de Links

256

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
256
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
32
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Ordenação e Recuperação de Dados Aula 14: Análise de Links Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2. Aula de hoje – hipertexto e links Veremos além do conteúdo dos documentos  Começaremos a analisar os hiperlinks entre eles Tratar de questões como:  Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?  Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear? Grandes áreas de aplicação  A Web  Email  Redes sociais
  • 3. Links estão em todo lugar Poderosa ferramenta para autenticidade e autoridade  Mail spam – quais contas de e-mail são de spammers?  Qualidade de servidores – quais servidores são ruins  Log de chamadas telefônicas O Bom, O Ruim e O Desconhecido ? Good ? ? Bad ?
  • 4. Lógica iterativa simples O Bom, O Ruim e O Desconhecido  Bons nós não apontam para nós ruin  Todas as outras combinações são plausíveis ? Bom ? ? Ruim ? 4
  • 5. Lógica iterativa simples Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom ? Bom ? ? Ruim ? 5
  • 6. Lógica iterativa simples Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom Bom Ruim 6
  • 7. Muitos outros exemplos de análise delinks Redes sociais são uma rica fonte para análise de comportamento em grupo Ex., Afinidade de compradores – Goel+Goldstein 2010  Consumidores cujos amigos gastam muito, tendem a gastar muito também http://www.cs.cornell.edu/home/kleinber/networks-book/ 7
  • 8. Nosso principal interesse neste curso Análogo a maioria das funcionalidades de um sistema de recuperação de informação baseado puramente em texto  Scoring e classificação  Agrupamento baseado em links  Links como critério de classificação – documentos que apontam para outros documentos tendem a tratar do mesmo assunto Crawling  Baseado nos links já visitados, para onde ir em seguida? 8
  • 9. Sec. 21.1A Web como um Grafo Dirigido hyperlink Página A Âncora Página B Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade) Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
  • 10. Suposição 1: reputação de sites 10
  • 11. Suposição 2: anotação do alvo 11
  • 12. Sec. 21.1.1 Texto âncora  Para ibm como distinguir entre :  A página da IBM (predominantemente gráfica)  Página de copyright da IBM (alta frequência do termo “ibm”)  Página spam de um rival (frequencia arbirtráriamente alta de algum termo) “ibm.com” “IBM home page” “ibm”Um milhão de textosâncora com a palavra“ibm” são um forte www.ibm.comsinal
  • 13. Sec. 21.1.1Indexando texto âncora Ao indexar um documento D, incluir (com algum peso) os textos âncora dos documentos com links apontando para D. Armonk, NY-based computer giant IBM announced today www.ibm.comJoe’s computer hardware Big Blue today announcedlinks record profits for the quarterSunHPIBM
  • 14. Sec. 21.1.1Indexando texto âncora Algumas vezes pode ter efeitos não esperados: exército do mal. É possível atribuir um score ao texto âncora dependente da relevância/competência da página onde o link se encontra  Ex., se assumirmos que o conteúdo das páginas de ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
  • 15. Sec. 21.1.1Texto âncora Outras aplicações  Ponderação/filtragem de links em um grafo  Geração de descrições de páginas a partir de textos âncora
  • 16. A web não cita por mérito Milhões de participantes, com interesses individuais Spamming é encontrado em todo lugar Quando ferramentas de busca começaram a utilizar links para classificação (meados de 1998), o spam de links aumentou  Você pode ingressar em um grupo de websites que fazem ligações em massa entre si 16
  • 17. Links de entrada para páginas –padrões não-usuais  17
  • 18. Sec. 21.2Pagerank Imagine um browser fazendo uma navegação aleatória na web: 1/3  Inicia em uma página qualquer 1/3 1/3  A cada passo, sai da página atual por um de seus links, de forma equiprovável Cada página terá, a longo prazo, uma taxa de visitação – usar isso como o score da página.
  • 19. Sec. 21.2Isso não é suficiente A web está cheia de becos sem saída.  Caminhamentos aleatórios podem levar a um beco sem saída.  Fica sem sentido falar em taxa de visitação a longo prazo. ??
  • 20. Sec. 21.2Teletransporte Em um beco sem saída, pular para uma página aleatória. Em qualquer página que não seja um beco sem saída, manter uma chance de 10% de saltar para uma página aleatória.  Com a probabilidade restante (90%), sair por um dos links de forma aleatória.  10% - é um parâmetro.
  • 21. Sec. 21.2Resultados do teletransporte Nunca ficar preso em um beco sem saída Há uma taxa de visitação a longo prazo para cada página visitada
  • 22. A realidade Pagerank é utilizado pelo Google e por outros motores de busca, mas isso dificilmente conta toda a história  São utilizadas muitas outras heurísticas sofisticadas  Algumas tratam de classes específicas de consultas  Aprendizagem de máquina é utilizado amplamente
  • 23. Sec. 21.3Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas:  Páginas hub são boas coleções de links sobre um determinado assunto.  Páginas competentes ocorrem recorrentemente em páginas hub sobre o assunto. Mais indicado para consultas mais amplas sobre um assunto do que para encontrar páginas específicas.
  • 24. Sec. 21.3Hubs e Competências Uma boa página hub sobre um determinado tópico aponta para várias páginas competentes sobre este tópico Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico Definição circular – podemos computar de forma iterativa.
  • 25. Sec. 21.3 A esperança Claro José CompetênciasHubs TIM Maria Oi Companhias de telefonia móvel
  • 26. Sec. 21.3Esquema em alto nível Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos. Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
  • 27. Sec. 21.3Conjunto base Dada uma consulta textual (ex. browser), usar um índice texto para recuperar todas as páginas contendo browser.  Chamar o resultado de conjunto de páginas raiz Adicionar qualquer página ao conjunto que  Aponta para uma página no conjunto raiz ou  É referenciada por qualquer página no conjunto raiz. Chamar o resultado do conjunto base
  • 28. Sec. 21.3Visualização Conjunto raíz Conjunto base
  • 29. Sec. 21.3Destilando hubs e páginas competentes Computar, para cada página x no conjunto base, um score do hub h(x) e um score de competência a(x). Inicialização: for all x, h(x)←1; a(x) ←1; Atualizar iterativamente h(x), a(x); Depois das iterações  Classificar as páginas com os h() mais altos como os top hubs  Maior score a() é a página mais competente.
  • 30. Sec. 21.3Atualização iterativa Repetir as seguintes atualizações, para todo x h( x ) ← ∑ a( y ) x y x a( x) ← ∑ h( y ) y x x
  • 31. Sec. 21.3Escala Para evitar que os valores de h() e a() se tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração. O fator de escala realmente não interessa:  Nos preocupamos apenas com os valores relativos dos scores.
  • 32. Sec. 21.3Quantas iterações? Os valores relativos dos scores vão convergir depois de algumas poucas iterações:  de fato, escaladas apropriadamente, os scores h() e a() entram em um estado de estabilização! Na prática, aproxima-se da estabilização após cerca de 5 iterações.
  • 33. Sec. 21.3Escolas Elementares do Japão Hubs Competências  schools  The American School in Japan  LINK Page-13  The Link Page  “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW  a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids Space  100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ  K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ  http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )  ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page  ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp  Koulutus ja oppilaitokset  welcome to Miasa E&J school  TOYODA HOMEPAGE  _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y  Education  http://www...p/~m_maru/index.html  Cays Homepage(Japanese)  fukui haruyama-es HomePage  –y“썬ŠwZ‚̃z[ƒƒy[ƒW  Torisu primary school  UNIVERSITY  goo  ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan  Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page  ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...
  • 34. Sec. 21.3Fatos interessantes Agrupa páginas relevantes independentemente de linguagem ou conteúdo. Usar análise de links apenas depois que o conjunto base estiver montado  classificação iterativa é independente da consulta. Computação iterativa depois de recuperação textual – overhead significativo.
  • 35. Sec. 21.3Questões Desvio de Tópico  Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes Reforço mútuo por filiação  Páginas ou sites afiliados podem aumentar seus scores trocando links  Esse tipo de link não dá informação útil para a busca

×