Successfully reported this slideshow.
Your SlideShare is downloading. ×

Mecanismo de Busca

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
NoSQL e MongoDB
NoSQL e MongoDB
Loading in …3
×

Check these out next

1 of 85 Ad

Mecanismo de Busca

Download to read offline

• Autores: André Araujo, Luiz Henrique Pinho de Sá, Rodrigo Leite
• Curso: Engenharia de Computação e Informação - UFRJ
• Disciplina: Telecomunicações
• Ano: 2013

Apresentação sobre Mecanismo de Busca: arquitetura, etapas, modelos de Recuperação da Informação, Google (PageRank), Bing, Yahoo e tendências.

• Autores: André Araujo, Luiz Henrique Pinho de Sá, Rodrigo Leite
• Curso: Engenharia de Computação e Informação - UFRJ
• Disciplina: Telecomunicações
• Ano: 2013

Apresentação sobre Mecanismo de Busca: arquitetura, etapas, modelos de Recuperação da Informação, Google (PageRank), Bing, Yahoo e tendências.

Advertisement
Advertisement

More Related Content

Similar to Mecanismo de Busca (20)

More from Luiz Henrique Pinho de Sá (18)

Advertisement

Recently uploaded (20)

Mecanismo de Busca

  1. 1. Mecanismo de Busca André Araujo Luiz Henrique Pinho Rodrigo Leite
  2. 2. Introdução Arquitetura Etapas Modelos de RI Conclusão
  3. 3. www.opte.org/maps Informação++ Organização-- Grafo direcionado
  4. 4. Repositório Páginas (da Web) Indexador Índice de (Texto) Documentos Índice de (Link) Estrutura Mecanismo de Busca Modelo de RI (Ex.: PageRank) Consulta Resultados Corpus (Web: documentos ligados) Crawlers Spiders Robots Aquisição
  5. 5. Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação
  6. 6. #1 Aquisição (seleção) dos documentos Automática Web Crawlers, spiders ou robots Breadth-First Search ou Depth-First Search Manual Sistemas menores
  7. 7. #1 Aquisição (seleção) dos documentos BFS O(|V|+|E|)
  8. 8. #1 Aquisição (seleção) dos documentos DFS O(|V|+|E|)
  9. 9. #2 Preparação dos documentos Criação de uma representação computacional do documento Doc : www.filosofia.com “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Documento original Doc : www.filosofia.com desonesto honesto soubesse menos vantagem desonestidade honesto socrates seria Operações de texto (palavras-chave) Doc : www.filosofia.com honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Representação
  10. 10. #3 Indexação dos documentos Índice invertido pode ser criado em 2 fases 1ª fase: Scanning 2ª fase: Inversão termo1 - doc1, doc7,... termo2 – doc14, ... ... - ... Arquivos Invertidos
  11. 11. Armazena a frequência dos termos Armazena a posição dos termos Anchor text Link popularity score (PageRank) #3 Indexação dos documentos
  12. 12. #4 Armazenamento Armazenamento dos arquivos de índices + Armazenamento dos arquivos dos documentos
  13. 13. #5 Recuperação Ordenação Difícil mensurar Relevância! Similaridade entre consulta e cada documento Modelos de RI! Busca Retornar links apenas para os documentos do corpus que satisfazem a consulta
  14. 14. Modelos de RI <D, Q, F, R(qi,dj)> R ∈ ℝ qi ∈ Q dj ∈ D
  15. 15. Modelos de RI Booleano Vetorial Baseado em hyperlinks
  16. 16. Modelos de RI Booleano Vetorial Baseado em hyperlinks É ou não é relevante!
  17. 17. Modelo Booleano
  18. 18. Representação do Documento • Vetor dj = (w1, w2, ... , wn) • Peso wi ∈ {0, 1} • 0: dj ⊅ ti • 1: dj ⊃ ti • Dado conjunto Vocabulário V = {t1, t2,..., tn} • ti: termos representativos para o corpus • Ex.: d1 = (1, 1, 0) • d1 ⊃ t1, d1 ⊃ t2, d1 ⊅ t3 dj
  19. 19. Consulta q: expressão lógica com termos usando ^, v e ¬ Ex.: t1 ^ (t2 v ¬t3) Expressão lógica convertida em vetores que tornam essa expressão Verdadeira (igual a 1)! Documento se casa com a consulta se: vetor dj = algum dos vetores gerados pela consulta Representação da Consulta q
  20. 20. d1 = (1, 1, 0) q = t1 ^ (t2 v ¬t3) t1 t2 t3 q 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 1 0 1 1 1 1 1 (1, 0, 0) (1, 1, 0) (1, 1, 1) Exemplo
  21. 21. d1 = (1, 1, 0) q = t1 ^ (t2 v ¬t3) t1 t2 t3 q 0 0 0 0 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 1 1 0 1 0 1 1 0 1 1 1 1 1 (1, 0, 0) (1, 1, 0) (1, 1, 1) Exemplo
  22. 22.  Simplicidade Facilmente programável Exato
  23. 23.  Não permite casamento parcial entre consulta e documento Nem todos sabem expressar a consulta numa expressão lógica
  24. 24.  Assume independência entre termos usados na indexação Ex.: q1: sistema operacional q2: sistema operacional embarcado Resultados(q1) != Resultados(q2)
  25. 25. Modelo Vetorial
  26. 26. q = (w1,q, w2,q, ... , wn,q) dj = (w1,j, w2,j, ... , wn,j) wi,q ∈ ℝ+ wi,j ∈ ℝ+ Pode casamento parcial! a) Vetores q e dj estão num espaço n-dimensional! b) Cálculo do grau de Similaridade (“Relevância”) entre q e dj c) Cálculo dos pesos de dj (e de q)
  27. 27. a) Vetores q e dj no espaço Dado conjunto Vocabulário V = {t1, t2,..., tn}, termos de V são eixos do espaço vetorial!
  28. 28. b) Cálculo da Similaridade Como medir a Similaridade (“Relevância”) entre a consulta e documento? Ou melhor, como medir a Similaridade entre dois vetores (q e dj)? __ __ __ __ __ __ __C S S NEO O
  29. 29. b) Cálculo da Similaridade No exemplo visto em (a): Sim = 0,83 Bem similar!
  30. 30. t1 t2 t3 cos(ϴ) d1 1 0 0 0,27 d2 1 2 4 0,99 d3 2 0 1 0,60 d4 0 1 3 0,93 q 1 2 3 Outros exemplos
  31. 31. c) Cálculo dos pesos de dj Peso = frequência do termo no documento! nº de documentos onde o termo aparece nº de ocorrências do termo no documento
  32. 32. c) Cálculo dos pesos de dj • dj: documento • ti: termo • freqi,j: frequência de ti em dj Term Frequency Inverse Document Frequency • ni: nº de documentos que contêm ti • N: nº total de documentos do corpus • maxl freql,j : frequência do termo mais frequente em dj
  33. 33.  Assume independência entre os termos usados na indexação  Permite casamento parcial entre consulta e documento
  34. 34. Modelo baseado em hyperlinks HITS PageRank
  35. 35. HITS Hyperlink-Induces Topic Search
  36. 36. d2 Premissas Hiperlink d1
  37. 37. Authoritative Pages = páginas importantes Hub Pages = contêm links para Authoritative Pages Hubs Authorities
  38. 38. PageRank
  39. 39. Importância das páginas (ou documento) é calculada baseada no número de páginas que aponta para ela: Backlinks Peso utilizado para aumentar a importância das páginas apontadas pelos Backlinks! B e C são Backlinks de A
  40. 40. • PageRank: probabilidade de um “surfista aleatório” visitar a página • Parâmetro p: probabilidade do surfista se cansar e começar em outra página aleatória • (1-p): probabilidade de que o surfista siga um link na página atual • OutDegree: hyperlinks na página u   vu uOutDegree uPageRank ppvPageRank )( )( )1()(
  41. 41. Conclusão Cada modelo é mais adequado para um determinado contexto PageRank é eficiente por tirar proveito da conexão entre documentos
  42. 42. Referências bibliográficas 1. BARTH, F. J. Uma breve introdução ao tema Recuperação da Informação, São Paulo, 2010. 2. CARDOSO, O. N. P. Recuperação da Informação, UFLA. 3. GALLINA, L. Z., JÚNIOR, R. R. Pagerank para ordenação de Resultados em Ferramenta de Busca na Web, UFRGS. 4. HAWKING, D. Web Search Engines, CSIRO, 2006. 5. http://cs.wellesley.edu/~pmetaxas/HowGoogleWorks_WUD06.pdf (acessado em Outubro, 2013) 6. www.slideshare.net/niltonheck/aula-02-recuperao-da- informao-modelos-de-sistemas-de-recuperao (acessado em Outubro, 2013) 7. www.google.com/insidesearch/howsearchworks/ (acessado em Outubro, 2013)
  43. 43. Obrigado!
  44. 44. Mecanismo de Busca André Araujo Luiz Henrique Pinho Rodrigo Leite
  45. 45. Introdução Google (PageRank) Bing Yahoo Tendências
  46. 46. 90,09% 3,75% 2,83% Fonte: StatCounter GlobalStats (Junho, 2013)
  47. 47. 91,97% 4,66% 0,49% Fonte: IDGNow.uol.com.br (Novembro, 2013)
  48. 48. # palavras 44,04% Fonte: IDGNow.uol.com.br (Novembro, 2013) 1 2 3 4 5 21,52% 15,48% 7,32% 5,06%
  49. 49. PageRank
  50. 50. Legal, mas... De onde veio isso?
  51. 51. • A: matriz de adjacências • Aij = • 1, se j aponta i • 0, caso contrário • dj: grau da página j (total de páginas que j aponta) • πi: PageRank da página i
  52. 52. Sumidouro A B C
  53. 53. Cadeia ergódica Existe um número finito N tal que qualquer estado pode ser atingido a partir de qualquer outro estado em exatamente N passos Uma cadeia ergódica não possui nem sumidouro nem fonte, logo é irredutível! Ergodicidade
  54. 54. • Páginas confiáveis: {Facebook, Yahoo} • d: probabilidade de clicar em um link • 1-d: probabilidade de não clicar em um link
  55. 55. • π: vetor de PageRanks de toda a Web • τ: conjunto de páginas confiáveis • nτ: tamanho de τ • T: vetor tal que Ti = • 1/n, caso i seja uma página confiável • 0, caso i não seja uma página confiável
  56. 56. Pontuação de relevância + Distância de cliques
  57. 57. Pontuação de relevância
  58. 58. D
  59. 59. j
  60. 60. Q
  61. 61. D DQ
  62. 62. Pontuação de Cobertura Pontuação de Importância da palavra Frequência do termo
  63. 63. D DQ EQ
  64. 64. Seleção dos documentos Essenciais
  65. 65. Distância de cliques
  66. 66. distância de cliques = 2
  67. 67. Número de backlinks Conteúdo novo Redes sociais Buscas ambíguas: 2 resultados mais populares de cada assunto Palavras-chave: usa sinônimos e contexto
  68. 68. Texto de âncora Conteúdo de sites antigos Meta-descrições Buscas ambíguas: prioriza resultados locais Palavras-chave: busca palavras exatas
  69. 69. “Microsoft e Yahoo anunciam acordo na área de search” (2009) Carol Bartz e Steve Balmer
  70. 70. Acordo por 10 anos Microsoft terá acesso à tecnologia de search do Yahoo Bing será o único algoritmo de search e plataforma de anúncios dos sites do Yahoo Cada empresa manterá a sua marca e continuam a ter suas equipes
  71. 71. Tendências
  72. 72. Respeita privacidade Busca no Google para você Mecanismo de conhecimento
  73. 73. Perguntas e respostas The Talking Wikipedia Buscador de pessoas
  74. 74. Web Semântica
  75. 75. Google Knowledge Graph
  76. 76. Referências bibliográficas 1. US Patent Number 7,814,108 2. US Patent Number 8,082,246 3. SIQUEIRA, I. C. P. S. Mecanismos de busca na Web: passado, presente e futuro, Universidade de São Paulo, 2013. 4. SOUZA, R. R. Sistemas de Recuperação de Informações e Mecanismos de Busca na web: panorama atual e tendências, Belo Horizonte, 2006. 5. MOL, R. S. A matemática do Google, 2007. 6. AURELIANO, J. W. R. O futuro da web: perspectivas e os motores de busca, São Paulo, 2011. 7. http://scenic.princeton.edu/network20q/wiki/index.php?title=Bing%27s_Algorithm (acessado em Dezembro, 2013) 8. http://idgnow.uol.com.br/internet/2013/11/14/google-lidera-buscas-no-brasil- com-mais-de-90-bing-aparece-em-2b0-lugar/ (acessado em Dezembro, 2013) 9. www.google.com/insidesearch/howsearchworks/ (acessado em Dezembro, 2013)
  77. 77. Obrigado!

×