Recuperação de informações

1,193 views

Published on

Published in: Education, Technology, Design
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,193
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Recuperação de informações

  1. 1. Recuperação de Informação<br />Darlan Florêncio de Arruda<br />darlanflorencio.a@gmail.com<br />Skype: darlan.arruda<br />Msn: darlan_arruda@hotmail.com<br />Twitter: @darlanflorencio<br />Universidade de Pernambuco – Banco de Dados II<br />
  2. 2. O que é Recuperação de Informação (RI) ?<br /> Área de pesquisa que se preocupa com a estrutura, análise, organização, armazenamento, recuperação e busca de informação. (Salton, 1968)<br />Universidade de Pernambuco – Banco de Dados II<br />
  3. 3. Modelos de RI<br />Modelo booleano:<br /><ul><li>Baseado na teoria dos conjuntos;
  4. 4. Queries são descritas com conectores lógicos (AND, OR, NOT);
  5. 5. Não tem um mecanismo de ordenação.</li></ul>Modelo booleano estendido:<br /><ul><li>Similar ao modelo booleano;
  6. 6. Mecanismo de ordenação com cálculo de similaridade mais robusto.</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  7. 7. Modelos de RI<br />Modelo vetorial:<br /><ul><li>Documento é representado por uma lista de termos (palavras);
  8. 8. Avalia a similaridade de uma query em relação a um documento;
  9. 9. Ordenação de acordo com o grau de similaridade.</li></ul>Modelo difuso:<br /><ul><li>Baseada na teoria de conjuntos difusos;
  10. 10. Permite definir graus de importância para cada termo em uma query.</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  11. 11. Estrutura geral de um SRI<br />Universidade de Pernambuco – Banco de Dados II<br />
  12. 12. Engenhos de Busca<br /><ul><li>Um sistema de busca é um conjunto organizado constituído de computadores, índices, bases de dados e algoritmos.
  13. 13. Também conhecidos como “search engines” (máquinas de busca).</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  14. 14. Engenhos de Busca<br />Há vários tipos de buscadores:<br />AOL<br />Buscador Baseado <br />em Diretórios <br />Universidade de Pernambuco – Banco de Dados II<br />
  15. 15. Engenhos de Busca<br />Há vários tipos de buscadores:<br />Clusty<br />Buscador Baseado <br />em Meta-Busca<br />Universidade de Pernambuco – Banco de Dados II<br />
  16. 16. Engenhos de Busca<br />Há vários tipos de buscadores:<br />Yahoo<br /> Buscador Híbrido<br />Universidade de Pernambuco – Banco de Dados II<br />
  17. 17. Engenhos de Busca<br />Há vários tipos de buscadores:<br />Google<br />Crawler search engines<br />Universidade de Pernambuco – Banco de Dados II<br />
  18. 18. Engenhos de Busca<br />Há vários tipos de buscadores:<br />MedicineNet<br />Buscadores Especializados<br />Universidade de Pernambuco – Banco de Dados II<br />
  19. 19. Crawler<br /><ul><li>É um programa de computador que navega de uma forma metódica e automatizada.
  20. 20. Mecanismo responsável por “varrer” a Web.</li></ul>Como funciona?<br />Precisa de sementes (URLs iniciais)<br />Cada página HTML pode ter links que apontam para outras páginas <br />Os links capturados se tornam novas sementes<br />Universidade de Pernambuco – Banco de Dados II<br />
  21. 21. Crawler<br />Semente: www.upe.br<br />Universidade de Pernambuco – Banco de Dados II<br />
  22. 22. O Google<br /><ul><li>Fundada em 1998;
  23. 23. No final de 1998 já era um dos 100 sites mais acessados;
  24. 24. Primeiro investidor assinou um cheque de 100 mil dólares;</li></ul>Sergey Brin<br />Larry Page<br />Universidade de Pernambuco – Banco de Dados II<br />
  25. 25. O que faz o Google ser o “melhor” sistema de RI a web?<br /><ul><li>Utiliza o algoritmo PageRank para ordenar os documentos recuperados (link analysis).
  26. 26. Medidor de Popularidade</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  27. 27. Estrutura de pesquisa do Google<br />Universidade de Pernambuco – Banco de Dados II<br />
  28. 28. Vídeo<br />
  29. 29. Tendências futuras<br /><ul><li>O computador não consegue “entender” a informação;
  30. 30. Diversidade, estrutura, qualidade, quantidade são algumas das características a serem consideradas;
  31. 31. Estruturas que consigam entender o conteúdo de um texto;</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  32. 32. Cadê a informação<br /> sobre a ilha ?<br />Universidade de Pernambuco – Banco de Dados II<br />
  33. 33. Web Semântica<br /><ul><li>Um dos criadores é Tim Berners-Lee;
  34. 34. É uma extensão da Web atual;
  35. 35. Grande diferença:
  36. 36. Computadores terão condições de entender o conteúdo;
  37. 37. A cooperação entre humanos e computadores será maior;
  38. 38. Tarefas mais automatizadas.</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  39. 39. Ontologia<br /><ul><li>É a tecnologia que propicia ao computador “entender” um conteúdo;
  40. 40. Estrutura que permite definir conceitos e suas relações com outros conceitos;
  41. 41. Geração de conhecimento adicional através de técnicas de inferência.</li></ul>Universidade de Pernambuco – Banco de Dados II<br />
  42. 42. Exemplo<br />possui_irmão<br />Maria<br />Marcos<br />é_filho_de<br />possui_tio<br />João<br />Ex.: João é_Filho_De Maria e Maria possui_Irmão Marcos ::= João possui_Tio Marcos<br />Nesse caso, posso fazer uma query para recuperar, por exemplo, todos os tios ou especificamente os tios de João.<br />Universidade de Pernambuco – Banco de Dados II<br />
  43. 43. Ontologia e recuperação de informação<br />Ontologia contém definição formal de conteúdo;<br />Desenvolvimento de sistemas de RI mais inteligentes;<br />Há vários “lugares” onde ontologia pode ser usada: indexação/recuperação, interface, etc;<br />Fornecer respostas mais precisas.<br />Universidade de Pernambuco – Banco de Dados II<br />
  44. 44. PRÁTICA<br />Universidade de Pernambuco – Banco de Dados II<br />
  45. 45. Lucene<br />É uma biblioteca que implementa recursos para criar sistemas de RI;<br />Criado por Doug Cutting em 2000<br />Free e Open Source (suportada pela Apache);<br />Robusta: indexa milhares de documentos (Terabytes de informação);<br />Fácil de usar;<br />É usada pela Wikipedia<br />Universidade de Pernambuco – Banco de Dados II<br />
  46. 46. Cria o Analisador<br />Cria o índice<br />Cria o arquivo <br />ilimitado<br />Adiciona os <br />documentos<br />
  47. 47. Faz a Pergunta<br /> Faz o parse da consulta <br />e cria uma query. <br />Faz a pesquisa<br />Apresenta os<br />resultados<br />Fechamento do buscador quando não<br />há mais necessidade de buscar <br />documentos<br />O método addDoc cria um novo documento, adiciona um texto (text) como título deste documento <br />e configura este título para ser armazenado e analisado.<br />
  48. 48. Universidade de Pernambuco – Banco de Dados II<br />
  49. 49. Conclusão<br /> Vimos que existem diversos modelos de recuperação de informações que são utilizados por diversos tipos de mecanismos de busca e que apesar da tecnologia empregada no desenvolvimento desses sistemas a recuperação de informação ainda é uma área que estar em plena evolução e por isso as buscas não são tão eficientes como deveriam ser. Com base nesse problema é que entra o auxilio da web semântica como o objetivo de tornar as buscas mais eficientes;.<br />Universidade de Pernambuco – Banco de Dados II<br />
  50. 50. Questionário<br />1 - Quais são os principais modelos de RI?<br />a) Modelo booleano, modelo vertical, modelo probabilístico e modelo difuso<br />b) Modelo booleano, modelo difuso e vertical<br />c) Modelo difuso, modelo booleano e modelo probabilístico<br />d) Modelo probabilístico, modelo booleano e modelo difuso<br />2 - Qual algoritmo de busca o Google utiliza?<br />a) Rank<br />b)Crawler<br />c) PageRank<br />d) Hits<br />3 – Quem criou a web semântica ?<br />a) Tim Smith <br />b) TimBerners Lee<br />c) Jackob Nielsen<br />d) John Berners<br />Universidade de Pernambuco – Banco de Dados II<br />
  51. 51. Questionário<br />4 - O que é o Crawler?<br />a) É um modelo de busca através de palavras-chave das páginas já acessadas.<br />b) Mecanismo de busca.<br />c) É uma algoritmo de medida de popularidade.<br />d) É um programa de computador que navega de uma forma metódica e automatizada, criando cópias das páginas já acessadas.<br /> 5- o que é um mecanismo de busca?<br />a) É a tecnologia que propicia ao computador “entender” um conteúdo;<br />b) É um conjunto organizado constituído de computadores, índices, bases de dados e algoritmos.<br />c) É uma biblioteca que implementa recursos para criar sistemas de RI<br />d) É uma extensão da Web atual<br />Universidade de Pernambuco – Banco de Dados II<br />
  52. 52. OBRIGADO !<br />Universidade de Pernambuco – Banco de Dados II<br />
  53. 53. Referências<br /><ul><li> SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistemas de Banco de Dados. Editora Campus, 2008;
  54. 54. Recuperação de informação (http://pt.wikipedia.org/wiki/Recuperação_de_informação)
  55. 55. Informationretrieval (http://en.wikipedia.org/wiki/Information_retrieval)
  56. 56. Search engines (http://en.wikipedia.org/wiki/Search_engines)
  57. 57. Apache Lucene (http://lucene.apache.org/java/docs)</li>

×