Análise dos Modelos de Recuperação de Informação

445 views

Published on

Apresentação do trabalho de conclusão de curso sore recuperação de informação apresentado em Dezembro de 2012.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
445
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
24
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Análise dos Modelos de Recuperação de Informação

  1. 1. Análise dos Modelos de Recuperação de Informação Diogo  Benicá  Pereira Trabalho  para  Conclusão  de  Curso  |  Orientador:  André  Marcos  da  Silva Faculdade  Campo  Limpo  PaulistaFaculdade  Campo  Limpo  Paulista Dez/2012 01
  2. 2. qual o problema? Muita  informação! Não  é  fácil  encontrar  um  dado  relevante  no   meio  de  tanta  informação.Faculdade  Campo  Limpo  Paulista Dez/2012 02
  3. 3. qual a solução? Documentos Necessidade Sistemas  de  Recuperação de  Informação Perda de Informação Especificação Indexação da Consulta Para  a  tarefa  de  buscar   informação  relevante  dentro  de   Representação Índices dos Documentos Consultas um  conjunto  de  documentos documentos. Recuperação Lista de DocumentosFaculdade  Campo  Limpo  Paulista Dez/2012 03
  4. 4. o que é IR?“ Informa;on  Retrieval “ Encontrar  material  de  natureza  não-­‐estruturada  que   saQsfaz  uma  informação  requerida  a  parQr  de   grandes  coleções. - MainningFaculdade  Campo  Limpo  Paulista Dez/2012 04
  5. 5. o que é um documento? Um  documento  pode  ser  qualquer  unidade Um  texto  inteiro,  um  capítulo,  um  parágrago,  etc. Lorem
  6. 6.  ipsum
  7. 7.  dolor
  8. 8.  sit
  9. 9.  amet,
  10. 10.   Lorem
  11. 11.  ipsum
  12. 12.  dolor
  13. 13.  sit
  14. 14.  amet,
  15. 15.   Lorem
  16. 16.  ipsum
  17. 17.  dolor
  18. 18.  sit
  19. 19.  amet,
  20. 20.   consectetur
  21. 21.  adipisicing
  22. 22.  elit,
  23. 23.  sed
  24. 24.  do
  25. 25.   consectetur
  26. 26.  adipisicing
  27. 27.  elit,
  28. 28.  sed
  29. 29.  do
  30. 30.   consectetur
  31. 31.  adipisicing
  32. 32.  elit,
  33. 33.  sed
  34. 34.  do
  35. 35.   eiusmod
  36. 36.  tempor. eiusmod
  37. 37.  tempor. eiusmod
  38. 38.  tempor. incididunt
  39. 39.  ut
  40. 40.  labore
  41. 41.  et
  42. 42.  dolore
  43. 43.   incididunt
  44. 44.  ut
  45. 45.  labore
  46. 46.  et
  47. 47.  dolore
  48. 48.   incididunt
  49. 49.  ut
  50. 50.  labore
  51. 51.  et
  52. 52.  dolore
  53. 53.   magna
  54. 54.  aliqua.
  55. 55.  Ut
  56. 56.  enim
  57. 57.  ad
  58. 58.  minim
  59. 59.   magna
  60. 60.  aliqua.
  61. 61.  Ut
  62. 62.  enim
  63. 63.  ad
  64. 64.  minim
  65. 65.   magna
  66. 66.  aliqua.
  67. 67.  Ut
  68. 68.  enim
  69. 69.  ad
  70. 70.  minim
  71. 71.   veniam,
  72. 72.  quis
  73. 73.  nostrud
  74. 74.  exercitation
  75. 75.   veniam,
  76. 76.  quis
  77. 77.  nostrud
  78. 78.  exercitation
  79. 79.   veniam,
  80. 80.  quis
  81. 81.  nostrud
  82. 82.  exercitation
  83. 83.   ullamco.
  84. 84.   ullamco.
  85. 85.   ullamco.
  86. 86.   Laboris
  87. 87.  nisi
  88. 88.  ut
  89. 89.  aliquip
  90. 90.  ex
  91. 91.  ea
  92. 92.   Laboris
  93. 93.  nisi
  94. 94.  ut
  95. 95.  aliquip
  96. 96.  ex
  97. 97.  ea
  98. 98.   Laboris
  99. 99.  nisi
  100. 100.  ut
  101. 101.  aliquip
  102. 102.  ex
  103. 103.  ea
  104. 104.   commodo
  105. 105.  consequat.
  106. 106.  Duis
  107. 107.  aute
  108. 108.  irure
  109. 109.   commodo
  110. 110.  consequat.
  111. 111.  Duis
  112. 112.  aute
  113. 113.  irure
  114. 114.   commodo
  115. 115.  consequat.
  116. 116.  Duis
  117. 117.  aute
  118. 118.  irure
  119. 119.   dolor
  120. 120.  in
  121. 121.  reprehenderit
  122. 122.  in
  123. 123.  voluptate
  124. 124.   dolor
  125. 125.  in
  126. 126.  reprehenderit
  127. 127.  in
  128. 128.  voluptate
  129. 129.   dolor
  130. 130.  in
  131. 131.  reprehenderit
  132. 132.  in
  133. 133.  voluptate
  134. 134.   velit
  135. 135.  esse
  136. 136.  cillum
  137. 137.  dolore
  138. 138.  eu
  139. 139.  fugiat
  140. 140.   velit
  141. 141.  esse
  142. 142.  cillum
  143. 143.  dolore
  144. 144.  eu
  145. 145.  fugiat
  146. 146.   velit
  147. 147.  esse
  148. 148.  cillum
  149. 149.  dolore
  150. 150.  eu
  151. 151.  fugiat
  152. 152.   nulla
  153. 153.  pariatur. nulla
  154. 154.  pariatur. nulla
  155. 155.  pariatur. Excepteur
  156. 156.  sint
  157. 157.  occaecat
  158. 158.  cupidatat Excepteur
  159. 159.  sint
  160. 160.  occaecat
  161. 161.  cupidatat Excepteur
  162. 162.  sint
  163. 163.  occaecat
  164. 164.  cupidatat A  escolha  depende  do  resultado  desejadoFaculdade  Campo  Limpo  Paulista Dez/2012 05
  165. 165. como funciona? Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 06
  166. 166. modelo booleano Álgebra  booleana Sistema  para  manipular  regras  e  símbolos. Lógica  aristotélica AQngir  conhecimento  sem  contradição. Verdadeiro  ou  FalsoFaculdade  Campo  Limpo  Paulista Dez/2012 07
  167. 167. modelo booleano Expressões  booleanas termo1    AND    (termo2    OR    termo3) ex.    “Recuperação”    AND  (“Informação”    OR    “Texto”) termo1    n  unidades    termo2 ex.    “Recuperação”    5  unidades    “Informação”Faculdade  Campo  Limpo  Paulista Dez/2012 08
  168. 168. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 09
  169. 169. modelo vetorial Resultados  parciais Uso  de  pesos  nos  termos  para  determinar  quanto  cada   documento  é  semelhante  à  expressão  de  busca. Tudo  são  vetores Documentos  e  expressões  de  busca  são  representados  como  vetores. Documento Peso  termo1 Peso  termo2 Peso  termo3 Peso  termo4Faculdade  Campo  Limpo  Paulista Dez/2012 10
  170. 170. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 11
  171. 171. modelo probabilistíco Teoria  da  probabilidade Experimentos  aleatórios  em  condições  iguais  com  resultados   diferentes. Probabilidade  de  um  evento Evento 1 Resultados  possíveis 6Faculdade  Campo  Limpo  Paulista Dez/2012 12
  172. 172. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 13
  173. 173. modelo booleano estendido União  do  modelo  booleano  e  do  vetorial Junta  a  potencialidade  do  booleano  com  a  precisão  do  vetorial. Operadores  com  pesos Os  operadores  (AND  e  OR)  também  possuem  pesos.Faculdade  Campo  Limpo  Paulista Dez/2012 14
  174. 174. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 15
  175. 175. modelo fuzzy Baseado  na  lógica  fuzzy Opera  com  incerteza  e  verdade  parcial Um  elemento  tem  um  grau  de  perQnência  em  um  conjunto. cidade  1 75% 25% cidade  2 Cidade  1 Cidade  2 ElementoFaculdade  Campo  Limpo  Paulista Dev/2012 16
  176. 176. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 17
  177. 177. sistemas especialistas Emula  a  especialização  humana  em  um  domínio Entrada  de  conhecimento  a  parQr  de  especialistas. Regras,  inferência  e  feedback Através  de  regras  SE  -­‐  ENTÃO  faz  inferência  e  adquire  mais   conhecimento  através  do  feedback  do  usuário.Faculdade  Campo  Limpo  Paulista Dez/2012 18
  178. 178. como funciona Modelos  de  Recuperação Modelos  quan;ta;vos Modelos  dinâmicos Booleano Sistemas  especialistas Vetorial Redes  neurais ProbabilísQco Algoritmos  genéQcos Booleano  estendido FuzzyFaculdade  Campo  Limpo  Paulista Dez/2012 19
  179. 179. redes neurais Sistema  modelando  os  circuitos  cerebrais Procura  obter  um  comportamento  inteligente. Vários  neurônios  formam  uma  rede  neural Cada  neurônio  tem  várias  entradas  e  uma  função  que  transforma   em  uma  saída. Capacidade  de  aprender  com  exemplos Melhora  gradual  de  desempenho  através  de  inferências.Faculdade  Campo  Limpo  Paulista Dez/2012 20
  180. 180. algoritmos genéticos Baseado  na  teoria  evolucionista  de  Darwin Seleção  natural Os  algoritmos  se  “reproduzem”  e  se  adaptam  para  que  cada   geração  seja  melhor  em  resolver  o  problema.Faculdade  Campo  Limpo  Paulista Dez/2012 21
  181. 181. na prática Análise  dos  modelos Criação  de  protóQpos  dos  modelos  booleano,  vetorial  e  booleano   estendido. Comparação Análise  do  tempo  de  execução,  uso  de  memória  e  qualidade  de   resultado. Ambiente PHP  5.3  (executado  no  terminal).Faculdade  Campo  Limpo  Paulista Dez/2012 22
  182. 182. na prática (documento) Documentos Cada  modelo  será  testado  com  9  diferentes  documentos  de  texto. Os  documentos  têm  aproximadamente  150,  900  e  1800  palavras. Expressão  de  busca Para  cada  grupo  de  documentos  será  aplicada  uma  expressão  de   busca  com  3  e  depois  6  termos.   Ex:  termo1  AND  termo2  OR  termo3 termo1  AND  (termo2  OR  termo3)  AND  termo4  OR  (termo5  AND  termo6)Faculdade  Campo  Limpo  Paulista Dez/2012 23
  183. 183. resultados (Modelo  booleano) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 0,00019 1000 kb 947  kb 947  kb 0,00019 s 0,00016 0,00015 0,00014 750 kb 681  kb 681  kb 0,00014 s 0,00012 500 kb 458  kb 458  kb 0,00010 s 0,00009 250 kb 0,00005 s 0 kb 0s 3 termos 6 termos 3 termos 6 termosFaculdade  Campo  Limpo  Paulista Dez/2012 24
  184. 184. resultados (Modelo  vetorial) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 1000 kb 967  kb 967  kb 0,02000 s 0,01753 0,01775 750 kb 697  kb 697  kb 0,01500 s 500 kb 465  kb 465  kb 0,01000 s 0,00890 0,00903 250 kb 0,00500 s 0,00221 0,00222 0 kb 0s 3 termos 6 termos 3 termos 6 termosFaculdade  Campo  Limpo  Paulista Dez/2012 25
  185. 185. resultados (Modelo  booleano  estendido) Uso  de  Memória Tempo  de  Execução 150 palavras 900 palavras 1800 palavras 150 palavras 900 palavras 1800 palavras 1000 kb 967  kb 967  kb 0,03000 s 0,02676 0,02681 750 kb 697  kb 697  kb 0,02250 s 0,01511 0,01513 500 kb 465  kb 465  kb 0,01500 s 250 kb 0,00750 s 0,00328 0,00332 0 kb 0s 3 termos 6 termos 3 termos 6 termosFaculdade  Campo  Limpo  Paulista Dez/2012 26
  186. 186. conclusões (experimento) Modelo  booleano  é  muito  rápido! Seguido  do  modelo  vetorial  e  depois  o  modelo  booleano  estendido. Modelo  booleano  estendido  tem  melhores  resultados Crescimento  linear  de  memória  e  tempo Todos  os  modelos  apresentaram  um  crescimento  linear  em  relação  ao   tamanho  dos  documento.Faculdade  Campo  Limpo  Paulista Dez/2012 27
  187. 187. conclusões (geral) Modelos  quan;ta;vos  estão  consolidados Presentes  na  web  e  na  maioria  dos  sistemas  de  recuperação. Modelos  dinâmicos  ainda  são  complexos Dircil  implementação  e  de  domínio  específico. Modelos  quan;ta;vos  não  são  tolerantes  à  falhas Erros  de  gramáQca,  semânQca  e  cultura  não  são  levados  em  conta.Faculdade  Campo  Limpo  Paulista Dez/2012 28
  188. 188. fimFaculdade  Campo  Limpo  Paulista Dez/2012 29
  189. 189. ?Faculdade  Campo  Limpo  Paulista Dez/2012 30

×