Avaliação de Sistemas de Recuperação da Informação

1,308 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,308
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
63
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Avaliação de Sistemas de Recuperação da Informação

  1. 1. Centro de Informática – Universidade Federal da Paraíba Ordenação e Recuperação de Dados Aula 9: Avaliação de Sistemas de Recuperação de Informação e Sumário de Resultados Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br 1 1
  2. 2. Agenda❶ Revisão❷ Avaliação sem classificação❸ Avaliação com classificação❺ Sumário de Resultados 2
  3. 3. Agenda❶ Revisão❷ Avaliação sem classificação❸ Avaliação com classificação❺ Sumário de Resultados 3
  4. 4. 4
  5. 5. Usando um heap mínimo para selecionar ostop k documentos entre os N disponíveis  Usar um heap binário mínimo  Um heap binário mínimo é uma árvore binária na qual o valor de cada nó é menor que o valor de seus filhos.  Precisamos de O(N log k) operações para construir um heap contendo os k maiores valores entre os N documentos.  Essencialmente linear em N para um valor pequeno para k e grande para N 5
  6. 6. Heap binário mínimo 6
  7. 7. Seleciona os k melhores scores em O(N log k)  Objetivo: Manter os k melhores documentos encontrados até o momento  Usar um heap binário mínimo  Para processar o documento d′ com score s′:  Pegar o valor mínino do heap hm (em O(1))  Se s′ ≤ hm ignorar e processar o próximo documento  Se s′ > hm heap-delete-root (in O(log k))  Heap-add s′ (in O(log k)) 7
  8. 8. Índice estratificado 8
  9. 9. Agenda❶ Revisão❷ Avaliação sem classificação❸ Avaliação com classificação❺ Sumário de Resultados 9
  10. 10. Métricas para um engenho de busca  Quão rápido ele consegue indexar  e.g., número de bytes por hora  Quão rápido ele consegue realizar uma busca  e.g., latência como função da quantidade de consultas por segundo  Qual o custo por consulta?  em $ 10
  11. 11. Métrica para um engenho de busca  Todos os critérios anteriores podem ser mensuráveis: podemos quantificar velocidade / tamanho / dinheiro  No entanto, a principal métrica para um engenho de busca é satisfação do usuário.  O que é satisfação do usuário?  Fatores incluídos:  Velocidade na resposta  Tamanho do índice  Interface amigável  Mais importante: relevância  Note que nenhum desses é suficiente sozinho: extrema rapidez com resultados inúteis não deixam o usuário feliz.  Como quantificar a satisfação dos usuários? 11
  12. 12. Quem é o usuário?  Quem é o usuário que estamos tentando deixar feliz?  Ferramentas de busca na web  Pesquisador - Sucesso: O pesquisador encontra o que está procurando. Métrica: taxa de retorno a ferramenta de busca  Anunciante - Sucesso: Pesquisador clica no anúncio. Métrica: taxa de cliques  Comércio eletrônico  Comprador - Sucesso: Comprador compra algo. Métricas: tempo para efetuar a compra, fração da conversão de pesquisadores em compradores  Vendedor - Sucesso: Vendedor vende algo. Métrica: lucro por item vendido 12
  13. 13. Definição mais comum para satisfação dousuário: Relevância  A satisfação dos usuários é proporcional a relevância dos resultados em relação as consultas  Como medir relevância?  Metodologia padrão em recuperação da informação consiste em três elementos.  Uma coleção de documentos para benchmark  Uma coleção de consultas para benchmark  Uma análise da relevância de cada par consulta- documento 13
  14. 14. Relevância: consulta vs. Necessidade deinformação  Relevante a que?  Primeira tentativa: relevante a consulta  “Relevância a consulta” apresenta alguns problemas.  Necessidade de informação i : “Estou procurando saber se beber vinho tinho é melhor do que beber vinho branco na redução dos riscos de ataques cardíacos.”  Isto é uma necessidade de informação, não uma consulta.  Consulta q: [vinho tinto vinho branco ataque cardíaco]  Considere o documento d′: No coração de seu discurso estava um ataque ao lobby da indústria de vinhos para minimizar o efeito do consumo de vinhos tinto e branco na taxa de acidentes causados por motoristas alcoolizados.”  O score de d′ em relação a q será muito bom . . .  d′ não é relevante para a necessidade de informação i. 14
  15. 15. Relevância: consulta vs. Necessidade deinformação  A satisfação do usuário só pode ser medida pela relevância em relação as suas necessidades de informação e não as suas consultas. 15
  16. 16. Precisão e Recall  Precisão (P) é a fração dos documentos retornados que é relevante  Recall (R) é a fração dos documentos relevantes que é retornada 16
  17. 17. Precisão e Recall P = TP / ( TP + FP ) R = TP / ( TP + FN ) 17
  18. 18. Trandeoff entre Precisão e Recall  É possível aumentar o recall retornando mais documentos.  Um sistema de busca que retorna todos os docmentos tem um recall de 100%!  O contrário também é geralmente verdade: é fácil obter altos níveis de precisão com baixos nívels de recall.  Suponha que o documento com o maior score é relevante. Como poderíamos maximizar a precisão? 18
  19. 19. Uma medida composta: F  F nos permite balancear precisão e recall. onde  α ϵ [0, 1] e b 2 ϵ [0,∞]  Valores mais utilizados: F balanceado com b = 1 ou α = 0.5  Que valores de β dão peso maior ao recall do que a precisão? 19
  20. 20. F: Exemplo relevantes não relevante recuperado 20 40 60 Não recuperado 60 1,000,000 1,000,060 80 1,000,040 1,000,120 20
  21. 21. Acurácia  Por que usar métricas complexas como precisão, recall e F?  Por que não usar algo mais simples como acurácia?  Acurácia é a fração das decisões (relevante/não relevante) que são corretas  Em termos da tabela  Acurácia = (TP + TN)/(TP + FP + FN + TN).  Por que acurácia não é uma métrica útil em um sistema de recuperação de informação na web? 21
  22. 22. Porque acurácia é inútil em sistemas derecuperação da informação  Truque simples para maximizar acurácia: sempre retorne 0 resultados  Isso resulta em uma acurácia de 99.9% para a maioria das consultas (em geral, 99.9% dos documentos são irrelevantes para uma consulta)  Usuários de sistemas de busca na web (e em geral) querem encontrar algo e têm um certo grau de tolerância a lixo.  É melhor retornar alguns maus resultados do que não retornar nada.  →Usamos precisão, recall e F para avaliação. 22
  23. 23. Agenda❶ Revisão❷ Avaliação sem classificação❸ Avaliação com classificação❹ Benchmarks de avaliações❺ Sumário de Resultados 23
  24. 24. Curva de Precisão-Recall  Precisão/recall/F são métricas para conjuntos não ranqueados.  É possível utilizar estas métricas também para listas de documentos ranqueados.  Basta calcular o valor para cada “prefixo”: o top 1, top 2, top 3, top 4 etc resultados  Fazendo isso, precisão e recall geram uma curva. 24
  25. 25. Uma curva de precisão-recall  Cada ponto corresponde a um resultado para os top k resultados (k = 1, 2, 3, 4, . . .).  Interpolação (em vermelho):Valor máximo para todos os pontos no futuro 25
  26. 26. Agenda❶ Revisão❷ Avaliação sem classificação❸ Avaliação com classificação❺ Sumário de Resultados 26
  27. 27. Como apresentar os resultados para ousuário?  Mais frequente: como uma lista – aka “10 links azuis”  Como cada documento deve ser descrito na lista?  Esta descrição é crucial.  O usuário geralmente consegue identificar bons resultados através da descrição.  Evita a necessidade de clicar em todos os documentos de forma sequencial 27
  28. 28. Descrição de um documento na lista deresultados  Mais comum: título do documento, url, alguns metadados . . .  . . . e um sumário  Como “calcular” o sumário? 28
  29. 29. Sumários  Dois tipos básicos: (i) estático (ii) dinâmico  Um sumário estático de um documento é sempre o mesmo, independente da consulta realizada pelo usuário.  Sumários dinâmicos são dependentes da consulta. Eles servem para tentar explicar porque o documento foi recuperado em resposta aquela consulta. 29
  30. 30. Sumários estáticos  Em um sistema típico, um sumário estático é um subconjunto do documento.  Heurística mais simples: pegar as 50 primeiras palavras do documento  Um pouco mais sofisticada: extrair sentenças-chave de cada documento  Heurística simples de PLN para classificar cada sentença  O sumário é composto pelas sentenças melhor classificadas  Abordagem baseada em aprendizagem de máquina (Capítulo 13)  A mais sofisticada: PLN complexo para sintetizar/gerar um sumário 30
  31. 31. Sumários Dinâmicos  Apresenta uma ou mais “janelas” no documento que contém vários dos termos da consulta.  Preferência por trechos onde os termos aparecem como frases  Preferência por trechos onde os termos aparecem juntos em pequenas janelas  O sumário “computado” desta maneira apresenta todo o conteúdo da janela, todos os termos não só os da consulta. 31

×