Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Filtragem e recuperação da informação

427 views

Published on

Apresentação do artigo elaborado para a disciplina Recuperação Inteligente da Informação no Mestrado em Ciência da Informação da Universidade Federal de Santa Catarina.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Filtragem e recuperação da informação

  1. 1. Filtragemerecuperaçãoda informaçãonaweb Vanessa Levati Biff Maio, 2016 UNIVERSIDADE FEDERAL DE SANTA CATARINA Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Disciplina: Recuperação Inteligente da Informação Profº: Dr. Angel Godoy Vieira
  2. 2. Motivações.... a explosão bibliográfica;
  3. 3. Motivações... a sobrecarga da informação;
  4. 4. Motivações... a falta de um método para comparar e processar diferentes tipos de informações disponíveis na web!
  5. 5. Objetivo Avaliar técnicas de filtragem e recuperação de informação e suas aplicações na otimização da busca de informação na web.
  6. 6. Recuperaçãodainformaçãonaweb
  7. 7. Recuperaçãodainformaçãonaweb A recuperação da informação (RI) abrange estudos voltados aos processos relativos ao acesso à informação, propondo modelos que solucionem a necessidade da informação de um usuário em determinado conjunto de dados.
  8. 8. ProblemasdeRInaweb - Quantidade de documentos não relevantes retornados; - Tempo dispendido pelo usuário para verificação das buscas. Os problemas estão relacionados ao modelo de recuperação adotado, que muitas vezes desconsideram o contexto da consulta. (BAEZA-YATES; RIBEIRO-NETO; 2013)
  9. 9. sISTEMASDERECUPERAÇÃOdainformação SRI são compostos por três processos básicos: a consulta de informação, a indexação e o cálculo de similaridade que basicamente verifica a ocorrência ou não dos termos da consulta na base de dados. Atualmente são utilizadas técnicas de mineração de dados como indexação de termos, classificação de documentos mas a maioria dos modelos adotados não levam em consideração aspectos semânticos da consulta ou do perfil do usuário
  10. 10. problemasdesri - Coincidir a representação com as necessidades dos usuários; - Os usuários não conseguirem expressar suas necessidades; - Necessidade de interagir com o sistema. (XIE; 2008)
  11. 11. técnicasderecuperaçãodainformação Em recuperação da informação, há várias abordagens que tentam melhorar a formulação da consulta inicial afim de melhorar a recuperação de informações úteis. Dentre elas há processo de feedback de relevância e a expansão da consulta. O primeiro ocorre quando o usuário fornece explicitamente informações sobre os documentos relevantes para uma consulta, e o segundo quando as informações relacionadas à consulta são utilizadas para expandi-la. (BAEZA-YATES; RIBEIRO-NETO, 2013)
  12. 12. recuperaçãodainformaçãointerativa Belkin et al. (2004) conclui que embora haja uma boa quantidade de pesquisas sobre algorítimos de recuperação da informação que atendam essas características, pouco se tem focado em questões de recuperação interativa. Isso porque seres humanos são mais complexos do que algoritmos correspondentes, suas motivações e comportamentos são mais variados e difíceis de se medir. Entretanto, sistemas de Informação que filtram informações relevantes para um determinado usuário baseado em seu perfil são conhecidos como Sistemas de Recomendação.
  13. 13. Sistemasderecomendação Sistemas de recomendação tem o efeito de orientar os usuários de forma personalizada para objetos interessantes em um grande espaço de opções possíveis. (LOPS, GEMMIS; SEMERARO, 2004) Os usuários precisam de um apoio personalizado em peneirar grande quantidades de informação disponíveis, de acordo com os seus interesses e gostos
  14. 14. Filtragemdeinformação Compreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades. (HANANI; SHAPIRA; SHOVAL, 2001)
  15. 15. Filtragemdeinformação Compreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades. (HANANI; SHAPIRA; SHOVAL, 2001)
  16. 16. exemplodeaplicações - Filtros para resultados de pesquisa na internet; - Filtros de e-mails personalizados com base em perfis pessoais; - Filtros para aplicações de e-commerce que tratam de produtos e promoções para apenas clientes potenciais. (HANANI; SHAPIRA; SHOVAL, 2001)
  17. 17. técnicasdeFiltragemdeinformação Com o objetivo de gerir a sobrecarga de informação, a Filtragem de Informação faz uso dos vários métodos, conceitos e técnicas de diversas áreas de pesquisa, como: Recuperação de Informação, Inteligência Artificial e Ciência Comportamental. - Filtragem baseada em conteúdo; - Filtragem colaborativa; - Filtragem Híbrida. (HANANI; SHAPIRA; SHOVAL, 2001)
  18. 18. Filtragembaseadaemconteúdo Baseia-se na análise do conteúdo do item e no perfil do usuário. Técnicas para: - Representar os itens; - Produzir o perfil de usuário; - Comparar o perfil do usuário com a representação do item.
  19. 19. Utiliza técnica de RI: - Modelo vetorial - Indexação semântica (métodos de aprendizagem)
  20. 20. Utiliza técnica de RI: - Aprendizado de máquina; - Algoritmos e redes neurais; - Feedback de relevância; (explicito e implicito)
  21. 21. Histórico de feedback do usuário Itens do sistema Perfil do usuário Cálculo de similaridade entre perfil do usuário e itens do sistema Lista de recomendações Usuário interage com o sistema
  22. 22. DesvantagensDAFILTRAGEMBASEADAEMCONTEÚDO Limite na análise de conteúdo Só é eficaz se os itens tiveram a quantidade considerável de informação armazenada de forma textual. Superespecialização O usuário fica limitado a um grau especifico de novidade, afetando a diversidade. Novos usuários Pois a avaliação do usuário é necessária para que o sistema possa compreender e atender suas preferências. (LOPS; GEMMIS; SEMERARO, 2004)
  23. 23. Filtragemcolaborativa Tenta prever a utilidade dos itens para um determinado usuário com base nos itens que foram previamente avaliados por outros usuários.
  24. 24. Filtragemcolaborativa
  25. 25. Filtragemcolaborativa julgamento explicito
  26. 26. Filtragemcolaborativa julgamento implicito
  27. 27. desvantagensdafiltragemcolaborativa Novos itens Novo item não será indicado até que tenha sido avaliado por um número considerável de usuários Novos usuários O insuficiente conhecimento do novo usuário afeta o estabelecimento de vizinhança. Dispersão Se um item for avaliado por poucas pessoas, este item raramente será recomendado. Escalabilidade Muitas avaliações pode ocasionar lentidão no calculo de similaridade.. (ADOMAVICIUS; TUZHILIN, 2005)
  28. 28. Filtragemhíbrida Combina os pontos fortes da filtragem baseada em conteúdo e da filtragem colaborativa. Filtragem baseada em conteúdo - Independência do usuário - Indicação de itens ainda não avaliados por qualquer usuário - Histórico de consumo Filtragem colaborativa - Recomendação de itens diversos e inesperados - Descoberta de novos relacionamentos entre usuários - Histórico de avaliações em comum
  29. 29. Filtragemhíbrida Método de hibridização Descrição Ponderada (Weighted) As pontuações das técnicas de filtragem são combinadas para produzir uma única recomendação. Comutação (Switching) O sistema alterna entre as técnicas dependendo da situação atual. Misturada (Mixed) Recomendações de vários técnicas diferentes são apresentado ao mesmo tempo. Combinação de recurso (Feature combination) Características de diferentes técnicas são jogadas juntas em um único algoritmo de recomendação. Cascata (Cascade) Uma técnica refina as recomendações dadas por outra. Aumento do recurso (Feature augmentation) A saída de uma técnica é utilizada como uma característica de entrada para outra. Fonte: (BURKE, 2002, p.7, tradução nossa)
  30. 30. Consideraçõesfinais 1. 2. [...] Recuperação Filtragem
  31. 31. Consideraçõesfinais Recuperação Filtragem Frequência de uso Usuário singular, curto prazo Uso repetitivo, longo prazo Representação da necessidade de informação Palavras de consulta Perfil de usuário Preocupações Coleta e organização dos itens Distribuição dos itens Escopo do sistema Relevância dos itens para a necessidade de informação pontual Processamento de um fluxo de informações para corresponder a gostos e preferências Exemplos Science Direct, Google Acadêmico, Yahoo! Amazon, Google News, Youtube, Netflix
  32. 32. Consideraçõesfinais “A recuperação da informação e filtragem de informação são realmente dois lados da mesma moeda. Eles trabalham em conjunto para ajudar as pessoas a obter as informações necessárias para suas tarefas.” (BELKIN; CROFT, 1995, p.9, tradução nossa) A maior parte dos problemas que parecem ser exclusivos para filtragem de informação são especializações de problemas que aparecem na recuperação da informação, na medida em que, grande parte da experiência e pesquisa em RI é diretamente relevante para FI.
  33. 33. Consideraçõesfinais Por outro lado, pesquisadores como Pariser (2011) argumentam que o uso de técnicas de filtragem de informação aplicados a recuperação da informação tem contribuído para o crescimento do que ele denomina de “Filtro Bolha”, uma consequência perigosa da personalização da web. O emprego de tais tecnologias pode dificultar o acesso a novas informações que poderiam ampliar a visão de mundo, uma vez que tais técnicas adaptam a informação retornada a partir dos gostos pessoais e, desta forma, acabam tornando o ambiente da web um espelho unidirecional, tendo em vista que só refletirá seus próprios interesses.
  34. 34. referênciasbibliográficas ADOMAVICIUS, G.; TUZHILIN, A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE Transactions on Knowledge and Data Engineering, New York, v. 17, n. 6, p. 734-749, June. 2005. BAEZA-YATES, R.; RIBEIRO-NETO, B.. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2ª ed. Porto Alegre: Bookman, 2013. BELKIN, N.J.; CROFT, W.B. Information filtering and information retrieval: Two sides of the same coin?. Communications of the ACM, v.35, n.12, p.29-38, dez., 1992. BELKIN, N.J. et al. Evaluating interactive information retrieval systems: Opportunities and challenges. In: Proceedings of CHI'2004, 1594-1595, 2004. HANANI, U.; SHAPIRA, B.; SHOVAL, P. Information filtering: Overview of issues, research and systems. User Modeling and User-Adapted Interaction, v. 11, n.3, p. 203-259, 2001.
  35. 35. referênciasbibliográficas INTERNET LIVE STATS. 2016 Disponível em: <http://www.internetlivestats.com/> Acesso em 30 abr. 2016. LOPS, P.; GEMMIS, M.; SEMERARO, G.. Content-based Recommender Systems: State of the Art and Trends. In: RICCI, F. et al. Recommender Systems Handbook. New York: Springer, 2011. p. 73-105. http://facweb.cs.depaul.edu/mobasher/classes/ect584/Papers/ContentBasedRS.pdf MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. I. Web search basics. In:An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 385--408. SARWAR, B. et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th international conference on World Wide Web, ACM, New York, 2001. p. 285-295. Disponível em: http://www10. org/cdrom/papers/519/ . Acesso em 30 abr. 2016. XIE, I. Interactive Information Retrieval in Digital Environments. New York: IGI Publishing, 2008.
  36. 36. Filtragemerecuperaçãoda informaçãonaweb Vanessa Levati Biff Maio, 2016 UNIVERSIDADE FEDERAL DE SANTA CATARINA Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Disciplina: Recuperação Inteligente da Informação Profº: Dr. Angel Godoy Vieira

×