Your SlideShare is downloading. ×
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave

1,948

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,948
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
51
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Mestrando Christiano Otero Avila Orientador Stanley Loh Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave
  • 2. Sumário
    • Objetivo do projeto
    • Diagrama e funcionamento interno da ferramenta
    • Métodos de extração
    • Avaliação dos métodos
    • Fase 2 – consolidação dos métodos
    • Fase 2 – novos métodos
    • SisRecAC – perspectiva do usuário
    • Tags – folksonomia
    • Expansão semântica – folksonomia
    • Expansão semântica – descoberta de relações em textos
    • Cronograma
    • Conclusões
    • Referências
  • 3. Objetivo do Projeto
      • Desenvolver um sistema de recomendação para descobrir os melhores ou o melhor método para extração de palavras-chave de documentos
        • Melhor = retorna artigos científicos mais relevantes
        • Quem retorna ?
  • 4.  
  • 5. Palavra 1 Documento Algoritmo para identificação automática de palavras-chave Palavra 1 Palavra 2 Palavra 3 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 7 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 7 Palavra 8 Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 7 Palavra 8 Palavra 9 http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= banco+dados+gerenciamento +-cita%C3%A7%C3%A3o+-% 5Blivro%5D&btnG=Pesquisar&lr = Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 7 Palavra 8 Palavra 9 Palavra 10 Envio sucessivos Palavra 1 Palavra 2 Palavra 3 Palavra 4 Palavra 5 Palavra 6 Palavra 7 Palavra 8 Palavra 9 Palavra 10 Palavra 1 Palavra 2
  • 6. Título do artigo + link origem do artigo resumo do artigo
  • 7. Métodos de Extração
    • 1) Palavras mais freqüentes
    3 Processos 4 Sistema 5 Relacional 6 Postgresql 7 Sgbd 8 Modelagem 11 Projeto 12 Gerenciamento 15 Dados 15 Banco FREQÜÊNCIA PALAVRA
  • 8. Métodos de Extração
    • Exemplos
      • com 3 palavras
        • banco, dados e gerenciamento
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= banco+dados+gerenciamento +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
      • com 4 palavras
        • banco, dados, gerenciamento e projeto
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= banco+dados+gerenciamento+projeto +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
      • 1.3) com 5 palavras
      • 1.4) com 6 palavras
      • 1.5) com 7 palavras
      • 1.6) com 8 palavras
      • 1.7) com 9 palavras
      • 1.8) com 10 palavras
  • 9. Métodos de Extração
    • 2) Método “Fusion”
      • São extraídas as 10 palavras mais freqüentes
    3 Processos 4 Sistema 5 Relacional 6 Postgresql 7 Sgbd 8 Modelagem 11 Projeto 12 Gerenciamento 15 Dados 15 Banco FREQÜÊNCIA PALAVRA
  • 10. Métodos de Extração
      • São enviadas ao Google Acadêmico cada palavra individualmente
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= banco +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= dados +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= gerenciamento +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= projeto +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
        • .....
        • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= sistema +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
  • 11. Métodos de Extração
    • De cada palavra, são recuperados 30 links, totalizando 300 links
    • Apenas os 10 links mais freqüentes dentre os 300 serão apresentados e avaliados
  • 12. Métodos de Extração
    • 3) Expressões
    • São extraídas do texto apenas expressões, ou seja, grupos de palavras que se repetem
    • Exemplos:
      • “ Banco de dados”
      • “ Gerenciamento de projetos”
      • “ Inteligência Artificial”
  • 13. Métodos de Extração
    • São enviados ao Google Acadêmico somente as expressões mais freqüentes:
      • Duas palavras e três palavras
      • Ex. “Inteligencia artificial” e “banco de dados”
      • http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q= “ inteligencia artificial”+ “ banco de dados” +-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
  • 14. Avaliação dos Métodos
    • Avaliação subjetiva
    • Avaliação por similaridade
  • 15. Avaliação subjetiva
    • O próprio usuário do SisRecAC avalia cada documento recomendado.
      • Este documento é relevante no contexto do documento de origem ?
        • ( ) Totalmente Relevante
        • ( ) Parcialmente Relevante
        • ( ) Irrelevante
  • 16. Avaliação subjetiva Qtd documentos considerados totalmente relevantes PercRelevantes = ---------------------------------------------------------------- X 100 Qtd documentos recomendados Qtd documentos considerados parcialmente relevantes PercParcRelev. = ---------------------------------------------------------------- X 100 Qtd documentos recomendados Qtd documentos considerados irrelevantes PercIrrelevantes ---------------------------------------------------------------- X 100 Qtd documentos recomendados
  • 17. Avaliação subjetiva – Tabulação dos resultados
  • 18. Avaliação subjetiva – Tabulação dos resultados – fase I
  • 19. Avaliação por similaridade
    • Avaliar a similaridade média das recomendações de cada método
    • Fórmula
  • 20. Avaliação por similaridade
    • Resultados
  • 21. Avaliação por similaridade
    • Gráficos
  • 22. Avaliação por similaridade
    • Gráfico similiaridade média
  • 23. Fase 2 – Consolidação dos Métodos
    • Tendo como base as avaliações da “Fase 1”, optamos por continuar avaliando os seguintes métodos:
      • Métodos de palavras-chave
        • 4 PC
        • 5 PC
        • 6 PC
        • 7 PC
        • 8 PC
        • 9 PC
  • 24. Fase 2 – Novos Métodos
    • Expressões
      • Uma expressão de maior ocorrência
      • Duas expressões de maior ocorrência
      • Três expressões de maior ocorrência
    • Tags cadastradas pelo usuário para identificar o documento
    • Título sem stopwords
  • 25. Fase 2 – Novos Métodos
    • Visão Geral
      • 1 - uma expressão de maior ocorrência
      • 2 - duas expressões de maior ocorrência
      • 3 - três expressões de maior ocorrência
      • 4,5,6,7,8,9 – palavras-chave
      • 10 – título sem stopwords
      • 11 - tags
  • 26. SisRecAC Perspectiva do Usuário
  • 27. SisRecAC – Objetivo e Funcionalidades
    • SisRecAC – Sistema de Recomendação de Artigos Científicos
    • Objetivo
      • Recomendar artigos científicos baseados em documentos armazenados pelo usuário
      • Permitir o compartilhamento de documentos e artigos recuperados
  • 28. SisRecAC – Principais funcionalidades
      • Permite armazenar documentos associando a uma ou mais tags
      • Apresenta artigos baseados nos documentos armazenados
      • Permite o compartilhamento de documentos e artigos
  • 29.  
  • 30.  
  • 31. Link para o documento Avaliação
  • 32.  
  • 33.  
  • 34. SisRecAC – Principais funcionalidades
      • Estatísticas
  • 35.  
  • 36. Tags --> folksonomia
  • 37.  
  • 38.  
  • 39. SELECT nomesite,tagorigem,tag as tagrelacionada FROM rec_tagdados WHERE tagorigem='framework' ORDER BY tagrelacionada;
  • 40. SELECT * FROM vtags WHERE tagorigem='framework'
  • 41. Expansão Semântica - Folksonomia
      • Expansão do Método que utiliza as tags que o usuário cadastrou para identificar um documento
  • 42. Expansão Semântica – Descoberta Relações em Textos
  • 43. SisRecAC – Funcionalidades extras
      • Integração com o SAPU
      • Convites (marketing viral)
      • Construção de um sistema de alertas, com o apoio de conceitos de IA, para informar ao usuário que novos artigos foram descobertos
        • Email
        • RSS
  • 44. Cronograma
    • Artigo para WebMedia (julho)
    • Definir e implementar os novos métodos com alguma forma de expansão (julho)
    • Implementar recursos e mecanismos para aumentar a utilização do SisRecAC – julho/agosto 2007
      • convites
      • integração com o SAPU
      • alertas (????)
    • Definir e implementar visualização de estatísticas das questões realizadas somente para Relevantes/Parcialmente Relevantes – “Justifique sua Avaliação” (agosto)
    • Monitorar os resultados da avaliação subjetiva (agosto/setembro)
    • Avaliar e documentar os resultados (outubro)
      • avaliação subjetiva e avaliação matemática (similaridade)
    • Artigos e monografia
  • 45. Conclusão
    • A importância do aumento do número de usuários e avaliações faz pensar a implementação de recursos interessantes
      • cuidado para não provocar uma perda de foco com recursos e facilidades (ajax por exemplo)
      • concentrar no estudo e resultados dos métodos e não na ferramenta
    • Folksonomia não era um estudo que estava previsto desde o início, mas é uma área emergente e interessante
      • publicações são recentes (maioria em 2006 e 2007)
      • semântica emergente
  • 46. Referências
    • B. Ribeiro-Neto, M. Cristo, E. S. de Moura, and P. B. Golgher. Impedance coupling in content-target advertising. In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 496--500, Salvador, Bahia, Brazil, July 2005.
    • Brooks, C. H.; Montanez, N. (2006) Improved annotation of the blogosphere via autotagging and hierarchical clustering. In: International World Wide Web Conference – WWW, May 2006, Edinburgh, Scotland, p.625-631.
    • Dahlen,B.J., Konstan,J.A., Herlocker,J.L., Good,N., Borchers,A., Riedl,J., 1998. Jump-starting movielens: User benefits of starting a collaborative filtering system with "dead data". University of Minnesota TR 98-017.
    • Goldberg, D. Nichols, D., Oki, B. M., and Terry, D. Using collaborative filtering to weave an information tapestry. Commun. ACM 35, 12 (Dec.1992), 61—70.
    • Herlocker, J., Konstan, J., Terveen, L., and Riedl, J. Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems 22, 1 (2004), 5–53
    • Kraft, R., Chang, C. C., Maghoul, F., and Kumar, R. 2006. Searching with context. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 477-486.
    • Kraft, R., Chang, C. C., Maghoul, F., and Kumar, R. 2006. Searching with context. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 477-486.DOI= http://doi.acm.org/10.1145/1135777.1135847
    • Lau, Tessa & Horvitz, Eric (1999) Patterns of search: analyzing and modeling web query refinement. In: 7th International Conference on User Modeling, June 1999, Banff, Canada, p.119-128
    • Loh, S. Abordagem Baseada em Conceitos para Descoberta de Conhecimento em Textos. Porto Alegre: UFRGS. Requisito Parcial ao Grau de Doutor em Ciência da Computação, Instituto de Informática, Universidade Federal do Rio Grande do Sul, 2001.
    • McNee, S. , Riedl, J. , Konstan, J. . Accurate is not always good: How accuracy metrics have hurt recommender systems. ACM CHI 2006.
    • Orengo, V. M.; Huyck, C. R. A Stemming Algorithim for The Portuguese Language. In: Proceedings of the SPIRE Conference. Laguna de San Raphael: [s.n.], 2001, p. 13-15.
  • 47. Referências
    • Osinski S., Stefanowski J, and Weiss D. Lingo: Search results clustering algorithm based on Singular Value Decomposition. Submitted to Intelligent Information Systems Conference 2004, Zakopane, Poland, 2003.
    • Pereira, M, Reis, Carolina e Nunes, Maria. Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras-Chave de Textos Científicos em Português. SBC - Revista Eletrônica de Iniciação Científica, 2002
    • Resnick, P. ; Varian, H. R. 1997. Recommender systems. Commun. ACM 40, 56–58.
    • Schafer, J. Ben et al. (2001) E-commerce recommendation applications. Journal of Data Mining and Knowledge Discovery, v.5, n.1/2, Janeiro, p.115-153.
    • Salton, G.; Mcgill, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.
    • Schmitz, C; Hotho, A ; Aschke, R J; Stumme,G. Mining Association Rules in Folksonomies. In Proceedings of the 10th IFCS Conference, 2006.
    • Silverstein, C.; Henzinger, M.; Marais, H.; Moricz, M. (1999) Analysis of a very large web search engine query log. ACM SIGIR Forum, 1999, v.33, n.3, p.6-12.
    • Smith, G. (2004) “Folksonomy: social classification.” August, 2004. http://atomiq.org/archives/2004/08/folksonomy_social_classification.html
    • Spink, Amanda; Wolfram, Dietmar; Jansen, Major B. J.; Saracevic, Tefko (2001) Searching the web: the public and their queries. Journal of the American Society for Information Science and Technology, v.52, n.3, p.226 – 234.
    • Teevan, J.; Adar, Eytan; Jones, R.; Potts, M. (2006) History repeats itself: repeat queries in Yahoo’s logs. In: Proceedings of the 29th International ACM SIGIR Conference on Research and Development in Information Retrieval – SIGIR, p.703-704.
    • Turney, P. Learning to Extract Keyphrases from Text, Tech. Report Number NRC−41622, National Research Council Canada, Institute for Information Technology, 1999.
    • Weiss Dawid and Stefanowski J. Web search results clustering in Polish: Experimental evaluation of Carrot. In Proceedings of the New Trends in Intelligent Information Processing and Web Mining Conference, Zakopane, Poland, 2003.
    • Witten I. H. et al. KEA: Practical automatic keyphrase extraction. In:Proceedings of the Fourth ACM Conference on Digital Libraries. [S.l.]: [s.n.], 1999. p. 254-255.
    • Wu, H., Zubair, M., and Maly, K. 2006. Harvesting social knowledge from folksonomies. In Proceedings of the Seventeenth Conference on Hypertext and Hypermedia (Odense, Denmark, August 22 - 25, 2006). HYPERTEXT '06. ACM Press, New York, NY, 111-114. DOI= http://doi.acm.org/10.1145/1149941.1149962
    • Ziegler, C.N., McNee, S.M., Konstan, J.A., and Lausen, G., Improving Recommendation Lists through Topic Diversification. In Proc. of WWW 2005, ACM Press (2005), 22-32.
  • 48. Mestrando Christiano Otero Avila Orientador Stanley Loh Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Palavras-Chave

×