Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação deAlgoritmos de Extração de Palavras−Chave de Tex...
Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação deAlgoritmos de Extração de Palavras−Chave de Tex...
Upcoming SlideShare
Loading in …5
×

Resenha do Artigo Ciéntifico: Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.

53,828 views

Published on

Resenha do Artigo Ciéntifico: Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português, tendo como autores Marcel Brito Pereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de Lingüística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) na Universidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado em Ciência da Computação. Resenha do Artigo Ciéntifico:Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português, tendo como autores Marcel Brito Pereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de Lingüística Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) na Universidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado em Ciência da Computação.

  • Be the first to comment

Resenha do Artigo Ciéntifico: Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.

  1. 1. Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação deAlgoritmos de Extração de Palavras−Chave de Textos Científicos em Português.Universidade de São Paulo – São Carlos. Implementação, Avaliação e Validação de Algoritmos de Extração dePalavras−Chave de Textos Científicos em Português, tendo como autores Marcel BritoPereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de LingüísticaComputacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) naUniversidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado emCiência da Computação.O trabalho apresentado teve como objetivo investigar o desempenho de dois algoritmosde extração de palavras−chave de textos em português, usando técnicas extrativassimples, recursos adicionais de processamento de língua natural (PLN), e metodologiacompatível com os trabalhos desenvolvidos para outras línguas.O porquê do surgimentodesse trabalho foi para a destinação de um projeto de iniciação científica destinado aimplementar, avaliar e validar, por meio de extração de palavras-chaves de textoscientíficos em português. De acordo com o artigo a aplicação que motivou diretamenteesse estudo – embora não a única – é a geração de sumários (resumos) extrativos detextos em português. A forma na qual os autores utilizaram para expor as suas ideias foi na de umartigo científico, o foco principal do artigo é a geração automática de sumáriosextrativos de textos em português. Esse artigo contém um prefácio, que é um resumoinformativo, onde fala sobre a importância das palavras-chaves na indexação dedocumentos, os resultados obtidos durante o projeto, a relevância e a originalidade dessetrabalho pela escassez de trabalhos nessa área em português. As palavras−chave podem ser úteis em diversas aplicações computacionais, emespecial aquelas que necessitam indexar documentos para buscas posteriores. Aliteratura apresenta diversas técnicas de extração de palavras−chave de textos, em suamaioria aplicada à língua inglesa. Nenhum trabalho que leve em conta a línguaportuguesa foi encontrado na literatura. No caso do português, o que se têm usado sãotécnicas bastante superficiais, como as baseadas unicamente na freqüência de palavras enão no seu contexto.Os autores delimitaram dois tipos de métodos de extração já estabelecidos o EPC-P(Extrator de Palavras−Chave por freqüência de Padrões) e o EPC-R (Extrator dePalavras−Chave por freqüência de Radicais). O EPC−P não trabalha sobre o texto 1
  2. 2. Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação deAlgoritmos de Extração de Palavras−Chave de Textos Científicos em Português.Universidade de São Paulo – São Carlos.original, e sim sobre um texto etiquetado, onde todas as palavras ‘Nome’ podem ser umNome Próprio ou um Substantivo Comum, ele não as difere, e sim faz uma análise dafreqüência de determinados padrões morfossintáticos no texto para decidir quaispalavras podem ser utilizadas para representar o tema central do mesmo; já o EPC-Rutiliza somente a freqüência de radicais no texto, não se prendendo a padrões, portantohá uma análise morfossintática (combinações de categorias gramaticais) das palavras, oEPC-R faz uma análise da freqüência de radicais (simples, duplas ou trios) no texto, emdetrimento à utilização de padrões. O artigo foi de fato muito esclarecedor, com um tema muito interessante e que éusado comumente, sendo que a maioria das vezes as pessoas nem se quer sabem daexistência desse tipo de ferramenta.Existe uma grande importância de se investir e criar aplicações dedicadas à línguaportuguesa, já que esses experimentos constituem passos iniciais para um sistema desimplificação automática de textos, além da ferramenta que pode auxiliar tanto osescritores quanto para algum tipo de usuário final comum, de diferentes níveis deescolaridade e idade.Já a metodologia utilizada, deixou a desejar um pouco quanto a gramática e a suacoerência, em alguns pontos foi percebido erros gramaticais e uma falta de nexo entrouma frase e outra.O assunto do artigo foi de muita originalidade, pois como os próprios autores disseramhá pouco material disponível sobre a sumarização automática utilizando a línguaportuguesa como base. Assim o trabalho dos mesmos é de grande contribuiçãoacadêmica, pois além pode ser destinado e ajudar tanto os profissionais da área como osescritores, quanto a alunos e pessoas em geral na criação de seus trabalhos, artigoscientíficos, etc. 2

×