Séptima Conferencia Iberoamericana em Sistemas, Cibernética e
                        Informática:
                       ...
INTRODUÇÃO
Subprojeto da pesquisa do protótipo Mapa
Hipertextual (MHTX), proposto pela Prof. Dra.
Gercina Â. B. O. Lima, c...
OBJETIVO

Avaliar a contribuição de técnicas específicas de
indexação automática no processo de representação
semântica do...
DISCUSSÃO
Indexação Manual

Pode ser divido em duas etapas essenciais:

 Análise
 conceitual
              Determinar o as...
DISCUSSÃO
Problemas no processo de indexação manual:

• tempo restrito do indexador;
• quantidade cada vez maior de docume...
DISCUSSÃO
Indexação Automática

Destaca-se dois tipos de processos:
                         Extração de palavras ou expre...
DISCUSSÃO

O Papel da Semântica na Indexação Automática

A análise sintática consegue determinar se uma
expressão ou frase...
DISCUSSÃO
O Papel da Semântica na Indexação Automática

• permite ao software identificar o significado dos
  termos que r...
METODOLOGIA
Estudo do software TROPES
• motor semântico (seis línguas, entre elas o
  português de Portugal e do Brasil)
•...
METODOLOGIA

• faz análise morfo-sintática (identifica origem,
  formação e significado)
• possui uma gramática embutida, ...
METODOLOGIA

Construção de um cenário semântico no TROPES
• inserção da taxonomia de Hawkins, Larson e Caton
  (2003), da ...
RESULTADOS
Taxonomia como cenário (domínio escolhido)
• remete à análise conceitual partindo do princípio do
  triângulo s...
RESULTADOS
Relação: Triângulo de Dahlberg x taxonomia
• o triângulo A:
   • Referente = Área da Ciência da Informação
   •...
RESULTADOS
Aplicação da semântica na indexação automática
• o triângulo B:
   • Referente = Teses e Dissertações (OUI)
   ...
CONSIDERAÇÕES
• Indexação é o elo forte entre o que é disponibilizado no
  sistema e a necessidade do usuário;
• Continuam...
REFERÊNCIAS
BARQUIN, Beatriz A. R.; GONZÁLEZ, José A. M.; PINTO, Adilson L. Construção de uma ontologia
para sistemas de i...
REFERÊNCIAS
LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; ano 4, v. 11, p.156-
167, 2007. ...
Obrigada!
CONTATOS

   Graciane Silva Bruzinga Borges
      gracianesb@yahoo.com.br

  Benildes Coura M. dos S. Maculan
         ben...
Upcoming SlideShare
Loading in …5
×

Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações

4,382 views
4,174 views

Published on

Trabalho apresentado na Sétima Conferência Iboamericana em Sistemas, Cibernética e Informática em Orlando, no estado da Florida (EUA).

Published in: Technology, Business
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,382
On SlideShare
0
From Embeds
0
Number of Embeds
34
Actions
Shares
0
Downloads
96
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações

  1. 1. Séptima Conferencia Iberoamericana em Sistemas, Cibernética e Informática: CISCI 2008 Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações Graciane S. Bruzinga Borges Benildes C. M. S. Maculan Prof. Dra. Gercina  B. O. Lima Universidade Federal de Minas Gerais Escola de Ciência da Informação Brasil
  2. 2. INTRODUÇÃO Subprojeto da pesquisa do protótipo Mapa Hipertextual (MHTX), proposto pela Prof. Dra. Gercina Â. B. O. Lima, construído como um modelo para organização hipertextual de documentos. Apresenta-se os critérios teóricos que tratam da importância da semântica e da estrutura sintática no processo de indexação automática e como o triângulo do significado de Ogden e Richards (1972), exposto na Teoria do Conceito de Dahlberg (1978), pode ser relacionado com esse contexto.
  3. 3. OBJETIVO Avaliar a contribuição de técnicas específicas de indexação automática no processo de representação semântica do conteúdo de teses e dissertações para que se obtenha uma recuperação mais eficiente.
  4. 4. DISCUSSÃO Indexação Manual Pode ser divido em duas etapas essenciais: Análise conceitual Determinar o assunto do documento, no qual a leitura e a compreensão do texto são primordiais. Tradução Converter o conteúdo do documento em um conjunto de termos de indexação, feita por meio de mediação semântica.
  5. 5. DISCUSSÃO Problemas no processo de indexação manual: • tempo restrito do indexador; • quantidade cada vez maior de documentos passíveis de tratamento; • falta de conhecimento do indexador sobre o domínio do documento; • subjetividade; • inconsistência interindexadores; • inconsistência intraindexador; • falta de domínio do idioma do documento
  6. 6. DISCUSSÃO Indexação Automática Destaca-se dois tipos de processos: Extração de palavras ou expressões do texto Indexação por para representar seu conteúdo. Extração Automática Pode-se usar um software para extrair os termos a partir dos princípios utilizados por seres humanos (freqüência, posição e contexto da palavra no texto) (LANCASTER, 2004). Mais complexo, em relação ao anterior. Indexação por Necessidade de controle terminológico para a Atribuição Automática representação do conteúdo temático. Desenvolve-se, para cada termo atribuído, um ‘perfil’ de palavras ou expressões associativas ao termo e que ocorrem nos documentos.
  7. 7. DISCUSSÃO O Papel da Semântica na Indexação Automática A análise sintática consegue determinar se uma expressão ou frase está adequada à gramática dessa língua específica. O significado semântico de um texto ou termo é mais do que uma análise do sentido das palavras, pois é necessário se conhecer o domínio no qual está inserido.
  8. 8. DISCUSSÃO O Papel da Semântica na Indexação Automática • permite ao software identificar o significado dos termos que representam o conteúdo do documento. • resolve problemas do tipo de frases sintaticamente corretas, porém, sem significado semântico. Exemplo: quot;O rato come o queijoquot; e quot;O queijo come o ratoquot;
  9. 9. METODOLOGIA Estudo do software TROPES • motor semântico (seis línguas, entre elas o português de Portugal e do Brasil) • utiliza critérios sintático-semânticos • detecta as palavras que representem o conteúdo – em classes de equivalentes • resolve problemas de ambigüidade • determina a probabilidade da ocorrência da palavra nas classes – taxa de erro: 5%
  10. 10. METODOLOGIA • faz análise morfo-sintática (identifica origem, formação e significado) • possui uma gramática embutida, abrangendo: – Substantivos, – verbos, – adjetivos, – determinantes, – conectores, – modalizações e – pronomes relativos e pessoais.
  11. 11. METODOLOGIA Construção de um cenário semântico no TROPES • inserção da taxonomia de Hawkins, Larson e Caton (2003), da área da CI – tratamento da contextualização
  12. 12. RESULTADOS Taxonomia como cenário (domínio escolhido) • remete à análise conceitual partindo do princípio do triângulo semântico, apresentado na Teoria do Conceito de Dahlberg (1978); • características (conceitos) são como a matéria- prima do processo de indexação. Referente predicação denominação Característica Forma Verbal designação
  13. 13. RESULTADOS Relação: Triângulo de Dahlberg x taxonomia • o triângulo A: • Referente = Área da Ciência da Informação • Características = Conceitos do domínio (análise conceitual) • Forma Verbal = Taxonomia características Ciência da CI A) Conceitos da Taxonomia área CI
  14. 14. RESULTADOS Aplicação da semântica na indexação automática • o triângulo B: • Referente = Teses e Dissertações (OUI) • Características = Cenário: Taxonomia de Hawkins, Larson e Caton • Forma Verbal = indexação automática (conj. termos) Teses e Dissertações B) Cenário: taxonomia de Hawkins, Larson Forma Verbal e Caton
  15. 15. CONSIDERAÇÕES • Indexação é o elo forte entre o que é disponibilizado no sistema e a necessidade do usuário; • Continuam as investigação sobre o processo de indexação automática e as teorias nas quais ele se baseia; • Se faz necessário organizar as informações de forma sistemática, para disponibilizá-las; • Os softwares de indexação automática visam otimizar a atividade de análise de conteúdo: • minimizar a subjetividade do indexador • imitar o raciocínio humano • levar em consideração o contexto semântico • respeitar princípios teóricos consistentes
  16. 16. REFERÊNCIAS BARQUIN, Beatriz A. R.; GONZÁLEZ, José A. M.; PINTO, Adilson L. Construção de uma ontologia para sistemas de informação empresarial para a área de telecomunicações. DataGramaZero/Rev. Ci. Inf., Brasília, v. 7, n. 2, abr. 2006. BAXENDALE, P. B. Machine-made index for technical literature: an experiment. IBM Journal of Research and Development, n. 2, p. 354-361, 1958. BORKO, H. Toward a theory of indexing. Information Processing and Management, v. 13, p. 355-365, 1977. BORKO, H.; BERNICK, M. Automatic document classification. Journal of the Association for Computing Machinery, n. 10, p. 151-162, 1963 CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio norteador. Persp. Ci. Inf., Belo Horizonte, v. 11, n. 3, Sept./Dec. 2006. Disponível em: <http://www.scielo.br/scielo.php? script=sci_arttext&pid=S1413-9362006000300005&lng= enenandothers&nrm=iso&tlng= enenandothers>. Acesso em: 21 jul. 2007. DAHLBERG, Ingetraut. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, jul./ dez. 1978. FIGUEIREDO, Saulo. O impacto da taxonomia nas empresas. [S.l.]: Webinsider, 28 nov. 2006. Disponível em: <http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-o-impacto-da-taxonomia-nas- empresas/>. Acesso em: 24 jul. 2007. GUEDES, Vânia L. S. Estudo de um critério para indexação automática derivativa de textos científicos e tecnológicos. Ci. Inf., Brasília, v. 23, n. 3, p. 318-326, set./dez. 1994. HAWKINS, Donald T.; LARSON, Signe E.; CATON, Bari Q. Information science abstracts: tracking the literature of information science. Part 2: a new taxonomy for information science. Journal of the American Society for Information Science and Technology, v. 54, n. 8, p. 771-781, 2003. HJELMSLEV, Louis. Prolegômenos a uma teoria da linguagem. Trad. J. Teixeira Coelho Netto. São Paulo: Perspectiva, 1975. HJORLAND, Birger. The concept of ‘subject’ in Information Science. Journal of Documentation, v. 48, n. 2, p.172-200, June 1992. LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 2004. 452 p. LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993. 347 p. LEROY, M. As grandes correntes da lingüística moderna. Trad. de Izidoro Blikstein e José Paulo Paes. São Paulo: Cultrix, 1971. 194 p.
  17. 17. REFERÊNCIAS LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; ano 4, v. 11, p.156- 167, 2007. Disponível em: <www.cienciasecognicao.org>. Acesso em: 9 ago. 2007. MARON, M. E. On Indexing, retrieval and the meaning of about. Journal of the American Society for Information Science, n. 28, n. 1, p. 38-43, 1977. NAVARRO, Sandrelei. Interface entre lingüística e indexação: uma revisão de literatura. Rev. Bras. Biblio. Doc., São Paulo, v. 21, n. 1/2, p. 46-62, jan./jun. 1988. O’CONNOR, J. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association for Computing Machinery, n. 12, p. 490-515, 1965. ODONNE, Nanci; GOMES, Maria T.F.S. Os temas de pesquisa em ciência da informação e suas implicações político-epistemológicas. In: ENCONTRO NACIONAL DE CIÊNCIA DA INFORMAÇÃO: CINFORM, 5., Salvador, 2004. Anais... Salvador: UFBA, 2004. Disponível em: <http://www.cinform.ufba.br/v_anais/artigos/nancioddone. html>. Acesso em: 2 jul. 2007. OGDEN, C. K.; RICHARDS, I. A. O significado de significado: um estudo da influência da linguagem sobre o pensamento e sobre a Ciência do Simbolismo. Rio de Janeiro: Zahar, 1972. 348 p. OTHERO, Gabriel de Ávila; MENUZZI. Sérgio de Moura. Lingüística computacional: teoria e prática. São Paulo: Parábola, 2005. 126 p. PICKLER, Maria Elisa Valentim. Web semântica: ontologias como ferramentas de representação do conhecimento. Persp. Ci. Inf., Belo Horizonte, v. 12, n. 1, p. 65-83, jan./abr. 2007. Disponível em: <http://www.scielo.br/scielo. php?script=sci_arttext&pid= S1413-99362007000100006&lng= en&nrm=iso&tlng=en>. Acesso em: 24 jul. 2007. RECTOR, Monica; YUNES, Eliana. Manual de semântica. Rio de Janeiro: Ao Livro Técnico, 1980. 171 p. ROBREDO, Jaime. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. 4 ed. Brasília: Reproart, 2005. 409 p. ROBREDO, J. A indexação automática de textos: o presente já entrou no futuro. In: Machado, U. D. (Org.). Estudos Avançados em Ciência da Informação. Brasília, DF.: Associação dos Bibliotecários do Distrito Federal, 1982. v. 1, p. 235-274. SILVA, Antônio Carlos da. As teorias do signo e as significações lingüísticas. [2004]. [Texto online]. Disponível em: <http://www.partes.com.br/ed39/teoriasignosreflexaoed39 .htm>. Acesso em: 10 jul. 2007. TAXONOMIA. In: GLOSSÁRIO NETIC. [S.l.]: Portal NETIC - Núcleo de Estudos em Tecnologias para Informação e Conhecimento, [200-]. Disponível em: <http://www. netic.com.br/glossario.html#T>. Acesso em: 24 jul. 2007.
  18. 18. Obrigada!
  19. 19. CONTATOS Graciane Silva Bruzinga Borges gracianesb@yahoo.com.br Benildes Coura M. dos S. Maculan benildes@gmail.com Gercina Ângela Borém de Oliveira Lima glima@eci.ufmg.br

×