Your SlideShare is downloading. ×
  • Like
  • Save
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções

  • 881 views
Published

Slides apresentados em disciplina do Programa de Pós Graduação em Linguística da Universidade Federal de São Carlos em 2010.

Slides apresentados em disciplina do Programa de Pós Graduação em Linguística da Universidade Federal de São Carlos em 2010.

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
881
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções
  • 2. Projeto Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto” (apoio CNPq, processo 400506/2006-8)
  • 3. Equipe Coordenadora: Gladis Maria de Barcellos Almeida (UFSCar) Pesquisadores: Daniela Ferreira de Mattos (UFSCar – IC) Joel Sossai Coleti (UFSCar – IC) Colaboradores: Ariane Di Felippo (UNESP – PG) Luiz Carlos Genoves Jr (Google) Arnaldo Candido Júnior (USP – PG) Leandro Henrique Mendonça de Oliveira (EMBRAPA) Sandra Maria Aluisio (USP) Osvaldo Novais de Oliveira (USP)
  • 4. Nanociência e Nanotecnologia Nano-, prefixo grego, remete a nánnos ' de excessiva pequenez ' Um nanômetro corresponde a 10 -9 metros
  • 5. Nanociência e Nanotecnologia ... o diâmetro de um fio de cabelo humano mede cerca de 30.000 nanômetros
  • 6. Nanociência e Nanotecnologia O termo Nanotecnologia foi criado em 1974 por Norio Taniguchi, da Universidade de Tóquio, para diferenciar os trabalhos de engenharia no domínio da microescala dos trabalhos em submicroescala, os quais ele denominou nanotecnologia.
  • 7. Nanociência e Nanotecnologia Fazem parte dos estudos em N&N as capacidades de medir, manusear e organizar a matéria em nanoescala, já que nessa escala a matéria apresenta propriedades, fenômenos e processos únicos .
  • 8. Motivação Nanociência e Nanotecnologia (N&N): crescente expansão no mundo todo. Os investimentos aplicados nessa área aumentam a cada ano.
  • 9. Motivação No Brasil, o cenário para pesquisas em N&N, embora promissor, apresenta grandes defasagens . Segundo a Agência Brasil, pelos cálculos do MCT, nos últimos cinco anos, foram investidos R$ 140 milhões. Já nos Estados Unidos, apenas em 2006, foram investidos cerca de US$ 1 bilhão.* * http://www.agenciabrasil.gov.br/noticias/2006/11/14/materia.2006-11-14.1809655804/view
  • 10. Proposta Para acompanhar esse desenvolvimento científico e tecnológico , além de investimentos financeiros expressivos e formação de recursos humanos especializados, é preponderante a sistematização de repertórios vocabulares em língua portuguesa.
  • 11. Objetivos
    • Confecção de Corpus
    • Elaboração de Lista de Termos
    • Construção de Ontologia
    • Elaboração de Dicionário-Piloto
    Etapas Metodológicas: 1- Seleção 2- Compilação e Manipulação 3- Nomeação de arquivos, geração de cabeçalho e Anotação
  • 12. Metodologia (1) – Seleção
    • A seleção dos textos consiste basicamente em definir quais os textos são pertinentes e relevantes para a pesquisa, sempre levando em conta os requisitos autenticidade, representatividade, balanceamento e diversidade.
    • Para o corpus da N&N, foi adotado apenas textos escritos.
    • A seleção de textos foi feita em meios digitais e impressos.
  • 13. Metodologia (1) – Seleção
    • Por meio de motores de busca, realizaram-se as pesquisas orientadas por palavras-chaves previamente definidas e posteriormente alteradas almejando-se melhor adequação aos objetivos
    • Motor de busca: GOOGLE
    • Primeira seleção a partir das palavras-chaves: “nanociência” , “nanotecnologia” e “genômica”
    Palavras-chaves pré-definidas pela repetição de procedimentos metodológicos adotados no projeto “Desenvolvimento de uma ontologia (estrutura conceitual) para área de N&N” (NILC/ICMC/USP – Campus de São Carlos, SP-Brasil)
  • 14. Metodologia (1) – Seleção
    • Análise da procedência e a confiabilidade das fontes.
    • Privilegiaram-se sites de instituições públicas, de grandes instituições privadas, de empresas de comunicações conceituadas, por serem considerados confiáveis.
  • 15. Metodologia (1) – Seleção Seleção: Problemas e Soluções
    • Exclusão da palavra-chave Genômica
    • Ampliação das palavras-chaves com traduções livres de palavras-chaves de busca adotadas pela Scielo
  • 16. Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções
    • Digitalização
    • Todos os livros (4) originalmente escritos em língua portuguesa de que se tinha conhecimento foram digitalizados.
  • 17. Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções 1. DURAN, N; MATTOSO, L.H.C; MORAIS, P.C. Nanotecnologia: introdução, preparação e caracterização de nanomateriais e exemplos de aplicação. São Paulo: Artliber, 2006. 2. ALVES, E. G.; CHAVES, A. S.; VALADARES, E. C. Aplicações da física quântica do transistor à nanotecnologia . São Paulo: Editora Livraria da Física. 2005. 3. TOMA H. E. O Mundo Nanométrico: A Dimensão do Novo Século. São Paulo: Oficina de Textos. 2004. 4. CNI/SENAI. Nanotecnologias. Série ocupações emergentes. nº 1. Brasília, 2004.
  • 18. Metodologia (2) – Compilação e Manipulação
  • 19. Metodologia (2) – Compilação e Manipulação
  • 20. Metodologia (2) – Compilação e Manipulação
  • 21. Metodologia (2) – Compilação e Manipulação Manipulação: Problemas e Soluções
    • Web: Formatos Distintos
    • (Microsoft Word de extensão “.doc”, HyperText Markup Language de extensão “.html”, Portable Document Format de extensão “.pdf” e outros)
    • PDF
      • Conversão Automática
      • Arquivos protegidos
  • 22. Metodologia (2) – Compilação e Manipulação
    • Amazenamento em arquivos no formato “Bloco de Notas” de extensão .txt
    • “ Bloco de Notas”
      • Sem código de formatação
      • Apenas caracteres do teclado (letras, números e símbolos ortográfico)
      • Processado pela maioria das Ferramentas Computacionais de PLN
  • 23. Metodologia (2) – Compilação e Manipulação
    • Os textos, já em formato “.txt”, foram submetidos à limpeza, ou seja, foram excluídos tabelas, gráficos, fórmulas, cálculos, fotos e toda informação que não estivesse em forma de texto. Foi feita também a formatação dos textos, conferindo padronização ao corpus.
  • 24. Anotação Estrutural A anotação estrutural compreende a marcação de dados externos e internos dos textos. Como dados externos entendemos a documentação do corpus (...) isto é, dados bibliográficos comuns, dados de catalogação como tamanho do arquivo, tipo da autoria, a tipologia textual e informação sobre a distribuição do corpus. Como dados internos temos a anotação de segmentação do texto cru, que envolve: a) marcação da estrutura geral – capítulos, parágrafos, títulos e subtítulos, notas de rodapé e elementos gráficos como tabelas e figuras, e b) marcação da estrutura de subparágrafos – elementos que são de interesse lingüístico, tais como sentenças, citações, palavras, abreviações, nomes, referências, datas e ênfases tipográficas do tipo negrito, itálico, sublinhado, etc. (Aluísio & Almeida, 2006)
  • 25. Metodologia (3) – Anotação e Nomeação Editor de Cabeçalhos Editor de Cabeçalhos do Projeto Lacio- Web adaptado por Luiz Carlos Genoves Jr. (NILC – USP)
  • 26. Anotação Estrutural Externa - Cabeçalho Metodologia (3) – Anotação e Nomeação
  • 27. Texto: Rumo a Nanotecnologia Global Nome do arquivo: IN-IF-AF-not-07nov06 Numero de Palavras: 206 Amostra: Íntegra Língua: Português do Brasil (PB) Fonte: Agência Fapesp Local de Publicação: São Paulo Data: 07 de novembro de 2006 Status: Original Comentários: Caderno “Notícias” Data de Acesso: 16 de novembro de 2006 Endereço Eletrônico: http://www.agencia.fapesp.br/boletim_dentro.php?id=6307 Tipo de Autoria: Individual Nome do Autor do Texto: Thiago Romero Sexo do autor: Masculino Gênero: Informativo Subgênero: Jornalístico Tipo Textual: Reportagem Domínio Geral: Generalidades Domínio Específico: Ciência & Tecnologia Definição: Anotador Distribuição: Internet (IN) Metodologia (3) – Anotação e Nomeação
  • 28. Anotação Estrutural Interna - Etiquetas Metodologia (3) – Anotação e Nomeação
  • 29. Metodologia (3) – Anotação e Nomeação
  • 30. Nomeação
    • Por sigla, padronizada por Gênero
    • Exemplo: Para textos científicos:
    • IN-CI-Gomes-01abr03_17
    • IN : Texto divulgado pela Internet
    • CI : Gênero textual Científico
    • Gomes : Sobrenome do Autor
    • 01abr03 : Data de publicação (01 de abril de 2003)
    • _17: 17° texto obtido da mesma fonte (Banco de Teses da Capes)
    Metodologia (3) – Anotação e Nomeação
  • 31. Nomeação Exemplo: Para textos científicos de divulgação: IN-CD-INOVATEC-nanotec-05jul06 IN : Texto divulgado pela Internet CD : Gênero textual Científico de Divulgação INOVATEC : Sigla que representa a Fonte (Inovação Tecnológica) nanotec : Sigla que representa o caderno/seção em que o texto foi publicado na fonte (Seção Nanotecnologia) 05jul06 : Data de publicação (05 de julho de 2006) Metodologia (3) – Anotação e Nomeação
  • 32. Resultados Autenticidade
    • Sites de Portugal
    • Livros traduzidos
  • 33. Resultados Tamanho finito: 2.565.490 palavras
  • 34. Resultados Representatividade
    • Equivalente ao projeto que confeccionou o corpus em Língua Inglesa ( 2.570.792 palavras). Entretanto, é importante ressaltar a diferença quanto aos gêneros.
    • Superação em mais de 5 vezes da expectativa inicial (500 mil palavras).
  • 35. Resultados Balanceamento e Amostragem
    • 4 Gêneros Textuais ( Científico, Científico de Divulgação, Informativo, Técnico-Administrativo e Outros)
    • 1.057 textos de 57 fontes diferentes.
    • Distribuição pela quantidade de palavras:
    • 1.846.763 – Científico
    • 361.307 – Informativo
    • 310.018 – Cientifico de Divulgação
    • 26.877 – Técnico-Administrativo
    • 20.525 – Outros
  • 36. Resultados Balanceamento e Amostragem
    • Essa discrepância entre o número de palavras por gênero refletia o estágio de produções textuais de uma área emergente, e não as falhas na seleção dos textos, tendo em vista que as pesquisas foram orientadas por palavras-chave e não por tipos de fonte
  • 37. Reuso do Corpus “ Estruturação do Conhecimento e Relações Semânticas: uma Ontologia para o Domínio de Nanociência e Nanotecnologia Deni Yuzo Kasama (Mestrado) “ Geração de Ontologias para Web Semântica a partir de Textos da Língua Portuguesa” Luiz Carlos Ribeiro Junior (Mestrado) “ Estruturação e Sistematização do Conhecimento em Ambientes Interativos de Aprendizagem” David Nadler Prata (Doutorado)
  • 38. Saiba mais www.joelsc.wordpress.com/publicacoes Coleti, J. S.; Mattos, D. F.; Genoves Jr., l c; CANDIDO JR., A.; Di Felippo, A; ALMEIDA, G. M. B.; ALUÍSIO, S. M.; Oliveira Jr., O. N. (2007) Compilação de Corpus em Língua Portuguesa na Área de Nanociência/ Nanotecnologia: Problemas e Soluções. Anais do VI Encontro de Lingüística de Corpus. São Paulo, São Paulo: USP, Brasil, 2007.
  • 39. MUITO OBRIGADO!!