Cogroo Google Oss Jam Sao Paulo V01
Upcoming SlideShare
Loading in...5
×
 

Cogroo Google Oss Jam Sao Paulo V01

on

  • 1,746 views

Apresentação do Corretor Gramatical Cogroo no Google OSS Jam

Apresentação do Corretor Gramatical Cogroo no Google OSS Jam

Statistics

Views

Total Views
1,746
Views on SlideShare
1,741
Embed Views
5

Actions

Likes
0
Downloads
15
Comments
0

1 Embed 5

http://www.slideshare.net 5

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Boa tarde Meu objetivo nessa palestra é apresentar o corretor gramatical Cogroo, que hoje é um projeto oficial do CCSL.
  • Breve motivação PLN O Cogroo é um aplicativo que usa Processamento de Linguagens Naturais - Mesmo sem saber usamos constantemente sistemas que aplicam a técnica de PLN em vários níveis EXEMPLO Quando fazemos uma busca na Web e o sistema oferece sugestões alternativas para a busca
  • A informação desestruturada tem um alto valor agregado, mas para as máquinas esta informação tem muito ruído , apresenta a semântica oculta e busca por dados contidos nesses documentos é ineficiente .
  • MOTIVAÇÃO – Killer Search Engine Como interagimos com os buscadores? PALAVRAS CHAVE Busca por termos, como consensuar, ou por fatos, datas e lugares, é simples mesmo para os buscadores atuais. Responder questões mais sofisticadas requer que informações sejam extraídas de diversas fontes na Web, e até mesmo fazendo inferências (tirar conclusões sobre dados conhecidos). PLN hoje está muito em alta com os buscadores atuais.
  • CoGrOO foi o primeiro, e ainda é o único, corretor gramatical de código aberto para a língua portuguesa. Desde a versão 2.0/3.0 já teve mais de 35 mil downloads, mas esse número não diz muito, pois muitos dos usuários de OOo no Brasil são empresas, tanto públicas quanto privadas.
  • Quando começamos em 2004 o processo de implementar uma extenção CG no OOo ainda era muito rudimentar. era dificílimo criar o corretor gramatical que rodasse sobre o sistema. A primeira versão da interface foi feita usando Basic. Em seguida, conhecendo melhor conseguimos implementar em Java usando UNO. Fomos pioneiros nessa integração e outros corretores em desenvolvimento adotaram nossa implementação. Ref Internacional Fato de muito orgulho para nós foi descobrir uma referencia para no nosso projeto no Linguateca e também saber que houveram derivações do CoGrOO, como o projeto Golfiño (Corretor Gramatical Galego)
  • FATOS
  • Demonstrar no Writer Explicar como funciona um corretor ortográfico. Explicar todos os desafios. Mostrar um erro que não é detectado e introduzir o cogroo

Cogroo Google Oss Jam Sao Paulo V01 Cogroo Google Oss Jam Sao Paulo V01 Presentation Transcript

  • William D. Colen M. Silva Graduado Engenharia da Computação – Poli USP 2006 Mestrando Ciência da Computação – IME USP 2009-? Desenvolvedor CoGrOO 2004-? Apresentação do Corretor Gramatical CoGrOO Open Source Jam São Paulo 1º de setembro de 2009
  • O que existe por trás do CoGrOO? Texto livre PLN
  • O que é Processamento de Linguagem Natural?
      É o que torna possível -
    • Tradutores automáticos
    • Corretores ortográficos e gramaticais
    • Buscadores (Web)
    • Ferramentas para Web Semântica
    • Indexadores para BI
    • Sugestões de compras
    • ...
  • Boa parte do conhecimento humano está em documentos difíceis de serem interpretados por computadores Informação:
    • Alto valor
    • Mais atualizada
    • Mas..
    • Muito ruido
    • Semântica oculta
    • Busca ineficiente
    Texto, E-mail, Áudio, Video
  • Exemplo: busca na WEB - Qual o significado de “procrastinar”? - Quando nasceu Napoleão? - Quantas toneladas de café foram produzidas em 1901? - O que os cientistas pensam quanto a ética de experiências com células tronco? Que tal no lugar de fazer busca na Web usando palavra-chave, fazer perguntas diretas e específicas sobre um tema?
  • Apresentação do CoGrOO
    • Primeiro (e atualmente único) corretor gramatical Livre para a língua portuguesa
    • Primeiro lançamento abril/2006
    • Mais de 44 mil downloads diretos (contando apenas da versão 2.0 em diante)
    • Estimativa: >> 100 mil usuários
    • Usado por empresas estatais e privadas. Algumas empresas tem ele instalado em milhares de máquinas
    • Reconhecido como um importante esforço para o desenvolvimento do BrOffice.org
  • Apresentação do CoGrOO
    • Foi o primeiro corretor gramatical integrado ao OOo do mundo.
    • Segundo mais utilizado (perde apenas para o Language Tool, que suporta inglês).
    • O projeto Golfiño (Galego) foi criado a partir do CoGrOO.
    • Recebemos pedidos para criar versões do CoGrOO para outros idiomas, como português de Portugal e para o Espanhol.
    • Módulos foram para outros trabalhos, como por exemplo um grupo de pesquisa sobre saúde usou o CoGrOO na análise de prescrições medicas.
  • Apresentação do CoGrOO
    • Hospedado pelo SourceForge
    • Desde 2009 é um projeto oficial do CCSL
    • Licença LGPL
    • Fácil instalação e uso
    • Atualizações frequentes
    • Apoio da comunidade
    • Já foi integrado com
      • OpenOffice.org (Bruno Sant'Anna – Google SoC)
      • AbiWord (Gabriel Bakiewicz – Google SoC)
      • WebSevices LangBot Apoema (Bruno Sant'Anna)
        • Firefox Ubiquity e iGoogle Gadget
  • Corretor ortográfico
    • Usuário entra um texto
    • Verificador ortográfico tenta encontrar a palavra digitada em seu banco de dados
    • Caso a palavra não seja encontrada ele usa algoritmos de similaridade para encontrar possíveis correções
  • Corretor Gramatical
    • Usuário entra um texto
    • O verificador executa uma análise gramatical e busca padrões de erros na estrutura gerada
    • O verificador sugere correções para o texto.
  • Integração BrOffice.org
  • Integração BrOffice.org
  • Integração BrOffice.org
  • Integração Firefox Ubiquity: http://apoema.net/langbot/pt_BR/gc.lb
  •  
  •  
  •  
  • Ferramentas de desenvolvimento: teste de regras
  • Ferramentas de desenvolvimento: busca no dicionário
  • Ferramentas de desenvolvimento: analisador de texto
  • Ferramentas de desenvolvimento: analisador de texto
  • Ferramentas de desenvolvimento: analisador de texto
  • Ferramentas de desenvolvimento: analisador de texto
  • Como você pode colaborar?
    • (A) Melhorar a experiência do usuário – detectar falhas
      • Filtrar problemas reportados, fazer investigação inicial de erros
      • Conversar com usuários em fóruns e gerenciar o Bug Track
      • Requisitos: expert em português, conhecer as capacidades e limitações do CoGrOO
    • (B) Implementação e manutenção das regras
      • Contato com (A) para implementar mudanças sugeridas pelos usuários
      • Requisitos: bom em português, raciocínio lógico e informática
    • (C) Confecção e manutenção dos dicionários léxicos
      • Contato com (A) para implementar mudanças sugeridas pelos usuários
      • Viabilizar união do dicionário ortográfico com o gramatical
      • Requisitos: bom em português, básico de programação
  • Como você pode colaborar?
    • Programador de interface gráfica
      • Desenvolver aplicações que auxiliariam o trabalho de A, B e C: editores de dicionários, editores de regras etc
      • Requisitos: básico em programação OO, Java e Eclipse Plug-in
    • Programador do motor de correção
      • Manutenção do código, desenvolvimento de testes unitários, melhorias nos algoritmos (tempo e uso de memória)
      • Requisitos: experiência em programação OO, Java multithread, Maven e Junit
    • Tecnologia e qualidade
      • Aplicar integração continua, builds diários, criar e manter a página do projeto
      • Requisitos: qualidade de software
  • Como você pode ajudar?
    • Pesquisadores (IC, Mestrado e Doutorado)
      • Melhorar os diversos analisadores do CoGrOO
    • Doação de recursos financeiros
    • Oferecimento de bolsas de Iniciação Científica, Mestrado, Doutorado e pós-doutorado.
    • Recursos linguísticos – Corpus, léxico
    • Nasceu em 2009
    • Instância do Qualipso Competence Centre no Brasil - melhorar a confiabilidade e qualidade do FLOSS
    • Áreas de pesquisa: qualidade de código-fonte; aspectos jurídicos (licenças); usabilidade; processo ágil de desenvolvimento; testes automatizados; modelos de negócios para start-ups etc.
    • Objetivos:
      • pesquisa científica e tecnológica relacionada a Software Livre
      • Desenvolvimento de Software Livre inovador
      • Disseminação de conhecimento sobre Software Livre
    http://ccsl.ime.usp.br
  • http://ccsl.ime.usp.br
  • Obrigado pela oportunidade e pela atenção! [email_address] http://cogroo.sourceforge.net