Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Projecto Bigorna

       Andr´ Santos
           e
pg15973@alunos.uminho.pt
     Dep. Inform´tica, UM
                a


...
Projecto Bigorna



        conjunto de ferramentas para desafios de migra¸˜o ortogr´fica
                                  ...
Contexto - Acordo Ortogr´fico de 1990
                        a



       altera¸˜es ditadas pelo acordo n˜o podem ser dete...
Trabalho desenvolvido



        recolher recursos ligados ao AO1990
        criar um corrector ortogr´fico para a actualiz...
Recursos




       dicion´rios, conversores, listas de palavras
             a
       lista do ILTEC, com cerca de 9000 e...
Lista do ILTEC



   PT ::     BR ::        OA1990 ::            prefPT ::        prefBR ::           Comm
   ancil´ide ::...
Actualiza¸˜o do dicion´rio
         ca           a




        Ponto de partida: jspell (gerado na UM, propagado para
    ...
jspell




                                      acalentar/#vt/XYPLD/
                                      coiote/#nm/p/
...
Ferramentas de convers˜o
                      a




       dois conversores: pt2ptao e br2brao
       usadas as regras de...
Convers˜o - Exemplo
       a




          $ pt2ptao
          A adop¸~o do acordo implica a actualiza¸~o de algumas
     ...
Classificador




        procura cada palavra de um texto em dicion´rios PT-PT e
                                         ...
Classifica¸˜o - Exemplo
         ca




           $ whichPT AmorPerd.ptPT AmorPerd.ptBR
           AmorPerd.ptPT     pt
  ...
Compara¸˜o l´xica
       ca e




       ferramentas capazes de, atrav´s da an´lise de textos, construir
                 ...
lexdiff - Exemplo



          $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head
          32 acad´mico => acad^mico
    ...
lexdiff - Exemplo



          $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head
          36 et => ect
          34 d^m ...
Projecto Bigorna

       Andr´ Santos
           e
pg15973@alunos.uminho.pt
     Dep. Inform´tica, UM
                a


...
Upcoming SlideShare
Loading in …5
×

Bigorna

791 views

Published on

Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).

  • Be the first to comment

  • Be the first to like this

Bigorna

  1. 1. Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010
  2. 2. Projecto Bigorna conjunto de ferramentas para desafios de migra¸˜o ortogr´fica ca a motivado pelo Acordo Ortogr´fico de 1990 a projecto para o Sapo Summerbits 2009 evoluiu para problemas gen´ricos de migra¸˜es de grafias e co Andr´ Santos, MEI, UM e Jos´ Jo˜o Almeida, DI, UM e a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  3. 3. Contexto - Acordo Ortogr´fico de 1990 a altera¸˜es ditadas pelo acordo n˜o podem ser determinadas co a automaticamente porque se baseiam em crit´rios fon´ticos e e e por vezes podem ser amb´ ıguas; ´ importante manter uma Base de Conhecimento do Acordo e Ortogr´fico, uma tabela contendo lemas, altera¸˜es e regras a co baseada nas listas existentes; Como determinar quais as palavras candidatas a integrar a BCAO? Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  4. 4. Trabalho desenvolvido recolher recursos ligados ao AO1990 criar um corrector ortogr´fico para a actualiza¸˜o do a ca Portuguˆs e criar um conversor de textos para a nova vers˜o a criar um classificador de textos construir ferramentas capazes de inferir regras de mudan¸a a c partir de bi-textos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  5. 5. Recursos dicion´rios, conversores, listas de palavras a lista do ILTEC, com cerca de 9000 entradas Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  6. 6. Lista do ILTEC PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm ancil´ide :: ancil´ide :: anciloide :: anciloide :: anciloide :: o o ancir´ide :: ancir´ide :: anciroide :: anciroide :: anciroide :: o o androgin´ide :: androgin´ide :: androginoide :: androginoide :: androgin o o andr´ide :: andr´ide :: androide :: androide :: androide :: o o anec´ico :: anec´ico :: anecoico :: anecoico :: anecoico :: o o anel´ctrico :: anel´trico, anel´ctrico :: anel´trico, anel´ctrico :: e e e e e anel´trico :: anel´ctrico,anel´trico :: anel´ctrico nPT e e e e Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  7. 7. Actualiza¸˜o do dicion´rio ca a Ponto de partida: jspell (gerado na UM, propagado para outros dicion´rios com o Chuveiro de Dicion´rios) a a actualiza¸˜o a partir da lista do ILTEC ca Depois de expandidas as actualiza¸˜es, foram obtidas 11500 co palavras Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  8. 8. jspell acalentar/#vt/XYPLD/ coiote/#nm/p/ laico/#a/fidp/ zinco/#nm// Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  9. 9. Ferramentas de convers˜o a dois conversores: pt2ptao e br2brao usadas as regras de expans˜o do jspell e a lista do ILTEC a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  10. 10. Convers˜o - Exemplo a $ pt2ptao A adop¸~o do acordo implica a actualiza¸~o de algumas ca ca A ado¸~o do acordo implica a atualiza¸~o de algumas fe ca ca $ br2brao Ele fez um v^o rasante sobre a ar´ia. o e Ele fez um voo rasante sobre a areia. Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  11. 11. Classificador procura cada palavra de um texto em dicion´rios PT-PT e a PT-BR no fim, considera-se que o texto pertence ` linguagem que a fizer mais matches Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  12. 12. Classifica¸˜o - Exemplo ca $ whichPT AmorPerd.ptPT AmorPerd.ptBR AmorPerd.ptPT pt AmorPerd.ptBR br Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  13. 13. Compara¸˜o l´xica ca e ferramentas capazes de, atrav´s da an´lise de textos, construir e a programas para auxiliar em migra¸˜es co script para detectar diferen¸as lingu´ c ısticas entre duas vers˜es o de um texto Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  14. 14. lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 32 acad´mico => acad^mico e e 16 Vila Real => Vila-Real 14 ideia => id´ia e 12 redarguiu => redarg¨iu u 7 g´nio => g^nio e e 6 cinquenta => cinq¨enta u 5 Ant´nio => Ant^nio o o 4 reflectiu => refletiu 4 projectos => projetos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  15. 15. lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 36 et => ect 34 d^m => d´m e e 18 d´i => dei e 17 g¨i => gui u 15 q¨e => que u 11 g^n => g´n e e 9 m^n => m´n o o 8 at => act 7 q¨i => qui u 7 e¸ => ec¸ c c Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
  16. 16. Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010

×