• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Bigorna
 

Bigorna

on

  • 781 views

Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).

Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).

Statistics

Views

Total Views
781
Views on SlideShare
767
Embed Views
14

Actions

Likes
0
Downloads
0
Comments
0

3 Embeds 14

http://coderwall.com 7
http://www.slideshare.net 5
http://www.linkedin.com 2

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Bigorna Bigorna Presentation Transcript

    • Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010
    • Projecto Bigorna conjunto de ferramentas para desafios de migra¸˜o ortogr´fica ca a motivado pelo Acordo Ortogr´fico de 1990 a projecto para o Sapo Summerbits 2009 evoluiu para problemas gen´ricos de migra¸˜es de grafias e co Andr´ Santos, MEI, UM e Jos´ Jo˜o Almeida, DI, UM e a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Contexto - Acordo Ortogr´fico de 1990 a altera¸˜es ditadas pelo acordo n˜o podem ser determinadas co a automaticamente porque se baseiam em crit´rios fon´ticos e e e por vezes podem ser amb´ ıguas; ´ importante manter uma Base de Conhecimento do Acordo e Ortogr´fico, uma tabela contendo lemas, altera¸˜es e regras a co baseada nas listas existentes; Como determinar quais as palavras candidatas a integrar a BCAO? Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Trabalho desenvolvido recolher recursos ligados ao AO1990 criar um corrector ortogr´fico para a actualiza¸˜o do a ca Portuguˆs e criar um conversor de textos para a nova vers˜o a criar um classificador de textos construir ferramentas capazes de inferir regras de mudan¸a a c partir de bi-textos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Recursos dicion´rios, conversores, listas de palavras a lista do ILTEC, com cerca de 9000 entradas Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Lista do ILTEC PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm ancil´ide :: ancil´ide :: anciloide :: anciloide :: anciloide :: o o ancir´ide :: ancir´ide :: anciroide :: anciroide :: anciroide :: o o androgin´ide :: androgin´ide :: androginoide :: androginoide :: androgin o o andr´ide :: andr´ide :: androide :: androide :: androide :: o o anec´ico :: anec´ico :: anecoico :: anecoico :: anecoico :: o o anel´ctrico :: anel´trico, anel´ctrico :: anel´trico, anel´ctrico :: e e e e e anel´trico :: anel´ctrico,anel´trico :: anel´ctrico nPT e e e e Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Actualiza¸˜o do dicion´rio ca a Ponto de partida: jspell (gerado na UM, propagado para outros dicion´rios com o Chuveiro de Dicion´rios) a a actualiza¸˜o a partir da lista do ILTEC ca Depois de expandidas as actualiza¸˜es, foram obtidas 11500 co palavras Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • jspell acalentar/#vt/XYPLD/ coiote/#nm/p/ laico/#a/fidp/ zinco/#nm// Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Ferramentas de convers˜o a dois conversores: pt2ptao e br2brao usadas as regras de expans˜o do jspell e a lista do ILTEC a Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Convers˜o - Exemplo a $ pt2ptao A adop¸~o do acordo implica a actualiza¸~o de algumas ca ca A ado¸~o do acordo implica a atualiza¸~o de algumas fe ca ca $ br2brao Ele fez um v^o rasante sobre a ar´ia. o e Ele fez um voo rasante sobre a areia. Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Classificador procura cada palavra de um texto em dicion´rios PT-PT e a PT-BR no fim, considera-se que o texto pertence ` linguagem que a fizer mais matches Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Classifica¸˜o - Exemplo ca $ whichPT AmorPerd.ptPT AmorPerd.ptBR AmorPerd.ptPT pt AmorPerd.ptBR br Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Compara¸˜o l´xica ca e ferramentas capazes de, atrav´s da an´lise de textos, construir e a programas para auxiliar em migra¸˜es co script para detectar diferen¸as lingu´ c ısticas entre duas vers˜es o de um texto Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 32 acad´mico => acad^mico e e 16 Vila Real => Vila-Real 14 ideia => id´ia e 12 redarguiu => redarg¨iu u 7 g´nio => g^nio e e 6 cinquenta => cinq¨enta u 5 Ant´nio => Ant^nio o o 4 reflectiu => refletiu 4 projectos => projetos Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • lexdiff - Exemplo $ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head 36 et => ect 34 d^m => d´m e e 18 d´i => dei e 17 g¨i => gui u 15 q¨e => que u 11 g^n => g´n e e 9 m^n => m´n o o 8 at => act 7 q¨i => qui u 7 e¸ => ec¸ c c Andr´ Santos, Jos´ Jo˜o Almeida, Alberto Sim˜es e e a o Projecto Bigorna, Dep. Inform´tica, UMinho a
    • Projecto Bigorna Andr´ Santos e pg15973@alunos.uminho.pt Dep. Inform´tica, UM a 13 de Abril de 2010