Apresentação sobre arquitecturas de tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.
1. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Abordagens na Tradu¸˜o Autom´tica
ca a
Alberto Manuel Brand˜o Sim˜es
a o
ambs@di.uminho.pt
Escola de Ver˜o – Junho 2009
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (1/38)
2. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
1 Arquitecturas de Tradu¸˜o Autom´tica
ca a
2 TA baseada em regras
Sistemas de Tradu¸˜o Directa
ca
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Sistemas de Tradu¸˜o por Interl´
ca ıngua
3 TA orientada aos dados
Sistemas de Tradu¸˜o Estat´
ca ıstica
Sistemas de Tradu¸˜o baseada em Exemplos
ca
4 Conclus˜es
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (2/38)
3. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Arquitecturas de Tradu¸˜o Autom´tica
ca a
Tradu¸˜o Baseada em Regras
ca
(Rule-Based Machine Translation)
Tradu¸˜o directa (direct MT);
ca
Tradu¸˜o por transferˆncia (transfer MT);
ca e
Tradu¸˜o por interl´
ca ıngua (interlingua MT);
Tradu¸˜o Orientada a Dados
ca
(Data-Driven Machine Translation)
Tradu¸˜o estat´
ca ıstica (Statistical MT);
Tradu¸˜o baseada em exemplos (Example-Based MT);
ca
Solu¸˜es h´
co ıbridas...
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (3/38)
4. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Sistemas baseados em regras
Baseados em:
modelos formais de tradu¸˜o;
ca
conhecimento “lingu´
ıstico”;
Problemas:
caros e trabalhosos (batalh˜es de linguistas);
o
baseiam-se em conhecimento preciso (e quem o tem? );
Vantagens:
previs´
ıveis (as regras s˜o analis´veis);
a a
erros f´ceis de detectar e corrigir;
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (4/38)
5. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Sistemas orientados aos dados
Baseados em:
dados (corpora);
t´cnicas de aprendizagem;
e
Problemas:
poucos dados ou dados parciais;
(corpora pequenos, corpora enviesados, ...)
dados com pouca qualidade;
(fracas tradu¸˜es, maus alinhamentos, ...)
co
Vantagens:
precisam de pouca m˜o-de-obra;
a
s˜o concili´veis com sistemas baseados em regras;
a a
(e vice-versa, claro...)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (5/38)
6. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Ferramentas PLN na TA
A implementa¸˜o de qualquer uma destas abordagens requer
ca
ferramentas de processamento de linguagem natural robustas para
as l´
ınguas envolvidas, como sejam:
Anotadores de Part-of-Speech e lematizadores;
Analisadores sint´cticos (parsers);
a
Classificadores semˆnticos;
a
Desambigua¸˜o de sentidos;
ca
Reconhecimento de Entidades Mencionadas;
Extrac¸˜o de Informa¸˜o;
ca ca
...
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (6/38)
7. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas baseados em regras
Interlíngua
Semântica L.O. Semântica L.D.
ge
se
ra
áli
çã
an
o
Sintaxe L.O. Sintaxe L.D.
Texto origem Texto destino
tradução directa
(representa¸˜o t´
ca ıpica)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (7/38)
8. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Análise e Síntese
Texto Texto
L.O. L.D.
L.O. -> L.D.
dicionários e gramáticas
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (8/38)
9. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Tradu¸˜o realizada palavra-a-palavra;
ca
Pouca an´lise ao texto na l´
a ıngua de origem
(sem an´lise sint´ctica ou semˆntica)
a a a
Baseia-se em grandes dicion´rios bilingues:
a
para cada palavra na l´
ıngua de origem, o dicion´rio especifica
a
um conjunto de regras para traduzir essa palavra
Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples;
o ca e ca
(por exemplo, a t´
ıpica troca de ordem de nomes e adjectivos).
Todo este processamento ´ realizado numa janela deslizante
e
com um n´mero fixo de palavras.
u
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (9/38)
10. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
Regras para a tradu¸˜o de much ou many para Russo:
ca
Se precedida por how ⇒ skol’ko
Sen˜o se precedida por as ⇒ stol’ko zhe
a
Sen˜o se a palavra ´ much
a e
Se precedida por very ⇒⊥
Sen˜o se seguida por um nome ⇒ mnogo
a
Sen˜o (a palavra ´ many )
a e
Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii
ca
Sen˜o ⇒ mnogo
a
Retirado de Jurafsky e Martin, edi¸˜o 2, cap´
ca ıtulo 25.
Originalmente de um sistema de Panov, 1960.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (10/38)
11. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa – Vantagens
ca
simples de aplicar t´cnicas de aprendizagem autom´tica;
e a
(inferir regras a partir de corpora paralelos)
simples de aproveitar similaridades entre l´
ınguas:
a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas);
a e o a o
relativamente simples de obter um sistema directo com
tradu¸˜o de qualidade para l´
ca ınguas pr´ximas;
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (11/38)
12. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa – Problemas
ca
´ ıcil
E dif´ (ou imposs´
ıvel) de detectar reordenamentos longos:
EN: Sources said that IBM bought Lotus yesterday.
JP: Sources yesterday IBM Lotus bought that said
As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o
a ca ca
sint´ctica;
a
As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam):
a a a e a
pouca relevˆncia lingu´
a ıstica;
Dif´ de manter (sistemas grandes):
ıcil
interac¸˜o entre um grande n´mero de regras;
ca u
as regras n˜o s˜o completamente independentes;
a a
N˜o h´ reutiliza¸˜o de c´digo!
a a ca o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (12/38)
13. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o Directa
ca
ınguas, 5 × 4 = 20 tradutores!
Para 5 l´
L1 L2
L3 L4
L5
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (13/38)
14. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
análise transferência síntese
Texto repres. repres. Texto
L.O. L.O. L.D. L.D.
dicionários e dicionários e
dicionários
gramáticas gramáticas
L.O. -> L.D.
L.O. L.D.
regras de
transferência
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (14/38)
15. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Trˆs (ou cinco) fases na tradu¸˜o:
e ca
1.a An´lise Morfol´gica
a o
PalavraA −→ (LemaA + Categoria + Propriedades)
1.b Classifica¸˜o Lexical
ca
(LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado
2.a Transferˆncia Lexical
e
LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop
2.b Transferˆncia Estrutural
e
ajuste de concordˆncias (g´nero e n´mero), reordenamento de
a e u
palavras e sintagmas.
3 Gera¸˜o Morfol´gica
ca o
LemaB + Categoria + Propriedades −→ PalavraB
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (15/38)
16. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
As ´rvores de parsing podem variar de simples an´lises
a a
superficiais at´ an´lises mais profundas.
e a
(incluindo mesmo representa¸˜es semˆnticas);
co a
As regras de transferˆncia podem ser compar´veis `s regras
e a a
dos sistemas directos, mas podem operar sobre estruturas
sint´cticas.
a
(ou mesmo semˆnticas)
a
Torna-se mais simples a detec¸˜o de reordena¸˜o a longa
ca ca
distˆncia.
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (16/38)
17. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Exemplo de tradu¸˜o (l´
ca ıngua origem)
S
€€
€€
NP VP
€€€
€
sources VB SBAR-A
$$ˆˆˆ
$$
$ ˆˆ
said COMP S
$$ˆˆˆ
$$
$ ˆ
ˆ
that NP-A VP
$ˆ
$ $ ¤¤ ˆˆˆ
$ $ ˆ
IBM VB NP-A NP
bought Lotus yesterday
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (17/38)
18. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
Exemplo de tradu¸˜o (l´
ca ıngua destino)
S
@@@hhhhhh
@@@@ hhh
@ @@
@ hh
NP VP ⇔
$$ˆˆˆ
$$$ ˆˆ
sources SBAR-A ⇔
2– VB
2 2 –––
222 ––
S COMP said
$$ˆˆˆˆ
$ $
$$ ˆˆ
NP NP-A VP ⇔ that
4˜
4 ˜
yesterday IBM NP-A VB
Lotus bought
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (18/38)
19. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Dicion´rios: tradu¸˜o directa vs transferˆncia
a ca e
Directa Transferˆncia
e
1 dicion´rio
a 3 dicion´rios
a
RU → EN
RU
num → plural
primer → example primer → cat → nome
lem → primer
primery → examples
RU → EN
primer → example
EN
lem → example
→ example
num → singular
lem → example
→ examples
num → plural
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (19/38)
20. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Dicion´rios: tradu¸˜o directa vs transferˆncia
a ca e
Directa Transferˆncia
e
1 novo dicion´rio
a 2 novos dicion´rios
a
RU → ES
RU
num → plural
primer → ejemplo primer → cat → nome
lem → primer
primery → ejemplos
RU → ES
primer → ejemplo
EN
lem → ejemplo
→ ejemplo
num → singular
lem → ejemplo
→ ejemplos
num → plural
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (20/38)
21. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Vantagens dos sitemas de Transferˆncia
e
Os m´dulos de an´lise e s´
o a ıntese s˜o reutiliz´veis:
a a
separa¸˜o de informa¸˜o espec´
ca ca ıfica da l´
ıngua da informa¸˜o
ca
multilingue;
opera¸˜es realizadas num nivel superior de abstrac¸˜o;
co ca
As regras podem ser generalizadas tendo em conta
propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores
o co a
de parsing, etc.
´
E poss´ aceder a propriedades lingu´
ıvel ısticas para
desambigua¸˜o.
ca
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (21/38)
22. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Transferˆncia
ca e
ınguas, 5 × 6 = 30
Para 5 l´
m´dulos:
o
5 abstractores / parsers;
L1 L2
5 × 4 m´dulos de
o
IR1 IR2
transferˆncia;
e
5 geradores;
L3 IR3 IR4 L4
Mais m´dulos que num
o IR5
sistema de tradu¸˜o directa,
ca
mas mais pequenos, simples,
e reutiliz´veis.
a L5
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (22/38)
23. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
análise síntese
Texto Representação Texto
L.O. inter-língua L.D.
dicionários e dicionários e
gramáticas gramáticas
L.O L.D.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (23/38)
24. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Duas fases no processo de tradu¸˜o:
ca
An´lise
a
A frase na l´
ıngua de origem ´ analisada e ´ criada uma
e e
representa¸˜o (independente de l´
ca ıngua) do seu significado.
Gera¸˜o
ca
A representa¸˜o semˆntica ´ convertida numa frase na l´
ca a e ıngua
de destino.
Teoricamente n˜o existe informa¸˜o bilingue no sistema.
a ca
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (24/38)
25. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Uma vantagem:
para cada l´
ıngua adicionada ao sistema ´ necess´rio
e a
desenvolver apenas um m´dulo de an´lise e um de gera¸˜o;
o a ca
Uma maior desvantagem:
qual seria a representa¸˜o independente de l´
ca ıngua?
como representar os conceitos?
l´
ınguas diferentes tˆm conceitos diferentes
e
(3 vs n formas de classificar neve)
ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a
a ca e ca
uni˜o de todos estes conceitos?
a
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (25/38)
26. Arquitecturas de Tradu¸˜o Autom´tica
ca a
Sistemas de Tradu¸˜o Directa
ca
TA baseada em regras
Sistemas de Tradu¸˜o por Transferˆncia
ca e
TA orientada aos dados
Sistemas de Tradu¸˜o por Interl´
ca ıngua
Conclus˜es
o
Sistemas de Tradu¸˜o por Interl´
ca ıngua
ınguas, 5 × 2 = 10 m´dulos:
Para 5 l´ o
5 abstractores / parsers;
5 geradores;
L1 L2
IL
L3 L4
L5
Infelizmente a ideia de interl´
ıngua n˜o ´ realista.
a e
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (26/38)
27. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Sistemas orientados aos dados
tradução à palavra
matching recombinação
tradução de segmento
exemplo exacto existente
Texto origem Texto destino
(representa¸˜o t´
ca ıpica)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (27/38)
28. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Tradu¸˜o Estat´
ca ıstica
Texto
Texto na
bilingue
L.D.
L.O. / L.D.
Candidatos a
Texto Texto
Tradução
L.O. L.D.
análise na L.D. análise
estatíistica estatística
Modelo de Modelo
tradução linguístico
Algoritmo de tradução
argmaxe P(e) x P(s|e)
(Knight, 2004a)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (28/38)
29. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Modelo do Canal Ruidoso (Noisy Channel Model)
Pretende-se um modelo P(e|f ) que estima a probabilidade
condicional de uma frase (tradu¸˜o) e na l´
ca ıngua E , dada a frase f
na l´
ıngua F .
Modelo de L´
ıngua
dado um segmento e na L.D. (p.e. inglˆs), calcular P(e);
e
um segmento de bom inglˆs, ent˜o P(e) ´ elevada;
e a e
um segmento de mau inglˆs, ent˜o P(e) ´ baixa;
e a e
Modelo de Tradu¸˜o
ca
dado um par de segmentos, f , e , calcular P(f |e);
se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada;
co a e
se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa;
a ca a e
Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (29/38)
30. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Ainda sobre este modelo
Modelo de L´
ıngua
Pode ser implementado baseado em trigramas, e estimado de
qualquer corpus (n˜o necessariamente paralelo);
a
Modelo de Tradu¸˜o
ca
´
E treinado a partir de um corpus paralelo nas l´
ınguas em
causa.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (30/38)
31. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Frase original:
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es:
co
What hunger have I
Hungry I am so
I am so hungry
Have I that hunger
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (31/38)
32. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es com c´lculo da probabilidade
co a
usando apenas o modelo de tradu¸˜o:
ca
What hunger have I 0.0000140
Hungry I am so 0.0000010
I am so hungry 0.0000015
Have I that hunger 0.0000200
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (32/38)
33. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Exemplo do processo SMT
Que hambre tengo yo
Gera¸˜o estat´
ca ıstica de tradu¸˜es e avalia¸˜o com modelo
co ca
completo:
What hunger have I 0.0000140 × 0.00000100
Hungry I am so 0.0000010 × 0.00000140
I am so hungry 0.0000015 × 0.00010000
Have I that hunger 0.0000200 × 0.00000098
Valida¸˜o arg maxe P(e) × P(s|e)
ca
I am so hungry
(Knight, 2004a)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (33/38)
34. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Tradu¸˜o baseada em exemplos
ca
Texto
bilingue Corpora
L.O. / L.D.
Texto Fragmentos Texto
L.O. L.D. L.D.
matching recombinação
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (34/38)
35. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
Problemas na EBMT
Principais problemas da EBMT:
procurar as maiores concordˆncias (matches) exactas de
a
por¸˜es de texto a ser traduzido;
co
combinar as tradu¸˜es posteriormente;
co
e, para que isto funcione, ´ preciso determinar que peda¸o da
e c
tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto
ca a ca
que foi realmente encontrado (matched).
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (35/38)
36. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras Sistemas de Tradu¸˜o Estat´
ca ıstica
TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos
ca
Conclus˜es
o
EBMT vs SMT
Os sistemas baseados em estat´ıstica, sendo baseados em corpora,
est˜o muito perto dos sistemas baseados em exemplos:
a
tal como os baseados em exemplos, s˜o treinados em corpora
a
paralelos;
ao contr´rio dos baseados em exemplos, n˜o armazenam os
a a
exemplos originais depois de treinados;
(Brown, 2002)
Embora tenha existido uma separa¸˜o inicial na abordagem, cada
ca
vez mais se fala em Tradu¸˜o Estat´
ca ıstica ou Tradu¸˜o Baseada em
ca
Dados referindo-se ao uso conjunto destas t´cnicas.
e
(Sim˜es, 2009)
o
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (36/38)
37. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Ferramentas Concretas
Tradu¸˜o baseada em regras
ca
tradu¸˜o directa;
ca
(Systran, originalmente)
tradu¸˜o por regras de transferˆncia;
ca e
(Systran, Logos/OpenLogos, Reverso, Apertium)
tradu¸˜o interl´
ca ıngua;
(EUROTRA)
Tradu¸˜o orientada aos dados
ca
tradu¸˜o estat´
ca ıstica;
(Pharaoh/Moses/Phramer)
tradu¸˜o baseada em exemplos;
ca
(Gaijin/MaTrEx, EDGAR)
Abordagens H´ıbridas
(Pangloss Mark III)
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (37/38)
38. Arquitecturas de Tradu¸˜o Autom´tica
ca a
TA baseada em regras
TA orientada aos dados
Conclus˜es
o
Conclus˜es
o
Aproveitar experiˆncia das abordagens baseadas em regras:
e
regras j´ destiladas;
a
recursos j´ produzidos;
a
Aproveitar recursos bilingues existentes:
extrair dicion´rios;
a
extrair regras de tradu¸˜o;
ca
extrair dados estat´ ısticos sobre a tradu¸˜o
ca
Unir abordagens para ter sucesso.
Alberto Sim˜es
o Abordagens na Tradu¸˜o Autom´tica
ca a (38/38)