Your SlideShare is downloading. ×
Translation Resources Extraction using Probabilistic Translation Dictionaries
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Translation Resources Extraction using Probabilistic Translation Dictionaries

766
views

Published on

This is the presentation I used for my PhD defense. Twenty minutes for a three years and half of work.

This is the presentation I used for my PhD defense. Twenty minutes for a three years and half of work.

Published in: Business, Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
766
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
19
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Extrac¸˜o de Recursos de Tradu¸˜o com base em ca ca Dicion´rios Probabil´ a ısticos de Tradu¸˜o ca Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt Orienta¸˜o: ca Jos´ Jo˜o Dias de Almeida e a Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 2. Met´fora: construir pontes a f PhD EBMT Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 3. Met´fora: construir pontes a f PhD EBMT Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 4. Met´fora: construir pontes a f PhD EBMT Resources Evaluation Translation Dictionaries Resources Corpora Server n-Grams Text::Translator Examples Terminology Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 5. Decis˜es o Dado que: uma tarefa levanta uma centena de outras importantes; um doutoramento tem uma janela de 3 anos; a equipa de PLN na UM ´ pequena; e importante a coopera¸˜o; ca Ent˜o: a dedicar doutoramento ` extrac¸˜o de recursos de tradu¸˜o a ca ca (dicion´rios, exemplos e segmentos nominais) a disponibilizar recursos e ferramentas (permitir valida¸˜o pelo uso, ter consequˆncia) ca e dar especial aten¸˜o ` escalabilidade das ferramentas ca a (servidor de recursos, parti¸˜o de algoritmos, escalonador PBS) ca integrar e compor ferramentas (investir em largura e n˜o em profundidade) a Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 6. Progresso no Doutoramento Get translation resources Process PC Scalable tools Scalable tools Extract Translation Dictionaries (PTDs) Phrase-like examples Scalable tools Extract Translation Examples Example Based Machine Translation Different Kind of PTDs Create Corpora Examples using PTDs Evaluate PTDs Nouns phrases extraction Compare Corpora Genres Compare different algorithms Compare other tools Compare other approaches Release Release Release Integrate on Translation Systems Te xt::T Ap ran er sla tiu m tor Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 7. Motiva¸˜o — Textos paralelos ca Estes resultados constituem a base do These findings form the basis of the Programa Europeu de defesa do Mar de European Programmes to protect the Barents e, por esse motivo, pe¸o-lhe c Barents Sea, and that is why I would que analise um projecto de carta que ask you to examine a draft letter lhe exp˜e os factos mais importantes, e o setting out the most important facts que, de acordo com as decis˜es do o and to make Parliament’s position, as Parlamento, torne clara esta posi¸˜o na ca expressed in the resolutions which it R´ssia. u has adopted, clear as far as Russia is No entanto, somos tamb´m da opini˜o e a concerned. de que deveria haver um debate sobre We believe, however, that the esta estrat´gia da comiss˜o que e a commission’s strategic plan needs to be seguisse um procedimento ordenado, e debated within a proper procedural n˜o s´ com base numa declara¸˜o oral a o ca framework, not only on the basis of an pronunciada aqui no Parlamento oral statement here in the European Europeu, mas tamb´m com base num e Parliament, but also on the basis of a documento que seja decidido na document which is adopted in the comiss˜o e que apresente uma a commission and which describes this descri¸˜o deste programa para um ca programme over the five-year period . per´ıodo de cinco anos. Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 8. Motiva¸˜o — Frases paralelas ca Estes resultados constituem a base do These findings form the basis of the Programa Europeu de defesa do Mar de European Programmes to protect the Barents e, por esse motivo, pe¸o-lhe c Barents Sea, and that is why I would que analise um projecto de carta que ask you to examine a draft letter lhe exp˜e os factos mais importantes, e o setting out the most important facts que, de acordo com as decis˜es do o and to make Parliament’s position, as Parlamento, torne clara esta posi¸˜o na ca expressed in the resolutions which it R´ssia. u has adopted, clear as far as Russia is No entanto, somos tamb´m da opini˜o e a concerned. de que deveria haver um debate sobre We believe, however, that the esta estrat´gia da comiss˜o que e a commission’s strategic plan needs to be seguisse um procedimento ordenado, e debated within a proper procedural n˜o s´ com base numa declara¸˜o oral a o ca framework, not only on the basis of an pronunciada aqui no Parlamento oral statement here in the European Europeu, mas tamb´m com base num e Parliament, but also on the basis of a documento que seja decidido na document which is adopted in the comiss˜o e que apresente uma a commission and which describes this descri¸˜o deste programa para um ca programme over the five-year period . per´ıodo de cinco anos. Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 9. Motiva¸˜o — Dicion´rios de tradu¸˜o ca a ca Estes resultados constituem a base do These findings form the basis of the Programa Europeu de defesa do Mar de European Programmes to protect the Barents e, por esse motivo, pe¸o-lhe c Barents Sea, and that is why I would que analise um projecto de carta que ask you to examine a draft letter lhe exp˜e os factos mais importantes, e o setting out the most important facts que, de acordo com as decis˜es do o and to make Parliament’s position, as Parlamento, torne clara esta posi¸˜o na ca expressed in the resolutions which it R´ssia. u has adopted, clear as far as Russia is No entanto, somos tamb´m da opini˜o e a concerned. de que deveria haver um debate sobre We believe, however, that the esta estrat´gia da comiss˜o que e a commission’s strategic plan needs to be seguisse um procedimento ordenado, e debated within a proper procedural n˜o s´ com base numa declara¸˜o oral a o ca framework, not only on the basis of an pronunciada aqui no Parlamento oral statement here in the European Europeu, mas tamb´m com base num e Parliament, but also on the basis of a documento que seja decidido na document which is adopted in the comiss˜o e que apresente uma a commission and which describes this descri¸˜o deste programa para um ca programme over the five-year period . per´ıodo de cinco anos. Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 10. Motiva¸˜o — Exemplos de tradu¸˜o ca ca Estes resultados constituem a base do These findings form the basis of the Programa Europeu de defesa do Mar de European Programmes to protect the Barents e, por esse motivo, pe¸o-lhe c Barents Sea, and that is why I would que analise um projecto de carta que ask you to examine a draft letter lhe exp˜e os factos mais importantes, e o setting out the most important facts que, de acordo com as decis˜es do o and to make Parliament’s position, as Parlamento, torne clara esta posi¸˜o na ca expressed in the resolutions which it R´ssia. u has adopted, clear as far as Russia is No entanto, somos tamb´m da opini˜o e a concerned. de que deveria haver um debate sobre We believe, however, that the esta estrat´gia da comiss˜o que e a commission’s strategic plan needs to be seguisse um procedimento ordenado, e debated within a proper procedural n˜o s´ com base numa declara¸˜o oral a o ca framework, not only on the basis of an pronunciada aqui no Parlamento oral statement here in the European Europeu, mas tamb´m com base num e Parliament, but also on the basis of a documento que seja decidido na document which is adopted in the comiss˜o e que apresente uma a commission and which describes this descri¸˜o deste programa para um ca programme over the five-year period . per´ıodo de cinco anos. Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 11. Motiva¸˜o — Nominais paralelos ca Estes resultados constituem a base do These findings form the basis of the Programa Europeu de defesa do Mar de European Programmes to protect the Barents e, por esse motivo, pe¸o-lhe c Barents Sea, and that is why I would que analise um projecto de carta que ask you to examine a draft letter lhe exp˜e os factos mais importantes, e o setting out the most important facts que, de acordo com as decis˜es do o and to make Parliament’s position, as Parlamento, torne clara esta posi¸˜o na ca expressed in the resolutions which it R´ssia. u has adopted, clear as far as Russia is No entanto, somos tamb´m da opini˜o e a concerned. de que deveria haver um debate sobre We believe, however, that the esta estrat´gia da comiss˜o que e a commission’s strategic plan needs to be seguisse um procedimento ordenado, e debated within a proper procedural n˜o s´ com base numa declara¸˜o oral a o ca framework, not only on the basis of an pronunciada aqui no Parlamento oral statement here in the European Europeu, mas tamb´m com base num e Parliament, but also on the basis of a documento que seja decidido na document which is adopted in the comiss˜o e que apresente uma a commission and which describes this descri¸˜o deste programa para um ca programme over the five-year period . per´ıodo de cinco anos. Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 12. Progresso no Doutoramento Get translation resources Process PC Scalable tools Scalable tools Extract Translation Dictionaries (PTDs) Phrase-like examples Scalable tools Extract Translation Examples Example Based Machine Translation Different Kind of PTDs Create Corpora Examples using PTDs Evaluate PTDs Nouns phrases extraction Compare Corpora Genres Compare different algorithms Compare other tools Compare other approaches Release Release Release Integrate on Translation Systems Te xt::T Ap ran er sla tiu m tor Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 13. Escalabilidade Escalabilidade! ısticos ⇒ quantidade m´todos estat´ e Escalabilidade importante; grandes quantidades ⇒ robusteza; eficiˆncia; e Abordagem: estrat´gias de decomposi¸˜o: e ca decomposi¸˜o estrutural; ca decomposi¸˜o por ca parti¸˜o/replica¸˜o; ca ca ferramentas de suporte: gest˜o de paralelismo/pipeline; a arquitectura adaptativa; ordem superior; Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 14. Decomposi¸˜o estrutural - Parti¸˜o da fun¸˜o ca ca ca C /f ◦g ◦h◦q /R vs C /f /• /g /• /h /• /q /R O O O O O O O O O O O O Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 15. Decomposi¸˜o por replica¸˜o - Parti¸˜o do dom´ ca ca ca ınio C / f (C) /R vs C e P(C) YYYYYYY eeeeeei ii YYYYYY eeeeee iii YYYY reeeeeeeeee tiiiiii * . . . YYYYYYY, c c1 c2 c3 n f (c1 ) f (c2 ) f (c3 ) f (. . .) f (cn ) r1 YYYYYYY r2 UUUU r3 . . . ee rn YYYYYY UUUU eeeeee YYYYYY UU* , t reeeeeeeeeee g (r1 , r2 , . . . , rn ) R Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 16. Decomposi¸˜o nas ferramentas NATools ca example100000 5h 13m 38s example350000 2h 23s example 5s initmat003 ipfp003 postipfp003 postbin003 1m 17s 1s 0s 0s example200000 5h 4m 57s initmat001 ipfp001 postipfp001 postbin001 1m 4s 13m 20s 2s 2s example150000 5h 2m 48s initmat002 ipfp002 postipfp002 postbin002 dicB examples cleanExamples 1m 19s 1s 0s 0s 2s 3s 20s codify example0 7m 6s 5h 19m 34s initmat006 ipfp006 postipfp006 postbin006 dicA dump 14s 3m 40s 2s 1s 3s 8s example50000 6h 53m 3s initmat005 ipfp005 postipfp005 postbin005 1m 13s 0s 0s 0s example300000 5h 28m 6s initmat004 ipfp004 postipfp004 postbin004 57s 13m 35s 10s 9s example250000 5h 17m 7s filter 18s Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 17. Paraleliza¸˜o da Extrac¸˜o de Exemplos: a s´rio ca ca e example1650000 2h 29m 12s example0 3h 7m 41s Processamento do EurLex compreende: example 3s example50000 2h 57m 24s example1400000 2h 23m 33s mais de 1000 trabalhos; example550000 2h 51m 20s example1750000 2h 11m 5s initmat016 ipfp016 postipfp016 postbin016 9m 31s 26m 8s 2m 52s 4s example1150000 3h 9m 44s initmat023 ipfp023 postipfp023 postbin023 12m 40s 23m 11s 31s 1m 43s example250000 mais de 100 n´ ıveis de paralelismo; 3h 9m 27s initmat018 ipfp018 postipfp018 postbin018 2m 13s 25m 28s 8m 51s 1m 12s example100000 3h 11m 26s initmat010 ipfp010 postipfp010 postbin010 6m 41s 27m 5m 16s 21s example1200000 2h 46m 27s initmat021 ipfp021 postipfp021 postbin021 6m 30s 29m 33s 2m 59s 3s example700000 3h 11m 18s initmat004 ipfp004 postipfp004 postbin004 mais de 16 milh˜es de exemplos; o 4m 39s 22m 9s 6m 47s 4m 20s example1100000 2h 54m 20s initmat012 ipfp012 postipfp012 postbin012 4m 31s 29m 17s 2m 42s 33s example450000 4h 52m 22s initmat024 ipfp024 postipfp024 postbin024 14m 56s 24m 17s 11s 3s example950000 3h 27m 49s initmat014 ipfp014 postipfp014 postbin014 6m 37s 30m 12s 2m 22s 3s mais de 1 milh˜o de nominais; a example400000 3h 4m 22s initmat001 ipfp001 postipfp001 postbin001 55s 22m 24s 7m 26s 7m example1600000 2h 33m 48s initmat009 ipfp009 postipfp009 postbin009 1m 42s 21m 43s 12m 41s 1m 39s example1300000 3h 33m 26s initmat020 ipfp020 postipfp020 postbin020 15m 1s 24m 23s 5s 3s example1050000 3h 4m 21s mais de 10 GB de informa¸˜o ca initmat006 ipfp006 postipfp006 postbin006 dicA examples cleanExamples 4m 38s 31m 46s 2m 51s 10s 1m 25s 3m 29s 3m 58s example1350000 3h 15m 9s initmat017 ipfp017 postipfp017 postbin017 dicB dump 14m 6s 16m 57s 7m 28s 55s 1m 14s 1m 23s example900000 3h 8m 17s initmat008 ipfp008 postipfp008 postbin008 6m 43s 26m 54s 5m 43s 2s example850000 produzida; 3h 10m 37s initmat013 ipfp013 postipfp013 postbin013 12m 13s 19m 51s 6m 55s 19s codify example500000 29m 50s 3h 27m 22s initmat003 ipfp003 postipfp003 postbin003 9m 44s 13m 34s 9m 26s 5m 13s example300000 3h 17m 38s initmat011 ipfp011 postipfp011 postbin011 14m 18s 22m 16s 3m 4s example1250000 3h 37m 58s tempo cr´ ıtico de execu¸˜o: 4h 30m ca initmat007 ipfp007 postipfp007 postbin007 14m 41s 22m 11s 2m 29s 10s example1500000 4h 10m 59s initmat025 ipfp025 postipfp025 postbin025 15m 21s 21m 2m 29s 9s example600000 2h 35m 33s initmat005 ipfp005 postipfp005 postbin005 6m 47s 16m 40s 13m 26s 2m 10s example150000 3h 9m 54s initmat019 ipfp019 postipfp019 postbin019 bottleneck: acesso a disco 8m 43s 27m 30s 3m 6s 3s example1550000 4h 8m 27s initmat022 ipfp022 postipfp022 postbin022 14m 10s 21m 40s 3m 7s 3s example350000 3h 5m 37s initmat026 ipfp026 postipfp026 postbin026 4m 17s 17m 19s 14m 50s 1m 18s example1450000 4h 4m 40s initmat002 ipfp002 postipfp002 postbin002 4m 41s 25m 16s 8m 42s 54s example650000 Gest˜o de dependˆncias complicada: a e 2h 59m 35s initmat015 ipfp015 postipfp015 postbin015 15m 27s 23m 2s 1m 3s 3s example200000 3h 20m 8s ngramsB4 3h 34m 27s example800000 3h 54m 20s ngramsB2 ngramsB 42m 45s 36m 12s example1000000 3h 27m 51s Makefile::Parallel ngramsB3 56m 28s example750000 2h 43m 13s ngramsA4 3h 20m 2s example1700000 2h 43m 31s ngramsA2 ngramsA 45m 14s 46m 26s filter 1m 21s ngramsA3 43m 58s Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 18. Arquitectura adaptativa Motiva¸˜o: ca consultar recursos paralelos de forma eficiente: corpora paralelos dicion´rios probabil´ a ısticos n-gramas reutiliza¸˜o de c´digo; ca o API de ordem superior: eficiente para a realiza¸˜o de experiˆncias; ca e Adapt´vel a arquitectura cliente/servidor para distribui¸˜o de cargas; ca biblioteca dinˆmica para eficiˆncia de comunica¸˜o; a e ca Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 19. Ordem Superior Corpora Paralelo use NAT::Client; $client=NAT::Client-new(crp = quot;EuroParl-PT-ENquot;); Dicionário $client-iterate ( { Language = quot;PTquot; }, Probabilístico n-gramas de Tradução sub { my %param = @_; for my $trans (keys %{$param{trans}}) { Exemplos Construção if ($param{trans}{$trans} 0.2) { Tradução StarDicts my $word = $param{word}; my $concs = $client-conc( {concordance = 1}, Terminologia $word, $trans); Bilingue $stardict{$word}{$trans}=$concs-[0]; } } }); print StarDict($stardict); Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 20. Ordem Superior — Resultado Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 21. Progresso no Doutoramento Get translation resources Process PC Scalable tools Scalable tools Extract Translation Dictionaries (PTDs) Phrase-like examples Scalable tools Extract Translation Examples Example Based Machine Translation Different Kind of PTDs Create Corpora Examples using PTDs Evaluate PTDs Nouns phrases extraction Compare Corpora Genres Compare different algorithms Compare other tools Compare other approaches Release Release Release Integrate on Translation Systems Te xt::T Ap ran er sla tiu m tor Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 22. Dicion´rios Probabil´ a ısticos de Tradu¸˜o ca O que s˜o? a dicion´rios de tradu¸˜o; a ca WA (N × WB [0..1]) tradu¸˜es probabil´ co ısticas; extra´ ıdos automaticamente; Exemplo usam corpora paralelos europe = alinhados ` frase; a count = 42853, na sua maioria, tradu¸˜es co trans = correctas; europa = 94.7 % europeus = 3.4 % mas nem sempre. . . europeu = 0.8 % europeia = 0.1 % Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 23. Avalia¸˜o (2) ca Analisar pares de palavra e tradu¸˜o wA , wB tal que ca P (wB ∈ T (wA )) 0.2 ∧ Occs (wA ) 50 Total Erradas Correctas no de entradas 1000 150 (15%) 850 (85%) Prob Ocur Prob Ocur Prob Ocur ınimo valor m´ 0.20 50 0.20 50 0.20 50 a valor m´ximo 0.99 435 374 0.82 24 022 0.99 435 374 e m´dia 0.48 2 476 0.36 1 097 0.50 2 719 a desvio padr˜o 0.21 16 894 0.14 2 720 0.21 18 278 EuroParl corpus, PT–EN; Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 24. Dicion´rios Probabil´ a ısticos de Tradu¸˜o: Conclus˜es ca o Os PTDs: n˜o podem ser vistos como dicion´rios de tradu¸˜o a a ca convencional; podem ser transformados em dicion´rios de tradu¸˜o a ca convencionais (usando filtragem e/ou outras heur´ ısticas); s˜o uteis para a tradu¸˜o manual e autom´tica a ´ ca a s˜o uteis para a cria¸˜o/bootstraping de dicion´rios manuais; a ´ ca a variam em qualidade, de acordo com os corpora (e g´neros) e usados (Santos e Sim˜es, 2008); o Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 25. Progresso no Doutoramento Get translation resources Process PC Scalable tools Scalable tools Extract Translation Dictionaries (PTDs) Phrase-like examples Scalable tools Extract Translation Examples Example Based Machine Translation Different Kind of PTDs Create Corpora Examples using PTDs Evaluate PTDs Nouns phrases extraction Compare Corpora Genres Compare different algorithms Compare other tools Compare other approaches Release Release Release Integrate on Translation Systems Te xt::T Ap ran er sla tiu m tor Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 26. Exemplos de Tradu¸˜o ca As Unidades de Tradu¸˜o (de Mem´rias de Tradu¸˜o ca o ca convencionais): s˜o uteis aos tradutores; a ´ mas tˆm reutiliza¸˜o reduzida; e ca Os Exemplos de Tradu¸˜o s˜o: ca a segmentos de palavras e a respectiva tradu¸˜o; ca (exemplos de tradu¸˜o s˜o sub-segmentos de unidades de ca a tradu¸˜o) ca por serem mais pequenos tˆm grau de reutiliza¸˜o maior; e ca Duas abordagens de extrac¸˜o: ca segmenta¸˜o com base na Hip´tese das Palavras-Marca; ca o segmenta¸˜o com base em pontos de tradu¸˜o forte (ˆncoras); ca ca a Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 27. Hip´tese das Palavras Marca — Alinhamento o o n´mero de segmentos n˜o ´ o mesmo entre l´ u a e ınguas; ´ necess´rio realizar correspondˆncias; e a e usar os recursos dispon´ ıveis: PTDs; this decision shall take effect as soon as possible a presente decis˜o produz a 23.18 5.86 7.93 efeitos o mais rapidamente 0.00 76.41 83.10 poss´ıvel Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 28. Hip´tese das Palavras Marca — Conclus˜es o o Marker Hypothesis permite segmenta¸˜o (do portuguˆs, inglˆs ca e e e outras l´ ınguas) em segmentos l´gicos; o ´ E poss´ o alinhamento destes segmentos para extrac¸˜o de ıvel ca relacionamentos bilingues; Mais de 4 milh˜es de segmentos 1:1 extra´ o ıdos; 2 milh˜es de segmentos s˜o diferentes; o a EuroParl corpus, PT–EN; Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 29. Extrac¸˜o por detec¸˜o de ˆncoras ca ca a Criar matriz de alinhamento para cada unidade de tradu¸˜o; ca Preencher com uma medida de tradu¸˜o m´tua; ca u Encontrar pontos com relacionamento forte (ˆncoras); a alternative discussion european financing sources alliance radical about the for of . discussão 44 0 0 0 0 0 0 0 0 0 0 0 sobre 0 11 0 0 0 0 0 0 0 0 0 0 fontes 0 0 0 74 0 0 0 0 0 0 0 0 de 0 3 0 0 27 0 6 3 0 0 0 0 financiamento 0 0 0 0 0 56 0 0 0 0 0 0 alternativas 0 0 23 0 0 0 0 0 0 0 0 0 para 0 0 0 0 0 0 28 0 0 0 0 0 a 0 1 0 0 1 0 4 33 0 0 0 0 aliança 0 0 0 0 0 0 0 0 0 0 65 0 radical 0 0 0 0 0 0 0 0 0 80 0 0 europeia 0 0 0 0 0 0 0 0 59 0 0 0 . 0 0 0 0 0 0 0 0 0 0 0 80 MAS Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 30. Extrac¸˜o por detec¸˜o de ˆncoras: uso de padr˜es ca ca a o A ordem na tradu¸˜o muda! Felizmente, ca ´ poss´ isolar grande parte dos casos; e ıvel ´ poss´ definir estas trocas com base em padr˜es; e ıvel o estes padr˜es ajudam na constru¸˜o da diagonal principal; o ca estes padr˜es definem (maioritariamente) segmentos nominais; o neutro ponto vista de neutral X point X of ∆ view X [POV] P quot;dequot; V N = N P quot;ofquot; V Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 31. Extrac¸˜o por detec¸˜o de ˆncoras: uso de padr˜es ca ca a o alternative discussion european financing sources alliance radical about the for of . discussão 44 0 0 0 0 0 0 0 0 0 0 0 sobre 0 11 0 0 0 0 0 0 0 0 0 0 fontes 0 0 0 74 0 0 0 0 0 0 0 0 de 0 3 0 0 27 0 6 3 0 0 0 0 financiamento 0 0 0 0 0 56 0 0 0 0 0 0 alternativas 0 0 23 0 0 0 0 0 0 0 0 0 para 0 0 0 0 0 0 28 0 0 0 0 0 a 0 1 0 0 1 0 4 33 0 0 0 0 aliança 0 0 0 0 0 0 0 0 0 0 65 0 radical 0 0 0 0 0 0 0 0 0 80 0 0 europeia 0 0 0 0 0 0 0 0 59 0 0 0 . 0 0 0 0 0 0 0 0 0 0 0 80 discussion about --- discuss~o sobre a alternative sources of financing --- fontes de financiamento alternativas for the --- para a european radical alliance --- alian¸a radical europeia c for the european radical alliance --- para a alian¸a radical europeia c Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 32. Extrac¸˜o de Exemplos — Conclus˜es ca o extrac¸˜o usando apenas ˆncoras ´ relevante para l´ ca a e ınguas pr´ximas; o (como o par portuguˆs–espanhol) e para l´ ınguas mais afastadas, o uso de padr˜es ´ indispens´vel; o e a marcas vs ˆncoras: a estruturas (e portanto, finalidades) diferentes; ambas relevantes na obten¸˜o de exemplos; ca Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 33. Extrac¸˜o de Nominais ca Especificando com cuidado padr˜es de alinhamento, ´ poss´ o e ıvel extrair de forma autom´tica candidatos a terminologia bilingue de a grande qualidade. Restri¸˜es co [ABBA] A B[CAT-adj] = B[CAT-adj] A [ABBA] A B.is_adj = B.is_adj A %% sub is_adj { ... } Inferˆncia e [ABBA] A[CAT-noun] B[CAT-adj] = B[CAT-adj] A[CAT-noun] Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 34. Qualidade de nominais 39214 = comunidades europeias =!ABBA!= european communities 32850 = jornal oficial =!ABBA!= official journal 32832 = parlamento europeu =!ABBA!= european parliament 32730 = uni~o europeia =!ABBA!= european union a 31650 = comunidade europeia =!ABBA!= european community 15602 = pa´ses terceiros =!ABBA!= third countries ı [...] 3614 = livro verde =!ABBA!= green paper 3520 = sa´de p´blica =!ABBA!= public health u u 3434 = direito comunit´rio =!ABBA!= community law a 3243 = conselho europeu =!ABBA!= european council 3227 = n´vel comunit´rio =!ABBA!= community level ı a 3179 = comit´ permanente =!ABBA!= standing committee e 3038 = nomenclatura combinada =!ABBA!= combined nomenclature [...] 1 = ´rg~os or¸amentais =!ABBA!= budgetary organs o a c 1 = ´rg~os relevantes =!ABBA!= relevant bodies o a 1 = ´vulos de equino =!A!= equine ova o 1 = ´xido de albendazole =!A!= albendazole oxide o 1 = ´xido de c´dmio =!A!= cadmium oxide o a 1 = ´xido de estireno =!A!= styrene oxide o Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 35. Extrac¸˜o de Nominais — Avalia¸˜o ca ca 103 617 exemplos diferentes... 77 497 ex. com a regra A B = B A (938/2/1) (86%) 12 694 ex. com a regra A ”de” B = B A (204/2/1) (95%) 7 700 ex. com a regra A B C = C B A (40/1/1) (93%) 3 336 ex. com a regra H ”de” D H = H D I (21/1/1) (100%) 1 466 ex. com a regra A B C = C A B (4/1/1) (40%) 564 ex. com a regra P ”de” V N = N P ”of” V (6/1/1) (98%) 360 ex. com a regra P ”de” T ”de” F = F T P (3/1/1) (96%) Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 36. Algumas Contribui¸oes c˜ abordagens escal´veis para: a extrac¸˜o de dicion´rios probabil´ ca a ısticos de tradu¸˜o; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca extrac¸˜o de quantidades de segmentos nominais; ca diferentes abordagens na extrac¸˜o de PTDs; ca disponibiliza¸˜o de recursos (ecologia); ca NATools: open-source, escal´vel; a us´vel como um todo ou em partes; a nat-server, nat-create, nat-examplesExtractor, nat-sentenceAligner, nat-codify, nat-grep, nat-ngrams, nat-StarDict, . . . Makefile::Parallel Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca
  • 37. http://natools.sf.net/ http://natura.di.uminho.pt/ http://search.cpan.org/dist/Makefile-Parallel/ Alberto Sim˜es o Extrac¸˜o de Recursos de Tradu¸˜o ca ca