Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução

  • 342 views
Uploaded on

Apresentação do Dr. Félix do Carmo e do Dr. Luís Trigo na I Conferência Internacional de Tradução e Tecnologia, 13 e 14 de Maio, Faculdade de Letras do Porto.

Apresentação do Dr. Félix do Carmo e do Dr. Luís Trigo na I Conferência Internacional de Tradução e Tecnologia, 13 e 14 de Maio, Faculdade de Letras do Porto.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
342
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
19
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. O que querem os tradutores dasmáquinas de tradução?Félix do Carmo (TIPS e CLUP) e Luís Trigo (CLUP e INESC)Faculdade de Letras do Porto Maio 2013
  • 2. Plano• A tradução é uma corrida• E as máquinas correm mais do que nós• Diferentes formas de inteligência• Diferentes papéis e formas de interacção• O que querem os tradutores• Sugestões e soluções tecnológicas
  • 3. A tradução é uma corridaE as máquinas correm mais do que nós
  • 4. A tradução já não é o que eraClicar aqui para referência.
  • 5. A tradução é uma corrida• Volumes, capacidades, métricas, bitolas, tempo,dinheiro…• A importância das ferramentas de produtividadeOnde fica a qualidade?• A qualidade deixou de ser discutida em termos desubjectividade.• A qualidade é objectiva e mensurável:• A medida é a tradução humana.• A responsabilidade pela qualidade é dos tradutores.
  • 6. E as máquinas correm muito…Apesar de …• O Google Translate poluir a água do seu próprio poço (recolhe, alinha e inserenos modelos de aprendizagem traduções produzidas automaticamente) (clicaraqui para referência);• Ter atingido o limite de aumento de qualidade: a duplicação dos (biliões de)dados produz só uma melhoria de 0,5% nos índices BLEU (referência);• Apenas 1% das necessidades mundiais de tradução profissional são satisfeitaspor tradução automática (referência)…Os números não mentem…• A tradução automática traduz 195 vezes mais depressa do que uma pessoa(referência);• O Google Translate traduz todos os dias 1 milhão de livros por dia (o mesmoque todos os tradutores do mundo fazem num ano) (referência).
  • 7. Diferentes formas deinteligênciaDiferentes papéis e formas de interacção
  • 8. Inteligência artificial e tradução• Tradução automática estatística – Aplicação de princípios daInteligência artificial• Modelo de aprendizagem de línguas pelo reconhecimento deunidades mínimas e reutilização nos contextos certos• Produz modelos descritivos de duas línguas e da tradução entre elas• Integração de conhecimento linguístico (anotação morfológica,sintática e semântica) em modelos factorizados• Algoritmos eficientes de pesquisa em campos de pesquisa comvárias dimensões• Algoritmos de smoothing e pruning (duas técnicas de limpeza dosdados)
  • 9. Ferramentas de tradução• CATs comerciais que podem receber dados de TA:• SDL Studio, DéjàVu, memoQ, OmegaT, etc…• Ferramentas comerciais de TA por regras (ou híbridas):• Systran, ProMT…• Serviços empresariais baseados em TA estatística:• Asia Online, Prompsit, Pangeanic…• Plataformas online de acesso livre:• OpenTrad (regras); Google Translate, Bing Translator, etc…• Interfaces de pós-edição de TA online:• Google Translator Toolkit, KantanMT…• Ferramentas de pós-edição de TA estatística:• PET (Universidade de Sheffield)
  • 10. Fazer depressa e bem2 modelos de interacção:máquina/homem OU homem/máquina• Modelo de pós-edição (máquina/homem)• A máquina produz rapidamente e em quantidade• O homem corrigeRisco: tradução voluntária e gratuita (modelo da “computação humana”)• Modelo de produtividade (homem/máquina)• TA como ferramenta de produtividade para tradução humana
  • 11. Modelo de produtividade• O que faz um tradutor?• PESQUISA• DECIDE• ESCREVE/EDITA• VERIFICA• As CATs auxiliam e são eficientes nestas tarefas?• Limites dos segmentos e das bases de dados terminológicas• Limites das funções de verificação de qualidade (QA) – números,pontuação e pouco mais…• Que suporte dão à revisão?
  • 12. Papel da máquina• Em que são úteis os métodos estatísticos?• Classificar e ordenar dados linguísticos• Identificar agrupamentos de textos• Encontrar correspondências com extensões variáveis em grandesvolumes de dados• Aprender operações e repeti-las
  • 13. O que querem ostradutoresSugestões e soluções tecnológicas
  • 14. Do que precisamos?• Uma nova geração de ferramentas CAT que:• Facilitem a gestão do conhecimento• Classifiquem e ordenem dados linguísticos• Identifiquem agrupamentos de textos• Encontrem correspondências com extensões variáveis em grandes volumesde dados• Auxiliem as tarefas repetitivas de correcção• Aprendam operações executadas e lhes dêem suporte• Projectos de investigação destas ferramentas:• Caitra; MateCAT; CasmaCAT; QTLaunchPad; EXPERT…
  • 15. Duas áreas tecnológicas• Gestão contextual do conhecimento• PESQUISAR e DECIDIR• Organização automática do conhecimento textualrecolhido e produzido• Aprendizagem de edição• EDITAR e VERIFICAR• Ferramentas que aprendem as nossas correcções
  • 16. Contextualização, please!• PESQUISAR e DECIDIR• E se houvesse uma tecnologia que apenas pela análiseestatística separasse na nossa TM de “Informática” ostextos e os segmentos de “software de contabilidade” dosque pertencem a “manuais de utilizador de impressoras”?• E que agrupasse as nossas pesquisas na web, em núcleosde referências temáticas?• Essa tecnologia existe.
  • 17. Information Retrieval• Segmentação de termos• Extracção de domínios para treino de modelos detradução e línguas• Procura automática - grafos de dependências determos• Extracção automática de tópicos através dasemelhança entre os termos, por Clustering deDocumentos e Termos, Análise da Semântica Latente(LSA) e Relevance Feedback
  • 18. Information Extraction• Segmentação de termos• Reconhecimento de entidades nomeadas• Procura• Extracção automática de ontologias(aproveitando os grafos de dependênciasextraídos com Information Retrieval)
  • 19. Mapas visuais de recursos• Information Retrieval• Clustering de Documentos eTermos• Expansão/colapso de clusters• MDS - Multidimensional Scaling• Técnicas estatísticas paravisualização de informaçãoatravés da exploração dassemelhanças nos dados
  • 20. Trabalho em equipa• Gestão de recursos• Identificação de equipas de tradutores erevisores com a mesma especialização• Atribuição de projectos por domínio deespecialização• Integração com ferramentas de gestãoautomática de projectos• Revisão• Identificação de fontes de referência paravalidação das traduções
  • 21. I shall say this only once…• EDITAR e VERIFICAR• E se cada vez que nós corrigimos um sintagma nominal, aferramenta fizesse essa alteração sempre?• E se cada vez que movemos um adjectivo para depois deum substantivo, de cada vez que inserimos um artigo, quemudamos o género de uma ou várias palavras, quemudamos o número de um verbo, ou que inserimos um“que” para criar uma oração subordinada, a ferramentapudesse fazer essa alteração novamente no mesmocontexto?• Yes, they can…
  • 22. Aprendizagem interactiva• Extracção de um modelo estatístico online do texto original• Adicionado aos modelos de tradução e de língua• Identificação de unidades e sub-unidades• Usado como modelo de correcção• À medida que o texto é editado, aprende novos alinhamentossub-segmento e corrige o modelo de tradução• Aplica os alinhamentos aprendidos ao modelo de texto, àmedida que o tradutor avança• Pode ou não adicionar os novos alinhamentos ao modelo detradução global
  • 23. Aprendizagem de edição• Tradução automática interactiva• Projecto Caitra (Universidade de Edimburgo)• Correcção dos alinhamentos com base na edição• PET - Post-editing tool• Editor para pós-edição de tradução automática e avaliaçãohumana das traduções• SMARTedit - Simple MAcro-Recognition Tool editor• Paradigma de programação por demonstração• A aplicação grava operações de edição do utilizador paraposterior aplicação em situações semelhantes
  • 24. Correcção por guias de estiloLanguage Tool• Corrector gramatical e de estilo• Fácil geração de regras• Pode ser definido para cada um dos projectos deedição/tradução• Corrector gramatical com regras em GalegoCoGrOO• Corrector gramatical para OpenOffice com regras PT-BR
  • 25. Conclusões• Neste momento estão a ser desenvolvidas as ferramentas detradução do futuro.• Se os tradutores não participarem na definição do “caderno deencargos”, estas ferramentas vão ter muitos níveis de controlo, maspodem não servir para as necessidades dos tradutores.• Desde que cumpram as 3 leis da robótica, as máquinas são nossasamigas. 
  • 26. Obrigado.Félix do Carmo (TIPS / CLUP)Luís Trigo (CLUP / INESC)