technology
from seed

CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA
PARA A GLOBALIZAÇÃO DO PORTUGUÊS
Isabel Trancoso

Luísa Coheu...
Equipa

www.l2f.inesc-id-pt
2
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
Transcrição Multimédia

4
Transcrição Multimédia
• O que é?
A transcrição enriquecida é muito mais que a simples conversão
fala  texto
Há que inclu...
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
O projecto FALACOMIGO
• O que é?
Projecto QREN, que teve como
um dos alvos a criação de um
agente que responde a perguntas...
O agente virtual Edgar Smith

8
Fala Comigo em Monserrate

9
Parceiros

10
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
O projecto PT-STAR
• O que é?
Projecto em cooperação com a CMU, que teve como alvo a tradução de
fala para fala de e para ...
Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok...
Como funciona?
Tradução de Centauri para Arcturan [Knight 97]
Traduzir para Arcturan: farok crrrok hihok yorok clok kantok...
Como funciona?
Tradução baseada Modelos de Tradução
extraídos de textos paralelos
1a. Garcia and associates .
1b. Garcia e...
Como funciona?
Combinação de Modelos de Língua com Modelos
de Tradução
ˆ
T = argmax fluência(T)fidelidade(T, S)
T

Modelo ...
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Tradução de Microblogs
A todos vocês apresento meu amigo Gabrielzinho, olha so o
vídeo que ele me mandou !!
Google
Transla...
Normalização de Microblogs
A todos vocês, apresento meu amigo Gabrielzinho, olha só o
vídeo que ele me mandou !!
Google
Tr...
Vale a pena traduzir tweets?
【2013.9.7】It was an important result for #Portugal in a
very special date for me. I would lik...
Desafios à Tradução Automática
– Tradução automática - não é um problema resolvido
– Aproximações ao problema:
• Sistemas ...
Modelo híbrido de Tradução Automática
(em curso)
– Novas tecnologias, recursos e técnicas, que contribuem para um
desenvol...
Modelo híbrido de Tradução Automática
(em curso)
OpenLogos
• Alta qualidade, grande ênfase na semântica (análise da língua...
Modelo híbrido de Tradução Automática
(em curso)
– Processamento semântico
• Tabela Semântica (= SEMTAB) contém milhares d...
Modelo híbrido de Tradução Automática
(em curso)
SAL - Semantico-syntactic Abstraction Language

Taxonomia SAL: 3 níveis, ...
Modelo híbrido de Tradução Automática
(em curso)
Linguagem de representação SAL em interação com SEMTAB
SEMTAB possibilita...
Modelo híbrido de Tradução Automática
(em curso)

Uma única regra em estrutura profunda é mapeada a múltiplas
estruturas d...
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
O projecto VITHEA
• O que é?
Terapeuta virtual para doentes com afasia.
Projecto financiado pela FCT, em conjunto com o
Ho...
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
O projecto REAP.PT
• O que é?
Aplicação das tecnologias da língua à área do ensino da língua.
Projecto financiado pela FCT...
REAP.PT
.

34
REAP.PT
Cooperação com Carnegie Mellon Univ.

35
Jogos sérios

36
Jogos sérios
A

B

C

D

E

37
L2F

Transcrição
Multimedia

Ensino à
distância
E-Learning

Saúde à
distância
E-Health

Diálogo

Tradução
Fala-parafala
Te...
Obrigada!

40
Upcoming SlideShare
Loading in …5
×

Contributos das Tecnologias da Língua para a Globalização do Português

377 views

Published on

Colóquio "O Português, Língua Global", CELUM - Universidade do Minho

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
377
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Contributos das Tecnologias da Língua para a Globalização do Português

  1. 1. technology from seed CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA PARA A GLOBALIZAÇÃO DO PORTUGUÊS Isabel Trancoso Luísa Coheur Anabela Barreiro Laboratório de Sistemas de Língua Falada (L2F) Colóquio Português Língua Global Centro de Estudos Lusíadas da Universidade do Minho 15 de novembro de 2013
  2. 2. Equipa www.l2f.inesc-id-pt 2
  3. 3. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 3
  4. 4. Transcrição Multimédia 4
  5. 5. Transcrição Multimédia • O que é? A transcrição enriquecida é muito mais que a simples conversão fala  texto Há que incluir pontuação, capitalização, informação sobre mudança de orador, tópico, língua, sotaque, emoção … • Como funciona? Segmentação áudio + Reconhecimento + Pontuação + Capitalização + … • Alguns desafios: • • • • • Fala espontânea Ruído ambiente / distância ao microfone Sotaques muito marcados Palavras fora do vocabulário Domínios: Noticiários, aulas, reuniões, tribunais, … 5
  6. 6. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 6
  7. 7. O projecto FALACOMIGO • O que é? Projecto QREN, que teve como um dos alvos a criação de um agente que responde a perguntas sobre Monserrate • Como funciona? Reconhecimento + Compreensão de Língua Natural + Síntese áudio-visual • Alguns desafios: • • Construção da base de Conhecimento Variabilidade Linguística 7
  8. 8. O agente virtual Edgar Smith 8
  9. 9. Fala Comigo em Monserrate 9
  10. 10. Parceiros 10
  11. 11. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 11
  12. 12. O projecto PT-STAR • O que é? Projecto em cooperação com a CMU, que teve como alvo a tradução de fala para fala de e para Português • Como funciona? Reconhecimento + Tradução Automática + Síntese • Alguns desafios: – Adaptação ao domínio – Erros de reconhecimento 12
  13. 13. Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  14. 14. Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  15. 15. Como funciona? Tradução baseada Modelos de Tradução extraídos de textos paralelos 1a. Garcia and associates . 1b. Garcia e associados . 7a. the clients and the associates are enemies . 7b. os clientes e os associados são inimigos . 2a. Carlos Garcia has three associates . 2b. Carlos Garcia tem três associados . 8a. the company has three groups . 8b. a empresa tem três grupos . 3a. his associates are not strong . 3b. os seus associados não são fortes . 9a. its groups are in Europe . 9b. os seus grupos estão na Europa . 4a. Garcia has a company also . 4b. Garcia também tem uma empresa . 10a. the modern groups sell strong pharmaceuticals . 10b. os grupos modernos vendem remédios fortes . 5a. its clients are angry . 5b. os seus clientes estão zangados . 11a. the groups do not sell zenzanine . 11b. os grupos não vendem zanzanina . 6a. the associates are also angry . 6b. os associados também estão zangados . 12a. the small groups are not modern . 12b. os grupos pequenos não são modernos .
  16. 16. Como funciona? Combinação de Modelos de Língua com Modelos de Tradução ˆ T = argmax fluência(T)fidelidade(T, S) T Modelo de Língua Modelo de Tradução Estou cansado Fluência Fidelidade I’m exhausted 5 3 Tired me 2 5 I love cookies 5 0
  17. 17. Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !!
  18. 18. Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! Google Translate To all of you my friend Gabrielzinho present, the video looks so he sent me!
  19. 19. Normalização de Microblogs A todos vocês, apresento meu amigo Gabrielzinho, olha só o vídeo que ele me mandou !! Google Translate To all of you, I present my friend Gabrielzinho, look at the video he sent me!
  20. 20. Vale a pena traduzir tweets? 【2013.9.7】It was an important result for #Portugal in a very special date for me. I would like to dedicate this victory to my father that has left us 8 years ago. 这是一场 重要的胜利,在今天这个对我来说很特别的日子.我要把 这场胜利献给我的父亲,他八年前离开了我们. A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! | To all of you i introduce my friend Gabrielzinho. Take a look at the vídeo he sent me !! | 我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来 的视频 !! http://t.cn/SyaY6a
  21. 21. Desafios à Tradução Automática – Tradução automática - não é um problema resolvido – Aproximações ao problema: • Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos (inexistentes ou de má qualidade para muitas línguas) • Sistemas por regras (RBMT) - grande investimento de tempo e recursos humanos (= dinheiro) – Novas linhas de investigação – construção de sistemas híbridos: • Aplicação de modelos estatísticos a conhecimento linguístico • Aplicação de técnicas estatísticas de alinhamento a sistemas de regras
  22. 22. Modelo híbrido de Tradução Automática (em curso) – Novas tecnologias, recursos e técnicas, que contribuem para um desenvolvimento mais fácil e rápido de novos pares de línguas. • Computação em nuvem • Grandes volumes de dados (big data ) • Técnicas avançadas de alinhamento Aprendizagem automática • Inteligência coletiva (crowdsourcing) especializada para aumentar a qualidade da TA
  23. 23. Modelo híbrido de Tradução Automática (em curso) OpenLogos • Alta qualidade, grande ênfase na semântica (análise da língua de forma a ser “entendida” pelo sistema computacional) • A aproximação assemelha-se em espírito à aproximação estatística - as regras são aplicadas com base em padrões em contexto • Componente de regras e representação linguística - plataforma ideal para um sistema híbrido de TA linguisticamente mais sofisticado • O conhecimento linguístico envolvido no sistema permite complementar a TA estatística colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.
  24. 24. Modelo híbrido de Tradução Automática (em curso) – Processamento semântico • Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais – Características de interlíngua – Linguagem de Abstração Semântico-Sintática (representação SAL) • Taxonomia hierárquica com características ontológicas • SAL é a força motriz do processo de tradução no sistema OpenLogos • Todas as frases da língua natural (LN) que entram no sistema são imediatamente convertidas para frases SAL • O parser consegue melhores resultados do que um analisador puramente sintático devido à SAL
  25. 25. Modelo híbrido de Tradução Automática (em curso) SAL - Semantico-syntactic Abstraction Language Taxonomia SAL: 3 níveis, organizados hierarquicamente Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets) Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS) • • • • • • Palavra: Morfema raíz: SAL Subset: SAL Set: SAL Superset: Categoria: airport port Agfunc (agentive functional location) func (functional location) PL (place) N Tanto o fluxo de entrada, como as regras são expressas em SAL
  26. 26. Modelo híbrido de Tradução Automática (em curso) Linguagem de representação SAL em interação com SEMTAB SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise” Sequência LN Regra SEMTAB raise a child raise corn raise the rent  V(‘raise’) N(ANdes)  V(‘raise’) N(MAedib)  V(‘raise’) N(MEabs) Tradução em Português    criar. . . cultivar. . . aumentar. . .
  27. 27. Modelo híbrido de Tradução Automática (em curso) Uma única regra em estrutura profunda é mapeada a múltiplas estruturas de superfície e produz traduções corretas na língua-alvo he raised the rent  ele aumentou a renda V+Objecto the raising of the rent the rent, raised by … a rent raise    o aumento da renda a renda, aumentada por… um aumento de renda Gerúndio ADJ Part. Substantivo 27
  28. 28. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 28
  29. 29. O projecto VITHEA • O que é? Terapeuta virtual para doentes com afasia. Projecto financiado pela FCT, em conjunto com o Hospital de Santa Maria • Como funciona? Reconhecimento (keyword spotting ) + Síntese A/V • Alguns desafios: – Dar aos terapeutas a possibilidade de monitorizarem remotamente os exercícios dos seus doentes – Dar-lhes a possibilidade de criarem novos exercícios – Alargar a outras doenças (Alzheimer, Parkinson, ALS,…) 29
  30. 30. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 32
  31. 31. O projecto REAP.PT • O que é? Aplicação das tecnologias da língua à área do ensino da língua. Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon • Como funciona? Usa virtualmente TODAS as tecnologias da língua • Alguns desafios: Tutores inteligentes para ensinar outras matérias Gamificação 33
  32. 32. REAP.PT . 34
  33. 33. REAP.PT Cooperação com Carnegie Mellon Univ. 35
  34. 34. Jogos sérios 36
  35. 35. Jogos sérios A B C D E 37
  36. 36. L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 39
  37. 37. Obrigada! 40

×