Contributos das Tecnologias da Língua para a Globalização do Português
Upcoming SlideShare
Loading in...5
×
 

Contributos das Tecnologias da Língua para a Globalização do Português

on

  • 300 views

Colóquio "O Português, Língua Global", CELUM - Universidade do Minho

Colóquio "O Português, Língua Global", CELUM - Universidade do Minho

Statistics

Views

Total Views
300
Views on SlideShare
298
Embed Views
2

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 2

http://www.linkedin.com 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Contributos das Tecnologias da Língua para a Globalização do Português Contributos das Tecnologias da Língua para a Globalização do Português Presentation Transcript

  • technology from seed CONTRIBUTOS DAS TECNOLOGIA S DA LÍNGUA PARA A GLOBALIZAÇÃO DO PORTUGUÊS Isabel Trancoso Luísa Coheur Anabela Barreiro Laboratório de Sistemas de Língua Falada (L2F) Colóquio Português Língua Global Centro de Estudos Lusíadas da Universidade do Minho 15 de novembro de 2013
  • Equipa www.l2f.inesc-id-pt 2
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 3
  • Transcrição Multimédia 4
  • Transcrição Multimédia • O que é? A transcrição enriquecida é muito mais que a simples conversão fala  texto Há que incluir pontuação, capitalização, informação sobre mudança de orador, tópico, língua, sotaque, emoção … • Como funciona? Segmentação áudio + Reconhecimento + Pontuação + Capitalização + … • Alguns desafios: • • • • • Fala espontânea Ruído ambiente / distância ao microfone Sotaques muito marcados Palavras fora do vocabulário Domínios: Noticiários, aulas, reuniões, tribunais, … 5
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 6
  • O projecto FALACOMIGO • O que é? Projecto QREN, que teve como um dos alvos a criação de um agente que responde a perguntas sobre Monserrate • Como funciona? Reconhecimento + Compreensão de Língua Natural + Síntese áudio-visual • Alguns desafios: • • Construção da base de Conhecimento Variabilidade Linguística 7
  • O agente virtual Edgar Smith 8
  • Fala Comigo em Monserrate 9
  • Parceiros 10
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 11
  • O projecto PT-STAR • O que é? Projecto em cooperação com a CMU, que teve como alvo a tradução de fala para fala de e para Português • Como funciona? Reconhecimento + Tradução Automática + Síntese • Alguns desafios: – Adaptação ao domínio – Erros de reconhecimento 12
  • Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  • Como funciona? Tradução de Centauri para Arcturan [Knight 97] Traduzir para Arcturan: farok crrrok hihok yorok clok kantok ok-yurp 1a. ok-voon ororok sprok . 7a. lalok farok ororok lalok sprok izok enemok . 1b. at-voon bichat dat . 7b. wat jjat bichat wat dat vat eneat . 2a. ok-drubel ok-voon anok plok sprok . 8a. lalok brok anok plok nok . 2b. at-drubel at-voon pippat rrat dat . 8b. iat lat pippat rrat nnat . 3a. erok sprok izok hihok ghirok . 9a. wiwok nok izok kantok ok-yurp . 3b. totat dat arrat vat hilat . 4a. ok-voon anok drok brok jok . 9b. totat nnat quat oloat at-yurp . 10a. lalok mok nok yorok ghirok clok . 4b. at-voon krat pippat sat lat . 5a. wiwok farok izok stok . 10b. wat nnat gat mat bat hilat . 11a. lalok nok crrrok hihok yorok zanzanok . 5b. totat jjat quat cat . 6a. lalok sprok izok jok stok . 11b. wat nnat arrat mat zanzanat . 12a. lalok rarok nok izok hihok mok . 6b. wat dat krat quat cat . 12b. wat nnat forat arrat vat gat .
  • Como funciona? Tradução baseada Modelos de Tradução extraídos de textos paralelos 1a. Garcia and associates . 1b. Garcia e associados . 7a. the clients and the associates are enemies . 7b. os clientes e os associados são inimigos . 2a. Carlos Garcia has three associates . 2b. Carlos Garcia tem três associados . 8a. the company has three groups . 8b. a empresa tem três grupos . 3a. his associates are not strong . 3b. os seus associados não são fortes . 9a. its groups are in Europe . 9b. os seus grupos estão na Europa . 4a. Garcia has a company also . 4b. Garcia também tem uma empresa . 10a. the modern groups sell strong pharmaceuticals . 10b. os grupos modernos vendem remédios fortes . 5a. its clients are angry . 5b. os seus clientes estão zangados . 11a. the groups do not sell zenzanine . 11b. os grupos não vendem zanzanina . 6a. the associates are also angry . 6b. os associados também estão zangados . 12a. the small groups are not modern . 12b. os grupos pequenos não são modernos .
  • Como funciona? Combinação de Modelos de Língua com Modelos de Tradução ˆ T = argmax fluência(T)fidelidade(T, S) T Modelo de Língua Modelo de Tradução Estou cansado Fluência Fidelidade I’m exhausted 5 3 Tired me 2 5 I love cookies 5 0
  • Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !!
  • Tradução de Microblogs A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! Google Translate To all of you my friend Gabrielzinho present, the video looks so he sent me!
  • Normalização de Microblogs A todos vocês, apresento meu amigo Gabrielzinho, olha só o vídeo que ele me mandou !! Google Translate To all of you, I present my friend Gabrielzinho, look at the video he sent me!
  • Vale a pena traduzir tweets? 【2013.9.7】It was an important result for #Portugal in a very special date for me. I would like to dedicate this victory to my father that has left us 8 years ago. 这是一场 重要的胜利,在今天这个对我来说很特别的日子.我要把 这场胜利献给我的父亲,他八年前离开了我们. A todos vocês apresento meu amigo Gabrielzinho, olha so o vídeo que ele me mandou !! | To all of you i introduce my friend Gabrielzinho. Take a look at the vídeo he sent me !! | 我给你们所有人介绍我朋友Gabrielzinho. 看看他给我发来 的视频 !! http://t.cn/SyaY6a
  • Desafios à Tradução Automática – Tradução automática - não é um problema resolvido – Aproximações ao problema: • Sistemas estatísticos (SMT) - enormes quantidades de corpora paralelos (inexistentes ou de má qualidade para muitas línguas) • Sistemas por regras (RBMT) - grande investimento de tempo e recursos humanos (= dinheiro) – Novas linhas de investigação – construção de sistemas híbridos: • Aplicação de modelos estatísticos a conhecimento linguístico • Aplicação de técnicas estatísticas de alinhamento a sistemas de regras
  • Modelo híbrido de Tradução Automática (em curso) – Novas tecnologias, recursos e técnicas, que contribuem para um desenvolvimento mais fácil e rápido de novos pares de línguas. • Computação em nuvem • Grandes volumes de dados (big data ) • Técnicas avançadas de alinhamento Aprendizagem automática • Inteligência coletiva (crowdsourcing) especializada para aumentar a qualidade da TA
  • Modelo híbrido de Tradução Automática (em curso) OpenLogos • Alta qualidade, grande ênfase na semântica (análise da língua de forma a ser “entendida” pelo sistema computacional) • A aproximação assemelha-se em espírito à aproximação estatística - as regras são aplicadas com base em padrões em contexto • Componente de regras e representação linguística - plataforma ideal para um sistema híbrido de TA linguisticamente mais sofisticado • O conhecimento linguístico envolvido no sistema permite complementar a TA estatística colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.
  • Modelo híbrido de Tradução Automática (em curso) – Processamento semântico • Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais – Características de interlíngua – Linguagem de Abstração Semântico-Sintática (representação SAL) • Taxonomia hierárquica com características ontológicas • SAL é a força motriz do processo de tradução no sistema OpenLogos • Todas as frases da língua natural (LN) que entram no sistema são imediatamente convertidas para frases SAL • O parser consegue melhores resultados do que um analisador puramente sintático devido à SAL
  • Modelo híbrido de Tradução Automática (em curso) SAL - Semantico-syntactic Abstraction Language Taxonomia SAL: 3 níveis, organizados hierarquicamente Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets) Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS) • • • • • • Palavra: Morfema raíz: SAL Subset: SAL Set: SAL Superset: Categoria: airport port Agfunc (agentive functional location) func (functional location) PL (place) N Tanto o fluxo de entrada, como as regras são expressas em SAL
  • Modelo híbrido de Tradução Automática (em curso) Linguagem de representação SAL em interação com SEMTAB SEMTAB possibilita uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise” Sequência LN Regra SEMTAB raise a child raise corn raise the rent  V(‘raise’) N(ANdes)  V(‘raise’) N(MAedib)  V(‘raise’) N(MEabs) Tradução em Português    criar. . . cultivar. . . aumentar. . .
  • Modelo híbrido de Tradução Automática (em curso) Uma única regra em estrutura profunda é mapeada a múltiplas estruturas de superfície e produz traduções corretas na língua-alvo he raised the rent  ele aumentou a renda V+Objecto the raising of the rent the rent, raised by … a rent raise    o aumento da renda a renda, aumentada por… um aumento de renda Gerúndio ADJ Part. Substantivo 27
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 28
  • O projecto VITHEA • O que é? Terapeuta virtual para doentes com afasia. Projecto financiado pela FCT, em conjunto com o Hospital de Santa Maria • Como funciona? Reconhecimento (keyword spotting ) + Síntese A/V • Alguns desafios: – Dar aos terapeutas a possibilidade de monitorizarem remotamente os exercícios dos seus doentes – Dar-lhes a possibilidade de criarem novos exercícios – Alargar a outras doenças (Alzheimer, Parkinson, ALS,…) 29
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 32
  • O projecto REAP.PT • O que é? Aplicação das tecnologias da língua à área do ensino da língua. Projecto financiado pela FCT, em conjunto com a Univ. Carnegie Mellon • Como funciona? Usa virtualmente TODAS as tecnologias da língua • Alguns desafios: Tutores inteligentes para ensinar outras matérias Gamificação 33
  • REAP.PT . 34
  • REAP.PT Cooperação com Carnegie Mellon Univ. 35
  • Jogos sérios 36
  • Jogos sérios A B C D E 37
  • L2F Transcrição Multimedia Ensino à distância E-Learning Saúde à distância E-Health Diálogo Tradução Fala-parafala Texto 39
  • Obrigada! 40