Sistema comunicacion oral_personas_sordas

638
-1

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
638
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Sistema comunicacion oral_personas_sordas

  1. 1. Sistema de Comunicación Oral para Personas Sordas Grupo de Tecnología del Habla – Universidad Politécnica de Madrid Fundación CNSE
  2. 2. ÍNDICE <ul><li>INTRODUCCIÓN </li></ul><ul><li>ESTADO DE LA CUESTIÓN </li></ul><ul><li>BASE DE DATOS </li></ul><ul><li>TRADUCCIÓN DE VOZ A LENGUA DE SIGNOS ESPAÑOLA (LSE) </li></ul><ul><li>GENERACIÓN DE VOZ A PARTIR DE LSE </li></ul><ul><li>EVALUACIÓN </li></ul><ul><li>CONCLUSIONES </li></ul>
  3. 3. INTRODUCCIÓN <ul><li>1.064.000 personas sordas en España </li></ul><ul><li>92% tiene dificultad para entender y expresarse en castellano escrito </li></ul><ul><li>Problemas en tareas de la vida cotidiana (relaciones sociales, acceso a la información, servicios públicos, etc.) </li></ul><ul><li>Comunidad Sorda: personas sordas que utilizan la Lengua de Signos para comunicarse </li></ul><ul><li>Desde 2007, la LSE es una lengua oficial en España </li></ul><ul><li>Plan del Gobierno para invertir en recursos en LSE </li></ul><ul><li>Proyecto desarrollado por el GTH en colaboración con la Fundación CNSE </li></ul><ul><ul><li>Objetivo : Diseño, desarrollo y evaluación de una sistema avanzado de comunicación bidireccional entre una persona oyente y una persona sorda. </li></ul></ul><ul><ul><li>Ámbito de aplicación : servicio de atención personal de la administración </li></ul></ul><ul><ul><ul><li>renovación del permiso de conducir </li></ul></ul></ul>
  4. 4. ESTADO DEL ARTE <ul><li>Corpus generados en lengua de signos : </li></ul><ul><ul><li>300 horas de 100 signantes grabadas en lengua de signos australiana (T. Johnston, 2008) </li></ul></ul><ul><ul><li>base de datos RWTH-BOSTON-400 en lengua de signos americana (Dreuw et al., 2008) </li></ul></ul><ul><ul><li>British Sign Language Corpus (Schembri, 2008) </li></ul></ul><ul><ul><li>corpus desarrollado en el Institute for Language and Speech Processing en lengua de signos griega (Efthimiou E., y Fotinea, E., 2008) </li></ul></ul><ul><ul><li>… </li></ul></ul><ul><li>Traducción de habla natural </li></ul><ul><ul><li>España: AVIVAVOZ (http://www.avivavoz.es) </li></ul></ul><ul><ul><li>Europa: C-Star, ATR, Vermobil, Eutrans, LC-Star, PF-Star y TC_STAR </li></ul></ul><ul><ul><li>EEUU: programa GALE </li></ul></ul><ul><ul><li>… </li></ul></ul><ul><li>Traducción a lengua de signos : </li></ul><ul><ul><li>basada en ejemplos (Morrissey y Way, 2005) </li></ul></ul><ul><ul><li>basada en reglas (San-Segundo, 2008) </li></ul></ul><ul><ul><li>Basada en frases completas (Cox et al, 2002 ) </li></ul></ul><ul><ul><li>métodos estadísticos (Bungeroth y Ney, 2004; Morrissey et al, 2007; sistema SiSi de IBM ) </li></ul></ul><ul><ul><li>… </li></ul></ul>
  5. 5. BASE DE DATOS <ul><li>Renovación del permiso de conducir (entrevistas con funcionarios) </li></ul><ul><li>Traducción a LSE (glosas) por parte de personas sordas </li></ul><ul><li>Videos de las frases en LSE </li></ul><ul><li>Ampliación del número de frases iniciales en el GTH (más de 2000 frases finalmente) </li></ul><ul><li>Base datos signos en varias notaciones: </li></ul><ul><ul><li>Glosas </li></ul></ul><ul><ul><li>Hamnosys </li></ul></ul><ul><ul><li>SEA </li></ul></ul><ul><ul><li>SIGML </li></ul></ul>133 294 Vocabulario 2,283 3,130 Palabras 93 389 Frases diferentes 483 Pares de frases LSE Castellano Usuarios 237 527 Vocabulario 12,741 17,113 Palabras 199 1,413 Frases diferentes 1,641 Pares de frases LSE Castellano Funcionario
  6. 6. TRADUCCIÓN DE VOZ A LSE <ul><li>3 módulos: </li></ul><ul><ul><li>Reconocedor de voz </li></ul></ul><ul><ul><ul><li>Basado en HMMs </li></ul></ul></ul><ul><ul><ul><li>Habla continua </li></ul></ul></ul><ul><ul><ul><li>Independiente del locutor </li></ul></ul></ul><ul><ul><ul><li>Desarrollado en el GTH-UPM </li></ul></ul></ul><ul><ul><li>Traducción: palabras a signos </li></ul></ul><ul><ul><li>Representación de los signos </li></ul></ul><ul><ul><ul><li>agente animado Virtual Guido: proyecto europeo eSIGN </li></ul></ul></ul>
  7. 7. TRADUCCIÓN DE VOZ A LSE <ul><li>Módulo de traducción: 3 estrategias (estructura jerárquica) </li></ul><ul><ul><li>Basada en ejemplos: </li></ul></ul><ul><ul><ul><li>similitud con el corpus paralelo </li></ul></ul></ul><ul><ul><li>Basada en reglas </li></ul></ul><ul><ul><ul><li>desarrolladas por expertos </li></ul></ul></ul><ul><ul><ul><li>costosa </li></ul></ul></ul><ul><ul><li>Estadística </li></ul></ul><ul><ul><ul><li>menos tiempo y esfuerzo </li></ul></ul></ul>0.8019 8.45 10.11 6.76 BLEU PER SER SR-WER
  8. 8. TRADUCCIÓN DE VOZ A LSE
  9. 9. GENERACIÓN DE VOZ A PARTIR DE LSE <ul><li>3 módulos: </li></ul><ul><ul><li>Interfaz de especificación de signos </li></ul></ul><ul><ul><li>Traducción (análogo al del sistema voz-LSE) </li></ul></ul><ul><ul><li>Conversor texto a voz: </li></ul></ul><ul><ul><ul><li>Conversor comercial Loquendo </li></ul></ul></ul>0.9113 2.25 2.36 BLEU PER WER
  10. 10. GENERACIÓN DE VOZ A PARTIR DE LSE
  11. 11. EVALUACIÓN <ul><li>Jefatura Provincial de Tráfico de Toledo: renovación del permiso de conducir </li></ul><ul><ul><li>2 funcionarios </li></ul></ul><ul><ul><li>10 usuarios sordos </li></ul></ul><ul><ul><li>6 escenarios </li></ul></ul><ul><ul><li>2 días de evaluación </li></ul></ul>
  12. 12. EVALUACIÓN <ul><li>Sistema voz-LSE : medidas objetivas </li></ul><ul><ul><li>Buena tasa reconocimiento de voz </li></ul></ul><ul><ul><li>Buena tasa de traducción </li></ul></ul><ul><ul><li>Trad. Ejemplos en 95% casos: fiabilidad del corpus generado </li></ul></ul>8.4 Número de turnos del funcionario 0.8% % de uso de la traducción estadística 4.3% % de uso de la traducción basada en reglas 94.9% % de uso de la traducción basada en ejemplos 4.7 sec Tiempo de signado 0.0013 sec Tiempo de traducción 3.3 sec Tiempo de reconocimiento 8.9% Tasa de error después de la traducción 4.8% Tasa de error de reconocimiento de habla Valor Medidas objetivas del sistema
  13. 13. EVALUACIÓN <ul><li>Sistema voz-LSE : medidas subjetivas </li></ul><ul><ul><li>Buena valoración funcionario </li></ul></ul><ul><ul><li>Peor valoración usuarios. Problemas: </li></ul></ul><ul><ul><ul><li>Naturalidad del agente animado </li></ul></ul></ul><ul><ul><ul><li>Bajo nivel de estandarización de la LSE </li></ul></ul></ul>3.5 2.2 Valoración global 2.0 ¿Utilizaría el sistema en ausencia de un intérprete? 0.8 El signado es natural 2.2 Comprendo los signos 2.1 Los signos son correctos Usuarios Valoración global 3.5 ¿Utilizaría el sistema en ausencia de un intérprete? 3.5 Facilidad de aprendizaje 3.5 Facilidad de uso 3.5 Tasa de reconocimiento 4.0 Rapidez del sistema Funcionario Valor (0-5) Medidas subjetivas Agente
  14. 14. EVALUACIÓN <ul><li>Sistema LSE-voz : medidas objetivas </li></ul><ul><ul><li>Buena tasa de traducción </li></ul></ul><ul><ul><li>Trad. Ejemplos en 92% casos: fiabilidad del corpus </li></ul></ul>4.0 Número de turnos del usuario 2.6 Número de glosas por turno del usuario 8.6 clicks Número de clicks para añadir una glosa 18.5 sec Tiempo para definir una secuencia de glosas 0.0% % de uso de la traducción estadística 8.1% % de uso de la traducción basada en reglas 91.9% % de uso de la traducción basada en ejemplos 1.7 sec Tiempo para conversión texto a voz 0,001 sec Tiempo de traducción 2.0% Tasa de error de traducción Valor Medidas objetivas del sistema
  15. 15. EVALUACIÓN <ul><li>Sistema LSE-voz : medidas subjetivas </li></ul><ul><ul><li>Buena valoración funcionario </li></ul></ul><ul><ul><li>Usuarios: </li></ul></ul><ul><ul><ul><li>Buena valoración interfaz, aunque compleja. </li></ul></ul></ul><ul><ul><ul><li>Bajo nivel de estandarización de la LSE </li></ul></ul></ul>3.0 Valoración global 2.8 ¿Utilizaría el sistema en ausencia de un intérprete? 2.6 ¿Hay suficientes glosas? 2.4 Facilidad de aprendizaje 3.2 Rapidez del sistema Usuarios 4.0 Valoración global 4.0 ¿Utilizaría el sistema en ausencia de un intérprete? 3.0 Naturalidad de la voz 4.0 Inteligibilidad de las frases Funcionario Valor (0-5) Medidas subjetivas Agente
  16. 16. CONCLUSIONES <ul><li>Desarrollo de un sistema de comunicación bidireccional para personas sordas </li></ul><ul><ul><li>voz-LSE </li></ul></ul><ul><ul><li>LSE-voz </li></ul></ul><ul><ul><li>Dominio de aplicación: renovación del permiso de conducir </li></ul></ul><ul><li>Generación del primer corpus paralelo entre castellano y LSE para un dominio concreto </li></ul><ul><li>Evaluación en un entorno real </li></ul><ul><ul><li>Muy buenas tasas de traducción y reconocimiento </li></ul></ul><ul><ul><li>Funcionario </li></ul></ul><ul><ul><ul><li>Buena valoración en todos los aspectos </li></ul></ul></ul><ul><ul><li>Usuarios: hay que mejorar </li></ul></ul><ul><ul><ul><li>Naturalidad del avatar </li></ul></ul></ul><ul><ul><ul><li>Complejidad de la interfaz </li></ul></ul></ul><ul><ul><ul><li>Problemas relacionados con la normalización de la LSE </li></ul></ul></ul>
  17. 17. ¿PREGUNTAS?
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×