Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

TDNN for speech recognition

1,182 views

Published on

Presentación de Víctor González para la asignatura Técnicas de Inteligencia Artificial con Inspiración Biológica del Máster en Ciencia y Tecnología Informática.

En la presentación se habla de un Paper de Waibel (1989) sobre Redes Neuronales de Retardo Temporal (TDNN) para el reconocimiento de voz.

Published in: Education
  • Be the first to comment

  • Be the first to like this

TDNN for speech recognition

  1. 1. Time Delay Neural Networks for Speech Recognition Víctor González Pacheco Técnicas de IA con Inspiración Biológica Máster en Ciencia y Tecnología Informática Enero 2009
  2. 2. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2
  3. 3. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3
  4. 4. Introducción Redes Neuronales “clásicas”  Clasificación − Patrones no variables en el tiempo − ¿Cómo clasifico patrones variables en el  tiempo? Time-Delay Neural Networks − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4
  5. 5. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5
  6. 6. Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989)  Reconocimiento de Fonemas  Clasificación de los fonemas /b, d, g/ en japonés − Red Neuronal construida  3 capas − Cada capa enlaza una serie de “celdas” de − retardo temporal Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6
  7. 7. Arquitectura interna de una Celda Cada celda de entrada aplica una función  sigmoide a N ∗ K ١ pesos N =Número de características del vector f(t) − K = Número de vectores retrasados − La entrada se compone de  K+1 vectores {fj(t),...,fj(t-k),...,fj(t-K)} − Con características 1 ≤ j ≤ N − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7
  8. 8. Arquitectura Interna de una Celda K = vectores retrasados  N = Características vector  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8
  9. 9. Arquitectura de la TDNN Clasificación fonemas /b, d, g/  Entrada de la red N=16, K=2  Las celdas de la 1ª capa oculta − No reciben datos hasta que hay 3 vectores  Vectores separados 10ms  1ª capa oculta genera datos a los 30ms − Genera salidas cada 10ms − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9
  10. 10. Arquitectura de la TDNN 1ª capa oculta  8 celdas organizadas en una columna − Celdas totalmente conect. a las 16 celdas de la capa de entrada − Generan salida con 3 vectores de la capa de entrada − 2ª capa oculta  3 celdas por columna − Totalmente conectadas a las 8 celdas de la 1ª capa oculta − Generan salida con 5 vectores de la 1ª C.O. − Capa de salida  3 celdas de salida (/b,d,g/) − Conectadas a sólo 1 celda de la 2ª C.O. − Salida con 9 vectores de la 2ª C.O. − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10
  11. 11. Arquitectura de la TDNN Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11
  12. 12. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12
  13. 13. Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/)  3 anunciantes profesionales (800 fonemas  por hablante) Red neuronal entrenada para cada  hablante Sonidos proporcionaban 15 vectores  espaciados 10ms. Fiabilidad de la red 98,5%  Otros métodos (HMM): 93,5%  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13
  14. 14. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14
  15. 15. Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones  difíciles Contextos fonéticos varían según palabras  Posicionamiento de la boca varía para − fonemas según sus fonemas anteriores y posteriores Clasificación del fonema /d/  /da/ − /do/ − Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15
  16. 16. Interpretación de la representación espacio-temporal de una TDNN Input Layer  /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16
  17. 17. Interpretación de la representación espacio-temporal de una TDNN 1ª C.O. 2ª C.O. /do/ /da/ Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17
  18. 18. Interpretación de la representación espacio-temporal de una TDNN Varianza temporal  ±30ms − /do/  +30ms -30ms Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18
  19. 19. Índice Introducción  Arquitectura de una TDNN  Aplicación a clasificación de Fonemas  Interpretación de la representación espacio-  temporal de una TDNN Conclusiones  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19
  20. 20. Resumen Método eficiente (98,5% en las pruebas)  Robusto  Variaciones contextuales − Variaciones temporales − Otras pruebas realizadas mejoran  métodos anteriores en diferentes contextos. Difícil escalar para vocabularios extensos  Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20
  21. 21. Referencias [1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328- 339 [2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242. Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21
  22. 22. Gracias por su atención Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22

×