Sintetizadores leitores reconhecimento_voz

Sintetizadores de Voz/Leitores de
Tela e Reconhecimento de Voz
Leandro Rodrigues Ferreira
lerf05@inf.ufpr.br
22 de novembro de 2006

Sintetizadores de Voz
Texto -> Voz
Leitores de Tela
●Transmitir a linguagem escrita através da
linguagem falada ou em braille

Utilidade
● Acessibilidade => Deficiência Visual e
Auditiva
● Treinos e Terapias

Exemplos
● Windows
– Virtual Vision (Micropower)
– DosVox (UFRJ)
– Jaws (Freedom Scientific)
– Falador

Exemplos Windows
● Virtual Vision (Micropower)
– Ambiente Windows e Office
– Melhor em português
– Rastreamento do mouse
– Preço e suporte no Brasil
– Dispensa sintetizador externo
– Preço: R$700,00
– Multi-idiomas (com o uso de outros
sintetizadores)
– Indicação do foco

Exemplos Windows
● DosVox (NCE – UFRJ)
– roda em modo DOS
– voltado para deficientes visuais
– tecnologia nacional e simples (viabilidade)
– baixo custo ou gratuito (p/ versão reduzida)
– utiliza padrões internacionais de computação

Exemplos Windows
● Jaws (Freedom Scientific)
– Síntese de voz em vários idiomas
– Leitura de menus
– Indicação de fonte
– Simula o mouse (dir. “*” esq. “/”)
– programas de difícil acesso a outros
leitores de tela
– Custo: US$800,00 a US$1200,00

Exemplos Windows
● Falador
– Sintetizador freeware, roda c/ wine (??)
– Apresenta a “boca falada”
– Aprendizado de outros idiomas

Exemplos - Linux
● Festival
– Sintetizador de linha de comando
● Gnopernicus
– Sintetizador/Leitor do Gnome
● Kmouth
– Def. auditivos, em inglês

Reconhecimento de Voz
● Interpretação da falahumana
● Três fases distintas: aquisição do sinal de
voz, extração de parâmetros
(características) e reconhecimento do
padrão (classificação).
● Utilidades:
– Transcrição de texto
– Execução de comandos
– Automação Residencial

● Exemplos Linux:
– cVoiceControl: modo texto
– VoiceCode: voltado a programadores
com LER
● Exemplos Windows:
– FreeSpeech (Philips)
– ViaVoice (IBM)

● Classificação:
– Requerer treinamento
– Reconhecer fala contínua ou
pausadamente (período de silêncio)
– Tamanho do vocábulo

● Funcionamento
– Pouco treinamento, ritmo normal, fala
contínua e amplo vocábulo: 95% a 98%
de acerto.
– Sem treinamento: reconhece número
pequeno de palavras.

● Problemas Técnicos
– Variações da fala
– Ambiente externo
– Segmentação da fala (limitação dos
fonemas)
– Tamanho do vocabulário e
ambigüidades

● Etapas do reconhecimento:
– Trabalho de reconhecimento voltado ao
reconhecimento de padrões.
– Fase de extração de características:
● LPC (Linear Predictive Coding –
Codificação Preditiva Linear, o
modelo mistura Gaussiano)
● FFT (Fast Fourier Transform –
Transformada Rápida de Fourier)

– Fase de extração de características:
● LPC e modelo de mistura Gaussiano:
reconhecimento de locutor (analisa
trato vocal, que é peculiar a cada
pessoa)
● FFT: reconhecimento de palavras
isoladas (abordagem entre sinais em
função das freqüências)

– Fase de classificação
● Problema no tempo de execução
● Métodos matemáticos: alto
processamento
● Tendência a algoritmos inteligentes
(Redes Neurais Artificiais), mais
utilizados em sist. independentes de
locutor

Conclusão
● Sintetizadores/Leitores de tela e
sistemas de reconhecimento de voz
precisam de ajustes.
● Desenvolvimento para Linux ainda é
deficiente.
● Grande crescimento na área.

Referências
● http://www.jornalismo.ufsc.br/acic/acesso/acesso_gr.htm
● http://groups.msn.com/falador/falador.msnw
● http://docs.kde.org/stable/pt/kdebase/userguide/kmouth.html
● http://docs.kde.org/stable/pt/kdebase/userguide/ktts.html
● http://www-usr.inf.ufsm.br/~maicongb/trabalho.html#recon
● http://www.rnp.br/wrnp2/2001/palestras_aplicacao/res_aplic_18.pdf
● http://www.inovacaotecnologica.com.br/noticias/noticia.php?artigo=010
● http://www.speechrecognition.philips.com/index.asp?id=788

Sintetizadores leitores reconhecimento_voz

Recommended

Recommended

More Related Content

Similar to Sintetizadores leitores reconhecimento_voz

Similar to Sintetizadores leitores reconhecimento_voz (20)

Sintetizadores leitores reconhecimento_voz