SlideShare a Scribd company logo
1 of 21
Download to read offline
Sintetizadores de Voz/Leitores de
Tela e Reconhecimento de Voz
Leandro Rodrigues Ferreira
lerf05@inf.ufpr.br
22 de novembro de 2006
Sintetizadores de Voz
Texto -> Voz
Leitores de Tela
●Transmitir a linguagem escrita através da
linguagem falada ou em braille
Utilidade
● Acessibilidade => Deficiência Visual e
Auditiva
● Treinos e Terapias
Exemplos
● Windows
– Virtual Vision (Micropower)
– DosVox (UFRJ)
– Jaws (Freedom Scientific)
– Falador
Exemplos Windows
● Virtual Vision (Micropower)
– Ambiente Windows e Office
– Melhor em português
– Rastreamento do mouse
– Preço e suporte no Brasil
– Dispensa sintetizador externo
– Preço: R$700,00
– Multi-idiomas (com o uso de outros
sintetizadores)
– Indicação do foco
Exemplos Windows
● DosVox (NCE – UFRJ)
– roda em modo DOS
– voltado para deficientes visuais
– tecnologia nacional e simples (viabilidade)
– baixo custo ou gratuito (p/ versão reduzida)
– utiliza padrões internacionais de computação
Exemplos Windows
● Jaws (Freedom Scientific)
– Síntese de voz em vários idiomas
– Leitura de menus
– Indicação de fonte
– Simula o mouse (dir. “*” esq. “/”)
– programas de difícil acesso a outros
leitores de tela
– Custo: US$800,00 a US$1200,00
Exemplos Windows
● Falador
– Sintetizador freeware, roda c/ wine (??)
– Apresenta a “boca falada”
– Aprendizado de outros idiomas
Exemplos - Linux
● Festival
– Sintetizador de linha de comando
● Gnopernicus
– Sintetizador/Leitor do Gnome
● Kmouth
– Def. auditivos, em inglês
Reconhecimento de Voz
● Interpretação da falahumana
● Três fases distintas: aquisição do sinal de
voz, extração de parâmetros
(características) e reconhecimento do
padrão (classificação).
● Utilidades:
– Transcrição de texto
– Execução de comandos
– Automação Residencial
Reconhecimento de Voz
● Exemplos Linux:
– cVoiceControl: modo texto
– VoiceCode: voltado a programadores
com LER
● Exemplos Windows:
– FreeSpeech (Philips)
– ViaVoice (IBM)
Reconhecimento de Voz
● Classificação:
– Requerer treinamento
– Reconhecer fala contínua ou
pausadamente (período de silêncio)
– Tamanho do vocábulo
Reconhecimento de Voz
● Funcionamento
– Pouco treinamento, ritmo normal, fala
contínua e amplo vocábulo: 95% a 98%
de acerto.
– Sem treinamento: reconhece número
pequeno de palavras.
Reconhecimento de Voz
● Problemas Técnicos
– Variações da fala
– Ambiente externo
– Segmentação da fala (limitação dos
fonemas)
– Tamanho do vocabulário e
ambigüidades
Reconhecimento de Voz
● Etapas do reconhecimento:
– Trabalho de reconhecimento voltado ao
reconhecimento de padrões.
– Fase de extração de características:
● LPC (Linear Predictive Coding –
Codificação Preditiva Linear, o
modelo mistura Gaussiano)
● FFT (Fast Fourier Transform –
Transformada Rápida de Fourier)
Reconhecimento de Voz
● Etapas do reconhecimento:
– Fase de extração de características:
● LPC e modelo de mistura Gaussiano:
reconhecimento de locutor (analisa
trato vocal, que é peculiar a cada
pessoa)
● FFT: reconhecimento de palavras
isoladas (abordagem entre sinais em
função das freqüências)
Reconhecimento de Voz
● Etapas do reconhecimento:
– Fase de classificação
● Problema no tempo de execução
● Métodos matemáticos: alto
processamento
● Tendência a algoritmos inteligentes
(Redes Neurais Artificiais), mais
utilizados em sist. independentes de
locutor
Conclusão
● Sintetizadores/Leitores de tela e
sistemas de reconhecimento de voz
precisam de ajustes.
● Desenvolvimento para Linux ainda é
deficiente.
● Grande crescimento na área.
Referências
● http://www.jornalismo.ufsc.br/acic/acesso/acesso_gr.htm
● http://groups.msn.com/falador/falador.msnw
● http://docs.kde.org/stable/pt/kdebase/userguide/kmouth.html
● http://docs.kde.org/stable/pt/kdebase/userguide/ktts.html
● http://www-usr.inf.ufsm.br/~maicongb/trabalho.html#recon
● http://www.rnp.br/wrnp2/2001/palestras_aplicacao/res_aplic_18.pdf
● http://www.inovacaotecnologica.com.br/noticias/noticia.php?artigo=010
● http://www.speechrecognition.philips.com/index.asp?id=788

More Related Content

Similar to Sintetizadores leitores reconhecimento_voz

Linguagen..
Linguagen..Linguagen..
Linguagen..
essa
 
Linguagens de programação 03-12-09
Linguagens de programação   03-12-09Linguagens de programação   03-12-09
Linguagens de programação 03-12-09
essa
 
Linguagens de programação 03-12-09
Linguagens de programação   03-12-09Linguagens de programação   03-12-09
Linguagens de programação 03-12-09
essa
 
Técnicas_Implementação
Técnicas_ImplementaçãoTécnicas_Implementação
Técnicas_Implementação
Wagner Zaparoli
 
Aula 02 informática aplicada - sistemas operacionais
Aula 02  informática aplicada - sistemas operacionaisAula 02  informática aplicada - sistemas operacionais
Aula 02 informática aplicada - sistemas operacionais
Robson Ferreira
 

Similar to Sintetizadores leitores reconhecimento_voz (20)

Compre o Software JAWS
Compre o Software JAWSCompre o Software JAWS
Compre o Software JAWS
 
Conversão de áudio para texto...
Conversão de áudio para texto...Conversão de áudio para texto...
Conversão de áudio para texto...
 
Além do Java - Maratona4Java 2005
Além do Java - Maratona4Java 2005Além do Java - Maratona4Java 2005
Além do Java - Maratona4Java 2005
 
paradigmasdlsksmmskskkekekekekedmmmdmdmmf.pdf
paradigmasdlsksmmskskkekekekekedmmmdmdmmf.pdfparadigmasdlsksmmskskkekekekekedmmmdmdmmf.pdf
paradigmasdlsksmmskskkekekekekedmmmdmdmmf.pdf
 
Linguagens Especificas de Dominio
Linguagens Especificas de DominioLinguagens Especificas de Dominio
Linguagens Especificas de Dominio
 
Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática
 
Aula 2 - POO: Fundamentos da linguagem Java
Aula 2 - POO: Fundamentos da linguagem JavaAula 2 - POO: Fundamentos da linguagem Java
Aula 2 - POO: Fundamentos da linguagem Java
 
software tipos.ppt
software tipos.pptsoftware tipos.ppt
software tipos.ppt
 
Linguagen..
Linguagen..Linguagen..
Linguagen..
 
#DNAD15 - Diminuindo sofrimento com código legado de linguagens não mainstreams
#DNAD15  - Diminuindo sofrimento com código legado de linguagens não mainstreams#DNAD15  - Diminuindo sofrimento com código legado de linguagens não mainstreams
#DNAD15 - Diminuindo sofrimento com código legado de linguagens não mainstreams
 
Transifex: Ensinando o seu Software Público a falar novos idiomas
Transifex: Ensinando o seu Software Público a falar novos idiomasTransifex: Ensinando o seu Software Público a falar novos idiomas
Transifex: Ensinando o seu Software Público a falar novos idiomas
 
Linguagens de programação 03-12-09
Linguagens de programação   03-12-09Linguagens de programação   03-12-09
Linguagens de programação 03-12-09
 
Linguagens de programação 03-12-09
Linguagens de programação   03-12-09Linguagens de programação   03-12-09
Linguagens de programação 03-12-09
 
Técnicas_Implementação
Técnicas_ImplementaçãoTécnicas_Implementação
Técnicas_Implementação
 
Mini Curso de C
Mini Curso de CMini Curso de C
Mini Curso de C
 
Projeto CoCoA: Um Colete de Comunicação Alternativa
Projeto CoCoA: Um Colete de Comunicação AlternativaProjeto CoCoA: Um Colete de Comunicação Alternativa
Projeto CoCoA: Um Colete de Comunicação Alternativa
 
TDC2017 | São Paulo - Trilha Acessibilidade How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Acessibilidade How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Acessibilidade How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Acessibilidade How we figured out we had a SRE t...
 
Aula 02 informática aplicada - sistemas operacionais
Aula 02  informática aplicada - sistemas operacionaisAula 02  informática aplicada - sistemas operacionais
Aula 02 informática aplicada - sistemas operacionais
 
Meetup #7 - Johana Villena & Janaína Pereira
Meetup #7 - Johana Villena & Janaína PereiraMeetup #7 - Johana Villena & Janaína Pereira
Meetup #7 - Johana Villena & Janaína Pereira
 
Apresentação no Simpósio da ABRAPT 2013 - Marcelle Castro
Apresentação no Simpósio da ABRAPT 2013 - Marcelle CastroApresentação no Simpósio da ABRAPT 2013 - Marcelle Castro
Apresentação no Simpósio da ABRAPT 2013 - Marcelle Castro
 

Sintetizadores leitores reconhecimento_voz

  • 1. Sintetizadores de Voz/Leitores de Tela e Reconhecimento de Voz Leandro Rodrigues Ferreira lerf05@inf.ufpr.br 22 de novembro de 2006
  • 2. Sintetizadores de Voz Texto -> Voz Leitores de Tela ●Transmitir a linguagem escrita através da linguagem falada ou em braille
  • 3. Utilidade ● Acessibilidade => Deficiência Visual e Auditiva ● Treinos e Terapias
  • 4. Exemplos ● Windows – Virtual Vision (Micropower) – DosVox (UFRJ) – Jaws (Freedom Scientific) – Falador
  • 5. Exemplos Windows ● Virtual Vision (Micropower) – Ambiente Windows e Office – Melhor em português – Rastreamento do mouse – Preço e suporte no Brasil – Dispensa sintetizador externo – Preço: R$700,00 – Multi-idiomas (com o uso de outros sintetizadores) – Indicação do foco
  • 6. Exemplos Windows ● DosVox (NCE – UFRJ) – roda em modo DOS – voltado para deficientes visuais – tecnologia nacional e simples (viabilidade) – baixo custo ou gratuito (p/ versão reduzida) – utiliza padrões internacionais de computação
  • 7.
  • 8.
  • 9. Exemplos Windows ● Jaws (Freedom Scientific) – Síntese de voz em vários idiomas – Leitura de menus – Indicação de fonte – Simula o mouse (dir. “*” esq. “/”) – programas de difícil acesso a outros leitores de tela – Custo: US$800,00 a US$1200,00
  • 10. Exemplos Windows ● Falador – Sintetizador freeware, roda c/ wine (??) – Apresenta a “boca falada” – Aprendizado de outros idiomas
  • 11. Exemplos - Linux ● Festival – Sintetizador de linha de comando ● Gnopernicus – Sintetizador/Leitor do Gnome ● Kmouth – Def. auditivos, em inglês
  • 12. Reconhecimento de Voz ● Interpretação da falahumana ● Três fases distintas: aquisição do sinal de voz, extração de parâmetros (características) e reconhecimento do padrão (classificação). ● Utilidades: – Transcrição de texto – Execução de comandos – Automação Residencial
  • 13. Reconhecimento de Voz ● Exemplos Linux: – cVoiceControl: modo texto – VoiceCode: voltado a programadores com LER ● Exemplos Windows: – FreeSpeech (Philips) – ViaVoice (IBM)
  • 14. Reconhecimento de Voz ● Classificação: – Requerer treinamento – Reconhecer fala contínua ou pausadamente (período de silêncio) – Tamanho do vocábulo
  • 15. Reconhecimento de Voz ● Funcionamento – Pouco treinamento, ritmo normal, fala contínua e amplo vocábulo: 95% a 98% de acerto. – Sem treinamento: reconhece número pequeno de palavras.
  • 16. Reconhecimento de Voz ● Problemas Técnicos – Variações da fala – Ambiente externo – Segmentação da fala (limitação dos fonemas) – Tamanho do vocabulário e ambigüidades
  • 17. Reconhecimento de Voz ● Etapas do reconhecimento: – Trabalho de reconhecimento voltado ao reconhecimento de padrões. – Fase de extração de características: ● LPC (Linear Predictive Coding – Codificação Preditiva Linear, o modelo mistura Gaussiano) ● FFT (Fast Fourier Transform – Transformada Rápida de Fourier)
  • 18. Reconhecimento de Voz ● Etapas do reconhecimento: – Fase de extração de características: ● LPC e modelo de mistura Gaussiano: reconhecimento de locutor (analisa trato vocal, que é peculiar a cada pessoa) ● FFT: reconhecimento de palavras isoladas (abordagem entre sinais em função das freqüências)
  • 19. Reconhecimento de Voz ● Etapas do reconhecimento: – Fase de classificação ● Problema no tempo de execução ● Métodos matemáticos: alto processamento ● Tendência a algoritmos inteligentes (Redes Neurais Artificiais), mais utilizados em sist. independentes de locutor
  • 20. Conclusão ● Sintetizadores/Leitores de tela e sistemas de reconhecimento de voz precisam de ajustes. ● Desenvolvimento para Linux ainda é deficiente. ● Grande crescimento na área.
  • 21. Referências ● http://www.jornalismo.ufsc.br/acic/acesso/acesso_gr.htm ● http://groups.msn.com/falador/falador.msnw ● http://docs.kde.org/stable/pt/kdebase/userguide/kmouth.html ● http://docs.kde.org/stable/pt/kdebase/userguide/ktts.html ● http://www-usr.inf.ufsm.br/~maicongb/trabalho.html#recon ● http://www.rnp.br/wrnp2/2001/palestras_aplicacao/res_aplic_18.pdf ● http://www.inovacaotecnologica.com.br/noticias/noticia.php?artigo=010 ● http://www.speechrecognition.philips.com/index.asp?id=788