O documento discute a história e os métodos da síntese de fala, incluindo sistemas iniciais que datam de 1779 e o desenvolvimento de sistemas eletrônicos a partir da década de 1950. Aborda as principais tecnologias de síntese de fala, como concatenação e síntese de formantes, e descreve métodos como seleção de unidades, síntese por dífonos e síntese por domínio específico.
1. Síntese de fala
Um microcomputador Apricot, de 1984, o qual já possuía limitada
capacidade de síntese de fala.
Síntese de fala é o processo de produção artificial de fala humana. Um
sistema informático utilizado para este propósito é denominado
sintetizador de fala, e pode ser implementado em software ou hardware. Um
sistema texto-fala (TTS, na sigla em inglês) converte texto ortográfico
em fala. Outros sistemas interpretam representação lingüística simbólica
(como transcrição fonética) em fala.[1]
Fala sintetizada pode ser criada concatenando-se pedaços de fala gravada,
armazenada num banco de dados. Os sistemas diferem no tamanho das
unidades de fala armazenada. Um sistema que armazene fones ou alofones
fornecem a maior faixa de saída, mas podem carecer de clareza. Para usos
específicos, o armazenamento de palavras ou frases inteiras possibilita
uma saída de alta qualidade. Alternativamente, um sintetizador pode
incorporar um modelo do trato vocal (caminho percorrido pela fala) e
outras características da fala humana, para criar como saída uma fala
completamente "sintética".[2]
A qualidade de um sintetizador de fala é determinada por sua similaridade
com a fala humana e por sua capacidade de ser entendida. Um programa TTS
inteligível permite que pessoas com deficiência visual ou com
dificuldades de leitura possam ouvir obras escritas em um computador
pessoal. Muitos sistemas operacionais têm incluído capacidade de síntese
de fala desde o início da década de 1990. Na década de 1990, surgiram
sistemas que fazem a operação inversa de converter fala para texto
ortográfico.
conversor de texto em áudio (mp3) com qualidade de voz excelente e também
fácil e prático. Conversor de MP3, texto para mp3, converter texto em
áudio(Google Chrome,Firefox,Bing,Opera,Safari etc).Em português ...
Programa que lê textos em voz alta. ... Ferramenta para converter texto
para fala ou arquivo de áudio
LEITOR DE TEXTO EM PORTUGUÊS.LTI - Leitor de Texto Inteligente
http://texttospeechrobot.com/tts/pt/leitor-de-texto/
Esquema de um sistema texto-fala.
Um sistema texto-fala é composto de duas partes:[3] um front-end e um
back-end. O front-end tem duas tarefas principais. Primeiro, converter
texto bruto contendo símbolos como números e abreviações no equivalente
de palavras escritas. Este processo é muitas vezes chamado de
normalização de texto, pré-processamento ou tokenização. Depois, atribuir
transcrições fonéticas a cada palavra e dividir e marcar o texto em
unidades como sentenças, frases e cláusulas. Este processo é chamado de
conversão de texto para fonema ou grafema para fonema. As transcrições
2. fonéticas e as informações da prosódia compõem a representação
lingüística simbólica que é produzida pelo front-end.
Então, o back-end (muitas vezes referido como o sintetizador) converte a
representação lingüística simbólica em som. Em certos sistemas, esta
parte inclui a computação da prosódia (contorno de tom, durações de
fonemas),[4] que é então imposta na fala de saída.
Muito antes da invenção do processamento de sinal eletrônico, algumas
pessoas tentaram construir máquinas para emular a fala humana. Algumas
primeiras lendas do Brazen Head envolveram o Papa Silvestre II (946 –
1003), Albertus Magnus (1198 – 1280), e Roger Bacon (1214 – 1294). Em
1779, o cientista dinamarquês Christian Gottlieb Kratzenstein, que
trabalhava na Academia de Ciências da Rússia, construiu modelos do trato
vocal humano que podiam produzir os cinco sons das vogais longas (na
notação alfabética fonética internacional: [aː], [eː] [Iː], [oː] e
[uː]).[5] Em seguida, a "máquina de fala acústico-mecânica" de Wolfgang
von Kempelen, de Pressburg, na Hungria, foi descrita em um artigo em
1791.[6] Esta máquina adicionou modelos da língua e dos lábios,
permitindo que fossem produzidas tanto consoantes quanto vogais. Em 1837,
Charles Wheatstone produziu uma "máquina de falar" com base no projeto de
von Kempelen. Em 1846, Joseph Faber exibiu a Euphonia. Em 1923, Paget
ressuscitou o projeto de Wheatstone.[7]
Na década de 1930, Bell Labs desenvolveu o vocoder, que automaticamente
analisou a fala em seus tons e ressonâncias fundamentais. Do seu trabalho
no vocoder, Homer Dudley desenvolveu um sintetizador de fala operado por
teclado chamado The Voder (Voice Demonstrator), exibido na Feira Mundial
de Nova York de 1939. Dr. Franklin S. Cooper e seus colegas do Haskins
Laboratories começaram a construir o Pattern Playback no final dos anos
1940 e terminaram o projeto em 1950. Das várias versões diferentes deste
dispositivo hardware, apenas uma continua existindo atualmente. A máquina
converte imagens dos padrões acústicos do discurso na forma de um
espectrograma de volta ao som. Usando este dispositivo, Alvin Liberman e
seus colegas descobriram pistas acústicas para a percepção dos segmentos
fonéticos (consoantes e vogais).
Os sistemas dominantes nas décadas de 1980 e 1990 foram o sistema
DECtalk, baseado em grande parte no trabalho de Dennis Klatt no MIT, e o
sistema Bell Labs,[8] um dos primeiros sistemas multilíngues de
linguagens independentes, fazendo uso extensivo de métodos de
processamento de linguagem natural. Os primeiros sintetizadores de fala
eletrônicos pareciam robóticos e quase nunca eram inteligíveis. A
qualidade da fala sintetizada tem melhorado continuamente, mas a saída A
de 2016 dos sistemas de síntese de fala contemporânea permanece
claramente distinguível da fala humana real. Em 2005, Kurzweil previu que
como a relação custo-desempenho tornou os sintetizadores de fala mais
baratos e mais acessíveis mais pessoas poderiam se beneficiar do uso de
programas texto-fala.[9]
Dispositivos eletrônicos
Box do computador e do sintetizador de fala, usados por Stephen Hawking
em 1999.
Os primeiros sistemas de síntese de fala de computador surgiram no final
da década de 1950. Em 1968, Noriko Umeda et al. desenvolveu o primeiro
sistema texto-fala em inglês no Electrotechnical Laboratory, no
Japão.[10] Em 1961, o físico John Larry Kelly, Jr e seu colega Louis
Gerstman[11] usaram um computador IBM 704 para sintetizar discursos, um
3. dos eventos mais proeminentes da história da Bell Labs. O sintetizador de
fala de Kelly (vocoder) recriou a canção Daisy Bell, com acompanhamento
musical de Max Mathews. Coincidentemente, Arthur C. Clarke estava
visitando seu amigo e colega John Pierce nas instalações do Bell Labs
Murray Hill. Clarke ficou tão impressionado com a demonstração, que a
utilizou na cena culminante do seu roteiro para seu romance 2001: Uma
Odisséia no Espaço,[12] na qual o computador HAL 9000 canta a mesma
música que o astronauta Dave Bowman coloca para dormir.[13] Apesar do
sucesso da síntese de fala puramente eletrônica, a pesquisa em
sintetizadores de fala mecânicos continua.[14]
A eletrônica portátil com síntese de fala começou a surgir na década de
1970. Um dos primeiros dispositivos foi a Speech +, calculadora portátil
para cegos desenvolvida pela Telesensory Systems Inc. (TSI) em
1976.[15][16] Outros dispositivos tinham propósitos principalmente
educacionais como o Speak & Spell, brinquedo produzido pela Texas
Instruments em 1978.[17] A Fidelity lançou uma versão falada do seu
computador de xadrez eletrônico em 1979.[18] O primeiro jogo de vídeo
para caracterizar a síntese de fala foi o arcade game shoot 'em up
Stratovox (conhecido no Japão como Speak & Rescue), lançado pela Sun
Electronics em 1980. O primeiro jogo de computador pessoal com síntese de
fala foi Manbiki Shoujo (Shoplifting Girl), lançado para o PET 2001 em
1980, para o qual o desenvolvedor do jogo, Hiroshi Suzuki, criou uma
técnica de programação zero cross para produzir uma forma de onda de fala
sintetizada.[19] Outro exemplo é a versão arcade de Berzerk, também de
1980. No mesmo ano, a Milton Bradley Company produziu o Milton, primeiro
jogo eletrônico multi-player usando a síntese de fala.
Tecnologias de síntese de fala[editar
As qualidades mais importantes de um sistema de síntese de fala são
naturalidade (o quanto a saída se parece com a fala humana) e
inteligibilidade (a facilidade com a qual a saída é compreendida).[20] Os
sistemas de síntese de fala geralmente tentam maximizar ambas as
características. O sintetizador de fala ideal é natural e inteligível. As
duas tecnologias primárias que geram formas de onda de fala sintéticas
são síntese por concatenação e síntese de formante. Cada tecnologia tem
pontos fortes e fracos, de modo que os usos pretendidos de um sistema de
síntese de fala normalmente determinarão qual abordagem será utilizada.
Síntese por concatenação
A síntese por concatenação é baseada na concatenação de segmentos de fala
gravada. Geralmente a síntese por concatenação produz a fala sintetizada
mais natural. Entretanto, as diferenças entre as variações naturais na
fala e a natureza das técnicas automatizadas para segmentar as formas de
onda às vezes resultam em falhas audíveis na saída. Existem três subtipos
principais de síntese por concatenação, síntese por seleção de unidades,
síntese por dífonos e síntese por domínio específico.
Síntese por seleção de unidades
A síntese por seleção de unidades utiliza grandes bancos de dados de fala
gravada. Durante a criação do banco de dados, cada enunciado gravado é
segmentado em algumas das opções seguintes, sons individuais, dífonos,
metades de sons, sílabas, morfemas, palavras, frases e sentenças.
Tipicamente a divisão em segmentos é feita por meio de um reconhecedor de
fala especialmente modificado, ajustado para um modo de "alinhamento
forçado" com alguma correção manual posterior, usando representações
visuais como a forma de onda e o espectrograma.[21] Então, um índice das
unidades na base de dados de fala é criado com base na segmentação e nos
parâmetros acústicos como frequência fundamental (pitch), duração,
posição na sílaba e sons vizinhos. Durante a execução, o enunciado é
4. criado com a determinação da melhor cadeia de unidades candidatas a
partir do banco de dados (seleção de unidade). Este processo é
tipicamente realizado utilizando uma árvore de decisão especialmente
ponderada.
A seleção de unidade garante maior naturalidade, porque aplica apenas uma
pequena quantidade de processamento de sinal digital no discurso gravado.
Muitas vezes o processamento de sinal digital torna o som gravado menos
natural, embora alguns sistemas usem uma pequena quantidade de
processamento de sinal digital no ponto de concatenação para suavizar a
forma de onda. Muitas vezes a saída dos melhores sistemas de seleção de
unidades é indistinguível de vozes humanas reais, especialmente em
contextos para os quais o sistema texto-fala foi ajustado. No entanto, a
máxima naturalidade normalmente requer que as bases de dados de fala de
seleção de unidade sejam muito grandes, em alguns sistemas que variam
entre os gigabytes de dados gravados, representando dezenas de horas de
fala.[22] Os algoritmos de selecção de unidade também têm sido estudados
para seleccionar segmentos de um local que resulte em menos que a síntese
ideal (por exemplo, palavras menores ficam obscuras), mesmo quando existe
uma melhor escolha no banco de dados.[23] Recentemente os pesquisadores
propuseram vários métodos automatizados para detectar segmentos não
naturais em sistemas de síntese de fala de seleção de unidade.[24]
Síntese por dífonos
A síntese por dífonos usa um banco de dados de fala mínimo contendo todos
os dífonos que ocorrem em uma linguagem. O número de dífonos depende da
fonotática da língua (por exemplo, o espanhol tem cerca de 800 dífonos e
o alemão tem cerca de 2500 dífonos). Na síntese por dífonos, apenas um
exemplo de cada dífono está contido na base de dados de fala. Durante a
execução, a prosodia de uma sentença é sobreposta nestas unidades mínimas
por meio de técnicas de processamento de sinal digital como codificação
preditiva linear, PSOLA,[25] MBROLA,[26] ou técnicas mais recentes como
modificação de afinação no domínio de origem usando a transformada
discreta de cosseno.[27] A síntese por dífonos sofre das falhas acústicas
da síntese por concatenação e da natureza robótica da síntese de
formantes e tem poucas das vantagens de qualquer abordagem diferente do
tamanho pequeno. Consequentemente, a síntese por dífonos tem sido menos
usada para fins comerciais, embora continue a ser utilizada em pesquisas
devido a uma série de implementações de software livremente disponíveis.
Síntese por domínio específico
A síntese por domínio específico concatena palavras e frases pré-gravadas
para criar enunciações completas. A síntese por domínio específico é
aplicada quando a variedade de textos que o sistema produzirá é limitada
a um domínio específico como anúncios de cronograma de trânsito ou
relatórios meteorológicos.[28] Esta tecnologia é muito simples de ser
implementada e tem sido usada para fins comerciais por um longo tempo em
dispositivos como relógios falantes e calculadoras. O nível de
naturalidade destes sistemas pode ser muito alto porque a variedade de
tipos de sentença é limitada, se aproximando da prosódia e da entonação
das gravações originais.
Como estes sistemas são limitados pelas palavras e frases em suas bases
de dados, eles não têm aplicações gerais e apenas podem sintetizar as
combinações de palavras e frases com as quais foram pré-programadas.
Porém, a mistura de palavras dentro da linguagem naturalmente falada
também pode causar problemas a menos que as muitas variações sejam
levadas em conta. Por exemplo, em dialetos não-róticos do inglês a letra
"r" em palavras como "clear" /klɪə/ normalmente é somente pronunciada
quando a palavra seguinte começa com vogal (por exemplo, "clear out" é
5. pronunciada como /klɪəɾʌʊt/ ). Da mesma forma, em francês muitas
consoantes finais deixam de ser silenciosas se forem seguidas por uma
palavra que começa com vogal, um efeito chamado de ligação. Esta
alternância não pode ser reproduzida por um simples sistema de
concatenação de palavras, o que exigiria uma complexidade adicional para
ser sensível ao contexto.
Síntese de formantes
A síntese de formantes não utiliza amostras de fala humana durante a
execução. Em vez disto, a saída de fala sintetizada é criada usando a
síntese aditiva e um modelo acústico (síntese de modelação física).[29]
Parâmetros como freqüência fundamental, voicing e níveis de ruído são
variados ao longo do tempo para criar uma forma de onda de fala
artificial. Este método às vezes é chamado de síntese baseada em regras.
Entretanto, muitos sistemas por concatenação também têm componentes
baseados em regras. Muitos sistemas baseados em tecnologia de síntese de
formantes geram discurso artificial e robótico, que nunca seria
confundido com a fala humana. No entanto, a máxima naturalidade nem
sempre é o objetivo de um sistema de síntese de fala. Os sistemas de
síntese de formantes têm vantagens sobre os sistemas por concatenação. A
fala sintetizada pelo formante pode ser inteligível de forma confiável
mesmo sob velocidades muito altas, evitando falhas acústicas que
comumente afetam os sistemas por concatenação. O discurso sintetizado de
alta velocidade é usado pelas pessoas com deficiência visual para navegar
rapidamente em computadores usando um leitor de tela. Os sintetizadores
de formantes são geralmente programas menores do que os sistemas por
concatenação porque não têm um banco de dados de amostras de fala.
Portanto, podem ser usados em sistemas embarcados, em que memória e
potência do microprocessador são especialmente limitados. Como os
sistemas baseados em formantes têm o controle completo de todos os
aspectos da fala de saída, uma grande variedade de prosodias e entonações
podem ser produzidas transmitindo não apenas perguntas e declarações,
como também uma variedade de emoções e tons de voz. Entre os exemplos de
síntese de formantes sem ser em tempo real, mas com controle de entonação
bastante preciso, estão o trabalho feito no final da década de 1970 para
o brinquedo Speak & Spell, da Texas Instruments, e no início dos anos
1980 nas máquinas de arcade Sega e em muitos outros jogos arcade da Atari
Inc.[30] usando o TMS5220 LPC Chips. A criação da entonação adequada para
estes projetos foi cuidadosa e os resultados ainda precisam ser
acompanhados por interfaces texto-fala em tempo real.[31]
A demonstração seguinte permite-lhe digitar o seu próprio texto e
experimentar alguns dos idiomas e vozes que oferecemos para dar voz aos
seus sites
http://texttospeechrobot.com/