3. Syntéza řeči z textu
● Text-to-speech systém (TTS)
○ převod textu na řeč
● Zpracování přirozeného jazyka (NLP)
○ převod (psaného) textu na výslovnostní podobu
● Syntetizér řeči
○ vytváří řeč z výslovnostní reprezentace
● Korpusově založené přístupy
○ využívají rozsáhlé anotované řečové korpusy (>10 h)
○ kvalitní studiové nahrávky (kvalitní akustika)
○ dvě hlavní metody
■ výběr jednotek (“unit selection”)
■ statistická parametrická syntéza (“HMM syntéza”)
4. Unit selection
Signálově založený přístup
● řeč se vytváření řetězením
(konkatenací) řečových
jednotek
● důraz na výběr vhodného
reprezentanta každé
jednotky v závislosti na
kontextu
● důležité množství a kvalita
zdrojových nahrávek a jejich
pečlivá anotace (indexace)
● velmi dobrá kvalita pro daný
hlas a styl mluvy
● problémy se změnou stylu
nebo hlasu
● komerční systémy
5. HMM syntéza
Modelově založený přístup
● řeč se generuje z modelů řečových
jednotek
● neřetězí se signál ale modely
● statistické modely (HMM)
● akusticky horší kvalita
○ generovaná řeč (“bzučení”)
○ průměrování (“přehlazování”)
řeči
● ale větší flexibilita → změny
parametrů modelů umožňují
○ změny hlasu
○ změny stylu
● menší nároky na kvalitu zdrojových
nahrávek
● výzkumně žhavé téma
8. Ukázky syntetické řeči
● Ukázky syntetické řeči
některých hlasů
vytvořených na ZČU ve
spolupráci s firmou
SpeechTech
Čeština
Slovenština
Ruština
Angličtina
9. Personalizované hlasy
● Modelování velice specifických osobních nuancí hlasu
● Často spojeno s “nekvalitními” vstupními daty (neprofesionální řečníci,
nekonzistentní styl mluvy, nestudiové nahrávky, málo dat, …)
řečové vady apod.
cizí přízvuky (využito v simulátoru řízení letového provozu)
● “Konzervace” hlasů pacientů před totální laryngektomií
10. Automatické čtení pro slabozraké žáky ZŠ
● Pomoc ve výuce a
domácí přípravě
slabozrakých žáků
● Učební texty připravují
učitelky ZŠ
● Žáci k textům přistupují
pomocí webového
prohlížeče
http://ucebnice.zcu.cz
12. Rozpoznávání řeči
● Automatic Speech Recognition (ASR)
○ převod řeči na text
● Různé úlohy
○ diktovací software
○ telefonní řeč
○ domain-specific speech recognition
● Výstup
○ text (v osm hodin)
○ text + posteriorní pravděpodobnosti (v/0.6 osm/0.9 hodin/1.0)
○ konfuzní sítě (v/0.6 ve/0.2 s/0.2 osm/0.9 osum/0.1 hodin/1.0)
○ slovní mřížka (obrázek)
13. Porozumění řeči
● Založené na znalostech
○ bezkontextové gramatiky + parsing
○ nutnost - expert v dané oblasti
● Založené na statistice
○ machine learning
○ potřeba trénovacích dat
● Kombinace obou přístupů v dialogových systémech
○ lokální význam (sémantické entity: čas, datum, jména, DB položky, …)
⇒ algoritmus založený na celočíselném programování
○ globální význam (sémantické koncepty: odjezd, schůzky, souhlas, …)
⇒ machine learning metody (SVM, NN, CNN)
možnost podpořit příznaky z lokálního významu
14. Promluva: chci být v pět v Domažlicích
Sémantické entity: time(17, 00); station(id=12, name=Domažlice)
Sémantické koncepty: ARRIVAL
Vstupem je ale mřížka!
Porozumění řeči - příklad