SlideShare a Scribd company logo
1 of 17
Download to read offline
Řečové technologie:
Jindřich Matoušek, Jan Švec
FAV ZČU v Plzni
Katedra kybernetiky, NTIS
Od výzkumu k praxi
Syntéza řeči
Syntéza řeči z textu
● Text-to-speech systém (TTS)
○ převod textu na řeč
● Zpracování přirozeného jazyka (NLP)
○ převod (psaného) textu na výslovnostní podobu
● Syntetizér řeči
○ vytváří řeč z výslovnostní reprezentace
● Korpusově založené přístupy
○ využívají rozsáhlé anotované řečové korpusy (>10 h)
○ kvalitní studiové nahrávky (kvalitní akustika)
○ dvě hlavní metody
■ výběr jednotek (“unit selection”)
■ statistická parametrická syntéza (“HMM syntéza”)
Unit selection
Signálově založený přístup
● řeč se vytváření řetězením
(konkatenací) řečových
jednotek
● důraz na výběr vhodného
reprezentanta každé
jednotky v závislosti na
kontextu
● důležité množství a kvalita
zdrojových nahrávek a jejich
pečlivá anotace (indexace)
● velmi dobrá kvalita pro daný
hlas a styl mluvy
● problémy se změnou stylu
nebo hlasu
● komerční systémy
HMM syntéza
Modelově založený přístup
● řeč se generuje z modelů řečových
jednotek
● neřetězí se signál ale modely
● statistické modely (HMM)
● akusticky horší kvalita
○ generovaná řeč (“bzučení”)
○ průměrování (“přehlazování”)
řeči
● ale větší flexibilita → změny
parametrů modelů umožňují
○ změny hlasu
○ změny stylu
● menší nároky na kvalitu zdrojových
nahrávek
● výzkumně žhavé téma
Schéma procesu TTS
Schéma procesu TTS
Ukázky syntetické řeči
● Ukázky syntetické řeči
některých hlasů
vytvořených na ZČU ve
spolupráci s firmou
SpeechTech
Čeština
Slovenština
Ruština
Angličtina
Personalizované hlasy
● Modelování velice specifických osobních nuancí hlasu
● Často spojeno s “nekvalitními” vstupními daty (neprofesionální řečníci,
nekonzistentní styl mluvy, nestudiové nahrávky, málo dat, …)
řečové vady apod.
cizí přízvuky (využito v simulátoru řízení letového provozu)
● “Konzervace” hlasů pacientů před totální laryngektomií
Automatické čtení pro slabozraké žáky ZŠ
● Pomoc ve výuce a
domácí přípravě
slabozrakých žáků
● Učební texty připravují
učitelky ZŠ
● Žáci k textům přistupují
pomocí webového
prohlížeče
http://ucebnice.zcu.cz
Rozpoznávání
a porozumění řeči
Rozpoznávání řeči
● Automatic Speech Recognition (ASR)
○ převod řeči na text
● Různé úlohy
○ diktovací software
○ telefonní řeč
○ domain-specific speech recognition
● Výstup
○ text (v osm hodin)
○ text + posteriorní pravděpodobnosti (v/0.6 osm/0.9 hodin/1.0)
○ konfuzní sítě (v/0.6 ve/0.2 s/0.2 osm/0.9 osum/0.1 hodin/1.0)
○ slovní mřížka (obrázek)
Porozumění řeči
● Založené na znalostech
○ bezkontextové gramatiky + parsing
○ nutnost - expert v dané oblasti
● Založené na statistice
○ machine learning
○ potřeba trénovacích dat
● Kombinace obou přístupů v dialogových systémech
○ lokální význam (sémantické entity: čas, datum, jména, DB položky, …)
⇒ algoritmus založený na celočíselném programování
○ globální význam (sémantické koncepty: odjezd, schůzky, souhlas, …)
⇒ machine learning metody (SVM, NN, CNN)
možnost podpořit příznaky z lokálního významu
Promluva: chci být v pět v Domažlicích
Sémantické entity: time(17, 00); station(id=12, name=Domažlice)
Sémantické koncepty: ARRIVAL
Vstupem je ale mřížka!
Porozumění řeči - příklad
Ukázky aplikací
Automatické
titulkování živých
televizních pořadů
Ukázky aplikací
Inteligentní
technologie pro
zvýšení bezpečnosti
letového provozu
Ukázky aplikací
Multimediální archív
MALACH

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 

mlmu13_matousek_svec_recove_technologie

  • 1. Řečové technologie: Jindřich Matoušek, Jan Švec FAV ZČU v Plzni Katedra kybernetiky, NTIS Od výzkumu k praxi
  • 3. Syntéza řeči z textu ● Text-to-speech systém (TTS) ○ převod textu na řeč ● Zpracování přirozeného jazyka (NLP) ○ převod (psaného) textu na výslovnostní podobu ● Syntetizér řeči ○ vytváří řeč z výslovnostní reprezentace ● Korpusově založené přístupy ○ využívají rozsáhlé anotované řečové korpusy (>10 h) ○ kvalitní studiové nahrávky (kvalitní akustika) ○ dvě hlavní metody ■ výběr jednotek (“unit selection”) ■ statistická parametrická syntéza (“HMM syntéza”)
  • 4. Unit selection Signálově založený přístup ● řeč se vytváření řetězením (konkatenací) řečových jednotek ● důraz na výběr vhodného reprezentanta každé jednotky v závislosti na kontextu ● důležité množství a kvalita zdrojových nahrávek a jejich pečlivá anotace (indexace) ● velmi dobrá kvalita pro daný hlas a styl mluvy ● problémy se změnou stylu nebo hlasu ● komerční systémy
  • 5. HMM syntéza Modelově založený přístup ● řeč se generuje z modelů řečových jednotek ● neřetězí se signál ale modely ● statistické modely (HMM) ● akusticky horší kvalita ○ generovaná řeč (“bzučení”) ○ průměrování (“přehlazování”) řeči ● ale větší flexibilita → změny parametrů modelů umožňují ○ změny hlasu ○ změny stylu ● menší nároky na kvalitu zdrojových nahrávek ● výzkumně žhavé téma
  • 8. Ukázky syntetické řeči ● Ukázky syntetické řeči některých hlasů vytvořených na ZČU ve spolupráci s firmou SpeechTech Čeština Slovenština Ruština Angličtina
  • 9. Personalizované hlasy ● Modelování velice specifických osobních nuancí hlasu ● Často spojeno s “nekvalitními” vstupními daty (neprofesionální řečníci, nekonzistentní styl mluvy, nestudiové nahrávky, málo dat, …) řečové vady apod. cizí přízvuky (využito v simulátoru řízení letového provozu) ● “Konzervace” hlasů pacientů před totální laryngektomií
  • 10. Automatické čtení pro slabozraké žáky ZŠ ● Pomoc ve výuce a domácí přípravě slabozrakých žáků ● Učební texty připravují učitelky ZŠ ● Žáci k textům přistupují pomocí webového prohlížeče http://ucebnice.zcu.cz
  • 12. Rozpoznávání řeči ● Automatic Speech Recognition (ASR) ○ převod řeči na text ● Různé úlohy ○ diktovací software ○ telefonní řeč ○ domain-specific speech recognition ● Výstup ○ text (v osm hodin) ○ text + posteriorní pravděpodobnosti (v/0.6 osm/0.9 hodin/1.0) ○ konfuzní sítě (v/0.6 ve/0.2 s/0.2 osm/0.9 osum/0.1 hodin/1.0) ○ slovní mřížka (obrázek)
  • 13. Porozumění řeči ● Založené na znalostech ○ bezkontextové gramatiky + parsing ○ nutnost - expert v dané oblasti ● Založené na statistice ○ machine learning ○ potřeba trénovacích dat ● Kombinace obou přístupů v dialogových systémech ○ lokální význam (sémantické entity: čas, datum, jména, DB položky, …) ⇒ algoritmus založený na celočíselném programování ○ globální význam (sémantické koncepty: odjezd, schůzky, souhlas, …) ⇒ machine learning metody (SVM, NN, CNN) možnost podpořit příznaky z lokálního významu
  • 14. Promluva: chci být v pět v Domažlicích Sémantické entity: time(17, 00); station(id=12, name=Domažlice) Sémantické koncepty: ARRIVAL Vstupem je ale mřížka! Porozumění řeči - příklad