1. Automatické vytváˇrení doprovodné zvukové stopy
televizního vysílání pro sluchovˇe postižené
(Souˇcasný stav v projektu ELJABR II)
Jindˇrich Matoušek, Zdenˇek Hanzlíˇcek, Daniel Tihelka
Západoˇceská univerzita v Plzni, Fakulta aplikovaných vˇed, Katedra kybernetiky
16.3.2013
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 1 / 28
2. Osnova
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 2 / 28
3. Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 3 / 28
4. Úvod
Projekt ELJABR II
ELiminace JAzykových BaRiér handicapovaných divák˚u ˇCeské
televize
ˇrešeno za finanˇcní podpory
Technologická agentura ˇCeské republiky (TA ˇCR)
ˇCeská televize
leden 2011 – ˇcerven 2016
ˇRešitelé (partneˇri)
Západoˇceská univerzita v Plzni, Katedra kybernetiky
Firma SpeechTech, s r.o.
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 4 / 28
5. Pˇredstavení projektu
Dva základní cíle
Automatické titulkování živých poˇrad˚u ˇCT
prezentováno na INSPO 2012
Automatické vytváˇrení doprovodné zvukové stopy
Další úlohy
možnosti pˇrenosu parametr˚u pro automatizované generování
znakové ˇreˇci (ˇrízení „avatara“ ˇceského znakového jazyka)
možnosti asistované katalogizace pˇríspˇevk˚u v rozsáhlém televizním
archivu
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 5 / 28
6. Vytváˇrení doprovodné zvukové stopy
televizního vysílání
Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením
starší diváci (>50 let)
dyslektici
mírnˇe mentálnˇe postižení
problémy se ˇctením skrytých titulk˚u
Problém s porozumˇením hlasovému dialogu souˇcasných TV
poˇrad˚u
kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí
dynamická dialogová složka
rychlé stˇrídání r˚uzného tempa ˇreˇci
stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti
stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí
. . .
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
7. Vytváˇrení doprovodné zvukové stopy
televizního vysílání
Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením
starší diváci (>50 let)
dyslektici
mírnˇe mentálnˇe postižení
problémy se ˇctením skrytých titulk˚u
Problém s porozumˇením hlasovému dialogu souˇcasných TV
poˇrad˚u
kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí
dynamická dialogová složka
rychlé stˇrídání r˚uzného tempa ˇreˇci
stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti
stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí
. . .
« výsledný zvukový mix m˚uže být tˇežko srozumitelný
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
8. Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 7 / 28
9. Možná ˇrešení
« Vytváˇret alternativní doprovodnou klidnou zvukovou stopu
vysílána paralelnˇe s p˚uvodní zvukovou stopou
možno navolit individuálnˇe
Dvˇe možnosti
1 pˇredabování klidným hlasem lidmi-herci
(+ potlaˇcení podkresové a efektové složky)
+ profesionální kvalita
– vícenáklady pro ˇCT
– licenˇcnˇe problematické
2 vytvoˇrení nové zvukové stopy automaticky
+ automatizace pomocí technologie poˇcítaˇcové syntézy ˇreˇci
+ pouze ˇreˇc ˇci dialog, bez ostatních složek (hudba, ruchy apod.)
+ levné
– skuteˇcné nasazení technologie vyžaduje špiˇckové zvládnutí
nároˇcných teoretických postup˚u syntézy ˇreˇci
« V projektu ELJABR zvuková stopa vytváˇrena automaticky ze
skrytých titulk˚u
« „Mluvicí podtitulky“
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 8 / 28
10. Technologie syntézy ˇreˇci
Poˇcítaˇcová tvorba ˇreˇci (bez úˇcasti ˇclovˇeka)
« Syntéza ˇreˇci z textu (text-to-speech, TTS)
Systém syntézy ˇreˇci z textu
vyvíjený na Katedˇre kybernetiky Z ˇCU v Plzni ve spolupráci s firmou
SpeechTech
úkolem je „ozvuˇcit“ text
v projektu ELJABR ozvuˇcovány skryté titulky vysílané na
teletextové stránce 888
« „automatický dabing“
v rámci projektu ELJABR vytvoˇreny 4 hlasy
2 ženské: MR-Ž, KI-Ž
2 mužské: AJ-M, JS-M
další 2 hlasy plánovány
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 9 / 28
11. Skryté titulky
Vysílány na teletextové stránce 888
Formát
binární datový formát definovaný Evropskou vysílací unií
(European Broadcasting Union – EBU)
pˇrípona .stl
Struktura
GSI blok
celkové informace o poˇradu
p˚uvodní a pˇreložený název, p˚uvodní jazyk, jméno autora, atd.
sekvence TTI blok˚u
definuje každý titulek
text titulku
poˇcáteˇcní a koncový ˇcas (ˇcas zobrazení) titulku
pozice titulku v obraze
. . .
Není obsažena informace o pˇriˇrazení titulk˚u postavám TV poˇradu
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 10 / 28
14. Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 12 / 28
15. Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
16. Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
« nebezpeˇcí snížení srozumitelnosti!
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
17. Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
« nebezpeˇcí snížení srozumitelnosti!
ˇRešení:
optimalizace rozmístˇení titulk˚u
rozšíˇrení ˇcasových slot˚u titulk˚u « menší zrychlování ˇreˇci
automaticky na základˇe okolních titulk˚u a obrazové scény
(automatická detekce stˇrih˚u)
zjednodušování textu titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
18. Ilustrace desynchronizace
mezi obrazovým a zvukovým signálem
Titulky
Řeč
Text 1 Text 2 Text 3 Text 4 Text 5
čas
čas
Titulky
Řeč
Text 1 Text 2 Text 3 Text 4 Text 5
čas
čas
lokální
desynchronizace
zpoždění začátku
titulku
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 14 / 28
19. Statistiky desynchronizace
mezi obrazovým a zvukovým signálem
(Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.)
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
20. Statistiky desynchronizace
mezi obrazovým a zvukovým signálem
(Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.)
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
21. Výsledky optimalizace rozmístˇení titulk˚u
6516
7942
1051
1151
845
572
611
298
433
147
267
43
177
12
99
9
65
5
37
0
28
0
52
2
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
faktory zrychlení
počettitulků
nezrychleno dvakrát zrychleno
Původní systém
Optimalizovaný systém
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
22. Výsledky optimalizace rozmístˇení titulk˚u
6516
7942
1051
1151
845
572
611
298
433
147
267
43
177
12
99
9
65
5
37
0
28
0
52
2
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
faktory zrychlení
počettitulků
nezrychleno dvakrát zrychleno
Původní systém
Optimalizovaný systém
« Po optimalizaci výraznˇe ménˇe titulk˚u s vyšším faktorem zrychlení!
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
23. Ukázka programu pro zjednodušování
textu titulk˚u – detekce rychlých titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 17 / 28
24. Ukázka programu pro zjednodušování
textu titulk˚u – oprava rychlých titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 18 / 28
25. Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 19 / 28
26. Pˇrípadová studie
17dílný seriál Hrabˇenky
komplexní zvuková stopa (velké množství ruch˚u, podkresové
hudby, . . . )
skryté titulky z archivu ˇCT
vytvoˇrena doprovodná zvuková stopa
Postup vytváˇrení doprovodné zvukové stopy:
aplikace navržených optimalizací
poloautomatické zjednodušování textu titulk˚u
automatické pˇriˇrazení syntetických hlas˚u postavám seriálu
nutno doplnit k titulk˚um informace o postavách
minimalizace nebezpeˇcí, že ve stejné dialogové scénˇe dvˇe r˚uzné
postavy mluví stejným hlasem
Testovací vysílání v režimu „offline“
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 20 / 28
27. Technické vyhodnocení
Celkový poˇcet titulkových soubor˚u 17
Celkový poˇcet vysyntetizovaných promluv 15 512
Celkový poˇcet vysyntetizovaných titulkových slot˚u 10 427
Celková délka vysyntetizované ˇreˇci v poˇctu slov 55 807
Celková doba vysyntetizované ˇreˇci (h:mm:ss) 8:19:13
Pomˇer zrychlených titulk˚u 30,18 %
Pr˚umˇerný faktor zrychlení zrychlených titulk˚u 1,12
Pomˇer titulk˚u, v nˇemž mluví 2 r˚uzné postavy stejným hlasem 1,30 %
Pomˇer textovˇe zjednodušených titulk˚u 6,38 %
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 21 / 28
28. Ukázka 1 – p˚uvodní zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 22 / 28
29. Ukázka 1 – doprovodná zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 23 / 28
30. Ukázka 2 – p˚uvodní zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 24 / 28
31. Ukázka 2 – doprovodná zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 25 / 28
32. Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 26 / 28
33. Závˇer
Shrnutí
Poslední vývoj v oblasti automatického vytváˇrení doprovodné
zvukové stopy televizního vysílání v projektu ELJABR
Cíleno na diváky ˇCT s lehˇcím sluchovým postižením
Funkˇcnost navrhovaného ˇrešení ovˇeˇrena v rámci pˇrípadové studie
Další práce
Vytváˇrení doprovodné zvukové stopy v režimu „online“
Kontrola rychlosti tempa syntetické ˇreˇci ve fázi pˇrípravy nových
titulk˚u v ˇCT
Evaluace systému samotnými uživateli
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 27 / 28
34. Dˇekuji za pozornost.
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 28 / 28