SlideShare a Scribd company logo
1 of 34
Download to read offline
Automatické vytváˇrení doprovodné zvukové stopy
televizního vysílání pro sluchovˇe postižené
(Souˇcasný stav v projektu ELJABR II)
Jindˇrich Matoušek, Zdenˇek Hanzlíˇcek, Daniel Tihelka
Západoˇceská univerzita v Plzni, Fakulta aplikovaných vˇed, Katedra kybernetiky
16.3.2013
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 1 / 28
Osnova
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 2 / 28
Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 3 / 28
Úvod
Projekt ELJABR II
ELiminace JAzykových BaRiér handicapovaných divák˚u ˇCeské
televize
ˇrešeno za finanˇcní podpory
Technologická agentura ˇCeské republiky (TA ˇCR)
ˇCeská televize
leden 2011 – ˇcerven 2016
ˇRešitelé (partneˇri)
Západoˇceská univerzita v Plzni, Katedra kybernetiky
Firma SpeechTech, s r.o.
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 4 / 28
Pˇredstavení projektu
Dva základní cíle
Automatické titulkování živých poˇrad˚u ˇCT
prezentováno na INSPO 2012
Automatické vytváˇrení doprovodné zvukové stopy
Další úlohy
možnosti pˇrenosu parametr˚u pro automatizované generování
znakové ˇreˇci (ˇrízení „avatara“ ˇceského znakového jazyka)
možnosti asistované katalogizace pˇríspˇevk˚u v rozsáhlém televizním
archivu
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 5 / 28
Vytváˇrení doprovodné zvukové stopy
televizního vysílání
Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením
starší diváci (>50 let)
dyslektici
mírnˇe mentálnˇe postižení
problémy se ˇctením skrytých titulk˚u
Problém s porozumˇením hlasovému dialogu souˇcasných TV
poˇrad˚u
kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí
dynamická dialogová složka
rychlé stˇrídání r˚uzného tempa ˇreˇci
stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti
stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí
. . .
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
Vytváˇrení doprovodné zvukové stopy
televizního vysílání
Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením
starší diváci (>50 let)
dyslektici
mírnˇe mentálnˇe postižení
problémy se ˇctením skrytých titulk˚u
Problém s porozumˇením hlasovému dialogu souˇcasných TV
poˇrad˚u
kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí
dynamická dialogová složka
rychlé stˇrídání r˚uzného tempa ˇreˇci
stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti
stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí
. . .
« výsledný zvukový mix m˚uže být tˇežko srozumitelný
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 7 / 28
Možná ˇrešení
« Vytváˇret alternativní doprovodnou klidnou zvukovou stopu
vysílána paralelnˇe s p˚uvodní zvukovou stopou
možno navolit individuálnˇe
Dvˇe možnosti
1 pˇredabování klidným hlasem lidmi-herci
(+ potlaˇcení podkresové a efektové složky)
+ profesionální kvalita
– vícenáklady pro ˇCT
– licenˇcnˇe problematické
2 vytvoˇrení nové zvukové stopy automaticky
+ automatizace pomocí technologie poˇcítaˇcové syntézy ˇreˇci
+ pouze ˇreˇc ˇci dialog, bez ostatních složek (hudba, ruchy apod.)
+ levné
– skuteˇcné nasazení technologie vyžaduje špiˇckové zvládnutí
nároˇcných teoretických postup˚u syntézy ˇreˇci
« V projektu ELJABR zvuková stopa vytváˇrena automaticky ze
skrytých titulk˚u
« „Mluvicí podtitulky“
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 8 / 28
Technologie syntézy ˇreˇci
Poˇcítaˇcová tvorba ˇreˇci (bez úˇcasti ˇclovˇeka)
« Syntéza ˇreˇci z textu (text-to-speech, TTS)
Systém syntézy ˇreˇci z textu
vyvíjený na Katedˇre kybernetiky Z ˇCU v Plzni ve spolupráci s firmou
SpeechTech
úkolem je „ozvuˇcit“ text
v projektu ELJABR ozvuˇcovány skryté titulky vysílané na
teletextové stránce 888
« „automatický dabing“
v rámci projektu ELJABR vytvoˇreny 4 hlasy
2 ženské: MR-Ž, KI-Ž
2 mužské: AJ-M, JS-M
další 2 hlasy plánovány
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 9 / 28
Skryté titulky
Vysílány na teletextové stránce 888
Formát
binární datový formát definovaný Evropskou vysílací unií
(European Broadcasting Union – EBU)
pˇrípona .stl
Struktura
GSI blok
celkové informace o poˇradu
p˚uvodní a pˇreložený název, p˚uvodní jazyk, jméno autora, atd.
sekvence TTI blok˚u
definuje každý titulek
text titulku
poˇcáteˇcní a koncový ˇcas (ˇcas zobrazení) titulku
pozice titulku v obraze
. . .
Není obsažena informace o pˇriˇrazení titulk˚u postavám TV poˇradu
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 10 / 28
Zjednodušené schéma vysílání
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 11 / 28
Zjednodušené schéma vysílání
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 11 / 28
Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 12 / 28
Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
« nebezpeˇcí snížení srozumitelnosti!
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
Problémy s aplikací technologie TTS
Desynchronizace mezi obrazovým a zvukovým signálem
syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých
titulk˚u
ˇreˇc nutno ˇcasto zrychlovat
« nebezpeˇcí snížení srozumitelnosti!
ˇRešení:
optimalizace rozmístˇení titulk˚u
rozšíˇrení ˇcasových slot˚u titulk˚u « menší zrychlování ˇreˇci
automaticky na základˇe okolních titulk˚u a obrazové scény
(automatická detekce stˇrih˚u)
zjednodušování textu titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
Ilustrace desynchronizace
mezi obrazovým a zvukovým signálem
Titulky
Řeč
Text 1 Text 2 Text 3 Text 4 Text 5
čas
čas
Titulky
Řeč
Text 1 Text 2 Text 3 Text 4 Text 5
čas
čas
lokální
desynchronizace
zpoždění začátku
titulku
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 14 / 28
Statistiky desynchronizace
mezi obrazovým a zvukovým signálem
(Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.)
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
Statistiky desynchronizace
mezi obrazovým a zvukovým signálem
(Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.)
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
Výsledky optimalizace rozmístˇení titulk˚u
6516
7942
1051
1151
845
572
611
298
433
147
267
43
177
12
99
9
65
5
37
0
28
0
52
2
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
faktory zrychlení
počettitulků
nezrychleno dvakrát zrychleno
Původní systém
Optimalizovaný systém
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
Výsledky optimalizace rozmístˇení titulk˚u
6516
7942
1051
1151
845
572
611
298
433
147
267
43
177
12
99
9
65
5
37
0
28
0
52
2
1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
faktory zrychlení
počettitulků
nezrychleno dvakrát zrychleno
Původní systém
Optimalizovaný systém
« Po optimalizaci výraznˇe ménˇe titulk˚u s vyšším faktorem zrychlení!
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
Ukázka programu pro zjednodušování
textu titulk˚u – detekce rychlých titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 17 / 28
Ukázka programu pro zjednodušování
textu titulk˚u – oprava rychlých titulk˚u
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 18 / 28
Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 19 / 28
Pˇrípadová studie
17dílný seriál Hrabˇenky
komplexní zvuková stopa (velké množství ruch˚u, podkresové
hudby, . . . )
skryté titulky z archivu ˇCT
vytvoˇrena doprovodná zvuková stopa
Postup vytváˇrení doprovodné zvukové stopy:
aplikace navržených optimalizací
poloautomatické zjednodušování textu titulk˚u
automatické pˇriˇrazení syntetických hlas˚u postavám seriálu
nutno doplnit k titulk˚um informace o postavách
minimalizace nebezpeˇcí, že ve stejné dialogové scénˇe dvˇe r˚uzné
postavy mluví stejným hlasem
Testovací vysílání v režimu „offline“
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 20 / 28
Technické vyhodnocení
Celkový poˇcet titulkových soubor˚u 17
Celkový poˇcet vysyntetizovaných promluv 15 512
Celkový poˇcet vysyntetizovaných titulkových slot˚u 10 427
Celková délka vysyntetizované ˇreˇci v poˇctu slov 55 807
Celková doba vysyntetizované ˇreˇci (h:mm:ss) 8:19:13
Pomˇer zrychlených titulk˚u 30,18 %
Pr˚umˇerný faktor zrychlení zrychlených titulk˚u 1,12
Pomˇer titulk˚u, v nˇemž mluví 2 r˚uzné postavy stejným hlasem 1,30 %
Pomˇer textovˇe zjednodušených titulk˚u 6,38 %
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 21 / 28
Ukázka 1 – p˚uvodní zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 22 / 28
Ukázka 1 – doprovodná zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 23 / 28
Ukázka 2 – p˚uvodní zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 24 / 28
Ukázka 2 – doprovodná zvuková stopa
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 25 / 28
Obsah
1 Úvod a pˇredstavení projektu
2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy
ˇreˇci
3 Problémy s aplikací technologie TTS
4 Pˇrípadová studie: výsledky a ukázky
5 Závˇer
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 26 / 28
Závˇer
Shrnutí
Poslední vývoj v oblasti automatického vytváˇrení doprovodné
zvukové stopy televizního vysílání v projektu ELJABR
Cíleno na diváky ˇCT s lehˇcím sluchovým postižením
Funkˇcnost navrhovaného ˇrešení ovˇeˇrena v rámci pˇrípadové studie
Další práce
Vytváˇrení doprovodné zvukové stopy v režimu „online“
Kontrola rychlosti tempa syntetické ˇreˇci ve fázi pˇrípravy nových
titulk˚u v ˇCT
Evaluace systému samotnými uživateli
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 27 / 28
Dˇekuji za pozornost.
J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 28 / 28

More Related Content

Viewers also liked

Construcción de indicadores desempeño
Construcción de indicadores desempeñoConstrucción de indicadores desempeño
Construcción de indicadores desempeñoEvelyn Vasquez Pizarro
 
Agile Sourcing for Open Source Web Development
Agile Sourcing for Open Source Web DevelopmentAgile Sourcing for Open Source Web Development
Agile Sourcing for Open Source Web DevelopmentAppnovation Technologies
 
Salesforce Admin no ref
Salesforce Admin no refSalesforce Admin no ref
Salesforce Admin no refSteve Gilbert
 
Epoxy Coating For Steel Rebar
Epoxy Coating For Steel RebarEpoxy Coating For Steel Rebar
Epoxy Coating For Steel RebarMECandPMV
 
Random Probability sampling by Sazzad Hossain
Random Probability sampling by  Sazzad HossainRandom Probability sampling by  Sazzad Hossain
Random Probability sampling by Sazzad HossainSazzad Hossain
 
Risk management
Risk managementRisk management
Risk managementMECandPMV
 

Viewers also liked (8)

Construcción de indicadores desempeño
Construcción de indicadores desempeñoConstrucción de indicadores desempeño
Construcción de indicadores desempeño
 
Migrate in Drupal 8
Migrate in Drupal 8Migrate in Drupal 8
Migrate in Drupal 8
 
Agile Sourcing for Open Source Web Development
Agile Sourcing for Open Source Web DevelopmentAgile Sourcing for Open Source Web Development
Agile Sourcing for Open Source Web Development
 
Abyat e Bahoo Kamil
Abyat e Bahoo KamilAbyat e Bahoo Kamil
Abyat e Bahoo Kamil
 
Salesforce Admin no ref
Salesforce Admin no refSalesforce Admin no ref
Salesforce Admin no ref
 
Epoxy Coating For Steel Rebar
Epoxy Coating For Steel RebarEpoxy Coating For Steel Rebar
Epoxy Coating For Steel Rebar
 
Random Probability sampling by Sazzad Hossain
Random Probability sampling by  Sazzad HossainRandom Probability sampling by  Sazzad Hossain
Random Probability sampling by Sazzad Hossain
 
Risk management
Risk managementRisk management
Risk management
 

prezentace

  • 1. Automatické vytváˇrení doprovodné zvukové stopy televizního vysílání pro sluchovˇe postižené (Souˇcasný stav v projektu ELJABR II) Jindˇrich Matoušek, Zdenˇek Hanzlíˇcek, Daniel Tihelka Západoˇceská univerzita v Plzni, Fakulta aplikovaných vˇed, Katedra kybernetiky 16.3.2013 J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 1 / 28
  • 2. Osnova 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 2 / 28
  • 3. Obsah 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 3 / 28
  • 4. Úvod Projekt ELJABR II ELiminace JAzykových BaRiér handicapovaných divák˚u ˇCeské televize ˇrešeno za finanˇcní podpory Technologická agentura ˇCeské republiky (TA ˇCR) ˇCeská televize leden 2011 – ˇcerven 2016 ˇRešitelé (partneˇri) Západoˇceská univerzita v Plzni, Katedra kybernetiky Firma SpeechTech, s r.o. J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 4 / 28
  • 5. Pˇredstavení projektu Dva základní cíle Automatické titulkování živých poˇrad˚u ˇCT prezentováno na INSPO 2012 Automatické vytváˇrení doprovodné zvukové stopy Další úlohy možnosti pˇrenosu parametr˚u pro automatizované generování znakové ˇreˇci (ˇrízení „avatara“ ˇceského znakového jazyka) možnosti asistované katalogizace pˇríspˇevk˚u v rozsáhlém televizním archivu J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 5 / 28
  • 6. Vytváˇrení doprovodné zvukové stopy televizního vysílání Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením starší diváci (>50 let) dyslektici mírnˇe mentálnˇe postižení problémy se ˇctením skrytých titulk˚u Problém s porozumˇením hlasovému dialogu souˇcasných TV poˇrad˚u kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí dynamická dialogová složka rychlé stˇrídání r˚uzného tempa ˇreˇci stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí . . . J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
  • 7. Vytváˇrení doprovodné zvukové stopy televizního vysílání Zamˇeˇreno na diváky ˇCT s lehˇcím sluchovým postižením starší diváci (>50 let) dyslektici mírnˇe mentálnˇe postižení problémy se ˇctením skrytých titulk˚u Problém s porozumˇením hlasovému dialogu souˇcasných TV poˇrad˚u kombinace dialogu, podkresové hudby, ruch˚u a atmosfér prostˇredí dynamická dialogová složka rychlé stˇrídání r˚uzného tempa ˇreˇci stˇrídání ˇreˇcových úsek˚u o r˚uzné hlasitosti stˇrídání emotivních a expresivních diskurz˚u s „neutrální“ ˇreˇcí . . . « výsledný zvukový mix m˚uže být tˇežko srozumitelný J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 6 / 28
  • 8. Obsah 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 7 / 28
  • 9. Možná ˇrešení « Vytváˇret alternativní doprovodnou klidnou zvukovou stopu vysílána paralelnˇe s p˚uvodní zvukovou stopou možno navolit individuálnˇe Dvˇe možnosti 1 pˇredabování klidným hlasem lidmi-herci (+ potlaˇcení podkresové a efektové složky) + profesionální kvalita – vícenáklady pro ˇCT – licenˇcnˇe problematické 2 vytvoˇrení nové zvukové stopy automaticky + automatizace pomocí technologie poˇcítaˇcové syntézy ˇreˇci + pouze ˇreˇc ˇci dialog, bez ostatních složek (hudba, ruchy apod.) + levné – skuteˇcné nasazení technologie vyžaduje špiˇckové zvládnutí nároˇcných teoretických postup˚u syntézy ˇreˇci « V projektu ELJABR zvuková stopa vytváˇrena automaticky ze skrytých titulk˚u « „Mluvicí podtitulky“ J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 8 / 28
  • 10. Technologie syntézy ˇreˇci Poˇcítaˇcová tvorba ˇreˇci (bez úˇcasti ˇclovˇeka) « Syntéza ˇreˇci z textu (text-to-speech, TTS) Systém syntézy ˇreˇci z textu vyvíjený na Katedˇre kybernetiky Z ˇCU v Plzni ve spolupráci s firmou SpeechTech úkolem je „ozvuˇcit“ text v projektu ELJABR ozvuˇcovány skryté titulky vysílané na teletextové stránce 888 « „automatický dabing“ v rámci projektu ELJABR vytvoˇreny 4 hlasy 2 ženské: MR-Ž, KI-Ž 2 mužské: AJ-M, JS-M další 2 hlasy plánovány J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 9 / 28
  • 11. Skryté titulky Vysílány na teletextové stránce 888 Formát binární datový formát definovaný Evropskou vysílací unií (European Broadcasting Union – EBU) pˇrípona .stl Struktura GSI blok celkové informace o poˇradu p˚uvodní a pˇreložený název, p˚uvodní jazyk, jméno autora, atd. sekvence TTI blok˚u definuje každý titulek text titulku poˇcáteˇcní a koncový ˇcas (ˇcas zobrazení) titulku pozice titulku v obraze . . . Není obsažena informace o pˇriˇrazení titulk˚u postavám TV poˇradu J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 10 / 28
  • 12. Zjednodušené schéma vysílání J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 11 / 28
  • 13. Zjednodušené schéma vysílání J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 11 / 28
  • 14. Obsah 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 12 / 28
  • 15. Problémy s aplikací technologie TTS Desynchronizace mezi obrazovým a zvukovým signálem syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých titulk˚u ˇreˇc nutno ˇcasto zrychlovat J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
  • 16. Problémy s aplikací technologie TTS Desynchronizace mezi obrazovým a zvukovým signálem syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých titulk˚u ˇreˇc nutno ˇcasto zrychlovat « nebezpeˇcí snížení srozumitelnosti! J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
  • 17. Problémy s aplikací technologie TTS Desynchronizace mezi obrazovým a zvukovým signálem syntetizovaná ˇreˇc se musí „vejít“ do ˇcasových slot˚u jednotlivých titulk˚u ˇreˇc nutno ˇcasto zrychlovat « nebezpeˇcí snížení srozumitelnosti! ˇRešení: optimalizace rozmístˇení titulk˚u rozšíˇrení ˇcasových slot˚u titulk˚u « menší zrychlování ˇreˇci automaticky na základˇe okolních titulk˚u a obrazové scény (automatická detekce stˇrih˚u) zjednodušování textu titulk˚u J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 13 / 28
  • 18. Ilustrace desynchronizace mezi obrazovým a zvukovým signálem Titulky Řeč Text 1 Text 2 Text 3 Text 4 Text 5 čas čas Titulky Řeč Text 1 Text 2 Text 3 Text 4 Text 5 čas čas lokální desynchronizace zpoždění začátku titulku J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 14 / 28
  • 19. Statistiky desynchronizace mezi obrazovým a zvukovým signálem (Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.) J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
  • 20. Statistiky desynchronizace mezi obrazovým a zvukovým signálem (Spoˇcteno z více než 7 mil. titulk˚u v délce ˇreˇci ≈ 5500 hod.) J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 15 / 28
  • 21. Výsledky optimalizace rozmístˇení titulk˚u 6516 7942 1051 1151 845 572 611 298 433 147 267 43 177 12 99 9 65 5 37 0 28 0 52 2 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 faktory zrychlení počettitulků nezrychleno dvakrát zrychleno Původní systém Optimalizovaný systém J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
  • 22. Výsledky optimalizace rozmístˇení titulk˚u 6516 7942 1051 1151 845 572 611 298 433 147 267 43 177 12 99 9 65 5 37 0 28 0 52 2 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 faktory zrychlení počettitulků nezrychleno dvakrát zrychleno Původní systém Optimalizovaný systém « Po optimalizaci výraznˇe ménˇe titulk˚u s vyšším faktorem zrychlení! J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 16 / 28
  • 23. Ukázka programu pro zjednodušování textu titulk˚u – detekce rychlých titulk˚u J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 17 / 28
  • 24. Ukázka programu pro zjednodušování textu titulk˚u – oprava rychlých titulk˚u J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 18 / 28
  • 25. Obsah 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 19 / 28
  • 26. Pˇrípadová studie 17dílný seriál Hrabˇenky komplexní zvuková stopa (velké množství ruch˚u, podkresové hudby, . . . ) skryté titulky z archivu ˇCT vytvoˇrena doprovodná zvuková stopa Postup vytváˇrení doprovodné zvukové stopy: aplikace navržených optimalizací poloautomatické zjednodušování textu titulk˚u automatické pˇriˇrazení syntetických hlas˚u postavám seriálu nutno doplnit k titulk˚um informace o postavách minimalizace nebezpeˇcí, že ve stejné dialogové scénˇe dvˇe r˚uzné postavy mluví stejným hlasem Testovací vysílání v režimu „offline“ J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 20 / 28
  • 27. Technické vyhodnocení Celkový poˇcet titulkových soubor˚u 17 Celkový poˇcet vysyntetizovaných promluv 15 512 Celkový poˇcet vysyntetizovaných titulkových slot˚u 10 427 Celková délka vysyntetizované ˇreˇci v poˇctu slov 55 807 Celková doba vysyntetizované ˇreˇci (h:mm:ss) 8:19:13 Pomˇer zrychlených titulk˚u 30,18 % Pr˚umˇerný faktor zrychlení zrychlených titulk˚u 1,12 Pomˇer titulk˚u, v nˇemž mluví 2 r˚uzné postavy stejným hlasem 1,30 % Pomˇer textovˇe zjednodušených titulk˚u 6,38 % J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 21 / 28
  • 28. Ukázka 1 – p˚uvodní zvuková stopa J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 22 / 28
  • 29. Ukázka 1 – doprovodná zvuková stopa J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 23 / 28
  • 30. Ukázka 2 – p˚uvodní zvuková stopa J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 24 / 28
  • 31. Ukázka 2 – doprovodná zvuková stopa J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 25 / 28
  • 32. Obsah 1 Úvod a pˇredstavení projektu 2 Vytváˇrení doprovodné zvukové stopy pomocí technologie syntézy ˇreˇci 3 Problémy s aplikací technologie TTS 4 Pˇrípadová studie: výsledky a ukázky 5 Závˇer J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 26 / 28
  • 33. Závˇer Shrnutí Poslední vývoj v oblasti automatického vytváˇrení doprovodné zvukové stopy televizního vysílání v projektu ELJABR Cíleno na diváky ˇCT s lehˇcím sluchovým postižením Funkˇcnost navrhovaného ˇrešení ovˇeˇrena v rámci pˇrípadové studie Další práce Vytváˇrení doprovodné zvukové stopy v režimu „online“ Kontrola rychlosti tempa syntetické ˇreˇci ve fázi pˇrípravy nových titulk˚u v ˇCT Evaluace systému samotnými uživateli J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 27 / 28
  • 34. Dˇekuji za pozornost. J. Matoušek a kol. (Z ˇCU) Automat. vytváˇrení doprovod. zvuk. stopy 16.3.2013 28 / 28