Summary - Introduction to Evolutionary Computations. Akira Imada
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
1. Ar mes visi vienodai
suvokiame sintezuotą šneką?
Neregių ir reginčių klausytojų tyrimas
Gediminas Navickas, Dr. Gerda Ana Melnik-Leroy, Dr. Povilas Treigys
Duomenų mokslo ir skaitmeninių technologijų institutas, Vilniaus universitetas
gediminas.navickas@mif.vu.lt
XX mokslinė kompiuterininkų konferencija
Klaipėdos universitetas, „Kompiuterininkų dienos 2021“ 2021 09 24
2. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Situacija
• Nors šiuolaikinės šnekos sintezės sistemos (angl. Text-To-
Speech, TTS) gali sintezuoti aukštos kokybės šnekos
signalą, dažnai sintezuota šneka apibūdinama kaip
negyva, o besiklausantieji jos susiduria su problemomis
ar nepatogumais palyginus su natūralia šneka.
• Kai kurios klausytojų grupės (negimtakalbiai, vaikai,
vyresni žmonės bei klausytojai su negalia) klausydamiesi
sintezuotos šnekos susiduria su dar didesniais
sunkumais.
3. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Kokybės kriterijų trūkumas
• Viena iš šnekos sintezės tobulinimą stabdančių priežasčių yra tikslesnių ir
jautresnių kokybės vertinimo kriterijų trūkumas
• Netipinės klausytojų grupės tiriamos labai retai
• Iki šiol daugiausia remiamasi kiekybiniais šnekos signalo vertinimo
kriterijais, kurie skirti sintezės algoritmų tobulinimui
• Kokybiniai sintezuotos šnekos vertinimo metodai (angl. intelligibility and
comprehension) yra per daug subjektyvūs
• Šnekos apdorojimas žmogaus smegenyse remiasi subtiliomis šnekos
signalo psichoakustinėmis charakteristikomis, tačiau nėra
kontroliuojamais eksperimentais paremtų kokybės vertinimo kriterijų
4. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Tyrimas
• Nagrinėjame sintetinės šnekos kokybės vertinimo
uždavinį, naudodami kontroliuojamo eksperimento
metodiką
• Dvejopas tikslas:
• Eksperimentiškai ištirti klausytojų suvokimo skirtumus tarp
skirtingų sintezuotos šnekos pavyzdžių.
• Palyginti dviejų klausytojų grupių suvokimą: aklųjų ir
reginčiųjų.
5. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Pagrindas
• Aklieji yra jautresni natūraliai šnekai – literatūros apžvalga
• Įžvalgos iš ankstesnių tyrimų su neregiais
• Įžvalgos iš ankstesnių šnekos sintezės tyrimų, garso signalo
analizės
6. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Metodas
• Naudojome eksperimentinį metodą, plačiai naudojamą
kognityvinės psichologijos ir kognityvinės lingvistikos tyrimuose:
AX diskriminavimo paradigma (angl. AX discrimination paradigm)
• Buvo sukonstruotas eksperimentas, kuris leido ištirti reginčiųjų ir
neregių skirtingos kokybės sintezuotos šnekos suvokimą
• Skirtinga įrašų kokybė gauta naudojant skirtingus apmokymo
duomenų kiekius
• Privalumas – paprastumas. Galimybė užfiksuoti klausytojo
suvokimą (arba jo nebuvimą) nesiremiant subjektyviais kriterijais,
pvz. „šnekos natūralumu“.
Neregiai Regintieji
Lengvas lygis žema – aukšta kokybė žema – aukšta kokybė
Sunkus lygis vidutinė – aukšta kokybė vidutinė – aukšta kokybė
7. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Eksperimento eiga
• Klausytojui leidžiami du vienas po kito einantys sintezuotos šnekos
garso įrašai (žodis arba frazė, leksiškai vienodi, pvz. „namas –
namas“)
• Klausytojas turi paspausti vieną iš dviejų klavišų klaviatūroje,
kurie reiškia:
• įrašų kokybė yra vienoda
• įrašų kokybė skiriasi
• Klausytojui atsitiktine tvarka pateikiami tokie įrašų deriniai:
• Vienodos kokybės įrašai (50%)
• Žemos ir aukštos kokybės įrašai (50%)
8. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Eksperimento medžiaga
• Eksperimento įrašai (šneka) buvo susintezuoti naudojant Merlin Toolkit
for Deep Neural Network models sistemą, pritaikytą lietuvių kalbai.
• Neuroninio tinklo mokymui buvo naudojamas Lietuvių šnekos garsynas
LIEPA, sukurtas Vilniaus universitete.
• Buvo susintezuoti trijų kokybės lygių įrašai naudojant skirtingus
mokymo duomenų kiekius:
• žemos kokybės (mokymo duomenų kiekis - 400 sakinių)
• vidutinės kokybės (mokymo duomenų kiekis - 800 sakinių)
• aukštos kokybės (mokymo duomenų kiekis - 1600 sakinių)
• Eksperimento duomenys buvo sudaryti iš pavienių lietuviškų žodžių
arba trumpų frazių (1-3 žodžiai)
13. A r m e s v i s i v i e n o d a i s u v o k i a m e s i n t e z u o t ą š n e k ą ?
Išvados
• Tiek regintys, tiek neregiai geriau skyrė lengvo lygio šnekos kokybę
• Aklieji geriau skiria skirtingos kokybės sintezuotą šneką
• Šis efektas dar labiau išryškėja, kai šnekos pavyzdžiai skiriasi nedaug
• Regintieji sugeba atskirti stipriai besiskiriančius šnekos pavyzdžius,
bet kai pavyzdžiai skiriasi nedaug – praktiškai nebeskiria
• Kuriant sintezatorius akliesiems, reikia labiau atsižvelgti į jų kokybę
• Regintiesiems kuriami sintezatoriai gali būti „lengvesni“, t.y. apmokyti
su mažesniu duomenų kiekiu
14. Ačiū už dėmesį!
Gediminas Navickas
Duomenų mokslo ir skaitmeninių technologijų institutas
Vilniaus universitetas
gediminas.navickas@mif.vu.lt