08448380779 Call Girls In Friends Colony Women Seeking Men
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
1. „Kompiuterininkų dienos 2021“, Rugsėjo 23-24 d., Klaipėdos universitetas
Lombardo šneka ir jos
akustinių ypatybių analizė
dr. Gražina KORVEL1, dr. Povilas TREIGYS1, Krzysztof KĄKOL2,
prof. Bożena KOSTEK3
1Vaizdų ir signalų analizės grupė, Duomenų mokslo ir skaitmeninių technologijų
institutas, Vilniaus universitetas
23PGS Software S.A., 50-086 Gdanskas, Lenkija
3Garso akustikos laboratorija, Gdansko technikos universitetas, Lenkija
2. Podoktorantūros stažuotės projektas
“Šnekos tyrimas esant triukšmo trukdžiams, naudojant
signalų apdorojimo ir mašininio mokymosi metodus
2021.07.05 - 2023.07.04
2
• Projekto tyrimo tikslas yra sukurti naują metodą, leidžiantį stebėti ir
pagerinti šnekos suprantamumą bei kokybę esant triukšmui, pagrįstą
triukšmo trikdžių profiliavimu ir giliuoju mokymusi.
• Projekto tyrimo objektas yra Lombardo šneka.
3. Lombardo efektas
3
Lombardo šneka - tai efektas, kurį 1909 m. atrado
prancūzų otolaringologas Etienne Lombardas. Šis efektas
pasireiškia tuo metu, kai kalbantysis, būdamas
triukšmingoje aplinkoje, nesąmoningai keičia tam tikras
ištartos šnekos akustines savybes.
4. Aktualiausi tyrimai
4
Moksliniuose tyrimuose susijusiuose su Lombardo šneka nustatyta nemažai šiam
išraiškos tipui būdingų savybių (Boril et al. 2007, Kleczkowski et al. 2017). Įrodyta, kad
kai kurios iš šių savybių pagerina šnekos suprantamumą (Lu ir kt., 2009; Korvel ir kt.,
2020). Michelsanti ir kt. (2019) įrodė, kad esant žemam signalo ir triukšmo santykiui
Lombardo efektas yra naudingas tiek šnekos kokybės, tiek suprantamumo požiūriu.
• Boril, H., Fousek, P., & Hoge, H. (2007). Two-stage system for robust neutral/Lombard speech recognition. In Eighth Annual
Conference of the International Speech Communication Association.
• Kleczkowski, P., Zak, A., & Krol-Nowak, A. (2017). Lombard effect in Polish speech and its comparison in English speech.
Archives of Acoustics, 42.
• Lu, Y., & Cooke, M. (2009). The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in
noise. Speech Communication, 51(12), 1253-1262.
• Korvel, G., Kąkol, K., Kurasova, O., & Kostek, B. (2020). Evaluation of Lombard Speech Models in the Context of Speech in Noise
Enhancement. IEEE Access, 8, 155156-155170.
• Michelsanti, D., Tan, Z. H., Sigurdsson, S., & Jensen, J. (2019). Deep-learning-based audio-visual speech enhancement in
presence of Lombard effect. Speech Communication, 115, 38-50.
5. Lombardo šnekos tyrimo poreikis
5
Lombardo šnekos charakteristikos kinta priklausomai nuo
triukšmo lygio. Šio tyrimo metu buvo atlikta išsami Lombardo
šnekos analizė, siekiant nustatyti akustinius skirtumus tarp
šnekos su Lombardo efektu ir be jo. Ateityje šios analizės
rezultatai leis sukurti metodą, kuris leis automatiškai stebėti ir
pagerinti šnekos rodiklius esant triukšmui.
6. Eksperimento duomenys (1)
8 kalbėtojai: 4 vyrai ir 4 moterys
Kalbėtojų buvo prašoma perskaityti 10 atskirų žodžių
Įrašymas vyko 2 kambariuose, kurių akustinės charakteristikos
skyrėsi:
Kambarys su įrengta apsauga nuo triukšmo.
Kambarys be įrengtos apsaugos nuo triukšmo.
7. Kambarys su įrengta apsauga
nuo triukšmo.
Kambarys be įrengtos
apsaugos nuo triukšmo.
8. Eksperimento duomenys (2)
Šnekos su Lombardo efektu įrašai buvo gaunami įrašymo
proceso metu per ausines grojant triukšmą.
triukšmas su kokteilių vakarėlio efektu (stiprumas 80 dB)
rausvasis triukšmas (stiprumas 73 dB)
rausvasis triukšmas (stiprumas 84 dB)
10. Signalo dalinamas į fiksuoto ilgio
persidengiančius langus
N atskaitų
N atskaitų
N atskaitų
…
1-as langas
2-as langas
...
M-tasis langas
Rezultate gaunamas 95 matmenų parametrų vektorius.
11. Laiko sritiesparametrai
Sutrumpinimas Apibrėžimas
1 RMS Root Mean Square (RMS) energy
2 TC Temporal Centroid
3 ZCR Zero Crossing Rate
4-6 𝑘1, 𝑘2, 𝑘3 The number of samples exceeding levels RMS, 2× RMS,
3×RMS
7 Peak to RMS Peak to RMS
8-11 𝑝1, 𝑝2, 𝑝3, 𝑝4 The number of the signal crossings in relation to 𝑧𝑒𝑟𝑜,
𝑅𝑀𝑆, 2 × 𝑅𝑀𝑆, 3 × 𝑅𝑀𝑆
12-19 μ(𝑝1), μ(𝑝2), μ 𝑝3 ,
μ(𝑝4), 𝜎2
(𝑝1), 𝜎2
(𝑝2),
𝜎2
𝑝3 , 𝜎2
(𝑝4)
The mean and variance of signal crossings in relation to
zero, RMS, 2×RMS, 3×RMS averaged for 10 sub-segments
18. Atrinkti parametrai (rausvasis triukšmas)
Abu kambariai
Visi kalb. ASE1-ASE17, ASE24-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE15, ASE22-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE3, ASE5-ASE17, ASK, 𝜎2
(𝑝2), 𝜎2
(𝑝4), MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Kambarys su įrengta apsauga nuo triukšmo
Visi kalb. ASE1-ASE17, ASE24-ASE27, ASK, MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE14, ASE18-ASE19, ASE21-ASE26, ASE29, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE2, ASE4-ASE17, ASE24-ASE27, 𝜎2
(𝑝2), 𝜎2
(𝑝4), MFCC7, MFCC11-MFCC20, p1-p3,
Peak to RMS
Kambarys be įrengtos apsaugos nuo triukšmo
Visi kalb. ASE1-ASE17, ASE24-ASE26, ASK, MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE4, ASE6_ASE16, ASE23-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE3, ASE5- ASE17, ASE24-ASE25, ASK, MFCC7, MFCC10, MFCC11-MFCC20, p1-p3,
Peak to RMS
19. Atrinkti parametrai (triukšmas
su kokteilių vakarėlio efektu)
Abu kambariai
Visi kalb. ASE1-ASE15, MFCC11-MFCC19, p1-p3, SFM3-SFM7, SFM16-SFM17
Vyrai ASE1-ASE17, MFCC12-MFCC19, p2-p3, q3, SFM5-SFM9, SFM17-SFM18
Moterys ASE1-ASE9, ASE24-ASE25, MFCC11-MFCC19, p1-p3, SFM3-SFM7, SFM15-SFM17, μ(𝑝2), μ(𝑝4),
𝜎2
(𝑝2), 𝜎2
(𝑝4)
The room with acoustic treatment (201 room)
Visi kalb. ASE1-ASE15, MFCC12-MFCC19, p1-p3, SFM3-SFM8, SFM16-SFM17, ASK
Vyrai ASE1-ASE3, ASE5-ASE16, ASE23-ASE24, MFCC12-MFCC19, p1-p3, SFM3-SFM9, SFM16, SFM19-SFM20
Moterys ASE1-ASE4, ASE7-ASE17, ASE23-ASE24, MFCC11-MFCC19, ASK, p1-p3, SFM3-SFM6, SFM9,
SFM17-SFM18
The room without acoustic treatment (728 room)
Visi kalb. ASE1-ASE11, ASE14-ASE15, ASE26, MFCC11, MFCC14-MFCC19, p2, q2 , SFM5-SFM7, SFM15-SFM20
Vyrai ASE1, ASE3, ASE5-ASE11, ASE22, ASE29, MFCC11-MFCC19, p2, q2 , Vq2, Vq4, 𝜎2
(𝑝2), 𝜎2
(𝑝4),
SFM5-SFM7, SFM15-SFM20
Moterys ASE1-ASE15, ASE18, ASE23- ASE25, MFCC14-MFCC19, p2, p3 q3, SFM3-SFM7, SFM9, SFM16-SFM18
20. Panašumo matricų konstravimas
Remiantis atrinktais parametrais konstruojamos
akustinių požymių panašumo matricos, kurios bus
naudojamos įvertinti skirtingų kalbų fonemų atpažinimo
tikslumą.
22. Panašumo matricų pavyzdžiai
1. Žodis be Lobmbardo efekto (ištartas kambaryje su įrengta apsauga nuo triukšmo)
2. Žodis su Lobmbardo efektu (ištartas kambaryje su įrengta apsauga nuo triukšmo)
Nors pastaraisiais metais padaryta didelė pažanga Lombardo šnekos apdorojimo ir sintezės srityse, vis dar reikia tobulinti šnekos modelius, kad jie būtų labiau patikimi esant įvairioms signalo ir triukšmo sąlygomis.
Panašumo matricos kuriamos remiantis akustiniais parametrais, susijusiais su kalbos prozodijos elementais, tokiais kaip pagrindinis tonas, formančių dažniai, tarimo trukmė, garso intensyvumas, taip pat Mel-dažnio cepstraliniais koeficientais ir spektro formą apibrėžiančiais kitais parametrais.
Panašumo matricos kuriamos remiantis akustiniais parametrais, susijusiais su kalbos prozodijos elementais, tokiais kaip pagrindinis tonas, formančių dažniai, tarimo trukmė, garso intensyvumas, taip pat Mel-dažnio cepstraliniais koeficientais ir spektro formą apibrėžiančiais kitais parametrais.
Panašumo matricos kuriamos remiantis akustiniais parametrais, susijusiais su kalbos prozodijos elementais, tokiais kaip pagrindinis tonas, formančių dažniai, tarimo trukmė, garso intensyvumas, taip pat Mel-dažnio cepstraliniais koeficientais ir spektro formą apibrėžiančiais kitais parametrais.
Rezultate įrašus sudaro garso pavyzdžiai, suskirstyti pagal keletą kategorijų, būtent: trukdančio triukšmo tipą, patalpos tipą ir įrašomo asmens lytį.
Ar ne „The speech signal is divided to frames“?
Audio Spectral Centroid (ASC) – describes the center of gravity of the log-frequency power spectrum;
Audio Spectral Spread (ASSp) – shows the concentration of spectrum around the centroid;
Audio Spectral Skewness (ASSk) – defines the spectral symmetry;
Audio Spectral Kurtosis (ASK) – defines the flatness of spectrum;
Spectral Entropy – gives a measure of spectrum irregularity (WEI et al., 2018);
Spectral RollOff – makes it possible to distinguish voiced and unvoiced speech;
Spectral Brightness – gives a measure of sound timbre.