Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė

„Kompiuterininkų dienos 2021“, Rugsėjo 23-24 d., Klaipėdos universitetas
Lombardo šneka ir jos
akustinių ypatybių analizė
dr. Gražina KORVEL1, dr. Povilas TREIGYS1, Krzysztof KĄKOL2,
prof. Bożena KOSTEK3
1Vaizdų ir signalų analizės grupė, Duomenų mokslo ir skaitmeninių technologijų
institutas, Vilniaus universitetas
23PGS Software S.A., 50-086 Gdanskas, Lenkija
3Garso akustikos laboratorija, Gdansko technikos universitetas, Lenkija

Podoktorantūros stažuotės projektas
“Šnekos tyrimas esant triukšmo trukdžiams, naudojant
signalų apdorojimo ir mašininio mokymosi metodus
2021.07.05 - 2023.07.04
2
• Projekto tyrimo tikslas yra sukurti naują metodą, leidžiantį stebėti ir
pagerinti šnekos suprantamumą bei kokybę esant triukšmui, pagrįstą
triukšmo trikdžių profiliavimu ir giliuoju mokymusi.
• Projekto tyrimo objektas yra Lombardo šneka.

Lombardo efektas
3
Lombardo šneka - tai efektas, kurį 1909 m. atrado
prancūzų otolaringologas Etienne Lombardas. Šis efektas
pasireiškia tuo metu, kai kalbantysis, būdamas
triukšmingoje aplinkoje, nesąmoningai keičia tam tikras
ištartos šnekos akustines savybes.

Aktualiausi tyrimai
4
Moksliniuose tyrimuose susijusiuose su Lombardo šneka nustatyta nemažai šiam
išraiškos tipui būdingų savybių (Boril et al. 2007, Kleczkowski et al. 2017). Įrodyta, kad
kai kurios iš šių savybių pagerina šnekos suprantamumą (Lu ir kt., 2009; Korvel ir kt.,
2020). Michelsanti ir kt. (2019) įrodė, kad esant žemam signalo ir triukšmo santykiui
Lombardo efektas yra naudingas tiek šnekos kokybės, tiek suprantamumo požiūriu.
• Boril, H., Fousek, P., & Hoge, H. (2007). Two-stage system for robust neutral/Lombard speech recognition. In Eighth Annual
Conference of the International Speech Communication Association.
• Kleczkowski, P., Zak, A., & Krol-Nowak, A. (2017). Lombard effect in Polish speech and its comparison in English speech.
Archives of Acoustics, 42.
• Lu, Y., & Cooke, M. (2009). The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in
noise. Speech Communication, 51(12), 1253-1262.
• Korvel, G., Kąkol, K., Kurasova, O., & Kostek, B. (2020). Evaluation of Lombard Speech Models in the Context of Speech in Noise
Enhancement. IEEE Access, 8, 155156-155170.
• Michelsanti, D., Tan, Z. H., Sigurdsson, S., & Jensen, J. (2019). Deep-learning-based audio-visual speech enhancement in
presence of Lombard effect. Speech Communication, 115, 38-50.

Lombardo šnekos tyrimo poreikis
5
Lombardo šnekos charakteristikos kinta priklausomai nuo
triukšmo lygio. Šio tyrimo metu buvo atlikta išsami Lombardo
šnekos analizė, siekiant nustatyti akustinius skirtumus tarp
šnekos su Lombardo efektu ir be jo. Ateityje šios analizės
rezultatai leis sukurti metodą, kuris leis automatiškai stebėti ir
pagerinti šnekos rodiklius esant triukšmui.

Eksperimento duomenys (1)
8 kalbėtojai: 4 vyrai ir 4 moterys
Kalbėtojų buvo prašoma perskaityti 10 atskirų žodžių
Įrašymas vyko 2 kambariuose, kurių akustinės charakteristikos
skyrėsi:
 Kambarys su įrengta apsauga nuo triukšmo.
 Kambarys be įrengtos apsaugos nuo triukšmo.

Kambarys su įrengta apsauga
nuo triukšmo.
Kambarys be įrengtos
apsaugos nuo triukšmo.

Eksperimento duomenys (2)
Šnekos su Lombardo efektu įrašai buvo gaunami įrašymo
proceso metu per ausines grojant triukšmą.
 triukšmas su kokteilių vakarėlio efektu (stiprumas 80 dB)
 rausvasis triukšmas (stiprumas 73 dB)
 rausvasis triukšmas (stiprumas 84 dB)

Triukšmo tipas
Duomenų skistymas į kategorijas
Diktoriaus lytis
Patalpos tipas
Duomenys

Signalo dalinamas į fiksuoto ilgio
persidengiančius langus
N atskaitų
N atskaitų
N atskaitų
…
1-as langas
2-as langas
...
M-tasis langas
Rezultate gaunamas 95 matmenų parametrų vektorius.

Laiko sritiesparametrai
Sutrumpinimas Apibrėžimas
1 RMS Root Mean Square (RMS) energy
2 TC Temporal Centroid
3 ZCR Zero Crossing Rate
4-6 𝑘1, 𝑘2, 𝑘3 The number of samples exceeding levels RMS, 2× RMS,
3×RMS
7 Peak to RMS Peak to RMS
8-11 𝑝1, 𝑝2, 𝑝3, 𝑝4 The number of the signal crossings in relation to 𝑧𝑒𝑟𝑜,
𝑅𝑀𝑆, 2 × 𝑅𝑀𝑆, 3 × 𝑅𝑀𝑆
12-19 μ(𝑝1), μ(𝑝2), μ 𝑝3 ,
μ(𝑝4), 𝜎2
(𝑝1), 𝜎2
(𝑝2),
𝜎2
𝑝3 , 𝜎2
(𝑝4)
The mean and variance of signal crossings in relation to
zero, RMS, 2×RMS, 3×RMS averaged for 10 sub-segments

RMS, 2×RMS, 3×RMS lygių grafinis
atvaizdavimas

Dažnių sritiesparametrai
Sutrumpinimas Apibrėžimas
20 ASC Audio Spectral Centroid
21 ASSp Audio Spectral Spread
22 ASSk Audio Spectral Skewness
23 ASK Audio Spectral Kurtosis
24 Entropy Spectral Entropy
25 RollOff Spectral Roll-Off
26 Brightness Spectral Brightness
27-55 ASE1-ASE29 Audio Spectrum Envelope calculated on 29 sub-bands
56 ASE Mean Audio Spectrum Envelope
57-74 SFM1-SFM-18 Spectral Flatness Measure calculated on 18 sub-bands
75 SFM Mean Spectral Flatness Measure
76-95 MFCC1- MFCC20 Mel-Frequency Cepstral Coefficients

Signalas suskirstomas į vidutinės trukmės segmentus.
Kiekvienam segmentui apskaičiuojamas požymių vidurkis.
Vidutinės trukmės segmentų
statistikos apskaičiavimas
(angl. mid-term statistics)

15
Požymių vektorių
padalijimo į
vidutinės trukmės
segmentus
algoritmas

Kalbos signalo skirstymas į vidutinės trukmės
segmentus

Parametrų analizė
Parametrų analizė atliekama atsižvelgiant į:
 triukšmo tipą
 patalpos tipa
 asmens lytį

Atrinkti parametrai (rausvasis triukšmas)
Abu kambariai
Visi kalb. ASE1-ASE17, ASE24-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE15, ASE22-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE3, ASE5-ASE17, ASK, 𝜎2
(𝑝2), 𝜎2
(𝑝4), MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Kambarys su įrengta apsauga nuo triukšmo
Visi kalb. ASE1-ASE17, ASE24-ASE27, ASK, MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE14, ASE18-ASE19, ASE21-ASE26, ASE29, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE2, ASE4-ASE17, ASE24-ASE27, 𝜎2
(𝑝2), 𝜎2
(𝑝4), MFCC7, MFCC11-MFCC20, p1-p3,
Peak to RMS
Kambarys be įrengtos apsaugos nuo triukšmo
Visi kalb. ASE1-ASE17, ASE24-ASE26, ASK, MFCC7, MFCC11-MFCC20, p1-p3, Peak to RMS
Vyrai ASE1-ASE4, ASE6_ASE16, ASE23-ASE26, ASK, MFCC11-MFCC20, p1-p3, Peak to RMS
Moterys ASE1-ASE3, ASE5- ASE17, ASE24-ASE25, ASK, MFCC7, MFCC10, MFCC11-MFCC20, p1-p3,
Peak to RMS

Atrinkti parametrai (triukšmas
su kokteilių vakarėlio efektu)
Abu kambariai
Visi kalb. ASE1-ASE15, MFCC11-MFCC19, p1-p3, SFM3-SFM7, SFM16-SFM17
Vyrai ASE1-ASE17, MFCC12-MFCC19, p2-p3, q3, SFM5-SFM9, SFM17-SFM18
Moterys ASE1-ASE9, ASE24-ASE25, MFCC11-MFCC19, p1-p3, SFM3-SFM7, SFM15-SFM17, μ(𝑝2), μ(𝑝4),
𝜎2
(𝑝2), 𝜎2
(𝑝4)
The room with acoustic treatment (201 room)
Visi kalb. ASE1-ASE15, MFCC12-MFCC19, p1-p3, SFM3-SFM8, SFM16-SFM17, ASK
Vyrai ASE1-ASE3, ASE5-ASE16, ASE23-ASE24, MFCC12-MFCC19, p1-p3, SFM3-SFM9, SFM16, SFM19-SFM20
Moterys ASE1-ASE4, ASE7-ASE17, ASE23-ASE24, MFCC11-MFCC19, ASK, p1-p3, SFM3-SFM6, SFM9,
SFM17-SFM18
The room without acoustic treatment (728 room)
Visi kalb. ASE1-ASE11, ASE14-ASE15, ASE26, MFCC11, MFCC14-MFCC19, p2, q2 , SFM5-SFM7, SFM15-SFM20
Vyrai ASE1, ASE3, ASE5-ASE11, ASE22, ASE29, MFCC11-MFCC19, p2, q2 , Vq2, Vq4, 𝜎2
(𝑝2), 𝜎2
(𝑝4),
SFM5-SFM7, SFM15-SFM20
Moterys ASE1-ASE15, ASE18, ASE23- ASE25, MFCC14-MFCC19, p2, p3 q3, SFM3-SFM7, SFM9, SFM16-SFM18

Panašumo matricų konstravimas
Remiantis atrinktais parametrais konstruojamos
akustinių požymių panašumo matricos, kurios bus
naudojamos įvertinti skirtingų kalbų fonemų atpažinimo
tikslumą.

Panašumo matricų konstravimas (2)
𝒑𝑖 ir 𝒑𝑖 yra parametrai:
𝒑𝑖 = (𝑝𝑖1, 𝑝𝑖2, … , 𝑝𝑖𝑁)
𝒑𝑗 = (𝑝𝑗1, 𝑝𝑗2, … , 𝑝𝑗𝑁)
𝑖, 𝑗 ∈ [1,150]

Panašumo matricų pavyzdžiai
1. Žodis be Lobmbardo efekto (ištartas kambaryje su įrengta apsauga nuo triukšmo)
2. Žodis su Lobmbardo efektu (ištartas kambaryje su įrengta apsauga nuo triukšmo)

Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė

Recommended

Recommended

More Related Content

Similar to Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė

Similar to Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė (20)

More from Lietuvos kompiuterininkų sąjunga

More from Lietuvos kompiuterininkų sąjunga (20)

Recently uploaded

Recently uploaded (20)

Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė

Editor's Notes