This document discusses a study analyzing language variation in parliamentary speeches from Sweden regarding the topic of terrorism. It provides background on the goals of the study, including understanding discourse and improving training materials. It also shares some initial findings on the frequency of terms like "terrorism" in transcripts and automatic speech recognition (ASR) outputs. Issues with ASR errors, normalization, and variations in how phrases are pronounced are examined. Concerns over the trustworthiness of the transcripts and ASR are raised.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Language Variation in Parliamentary Speeches: First Steps Towards Robust Phoneme Recognition
1. Language Variation in Parliamentary
Speeches
First Steps Towards Robust Phoneme Recognition
2. Why?
2
● General speech science goals: how do people speak?
● Path towards better training materials, iterative training
processes
● SweTerror: multidisciplinary investigation into parliamentary
discourse around the topic of terrorism
3. Fun personal fact:
3
● I come from Ireland, home of what used to be the world’s
best known terrorist organisation.
15. Normalisation
2019-04-09
Bakhturina, E., Zhang, Y., Ginsburg, B. (2022) Shallow Fusion
of Weighted Finite-State Transducer and Language Model for
Text Normalization. Proc. Interspeech 2022, 491-495, doi:
10.21437/Interspeech.2022-11074
https://github.com/NVIDIA/NeMo-text-processing
18. ASR model:
2019-04-09
Malmsten, M., Haffenden, C., & Börjeson, L. (2022). Hearing
voices at the National Library -- a speech corpus and acoustic
model for the Swedish language. http://arxiv.org/abs/2205.03026
https://huggingface.co/KBLab/wav2vec2-large-voxrex-swedish
19. Some things were never actually said
2019-04-09
2442203180006309721 1 230.46 0.06 Jag 1.0 Jag cor
2442203180006309721 1 230.6 0.08 har 1.0 har cor
2442203180006309721 1 230.76 0.2 flera 1.0 flera cor
2442203180006309721 1 231.04 0.3 kollegor 1.0 kollegor ins
2442203180006309721 1 231.4 0.159 här 1.0 <eps> sub
2442203180006309721 1 231.76 0.02 i 1.0 i cor
2442203180006309721 1 232.08 0.399 kammaren 1.0 kammaren cor
2442203180006309721 1 232.479 0.0 <eps> 1.0 som del
2442203180006309721 1 232.479 0.0 <eps> 1.0 inte del
2442203180006309721 1 232.479 0.0 <eps> 1.0 kommer del
2442203180006309721 1 232.479 0.0 <eps> 1.0 från del
2442203180006309721 1 232.479 0.0 <eps> 1.0 Stockholm. del
20. Phrases move
2019-04-09
2442203180006309721 1 1596.22 0.099 ett 1.0 ett cor
2442203180006309721 1 1596.38 0.199 lopp 1.0 lopp cor
2442203180006309721 1 1596.579 0.0 <eps> 1.0 på del
2442203180006309721 1 1596.579 0.0 <eps> 1.0 60 del
2442203180006309721 1 1596.579 0.0 <eps> 1.0 mil del
2442203180006309721 1 1596.72 0.16 över 1.0 över cor
2442203180006309721 1 1597.0 0.119 tre 1.0 tre cor
2442203180006309721 1 1597.32 0.279 dagar 1.0 <eps> ins
2442203180006309721 1 1597.7 0.059 på 1.0 <eps> ins
2442203180006309721 1 1597.9 0.379 sextio 1.0 <eps> ins
2442203180006309721 1 1598.36 0.32 mil 1.0 dagar. sub
21. Things are added in the moment
2019-04-09
2442203180006309721 1 2324.96 0.039 vi 1.0 vi cor
2442203180006309721 1 2325.1 0.32 måste 1.0 <eps> ins
2442203180006309721 1 2325.52 0.159 höra 1.0 <eps> ins
2442203180006309721 1 2325.76 0.319 talas 1.0 <eps> ins
2442203180006309721 1 2326.12 0.039 om 1.0 <eps> ins
2442203180006309721 1 2326.22 0.08 den 1.0 <eps> ins
2442203180006309721 1 2326.34 0.099 här 1.0 <eps> ins
2442203180006309721 1 2326.48 0.5 historien 1.0 <eps> ins
2442203180006309721 1 2327.14 0.34 gång 1.0 gång cor
2442203180006309721 1 2327.58 0.039 på 1.0 på cor
27. Untrustworthy for our purposes
2019-04-09 27
Radford, A., Kim, J.W., Xu, T., Brockman, G., Mcleavey, C. & Sutskever, I.. (2023). Robust Speech Recognition via Large-Scale
Weak Supervision, in Proceedings of Machine Learning Research 202:28492-28518 Available from
https://proceedings.mlr.press/v202/radford23a.html.
28. Untrustworthy for our purposes
2019-04-09 28
(We can safely assume that this includes Riksdag’s data)
29. Disappearing “tack”
2019-04-09 29
2442207060018256921 1 13.96 0.199 tack 1.0 <eps> ins
2442207060018256921 1 14.22 0.059 Herr 1.0 Herr cor
2442207060018256921 1 14.36 0.38 talman! 1.0 talman! cor
(The official transcripts only start with “Talman!” “Herr talman!” or “Fru
talman!”)
30. Curious insertions
2019-04-09 30
00:00.000 --> 00:30.000
Tack till mina supporters via www.patreon.com
00:30.000 --> 00:34.000
Tack till mina supporters via www.patreon.com
01:00.000 --> 01:04.000
Tack till mina supporters via www.patreon.com
01:30.000 --> 01:34.000
Tack till mina supporters via www.patreon.com
02:00.000 --> 02:04.000
Tack till mina supporters via www.patreon.com
02:30.000 --> 02:34.000
Tack till mina supporters via www.patreon.com
03:00.000 --> 03:04.000
Tack till mina supporters via www.patreon.com
03:30.000 --> 03:34.000
Tack till mina supporters via www.patreon.com
36. Waxholm
36
A dialogue system that gave information on shipping in the Stockholm
archipelago
Incorporating text-to-speech, ASR, face synthesis, and dialog management
However: in the earliest versions, ASR was unavailable, so a Wizard of Oz setup
was used. The data from these sessions was transcribed at the word and
phoneme level, including non-speech events.
40. Problems
40
● Frames inconsistently labeled
● “Empty” (zero duration) frames used to mark unrealised segments
● (At least) two schools of thought regarding (generated) phoneme sequences
● Extensive copy-and-edit approach to annotation files (metadata often wrong)
46. It’s not perfect
46
Transcript: Herr talman! EU-samarbetet gör
Sverige starkare och säkrare. Hot som
klimatkrisen, pandemier, terrorism och
organiserad brottslighet kan inte lösas av ett
enskilt land.
KB: är talman eusamarbetet gör sverige starkare
och säkrare hotsom klimatkrisen pandemier
terrorism och organiserad brottslighet kan inte
lösas av ett enskilt land
Phone: hæː tɑː man eːʉːsamabeːtət jœ
̞ ːr
sværjə starkarə oː sɛːkrarə huːtsɔm
klɪmɑːtkriːsəm pandemiːər <pa> tærʊrɪsm oː
ɔrɡanɪseːrad brɔtslɪheːt kan ɪntə løːsas ɑːv et
eːnʂɪlt land
47. Pauses and hesitations
47
Transcript: Jag kan bara konstatera att ungefär 200 personer i
veckan nekas inträde i Sverige för att de inte har rätt att komma
hit, och det upptäcks tack vare de inre gränskontrollerna. Jag
kan också konstatera att Säpo gör bedömningen att
terrorhotnivån mot Sverige ligger kvar på en trea, vilket är en
ganska hög nivå som motiverar ökad säkerhet och inre
gränskontroll.
KB: vi gör kan bara konstatera att ungefär tvåhundra personer i
veckan som nekas inträde i sverige tack vare och det upptäcks
via de inre gränskontrollerna för att de inte har rätt att komma till
sverige kan också konstatera att säpo gör bedömningen att
terrorhotsnivån mot sverige ligger kvar på en trea vilket är en
ganska hög nivå vilket också motiverar ökad säkerhet och även
inre gränskontroll
Phone: vɪiːjœ
̞ ːr <pa> <hes> kam bɑːa kɔnstateːra at ɵŋefæː ʈvoː
hɵndra pæʂuːnər <pa> iː vekan sɔm neːkas ɪntrɛːdə iː sværjə
<pa> <hes> tak vɑːrə oː deː ɵptɛeks viːa dɔm ɪnrə
ɡreɛnskɔntrɔləɳa <pa> <hes> fœ
̞ ːra tɔm ɪnt ɑː ret at kɔma tɪ
sværjə <pa> <hes> kan ɔksɔ kɔnstateːra at sɛːpuː jœ
̞ ː
bedœmnɪŋn at tærɔrhʊtsnɪvoːn mʊt sværjə lɪɡə kvɑːr poː poː en
treːa <pa> vɪkət æːr eŋ ɡanska høːɡ<v> nɪvoː <pa> vɪkət ɔksɔ
mʊtɪveːrar <hes> øːkad sɛːkərheːt oː ɛːvən ɪndrəe ɡrɛnskɔntrɔl
48. Alternate pronunciation
48
Transcript: På den andra sidan har israeliska
ungdomars liv präglats av rädsla och oro för
terrorattentat. I båda länderna ökar
uppgivenheten och radikaliseringen.
KB: på den andra sidan har israeliska
ungdomars liv präglats av rädsla och oro för
terrorattentat i båda länderna ökar
uppgivenheten och radikaliseringen
Phone: poː den andra siːdan oː ɪsraeːlɪska
ɵŋdʊmaʂ liːv prɛːɡlas ɑːv rɛːdsla oː uːrʊ fœ
̞ ː
tærɔr atəntɑːt iː boːda lendæɳa øːkar
ɵpjiːvənheːtən oː radɪkalɪseːrɪŋən
49. Ongoing work
49
● Forced alignment
○ Older, HMM-style models are better at forced alignment
○ Shorter stride (10ms vs 20ms)
○ Dictionary-based
● Acoustically-validated pronunciation dictionary
○ Intersection of dictionary-derived pronunciations and phonemic transcription
○ Adding rule-based alternatives: “rs” can be /ʂ/ or /rs/
○ Dialect-specific lexica (Riksdag speakers are mostly well known)
50. Wiktionary validations (top 10)
50
Instances Word Pronunciation Narrow/broad
1161018 att at broad
746256 i iː broad
582874 det deː broad
537306 som sɔm broad
512887 på poː broad
507377 vi viː broad
373091 så soː broad
305332 av ɑːv broad
291260 om ɔm broad
211505 man man broad