Real time voice translation handig maar hoe ver staat het

Near time voice translation
Handig
Maar hoe ver staat het?

Near-real-time voice translation
• Start vanuit usecase RSZ-inspectie bij een internationaal bedrijf
• Onmiddellijk begrijpen wat iemand in een vreemde taal zegt;
• Dit lijkt voor een deel op live ondertiteling van een TV debat gevoerd in vreemde taal;
• Techniek?
• Cascade: aaneenschakeling verschillende oplossingsdelen
• Automatic Speech Recognition
• Machine Translation
• Speech synthesis: het omzetten naar gesproken woord;
• End-to-end:
• Spraakherkenning en vertaling gebeuren in een beweging;
“ Een groot brood alstublieft ”
“ 我愛海豹 ”

Vertalen ≠ tolken
• Vertalen
• Off-line
• Zo accuraat mogelijk, tijd voor nadenken
• Meestal gebaseerd op geschreven woord
• Volledige tekst en context is beschikbaar
• Tolken
• Real-time
• “Best effort”, zeer grote tijdsdruk
• Meestal gebaseerd op gesproken woord
• Toekomstige tekst en context is onbekend
• Opleidingen verschillen sterk
• Goede vertalers zijn vaak slechte tolken

Tools voor klassieke vertaling
• Automatisch vertalen is een sterk uitgebouwde industrie
• Webbased: Google/Bing/AWS Translate, Deepl, …
• Volledige werkomgevingen: Trados, memoQ, WordBee
(babelfed), …
• Vaak integratie met MS office via plugins etc.
• Taakbeheer voor grootschalig werk
• Computer Assisted Translation (CAT) tools
• Initieel sterke focus op “translation memory” (database van
eerdere vertalingen)
• Nadien in combinatie met statistical machine translation (SMT)
• Nu: SMT  deep learning
• Voor code, websites, software UX: i18n, gettext PO files, etc.

Voorbeeld van
tool voor
klassieke
vertaling: EU
eTranslation
• Krachtige en degelijke vertaaltool
voor administraties;
• Europese building block;
• 24 EU talen + Russisch, Noors,
Ijslands, Chinees
• Verschillende domein
gespecialiseerde engines: EU
formeel, algemeen, public health,
court of justice, europeana
(cultureel), IP law, …
• Docs:
https://ec.europa.eu/cefdigital/wiki
/display/CEFDIGITAL/Documentati
on+eTranslation

Vertalen van gesproken woord
Microsoft translator
True Text: aanzienlijke correctie van de spraakherkenning door
wegnemen van stopwoorden, herhalingen, getreuzel en
grammaticale fouten en toevoegen van interpunctie.

Customization
personalization
1
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask go deep to
help me
INFOGRAPHICS WITH
PHOTOS
Lattice rescoring
3
um no I mean
yes but I am I’ve
never done it my-
self did you use
yours before uh I
will ask gurdeep
to help me
Customization
personalization
2
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask gurdeep to
help me
Disfluency removal
4
yes but I’ve never
done it myself did
you use yours
before I will ask
gurdeep to help
me
Segmentation
punctuation
true casing
5
Yes.
But I’ve never
done it myself.
Did you use
yours before? I
will ask Gurdeep
to help me.
Met Truetext gaan we van een klad vol aarzelingen
naar een helder eindresultaat in vijf stappen
Startpunt is het resul-
taat van automatische
spraakherkenning
Misverstanden
worden
verbeterd
Eigennamen
worden
herkend
Om uiteindelijk
hoofdletters en
leestekens te
voorzien
En de aarzelingen
gefilterd

• Zo goed als alle speech translation systemen werken
cascaded
• Cascade modellen zetten in een eerste stap de
gesproken boodschap om in tekst via automatische
spraak herkenning;
• In een tweede stap wordt die tekst vertaald met
“Machine translation”;
• Dit geeft goede resultaten zoals bv. In Google
translate;
• Een nieuwe aanpak van Google AI (Translatotron)
vertaalt onmiddellijk de gesproken boodschap zonder
de stap om dit eerst om te zetten in tekst
Automatic Speech
Recognition

• Begin je te vertalen vanaf het eerste woord van een
zin of hoe lang kun je wachten om de vertaling te
starten?
• De Automatic Speech Recognition fouten
komen boven op vertalings fouten;
• Sneller resultaat is meer kans op fouten;
• Vb. “what her” => “water”, maar wordt pas
gecorrigeerd na woordje “atmosphere”

• End-to-end vertaling in één enkele beweging in plaats van in
cascade is nog in domein van jong wetenschappelijk onderzoek;
• Bvb SimulSpeech, juli 2020;
• Vraagt grote hoeveelheden specifiek geannoteerde data;
• Resultaten benaderen stilaan die van cascaded systemen maar staan
nog niet op dat niveau;
• Ook bij end-to-end is buffer van 1 zin haast onvermijdbaar als
woord volgorde ook correct moet zijn:
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier [deepl]
Spraak  vertaalde tekst

• Live ondertiteling is verwant aan tolken
• Meestal gebruik van Automatic Speech
Recognition achter de schermen
• Getraind op spraakprofiel van ondertitelaar
• Eigennamen en terminologie op voorhand
ingegeven
• Ondertitelaar herhaalt wat op scherm wordt
gezegd, zonder “eh” etc.
• Onbekende woorden worden getypt, bvb
“tweet”
• Courante issues:
• Regen -> Reagan ; nattigheid  natte geit ;
bewolking  bevolking
• Uitdrukkingen / idiomen letterlijk vertaald:
“break a leg”  “beenbreuk gewenst”
• Inkorting zinnen vereist bij snelle sprekers
• Werkt best bij uitzending in uitgesteld relais.
Live altijd met vertraging.
Live ondertiteling

• Vertaling van ondertitel verschijnt wel zin per zin
• Vertrekt van gegenereerde ondertitel maar kijkt
verder vooruit.
• Nogal wat woorden vallen weg
•  Biedt idee van te verwachten foutenmarge
• Moeite met scheiding tussen zinnen / interpunctie
• Verschijnt woord per woord (vermoeiend)
• Geen correctie achteraf
• Geen uitlijning met grenzen van scènes
• Achtergrondgeluid is dealbreaker
Automatische vertaling op Youtube

Youtube
• Werkt nauwelijks voor dialecten:
•
– Walt Disney is dood.
• – Ni woar! Wa-d-heet’m veur g’had?
• Evenzeer problemen bij sterke accenten,
bvb Indiaas Engels
 sterk beperkt door limieten van Automatic
Speech Recognition

• Turn-based = wachten op einde zin;
• Major providers
• Google Translate: offline enkel voor tekst en
afbeeldingen
• Microsoft Translator: offline enkel voor tekst
• Apple Translate: binnenkort op iOS 14? Geen Nederlands
• Amazon: via AWS, Alexa etc. Relatief duur ($15 / 1M
characters)
• Smartphone apps
• Basis is geschreven vertaling;
• Vaak ook gesproken vertaling mogelijk;
• iTranslate (ondersteunt NL)
• Talk&Translate
• Conversation Translator
• …
• Veel apps van slechte kwaliteit en moeilijk om
onderscheid te maken;
Vertalen van dialogen

• Welke taal wordt gesproken?
• Gerelateerd aan speaker identification / verification: wie spreekt?
• nuttig voor authenticatie;
• nuttig voor “diarization” (uit elkaar halen van verschillende sprekers in
dialoog);
• Met focus op taaldetectie alleen: slechts enkele initiatieven
• Vraagt honderden uren spraak in de te detecteren taal; (tien)duizenden
indien nauw verwante talen onderscheiden moeten worden;
• https://github.com/matiaslindgren/lidbox
• Google kan het enkel indien beperkte set van mogelijke talen wordt
gegeven;
• Fundamentele problemen:
• Je kan enkel op fonemen werken (combineren tot woorden vereist dat je de
taal al kent), die worden door veel talen gedeeld;
• Probeer als mens eens zonder veel voorkennis Hindi van Urdu te
onderscheiden;
• Van obscuurdere talen die men zou willen identificeren, bestaat sowieso nie
voldoende data om een detector te trainen.
Spoken Language Identification

• Meestal vertaling online;
• Smart Speakers (Google Home etc) / smartphones
• Allerlei Chinese fabrikanten op Amazon / Alibaba etc.
• Boeleo W1 AI translator (China)
• Travis Touch Go (NL)
• Timekettle (Singapore)
• Meerwaarde t.o.v. apps op smartphone
eerder beperkt;
• De meeste functioneren beperkt offline
• Offline vaak beperkt tot de meest courante talen
(soms Nederlands)
• Sommigen hebben sim-card
• Hardware voor (bijna) onmiddellijke vertaling van gesproken woord

• Google, Microsoft en Deepl geven op vandaag goede
resultaten voor bijna real-time vertaling;
• Op website, smartphone, smart speakers…;
• Echter steeds online  privacy concerns;
• Offline vertalen mogelijk met sommige hardware;
• End-to-end “streaming” speech translation zit nog in
onderzoeksfase maar beweegt.
Conclusie

Thank You!
Website
www.smals.be
https://www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

Real time voice translation handig maar hoe ver staat het

Recommended

Recommended

More Related Content

More from Smals

More from Smals (20)

Real time voice translation handig maar hoe ver staat het

Editor's Notes