Voorstelling van enkele technologieën om gesprekken onmiddellijk te vertalen zodat anderssprekenden elkaar kunnen begrijpen. De technologie staat al ver, maar het is nog niet perfect.
2. Near-real-time voice translation
• Start vanuit usecase RSZ-inspectie bij een internationaal bedrijf
• Onmiddellijk begrijpen wat iemand in een vreemde taal zegt;
• Dit lijkt voor een deel op live ondertiteling van een TV debat gevoerd in vreemde taal;
• Techniek?
• Cascade: aaneenschakeling verschillende oplossingsdelen
• Automatic Speech Recognition
• Machine Translation
• Speech synthesis: het omzetten naar gesproken woord;
• End-to-end:
• Spraakherkenning en vertaling gebeuren in een beweging;
“ Een groot brood alstublieft ”
“ 我愛海豹 ”
3. Vertalen ≠ tolken
• Vertalen
• Off-line
• Zo accuraat mogelijk, tijd voor nadenken
• Meestal gebaseerd op geschreven woord
• Volledige tekst en context is beschikbaar
• Tolken
• Real-time
• “Best effort”, zeer grote tijdsdruk
• Meestal gebaseerd op gesproken woord
• Toekomstige tekst en context is onbekend
• Opleidingen verschillen sterk
• Goede vertalers zijn vaak slechte tolken
4. Tools voor klassieke vertaling
• Automatisch vertalen is een sterk uitgebouwde industrie
• Webbased: Google/Bing/AWS Translate, Deepl, …
• Volledige werkomgevingen: Trados, memoQ, WordBee
(babelfed), …
• Vaak integratie met MS office via plugins etc.
• Taakbeheer voor grootschalig werk
• Computer Assisted Translation (CAT) tools
• Initieel sterke focus op “translation memory” (database van
eerdere vertalingen)
• Nadien in combinatie met statistical machine translation (SMT)
• Nu: SMT deep learning
• Voor code, websites, software UX: i18n, gettext PO files, etc.
5. Voorbeeld van
tool voor
klassieke
vertaling: EU
eTranslation
• Krachtige en degelijke vertaaltool
voor administraties;
• Europese building block;
• 24 EU talen + Russisch, Noors,
Ijslands, Chinees
• Verschillende domein
gespecialiseerde engines: EU
formeel, algemeen, public health,
court of justice, europeana
(cultureel), IP law, …
• Docs:
https://ec.europa.eu/cefdigital/wiki
/display/CEFDIGITAL/Documentati
on+eTranslation
6. Vertalen van gesproken woord
Microsoft translator
True Text: aanzienlijke correctie van de spraakherkenning door
wegnemen van stopwoorden, herhalingen, getreuzel en
grammaticale fouten en toevoegen van interpunctie.
7. Customization
personalization
1
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask go deep to
help me
INFOGRAPHICS WITH
PHOTOS
Lattice rescoring
3
um no I mean
yes but I am I’ve
never done it my-
self did you use
yours before uh I
will ask gurdeep
to help me
Customization
personalization
2
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask gurdeep to
help me
Disfluency removal
4
yes but I’ve never
done it myself did
you use yours
before I will ask
gurdeep to help
me
Segmentation
punctuation
true casing
5
Yes.
But I’ve never
done it myself.
Did you use
yours before? I
will ask Gurdeep
to help me.
Met Truetext gaan we van een klad vol aarzelingen
naar een helder eindresultaat in vijf stappen
Startpunt is het resul-
taat van automatische
spraakherkenning
Misverstanden
worden
verbeterd
Eigennamen
worden
herkend
Om uiteindelijk
hoofdletters en
leestekens te
voorzien
En de aarzelingen
gefilterd
8. • Zo goed als alle speech translation systemen werken
cascaded
• Cascade modellen zetten in een eerste stap de
gesproken boodschap om in tekst via automatische
spraak herkenning;
• In een tweede stap wordt die tekst vertaald met
“Machine translation”;
• Dit geeft goede resultaten zoals bv. In Google
translate;
• Een nieuwe aanpak van Google AI (Translatotron)
vertaalt onmiddellijk de gesproken boodschap zonder
de stap om dit eerst om te zetten in tekst
Automatic Speech
Recognition
9. • Begin je te vertalen vanaf het eerste woord van een
zin of hoe lang kun je wachten om de vertaling te
starten?
• De Automatic Speech Recognition fouten
komen boven op vertalings fouten;
• Sneller resultaat is meer kans op fouten;
• Vb. “what her” => “water”, maar wordt pas
gecorrigeerd na woordje “atmosphere”
10. • End-to-end vertaling in één enkele beweging in plaats van in
cascade is nog in domein van jong wetenschappelijk onderzoek;
• Bvb SimulSpeech, juli 2020;
• Vraagt grote hoeveelheden specifiek geannoteerde data;
• Resultaten benaderen stilaan die van cascaded systemen maar staan
nog niet op dat niveau;
• Ook bij end-to-end is buffer van 1 zin haast onvermijdbaar als
woord volgorde ook correct moet zijn:
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier [deepl]
Spraak vertaalde tekst
11. • Live ondertiteling is verwant aan tolken
• Meestal gebruik van Automatic Speech
Recognition achter de schermen
• Getraind op spraakprofiel van ondertitelaar
• Eigennamen en terminologie op voorhand
ingegeven
• Ondertitelaar herhaalt wat op scherm wordt
gezegd, zonder “eh” etc.
• Onbekende woorden worden getypt, bvb
“tweet”
• Courante issues:
• Regen -> Reagan ; nattigheid natte geit ;
bewolking bevolking
• Uitdrukkingen / idiomen letterlijk vertaald:
“break a leg” “beenbreuk gewenst”
• Inkorting zinnen vereist bij snelle sprekers
• Werkt best bij uitzending in uitgesteld relais.
Live altijd met vertraging.
Live ondertiteling
12. • Vertaling van ondertitel verschijnt wel zin per zin
• Vertrekt van gegenereerde ondertitel maar kijkt
verder vooruit.
• Nogal wat woorden vallen weg
• Biedt idee van te verwachten foutenmarge
• Moeite met scheiding tussen zinnen / interpunctie
• Verschijnt woord per woord (vermoeiend)
• Geen correctie achteraf
• Geen uitlijning met grenzen van scènes
• Achtergrondgeluid is dealbreaker
Automatische vertaling op Youtube
13. Youtube
• Werkt nauwelijks voor dialecten:
•
– Walt Disney is dood.
• – Ni woar! Wa-d-heet’m veur g’had?
• Evenzeer problemen bij sterke accenten,
bvb Indiaas Engels
sterk beperkt door limieten van Automatic
Speech Recognition
14. • Turn-based = wachten op einde zin;
• Major providers
• Google Translate: offline enkel voor tekst en
afbeeldingen
• Microsoft Translator: offline enkel voor tekst
• Apple Translate: binnenkort op iOS 14? Geen Nederlands
• Amazon: via AWS, Alexa etc. Relatief duur ($15 / 1M
characters)
• Smartphone apps
• Basis is geschreven vertaling;
• Vaak ook gesproken vertaling mogelijk;
• iTranslate (ondersteunt NL)
• Talk&Translate
• Conversation Translator
• …
• Veel apps van slechte kwaliteit en moeilijk om
onderscheid te maken;
Vertalen van dialogen
15. • Welke taal wordt gesproken?
• Gerelateerd aan speaker identification / verification: wie spreekt?
• nuttig voor authenticatie;
• nuttig voor “diarization” (uit elkaar halen van verschillende sprekers in
dialoog);
• Met focus op taaldetectie alleen: slechts enkele initiatieven
• Vraagt honderden uren spraak in de te detecteren taal; (tien)duizenden
indien nauw verwante talen onderscheiden moeten worden;
• https://github.com/matiaslindgren/lidbox
• Google kan het enkel indien beperkte set van mogelijke talen wordt
gegeven;
• Fundamentele problemen:
• Je kan enkel op fonemen werken (combineren tot woorden vereist dat je de
taal al kent), die worden door veel talen gedeeld;
• Probeer als mens eens zonder veel voorkennis Hindi van Urdu te
onderscheiden;
• Van obscuurdere talen die men zou willen identificeren, bestaat sowieso nie
voldoende data om een detector te trainen.
Spoken Language Identification
16. • Meestal vertaling online;
• Smart Speakers (Google Home etc) / smartphones
• Allerlei Chinese fabrikanten op Amazon / Alibaba etc.
• Boeleo W1 AI translator (China)
• Travis Touch Go (NL)
• Timekettle (Singapore)
• Meerwaarde t.o.v. apps op smartphone
eerder beperkt;
• De meeste functioneren beperkt offline
• Offline vaak beperkt tot de meest courante talen
(soms Nederlands)
• Sommigen hebben sim-card
• Hardware voor (bijna) onmiddellijke vertaling van gesproken woord
17. • Google, Microsoft en Deepl geven op vandaag goede
resultaten voor bijna real-time vertaling;
• Op website, smartphone, smart speakers…;
• Echter steeds online privacy concerns;
• Offline vertalen mogelijk met sommige hardware;
• End-to-end “streaming” speech translation zit nog in
onderzoeksfase maar beweegt.
Conclusie