SlideShare a Scribd company logo
1 of 18
Near time voice translation
Handig
Maar hoe ver staat het?
Near-real-time voice translation
• Start vanuit usecase RSZ-inspectie bij een internationaal bedrijf
• Onmiddellijk begrijpen wat iemand in een vreemde taal zegt;
• Dit lijkt voor een deel op live ondertiteling van een TV debat gevoerd in vreemde taal;
• Techniek?
• Cascade: aaneenschakeling verschillende oplossingsdelen
• Automatic Speech Recognition
• Machine Translation
• Speech synthesis: het omzetten naar gesproken woord;
• End-to-end:
• Spraakherkenning en vertaling gebeuren in een beweging;
“ Een groot brood alstublieft ”
“ 我愛海豹 ”
Vertalen ≠ tolken
• Vertalen
• Off-line
• Zo accuraat mogelijk, tijd voor nadenken
• Meestal gebaseerd op geschreven woord
• Volledige tekst en context is beschikbaar
• Tolken
• Real-time
• “Best effort”, zeer grote tijdsdruk
• Meestal gebaseerd op gesproken woord
• Toekomstige tekst en context is onbekend
• Opleidingen verschillen sterk
• Goede vertalers zijn vaak slechte tolken
Tools voor klassieke vertaling
• Automatisch vertalen is een sterk uitgebouwde industrie
• Webbased: Google/Bing/AWS Translate, Deepl, …
• Volledige werkomgevingen: Trados, memoQ, WordBee
(babelfed), …
• Vaak integratie met MS office via plugins etc.
• Taakbeheer voor grootschalig werk
• Computer Assisted Translation (CAT) tools
• Initieel sterke focus op “translation memory” (database van
eerdere vertalingen)
• Nadien in combinatie met statistical machine translation (SMT)
• Nu: SMT  deep learning
• Voor code, websites, software UX: i18n, gettext PO files, etc.
Voorbeeld van
tool voor
klassieke
vertaling: EU
eTranslation
• Krachtige en degelijke vertaaltool
voor administraties;
• Europese building block;
• 24 EU talen + Russisch, Noors,
Ijslands, Chinees
• Verschillende domein
gespecialiseerde engines: EU
formeel, algemeen, public health,
court of justice, europeana
(cultureel), IP law, …
• Docs:
https://ec.europa.eu/cefdigital/wiki
/display/CEFDIGITAL/Documentati
on+eTranslation
Vertalen van gesproken woord
Microsoft translator
True Text: aanzienlijke correctie van de spraakherkenning door
wegnemen van stopwoorden, herhalingen, getreuzel en
grammaticale fouten en toevoegen van interpunctie.
Customization
personalization
1
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask go deep to
help me
INFOGRAPHICS WITH
PHOTOS
Lattice rescoring
3
um no I mean
yes but I am I’ve
never done it my-
self did you use
yours before uh I
will ask gurdeep
to help me
Customization
personalization
2
um no I mean
yes but I am I’ve
never done it
myself did users
before uh I will
ask gurdeep to
help me
Disfluency removal
4
yes but I’ve never
done it myself did
you use yours
before I will ask
gurdeep to help
me
Segmentation
punctuation
true casing
5
Yes.
But I’ve never
done it myself.
Did you use
yours before? I
will ask Gurdeep
to help me.
Met Truetext gaan we van een klad vol aarzelingen
naar een helder eindresultaat in vijf stappen
Startpunt is het resul-
taat van automatische
spraakherkenning
Misverstanden
worden
verbeterd
Eigennamen
worden
herkend
Om uiteindelijk
hoofdletters en
leestekens te
voorzien
En de aarzelingen
gefilterd
• Zo goed als alle speech translation systemen werken
cascaded
• Cascade modellen zetten in een eerste stap de
gesproken boodschap om in tekst via automatische
spraak herkenning;
• In een tweede stap wordt die tekst vertaald met
“Machine translation”;
• Dit geeft goede resultaten zoals bv. In Google
translate;
• Een nieuwe aanpak van Google AI (Translatotron)
vertaalt onmiddellijk de gesproken boodschap zonder
de stap om dit eerst om te zetten in tekst
Automatic Speech
Recognition
• Begin je te vertalen vanaf het eerste woord van een
zin of hoe lang kun je wachten om de vertaling te
starten?
• De Automatic Speech Recognition fouten
komen boven op vertalings fouten;
• Sneller resultaat is meer kans op fouten;
• Vb. “what her” => “water”, maar wordt pas
gecorrigeerd na woordje “atmosphere”
• End-to-end vertaling in één enkele beweging in plaats van in
cascade is nog in domein van jong wetenschappelijk onderzoek;
• Bvb SimulSpeech, juli 2020;
• Vraagt grote hoeveelheden specifiek geannoteerde data;
• Resultaten benaderen stilaan die van cascaded systemen maar staan
nog niet op dat niveau;
• Ook bij end-to-end is buffer van 1 zin haast onvermijdbaar als
woord volgorde ook correct moet zijn:
Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan
Je me suis rendu rapidement à Anvers samedi dernier [deepl]
Spraak  vertaalde tekst
• Live ondertiteling is verwant aan tolken
• Meestal gebruik van Automatic Speech
Recognition achter de schermen
• Getraind op spraakprofiel van ondertitelaar
• Eigennamen en terminologie op voorhand
ingegeven
• Ondertitelaar herhaalt wat op scherm wordt
gezegd, zonder “eh” etc.
• Onbekende woorden worden getypt, bvb
“tweet”
• Courante issues:
• Regen -> Reagan ; nattigheid  natte geit ;
bewolking  bevolking
• Uitdrukkingen / idiomen letterlijk vertaald:
“break a leg”  “beenbreuk gewenst”
• Inkorting zinnen vereist bij snelle sprekers
• Werkt best bij uitzending in uitgesteld relais.
Live altijd met vertraging.
Live ondertiteling
• Vertaling van ondertitel verschijnt wel zin per zin
• Vertrekt van gegenereerde ondertitel maar kijkt
verder vooruit.
• Nogal wat woorden vallen weg
•  Biedt idee van te verwachten foutenmarge
• Moeite met scheiding tussen zinnen / interpunctie
• Verschijnt woord per woord (vermoeiend)
• Geen correctie achteraf
• Geen uitlijning met grenzen van scènes
• Achtergrondgeluid is dealbreaker
Automatische vertaling op Youtube
Youtube
• Werkt nauwelijks voor dialecten:
•
– Walt Disney is dood.
• – Ni woar! Wa-d-heet’m veur g’had?
• Evenzeer problemen bij sterke accenten,
bvb Indiaas Engels
 sterk beperkt door limieten van Automatic
Speech Recognition
• Turn-based = wachten op einde zin;
• Major providers
• Google Translate: offline enkel voor tekst en
afbeeldingen
• Microsoft Translator: offline enkel voor tekst
• Apple Translate: binnenkort op iOS 14? Geen Nederlands
• Amazon: via AWS, Alexa etc. Relatief duur ($15 / 1M
characters)
• Smartphone apps
• Basis is geschreven vertaling;
• Vaak ook gesproken vertaling mogelijk;
• iTranslate (ondersteunt NL)
• Talk&Translate
• Conversation Translator
• …
• Veel apps van slechte kwaliteit en moeilijk om
onderscheid te maken;
Vertalen van dialogen
• Welke taal wordt gesproken?
• Gerelateerd aan speaker identification / verification: wie spreekt?
• nuttig voor authenticatie;
• nuttig voor “diarization” (uit elkaar halen van verschillende sprekers in
dialoog);
• Met focus op taaldetectie alleen: slechts enkele initiatieven
• Vraagt honderden uren spraak in de te detecteren taal; (tien)duizenden
indien nauw verwante talen onderscheiden moeten worden;
• https://github.com/matiaslindgren/lidbox
• Google kan het enkel indien beperkte set van mogelijke talen wordt
gegeven;
• Fundamentele problemen:
• Je kan enkel op fonemen werken (combineren tot woorden vereist dat je de
taal al kent), die worden door veel talen gedeeld;
• Probeer als mens eens zonder veel voorkennis Hindi van Urdu te
onderscheiden;
• Van obscuurdere talen die men zou willen identificeren, bestaat sowieso nie
voldoende data om een detector te trainen.
Spoken Language Identification
• Meestal vertaling online;
• Smart Speakers (Google Home etc) / smartphones
• Allerlei Chinese fabrikanten op Amazon / Alibaba etc.
• Boeleo W1 AI translator (China)
• Travis Touch Go (NL)
• Timekettle (Singapore)
• Meerwaarde t.o.v. apps op smartphone
eerder beperkt;
• De meeste functioneren beperkt offline
• Offline vaak beperkt tot de meest courante talen
(soms Nederlands)
• Sommigen hebben sim-card
• Hardware voor (bijna) onmiddellijke vertaling van gesproken woord
• Google, Microsoft en Deepl geven op vandaag goede
resultaten voor bijna real-time vertaling;
• Op website, smartphone, smart speakers…;
• Echter steeds online  privacy concerns;
• Offline vertalen mogelijk met sommige hardware;
• End-to-end “streaming” speech translation zit nog in
onderzoeksfase maar beweegt.
Conclusie
Thank You!
Website
www.smals.be
https://www.smalsresearch.be/
Phone
+3227875928
Email
research@smals.be

More Related Content

More from Smals

More from Smals (20)

Wat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we zeWat zijn chatbots en waarvoor gebruiken we ze
Wat zijn chatbots en waarvoor gebruiken we ze
 
Wat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nlWat is augmented reality en waarvoor gebruiken we het nl
Wat is augmented reality en waarvoor gebruiken we het nl
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
 
Natural language generation nederlands
Natural language generation nederlandsNatural language generation nederlands
Natural language generation nederlands
 
Wat is ai en wat kan het nl
Wat is ai en wat kan het nlWat is ai en wat kan het nl
Wat is ai en wat kan het nl
 
Realite augmentee
Realite augmenteeRealite augmentee
Realite augmentee
 
Internet des objets
Internet des objetsInternet des objets
Internet des objets
 
Chatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sertChatbots comment ca marche a quoi ca sert
Chatbots comment ca marche a quoi ca sert
 
Analyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sertAnalyse predictive comment ca marche a quoi ca sert
Analyse predictive comment ca marche a quoi ca sert
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introduction
 
Automatisation des processus robotises introduction
Automatisation des processus robotises introductionAutomatisation des processus robotises introduction
Automatisation des processus robotises introduction
 
Interfaces conversationnelle introduction
Interfaces conversationnelle introductionInterfaces conversationnelle introduction
Interfaces conversationnelle introduction
 
Reconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introductionReconnaissance d'entites nommees introduction
Reconnaissance d'entites nommees introduction
 
Generation automatique de textes
Generation automatique de textesGeneration automatique de textes
Generation automatique de textes
 
Intelligence artificielle etroite introduction
Intelligence artificielle etroite introductionIntelligence artificielle etroite introduction
Intelligence artificielle etroite introduction
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Wat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruikenWat is predictive analytics en waarvoor kun je het gebruiken
Wat is predictive analytics en waarvoor kun je het gebruiken
 
Wat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doenWat is robotic process automation en wat kun je er mee doen
Wat is robotic process automation en wat kun je er mee doen
 
Exemples europeens comme source d inspiration
Exemples europeens comme source d inspirationExemples europeens comme source d inspiration
Exemples europeens comme source d inspiration
 
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruikenWat zijn conversational interfaces en waarvoor kun je ze gebruiken
Wat zijn conversational interfaces en waarvoor kun je ze gebruiken
 

Real time voice translation handig maar hoe ver staat het

  • 1. Near time voice translation Handig Maar hoe ver staat het?
  • 2. Near-real-time voice translation • Start vanuit usecase RSZ-inspectie bij een internationaal bedrijf • Onmiddellijk begrijpen wat iemand in een vreemde taal zegt; • Dit lijkt voor een deel op live ondertiteling van een TV debat gevoerd in vreemde taal; • Techniek? • Cascade: aaneenschakeling verschillende oplossingsdelen • Automatic Speech Recognition • Machine Translation • Speech synthesis: het omzetten naar gesproken woord; • End-to-end: • Spraakherkenning en vertaling gebeuren in een beweging; “ Een groot brood alstublieft ” “ 我愛海豹 ”
  • 3. Vertalen ≠ tolken • Vertalen • Off-line • Zo accuraat mogelijk, tijd voor nadenken • Meestal gebaseerd op geschreven woord • Volledige tekst en context is beschikbaar • Tolken • Real-time • “Best effort”, zeer grote tijdsdruk • Meestal gebaseerd op gesproken woord • Toekomstige tekst en context is onbekend • Opleidingen verschillen sterk • Goede vertalers zijn vaak slechte tolken
  • 4. Tools voor klassieke vertaling • Automatisch vertalen is een sterk uitgebouwde industrie • Webbased: Google/Bing/AWS Translate, Deepl, … • Volledige werkomgevingen: Trados, memoQ, WordBee (babelfed), … • Vaak integratie met MS office via plugins etc. • Taakbeheer voor grootschalig werk • Computer Assisted Translation (CAT) tools • Initieel sterke focus op “translation memory” (database van eerdere vertalingen) • Nadien in combinatie met statistical machine translation (SMT) • Nu: SMT  deep learning • Voor code, websites, software UX: i18n, gettext PO files, etc.
  • 5. Voorbeeld van tool voor klassieke vertaling: EU eTranslation • Krachtige en degelijke vertaaltool voor administraties; • Europese building block; • 24 EU talen + Russisch, Noors, Ijslands, Chinees • Verschillende domein gespecialiseerde engines: EU formeel, algemeen, public health, court of justice, europeana (cultureel), IP law, … • Docs: https://ec.europa.eu/cefdigital/wiki /display/CEFDIGITAL/Documentati on+eTranslation
  • 6. Vertalen van gesproken woord Microsoft translator True Text: aanzienlijke correctie van de spraakherkenning door wegnemen van stopwoorden, herhalingen, getreuzel en grammaticale fouten en toevoegen van interpunctie.
  • 7. Customization personalization 1 um no I mean yes but I am I’ve never done it myself did users before uh I will ask go deep to help me INFOGRAPHICS WITH PHOTOS Lattice rescoring 3 um no I mean yes but I am I’ve never done it my- self did you use yours before uh I will ask gurdeep to help me Customization personalization 2 um no I mean yes but I am I’ve never done it myself did users before uh I will ask gurdeep to help me Disfluency removal 4 yes but I’ve never done it myself did you use yours before I will ask gurdeep to help me Segmentation punctuation true casing 5 Yes. But I’ve never done it myself. Did you use yours before? I will ask Gurdeep to help me. Met Truetext gaan we van een klad vol aarzelingen naar een helder eindresultaat in vijf stappen Startpunt is het resul- taat van automatische spraakherkenning Misverstanden worden verbeterd Eigennamen worden herkend Om uiteindelijk hoofdletters en leestekens te voorzien En de aarzelingen gefilterd
  • 8. • Zo goed als alle speech translation systemen werken cascaded • Cascade modellen zetten in een eerste stap de gesproken boodschap om in tekst via automatische spraak herkenning; • In een tweede stap wordt die tekst vertaald met “Machine translation”; • Dit geeft goede resultaten zoals bv. In Google translate; • Een nieuwe aanpak van Google AI (Translatotron) vertaalt onmiddellijk de gesproken boodschap zonder de stap om dit eerst om te zetten in tekst Automatic Speech Recognition
  • 9. • Begin je te vertalen vanaf het eerste woord van een zin of hoe lang kun je wachten om de vertaling te starten? • De Automatic Speech Recognition fouten komen boven op vertalings fouten; • Sneller resultaat is meer kans op fouten; • Vb. “what her” => “water”, maar wordt pas gecorrigeerd na woordje “atmosphere”
  • 10. • End-to-end vertaling in één enkele beweging in plaats van in cascade is nog in domein van jong wetenschappelijk onderzoek; • Bvb SimulSpeech, juli 2020; • Vraagt grote hoeveelheden specifiek geannoteerde data; • Resultaten benaderen stilaan die van cascaded systemen maar staan nog niet op dat niveau; • Ook bij end-to-end is buffer van 1 zin haast onvermijdbaar als woord volgorde ook correct moet zijn: Ik ben afgelopen zaterdag nog snel even naar Antwerpen gegaan Je me suis rendu rapidement à Anvers samedi dernier [deepl] Spraak  vertaalde tekst
  • 11. • Live ondertiteling is verwant aan tolken • Meestal gebruik van Automatic Speech Recognition achter de schermen • Getraind op spraakprofiel van ondertitelaar • Eigennamen en terminologie op voorhand ingegeven • Ondertitelaar herhaalt wat op scherm wordt gezegd, zonder “eh” etc. • Onbekende woorden worden getypt, bvb “tweet” • Courante issues: • Regen -> Reagan ; nattigheid  natte geit ; bewolking  bevolking • Uitdrukkingen / idiomen letterlijk vertaald: “break a leg”  “beenbreuk gewenst” • Inkorting zinnen vereist bij snelle sprekers • Werkt best bij uitzending in uitgesteld relais. Live altijd met vertraging. Live ondertiteling
  • 12. • Vertaling van ondertitel verschijnt wel zin per zin • Vertrekt van gegenereerde ondertitel maar kijkt verder vooruit. • Nogal wat woorden vallen weg •  Biedt idee van te verwachten foutenmarge • Moeite met scheiding tussen zinnen / interpunctie • Verschijnt woord per woord (vermoeiend) • Geen correctie achteraf • Geen uitlijning met grenzen van scènes • Achtergrondgeluid is dealbreaker Automatische vertaling op Youtube
  • 13. Youtube • Werkt nauwelijks voor dialecten: • – Walt Disney is dood. • – Ni woar! Wa-d-heet’m veur g’had? • Evenzeer problemen bij sterke accenten, bvb Indiaas Engels  sterk beperkt door limieten van Automatic Speech Recognition
  • 14. • Turn-based = wachten op einde zin; • Major providers • Google Translate: offline enkel voor tekst en afbeeldingen • Microsoft Translator: offline enkel voor tekst • Apple Translate: binnenkort op iOS 14? Geen Nederlands • Amazon: via AWS, Alexa etc. Relatief duur ($15 / 1M characters) • Smartphone apps • Basis is geschreven vertaling; • Vaak ook gesproken vertaling mogelijk; • iTranslate (ondersteunt NL) • Talk&Translate • Conversation Translator • … • Veel apps van slechte kwaliteit en moeilijk om onderscheid te maken; Vertalen van dialogen
  • 15. • Welke taal wordt gesproken? • Gerelateerd aan speaker identification / verification: wie spreekt? • nuttig voor authenticatie; • nuttig voor “diarization” (uit elkaar halen van verschillende sprekers in dialoog); • Met focus op taaldetectie alleen: slechts enkele initiatieven • Vraagt honderden uren spraak in de te detecteren taal; (tien)duizenden indien nauw verwante talen onderscheiden moeten worden; • https://github.com/matiaslindgren/lidbox • Google kan het enkel indien beperkte set van mogelijke talen wordt gegeven; • Fundamentele problemen: • Je kan enkel op fonemen werken (combineren tot woorden vereist dat je de taal al kent), die worden door veel talen gedeeld; • Probeer als mens eens zonder veel voorkennis Hindi van Urdu te onderscheiden; • Van obscuurdere talen die men zou willen identificeren, bestaat sowieso nie voldoende data om een detector te trainen. Spoken Language Identification
  • 16. • Meestal vertaling online; • Smart Speakers (Google Home etc) / smartphones • Allerlei Chinese fabrikanten op Amazon / Alibaba etc. • Boeleo W1 AI translator (China) • Travis Touch Go (NL) • Timekettle (Singapore) • Meerwaarde t.o.v. apps op smartphone eerder beperkt; • De meeste functioneren beperkt offline • Offline vaak beperkt tot de meest courante talen (soms Nederlands) • Sommigen hebben sim-card • Hardware voor (bijna) onmiddellijke vertaling van gesproken woord
  • 17. • Google, Microsoft en Deepl geven op vandaag goede resultaten voor bijna real-time vertaling; • Op website, smartphone, smart speakers…; • Echter steeds online  privacy concerns; • Offline vertalen mogelijk met sommige hardware; • End-to-end “streaming” speech translation zit nog in onderzoeksfase maar beweegt. Conclusie

Editor's Notes

  1. IT crowd sketch: https://youtu.be/VZrp7mAmeRI?t=90
  2. Intro tot ASR lecture: https://www.youtube.com/watch?v=q67z7PTGRi8
  3. https://www.stichtinghoormij.nl/items/nl-nl/nieuws/voor-iedereen/de-grootste-valkuilen-voor-ondertitelaars
  4. Origineel: https://www.youtube.com/watch?v=u1gCoW9-2K8
  5. https://www.youtube.com/watch?v=wTSO91rV5fo Minstens evengoed voorbeeld: https://www.youtube.com/watch?v=ip6DtLvDbKo
  6. https://techcrunch.com/2020/06/22/apples-new-translate-app-works-offline-with-11-languages/
  7. https://www.youtube.com/watch?v=cyL4UkVh_oQ&feature=youtu.be
  8. Zie https://www.talendomein.nl/realtime-vertaalapparaat-draagbare-vertaler.html
  9. Zie mail Bart Defrancq Ugent