SlideShare a Scribd company logo
1 of 53
Combining, Adapting and Reusing Bi-texts
between Related Languages:
Application to Statistical Machine Translation
Preslav Nakov, Qatar Computing Research Institute
(collaborators: Jorg Tiedemann, Pidong Wang, Hwee Tou Ng)
Yandex seminar
August 13, 2014, Moscow, Russia
2
Plan
• Part I
- Introduction to Statistical Machine Translation
• Part II
- Combining, Adapting and Reusing Bi-texts between Related
Languages: Application to Statistical Machine Translation
• Part III
- Further Discussion on SMT
3
Machine Translation:
Hard or Easy?
4
Why is Machine Translation Hard?
• Word order
- En: I want beer.
- Tr: Ben bira istiyorum.
• Lexical ambiguity
- Ru: Штирлиц топил печку. Через час печка утонула.
• Pronouns, coreference
- Ru: Если ребенок не любит холодное молоко, сварите его.
- En: If the baby does not like cold milk, boil it/him.
• Idioms
- Ru: Петр приказал долго жить.
- En: Peter kicked the bucket.
5
Why is Machine Translation Hard?
6
Natural Language is Ambiguous
7
Ambiguity in Russian: Idioms
8
Ambiguity in Russian: Names
9
Ambiguity in Russian: Stress
10
11
Russian Jokes about Stierlitz
• Штирлиц топил печку. Через час печка утонула.
• Встретив гестаповцев, Штирлиц выхватил шашку и
закричал: "Порублю!" Гестаповцы скинулись по рублю
и убежали.
• Штирлиц шёл по лесу и увидел голубые ели. Штирлиц
присмотрелся и увидел, что голубые не только ели, но
и пили.
• Штирлиц подошёл к окну. Из окна дуло. Штирлиц
закрыл окно. Дуло исчезло.
http://olgakagan.blog.com/2012/01/28/homonymy-in-russian-jokes-about-stierlitz/
12
Russian Jokes about Stierlitz
http://olgakagan.blog.com/2012/01/28/homonymy-in-russian-jokes-about-stierlitz/
• Штирлиц выстрелил в Мюллера в упор. Мюллер не
упал. “Броневой,”- подумал Штирлиц.
• Лампа светила, но света не давала. Штирлиц погасил
лампу и Света дала.
• Штирлиц шёл по лесу и наткнулся на сук. “Шли бы вы
домой, девушки. Война всё-таки!”
• Штирлиц лёг на гальку. Галька вскрикнула и убежала.
• Штирлиц сел в машину. "Всё, можно трогать!"- сказал
он. "Ого-го!"- потрогала Кэт.
13
When is Machine Translation Easy?
• Very closely related languages
- similar word order, grammar
• Legal Texts
- many repetitions
• Caterpillar English
- simplified to make MT easy
14
Translating a European Convention:
English Bulgarian
English (orig.) Human Translation Computer Translation
European Convention on Mutual Аssistance
in Criminal Matters
Preamble
The governments signatory hereto, being
members of the Council of Europe,
considering that the aim of the Council of
Europe is to achieve greater unity among its
members;
believing that the adoption of common rules
in the field of mutual assistance in criminal
matters will contribute to the attainment of
this aim;
considering that such mutual assistance is
related to the question of extradition, which
has already formed the subject of a
convention signed on 13th december 1957,
have agreed as follows:
Европейска конвенция за взаимопомощ
по наказателно-правни въпроси
Преамбюл
Правителствата, подписали тази
конвенция, в качеството си на членове на
Съвета на Европа,
считайки, че целта на Съвета на Европа е
да се постигне по-голямо единство между
неговите членове,
убедени, че приемането на общи правила
в областта на правната помощ по
наказателни дела ще допринесе за
постигането на тази цел,
считайки, че правната помощ е свързана с
въпроса за екстрадицията, която вече бе
предмет на конвенцията, подписана на 13
декември 1957 година,
се споразумяха за следното:
Европейска конвенция за взаимопомощ
по наказателно-правни въпроси
Преамбюл
Правителствата, подписали този протокол,
членове на Съвета на Европа,
считайки, че целта на Съвета на Европа е
постигането на по-голямо единство между
своите членове,
убедени, че приемане на общи правила в
областта на правна помощ по наказателни
дела ще допринесе за постигането на тази
цел,
считайки, че тази взаимна помощ е
свързана с въпроса за екстрадиция, който
вече е образувано предмет на конвенция,
подписана в 13th декември 1957 година,
се споразумяха за следното:
15
Adapting „Macedonian“ to Bulgarian
„Macedonian” Human Translation Computer Translation
СКОПЈЕ, Македонија -- Според
дипломатски извори, првата мировна
мисија на ЕУ, која ќе биде распоредена во
Македонија на 31-ви март, ќе го носи
името Конкордија.
Околу 27 земји навестија подготвеност да
учествуваат во шестмесечната мисија.
Се очекува македонскиот Парламент в
среда (26-ти март) да го одобри нацрт
договорот за статусот на силите на ЕУ, со
кој на трупите на Унијата им се гарантира
дипломатски статус и имунитет.
Во вторникот, во меѓувреме, во Скопје
започна меѓународна конференција за
децентрализација, при што заменик-
премиерот Муса Џафери го одржа
воведниот говор.
Во другите вести, претседателот Борис
Трајковски за Утрински весник потврди
дека експертски тим на министерствата за
внатрешни работи и за одбрана ја завршил
својата работа на првата национална
стратегија за безбедност и одбрана.
СКОПИЕ, Македония -- Първата
мироопазваща мисия на ЕС, която ще бъде
разположена в Македония на 31 март, ще
се нарича "Конкордия", съобщиха
дипломатически източници.
Тя ще продължи шест месеца. Около 27
страни са заявили желание да участват нея.
Очаква се македонският парламент да
одобри проекта на Споразумението за
статута на силите в сряда (26 март),
гарантирайки по този начин
дипломатически статут и имунитет на
съюзническия контингент.
Междувременно, във вторник в Скопие
започна международна конференция по
въпросите на децентрализацията. Тя бе
открита с реч на вицепремиера Муса
Джафери.
В други новини, президентът Борис
Трайковски потвърди за Утрински весник,
че екипът от експерти към министерствата
на вътрешните работи и отбраната е
завършил работата си по проекта за
националната стратегия за сигурност и
отбрана.
СКОПИЕ, Македония - Според
дипломатически източници, първата
мироопазваща мисия на ЕС, която ще бъде
разположена в Македония на 31 март, ще
носи името на Конкордия.
Около 27 страни намекнаха готовност да
участват в шестмесечната мисия.
Очаква се македонският парламент в
сряда (26 март) да одобри проект на
споразумението за статута на силите на ЕС,
с който на войниците на съюза да се
гарантира дипломатически статут и
имунитет.
Междувременно, във вторник в Скопие
започна международна конференция,
посветена на децентрализацията и
вицепремиерът Муса Джафери изнесена
изказването.
Други новини, президентът Борис
Трайковски за Утрински вестник, че
експертен екип на министерствата на
вътрешните работи и отбраната е
завършил работата си на първата
национална стратегия за сигурност и
отбрана.
16
Summary: Machine Translation Today
• Usable technology
– Translation memories
– Web translation
– “Caterpillar” English
• New profession
– post-editor
• MT will never replace human translators
– Computers cannot be held legally responsible
17
Big Companies
Care About SMT
18
SDL – First To Invest In SMT
19
Lionbridge Partners with IBM
20
Facebook Buys SMT Company
21
Old-Timer Systran Finds New Home
22
eBay Considers SMT To Open New Markets
23
Adobe Supports Open Source SMT
24
Intel Investigates MT
25
The Big Dream of NLP
Dave Bowman: “Open the pod bay doors, HAL”
HAL 9000: “I’m sorry Dave. I’m afraid I can’t do that.”
26
Future Directions
27
Two Important Directions
• Semantics
• Machine Translation
Critical for the overall
advancement of the field
Practical, within the reach
of current technology
28
Two Important Directions
•Semantics
• Machine Translation
29
Semantics: Revolution is Needed?
• If we want the dream come true, we should
– not rely on superficial statistics alone
– need to get to the meaning of text
• A revolution in semantics is needed
– looking at words is not enough
– we need better models for
• multi-word expressions (~70% of terminology)
• semantic relations (meaning is in the links!)
• The revolution will be supported by
– Web-scale corpora
– linguistic knowledge
“Moving Lexical Semantics
from Alchemy to Science”
Discussion on [Corpora-List]
• This is what Chomsky has
done with syntax.
• Should we expect the same
for lexical semantics?
30
Two Important Directions
• Semantics
•Machine Translation
31
Machine Translation
• The task that started the whole NLP field
• The hottest research topic today
• High practical and economic expectations
32
Machine Translation: Evolution?
• Evolution?
- Resource-poor language pairs
- Morphologically rich languages
- Smarter Web-scale translation models
- Noisy input
o spoken language
o emails, chats, forums, Twitter
o poetry
33
Machine Translation: Revolution?
• Revolution?
– Two great revolutions so far
• 1993: statistical word-based translation
• 2003: statistical phrase-based translation
34
Machine Translation: Revolution?
• Revolution?
– Two great revolutions so far
• 1993: statistical word-based translation
• 2003: statistical phrase-based translation
– Overdue for the next revolution?
• 2013: ???
– Syntactic translation?
– Semantic translation?
SOURCE TARGET
words words
syntax syntax
semantics semantics
interlingua
phrases phrases
35
Machine Translation: Revolution?
• Revolution?
– Two great revolutions so far
• 1993: statistical word-based translation
• 2003: statistical phrase-based translation
– Overdue for the next revolution?
• 2013: ???
– Syntactic translation?
– Semantic translation?
SOURCE TARGET
words words
syntax syntax
semantics semantics
interlingua
phrases phrases
Or maybe a return of deep neural networks?
• Already started a little revolution in speech recognition
• Very strong results for SMT, best paper award at ACL’2014
(Devlin&al., ACL 2014)
• Very strong results for semantics too (word embedding)
36
The Future?
Three words: Web, semantics, linguistics
and deep neural networks?
37
QCRI
38
Qatar
39
Qatar
40
Qatar
EMNLP 2014
41
Qatar
42
Qatar
43
Qatar
44
Vision and Mission
Become a world-leader in
Arabic language technologies
Conduct innovative and strategic
research and development
with local and global impact.
45
The ALT Research Areas
• Build strong foundation: Arabic NLP
• 2 flagship projects
• 3 supplementary focus areas
motivated by local needs
Multi-lingual
LanguageProcessing:
Transcriptionand
Translation
Searchand
Information
Extraction
Interactive
QuestionAnswering
Doha22
Educational
Applications
Arabic NLP Stack
Tools and ResourcesArabic
Optical
Character
Recognition
46
Dr. Preslav Nakov
Senior Scientist
Ahmed Ali
Senior Software Eng.
Abdulrahman Ghanem
Software Engineer
Dr. Kareem Darwish
Senior Scientist
Dr. Stephan Vogel
Principal Scientist
Dr. Francisco Guzman
Scientist
Dr. Walid Magdy
Scientist
Dr. Hassan Sajjad
Scientist
Dr. Shafiq Joty
Scientist
Dr. Alessandro
Moschitti
Senior Scientist
Yifan Zhang
Senior Software Eng
Dr Ahmed Abdelali
Senior Software Eng
Hamdy Mubarak
Senior Software Eng.
Dr. Lluis Marquez
Principal Scientist
Dr. Ferda Ofli
Scientist
The ALT Team
Fahad Al-Obaidli
Research Assistant
plus interns …
47
Machine Translation
at QCRI
48
Speech Translation
News
Lectures
Meetings
49
Application: News Translation
• Objective: high quality speech recognition and translation
• Enable video search
• Collaboration with Aljazeera
http://alt.qcri.org/QCRI_Demo/Speech_Recognition.html
50
Application: Lecture Translation
• Objective: enable wider reach of educational material
• Primarily English -> Arabic
51
Application: Meeting Translation
• Objective: real-time, low-latency translation
• Flexible architecture based on cutting-edge technology
The main objective of this internship was to build a robust backend for the Meeting
Translation Project. The idea was to integrate a completely redesigned frontend with the
Recognition and Translations services available at the backend. The integration would
consist of the following:
1. Get the user's voice from the frontend to our servers
2. Transcribe the user's voice
3. Translate the transcriptions(into multiple languages if required)
4. Get the transcriptions/translations back to the user
The system was also to be multiplexed, so that multiple users in multiple meetings can
use the system at the same time. This is necessary for the end system, as the goal of the
project is to enable interaction between multiple users speaking multiple languages in a
meeting.
52
The Future: „Ubiquitous“ Translation
Google glass
Smart glass
‫صحح؟‬
53
Acknowledgments
• Used some slides by George Doddington, John Hutchins,
Kevin Knight, Jonas Kuhn, Dan Klein, Philipp Koehn,
Daniel Marcu, Drago Radev, Arturo Trujillo, Stephan Vogel,
C. Wayne, Kenji Yamada, etc.

More Related Content

More from Yandex

Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Yandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Yandex
 
Beminar js
Beminar jsBeminar js
Beminar js
Yandex
 

More from Yandex (20)

Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатов
 
Поиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхПоиск списков в неструктурированных данных
Поиск списков в неструктурированных данных
 
Производительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформыПроизводительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформы
 
Beminar js
Beminar jsBeminar js
Beminar js
 
Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...
Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...
Дмитрий Ветров. Математика больших данных: тензоры, нейросети, байесовский вы...
 
Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней
Анализ изображений и видео. Обнаружение текста на изображенияхслайды последнейАнализ изображений и видео. Обнаружение текста на изображенияхслайды последней
Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней
 

Dr. Preslav Nakov — Combining, Adapting and Reusing Bi-texts between Related Languages — Application to Statistical Machine Translation — part 3

  • 1. Combining, Adapting and Reusing Bi-texts between Related Languages: Application to Statistical Machine Translation Preslav Nakov, Qatar Computing Research Institute (collaborators: Jorg Tiedemann, Pidong Wang, Hwee Tou Ng) Yandex seminar August 13, 2014, Moscow, Russia
  • 2. 2 Plan • Part I - Introduction to Statistical Machine Translation • Part II - Combining, Adapting and Reusing Bi-texts between Related Languages: Application to Statistical Machine Translation • Part III - Further Discussion on SMT
  • 4. 4 Why is Machine Translation Hard? • Word order - En: I want beer. - Tr: Ben bira istiyorum. • Lexical ambiguity - Ru: Штирлиц топил печку. Через час печка утонула. • Pronouns, coreference - Ru: Если ребенок не любит холодное молоко, сварите его. - En: If the baby does not like cold milk, boil it/him. • Idioms - Ru: Петр приказал долго жить. - En: Peter kicked the bucket.
  • 5. 5 Why is Machine Translation Hard?
  • 10. 10
  • 11. 11 Russian Jokes about Stierlitz • Штирлиц топил печку. Через час печка утонула. • Встретив гестаповцев, Штирлиц выхватил шашку и закричал: "Порублю!" Гестаповцы скинулись по рублю и убежали. • Штирлиц шёл по лесу и увидел голубые ели. Штирлиц присмотрелся и увидел, что голубые не только ели, но и пили. • Штирлиц подошёл к окну. Из окна дуло. Штирлиц закрыл окно. Дуло исчезло. http://olgakagan.blog.com/2012/01/28/homonymy-in-russian-jokes-about-stierlitz/
  • 12. 12 Russian Jokes about Stierlitz http://olgakagan.blog.com/2012/01/28/homonymy-in-russian-jokes-about-stierlitz/ • Штирлиц выстрелил в Мюллера в упор. Мюллер не упал. “Броневой,”- подумал Штирлиц. • Лампа светила, но света не давала. Штирлиц погасил лампу и Света дала. • Штирлиц шёл по лесу и наткнулся на сук. “Шли бы вы домой, девушки. Война всё-таки!” • Штирлиц лёг на гальку. Галька вскрикнула и убежала. • Штирлиц сел в машину. "Всё, можно трогать!"- сказал он. "Ого-го!"- потрогала Кэт.
  • 13. 13 When is Machine Translation Easy? • Very closely related languages - similar word order, grammar • Legal Texts - many repetitions • Caterpillar English - simplified to make MT easy
  • 14. 14 Translating a European Convention: English Bulgarian English (orig.) Human Translation Computer Translation European Convention on Mutual Аssistance in Criminal Matters Preamble The governments signatory hereto, being members of the Council of Europe, considering that the aim of the Council of Europe is to achieve greater unity among its members; believing that the adoption of common rules in the field of mutual assistance in criminal matters will contribute to the attainment of this aim; considering that such mutual assistance is related to the question of extradition, which has already formed the subject of a convention signed on 13th december 1957, have agreed as follows: Европейска конвенция за взаимопомощ по наказателно-правни въпроси Преамбюл Правителствата, подписали тази конвенция, в качеството си на членове на Съвета на Европа, считайки, че целта на Съвета на Европа е да се постигне по-голямо единство между неговите членове, убедени, че приемането на общи правила в областта на правната помощ по наказателни дела ще допринесе за постигането на тази цел, считайки, че правната помощ е свързана с въпроса за екстрадицията, която вече бе предмет на конвенцията, подписана на 13 декември 1957 година, се споразумяха за следното: Европейска конвенция за взаимопомощ по наказателно-правни въпроси Преамбюл Правителствата, подписали този протокол, членове на Съвета на Европа, считайки, че целта на Съвета на Европа е постигането на по-голямо единство между своите членове, убедени, че приемане на общи правила в областта на правна помощ по наказателни дела ще допринесе за постигането на тази цел, считайки, че тази взаимна помощ е свързана с въпроса за екстрадиция, който вече е образувано предмет на конвенция, подписана в 13th декември 1957 година, се споразумяха за следното:
  • 15. 15 Adapting „Macedonian“ to Bulgarian „Macedonian” Human Translation Computer Translation СКОПЈЕ, Македонија -- Според дипломатски извори, првата мировна мисија на ЕУ, која ќе биде распоредена во Македонија на 31-ви март, ќе го носи името Конкордија. Околу 27 земји навестија подготвеност да учествуваат во шестмесечната мисија. Се очекува македонскиот Парламент в среда (26-ти март) да го одобри нацрт договорот за статусот на силите на ЕУ, со кој на трупите на Унијата им се гарантира дипломатски статус и имунитет. Во вторникот, во меѓувреме, во Скопје започна меѓународна конференција за децентрализација, при што заменик- премиерот Муса Џафери го одржа воведниот говор. Во другите вести, претседателот Борис Трајковски за Утрински весник потврди дека експертски тим на министерствата за внатрешни работи и за одбрана ја завршил својата работа на првата национална стратегија за безбедност и одбрана. СКОПИЕ, Македония -- Първата мироопазваща мисия на ЕС, която ще бъде разположена в Македония на 31 март, ще се нарича "Конкордия", съобщиха дипломатически източници. Тя ще продължи шест месеца. Около 27 страни са заявили желание да участват нея. Очаква се македонският парламент да одобри проекта на Споразумението за статута на силите в сряда (26 март), гарантирайки по този начин дипломатически статут и имунитет на съюзническия контингент. Междувременно, във вторник в Скопие започна международна конференция по въпросите на децентрализацията. Тя бе открита с реч на вицепремиера Муса Джафери. В други новини, президентът Борис Трайковски потвърди за Утрински весник, че екипът от експерти към министерствата на вътрешните работи и отбраната е завършил работата си по проекта за националната стратегия за сигурност и отбрана. СКОПИЕ, Македония - Според дипломатически източници, първата мироопазваща мисия на ЕС, която ще бъде разположена в Македония на 31 март, ще носи името на Конкордия. Около 27 страни намекнаха готовност да участват в шестмесечната мисия. Очаква се македонският парламент в сряда (26 март) да одобри проект на споразумението за статута на силите на ЕС, с който на войниците на съюза да се гарантира дипломатически статут и имунитет. Междувременно, във вторник в Скопие започна международна конференция, посветена на децентрализацията и вицепремиерът Муса Джафери изнесена изказването. Други новини, президентът Борис Трайковски за Утрински вестник, че експертен екип на министерствата на вътрешните работи и отбраната е завършил работата си на първата национална стратегия за сигурност и отбрана.
  • 16. 16 Summary: Machine Translation Today • Usable technology – Translation memories – Web translation – “Caterpillar” English • New profession – post-editor • MT will never replace human translators – Computers cannot be held legally responsible
  • 18. 18 SDL – First To Invest In SMT
  • 22. 22 eBay Considers SMT To Open New Markets
  • 25. 25 The Big Dream of NLP Dave Bowman: “Open the pod bay doors, HAL” HAL 9000: “I’m sorry Dave. I’m afraid I can’t do that.”
  • 27. 27 Two Important Directions • Semantics • Machine Translation Critical for the overall advancement of the field Practical, within the reach of current technology
  • 29. 29 Semantics: Revolution is Needed? • If we want the dream come true, we should – not rely on superficial statistics alone – need to get to the meaning of text • A revolution in semantics is needed – looking at words is not enough – we need better models for • multi-word expressions (~70% of terminology) • semantic relations (meaning is in the links!) • The revolution will be supported by – Web-scale corpora – linguistic knowledge “Moving Lexical Semantics from Alchemy to Science” Discussion on [Corpora-List] • This is what Chomsky has done with syntax. • Should we expect the same for lexical semantics?
  • 30. 30 Two Important Directions • Semantics •Machine Translation
  • 31. 31 Machine Translation • The task that started the whole NLP field • The hottest research topic today • High practical and economic expectations
  • 32. 32 Machine Translation: Evolution? • Evolution? - Resource-poor language pairs - Morphologically rich languages - Smarter Web-scale translation models - Noisy input o spoken language o emails, chats, forums, Twitter o poetry
  • 33. 33 Machine Translation: Revolution? • Revolution? – Two great revolutions so far • 1993: statistical word-based translation • 2003: statistical phrase-based translation
  • 34. 34 Machine Translation: Revolution? • Revolution? – Two great revolutions so far • 1993: statistical word-based translation • 2003: statistical phrase-based translation – Overdue for the next revolution? • 2013: ??? – Syntactic translation? – Semantic translation? SOURCE TARGET words words syntax syntax semantics semantics interlingua phrases phrases
  • 35. 35 Machine Translation: Revolution? • Revolution? – Two great revolutions so far • 1993: statistical word-based translation • 2003: statistical phrase-based translation – Overdue for the next revolution? • 2013: ??? – Syntactic translation? – Semantic translation? SOURCE TARGET words words syntax syntax semantics semantics interlingua phrases phrases Or maybe a return of deep neural networks? • Already started a little revolution in speech recognition • Very strong results for SMT, best paper award at ACL’2014 (Devlin&al., ACL 2014) • Very strong results for semantics too (word embedding)
  • 36. 36 The Future? Three words: Web, semantics, linguistics and deep neural networks?
  • 44. 44 Vision and Mission Become a world-leader in Arabic language technologies Conduct innovative and strategic research and development with local and global impact.
  • 45. 45 The ALT Research Areas • Build strong foundation: Arabic NLP • 2 flagship projects • 3 supplementary focus areas motivated by local needs Multi-lingual LanguageProcessing: Transcriptionand Translation Searchand Information Extraction Interactive QuestionAnswering Doha22 Educational Applications Arabic NLP Stack Tools and ResourcesArabic Optical Character Recognition
  • 46. 46 Dr. Preslav Nakov Senior Scientist Ahmed Ali Senior Software Eng. Abdulrahman Ghanem Software Engineer Dr. Kareem Darwish Senior Scientist Dr. Stephan Vogel Principal Scientist Dr. Francisco Guzman Scientist Dr. Walid Magdy Scientist Dr. Hassan Sajjad Scientist Dr. Shafiq Joty Scientist Dr. Alessandro Moschitti Senior Scientist Yifan Zhang Senior Software Eng Dr Ahmed Abdelali Senior Software Eng Hamdy Mubarak Senior Software Eng. Dr. Lluis Marquez Principal Scientist Dr. Ferda Ofli Scientist The ALT Team Fahad Al-Obaidli Research Assistant plus interns …
  • 49. 49 Application: News Translation • Objective: high quality speech recognition and translation • Enable video search • Collaboration with Aljazeera http://alt.qcri.org/QCRI_Demo/Speech_Recognition.html
  • 50. 50 Application: Lecture Translation • Objective: enable wider reach of educational material • Primarily English -> Arabic
  • 51. 51 Application: Meeting Translation • Objective: real-time, low-latency translation • Flexible architecture based on cutting-edge technology The main objective of this internship was to build a robust backend for the Meeting Translation Project. The idea was to integrate a completely redesigned frontend with the Recognition and Translations services available at the backend. The integration would consist of the following: 1. Get the user's voice from the frontend to our servers 2. Transcribe the user's voice 3. Translate the transcriptions(into multiple languages if required) 4. Get the transcriptions/translations back to the user The system was also to be multiplexed, so that multiple users in multiple meetings can use the system at the same time. This is necessary for the end system, as the goal of the project is to enable interaction between multiple users speaking multiple languages in a meeting.
  • 52. 52 The Future: „Ubiquitous“ Translation Google glass Smart glass ‫صحح؟‬
  • 53. 53 Acknowledgments • Used some slides by George Doddington, John Hutchins, Kevin Knight, Jonas Kuhn, Dan Klein, Philipp Koehn, Daniel Marcu, Drago Radev, Arturo Trujillo, Stephan Vogel, C. Wayne, Kenji Yamada, etc.

Editor's Notes

  1. http://360minutes.org/2011/06/the-towering-tornado/
  2. http://360minutes.org/2011/06/the-towering-tornado/
  3. http://360minutes.org/2011/06/the-towering-tornado/
  4. http://360minutes.org/2011/06/the-towering-tornado/
  5. http://360minutes.org/2011/06/the-towering-tornado/
  6. http://360minutes.org/2011/06/the-towering-tornado/