MTEngine: Semantic-level Crowdsourced Machine Translation

MTEngine
Дмитрий Кан
dmitry.kan@gmail.com

Машинный Перевод с Применением
Компьютерной Семантики Силами
Комьюнити

NLP Seminar, 29 марта 2013
Яндекс, Санкт-Петербург

DEMO

Пишу письмо другу.

О себе
Ведущий инженер AlphaSense Inc
Участник SemanticAnalyzer Group

Кандидат физ.-мат. наук
Диссертация о машинном переводе

Интересы в NLP: МП, семантический
анализ, анализ тональности

О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы

Немного истории МП
Одновременное независимое патентование
МП (1933):

● Пётр Смирнов-Троянский [1]

● Georde Artsrouni (отец МП) [2]

Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт
баллистических выстрелов в США, взлом
кодов)
● Алан Тьюринг: нечисловые программы
(напр., машинный перевод)
● Weaver (1949): МП как взлом кодов

Ещё немного истории МП 2
Weaver своими (неверными) идеями
стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)
● 1954: демо первой системы МП
(русский<->английский)
● 1960: МП стимулирован Холодной войной
США, Великобритания, Франция, Япония
и СССР

Основные подходы

Треугольник Машинного Перевода

Треугольник МП в деталях

Треугольник Машинного Перевода
для MTEngine

MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS
● 8 систем МП
● 1 crowdsourced переводчик: http:
//translatedby.com/
● test set: ~1000 предложений, 100 на
оценку
● 11 ассессоров
● небольшое перекрытие между ними
● 28 пакетов по 36 задач

Problem: to translate or not to translate?

SYSTEM 1: NO

В пятницу Warner Music Group, объявил,
что он был вызван в управление Нью-Йорке
генеральный Прокурор Элиот Спитцер,
чтобы предоставить информацию о цифровой
музыке скачать ценообразования.


SYSTEM 2: YES

В пятницу Музыкальная Группа Уорнера
объявила, что она была вызвана в суд
управлением Нью-Йорка
Генеральный Атторней Элиот Спицер
предоставить информацию о
ценообразовании загрузки цифровой
музыки.


HUMAN: NO

В пятницу фирма Warner Music Group
заявила, что ее представители были вызваны
на допрос к генеральному прокурору Нью-
Йорка Элиоту Спитцеру (Elliot Spitzer),
чтобы дать показания о политике
ценообразования в сфере онлайн-продаж
музыкальной продукции.

Problem: to reorder or not to reorder?

SYSTEM 1: NO

Местные жители заметили также текущих SWAT
учений с участием многочисленных
государственных органов в области, в том
числе национальной Безопасности, HPD и
Калифорнийский Департамент Полиции.


SYSTEM 2: YES

Местные жители также заметили настоящие
учения SWAT, вовлекающие многочисленные
правительственные агентства в области,
включающие Безопасность Родины, HPD и
Пасаденское Полицейское Управление.


HUMAN: YES

Местные жители также заметили
продолжающиеся тренировки спецназа в
местных государственных учреждениях,
включая Министерство внутренней
безопасности США, Полицейские управления
городов Хьюстон и Пасадена.

Problem: Does reordering even matter?

System 1 (no reordering)

Однако, Совет не будет применять каких-
либо дальнейших действий, пока не
ЭльБарадей делает его полный отчет о 6
марта.


System 2 (with reordering)

Однако, совет не будет выполнять
никакого дальнейшего действия, пока
ЭлБэрейдей не сделает свой полный доклад
6 марта.


HUMAN (with reordering)

Однако, совет не будет предпринимать
дальнейших действий, пока ЭльБарадей
(ElBaradei) не предоставит свой полный
отчет 6 марта.

Problem: Semantic mapping between two
languages

System 1

Гарантии были даны, что грузовик, сцена,
музыка и выступления - не говоря уже о
барабанах, танцы и протест - не будет
предотвращено от идти вперед, как
планировалось на площади прямо напротив
таможни в Circular Quay, веб-сайт сказал.

Problem: Semantic mapping between two languages

System 2

Гарантиям дали тот грузовик, стадию,
музыку и речи - чтобы не упомянуть, что
барабанили, танцуя, и протесту - не будут
препятствовать идти вперед как
запланировано в квадрате непосредственно
вне Таможни в Круглом Причале, веб-сайт
сказал.

Problem: Semantic mapping betw. two languages

Original sentence:

"Assurances have been given that truck,
stage, music and speeches - not to mention
drumming,
dancing and protest - will not be prevented
from going ahead as planned in the square
directly outside Customs House at Circular
Quay," the website said.

Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-
pasting, misspelling)

● Turking machines

● Output space problems (все переводы
верны)

MTEngine
● Crowdsourced machine translation system
● Словарные единицы семантического уровня
● нет Turking machine problem
● Перевод либо верен, либо почти верен, либо
неверен
● Проблема низкого качества решается кросс-
проверками

История проекта
● Август-сентябрь 2011: первая версия
● Сентябрь - октябрь 2011: работа над оценкой
качества
● Октябрь: выложены || корпуса
● 2012: первые волонтёры (по подписке)
● Январь 2013: новый UI
● Март 2013: новые фичи каждую неделю
● Регистрация на сайте

Статистический МП
● Сказав что-то однажды, человек повторит это
вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы
● P(e|f), E - English, F - French
● Теорема Байеса:

Модель языка vs Модель
перевода

Исходный язык Целевой язык
Переводной контекстный
семантический словарь
● Параллельный корпус UMC (~90
тыс. пар предложений)
● Максимизация апостериорной
вероятности, совместная
встречаемость
● Семантический анализ

GIZA++ ищет P(f|e)
● Модуль выравнивания слов
● Входит в состав пакета Moses
(статистический МП)
● 86000 предложений -> 1,3млн пар слов в
выходных данных
● Задача разрешения полисемии
● Высокий уровень избыточности данных в
словаре
● 18,000+ на выходе

Пример выравнивания
# Sentence pair (1) source length 4 target
length 7 alignment score : 2.25315e-10

there is a book on the table
NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит
({ 1 2 }) книга ({ 3 4 })

"столе" --> "on the table"
"лежит" --> "there is"
"книга" --> "a book"

Схема генерации словаря

Словарь
ВY1>HabU(Y1:,ПРЕД:Z1) <149>--->within
ВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
ВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->in
ВY1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
МАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)
<2>--->marshall
НАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НАY1>Direkt(Y1:,РОД:Z1) <100>--->on
НАY1>Direkt(Y1:,РОД:Z1) <69>--->for
НАY1>Direkt(Y1:,РОД:Z1) <74>--->for the
ОБРАЗ(РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05
(МИР$1227))<1>--->global

Порождение предлогов
СГТ
● @Род - of
Автомобиль Ивана. Car of Ivan.

● @Тв - by
Пишу рукой. Writing by hand.

● @Дат - to
Пишу другу. Writing to (a) friend.

Выводы
● recognition в массы (stats page, юзерпик,
wall of fame)
● Минимум рутины!
● Переводить предложения с нуля -- очень
затратно
● MTEngine: помоги системе перевести
лучше и получи зачёт и уточни познания
английского языка
● Фокус на изучении, а не || корпусе

Выводы
● UI -- формат общения
● Максимум продуманности!
● Максимум автоматизации
● Минимум багов :)
● MTEngine: Twitter bootstrap + jQuery + PHP
+ Perl + MySQL
● Быстрая реакция на запросы
пользователей

Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation
Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста,
ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?
record_id=9547&page=R1

[6] Chris Callison-Burch, Philipp Koehn: Introduction to
Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for
Machine Translation in Low Resource Scenarios. Carnegie
Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-2911038

[10] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.
2012. Towards an integrated crowdsourcing definition.
Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:
Evaluating Translation Quality Using Amazon’s Mechanical
Turk. Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Vol. 1, pp. 286-
295.

[13] Kan D. 2011. Method for an Automatic Generation of
a Semantic-level Contextual Translational Dictionary.
Proceedings of the 6th International Conference on
Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-
windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-
windows-episode-2.html

[16] Кан Д.А. Применение теории компьютерной
семантики и статистических методов к построению
системы машинного перевода. Дисс. канд. физ. мат.
наук, СПбГУ, 2011.

MTEngine: Semantic-level Crowdsourced Machine Translation

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Similar to MTEngine: Semantic-level Crowdsourced Machine Translation

Similar to MTEngine: Semantic-level Crowdsourced Machine Translation (7)

MTEngine: Semantic-level Crowdsourced Machine Translation