MTEngine: Semantic-level Crowdsourced Machine Translation

2,256 views

Published on

Видео к презентации: http://vk.com/mtengine
В докладе представлен краудсорсинг проект, ориентированный на построение и улучшение системы машинного перевода. Отличительной чертой является применение компьютерной семантики русского языка. Также рассматривается статистический метод автоматической генерации переводных словарей.

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,256
On SlideShare
0
From Embeds
0
Number of Embeds
1,484
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

MTEngine: Semantic-level Crowdsourced Machine Translation

  1. 1. MTEngineДмитрий Канdmitry.kan@gmail.com Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити NLP Seminar, 29 марта 2013 Яндекс, Санкт-Петербург
  2. 2. DEMOПишу письмо другу.
  3. 3. О себеВедущий инженер AlphaSense IncУчастник SemanticAnalyzer GroupКандидат физ.-мат. наукДиссертация о машинном переводеИнтересы в NLP: МП, семантическийанализ, анализ тональности
  4. 4. О чём поговорим?● МП: история● Основные подходы● MTEval @ ROMIP● Статистический МП● Метод порождения словаря● Лингвистический проект за 6 часов● Выводы
  5. 5. Немного истории МПОдновременное независимое патентованиеМП (1933):● Пётр Смирнов-Троянский [1]● Georde Artsrouni (отец МП) [2]
  6. 6. Ещё немного истории МПВторая мировая война:● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов)● Алан Тьюринг: нечисловые программы (напр., машинный перевод)● Weaver (1949): МП как взлом кодов
  7. 7. Ещё немного истории МП 2Weaver своими (неверными) идеямистимулировал исследования в МП● 1952: первая конференция по МП (MIT)● 1954: демо первой системы МП (русский<->английский)● 1960: МП стимулирован Холодной войной США, Великобритания, Франция, Япония и СССР
  8. 8. Доклад ALPAC
  9. 9. Основные подходы
  10. 10. Interlingua vs Transfer
  11. 11. Треугольник Машинного Перевода
  12. 12. Треугольник МП в деталях
  13. 13. Треугольник Машинного Переводадля MTEngine
  14. 14. Оценка: BLEU
  15. 15. MTEval and Shared Task @ ROMIP● Org: ROMIP in cooperation with TAUS● 8 систем МП● 1 crowdsourced переводчик: http: //translatedby.com/● test set: ~1000 предложений, 100 на оценку● 11 ассессоров● небольшое перекрытие между ними● 28 пакетов по 36 задач
  16. 16. MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?SYSTEM 1: NOВ пятницу Warner Music Group, объявил,что он был вызван в управление Нью-Йоркегенеральный Прокурор Элиот Спитцер,чтобы предоставить информацию о цифровоймузыке скачать ценообразования.
  17. 17. MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?SYSTEM 2: YESВ пятницу Музыкальная Группа Уорнераобъявила, что она была вызвана в судуправлением Нью-ЙоркаГенеральный Атторней Элиот Спицерпредоставить информацию оценообразовании загрузки цифровоймузыки.
  18. 18. MTEval and Shared Task @ ROMIPProblem: to translate or not to translate?HUMAN: NOВ пятницу фирма Warner Music Groupзаявила, что ее представители были вызванына допрос к генеральному прокурору Нью-Йорка Элиоту Спитцеру (Elliot Spitzer),чтобы дать показания о политикеценообразования в сфере онлайн-продажмузыкальной продукции.
  19. 19. MTEval and Shared Task @ ROMIPProblem: to reorder or not to reorder?SYSTEM 1: NOМестные жители заметили также текущих SWATучений с участием многочисленныхгосударственных органов в области, в томчисле национальной Безопасности, HPD иКалифорнийский Департамент Полиции.
  20. 20. MTEval and Shared Task @ ROMIPProblem: to reorder or not to reorder?SYSTEM 2: YESМестные жители также заметили настоящиеучения SWAT, вовлекающие многочисленныеправительственные агентства в области,включающие Безопасность Родины, HPD иПасаденское Полицейское Управление.
  21. 21. MTEval and Shared Task @ ROMIPProblem: to reorder or not to reorder?HUMAN: YES Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях, включая Министерство внутренней безопасности США, Полицейские управления городов Хьюстон и Пасадена.
  22. 22. MTEval and Shared Task @ ROMIPProblem: Does reordering even matter?System 1 (no reordering)Однако, Совет не будет применять каких-либо дальнейших действий, пока неЭльБарадей делает его полный отчет о 6марта.
  23. 23. MTEval and Shared Task @ ROMIPProblem: Does reordering even matter?System 2 (with reordering)Однако, совет не будет выполнятьникакого дальнейшего действия, покаЭлБэрейдей не сделает свой полный доклад6 марта.
  24. 24. MTEval and Shared Task @ ROMIPProblem: Does reordering even matter?HUMAN (with reordering)Однако, совет не будет предприниматьдальнейших действий, пока ЭльБарадей(ElBaradei) не предоставит свой полныйотчет 6 марта.
  25. 25. MTEval and Shared Task @ ROMIPProblem: Semantic mapping between twolanguagesSystem 1Гарантии были даны, что грузовик, сцена,музыка и выступления - не говоря уже обарабанах, танцы и протест - не будетпредотвращено от идти вперед, какпланировалось на площади прямо напротивтаможни в Circular Quay, веб-сайт сказал.
  26. 26. MTEval and Shared Task @ ROMIPProblem: Semantic mapping between two languagesSystem 2Гарантиям дали тот грузовик, стадию,музыку и речи - чтобы не упомянуть, чтобарабанили, танцуя, и протесту - не будутпрепятствовать идти вперед какзапланировано в квадрате непосредственновне Таможни в Круглом Причале, веб-сайтсказал.
  27. 27. MTEval and Shared Task @ ROMIPProblem: Semantic mapping betw. two languagesOriginal sentence:"Assurances have been given that truck,stage, music and speeches - not to mentiondrumming,dancing and protest - will not be preventedfrom going ahead as planned in the squaredirectly outside Customs House at CircularQuay," the website said.
  28. 28. Проблемы crowdsourcing и MT [8]● Низкое качество (смысл задачи, copy- pasting, misspelling)● Turking machines● Output space problems (все переводы верны)
  29. 29. MTEngine● Crowdsourced machine translation system● Словарные единицы семантического уровня● нет Turking machine problem● Перевод либо верен, либо почти верен, либо неверен● Проблема низкого качества решается кросс- проверками
  30. 30. История проекта● Август-сентябрь 2011: первая версия● Сентябрь - октябрь 2011: работа над оценкой качества● Октябрь: выложены || корпуса● 2012: первые волонтёры (по подписке)● Январь 2013: новый UI● Март 2013: новые фичи каждую неделю● Регистрация на сайте
  31. 31. Статистический МП● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью)● || корпус -- основа для фразовой таблицы● P(e|f), E - English, F - French● Теорема Байеса:
  32. 32. Модель языка vs Модельперевода
  33. 33. Исходный язык Целевой языкПереводной контекстныйсемантический словарь ● Параллельный корпус UMC (~90 тыс. пар предложений) ● Максимизация апостериорной вероятности, совместная встречаемость ● Семантический анализ
  34. 34. GIZA++ ищет P(f|e)● Модуль выравнивания слов● Входит в состав пакета Moses (статистический МП)● 86000 предложений -> 1,3млн пар слов в выходных данных● Задача разрешения полисемии● Высокий уровень избыточности данных в словаре● 18,000+ на выходе
  35. 35. Пример выравнивания# Sentence pair (1) source length 4 targetlength 7 alignment score : 2.25315e-10there is a book on the tableNULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит({ 1 2 }) книга ({ 3 4 })"столе" --> "on the table""лежит" --> "there is""книга" --> "a book"
  36. 36. Схема генерации словаря
  37. 37. СловарьВY1>HabU(Y1:,ПРЕД:Z1) <149>--->withinВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->atВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->inВY1>Loc(Y1:,ПРЕД:Z1) <224>--->ThroughoutМАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)<2>--->marshallНАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->atНАY1>Direkt(Y1:,РОД:Z1) <100>--->onНАY1>Direkt(Y1:,РОД:Z1) <69>--->forНАY1>Direkt(Y1:,РОД:Z1) <74>--->for theОБРАЗ(РОД:Z1) <2>--->a wayОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))<1>--->global
  38. 38. Порождение предлоговСГТ● @Род - ofАвтомобиль Ивана. Car of Ivan.● @Тв - byПишу рукой. Writing by hand.● @Дат - toПишу другу. Writing to (a) friend.
  39. 39. Выводы● recognition в массы (stats page, юзерпик, wall of fame)● Минимум рутины!● Переводить предложения с нуля -- очень затратно● MTEngine: помоги системе перевести лучше и получи зачёт и уточни познания английского языка● Фокус на изучении, а не || корпусе
  40. 40. Выводы● UI -- формат общения● Максимум продуманности!● Максимум автоматизации● Минимум багов :)● MTEngine: Twitter bootstrap + jQuery + PHP + Perl + MySQL● Быстрая реакция на запросы пользователей
  41. 41. Библиография[1] Mona Baker, Routlege Encyclopedia of TranslationStudies, 2001, ISBN 0-203-35979-8.[2] Р. Г. Пиотровский: Автоматизация обработки текста,ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf[5] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
  42. 42. Библиография[6] Chris Callison-Burch, Philipp Koehn: Introduction toStatistical Machine Translation, ESSLLI 2005.[7] www.romip.ru (http://romip.ru/mteval/index.html)[8] Ambati V. Active Learning and Crowdsourcing forMachine Translation in Low Resource Scenarios. CarnegieMellon University, 2011.[9] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
  43. 43. Библиография[10] http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.2012. Towards an integrated crowdsourcing definition.Journal of Information Science (in press).[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:Evaluating Translation Quality Using Amazon’s MechanicalTurk. Proceedings of the 2009 Conference on EmpiricalMethods in Natural Language Processing: Vol. 1, pp. 286-295.
  44. 44. Библиография[13] Kan D. 2011. Method for an Automatic Generation ofa Semantic-level Contextual Translational Dictionary.Proceedings of the 6th International Conference onSoftware and Data Technologies, Vol. 2, pp. 415-418.[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-windows.html[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-windows-episode-2.html
  45. 45. Библиография[16] Кан Д.А. Применение теории компьютернойсемантики и статистических методов к построениюсистемы машинного перевода. Дисс. канд. физ. мат.наук, СПбГУ, 2011.

×