Основные положения Принципы Архитектура Оценка Развитие                               «МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ    ...
Основные положения Принципы Архитектура Оценка РазвитиеCодержание     Основные положения         Зачем         Методы     ...
Основные положения Принципы Архитектура Оценка Развитие             Зачем МетодыДля чего нужен машинный перевод?          ...
Основные положения Принципы Архитектура Оценка Развитие             Зачем МетодыОсновные методы машинного перевода        ...
Основные положения Принципы Архитектура Оценка Развитие                Модель Шеннона Модель языка Модель перевода Декодер...
Основные положения Принципы Архитектура Оценка Развитие             Модель Шеннона Модель языка Модель перевода Декодер   ...
Основные положения Принципы Архитектура Оценка Развитие                 Модель Шеннона Модель языка Модель перевода Декоде...
Основные положения Принципы Архитектура Оценка Развитие                 Модель Шеннона Модель языка Модель перевода Декоде...
Основные положения Принципы Архитектура Оценка Развитие             Модель Шеннона Модель языка Модель перевода ДекодерВве...
Основные положения Принципы Архитектура Оценка Развитие              Модель Шеннона Модель языка Модель перевода ДекодерМо...
Основные положения Принципы Архитектура Оценка Развитие                 Модель Шеннона Модель языка Модель перевода Декоде...
Основные положения Принципы Архитектура Оценка Развитие                 Модель Шеннона Модель языка Модель перевода Декоде...
Основные положения Принципы Архитектура Оценка Развитие             Модель Шеннона Модель языка Модель перевода ДекодерМод...
Базовый-алгоритм(Θe , Θr )  1 ∀ ωe ∈ Πe ∈ Θe :  2   ∀ωr ∈ Πr ∈ Θr :  3        t(ωe |ωr ) ← u, u ∈ R;  4 £ Инициализируем т...
Основные положения Принципы Архитектура Оценка Развитие             Модель Шеннона Модель языка Модель перевода ДекодерОтл...
Основные положения Принципы Архитектура Оценка Развитие              Модель Шеннона Модель языка Модель перевода ДекодерДе...
Основные положения Принципы Архитектура Оценка Развитие             Модель Шеннона Модель языка Модель перевода ДекодерЖад...
Основные положения Принципы Архитектура Оценка Развитие             Обучение ДекодериваниеИз чего состоит?        1. Выпол...
.                         .      Читатель       .          Обработчик                           .     ..                  ...
. Декодер       ...                   жадный инкрементный                   поиск;                   два режима работы:   ...
Основные положения Принципы Архитектура Оценка Развитие             Примеры BLEU Скорость ЦенаПримеры     Оригинал     ......
Основные положения Принципы Архитектура Оценка Развитие                     Примеры BLEU Скорость ЦенаBLEU — Bilingual Eva...
Основные положения Принципы Архитектура Оценка Развитие             Примеры BLEU Скорость ЦенаОценка скорости обучения    ...
Основные положения Принципы Архитектура Оценка Развитие             Примеры BLEU Скорость ЦенаОценка скорости декодировани...
Основные положения Принципы Архитектура Оценка Развитие             Примеры BLEU Скорость ЦенаОценка полезностиЭкономическ...
Основные положения Принципы Архитектура Оценка РазвитиеДальнейшее развитиеМатематика:                                     ...
Upcoming SlideShare
Loading in …5
×

Распределенная статистическая система машинного перевода

1,045 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,045
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
29
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Распределенная статистическая система машинного перевода

  1. 1. Основные положения Принципы Архитектура Оценка Развитие «МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ (национальный исследовательский университет)» (МАИ) Распределенное программно-информационное обеспечение статистической модели перевода естественных языков Выполнил студент группы 08-606 Никитин Илья Константинович Научный руководитель ассистент кафедры 806 Гаврилов Евгений Сергеевич . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #1 26 | Статистичаский машинный перевод
  2. 2. Основные положения Принципы Архитектура Оценка РазвитиеCодержание Основные положения Зачем Методы Принципы Модель Шеннона Модель языка Модель перевода Декодер Архитектура Обучение Декодеривание Оценка Примеры BLEU Скорость Цена Развитие . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #2 26 | Статистичаский машинный перевод
  3. 3. Основные положения Принципы Архитектура Оценка Развитие Зачем МетодыДля чего нужен машинный перевод? бытовой перевод: книги, переписка; поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя); перевод научных публикаций c других языков; применения достижений в других областях: автоматическое реферирование, распознавание речи, распознавание последовательностей аминокислот (ДНК). . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #3 26 | Статистичаский машинный перевод
  4. 4. Основные положения Принципы Архитектура Оценка Развитие Зачем МетодыОсновные методы машинного перевода М . . ашинный перевод . П . . равила Д . . анные П . ословные . И . нтерлингвистические . О . снованные . примерах на Т . рансфеные . С . татистические . . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #4 26 | Статистичаский машинный перевод
  5. 5. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерМодель зашумленного канала I Ш . ум И . сточник (R) . П . . ередачик . П . риемник . Ц . . ель (E) 1. Пусть ϕr — фраза оригинала (русская). 2. Требуется найти ϕe — фразу перевода (английскую). Максимизировать P(ϕe |ϕr ). (P(ϕe ) · P(ϕr |ϕe )) P(ϕe |ϕr ) = ⇒ P(ϕr ) ϕeg = arg max P(ϕe |ϕr ) = arg max (P(ϕe ) · P(ϕr |ϕe )) ∪ϕe ∪ϕe . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #5 26 | Статистичаский машинный перевод
  6. 6. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода Декодер С . татистическая система машинного перевода . Модель языка Модель перевода . . . . P(ϕe ) P(ϕr |ϕe ) arg max P(ϕe |ϕr ) = arg max (P(ϕe ) · P(ϕr |ϕe )) ∪ϕe ∪ϕe ϕe — фраза перевода (английская); ϕr — фраза оригинала (русская). . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #6 26 | Статистичаский машинный перевод
  7. 7. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода Декодер С . татистическая система машинного перевода . Модель языка Модель перевода . . . . P(ϕe ) P(ϕr |ϕe ) Декодер . . arg max (P(ϕe ) · P(ϕr |ϕe )) ∪ϕe . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #7 26 | Статистичаский машинный перевод
  8. 8. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода Декодер С . татистическая система машинного перевода . Модель языка Модель перевода . . . . P(ϕe ) P(ϕr |ϕe ) Декодер . . arg max (P(ϕe ) · P(ϕr |ϕe )) ∪ϕe Параллельный Корпус текста . . . корпус . текста на языке ϕe . на языках ϕe и ϕr . . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #8 26 | Статистичаский машинный перевод
  9. 9. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерВведем обозначения Θe — «английский» текст (множество предложений); Θr — «русский» текст; Πe — «английское» предложение (последовательность слов); Πr — «русское» предложение; ωe — «английское» слово; ωr — «русское» слово; . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #9 26 | Статистичаский машинный перевод
  10. 10. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерМодель языка Правильный порядок слов. Вычисляется с помощью n-грамм слов. ∏ i=l+n−1 P(ω1 . . . ωl ) = P (ωi |ωi−1 . . . ωi−n+1 ) i=0 P (ωm |ω1 . . . ωm−1 ) = Kn · P(ωm |ω1 . . . ωm−1 ) + . . . + K1 · P(ω1 ) + K0 ; частота (ω1 ) P(ω1 ) = |Θ| ; частота (ω1 ...ωm−1 ωm ) P(ωm |ω1 . . . ωm−1 ) = частота (ω1 ...ωm−1 ) ; Ki — коэффициенты сглаживания; адаптивные модели. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #10 26 | Статистичаский машинный перевод
  11. 11. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерМодель перевода I Пусть P(Πe |Πr ) — вероятность некоторой строки (предложения) из e, при гипотезе перевода из r. ∑ P(Πe |Πr ) = P(Πe , a|Πr ); a a — выравнивание между отдельными словами в паре предложений. Вероятность перевода: ε ∏ le P(Πe , a|Πr ) = t(ωej |ωra(j) ) (lr + 1)le j=1 t — это вероятность слова оригинала в позиции j при соответствующем ему слове перевода ωra(j) , определенном выравниванием a. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #11 26 | Статистичаский машинный перевод
  12. 12. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерМодель перевода II P(Πe , a|Πr ) P(a|Πe , Πr ) = ∑ P(Πe , a|Πr ) a Имея набор выравниваний с определенными вероятностями, мы можем подсчитать частоты каждой пары слов, counts(ωe |ωr ) counts(ωe |ωr ) t(ωe |ωr ) = ∑ = ; counts(ωe |ωr ) total(ωr ) ωe Требуется оценить вероятности лексического перевода t(ωe |ωr ) Но чтобы сделать это нужно вычислить a, которой у нас нет. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #12 26 | Статистичаский машинный перевод
  13. 13. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерМодель перевода III Для оценки параметров −→ EM-алгоритм (Витерби). инициализируем параметры модели (одинаковыми значениями, на первой итерации); оценим вероятности отсутствующей информации; оценим параметры модели на основании новой информации; перейдем к следующей итерации. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #13 26 | Статистичаский машинный перевод
  14. 14. Базовый-алгоритм(Θe , Θr ) 1 ∀ ωe ∈ Πe ∈ Θe : 2 ∀ωr ∈ Πr ∈ Θr : 3 t(ωe |ωr ) ← u, u ∈ R; 4 £ Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями. 5 пока не сойдется : 6 ∀ ωe ∈ Πe ∈ Θe : £ Инициализируем остальные таблицы. 7 ∀ωr ∈ Πr ∈ Θr : 8 counts(ωe |ωr ) ← 0; total(ωr ) ← 0; 9 ∀ Πe , Πr ∈ Θe , Θr : £ Вычисляем нормализациию. 10 ∀ ωe ∈ Π e : 11 stotal(ωe ) ← 0; 12 ∀ ωr ∈ Π r : 13 stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr ); 14 ∀ ωe ∈ Πe : £ Собираем подсчеты. 15 ∀ ωr ∈ Π r : t(ωe |ωr ) 16 counts(ωe |ωr ) ← counts(ωe |ωr ) + ; stotal(ωe ) t(ωe |ωr ) 17 total(ωr ) ← total(ωr ) + ; stotal(ωe ) 18 ∀ ωe ∈ Θe : £ Оцениваем вероятность. 19 ∀ωr ∈ Θr : counts(ωe |ωr ) 20 t(ωe |ωr ) ← ; total(ωr ) . . . . . .
  15. 15. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерОтличия от других систем Система используется для перевода научно-технической литературы. . Слова → n-грамы . .. ⇐ Устойчивые формальные выражения в научных текстах. . .. . . . Выравнивание по круппным группам n-грам . .. ⇐ прямой порядок слов; ⇐ стереотипная структура предложений. . .. . . . Модели низких порядков . .. ⇐ важность локального порядка слов; ⇐ фертильности и вероятностной грамматики могут его разрушить. . .. . . . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #15 26 | Статистичаский машинный перевод
  16. 16. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерДекодер Среди всех возможных вариантов . Исходная фраза . ϕr перевода выбрать правильный: полный перебор; Модель Модель . перевода . . языка . A*: P(ϕr |ϕe ) P(ϕe ) . Декодер . стековый поиск, лучевой поиск; жадный инкрементный поиск; Перевод исходной фразы . сведение к обобщенной задаче arg max (P(ϕe ) · P(ϕr |ϕe )) ϕe коммивояжера: . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #16 26 | Статистичаский машинный перевод
  17. 17. Основные положения Принципы Архитектура Оценка Развитие Модель Шеннона Модель языка Модель перевода ДекодерЖадный инкрементный поиск простой и быстрый поиск; «плохой» вариант перевода получаем сразу; последовательно применяя набор операций можем улучшить перевод; изменить перевод слова (группы слов), удалить слово (группу слов), поменять слова местами; можно делать отсечку по времени; можем сразу оценить вероятность большой группы фраз. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #17 26 | Статистичаский машинный перевод
  18. 18. Основные положения Принципы Архитектура Оценка Развитие Обучение ДекодериваниеИз чего состоит? 1. Выполнена в виде нескольких приложений: читатель; обработчик; декодировщик. 2. Можно запускать сколько угодно копий приложений. 3. Могут быть удалены друг от друга. 4. Часть вычислений выполняется параллельно: Erlang. 5. Oбщая (возможно, распределенная) база данных: Redis Server. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #18 26 | Статистичаский машинный перевод
  19. 19. . . Читатель . Обработчик . .. ..x· +y· . . .. . .. . . . . . . . . .
  20. 20. . Декодер ... жадный инкрементный поиск; два режима работы: перевода, улучшения. пошаговый веб-интерфейс (XML + XSLT); потоковый RESTful-сервис (chunked HTTP); пошаговый консольный интерфейс (OTP);... . . . . . . . .
  21. 21. Основные положения Принципы Архитектура Оценка Развитие Примеры BLEU Скорость ЦенаПримеры Оригинал ... adopted at the 81st plenary meeting ... Переводчик ... принята на 81-м пленарном заседании Система ... принята без голосования на 81 пленарном заседании в Брюсселе ... . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #21 26 | Статистичаский машинный перевод
  22. 22. Основные положения Принципы Архитектура Оценка Развитие Примеры BLEU Скорость ЦенаBLEU — Bilingual Evaluation Understudy ( ) ∑ N Wn log(pn ) BLEU = Bp · e n=1  ∑ ∑  числосреза (ηc ) 1, lc > lh ; C∈Sc ηc ∈C Bp = ( l ) и pn = ∑ ∑  e 1− lh c , lc lh . число(ηc ) C∈Sc ηc ∈C Sc — множество кандидатов на перевод; C — кандидат на перевод; Система BLEU ηc — n-грамма кандидата на перевод; Текущая (1) 0.243 lc — длинна кандидата перевода; Текущая (100) 0.209 lh — длинна экспертного перевода (выполненного человеком); Moses (IBM 3) 0.201 1 Moses (IBM 5) 0.173 Wn = — вес; N N = 4, n-грамность оценки. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #22 26 | Статистичаский машинный перевод
  23. 23. Основные положения Принципы Архитектура Оценка Развитие Примеры BLEU Скорость ЦенаОценка скорости обучения Процессор: Intel Core2 Duo, 1 ядро 64 бит, ОП 4Гб, ФС:ext4 Система Время, ч Текущая (1) ≈5 Moses (GIZA++) ≈ 25 Chaski (MGIZA++) ≈ 26 Процессор: Intel Xeon E5506, 8 ядер 64 бит, ОП 10Гб, ФС:xfs Система Время, ч Текущая (1) ≈1 Moses (GIZA++) ≈ 22 Chaski (MGIZA++) ≈3 . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #23 26 | Статистичаский машинный перевод
  24. 24. Основные положения Принципы Архитектура Оценка Развитие Примеры BLEU Скорость ЦенаОценка скорости декодирования Процессор: Intel Core2 Duo, 1 ядро 64 бит, ОП 4Гб, ФС:ext4 Система Время, µс Текущая (1) 1132 Текущая (100) 7108124 Moses (IBM 3) ≈ 10000000 Moses (IBM 5) ≈ 30000000 Процессор: Intel Xeon E5506, 8 ядер 64 бит, ОП 10Гб, ФС:xfs Система Время, µс Текущая (1) 1012 Текущая (100) 1119024 Moses (IBM 3) ≈ 5000000 Moses (IBM 5) ≈ 6000000 . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #24 26 | Статистичаский машинный перевод
  25. 25. Основные положения Принципы Архитектура Оценка Развитие Примеры BLEU Скорость ЦенаОценка полезностиЭкономическая часть: Охрана труда: Разработка — 916669 руб. Хороший переводчик меньше Цена — 1833 руб. проводит время у компьютера. Стоимость — 108786 руб/год. Не подвергается вредному воздействию: Меньше зп плохого тихо работает ⇒; переводчика (385920 руб/год). ⇒ качественный перевод ⇒; ⇒ качественные данные; . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #25 26 | Статистичаский машинный перевод
  26. 26. Основные положения Принципы Архитектура Оценка РазвитиеДальнейшее развитиеМатематика: Архитектура и реализация: полноценный фразовый перевод; использовать пословное сжатие синтаксический перевод; при хранении в БД; смешанная система перевода: переписать обработчика на Cи с libevent; пара русский-английский, морфологический анализ. libevent для RESTful-сервиса декодера: опробовать более точные методы 1 млн. одновременных поиска. соединений попробовать Redis → leveldb. . . . . . . 13 января 2012 г.: Е. C. Гаврилов и И. К. Никитин #26 26 | Статистичаский машинный перевод

×