МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ  ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ   ...
1ОТ АВТОРА                                  Текущая сборка документа: 23 января 2012 г. 4:48Техника в жизни человека играе...
2РЕФЕРАТ   Дипломная работа содержит 104 страницы, 13 рисунков, 21 таблицу,4 приложения. Список использованных источников ...
3Алгоритмы обучения системы были разработаны c учетом особенностей на-учных текстов и слабо применимы для других стилей ли...
4СОДЕРЖАНИЕСписок терминов и их сокращений . . . . . . . . . . . . . . . . . . .                                      51. ...
5СПИСОК ТЕРМИНОВ И ИХ СОКРАЩЕНИЙCMП — система машинного перевода.CCMП — статистическая система машинного перевода.Корпус (...
61. ОСНОВНАЯ ЧАСТЬ
71.1. ВВЕДЕНИЕ    Мы живем в мире информационных технологий, которые прочно вошлив нашу жизнь. Мы пользуемся современными ...
8Цель определила следующие задачи:• исследование существующих статистических систем машинного пере-  вода;• изучение матем...
91.2. К ПРОБЛЕМЕ МАШИННОГО ПЕРЕВОДА   В настоящее время имеется достаточно широкий выбор пакетов про-грамм, облегчающих тр...
10       • перевод, осуществляемый человеком, с использованием компьютера         (TM2 -системы).    Полностью автоматичес...
111.2.2. СМП ОСНОВАННЫЕ НА ПРАВИЛАХ   Системы машинного перевода основанные на правилах — общий термин,который обозначает ...
12    Трансферные системы работают по очень простому принципу: к входно-му тексту применяются правила, которые ставят в со...
13такого подхода можно реализовать «пересказ текста», перефразирование ис-ходного текста в рамках одного языка.    До сих ...
141.2.4. СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД    Статистический машинный перевод — это метод машинного перевода.Он использует с...
15    Из-за шума полученная приемником информация в общем случае не сов-падает с информацией, отправленной передатчиком. О...
16   В системах статистического перевода, в качестве модели языка исполь-зуются варианты n-граммной модели (например, в пе...
171.2.5. СРАВНЕНИЕ РАЗЛИЧНЫХ ТИПОВ СМП                        М       .                                .                  ...
18ТРАНСФЕРНЫЕ СИСТЕМЫ   Трансферные системы распространены очень широко. Наиболее извест-ными представителями являются ImT...
19Недостатки:   • спорность потенциальной возможности;   • высокая сложность разработки;   • системы не масштабируются.СМП...
20ССМП   ССМП активно разрабатывались (и разрабатываются) компанией IBM.Благодаря ее разработкам, были созданы модели пере...
211.3. МАТЕМАТИЧЕСКАЯ БАЗА ССМП   Пусть ϕr — фраза оригинала, русская. Требуется найти ϕe — фразу пе-ревода, английскую. Н...
22     P (ωm |ω1 . . . ωm−1 ) = Kn · P (ωm |ω1 . . . ωm−1 )+           +Km−1 · P (ωm−1 |ω1 . . . ωm−2 )+           +K2 · P...
23ВЫЧИСЛЕНИЕ МОДЕЛИ ПЕРЕВОДА   Обозначим:   • Θe — «английский» текст (множество предложений);   • Θr — «русский» текст;  ...
24Вероятность перевода:                           ε      ∏le      P (Πe , a|Πr ) =                t(ωej |ωra(j) )         ...
25   При решении этой проблемы используют EM-алгоритм (Витерби), кото-рый более детально рассмотрен в приложении. EM-алгор...
26Каждый из методов обладает своими достоинствами и недостатками. Вари-ант полного перебора мы рассматривать не будем, так...
27ЖАДНЫЙ ИНКРЕМЕНТНЫЙ ПОИСК   Простой поиск, позволяет достичь решения путем выбора лучшей альтер-нативы, чтобы добраться ...
28   Жадный поиск может стартовать из начального состояния, которое ниприведет к конечной цели. Не является полным или опт...
29может быть установлено с помощью модели целевого языка, однако, напри-мер при циклическом сдвиге слов выходного предложе...
301.4. ПРЕДЛАГАЕМЫЙ ПОДХОДК РАЗРАБОТКЕ ССМП   Основными задачами разрабатываемой системы являются:  а) обработка входного ...
31                           К       .                           . орпус En, Ru x      Ч                                  ...
32к другому. Однако, память компьютера может быть не в состоянии вместитьвсе необходимые для вычисления данные даже при оч...
33   Предлагаются следующие ограничения:  а) максимальный размер n-грамм положить равным 5 слов;  б) максимальный размер с...
34   Приложение считывает параллельный корпус строка за строкой из двухфайлов корпуса одновременно. После прочтения каждая...
35    В одной из модификаций этого приложения мы сразу в приложении чи-тателя составляли список сопоставления n-грамм разн...
361.4.2. ОБРАБОТЧИК   Обработчик нужен для обучения модели перевода на основании данныхполученных у читателя.       Рис. 1...
37    Принцип работы обработчика во многом определяется алгоритмом обу-чения описанным в выше. Условие сходимости предлага...
38                                  Вычисление                                       .                      Вычисление    ...
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Статистическая система машинного перевода, текст диплома
Upcoming SlideShare
Loading in …5
×

Статистическая система машинного перевода, текст диплома

4,144
-1

Published on

Distributed statistical machine translation system, paper for a university degree.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,144
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
70
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Статистическая система машинного перевода, текст диплома

  1. 1. МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ (национальный исследовательский университет)» (МАИ) Факультет №8 Прикладная математика и физика Распространяется: на правах рукописи. ОТЧЕТ о дипломной работе по теме:Распределенное программно-информационное обеспечение статистической модели перевода естественных языков Руководитель работы: Е. C. Гаврилов Консультант по специальной части: О. И. Денисова Исполнитель студент: И. К. Никитин Москва 2012 г.
  2. 2. 1ОТ АВТОРА Текущая сборка документа: 23 января 2012 г. 4:48Техника в жизни человека играет значительную роль и машинный переводне стал исключением. Для облегчения и упрощения перевода была сделанапопытка разработать распределенную статистическую систему машинногоперевода. a Работа сверстана c использованием XELTEX. Документ оформлен по тре-бованиям Московского Авиационного Института, не всегда эти требова-ния соответствуют принятым государственным или мировым стандартам, даи здравому смыслу. Так что, уважаемые читатели, — не взыщите. Спасибо Дмитрию Кану ( [34]), за исправление опечаток предыдущейсборки. При обнаружении опечаток и ошибок, пожалуйста, обращайтесьпо адресу: w@w-495.ru.Версия документа собрана специально для ресурса slideshare.net
  3. 3. 2РЕФЕРАТ Дипломная работа содержит 104 страницы, 13 рисунков, 21 таблицу,4 приложения. Список использованных источников содержит 63 позиции.Ключевые слова:N-ГРАММЫ, ДЕКОДИРОВАНИЕ, ДЕРЕВО СУПЕРВИЗИИ, ЖАДНЫЙИНКРЕМЕНТНЫЙ ПОИСК, МАШИННОЕ ОБУЧЕНИЕ, МОДЕЛЬ ПЕ-РЕВОДА, МОДЕЛЬ ЯЗЫКА, НАУЧНЫЙ ТЕКСТ, ОСОБЕННОСТИНАУЧНО-ТЕХНИЧЕСКОЙ ЛИТЕРАТУРЫ, ОТКРЫТАЯ ТЕЛЕКОММУ-НИКАЦИОННАЯ ПЛАТФОРМА, ПАРАЛЛЕЛЬНЫЙ КОРПУС, ПЕРЕВОД,ПОДХОДЫ К МАШИННОМУ ПЕРЕВОДУ, ПОИСК ПО ПЕРВОМУНАИЛУЧШЕМУ СОВПАДЕНИЮ, РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ,СИСТЕМА МАШИННОГО ПЕРЕВОДА, СИСТЕМА СТАТИСТИЧЕСКО-ГО МАШИННОГО ПЕРЕВОДА, СТАТИСТИЧЕСКИЙ МАШИННЫЙПЕРЕВОД, СУПЕРВИЗОР, ТРАНСФЕРНАЯ СИСТЕМА МАШИННОГОПЕРЕВОДА, ТЕКСТОВЫЙ КОРПУС, ЯЗЫКОВАЯ ПАРА.Работа посвящена разработке распределенной статистической системыперевода естественных языков. Актуальность темы оправдана появлениембольшого количества научно-технических документов и необходимостьюоперативного их перевода на другие языки. В работе проведен краткий обзорсуществующих типов систем машинного перевода, описана теоретическаябаза статистических систем машинного перевода, изложен нетрадицион-ный подход к созданию таких систем. В результате работы было созданораспределенное программно-информационное обеспечение статистическоймодели перевода научно-технических текстов на примере русского и англий-ского языков. Система представляет набор приложений взаимодействующихс общей базой данных. Набор приложений можно разделить на два класса: а) приложения необходимые для обучения системы по уже имеющимся переводам, которые выполнены человеком; б) приложения осуществляющие подбор наиболее подходящих перевод- ных эквивалентов.
  4. 4. 3Алгоритмы обучения системы были разработаны c учетом особенностей на-учных текстов и слабо применимы для других стилей литературы. За неиме-нием текстов нужного объема и качества, в рамках данной работы обуче-ние системы проводилось на комбинированном наборе переводов, состоя-щим преимущественно из официально-делового и публицистического сти-лей литературы. Для подбора наиболее подходящих переводных эквивален-тов используется жадный инкрементный поиск. Его основным преимуще-ством является высокая скорость работы, что может оказаться важным дляоперативного перевода. Качество перевода разработанной системы несколь-ко уступает существующим аналогам. Это объясняется особенностями ис-ходных данных и характером используемых алгоритмов. Скорость работысистемы в несколько раз превосходит скорости доступных систем подобно-го класса. Для сравнения систем использовался одинаковый набор данных.В экономической части проведен расчет стоимости разработанной стемы.В разделе посвященном охране труда и окружающей среды описано какихпоследствий можно избежать при использовании созданной системы.
  5. 5. 4СОДЕРЖАНИЕСписок терминов и их сокращений . . . . . . . . . . . . . . . . . . . 51. Основная часть . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2. К проблеме машинного перевода . . . . . . . . . . . . . . . . . 9 1.3. Математическая база ССМП . . . . . . . . . . . . . . . . . . . 21 1.4. Предлагаемый подход к разработке ССМП . . . . . . . . . . . 30 1.5. Реализация ССМП . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.6. Тестирование разработанной ССМП . . . . . . . . . . . . . . . 532. Экономическая часть . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.2. Построение сетевой модели . . . . . . . . . . . . . . . . . . . 59 2.3. Расчет затрат на разработку . . . . . . . . . . . . . . . . . . . . 66 2.4. Целесообразность применения системы . . . . . . . . . . . . . 713. Охрана труда и окружающей среды . . . . . . . . . . . . . . . . . . 75 3.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2. Основная часть . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88Список использованных источников . . . . . . . . . . . . . . . . . . 91Приложение 1. Простейшая СМП, основанная на примерах . . . . 97Приложение 2. EM алгоритм . . . . . . . . . . . . . . . . . . . . . . . 99Приложение 3. Модель IBM 1 . . . . . . . . . . . . . . . . . . . . . . . 101Приложение 4. Модель IBM 2 . . . . . . . . . . . . . . . . . . . . . . . 102
  6. 6. 5СПИСОК ТЕРМИНОВ И ИХ СОКРАЩЕНИЙCMП — система машинного перевода.CCMП — статистическая система машинного перевода.Корпус (лингвистический корпус) — называют совокупность текстов, со- бранных в соответствии с определенными принципами, размеченных по определенному стандарту, в этой работе корпусом называют сово- купность предложений на конкретном языке, разделенных символом перевода строки.n-грамма — подпоследовательность из n элементов из данной последова- тельности текста или речи, в данной работе рассматривается как под- последовательность слов.ОТП (OTP) — открытая телекоммуникационная платформа (open telecom platform).Cупервизор (в терминах ОТП) — процесс (как совокупность взаимосвя- занных и взаимодействующих действий), следящий за дочерними про- цессами, отвечающий за их запуск и остановку.Приложение (в терминах ОТП) — компонент, который можно запускать и останавливать как единое целое, и который также может быть исполь- зован повторно в других системах.Дерево контроля (супервизии) — совокупность рабочих процессов вы- числительной системы, их супервизоров представленное в виде дре- вовидной структуры.
  7. 7. 61. ОСНОВНАЯ ЧАСТЬ
  8. 8. 71.1. ВВЕДЕНИЕ Мы живем в мире информационных технологий, которые прочно вошлив нашу жизнь. Мы пользуемся современными средствами связи. Компьютерпревратился в неотъемлемый элемент нашей жизни не только на рабочем ме-сте, но и в повседневной жизни. Быстрое развитие новых информационныхтехнологий свидетельствует о всевозрастающей роли компьютерной техникив мировом информационном пространстве. С каждым днем увеличивается число пользователей Интернета. Все боль-ше сетевые технологии оказывают влияние на развитие самой науки и тех-ники. За последние годы сильно начал меняться характер образования, пере-ходя на уровень дистанционного. Этот переход осуществляется даже в клас-сических вузах. Развитие науки и образования, да и вообще формированиемирового информационного пространства значительно тормозится из-за такназываемого языкового барьера. Эта проблема пока не нашла своего карди-нального решения. Последние годы объем предназначенной для перевода информации уве-личился. Создание универсального языка типа Эсперанто, «эльфийских язы-ков» или какого-либо другого языка не привели к изменению ситуации. Ис-пользование традиционных средств межкультурной коммуникации можетбыть достойным выходом. Нынешний век диктует свои условия: информа-ция меняется двадцать четыре часа в сутки, широко применяются электрон-ные средства связи. В такой ситуации классический подход к осуществлениюперевода не всегда оправдывает себя. Он требует значительных капитало-вложений и временных затрат. В некоторых случаях более целесообразнымпредставляется использование машинного или автоматического перевода. Целью работы является создание статистической системы машинного пе-ревода. Обозначенная цель подразумевает проектирование распределеннойсистемы, разработку алгоритмов статистического анализа текстов, реализа-цию и тестирование программного обеспечения.
  9. 9. 8Цель определила следующие задачи:• исследование существующих статистических систем машинного пере- вода;• изучение математических основ построения статистических систем ма- шинного перевода;• изучение лингвистических основ машинного перевода;• изучение возможных вариантов хранения данных в рамках задачи ма- шинного перевода;• составление требований и ограничений системы;• разработка численного алгоритма обучения системы;• разработка алгоритма поиска верного варианта перевода на основе обу- ченной модели;• составление требований к входным данным численного алгоритма;• составление требований к выходным данным алгоритма поиска ;• разработка структуры хранения данных;• разработка распределенной архитектуры;• разработка работающей обучающейся модели на тестовых входных данных;• разработка работающего поискового модуля на тестовых входных дан- ных;• подбор нужных корпусов текстов;• разработка распределенной обучающейся системы;• разработка алгоритмов предварительной обработки входных корпусов текста;• корректировка системы с учетом входных данных;• тестирование приложения, в совокупности отладка всей системы.
  10. 10. 91.2. К ПРОБЛЕМЕ МАШИННОГО ПЕРЕВОДА В настоящее время имеется достаточно широкий выбор пакетов про-грамм, облегчающих труд переводчика, которые условно можно подразде-лить на две основные группы: • электронные словари; • системы машинного перевода. Системы машинного перевода текстов с одних естественных языковна другие моделируют работу человека-переводчика. Их полезность зави-сит от того, в какой степени в них учитываются объективные законы язы-ка и мышления. Законы эти пока еще изучены плохо. Поэтому, решая за-дачу машинного перевода, необходимо учитывать опыт межнациональногообщения и опыт переводческой деятельности, накопленный человечеством.В процессе перевода в качестве основных единиц смысла выступают не от-дельные слова, а фразеологические словосочетания, выражающие понятия.Именно понятия являются элементарными мыслительными образами. Толь-ко используя их можно строить более сложные образы, соответствующиепереводимому тексту. В современной лингвистике можно выделить ряд на-правлений использования компьютера: • машинный перевод; • отдельные виды автоматизации лингвистических исследований; • автоматизация лексикографических работ; • автоматический поиск библиографической информации. В этой работе мы будем подробно рассматривать системы машинного пе-ревода. На данный момент выделяют три типа систем машинного перевода: • полностью автоматический; • автоматизированный машинный перевод при участии человека (MT1 - системы); 1 Machine Translation.
  11. 11. 10 • перевод, осуществляемый человеком, с использованием компьютера (TM2 -системы). Полностью автоматические системы машинного перевода являютсянесбыточной мечтой, чем реальной идей. В этой работе мы их рассматриватьне будем. Все системы машинного перевода (MT-системы) работают при уча-стии человека в той или иной мере. TM-системы иногда называют еще «па-мятью переводчика». Они являются скорее просто удобным инструментом,нежели элементом автоматизации.1.2.1. ПОДХОДЫ К МАШИННОМУ ПЕРЕВОДУ Системы машинного перевода могут использовать метод перевода осно-ванный на лингвистических правилах. Наиболее подходящие слова из исход-ного языка просто заменяются словами переводного языка. Часто утвержда-ется, что для успешного решения проблемы машинного перевода необходи-мо решить проблему понимания текста на естественном языке. Как правило, метод перевода основанный на правилах использует симво-лическое представление (посредника), на основе которого создается текст напереводном языке. А если учитывать природу посредника то можно говоритьоб интерлингвистическом машинном переводе или трансферном машинномпереводе. Эти методы требуют очень больших словарей с морфологической,синтаксической и семантической информацией и большого набора правил.Современные системы машинного перевода делят на три большие группы: • основанные на правилах; • основанные на примерах; • статистические. 2 Translation memory.
  12. 12. 111.2.2. СМП ОСНОВАННЫЕ НА ПРАВИЛАХ Системы машинного перевода основанные на правилах — общий термин,который обозначает системы машинного перевода на основе лингвистиче-ской информации об исходном и переводном языках. Они состоят из двуязыч-ных словарей и грамматик, охватывающих основные семантические, морфо-логические, синтаксические закономерности каждого языка. Такой подходк машинному переводу еще называют классическим. На основе этих дан-ных исходный текст последовательно, по предложениям, преобразуется втекст перевода. Эти системы противопоставляют системам машинного пе-ревода, которые основаны на примерах. Принцип работы таких систем —связь структуры входного и выходного предложения. Эти системы делятся на три группы: • системы пословного перевода; • трансферные системы; • интерлингвистические.ПОСЛОВНЫЙ ПЕРЕВОД Такие системы используются сейчас крайне редко из-за низкого качестваперевода. Слова исходного текста преобразуются как есть в слова переводно-го текста. Часто такое преобразование происходит без лемматизации и мор-фологического анализа. Это самый простой метод машинного перевода. Ониспользуется для перевода длинных списков слов, например, каталогов. Также он может быть использован для составления «словаря-подстрочечника»для TM-систем.ТРАНСФЕРНЫЕ СИСТЕМЫ Как трансферные системы, так и интерлингвистические, имеют однуи ту же общую идею. Для перевода необходимо иметь посредника, которыйв себе несет смысл переводимого выражения. В интерлингвистических си-стемах посредник не зависит от пары языков, в то время как в трансферных— зависит.
  13. 13. 12 Трансферные системы работают по очень простому принципу: к входно-му тексту применяются правила, которые ставят в соответствие структурыисходного и переводного языков. Начальный этап работы включает в себяморфологический, синтаксический, а иногда и семантический анализ тек-ста для создания внутреннего представления. Перевод генерируется из это-го представления с использованием двуязычных словарей и грамматическихправил. Иногда на основе первичного представления, которое было получе-но из исходного текста, строят более «абстрактное» внутренне представле-ние. Это делается для того, чтобы акцентировать места важные для переводаи отбросить несущественные части текста. При построении текста переводапреобразование уровней внутренних представлений происходит в обратномпорядке. При использовании этой стратегии получается достаточно высокое каче-ство переводов, с точностью в районе 90% (сильно зависит от языковой па-ры). Работа любой системы трансферного перевода состоит как минимум изпяти частей: • морфологический анализ; • лексическая категоризация; • лексический трансфер; • структурный трансфер; • морфологическая генерация.ИНТЕРЛИНГВИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД Интерлингвистический машинный перевод — один из классических под-ходов к машинному переводу. Исходный текст трансформируется в абстракт-ное представление, которое не зависит от языка (в отличие от трансферногоперевода). Переводной текст создается на основе этого представления. Мож-но доказать математически, что в рамках этого подхода, создание каждого но-вого интерпретатора языка для такой системы будет удешевлять ее, по срав-нению, например, с системой трансферного перевода. Кроме того, в рамках
  14. 14. 13такого подхода можно реализовать «пересказ текста», перефразирование ис-ходного текста в рамках одного языка. До сих пор не существует реализаций такого типа систем, которая кор-ректно работала хотя бы для двух языков. Многие эксперты высказывают со-мнения в возможности реализации. Самая большая сложность для созданияподобных систем заключается в проектировании межъязыкового представ-ления. Оно должно быть одновременно абстрактным и независящим от кон-кретных языков, но в тоже время оно должно отражать особенности любогосуществующего языка. С другой стороны, в рамках искусственного интеллек-та, задача выделения смысла текста на данный момент до сих пор не решена.1.2.3. СМП ОСНОВАННЫЕ НА ПРИМЕРАХ Перевод основанный на примерах — один из подходов к машинному пе-реводу, при котором используется двуязычный корпус текста. Этот корпустекста во время перевода используется как база знаний. Предполагается, чтолюди разлагают исходный текст на фразы, потом переводят эти фразы, а да-лее составляют переводной текст из фраз. Причем, перевод фраз обычно про-исходит по аналогии с предыдущими переводами. Для построения системымашинного перевода, основанной на примерах потребуется языковой корпус,составленный из пар предложений. Языковые пары — тексты, содержащиепредложения на одном языке и соответствующие им предложения на втором,могут быть как вариантами написания двух предложений человеком — носи-телем двух языков, так и набором предложений и их переводов, выполненныхчеловеком. Перевод, основанный на примерах, лучше всего подходит для таких яв-лений как фразовые глаголы. Значения фразовых глаголов сильно зависит отконтекста. Фразовые глаголы очень часто встречаются в разговорном англий-ском языке. Они состоят из глагола с предлогом или наречием. Смысл такоговыражения невозможно получить из смыслов составляющих частей. Класси-ческие методы перевода в данном случае неприменимы. Этот метод переводаможно использовать для определения контекста предложений. Как показано далее, реализовать примитивную систему машинного пере-вода основанную на примерах крайне просто.
  15. 15. 141.2.4. СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОД Статистический машинный перевод — это метод машинного перевода.Он использует сравнение больших объемов языковых пар, так же как и ма-шинный перевод основанный на примерах. Статистический машинный пере-вод обладает свойством «самообучения». Чем больше в распоряжении име-ется языковых пар и чем точнее они соответствуют друг другу, тем лучшерезультат статистического машинного перевода. Статистический машинныйперевод основан на поиске наиболее вероятного перевода предложения с ис-пользованием данных из двуязычных корпусов текстов. В результате при вы-полнении перевода компьютер не оперирует лингвистическими алгоритма-ми, а вычисляет вероятность применения того или иного слова или выра-жения. Слово или последовательность слов, имеющие оптимальную веро-ятность, считаются наиболее соответствующими переводу исходного текстаи подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода тек-ста, а задача его расшифровки. Статья, написанная на английском языке, насамом деле является статьей написанной на русском, но текст зашифрован(или искажен шумом). При таком подходе становится понятно почему, чем«дальше» языки, тем лучше работает статистический метод, по сравнению склассическими подходами.МОДЕЛЬ ШЕННОНА . . Шум . сточник (R) И . . ередачик П . . риемник П . . ель. (E) Ц Рис. 1.1. Модель зашумленного канала. Модель состоит из пяти элементов: источника информации, передатчи-ка, канала передачи, приемника и конечной цели, расположенных линейно.Передатчик кодирует информацию, полученную от источника, и передает еена канал. По каналу передачи, на который действует шум — помехи любо-го рода, искажающие информацию, данные поступают в приемник, где онидекодируется и передаются к конечной цели.
  16. 16. 15 Из-за шума полученная приемником информация в общем случае не сов-падает с информацией, отправленной передатчиком. Однако, согласно моде-ли Шеннона, создавая избыточную информацию, исходные данные можновосстановить со сколь угодно высокой вероятностью. Для обнаружения оши-бок используются контрольные суммы, для их исправления — специальныекорректирующие коды, при условии, что степень шума не превосходит неко-торой границы. Стоит отметить, что любая информация в некотором роде из-быточна [20]. Человеческая речь избыточна — чтобы уловить смысл предло-жения, зачастую необязательно слышать его полностью. Аналогично, пись-менная речь, тоже избыточна, и при переводе этим можно воспользоваться.Если предложение в целом понятно, но есть несколько незнакомых слов, тообычно не трудно догадаться об их значении. Таким образом, для перевода текста необходимо найти способ декодиро-вания, использующий естественную избыточность, в связи с чем декодирова-ние должно быть вероятностным. Задача такого декодирования заключаетсяв том, чтобы, при данном сообщении найти исходное сообщение, которомусоответствует наибольшая вероятность. Для этого же необходимо для любыхдвух сообщений уметь находить условную вероятность того, что переведен-ное сообщение, пройдя через канал с шумом, преобразуется в исходное со-общение. В данном случае нужна модель источника (модель языка) и модельканала (модель перевода). Модель языка дает оценку вероятности фразам пе-реводного языка, а модель перевода оценивает вероятность исходной фразыпри условии фразы на переводном языке. Если нам нужно перевести фразу срусского на английский, то мы должны знать, что именно обычно говорят по-английски и как английские фразы искажаются до состояния русского языка.Сам по себе перевод превращается в процесс поиска такой английской фра-зы, которая максимизировала бы произведения безусловной вероятности ан-глийской фразы и вероятности русской фразы-оригинала при условии даннойанглийской фразы. max P (ϕe |ϕr ) = max (P (ϕe ) · P (ϕr |ϕe )) , где ϕe ϕe • ϕe — фраза перевода (английская); • ϕe — фраза оригинала (русская).
  17. 17. 16 В системах статистического перевода, в качестве модели языка исполь-зуются варианты n-граммной модели (например, в переводчике Google, ис-пользутеся 5-граммная модель). Согласно этой модели, правильность выборатого или иного слова зависит только от предшествующих (n − 1) слов. Самойпростой статистической моделью перевода является модель пословного пе-ревода. В этой модели, известной как Модель IBM №1, предполагается, чтодля перевода предложения с одного языка на другой достаточно перевестивсе слова, а расстановку их в правильном порядке обеспечит модель языка.Единственным массивом данных, которым оперирует Модель №1, являет-ся таблица вероятностей парных переводных соответствий слов двух язы-ков [55]. Обычно используются более сложные модели перевода. Работа статистических систем, так же как и систем основанных на при-мерах происходит в двух режимах: обучения и эксплуатации. В режиме обу-чения просматриваются параллельные корпуса текста и вычисляются веро-ятности переводных соответствий. Строится модель языка перевода. Тут жеопределяются вероятности каждой n-граммы. В режиме эксплуатации, дляфразы из исходного текста ищется фраза переводного текста, так, чтобы мак-симизировать произведение вероятностей.
  18. 18. 171.2.5. СРАВНЕНИЕ РАЗЛИЧНЫХ ТИПОВ СМП М . . . ашинный перевод П . . равила Д . . анные П . . ословные И . . нтерлингвистические . снованные . примерах О на Т . . рансферные . . татистические С Рис. 1.2. Классификация систем машинного перевода. Рассмотрим кратко преимущества и недостатки существующих систем.СИСТЕМЫ ПОСЛОВНОГО ПЕРЕВОДА Системы пословного перевода на данный момент используются толькодля составления подстрочечника, как отмечалось ранее.Преимущества: • простота; • высокая скорость работы; • не требовательные к ресурсам.Недостатки: • низкое качество перевода.Ярких представителей на рынке нет, в данном случае удобнее создавать но-вую систему под конкретную задачу.
  19. 19. 18ТРАНСФЕРНЫЕ СИСТЕМЫ Трансферные системы распространены очень широко. Наиболее извест-ными представителями являются ImTranslator, PROMPT. Все подобные си-стемы имеют сходные преимущества и недостатки.Преимущества: • высокое качество перевода (при наличие нужных словарей и правил); • выбор тематики текста, который повышает качество перевода; • возможно уточнение перевода, благодаря внесению изменений в базу данных переводчика (таким образом, пользователь получает потенци- ально бесконечное множество терминов, с которыми можно свободно оперировать, и можно достигнуть «бесконечного» качества перевода).Недостатки: • высокая стоимость и время разработки; • для добавления нового языка, приходиться переделывать систему зано- во; • нужна команда квалифицированных лингвистов, для описания каждого исходного и каждого переводного языка; • требовательность к ресурсам на этапе составления базы.ИНТЕРЛИНГВИСТИЧЕСКИЕ СИСТЕМЫ Интерлингвистические системы перевода так и не были доведеныдо уровня промышленных систем. Предполагаемые преимущества: • высокое качество перевода, независимо от выбора языка; • выделение смысла из исходного текста происходит один раз и потом за- писывается на любой язык, в том числе исходный (получаем «пересказ текста»); • низкая стоимость трудозатрат на добавления нового языка в систему.
  20. 20. 19Недостатки: • спорность потенциальной возможности; • высокая сложность разработки; • системы не масштабируются.СМП, ОСНОВАННЫЕ НА ПРИМЕРАХ СМП, основанные на примерах, так же не имеют ярких представителей.Существующие прототипы используются в академической среде для иллю-страции самого метода. Часто они поставляются не в виде готового продук-та, а в виде набора библиотек: Marclator – СМП Дублинского Университета,Cunei гибридная СМП, основанная на переводе по аналогии и на статисти-ческом переводе.Преимущества: • высокое качество перевода (при наличие достаточно долгой трениров- ки системы); • хорошо справляется со многими контекстными задачами (фразовые глаголы); • квалифицированные лингвисты не нужны непосредственно для по- строения системы, нужны только инженеры; • логическая простота устройства; • возможно обучение системы во время ее эксплуатации.Недостатки: • для обучения системы нужны большие параллельные корпуса текста, размеченные определенным образом; • качество перевода зависит от исходных корпусов; • продолжительное время обучения; • требовательность к ресурсам на этапе обучения.
  21. 21. 20ССМП ССМП активно разрабатывались (и разрабатываются) компанией IBM.Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5. Нонаибольшую известность этот метод приобрел благодаря компании Google.Кроме переводчика Google существует еще ряд систем и библиотек, исполь-зующих статистический подход.Преимущества: • высокое качество перевода: – для фраз, которые целиком помещаются в n-граммную модель – при наличии достаточно долгой тренировке системы. – при наличии качественных корпусов текста; • квалифицированные лингвисты не нужны непосредственно для по- строения системы, нужны только инженеры; • труд человека минимизирован для создания таких систем; • не требуется перестраивать систему при добавлении нового языка; • возможно обучение системы во время ее эксплуатации.Недостатки: • для обучения нужны большие параллельные корпуса текста; • сложный математический аппарат; • качественный перевод возможен только для фраз, которые целиком по- мещаются в n-граммную модель; • качество перевода зависит от исходных корпусов; • при добавлении нового языка приходится анализировать большие объ- емы данных; • продолжительное время обучения; • требовательность к ресурсам на этапе обучения.
  22. 22. 211.3. МАТЕМАТИЧЕСКАЯ БАЗА ССМП Пусть ϕr — фраза оригинала, русская. Требуется найти ϕe — фразу пе-ревода, английскую. Нужно максимизировать P (ϕe |ϕr ). Если вспомнить мо-дель зашумленного канала (модель Шеннона), то получаем: (P (ϕe ) · P (ϕr |ϕe )) P (ϕe |ϕr ) = ⇒ P (ϕr ) ϕeg = arg max P (ϕe |ϕr ) = arg max (P (ϕe ) · P (ϕr |ϕe )) ∪ϕe ∪ϕeP (ϕr ) — нам известна, ее не учитываем. Величина P (ϕe ) называется моде-лью языка. P (ϕr |ϕe ) — модель перевода. Работа любой статистической си-стемы перевода состоит из двух этапов: • обучения — вычисляются модели языка и перевода; • эксплуатации — вычисляется величина arg max P (ϕe |ϕr ) при данной ϕr ∪ϕe (процесс вычисления называют декодированием).1.3.1. ОБУЧЕНИЕ ССМПВЫЧИСЛЕНИЕ ЯЗЫКОВОЙ МОДЕЛИ В качестве модели языка в системах статистического перевода использу-ются преимущественно различные модификации n-граммной модели, утвер-ждающей, что «грамматичность» выбора очередного слова при формирова-нии текста определяется только тем, какие (n–1) слов идут перед ним. Веро-ятность каждого n-грамма определяется по его встречаемости в тренировоч-ном корпусе [55]. ∏ i=l+n−1 P (ω1 . . . ωl ) = P (ωi |ωi−1 . . . ωi−n+1 ) i=0n — n-граммность модели.
  23. 23. 22 P (ωm |ω1 . . . ωm−1 ) = Kn · P (ωm |ω1 . . . ωm−1 )+ +Km−1 · P (ωm−1 |ω1 . . . ωm−2 )+ +K2 · P (ω2 |ω1 ) + K1 · P (ω1 ) + K0 ; частота (ω1 ) P (ω1 ) = ; |Θ| частота (ω1 . . . ωm−1 ωm ) P (ωm |ω1 . . . ωm−1 ) = ; частота (ω1 . . . ωm−1 ) Ki — коэффициенты сглаживания. Они могут быть выбраны различнымиспособами. Чаще всего используется линейная интерполяция. Ki Ki+1 ; ∑ i=n Ki = 1.0; i=0В этом случае придется подбирать и экспериментально, например для трех-граммной модели K3 = 0.8, K2 = 0.15, K1 = 0.049, K0 = 0.001 [34] P можно вычислить иначе, используя адаптивный метод сглаживания δ + частота (ω1 . . . ωm ) P (ωm |ω1 . . . ωm−1 ) = ∑ ( ) δ + частота (ω1j . . . ωmj ) i δ + частота (ω1 . . . ωm ) = ∑( ) δ·V + частота (ω1j . . . ωmj ) i V – количество всех n-грамм в используемом корпусе. Наиболее простымслучаем аддитивного сглаживания является метод, когда δ = 1 – метод сгла-живания Лапласа [58]. Существуют и другие техники сглаживания вероятностей (Гуда-Тьюринга, Катца, Кнезера-Нейя [2]),
  24. 24. 23ВЫЧИСЛЕНИЕ МОДЕЛИ ПЕРЕВОДА Обозначим: • Θe — «английский» текст (множество предложений); • Θr — «русский» текст; • Πe — «английское» предложение (последовательность слов); • Πr — «русское» предложение; • ωe — «английское» слово; • ωr — «русское» слово; • le ← |Πe |; • lr ← |Πr |; • πωr ← позиция ωr в Πr ; • πωe ← позиция ωe в Πe .Пусть P (Πe |Πr ) — вероятность некоторой строки (предложения) из e,при гипотезе перевода из r. По аналогии c моделью языка можно предпо-ложить, что частота (Πe , Πr ) P (Πe |Πr ) = ; частота (Πr )Однако это не верно. Для вычисления модели перевода нужно: • разделить предложение на меньшие части; • ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений. ∑ P (Πe |Πr ) = P (Πe , a|Πr ); a
  25. 25. 24Вероятность перевода: ε ∏le P (Πe , a|Πr ) = t(ωej |ωra(j) ) (lr + 1)le j=1t – это вероятность слова оригинала в позиции j при соответствующем емуслове перевода ωra(j) , определенном выравниванием a. ε — нормализующая«константа». В этой работе ε выбирается равным 1, но если рассуждать болеестрого, ε — распределение вероятностей длин предложений каждого из язы-ков ε = ε(le |lr ) Для приведения P (Πe , a|Πr ) к P (a|Πe , Πr ), т.е. к вероятности данного вы-равнивания при данной паре предложений, каждая вероятность P (Πe , a|Πr )нормализуется по сумме вероятностей всех выравниваний данной пары пред-ложений: P (Πe , a|Πr ) P (a|Πe , Πr ) = ∑ P (Πe , a|Πr ) a Имея набор выравниваний с определенными вероятностями, можно под-считать частоты каждой пары слов, взвешенные по вероятности выравнива-ний, в которых они встречаются. Например, если какая-то пара слов встре-чается в двух выравниваниях, имеющих вероятности 0.5 и 1, то взвешеннаячастота (counts) такой пары равна 1.5 [55]. counts(ωe |ωr ) counts(ωe |ωr ) t(ωe |ωr ) = ∑ = ; counts(ωe |ωr ) total(ωr ) ωe Требуется оценить вероятности лексического перевода t(ωe |ωr ) из парал-лельного корпуса (Θe , Θr ). Но чтобы сделать это нужно вычислить a, которойу нас нет. Возникает так называемая «проблема курицы и яйца». Для оцен-ки параметров модели нужно знать выравнивания. Для оценки выравниваниянужно знать параметры модели.
  26. 26. 25 При решении этой проблемы используют EM-алгоритм (Витерби), кото-рый более детально рассмотрен в приложении. EM-алгоритм: 1) Инициализируем параметры модели (одинаковыми значениями, на первой итерации); 2) Оценим вероятности отсутствующей информации; 3) Оценим параметры модели на основании новой информации; 4) Перейдем к следующей итерации.1.3.2. ДЕКОДИРОВАНИЕ ССМП Декодер нужен для осуществления непосредственно перевода. Он вычис-ляет величину arg max (P (ϕe ) · P (ϕr |ϕe )) ∪ϕeЗадача декодирования является NP-полной [7]. Существует несколько спосо-бов и методов декодирования. Обычно выделяют: • полный перебор; • поиск по первому наилучшему совпадению (A*): – стековый поиск, – мультистековый поиск; • жадный инкрементный поиск; • сведение к обобщенной (асимметричной или симметричной) задаче коммивояжера: – задача ЛП, – метод Лина-Кернигана, – генетические алгоритмы, – «муравьиная оптимизация».
  27. 27. 26Каждый из методов обладает своими достоинствами и недостатками. Вари-ант полного перебора мы рассматривать не будем, так как, если мы ограни-чим наш поиск в строке не более чем в два раза длины m строки исходногоязыка, то мы получим наивный метод c сложностью O(m2 v 2m ) [7]. В данном случае можно рассмотреть только часть пространства возмож-ных состояний. При этом, скорее всего, мы можем пропустить самое хорошеерешение, но сможем найти «достаточно хорошее». Для алгоритмов декоди-рования важными параметрами являются скорость, поиск ошибок, качествоперевода.ПОИСК ПО ПЕРВОМУ НАИЛУЧШЕМУ СОВПАДЕНИЮ Поиск учитывает как расстояние от начального состояния и оценки рас-стояния до цели. В приложении декодирования имеем следующий алгоритмдля стекового поиска: 1) Инициализируем стек пустой гипотезой. 2) Достаем лучшую гипотезу h из стека. 3) Если h — все предложение, выводим его и завершаем выполнение. 4) Для всех возможных следующих слов ω расширить гипотезу h и поло- жить обратно в стек. 5) Перейти ко второму шагу.«Стековым» поиск назван по историческим причинам, на самом деле исполь-зуется очередь с приоритетами. Большим минусом этого поиска является, то что более короткие гипотезыимеют приоритет. Мультистековый поиск отличается наличием отдельного«для гипотез» разного размера. Крайне не экономичен по памяти. Для умень-шения пространства поиска возможны различные ухищрения, основанные назнаниях о структуре предложения.
  28. 28. 27ЖАДНЫЙ ИНКРЕМЕНТНЫЙ ПОИСК Простой поиск, позволяет достичь решения путем выбора лучшей альтер-нативы, чтобы добраться до цели в настоящее время. Эвристическая функцияопределяется как стоимость самого дешевого пути из текущего состояния вцелевое состояние. Жадный инкрементный поиск имеет следующие особен-ности: • «плохой» вариант перевода получаем сразу; • последовательно применяя набор операций можем улучшить перевод: – изменить перевод слова (группы слов), – удалить слово (группу слов), – поменять слова местами. В оригинальной работе [4] приводится иной набор операций, но он отно-сится исключительно к моделям высшего порядка (IBM 3-5). Дело в том, чтомодели высших порядков учитывают наличие фертильности слова — вели-чину показывающую сколько слов языка перевода способно породить данноеслово исходного языка. C понятием фертильности связано понятие нулево-го слова. Нулевое слова— слово исходного языка не имеющее графическогоначертания в тексте, и какого либо еще своего проявления, кроме того, чтооно обладает ненулевой фертильностью. Кроме того, в классических моде-лях используется биграммная модель языка. В связи с этим, к описаннымвыше опирается сразу добавляются замены слов в зависимости от их фер-тильности, вставки слов в какой либо участок между словами, вставка слови их одновременная замена. В этой работе мы не вводим формальное описа-ние моделей высших порядков, так как это займет достаточно внушительныйобъем. Потому мы привели упрощенную версию алгоритма жадного поиска.Именно такая версия поиска используется нами в практической части рабо-ты. Выносить отдельно описание мы тоже не стали, так как ничем особенноновым этот вариант поиска не отличается. Всего скорее такой алгоритм будетпроходить по циклу операции быстрее оригинального, но этот факт требуетдополнительных исследований и количественных измерений. В любом слу-чае ясно, что за меньшее число операций придется платить большим количе-ством итераций алгоритма.
  29. 29. 28 Жадный поиск может стартовать из начального состояния, которое ниприведет к конечной цели. Не является полным или оптимальным. Однако,это самый быстрый из существующих методов. Жадный инкрементный по-иск используется в данной работе.СВЕДЕНИЕ К ОБОБЩЕННОЙ ЗАДАЧЕ КОММИВОЯЖЕРА Исходными данными для задачи является множество вершин, разбиениеэтого множества на подмножества, и также матрица стоимостей перехода изодной вершины в другую. Задача заключается в нахождении кратчайшего за-мкнутого пути, который бы посетил по одной вершине в каждом подмноже-стве. Если для двух смежных вершин |AB| = |BA|, то задача является асим-метричной. Для декодирования имеем: • подмножество вершин — слово исходного текста ωr ; • вершина — вариант перевода ωe (обычно выбирают 10 наиболее веро- ятных вариантов); • расстояние — величина неопределенности − log (P (ϕe ) · P (ϕr |ϕe )). Обобщенная задача коммивояжера (OЗК) сводится к простой задаче ком-мивояжера (ЗК) при помощи алгоритма Нуна-Бена [19]. Далее ее решаютсредствами линейной оптимизации (крайне медленный вариант), эвристиче-ских алгоритмов, генетических алгоритмов, методов роевого интеллекта. Для данной работы сведения задачи декодирования к обобщенной задачекоммивояжера практического значения не имеет, но представляет особеннойинтерес в рамках статистического машинного перевода. В ходе исследова-ний, сопутствующих работе нами был рассмотрен метод решения обобщен-ной задачи коммивояжера с помощью метода «муравьиной оптимизации». Врезультате, было сделано очень важное наблюдение — для ЗК не важен городс которого был начат обход графа, а для задачи декодирования важен — естьзаданный порядок слов. Метод «муравьиной оптимизации» как раз относился к таким не устойчи-вым методам. Относительный порядок слов (расположение n соседних слов)
  30. 30. 29может быть установлено с помощью модели целевого языка, однако, напри-мер при циклическом сдвиге слов выходного предложения, модель языка бу-дет бессильна. Сам по себе метод «муравьиной оптимизации» представляет из себя при-ближенный метод решения ЗК. Он основан на наблюдениях за поведени-ем муравьев в природе. Перемещаясь от одного пункта до другого, муравьиоставляют за собой тропы из феромонов Если другие муравьи находят та-кие тропы, они, пойдут по ним. Тем самым укрепят воздействие феромоннойтропы. Со временем феромонная тропа испаряется. Чем больше времени тре-буется для прохождения, тем сильнее испарится феромонная тропа. Для ЗКмуравьи сначала в случайном порядке выходят из каждого города, после за-данного числа переходов отбирается путь который менее всего «испарился». В рамках задачи перевода при решении ЗК методом «муравьиной опти-мизации» можно использовать на выходе циклический сдвиг полученных ре-зультатов, но в это потребует дополнительных накладных расходов, которыемогут перекрыть преимущества приближенного метода. Можно также предложить вариант метода, когда каждый полученный ре-зультат можно будет циклически сдвинуть на определенную величину и по-том целиком проверить по модели языка, но в этом случае, мы получим оче-редной и очень экзотический вариант жадного инкрементного поиска.
  31. 31. 301.4. ПРЕДЛАГАЕМЫЙ ПОДХОДК РАЗРАБОТКЕ ССМП Основными задачами разрабатываемой системы являются: а) обработка входного параллельного корпуса с опорой на особенности научного текста; б) создание моделей языка и перевода на основании входного параллель- ного корпуса; в) декодирование исходного текста на основании моделей языка и пере- вода (с опорой на особенности научного текста); г) иметь возможность выполнять описанные выше операции распределе- но. В соответствии с перечисленными задачами весь код системы можно раз-бить на 3 класса приложений, каждый из которых соответствует своей задаче. . орпус. Ru К En, Ч . итатель . Б . . аза данных . Д . . екодер О . бработчик . Рис. 1.3. Упрощенная схема системы. Кроме того, для взаимодействия с системой пользователя необходимопредусмотреть интерфейс взаимодействия с пользователем и с внешнимиприложениями. C учетом этого и условия распределенности общая схема мо-жет иметь вид как представлено ниже.
  32. 32. 31 К . . орпус En, Ru x Ч . итатель x . К . . орпус En, Ru . . . Ч . итатель . . . . К . . орпус En, Ru 2 Ч . итатель 2 .К .. орпус En, Ru 1 Ч . итатель 1 . Д . . екодер 1 W . eb. . . . Б . . аза данных . Д . екодер . . . . R . est. . . . К . онсоль . . . . О . бработчик 1 . Д . . екодер z О . бработчик 2 . О . бработчик . . . . О . бработчик y . Рис. 1.4. Полная схема системы. Для эффективной работы системы предполагается, что x y. Все тритипа модуля могут быть удалены географически (однако, при этом можетупасть скорость взаимодействия). База данных может быть распределена.Использование (возможно, удаленной) базы данных является скорее чистотехническим моментом реализации системы. Намного естественнее и прощебыло бы проводить все вычисления в локальной памяти машины, а для рас-пределения вычислений осуществлять пересылку сообщений от одного узла
  33. 33. 32к другому. Однако, память компьютера может быть не в состоянии вместитьвсе необходимые для вычисления данные даже при очень большом объеме.А пересылка сообщений приведет к переполнению очередей сообщений дляпроцессов, которые медленно осуществляют обработку информации. На еди-ницу времени они будут принимать больше, чем смогут обработать. Пото-му самым оптимальным решением стало использование базы данных класса«ключ-значение» для каждой вычислительной операции, которая потребуетдлительного хранения. При создании систем машинного перевода текстов содних естественных языков на другие возникает вопрос о том, какими мини-мальными единицами смысла следует оперировать в таких системах [60]. Система ориентирована на перевод исключительно научно-техническойлитературы. Тексты научной литературы на русском и английском языкахсходны по своей структуре. Стиль научно-технической прозы отличается: а) устойчивыми формальными выражениями; б) прямым порядком слов; в) стереотипной структурой предложений; г) важностью локального порядка слов.Для перевода научного текста, на основании принципов изложенных в тео-ретической части, мы предлагаем следующие приемы: а) вместо слов использовать их группы или n-граммы; б) использовать выравнивание по крупным группам n-грамм; в) использовать модели низких порядков (IBM 3-5 могут сильно исказить локальный порядок слов).Как показывают статистические исследования, словосочетания длиной более10 слов повторяются в текстах очень редко и в совокупности покрывают ихменее чем на 1% [60].
  34. 34. 33 Предлагаются следующие ограничения: а) максимальный размер n-грамм положить равным 5 слов; б) максимальный размер считываемой строки ограничить 256 символами; в) максимальный размер предложения ограничить 40 словами; Все эти ограничения являются настраиваемыми, однако именно с таки-ми настройками проводилась реализация и тестирование системы. Ниже рас-смотрим каждое приложение в отдельности.1.4.1. ЧИТАТЕЛЬ Рис. 1.5. Диаграмма активности приложения «читатель».
  35. 35. 34 Приложение считывает параллельный корпус строка за строкой из двухфайлов корпуса одновременно. После прочтения каждая строка разбиваетсяна слова, по синтаксическим признакам конца слова (пробелы, знаки пре-пинания). Из списков слов формируются группы n-грамм начиная с макси-мального n, заканчивая слова. Одним из принципиальных моментов системыявляется метод выделения списков n-грамм. Имея список n-грамм верхнегоуровня, скажем пятого, составить список более низкого уровня можно безобращения к исходной строке. Таким образом, выделения списка занимаетвремя строго меньшее чем O(l2 ) по длине строки. Формирование списковn-грамм и отправка полученных n-грамм в базу может происходить парал-лельно. Сама по себе отправка представляет собой пару операций: инкрементсчетчика заданной n-граммы в базе и добавление слова множество n-грамм.Обе эти операции также можно проводить параллельно, более того отправкув базу данных может быть осуществлена асинхронно, так как для нас не ва-жен возврат результата выполнения команды. n-граммы в списке n-граммыотсортированы по убыванию их длин, n-граммы одинаковой длинны, отсор-тированы по возрастанию позиции первого слова n-граммы в исходном пред-ложении. Добавление в базу списков n-грамм представляет собой асинхрон-ную запись каждого списка в базу данных подобно добавлению элемента встек. Общая схема приложения представлена ниже. Стрелками показаны по-токи данных. Прерывистыми линиями изображены косвенные связи. Обработчик . Модуль работы . . орпус. Ru К En, . файлов . со словами (потоков) Д . . испетчер . Модуль . П . ул соединений . . работы с БД Рис. 1.6. Схема модулей приложения «читатель».
  36. 36. 35 В одной из модификаций этого приложения мы сразу в приложении чи-тателя составляли список сопоставления n-грамм разных языков. Это позво-ляло несколько разгрузить приложение обработчика кроме того давало воз-можность гибко настраивать сопоставление n-грамм разного размера. Полный список сопоставления n-грамм представляет собой декартовопроизведения списков n-грамм на разных языках. Но использование полно-го списка для n-грамм большого размера является не экономичным с точкизрения хранения информации. Тем более, учитывая, стилистические особен-ности научного текста, крупные группы слов отражающие сходные понятияв научных текстах находятся примерно на одинаковом удалении от началапредложения. Для этого случая нами был разработан следующий подход: а) строить полный список сопоставлений (декартово произведение) для 1-грамм, то есть слов; б) строить m-диагональную матрицу для всех остальных n-грамм. m выбирается экспериментально, по умолчанию полагается равным 3. Та-кой подход позволяет снизить количество сопоставляемых n-грамм, но повы-шает вероятность ошибки обучения системы. Как показала практика, не всенаучные тексты удовлетворяют ограничению представленному выше. Кро-ме того, это предположение является ошибочным для текстов иных стилей.В текущей реализации мы отказались от такого подхода.
  37. 37. 361.4.2. ОБРАБОТЧИК Обработчик нужен для обучения модели перевода на основании данныхполученных у читателя. Рис. 1.7. Диаграмма активности приложения «обработчик».
  38. 38. 37 Принцип работы обработчика во многом определяется алгоритмом обу-чения описанным в выше. Условие сходимости предлагается не вычислятькак математическое неравенство. Как показала практика на текстах ограни-ченного объема это условие может никогда не выполниться, тем более намне столь важен сам факт сходимости, сколько относительные отношения ве-роятностей парных соответствий n-грамм. Важными архитектурными моментами работы приложения являются ме-тоды доступа к данным. Предполагается что все операции на запись данныхбуду асинхронными. Операция инкремента величины подсчетов (см. алго-ритмы в приложении), должны быть атомарными и асинхронными. В про-тивном случае, если мы используем распределенные вычисления, то данныерискуют быть или неверно прочитаны или перезаписаны в неподходящий мо-мент (оптимистическая блокировка). Использование пессимистической бло-кировки может привести к значительному замедлению при большой конку-ренции запросов. Lset0 — пары списков n-грамм перемещенные туда читателем. На моментначала работы обработчика предполагается что это множество не пусто. Накаждом проходе по множеству элемент этого множества считывается в об-работчик и перемещается в Lset1 (это выполняется как атомарная операцияrpoplpush). При каждой i-й итерации алгоритма обработчик считывает парусписков n-грамм из Lset0 и кладет их в множество Lseti+1 . Ситуация с вычис-лением вероятности по всем n-граммам корпуса аналогична, за исключениемтого, что считывание и перемещение ведется сразу по двум множествам. Туттак же предполагается, что используемая база данных поддерживает атомар-ные операции такого вида. В противном случае могут возникнуть конфликтызаписи данных и есть возможность, что алгоритм будет многократно отраба-тывать с ограниченным объемом одних и тех же данных. Использование множеств в данном контексте может показаться стран-ным. Более того, оно может показать не самым эффективным решением. Од-нако это не так. Выбор терминологии и структур хранения данных был сде-лан из практических соображений. В ходе проектирования и промежуточныхреализаций системы было опробовано много различных вариантов, которыеописаны в ниже.
  39. 39. 38 Вычисление . Вычисление . . . подсчетов t(ωe |ωr ) Модуль . Вычислительный . . . работы с БД модуль П . ул соединений . Д . . испетчер . Рис. 1.8. Схема модулей приложения «обработчик». Выше представлена схема модулей приложения обработчика. Стрелкамипоказаны потоки данных. Прерывистыми линиями изображены косвенныесвязи. Для системы крайне критично время доступа к базе данных, так как длявсех численных операций база используется как временное хранилище дан-ных между итерациями алгоритма обучения. Именно поэтому мы на архитек-турной схеме изображаем такую техническую деталь как пул соединений.

×