Машинный перевод

Машинный перевод
В РЕТРОСПЕКТИВЕ И НА СОВРЕМЕННОМ
ЭТАПЕ

Терминология
• Машинный перевод (МП, англ. machine translation,
MT) процесс перевода текстов с одного естественного
языка на другой с помощью специальной компьютерной
программы. Вместо «машинный» иногда употребляется
слово автоматический.
• Автоматизированный перевод (АП, англ.
англ. machine-aided или machine-assisted translation,
MAT) — перевод текстов на компьютере с
использованием компьютерных технологий. От
машинного перевода (МП) он отличается тем, что весь
процесс перевода осуществляется человеком,
компьютер лишь помогает ему произвести готовый текст
либо за меньшее время, либо с лучшим качеством.
Автоматизированный перевод - когда программа
просто помогает человеку переводить тексты.

История машинного перевода
• 1954 г. – демонстрация первой системы машинного перевода. Словарный запас 250 слов,
перевод 60 отобранных предложений с русского языка на английский.
• 1966 г. – финансирование многих разработок прекращено на основании негативного отчёта
комитета, созданного в США для оценки эффективности МП.
• 1970-е гг. – новый подъем интереса к системам МП. С развитием вычислительной техники
появились новые возможности машинной реализации лингвистических алгоритмов.
• 1980-е гг. – складывается рынок коммерческих продуктов. Связанно с ростом международных
связей, распространением и удешевлением персональных ЭВМ . Машинный перевод наконец-то
стал экономически выгодным.
• 1990-е гг. – программы машинного перевода начинают использовать новые технологии, качество
повышается, появление онлайн-сервисов.

• Впервые мысль о возможности
машинного перевода высказал Чарльз
Бэббидж (1791-1871), разработавший в
1836-1848 гг. проект цифровой
аналитической машины - механического
прототипа электронных цифровых
вычислительных машин, появившихся
через 100 лет. Идея Ч. Бэббиджа
состояла в том, что память объемом
1000 50-разрядных десятичных чисел (по
50 зубчатых колес в каждом регистре)
можно использовать для хранения
словарей. Ч. Бэббидж привел эту идею в
качестве обоснования для запроса у
английского правительства средств,
необходимых для физического
воплощения аналитической машины,
которую ему так и не удалось построить

• Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". В
январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка
на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было
опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения,
сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного
языка на другой при помощи машины: отчет о первом успешном испытании".

• К середине 1960-х в США для практического использования были предоставлены две системы
русско-английского перевода:
• MARK (в Департаменте иностранной техники ВВС США);
• GAT (разработка Джорджтаунского университета, использовалась в Национальной
лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

• Впрочем, мечты, с которыми человечество полвека назад взялось
за задачу машинного перевода, в значительной мере остаются
мечтами: высококачественный перевод текстов широкой тематики
по-прежнему недостижим. Однако несомненным является
ускорение работы переводчика при использовании систем
машинного перевода: по оценкам конца 1980-х, до пяти раз.

Отличие словаря от переводчика
• Электронный словарь позволяет узнать перевод нужного вам
слова с одного языка на другой.
• При помощи программ-переводчиков можно не только посмотреть
значение неизвестного вам слова, но и получить смысловой
перевод текста
 для понимания смысла текста на неизвестном иностранном языке;
 для получения чернового перевода документа для последующей его
корректировки, что экономит время (от 50% до 80%).

Основные технологии
• Машинный (автоматический)
перевод:
 Машинный перевод, основанный на правилах;
 Статистический машинный перевод;
• Автоматизированный перевод:
 Использование компьютерных словарей,
тезаурусов;
 Память переводов (Translation Memory);
 Средства коллективной работы переводчиков.

Машинный перевод
• С постредактированием: исходный текст
перерабатывается машиной, а человек-редактор
исправляет результат.
• С предредактированием: человек приспосабливает
текст к обработке машиной (устраняет возможные
неоднозначные прочтения, упрощает и размечает текст),
после чего начинается программная обработка.
• С интерредактированием: человек вмешивается в
работу системы перевода, разрешая трудные случаи.
• Смешанные системы (например, одновременно с пред-
и постредактированием).

Особенности машинного перевода
• Инструментарий для упрощения и
ускорения процесса перевода
• Средства для понимания текста на
чужом языке и обучения
• Принципиально пока невозможно на
100% заменить человека-
переводчика
• Для получения лучших результатов
требуется оптимизация исходного
текста
Языки слишком сложны для
нас, чтобы можно было
автоматизировать весь
процесс», - заявил в газете
«Financial Times» Марк
Ланкастер, исполнительный
директор коммерческой
переводческой компании ЛПО
Объединенного Королевства.

Технология используемая Yandex
• В начале 2011 года Яндекс внедрил собственную систему машинного
перевода. Сейчас сервисЯндекс.Переводчик работает с основными
европейскими языками и умеет переводить, например, с английского на
испанский и обратно.

• Машинный перевод Яндекса — статистический. Такой перевод
основывается не на правилах языка (системе эти правила даже не
известны), а на статистике. Чтобы выучить язык, система
сравнивает сотни тысяч параллельных текстов — содержащих одну
и ту же информацию, но на разных языках. Это могут быть,
например, большие тексты с разноязычных версий сайтов
организаций. Изначально система находит параллельные тексты по
адресам документов — чаще всего такие адреса различаются
только пометками, например, «en» или «us» для английской версии
и «ru» для русской.

• Для каждого изученного текста система строит список уникальных
признаков. Это могут быть редко используемые слова, числа,
специальные знаки, находящиеся в тексте в определённой
последовательности. Когда система набирает достаточное
количество текстов с признаками, она начинает искать
параллельные тексты ещё и с их помощью — сравнивая признаки
новых текстов и уже изученных.

• Чтобы переводчик соответствовал современным стандартам
качества, система должна изучить сотни миллионов фраз на разных
языках. Это требует очень серьёзных ресурсов: много места на
жёстких дисках, много оперативной памяти и так далее. Именно
поэтому существующие сейчас системы машинного перевода
можно пересчитать по пальцам.

Развитие статистического перевода
• Одно из достоинств статистического машинного перевода в том, что он живёт вместе с
языком. То есть, если что-то в языке меняется, например, люди начинают писать какое-
нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И
чем быстрее нововведение распространится в языке, тем быстрее оно появится в
моделях перевода и языка.
• Чтобы улучшать качество перевода, систему регулярно обновляют. Каждое обновление
сначала проходит проверку — используется метрика для статистических машинных
переводов. Перевод специально подобранных текстов, полученный системой,
сравнивается с эталонным. Если данные от вновь изученных документов ухудшили
качество перевода, то они отбраковываются.

Спасибо за внимание!

Машинный перевод

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Машинный перевод

Similar to Машинный перевод (20)

Машинный перевод

Editor's Notes