2. Терминология
• Машинный перевод (МП, англ. machine translation,
MT) процесс перевода текстов с одного естественного
языка на другой с помощью специальной компьютерной
программы. Вместо «машинный» иногда употребляется
слово автоматический.
• Автоматизированный перевод (АП, англ.
англ. machine-aided или machine-assisted translation,
MAT) — перевод текстов на компьютере с
использованием компьютерных технологий. От
машинного перевода (МП) он отличается тем, что весь
процесс перевода осуществляется человеком,
компьютер лишь помогает ему произвести готовый текст
либо за меньшее время, либо с лучшим качеством.
Автоматизированный перевод - когда программа
просто помогает человеку переводить тексты.
3. История машинного перевода
• 1954 г. – демонстрация первой системы машинного перевода. Словарный запас 250 слов,
перевод 60 отобранных предложений с русского языка на английский.
• 1966 г. – финансирование многих разработок прекращено на основании негативного отчёта
комитета, созданного в США для оценки эффективности МП.
• 1970-е гг. – новый подъем интереса к системам МП. С развитием вычислительной техники
появились новые возможности машинной реализации лингвистических алгоритмов.
• 1980-е гг. – складывается рынок коммерческих продуктов. Связанно с ростом международных
связей, распространением и удешевлением персональных ЭВМ . Машинный перевод наконец-то
стал экономически выгодным.
• 1990-е гг. – программы машинного перевода начинают использовать новые технологии, качество
повышается, появление онлайн-сервисов.
4. • Впервые мысль о возможности
машинного перевода высказал Чарльз
Бэббидж (1791-1871), разработавший в
1836-1848 гг. проект цифровой
аналитической машины - механического
прототипа электронных цифровых
вычислительных машин, появившихся
через 100 лет. Идея Ч. Бэббиджа
состояла в том, что память объемом
1000 50-разрядных десятичных чисел (по
50 зубчатых колес в каждом регистре)
можно использовать для хранения
словарей. Ч. Бэббидж привел эту идею в
качестве обоснования для запроса у
английского правительства средств,
необходимых для физического
воплощения аналитической машины,
которую ему так и не удалось построить
5. • Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". В
январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка
на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было
опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения,
сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного
языка на другой при помощи машины: отчет о первом успешном испытании".
6. • К середине 1960-х в США для практического использования были предоставлены две системы
русско-английского перевода:
• MARK (в Департаменте иностранной техники ВВС США);
• GAT (разработка Джорджтаунского университета, использовалась в Национальной
лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
7. • Впрочем, мечты, с которыми человечество полвека назад взялось
за задачу машинного перевода, в значительной мере остаются
мечтами: высококачественный перевод текстов широкой тематики
по-прежнему недостижим. Однако несомненным является
ускорение работы переводчика при использовании систем
машинного перевода: по оценкам конца 1980-х, до пяти раз.
8. Отличие словаря от переводчика
• Электронный словарь позволяет узнать перевод нужного вам
слова с одного языка на другой.
• При помощи программ-переводчиков можно не только посмотреть
значение неизвестного вам слова, но и получить смысловой
перевод текста
для понимания смысла текста на неизвестном иностранном языке;
для получения чернового перевода документа для последующей его
корректировки, что экономит время (от 50% до 80%).
9. Основные технологии
• Машинный (автоматический)
перевод:
Машинный перевод, основанный на правилах;
Статистический машинный перевод;
• Автоматизированный перевод:
Использование компьютерных словарей,
тезаурусов;
Память переводов (Translation Memory);
Средства коллективной работы переводчиков.
10. Машинный перевод
• С постредактированием: исходный текст
перерабатывается машиной, а человек-редактор
исправляет результат.
• С предредактированием: человек приспосабливает
текст к обработке машиной (устраняет возможные
неоднозначные прочтения, упрощает и размечает текст),
после чего начинается программная обработка.
• С интерредактированием: человек вмешивается в
работу системы перевода, разрешая трудные случаи.
• Смешанные системы (например, одновременно с пред-
и постредактированием).
11. Особенности машинного перевода
• Инструментарий для упрощения и
ускорения процесса перевода
• Средства для понимания текста на
чужом языке и обучения
• Принципиально пока невозможно на
100% заменить человека-
переводчика
• Для получения лучших результатов
требуется оптимизация исходного
текста
Языки слишком сложны для
нас, чтобы можно было
автоматизировать весь
процесс», - заявил в газете
«Financial Times» Марк
Ланкастер, исполнительный
директор коммерческой
переводческой компании ЛПО
Объединенного Королевства.
12. Технология используемая Yandex
• В начале 2011 года Яндекс внедрил собственную систему машинного
перевода. Сейчас сервисЯндекс.Переводчик работает с основными
европейскими языками и умеет переводить, например, с английского на
испанский и обратно.
13. • Машинный перевод Яндекса — статистический. Такой перевод
основывается не на правилах языка (системе эти правила даже не
известны), а на статистике. Чтобы выучить язык, система
сравнивает сотни тысяч параллельных текстов — содержащих одну
и ту же информацию, но на разных языках. Это могут быть,
например, большие тексты с разноязычных версий сайтов
организаций. Изначально система находит параллельные тексты по
адресам документов — чаще всего такие адреса различаются
только пометками, например, «en» или «us» для английской версии
и «ru» для русской.
14. • Для каждого изученного текста система строит список уникальных
признаков. Это могут быть редко используемые слова, числа,
специальные знаки, находящиеся в тексте в определённой
последовательности. Когда система набирает достаточное
количество текстов с признаками, она начинает искать
параллельные тексты ещё и с их помощью — сравнивая признаки
новых текстов и уже изученных.
15. • Чтобы переводчик соответствовал современным стандартам
качества, система должна изучить сотни миллионов фраз на разных
языках. Это требует очень серьёзных ресурсов: много места на
жёстких дисках, много оперативной памяти и так далее. Именно
поэтому существующие сейчас системы машинного перевода
можно пересчитать по пальцам.
16. Развитие статистического перевода
• Одно из достоинств статистического машинного перевода в том, что он живёт вместе с
языком. То есть, если что-то в языке меняется, например, люди начинают писать какое-
нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И
чем быстрее нововведение распространится в языке, тем быстрее оно появится в
моделях перевода и языка.
• Чтобы улучшать качество перевода, систему регулярно обновляют. Каждое обновление
сначала проходит проверку — используется метрика для статистических машинных
переводов. Перевод специально подобранных текстов, полученный системой,
сравнивается с эталонным. Если данные от вновь изученных документов ухудшили
качество перевода, то они отбраковываются.
Впервые идея машинного перевода была высказана французским изобретателем Ж. Арцруни и независимо советским изобретателем П. П. Смирновым-Троянским в 1933.
Система машинного перевода была впервые представлена 7 января 1954 года в Нью-Йорке, в главном офисе компании IBM. Событие вызвало широкий общественный резонанс, о нем много писали в газетах. Однако эта система представляла по своей сути то, что мы можем назвать сегодня "игрушкой" – ее словарный запас не превышал 250 слов, а перевела она 49 тщательно отобранных предложений с русского языка на английский. Тем не менее, именно эта система послужила толчком для активных разработок в области машинного перевода, и не только в США, но и в других странах.
То, что такие разработки начались в 50-х годах прошлого века, связано с Холодной войной – жестокое соперничество между США и СССР сопровождалось мощным потоком документов, которые надо было переводить с русского языка на английский и наоборот. Первые версии программ машинного перевода были основаны на подробных двуязычных словарях, а также на правилах о порядке слов в предложении. Но переводы, выполненные такими программами, оставляли желать лучшего, и вскоре оптимизм начал угасать. В 1964 году правительство США создало комитет для оценки эффективности программ машинного перевода, и спустя два года комитет представил отчет, в котором говорилось о том, что машинный перевод – это медленный, неэффективный процесс, затраты на который в два раза превышают затраты на перевод, выполняемый человеком. Но комитет также предположил в своем отчете, что целесообразным будет разрабатывать электронные инструменты, которые помогут ускорить процесс традиционного перевода – электронные словари, глоссарии, базы данных. Этот отчет привел к тому, что разработки в области машинного перевода были в США прекращены и возобновились только спустя десять лет. Но в Канаде, Франции и Германии разработки продолжались, и спустя несколько лет были представлены две системы: Systran, используемая Еврокомиссией, и Taum-meteo, созданная Монеральским университетом для перевода прогнозов погоды с французского языка на английский.
Очередной прорыв произошел в 80-х годах. Развитие бизнеса и политические сдвиги стимулировали спрос на перевод, благодаря которому появились различные системы автоматического перевода. Наиболее значительными проектами были GETA-Ariane (Гренобль), SUSY (Саарбрюкен), MU (Киото) и Eurotra (Европейский Союз).
В начале 1990-х гг. программы машинного перевода претерпели значительные изменения – произошел переход от перевода, основанного на грамматических правилах, к переводу, основанному на блоках текста и примерах (программа Reverso, например). Язык теперь рассматривается не как статичный объект, управляемый определенными правилами, но как динамическое соединение, которое изменяется в зависимости от случаев использования и тех, кто его использует, и эволюционирует во времени, адаптируясь к социальным и культурным реалиям. Машинный перевод продолжает развиваться, его все чаще и чаще используют как крупные компании, так и пользователи персональных домашних компьютеров. В интернете появилась новая услуга – перевод онлайн – здесь пользователь имеет возможность использовать различные языковые пары и различные тематические словари.
1947 - дата рождения машинного перевода, как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие, как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий.1947 - А.Бут и Д.Бриттен разработали подробный "код" для пословного машинного перевода.1948 - Р.Риченс предложил правила разбиения словоформ на основу и окончание.1952 - первая конференция по МП в в Массачусетском технологическом институте.1954 - представлена первая система МП - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.70-е годы - новый подъем работ в области машинного перевода. С развитием вычислительной техники появились новые возможности машинной реализации лигвистических алгоритмов.80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным.90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/Intranet. Преимущества использования машинного перевода особенно очевидны при получении онлайнового перевода.
Задать вопрос: Какие русско-казахские словари вы используете или знаете?
Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов параллельных текстов. Тексты, содержащие предложения на одном языке и соответствующие им предложения на втором. Статистический машинный перевод обладает свойством «самообучения». Чем больше имеется параллельных текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов.
Основная идея Translation Memory – не переводить один и тот же текст дважды. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной «входной» базе. Когда система находит фрагмент, соответствующий заранее определенным критериям, то его перевод берется из «выходной» базы. Получаемый в итоге текст подлежит интенсивному пост-редактированию человеком.
Формы организации взаимодействия ЭВМ и человека при машинном переводе
С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
Смешанные системы (например, одновременно с пред- и постредактированием).