Машинный перевод
В РЕТРОСПЕКТИВЕ И НА СОВРЕМЕННОМ
ЭТАПЕ
Терминология
• Машинный перевод (МП, англ. machine translation,
MT) процесс перевода текстов с одного естественного
языка на другой с помощью специальной компьютерной
программы. Вместо «машинный» иногда употребляется
слово автоматический.
• Автоматизированный перевод (АП, англ.
англ. machine-aided или machine-assisted translation,
MAT) — перевод текстов на компьютере с
использованием компьютерных технологий. От
машинного перевода (МП) он отличается тем, что весь
процесс перевода осуществляется человеком,
компьютер лишь помогает ему произвести готовый текст
либо за меньшее время, либо с лучшим качеством.
Автоматизированный перевод - когда программа
просто помогает человеку переводить тексты.
История машинного перевода
• 1954 г. – демонстрация первой системы машинного перевода. Словарный запас 250 слов,
перевод 60 отобранных предложений с русского языка на английский.
• 1966 г. – финансирование многих разработок прекращено на основании негативного отчёта
комитета, созданного в США для оценки эффективности МП.
• 1970-е гг. – новый подъем интереса к системам МП. С развитием вычислительной техники
появились новые возможности машинной реализации лингвистических алгоритмов.
• 1980-е гг. – складывается рынок коммерческих продуктов. Связанно с ростом международных
связей, распространением и удешевлением персональных ЭВМ . Машинный перевод наконец-то
стал экономически выгодным.
• 1990-е гг. – программы машинного перевода начинают использовать новые технологии, качество
повышается, появление онлайн-сервисов.
• Впервые мысль о возможности
машинного перевода высказал Чарльз
Бэббидж (1791-1871), разработавший в
1836-1848 гг. проект цифровой
аналитической машины - механического
прототипа электронных цифровых
вычислительных машин, появившихся
через 100 лет. Идея Ч. Бэббиджа
состояла в том, что память объемом
1000 50-разрядных десятичных чисел (по
50 зубчатых колес в каждом регистре)
можно использовать для хранения
словарей. Ч. Бэббидж привел эту идею в
качестве обоснования для запроса у
английского правительства средств,
необходимых для физического
воплощения аналитической машины,
которую ему так и не удалось построить
• Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". В
январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка
на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было
опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения,
сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного
языка на другой при помощи машины: отчет о первом успешном испытании".
• К середине 1960-х в США для практического использования были предоставлены две системы
русско-английского перевода:
• MARK (в Департаменте иностранной техники ВВС США);
• GAT (разработка Джорджтаунского университета, использовалась в Национальной
лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
• Впрочем, мечты, с которыми человечество полвека назад взялось
за задачу машинного перевода, в значительной мере остаются
мечтами: высококачественный перевод текстов широкой тематики
по-прежнему недостижим. Однако несомненным является
ускорение работы переводчика при использовании систем
машинного перевода: по оценкам конца 1980-х, до пяти раз.
Отличие словаря от переводчика
• Электронный словарь позволяет узнать перевод нужного вам
слова с одного языка на другой.
• При помощи программ-переводчиков можно не только посмотреть
значение неизвестного вам слова, но и получить смысловой
перевод текста
 для понимания смысла текста на неизвестном иностранном языке;
 для получения чернового перевода документа для последующей его
корректировки, что экономит время (от 50% до 80%).
Основные технологии
• Машинный (автоматический)
перевод:
 Машинный перевод, основанный на правилах;
 Статистический машинный перевод;
• Автоматизированный перевод:
 Использование компьютерных словарей,
тезаурусов;
 Память переводов (Translation Memory);
 Средства коллективной работы переводчиков.
Машинный перевод
• С постредактированием: исходный текст
перерабатывается машиной, а человек-редактор
исправляет результат.
• С предредактированием: человек приспосабливает
текст к обработке машиной (устраняет возможные
неоднозначные прочтения, упрощает и размечает текст),
после чего начинается программная обработка.
• С интерредактированием: человек вмешивается в
работу системы перевода, разрешая трудные случаи.
• Смешанные системы (например, одновременно с пред-
и постредактированием).
Особенности машинного перевода
• Инструментарий для упрощения и
ускорения процесса перевода
• Средства для понимания текста на
чужом языке и обучения
• Принципиально пока невозможно на
100% заменить человека-
переводчика
• Для получения лучших результатов
требуется оптимизация исходного
текста
Языки слишком сложны для
нас, чтобы можно было
автоматизировать весь
процесс», - заявил в газете
«Financial Times» Марк
Ланкастер, исполнительный
директор коммерческой
переводческой компании ЛПО
Объединенного Королевства.
Технология используемая Yandex
• В начале 2011 года Яндекс внедрил собственную систему машинного
перевода. Сейчас сервисЯндекс.Переводчик работает с основными
европейскими языками и умеет переводить, например, с английского на
испанский и обратно.
• Машинный перевод Яндекса — статистический. Такой перевод
основывается не на правилах языка (системе эти правила даже не
известны), а на статистике. Чтобы выучить язык, система
сравнивает сотни тысяч параллельных текстов — содержащих одну
и ту же информацию, но на разных языках. Это могут быть,
например, большие тексты с разноязычных версий сайтов
организаций. Изначально система находит параллельные тексты по
адресам документов — чаще всего такие адреса различаются
только пометками, например, «en» или «us» для английской версии
и «ru» для русской.
• Для каждого изученного текста система строит список уникальных
признаков. Это могут быть редко используемые слова, числа,
специальные знаки, находящиеся в тексте в определённой
последовательности. Когда система набирает достаточное
количество текстов с признаками, она начинает искать
параллельные тексты ещё и с их помощью — сравнивая признаки
новых текстов и уже изученных.
• Чтобы переводчик соответствовал современным стандартам
качества, система должна изучить сотни миллионов фраз на разных
языках. Это требует очень серьёзных ресурсов: много места на
жёстких дисках, много оперативной памяти и так далее. Именно
поэтому существующие сейчас системы машинного перевода
можно пересчитать по пальцам.
Развитие статистического перевода
• Одно из достоинств статистического машинного перевода в том, что он живёт вместе с
языком. То есть, если что-то в языке меняется, например, люди начинают писать какое-
нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И
чем быстрее нововведение распространится в языке, тем быстрее оно появится в
моделях перевода и языка.
• Чтобы улучшать качество перевода, систему регулярно обновляют. Каждое обновление
сначала проходит проверку — используется метрика для статистических машинных
переводов. Перевод специально подобранных текстов, полученный системой,
сравнивается с эталонным. Если данные от вновь изученных документов ухудшили
качество перевода, то они отбраковываются.
Спасибо за внимание!

Машинный перевод

  • 1.
    Машинный перевод В РЕТРОСПЕКТИВЕИ НА СОВРЕМЕННОМ ЭТАПЕ
  • 2.
    Терминология • Машинный перевод(МП, англ. machine translation, MT) процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы. Вместо «машинный» иногда употребляется слово автоматический. • Автоматизированный перевод (АП, англ. англ. machine-aided или machine-assisted translation, MAT) — перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода (МП) он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. Автоматизированный перевод - когда программа просто помогает человеку переводить тексты.
  • 3.
    История машинного перевода •1954 г. – демонстрация первой системы машинного перевода. Словарный запас 250 слов, перевод 60 отобранных предложений с русского языка на английский. • 1966 г. – финансирование многих разработок прекращено на основании негативного отчёта комитета, созданного в США для оценки эффективности МП. • 1970-е гг. – новый подъем интереса к системам МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов. • 1980-е гг. – складывается рынок коммерческих продуктов. Связанно с ростом международных связей, распространением и удешевлением персональных ЭВМ . Машинный перевод наконец-то стал экономически выгодным. • 1990-е гг. – программы машинного перевода начинают использовать новые технологии, качество повышается, появление онлайн-сервисов.
  • 4.
    • Впервые мысльо возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить
  • 5.
    • Фактически историямашинного перевода начинается с "Джорджтаунского эксперимента". В январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения, сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании".
  • 6.
    • К середине1960-х в США для практического использования были предоставлены две системы русско-английского перевода: • MARK (в Департаменте иностранной техники ВВС США); • GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
  • 7.
    • Впрочем, мечты,с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.
  • 8.
    Отличие словаря отпереводчика • Электронный словарь позволяет узнать перевод нужного вам слова с одного языка на другой. • При помощи программ-переводчиков можно не только посмотреть значение неизвестного вам слова, но и получить смысловой перевод текста  для понимания смысла текста на неизвестном иностранном языке;  для получения чернового перевода документа для последующей его корректировки, что экономит время (от 50% до 80%).
  • 9.
    Основные технологии • Машинный(автоматический) перевод:  Машинный перевод, основанный на правилах;  Статистический машинный перевод; • Автоматизированный перевод:  Использование компьютерных словарей, тезаурусов;  Память переводов (Translation Memory);  Средства коллективной работы переводчиков.
  • 10.
    Машинный перевод • Спостредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат. • С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка. • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи. • Смешанные системы (например, одновременно с пред- и постредактированием).
  • 11.
    Особенности машинного перевода •Инструментарий для упрощения и ускорения процесса перевода • Средства для понимания текста на чужом языке и обучения • Принципиально пока невозможно на 100% заменить человека- переводчика • Для получения лучших результатов требуется оптимизация исходного текста Языки слишком сложны для нас, чтобы можно было автоматизировать весь процесс», - заявил в газете «Financial Times» Марк Ланкастер, исполнительный директор коммерческой переводческой компании ЛПО Объединенного Королевства.
  • 12.
    Технология используемая Yandex •В начале 2011 года Яндекс внедрил собственную систему машинного перевода. Сейчас сервисЯндекс.Переводчик работает с основными европейскими языками и умеет переводить, например, с английского на испанский и обратно.
  • 13.
    • Машинный переводЯндекса — статистический. Такой перевод основывается не на правилах языка (системе эти правила даже не известны), а на статистике. Чтобы выучить язык, система сравнивает сотни тысяч параллельных текстов — содержащих одну и ту же информацию, но на разных языках. Это могут быть, например, большие тексты с разноязычных версий сайтов организаций. Изначально система находит параллельные тексты по адресам документов — чаще всего такие адреса различаются только пометками, например, «en» или «us» для английской версии и «ru» для русской.
  • 14.
    • Для каждогоизученного текста система строит список уникальных признаков. Это могут быть редко используемые слова, числа, специальные знаки, находящиеся в тексте в определённой последовательности. Когда система набирает достаточное количество текстов с признаками, она начинает искать параллельные тексты ещё и с их помощью — сравнивая признаки новых текстов и уже изученных.
  • 15.
    • Чтобы переводчиксоответствовал современным стандартам качества, система должна изучить сотни миллионов фраз на разных языках. Это требует очень серьёзных ресурсов: много места на жёстких дисках, много оперативной памяти и так далее. Именно поэтому существующие сейчас системы машинного перевода можно пересчитать по пальцам.
  • 16.
    Развитие статистического перевода •Одно из достоинств статистического машинного перевода в том, что он живёт вместе с языком. То есть, если что-то в языке меняется, например, люди начинают писать какое- нибудь слово по-другому, система видит это, как только к ней попадают новые тексты. И чем быстрее нововведение распространится в языке, тем быстрее оно появится в моделях перевода и языка. • Чтобы улучшать качество перевода, систему регулярно обновляют. Каждое обновление сначала проходит проверку — используется метрика для статистических машинных переводов. Перевод специально подобранных текстов, полученный системой, сравнивается с эталонным. Если данные от вновь изученных документов ухудшили качество перевода, то они отбраковываются.
  • 17.

Editor's Notes

  • #4 Впервые идея машинного перевода была высказана французским изобретателем Ж. Арцруни и независимо советским изобретателем П. П. Смирновым-Троянским в 1933. Система машинного перевода была впервые представлена 7 января 1954 года в Нью-Йорке, в главном офисе компании IBM. Событие вызвало широкий общественный резонанс, о нем много писали в газетах. Однако эта система представляла по своей сути то, что мы можем назвать сегодня "игрушкой" – ее словарный запас не превышал 250 слов, а перевела она 49 тщательно отобранных предложений с русского языка на английский. Тем не менее, именно эта система послужила толчком для активных разработок в области машинного перевода, и не только в США, но и в других странах. То, что такие разработки начались в 50-х годах прошлого века, связано с Холодной войной – жестокое соперничество между США и СССР сопровождалось мощным потоком документов, которые надо было переводить с русского языка на английский и наоборот. Первые версии программ машинного перевода были основаны на подробных двуязычных словарях, а также на правилах о порядке слов в предложении. Но переводы, выполненные такими программами, оставляли желать лучшего, и вскоре оптимизм начал угасать. В 1964 году правительство США создало комитет для оценки эффективности программ машинного перевода, и спустя два года комитет представил отчет, в котором говорилось о том, что машинный перевод – это медленный, неэффективный процесс, затраты на который в два раза превышают затраты на перевод, выполняемый человеком. Но комитет также предположил в своем отчете, что целесообразным будет разрабатывать электронные инструменты, которые помогут ускорить процесс традиционного перевода – электронные словари, глоссарии, базы данных. Этот отчет привел к тому, что разработки в области машинного перевода были в США прекращены и возобновились только спустя десять лет. Но в Канаде, Франции и Германии разработки продолжались, и спустя несколько лет были представлены две системы: Systran, используемая Еврокомиссией, и Taum-meteo, созданная Монеральским университетом для перевода прогнозов погоды с французского языка на английский. Очередной прорыв произошел в 80-х годах. Развитие бизнеса и политические сдвиги стимулировали спрос на перевод, благодаря которому появились различные системы автоматического перевода. Наиболее значительными проектами были GETA-Ariane (Гренобль), SUSY (Саарбрюкен), MU (Киото) и Eurotra (Европейский Союз). В начале 1990-х гг. программы машинного перевода претерпели значительные изменения – произошел переход от перевода, основанного на грамматических правилах, к переводу, основанному на блоках текста и примерах (программа Reverso, например). Язык теперь рассматривается не как статичный объект, управляемый определенными правилами, но как динамическое соединение, которое изменяется в зависимости от случаев использования и тех, кто его использует, и эволюционирует во времени, адаптируясь к социальным и культурным реалиям. Машинный перевод продолжает развиваться, его все чаще и чаще используют как крупные компании, так и пользователи персональных домашних компьютеров. В интернете появилась новая услуга – перевод онлайн – здесь пользователь имеет возможность использовать различные языковые пары и различные тематические словари. 1947 - дата рождения машинного перевода, как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие, как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий. 1947 - А.Бут и Д.Бриттен разработали подробный "код" для пословного машинного перевода. 1948 - Р.Риченс предложил правила разбиения словоформ на основу и окончание. 1952 - первая конференция по МП в в Массачусетском технологическом институте. 1954 - представлена первая система МП - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП. 1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом. 70-е годы - новый подъем работ в области машинного перевода. С развитием вычислительной техники появились новые возможности машинной реализации лигвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/Intranet. Преимущества использования машинного перевода особенно очевидны при получении онлайнового перевода.
  • #9 Задать вопрос: Какие русско-казахские словари вы используете или знаете?
  • #10  Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов параллельных текстов. Тексты, содержащие предложения на одном языке и соответствующие им предложения на втором. Статистический машинный перевод обладает свойством «самообучения». Чем больше имеется параллельных текстов и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. Основная идея Translation Memory – не переводить один и тот же текст дважды. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной «входной» базе. Когда система находит фрагмент, соответствующий заранее определенным критериям, то его перевод берется из «выходной» базы. Получаемый в итоге текст подлежит интенсивному пост-редактированию человеком.
  • #11 Формы организации взаимодействия ЭВМ и человека при машинном переводе С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат. С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка. С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи. Смешанные системы (например, одновременно с пред- и постредактированием).