3. Чего НЕ БУДЕТ в этой презентации
1. Слова “движок” (это личное)
2. Проклятий в сторону МП (уже поздно, см.
дальше)
3. Обучения самому постредактированию (это
не имеет смысла в общем случае, см. дальше)
4. Что БУДЕТ в этой презентации
1. Некоторая полезная информация о сущности
процесса PEMT
2. Некоторые полезные советы о том, что надо
обдумать, взвесить и обязательно обсудить ДО
начала оказания услуги PEMT
3. Некоторый практический опыт
5. А что вообще произошло?
2 революционных этапа и 1 текущий
3 этап: а теперь успеть за
контентом
1 этап: перевод = накопление
информации
2 этап: обработка
накопленной информации
6. 1 этап: перевод = накопление
информации
*Картинка с роботом – сайт
123translate.me
12. Полезнейшие выводы
1. Уже поздно проклинать МП и смеяться над
ним, он настроился и встроился
2. МП для PEMT – это не общеизвестный
смешной бесплатный МП, это совсем другого
уровня и (чаще всего) хорошо настроенный
МП, путать и смешивать их – неправильно (и
идеологически, и финансово)
3. PEMT – новая реальность письменного
технического перевода (в широком смысле)
14. The “term used for the correction of
machine translation output by human
linguists/editors” (Veale and Way 1997)
“checking, proof-reading and revising
translations carried out by any kind of
translating automaton” (Gouadec 2007)
“In basic terms, the task of the post-editor
is to edit, modify and/or correct pre-
translated text that has been processed
by a machine translation system from a
source language (a) in to target
language(s).“ (Allen 2003)
“Post-editors … are translators from MT language …”
(H.Krings, Repairing Texts: Empirical Investigation on MT PE
Processes, 2001)
“According to Hutchins (1986), the term “post-editor” was
introduced in 1950 by Erwin Reifler who described the task as
follows: “to select the correct translation from the possibilities found
by the computer dictionary and to rearrange the word order to suit
the target language…”
(H.Krings, Repairing Texts: Empirical Investigation on MT PE
Processes, 2001)
16. Постредактирование МП в сравнении с
редактированием
16
• Постредактирование МП заменяет традиционный этап перевода и
предлагается вместо No Match в современных CAT-системах
• Весьма отличается от редактирования ручного перевода (другие, “свои” типы
ошибок)
• Приветствуется понимание “поведения” системы МП (прямая связь со
скоростью работы и стоимостью)
• После постредактирования МП требуется этап стандартного редактирования
• Все удалить и гениально переписать – ЭТО НЕ ПОСТРЕДАКТИРОВАНИЕ
• При постредактировании МП обязательно следует учесть определенные
условия оказания данной услуги, чтобы не выйти в минус
18. Магический треугольник PEMT-1:
3 группы задач
Заказчик (прямой
или БП)
Разработчик
Переводчик/
постредактор
1. Внедрить МП для сценариев, когда
недостаточно ресурсов для
выполнения перевода по
традиционной схеме/ требуется
увеличить объем перевода в рамках
ограниченного бюджета/когда
требуется увеличить объем
перевода в пределах того же
количества переводческих ресурсов
2. Купить и настроить систему
(обратная связь)
3. Расширить применение (включая
сферы и языки)
4. Обучить МП-специалистов
5. Повысить эффективность
процессов
1. Получить больше объемов
на перевод (включая те,
которые не были бы получены
без МП)
2. Выработать новые навыки
(в т.ч. переводить больше и
быстрее, не теряя в деньгах)
3. Выработать подход к новым
условиям
1. Получить опыт внедрения
2. Улучшить качество МП на
конкретном опыте
(обратная связь и
настройка)
3. Расширить применение
(включая языковые пары)
4. Расширить клиентскую
базу
5. Продать услуги по
настройке и разработке
6. Продать услуги по
обучению
PEMT
19. Магический треугольник PEMT-2:
из чего складывается качество МП
Выбранный тип МП (RBMT,
SMT, Hybrid, NMT,
WhateverMT) И даже
конкретная система МП
И уровень настройки МП
Языковая пара Предметная
область
Поэтому нельзя научить/научиться
постредактировать раз и навсегда, это
набор/отбор конкретных навыков в
зависимости от сочетания трех компонентов.
КАЧЕСТВО МП
Машинный перевод на основе правил (RBMT)
Лингвистические правила
Словарные базы данных
> отсутствие правил > качество перевода
Тип RMBT традиционно считается более
устойчивым с точки зрения терминологии (после
настройки), SMT – более читабельным
Статистический машинный перевод (SMT) и NMT (видимо)
Использование вероятностного подхода (на анализе
и паттернах)
Изучение предварительно переведенных данных
Способность к статистическому обучению
> ввод данных> качество перевода… способность к
обучению
Гибридные системы машинного перевода (HMT)
Технологии объединены в новом подходе к
машинному переводу — "статистическом
синтаксисе"
Автоматическое обучение + "грамматика" на основе
правил
Система распознает "грамматику" и способна к
автоматическому обучению
Выбор системы МП
обычно связан с языковым
направлением (в первую
очередь)
Таблицы типовых ошибок
МП обычно
приветствуются
переводчиками для
получения представления
о возможных проблемах,
связанных с выбором
системы МП
Уровень настройки
системы МП напрямую
связан с объемом
последующего
постредактирования и
решения проблем в его
процессе, основанных на
понимании поведения
системы
20. Магический треугольник PEMT-3:
какие бывают виды постредактирования в связи с качеством, скоростью и стоимостью
Полное постредактирование с
одновременным
составлением отчета по
ошибкам МП
Полное
постредактирование
Легкое
постредактирование
КАЧЕСТВО
&
СКОРОСТЬ
&
СТОИМОСТЬ
(full PEMT plus MT feedback)
– наиболее часто выполняемый вид
работ
– в результате “не должен быть виден
МП”, высокие (стандартные)
ожидания по качеству
– для текстов широкого применения
– включает подготовку данных для
настройки МП
(full PEMT)
– наиболее часто выполняемый вид работ
– в результате “не должен быть виден МП”, высокие
(стандартные) ожидания по качеству
– для текстов широкого применения
(light PEMT)
– требуется реже (если вообще
требуется)
– менее высокие ожидания по качеству
– фокус на смысле
– применяется для текстов, не
требующих массового использования
21. И вот лично вы получили заказ
на постредактирование МП
Перед началом работы НЕОБХОДИМО выяснить ожидания
заказчика (прим. автора)
22. ПОДАРОК
Чек-лист “Что следует обсудить
с заказчиком перед
подтверждением оказания
услуги по постредактированию
МП”
(чтобы определить, чего от вас на самом деле хотят и
сколько это может стоить)
23. • Типы текстов, подлежащих МП
• Типы МП
• Уровень настройки и качества МП
• Прочие факторы, влияющие на скорость и качество
• Ожидания по качеству и скорости
• Вопросы удобства работы в новых условиях
• Включая обучение
• Имеющиеся ресурсы
• Требуемые навыки (работы, оценки и пр.)
• Вопросы безопасности и конфиденциальности
• Вопросы оплаты
Основные вопросы, которые вообще
имеет смысл обсудить
24. Что выясняем Вопросы Возможные варианты ответов Какой вывод может сделать постредактор
Ожидания заказчика
Тип текста и почему, по мнению заказчика, он
подходит для МП
МП отлично себя показал на наших проектах
(других), решили попробовать на этом типе
текстов
Есть возможность показать примеры, когда МП
не так хорош на данном типе текстов
Функция и срок жизни текста
МП удачно настроил и показал разработчик
Высокие ожидания по качеству и скорости, если
уже имели место расходы на приобретение и
внедрение МП
Просто пришла пора экономить на
переводах, все в нашей отрасли уже внедрили
МП
Есть возможность показать примеры, когда МП
не так хорош на данном типе текстов
Ожидания заказчика
Применяемые методики оценки качества МП и
прогнозирования объема постредактирования
Есть, вот они
У заказчика есть четкое представление об
ожиданиях и стоимости
Нет
У заказчика нет четкого представления об
ожиданиях и стоимости
Должен сделать исполнитель
У заказчика нет четкого представления об
ожиданиях и стоимости. Новые навыки.
Ожидания заказчика Есть ли типология ошибок МП Есть, вот она Объем постредактирования потенциально ниже
Нет
Объем постредактирования потенциально
выше
Должен сделать исполнитель
Объем постредактирования потенциально
выше. Новые навыки.
Ожидания заказчика Выбранный заказчиком метод работы с МП
Собственная инсталляция системы,
онлайновая система с настройкой, модель
SaaS
Влияние на удобство, метод и скорость работы.
Новые навыки. Вопросы безопасности и
конфиденциальности.
Будет ли у исполнителя доступ к МП заказчика
(Для возможного обновления результатов
МП в процессе), как строится процесс в
целом
Ожидания заказчика Вопросы оплаты Скидка от общей ставки на сегменты МП
Как вычисляется, на основании чего и кто
предлагает схему
Почасовая ставка на постредактирование
Потребуется формирование отчета,
фиксирование времени, запись действий
Компенсация за отчеты по качеству МП
Потребуется формирование отчета,
фиксирование времени, запись действий
Отчеты по затраченному времени В какой форме, какое ПО
Ожидания заказчика Обучение
Будет производиться специалистами
заказчика/разработчика
До начала проекта, закладывается ли на это
время?
Навыки и ресуры - ответственность
исполнителя
До начала проекта, закладывается ли на это
время?
25. Что выясняем Вопросы Возможные варианты ответов Какой вывод может сделать постредактор
Объем
постредактирования
Был ли текст предварительно обработан
для МП (для улучшения качества МП и
снижения объема постредактирования)
Да
Объем постредактирования потенциально
ниже
Нет
Объем постредактирования потенциально
выше
Объем
постредактирования
Составлены ли
заказчиком/разработчиком инструкции
по постредактированию
Да
Объем постредактирования потенциально
ниже
Нет
Объем постредактирования потенциально
выше
Должен сделать исполнитель
Объем постредактирования потенциально
выше. Новые навыки.
Объем
постредактирования
Выбранный заказчиком тип МП
На основе правил
Изучить типовые проблемы RBMT
(терминология, стиль…) и влияние на
объем
Статистический
Изучить типовые проблемы SMT (вставки,
пропуски…) и влияние на объем
Другой
Изучить типовые проблемы и влияние на
объем
Объем
постредактирования
Производилась/производится ли
настройка МП
Да
Объем постредактирования потенциально
ниже, так как качество МП потенциально
выше, но уже имели место расходы на
настройку, возможен прессинг по цене.
Нет
Возможен вариант полного переписывания
при низком качестве МП, внимание.
Объем
постредактирования
Если настройка производилась, то каков
объем/состав/достоверность словаря
МП, объем настройки в случае СМП,
какие ТМ использовались для настройкиИнформация имеется
Помощь в определении объема
постредактирования и помошь при
переводе (скорость - выше).
Информации нет Опытным путем.
26. Что выясняем Вопросы Возможные варианты ответов Какой вывод может сделать постредактор
Ожидания
заказчика&объем
постредактирования
Требуется полное
постредактирование?
Да, качество – как после традиционного
перевода, только быстрее
У заказчика есть четкое представление об
ожиданиях и стоимости
Не знаю (см. другой тип)
У заказчика нет четкого представления об
ожиданиях и стоимости
Должен определить исполнитель
У заказчика нет четкого представления об
ожиданиях и стоимости
Ожидания
заказчика&объем
постредактирования Требуется легкое постредактирование?
Да, только кое-что быстро подправить.
Тогда что именно?
У заказчика есть четкое представление об
ожиданиях и стоимости, но следует
выяснить ограничения.
Нет
У заказчика нет четкого представления об
ожиданиях и стоимости
Должен определить исполнитель
У заказчика нет четкого представления об
ожиданиях и стоимости
Ожидания
заказчика&объем
постредактирования
Требуется полное постредактирование
+ получение записей переводчика об
ошибках МП ?
Да, качество – как после традиционного
перевода, только быстрее, и еще отчет
для дополнительной настройки нашего
МП
У заказчика есть четкое представление об
ожиданиях и стоимости. Новые навыки.
Нет
У заказчика нет четкого представления об
ожиданиях и стоимости
Ожидания
заказчика&объем
постредактирования
Если да, то есть ли специалист по МП у
заказчика
Да
Кто-то отвечает за настройку МП, влияет на
его качество, кто-то обрабатывает отчеты
Нет
Возможно, придется постоянно исправлять
одни и те же ошибки
27. Основные факторы, влияющие на оценку объема
постредактирования при определении
стоимости:
• Тип МП
Общий или настроенный
Настройка текстов под МП
• Ресурсы
Типология ошибок МП
Инструкции по PEMT
Обучение постредакторов
• Ожидания по качеству
Выбранный тип постредактирования
• Ожидания по
производительности
Разная у разных постредакторов на
разных модулях МП, языковых парах,
уровнях настройки и предметных
областях
Варианты оплаты:
• Скидка от общей
ставки
• Почасовая оплата
– Время для ведения
отчетности
– Время для записи отчета
по ошибкам МП
– Фиксация времени на
PEMT
• Сочетание двух
вариантов* Сочетание всех этих факторов заодно делает бессмысленным
обучение постредактированию МП в общем случае.
30. Не забудьте про инструкции по PEMT
Инструкции по PEMT создаются под требования конкретных заказчиков и конкретных
проектов, а не “вообще”, это связано с ожиданиями по качеству и уровнем
настройки/типом МП (обычно инструкция по PEMT содержит 3 пункта как минимум:
ожидания/требования по качеству, разбор типовых ошибок МП, рекомендации)
Таблицы типовых ошибок МП включаются в инструкции для напоминания о возможных
проблемах (=доп. проверках)
Поскольку МП-ошибки повторяются, PEMT – это не всего лишь “исправить одно слово и
одну запятую”, речь может идти о структурных изменениях на всем пространстве текста
(текстов), о чем инструкции напоминают
При PEMT обычно рекомендуется пренебрегать стилем, а не терминологией или
правильной передачей смысла, большинство инструкций советует “стараться
использовать как можно больше из результата МП”
Пост-редакторы должны следовать и стандартным процедурам (QA и т.д.)
31. Типовые рекомендации
31
Пытайтесь
использовать результат
МП по максимуму
Не стоит стараться
“гениально переписать” все
заново – равно как и
оставить все как есть
Всегда перечитывайте
результат перевода после
постредактирования
Находите те фрагменты в
результате МП,
использование которых
может значительно ускорить
работу
Правило “2 секунд”
34. Обучение по PEMT: что предлагается в
настоящее время
SDL PEMT Certification (бесплатно для
пользователей SDL Trados Studio)
TAUS Post-Editing Course с различными
языковыми модулями
35. PEMT, некоторые цифры
ожидания заказчиков по скорости постредактирования: 600 слов в час
ожидания заказчиков по приросту производительности: в 2 раза
(5 000-10 000 слов в день)
реальный прирост производительности – в среднем 10%
3 текста вместо стандартных 2 при PEMT для обработки (исходный + МП +
собственно перевод)
80% переводчиков не имеют опыта PE
стандартная скидка на PEMT от полной пословной ставки – 30%
В России сейчас стандартная стоимость любого (!) постредактирования –
120-150 руб. за страницу (и все молчат)
МП = TM fuzzy match 80-90%
правило “2 секунд”
36. Страхи и ожидания
Новая деятельность, мало информации, у заказчиков высокие ожидания
Слишком сильное давление на переводчиков, которые должны принимать решения в условиях пониженной
ставки и меньшего времени при высоких ожиданиях
Отмечается корреляция между отношением переводчика к PEMT (положительное-отрицательное) и
скоростью работы
Переводчик без опыта постредактирования относится к ошибкам МП так, как будто они сделаны человеком
(эмоции - лишнее время)
Хороший МП – “все пропало, у переводческой профессии нет будущего”
Плохой МП – “я сейчас все удалю и гениально перепишу, но при этом получу на 30% меньше”
Опасения привыкнуть к “стилю МП” и перестать замечать ошибки.
Переводчики склонны более доверять нечетким совпадениям в ТМ (“сделано человеком”), чем МП-сегментам
Но некачественный результат МП вызывает меньше раздражения, чем “человеческий” сегмент из ТМ
При PEMT приходится иметь дело с 3 текстами вместо 2, отсюда рост когнитивной нагрузки
Пост-редактирование – по-прежнему “непрестижная” деятельность (?), мало креатива
Переводчики очень устают от постредактирования, гораздо сильнее, чем от перевода (связано и с типом
текстов, подлежащих МП, например, длинные списки наименований продукции …)
Опыт, навык, здравый смысл, расчет и обсуждение условий –
лучшие друзья постредактора.
40. Что должно насторожить?
1. Требуется не только отредактировать, но и
прокомментировать ошибки (необходимо для
дальнейшего обучения МТ)
41. Что должно насторожить?
1. Требуется не только отредактировать, но и
прокомментировать ошибки (необходимо для
дальнейшего обучения МТ)
2. Одни и те же явные ошибки (например, диакретики). Это
может свидетельствовать о проблемах с кодировкой
42. Что должно насторожить?
1. Требуется не только отредактировать, но и
прокомментировать ошибки (необходимо для
дальнейшего обучения МТ)
2. Одни и те же явные ошибки (например, диакретики). Это
может свидетельствовать о проблемах с кодировкой
3. Присутствуют слова на другом языке