Speaker: Oleksandr Bondarenko (Translatel Ltd)
It has been widely acknowledged that PEMT specialists are in great demand at the market. According to a diagnostic survey of the translators’ professional profile (see Bondarenko, Marczak 2019), the PEMT skills are highly estimated by employers and underestimated by employees.
In this talk, Oleksandr will offer a brief review of some of the preliminary findings of a two-year project of configuring MT engines that he has been personally involved in. The talk sheds more light on how MT customizing can influence the translation quality in popular language pairs. The speaker will focus on a workflow, do’s and don’ts, as well as on strategies to reduce time and efforts required for post-editing.
Human MT evaluation statistics will also be provided to better forecast the MT leverage for the definite projects. The speaker will suggest a framework to acquire MT-engines literacy that can bring maximum effect with little cost and little time.
The case study can be instructive both for companies’ executives and for freelancers.
2. Зміна перспектив перекладацької індустрії
Source: Common Sense Advisory
“Do you offer post-editing
for machine translation?”
(PEMT)
Percent of Responders
Freelancer Small LSP Medium LSP Large LSP
Yes 21.75 32.51 45.56 72.00
No 62.81 44.89 25.56 0.00
No, but plan in the near future 15.44 22.60 28.89 28.00
4. Історія МТ
1940-ві 1950-ті 1960-ті 70/80-ті 1990-ті 2011 2016
Залучення
здобутків і
ресурсів
військової
криптогра-
фії
Розквіт МT,
Джордж-
таунський
експери-
мент
Спад
інтересу,
доповідь
комісії
ALPAC
Створення
RBMT, його
комерці-
алізація
Розвиток
SMT
Google,
Microsoft
та ін.:
упровад-
ження оплати
за API
Нейронний
МT Google,
початок
ери NMT
6. Rule Based
+
• граматична та синтаксична точність
• стабільна якість
• можливість роботи з термінологією
• налаштування правил і словників на певну тематику
• внесення змін до правил під час тренування / додавання нових мов
-
• велика кількість правил
• необхідність значних ресурсів
• велика вартість обслуговування
7. Statistical MT
+
• переклад – завдяки аналізу корпусів (двомовних і одномовних)
• відсутність потреби в значних ресурсах (відносно RB)
• значно краще передавання стилю (відносно RB)
-
• потреба в паралельних корпусах (300 тис. – 200 млн)
• недостатня кількість паралельних корпусів з українською
• rubbish in – rubbish out
• неможливість роботи з термінологією
• переклад по 3–5 слів
8. Neural MT
+
• переклад цілого речення, а не 3–5 слів
• здатність видавати узгоджений переклад (відносно RB, SMT)
• найкраще передавання стилю (відносно RB, SMT)
• відсутність потреби в значних ресурсах (відносно RB)
-
• узгоджений переклад може бути неадекватним (додаткові зусилля)
• недостатня кількість паралельних корпусів з українською
• rubbish in – rubbish out
• неможливість роботи з термінологією
9. Hybrid MT
Види гібридів:
• multi-engine system (паралельно)
• послідовне застосування систем МТ
• ГМП на основі оцінки достовірності
(нейронний – автоматична оцінка - статистичний)
• CAT + MT
11. Хто такий успішний постредактор
• Позитивне ставлення до МТ
• Відмінні знання МО й МП + “відчуття мови”
• Знання предметної галузі та підмови
• Знання CAT tools та інших технологій
• Досвід постредагування:
- уміння оцінювати раціональність
використання МT
- уміння визначати
й використовувати MT leverage
12. Щоб добре постредагувати
• Максимально використовуйте раціональні
варіанти МТ
• Шукайте придатні варіанти навіть
у неякісному МТ
• Не “зависайте” над МТ низької якості
• Розраховуйте кількість зусиль
(надміру не краще, ніж недостатньо)
• Правте текст після постредагування
13. МT вбиває професію чи відкриває
нові можливості?
Прогрес не спинити. Можна пристосуватись
або знайти свою нішу:
• транскреатор
• перекладач художньої літератури
• термінолог
14. Очікування від постредагування
• Чи існує доведена користь від застосування МT?
Так.
• Чи відрізнятиметься якість МT і звичайного
перекладу, зробленого людиною.
Так: “Translation is stylistically fine, though the
style may not be as good as that achieved by a native-
speaker human translator”.
• Чи помітить ці стилістичні відмінності кінцевий користувач?
Так, але мінімум.
• Чи можна використовувати МT + постредагування
замість звичайного перекладу? Адже існують певні ризики…
Має вирішувати ваш клієнт.
15. Проблеми МП в індустрії
• Бюджетні вади: невірна оцінка зусиль (= коли
впроваджували САТ)
• Брак кваліфікованих кадрів: достатньої
кількості кваліфікованих постредакторів
(новачки мають переваги над досвідченими)
• (Як наслідок) Неправильне ставлення
лінгвістів
до МТ
• (Як наслідок) Неправильна робота з машинним
перекладом (наприклад, відбір варіанту на
доопрацювання в гібридному МТ)
17. Часткове постредагування
Вимоги: good enough/fit for purpose
Що виправляємо:
• помилки, що спричиняють правові наслідки
• помилки, що перешкоджають отриманню
загального уявлення про текст, виконанню
інструкцій
• неперекладене
• незавершені речення
18. Часткове постредагування
Маємо в результаті:
• головна думка – зрозуміла
• посил вихідного тексту – відтворено
• відсутність стилістичної відповідності
• синтаксис і граматика – можна неприродні,
якщо передано головну думку
• орфографічні, пунктуаційні, граматичні,
синтаксичні помилки та термінологічна
нерекурсивність – залишаємо як є
19. Повне постредагування
Вимоги: close to human translation
Що виправляємо:
• орфографію, пунктуацію
• термінологію
• дослівність
• граматичні форми
• упущення/додавання
• ненормативне
20. Повне постредагування
Маємо в результаті:
• зрозумілі головні та другорядні думки
• відповідність посилу
• коректні синтаксис, граматика й орфографія
• ідеостилістична відповідність (до певної міри)
21. Часткове vs повне
Часткове постредагування Повне постредагування
Good enough/fit for purpose Close to human translation
Головна думка – зрозуміла Зрозумілі головні та другорядні думки
Посил вихідного тексту – відтворено Повна відповідність посилу (зрозумілий
загальний меседж і деталі)
Відсутність стилістичної відповідності Ідеостилістична відповідність (до певної
міри)
Синтаксис і граматика – можна
неприродні, якщо передано головну
думку
Коректні синтаксис, граматика та
орографія, термінологічна рекурсивність
Орфографічні, пунктуаційні, граматичні,
синтаксичні помилки та термінологічну
нерекурсивність – залишаємо як є
22. Практика постредагування МТ
Зробіть постредагування трьох уривків у такому
порядку:
• часткове постредагування;
• повне постредагування.
Зверніть увагу на:
• якість перекладу, яку пропонує система МТ;
• типові помилки, які роблять системи МТ.
23. Зразок 1. Стаття про мастильні матеріали
Source MTranslation
<g …><g …>Our last article</g> focused on
maximizing energy efficiency and
productivity, as well as the role of lubricants in
older equipment.</g>
<G ...> <g ...> Наша остання стаття </ g>
Орієнтованих на максимізацію Енергія і Поліол
естери (ефірполіоли), а також роль мастильних
матеріалів в більш старому обладнанні. </ G>
<g …>Our company regularly works with
customers to conduct used oil analysis
programs, through our mobile-enabled Mobil
Serv Lubricant Analysis program.</g>
<G ...> Наша компанія регулярно працює з
клієнтами, щоб проводити програми
загущувач, використовуючи нашу мобільну
програму Гірська видобуток Serv Lubricant
Analysis. </ G>
<g …>The analysis should include a
measurement of fluid viscosity, water
content, particle count and dissolved metals
to determine how well the system is
operating.
<G ...> Аналіз повинен включати вимір
фільтрація турбіни, вмісту води, кількості
частинок і розчиненого Морське (ой, а й т.п.),
щоб визначити, наскільки добре працює
система.
24. Зразок 2. Інтерфейс програми для креслення
Source MTranslation
<filepath>Joints.def</filepath> is a text file
that you can open and edit in any standard
text editor.
<Filepath> Joints.def </ filepath> текстовий
файл, який можна відкрити і редагувати в будь-
якому стандартному текстовому редакторі.
<i>Automatic drawing views</i> are views that
you select to create in <uicontrol>View
creation</uicontrol> before creating a single-
part, assembly or cast unit drawing.
<I> Автоматичні види креслення </ i> види
обрані створювати на <uicontrol> Створення
видів </ uicontrol> перед створенням окремої
деталі, збірки або відлитого елемента.
<i>View-specific properties</i> are defined
separately for each view that you select to
create.
<I> описуються властивості </ i> визначаються
окремо для кожного створюваного виду.
25. Зразок 3. Реклама ПЗ
Source MTranslation
Manage your global data residency needs and
drive the digital transformation of your
organization with per-user data location
controls in “Program Name”. Multi-Geo is now
available for Exchange Online and OneDrive.
Керування до потреб розміщати глобального
даних і диск цифровою трансформацією, що
вашої організації для кожного користувача
даних розташування елементів керування в
службі “Назва програми”. Multi-Geo тепер
доступне для Exchange Online і OneDrive
If you really want to plan a secure future for
your company, email monitoring is your first
line of defense.
Якщо дійсно потрібно безпечне майбутнє для
вашої компанії, моніторинг електронної
пошти – до першого рядка захисту.
Work at home and feel like you never left the
office.
Робота із дому і відчують себе ви ніколи не
вліво office
26. Висновки
1. Від чого залежить якість МТ:
• типу системи МТ
• якості текстів для тренування
• особливостей тексту, який перекладається
(довжина речень, специфічність предметної
галузі, мовної пари)
2. МТ – логічний наслідок руху прогресу.
Прогрес не спинити. Боремося за чесне
відшкодування зусиль, а не з самим МТ.
27. Висновки
3. Кожна із систем МТ гарна по-своєму.
Нейронна не завжди найкраща.
4. Проблема з МТ у Східній Європі не власне у його
використанні, а в неадекватній оцінці. Це пов’язано
з перенесенням досвіду західноєвропейських країн
з розвиненими корпусами на Східну Європу.
5. В Україні не перекладацькі компанії ініціюють
використання МТ, а кінцевий клієнт. Компанія та
перекладач тут на одному боці.