Практический подход к выбору
доменно-адаптивного NMT
Григорий Сапунов
CTO Intento, Inc.
Леонид Глазычев, Ph.D.
CEO, Logrus IT
© Intento, Inc.МПК 07.12.2018
План доклада
1. Обзор доменно-адаптивного NMT
2. Гибридный подход к оценке качества
3. Стоимость владения
4. Практические аспекты и рекомендации по выбору
1. Обзор доменно-
адаптивного NMT
2018: Новая глава в МП
Доменно-адаптивный NMT
Доступный custom NMT
2. Гибридный подход к
оценке качества
Движки в сравнении
Подходы к оценке качества
Лингвистический анализ
+ не требует образца перевода
+ выявляет все виды ошибок, показывает абсолютный уровень качества
- высокая трудоемкость
- регулярные статистически значимые тесты экономически неоправданны
Автоматические референсные метрики
+ быстрота, скорость и дешевизна
+ статистически значимое различие в качестве
- требуется образец перевода
- показывает только текстовое отличие одного перевода от другого
- надежно показывает только относительную разницу в качестве
Взаимно дополняют друг друга
1. выделение МП моделей с высоким качеством при помощи референсных метрик
2. анализ матрицы ошибок
3. лингвистический анализ на меньшем корпусе
Методика сравнения
● Язык: en-de
● Домен: биомед
● Размер обучающего датасета:
○ 10К/100К/500К/1М предложений
● Тестовый датасет: 2K предложений
● Измерение качества на обученных и стоковых
моделях (hLEPOR + LQA)
● Стоимость владения:
○ затраты на тренировку модели (деньги и время)
○ стоимость поддержки модели
○ стоимость использования модели
Корпус
UFAL Medical Corpus v. 1.0
● выборка по медицинской тематике из en-de корпуса
● 2000 записей для тестовой выборки (достаточно для устойчивой оценки)
● 4 обучающих корпуса: 10K, 100K, 500K и 1M записей
Длинные и сложные предложения:
Plasmid vector for expression in Caenorhabditis elegans and in Escherichia colia comprising in the 5' to 3' direction of
transcription operably linked to each other a heat shock promoter nucleotide sequence, a synthetic intron nucleotide sequence
containing a Shine-Dalgarno sequence, optionally a nucleotide sequence coding for a nuclear localisation signal or a secretion
signal, a nucleotide sequence coding for a recognisable tag, optionally a nucleotide sequence coding for a fluorescent protein, a
nucleotide sequence coding for a protease cleavage site, a multiple cloning site containing a nucleotide sequence coding for an
eukaryotic, such as human, protein or a nucleic acid molecule, and a nucleotide sequence coding for termination of translation.
Метрики: hLEPOR
LEPOR: automatic
machine translation
evaluation metric
considering the
enhanced Length
Penalty, n-gram
Position difference
Penalty and Recall
Сравнение по hLEPOR
© 2018
14
❖ «Координаты» качества: 2 общих + 1 атомарная
▪ Общая адекватность
o Насколько близко перевод отражает содержание и дух источника
o Насколько серьезны расхождения между источником и переводом
▪ Общая легкость восприятия
o Насколько легко воспринимать и понимать локализованный контент
o Насколько перевод гармонично и легко звучит, нет ли разных толкований
▪ Атомарное качество
o Число и серьезность проблем на “атомарном” уровне
(предложения, строки)
o Испорченные теги и ссылки, проблемы с грамматикой и нац.
стандартами, двойные пробелы и пр.
❖ Общие показатели более значимы и заметны
▪ Определяют первое и общее впечатление потребителя
▪ Автоматизация сложна, но оценка делается быстро
Трехмерная природа качества перевода
© 2018
15
Оценка атомарного качества: MQM+
❖ MQM+ создан в Logrus IT
▪ Переработка каталога ошибок MQM
▪ Серьезно изменена иерархия/структура
▪ Минимальные правки самих категорий
❖ Структура
▪ Следует логике процессов перевода и
проверки качества
▪ Полностью масштабируема
o Подход «капустного кочана»
❖ Обрываем внешние «листья»
▪ Упрощенные каталоги ошибок
▪ Каждый следующий
o Основан на предыдущем, более сложном
o Убирает внешний уровень детализации
▪ Снижаем сложность
▪ Обеспечиваем совместимость
КАТЕГОРИИ Изменения
LOGRUS IT MQM
Перемещено 26 of 194
Добавлено 12
Удалено
(лишние / дубликаты)
7
Переименовано 4
Изменено (примеры,
определения, …)
7
© 2018
16
Каталоги атомарных ошибок и капуста
Полный MQM+ Средний Оптимальный Одна-категория-
на-все (базовый)
4 уровня (3 почти
везде), 190+ категорий
Два верхних уровня
каталога MQM+
Один верхний уровень
каталога MQM+
Одна категория
заменяет каталог
9 основных категорий
+ 3 дополнительные
9 основных категорий
+ 3 дополнительные
9 основных категорий
+ 3 дополнительные
Экспертная оценка
атомарного качества
63 категории второго
уровня
63 категории второго
уровня
Нац. стандарты,
Терминология и т.п.
Шкала 0 – 9, как для
общих оценок
~120 категорий
нижнего уровня
Каждая категория четко
описана, включая
примеры
© 2018
17
LQA для NMT
❖ 14 NMT-движков – 45 сегментов – около 2000 слов
▪ Выборка: средний уровень hLEPOR (0.71) + макс. разброс
▪ Очень длинные сегменты без разметки
▪ «Слепое» тестирование
o Один из «движков» - референсный перевод
▪ 5 рецензентов
o Каждый проходит по всем 14 движкам
o По 9 сегментов на каждого (300 – 500 слов)
o Нейтрализация субъективности
❖ Модифицированная «оптимальная» метрика
▪ Глобальные (holistic) оценки неприменимы
o Произвольный выбор несвязных сегментов
▪ Атомарная оценка: 7 категорий вместо 9
o Adequacy, Intelligibility, Language issues, Terminology, Locale convention,
Technical issues (в конкретном случае неактуальна), Style
o Убрана пара «лишних» категорий: Design, Market Compliance
© 2018
18
Категории ошибок (© Logrus IT)
Adequacy
Adequacy of translation defines how closely the translation follows the
meaning of and the message conveyed by the source text (sentence, string,
etc.). In other words, adequacy measures whether the translation process
resulted in any discrepancies between source and target texts (except for
intended ones), including plain translation mistakes,omissions or additions.
Problems with adequacy can reflect additions and
omissions, mistranslation, partially translated or
untranslated pieces, or pieces that should not have
been translated at all
Intelligibility
Intelligibility (Readability) of translation defines how easy it is to consume
(read) and understand the target text (sentence, string, unit, etc.).
Intelligibility measures how clear, unambiguous and well-written the target
text is.
Problems with intelligibility mean that the text takes
time to read and comprehend or is completely
unintelligible.
Language issues
Language issues include all deviations from formal language rules and
requirements. Includes grammar, spelling and typography issues
Include grammar, spelling, and typography errors
Terminology
A term (domain-specific word) is translated with a term other than the one
expected for the domain or otherwise specified in a terminology glossary or
client requirements.Alternatively, terminology can be correct but
inconsistentthroughout the content.
Inconsistentuse of terminology, including its internal
inconsistencyor inconsistencywith the domain or
termbase
Locale
convention
This category refers only to whether the text is given the proper mechanical
form for the locale, not whether the contentapplies to the locale or not. An
incorrect format for currency is used for a German text, with a period (.)
instead of a comma (,) as a thousands separator. A text translated into
Japanese uses Western quote marks to indicate titles rather than "
The text does not adhere to locale-specific mechanical
conventions and violates requirementsfor the
presentation of contentin the target locale. Covers
deviations in calendar type, address, currency, date,
time, name, number, telephone and measurement
format, locale-specific punctuation, shortcut keys,
sorting, and target text markup
Technical issues
Technical issues with the text comprise encoding, links and references, and
markup, including tag and placeholder issues.
Wrong character encoding, problems with tags,
placeholders, links or cross-references,or markup
problems
Style
Style measures compliance with existing formal style requirements as well as
language, cultural and regional specifics.
Problems with style cover general style issues or
deviations from formal style requirements
© 2018
19
Серьезность ошибок (© Logrus IT)
Critical
(showstopper)
Showstopper-level (critical) errors are the ones that have the biggest, sometimes dramatic impact on the
reader’s perception.
Errors are considered as critical (showstoppers) when they can result in dire consequences for the
publisher, including causing life or health risks, embarassment or legal issues, equipment damage, violating
local or international laws, unintentionally offending large groups of people, potential risks of
misinformation and/or dangerous user behavior, etc. Typically the content should not be published without
fixing all critical issues first.
Major
The issue is serious, and has a noticeable effect on the overall content perception, including but not limited
to seriously misleading and/or confusing the user. Typical examples include locale errors (like incorrect
date, numeric or currency format) as well as problems with translation adequacy or readability for a
particular sentence or string.
Medium
The issue has noticeable, but moderate effect on the overall text perception, including but not limited to
inhibiting the user's ability to comprehend the content or perform the required task. Typical examples
include incorrect capitalization, wrong markup, grammar and spelling errors. While somewhat annoying
and more noticeable, medium-severity issues still do not result in misinformation, and do not affect the
user’s perception seriously.
Minor
The issue has minimal effect on the overall text perception. Typical examples include dual spaces or
incorrect typography (as far as it is not misleading and does not change the meaning) or imperfect
formatting. Formally a dual space in place of a single one or a redundant comma represents an error, but
its effect on the reader’s perception is minimal.
Preferential Use this severity for recommendations and preferrential issues that should not affect the rating.
© 2018
20
Особенности LQA для NMT
❖ Некоторые сегменты, переведенные MT, содержат массу ошибок
▪ Редко встречается в традиционном переводе
▪ Рецензенты обязаны отмечать каждую ошибку отдельно
▪ Однако они впадают в уныние…
o Отмечают 1-2 «самых страшных» ошибок
o Пишут, что сегмент содержит также много прочих…
❖ Неизбежные легкие вариации в оценке серьезности ошибок
▪ Критическая или серьезная?
❖ Стандартные суммарные, взвешенные рейтинги R = не работают
❖ Критические ошибки необходимо приравнять к серьезным (major)
❖ Для оценки MT важно иное
▪ Не играет особой роли, сколько в сегменте грубых ошибок: 2 или 5
▪ Главное – сколько в выборке почти идеальных, приемлемых и плохих переводов
❖ Основа рейтинга MT – доля переводов без ошибок/с мелкими ошибками
❖ Также учитываем долю переводов с серьезными/критическими ошибками
▪ Большинство ошибок терминологии: серьезность Medium (средние, 80%) и выше
© 2018
21
LQA для NMT (by NONE or Minor)
0
5
10
15
20
25
30
35
40
45
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
NO Errors Minor Medium Major or Worse NONE or MINOR
© 2018
22
LQA для NMT (by Major or Worse)
0
5
10
15
20
25
30
35
40
45
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
NO Errors Minor Medium Major or Worse NONE or MINOR Major or Worse
© 2018
23
Суммарные итоги LQA (места)
NMT Model BY NONE or MINOR BY MAJOR OR WORSE AVERAGE
Engine 13 Custom 2 2 2
Engine 11 Custom 3 1 2
Engine 13 Stock 1 4 2.5
Engine 09 Custom 4 5 4.5
Engine 11 Stock 6 3 4.5
Engine 05 5 6 5.5
Engine 09 Stock 7 8 7.5
Human Reference 9 7 8
Engine 03 8 10 9
Engine 08 11 9 10
Engine 02 10 11 10.5
Engine 06 Custom 12 12 12
Engine 04 13 14 13.5
Engine 06 Stock 14 13 13.5
© 2018
24
LQA: Интересные факты
❖ Ни один перевод не проходит обычный порог ожиданий LQA
▪ Стандартные ожидания для нормализованного рейтинга качества:
60% – 70% из 100%
▪ Лучшие NMT модели дают эквивалентный рейтинг 35% – 39%
o Близок к плохонькому человеческому переводу
▪ Применять к MT стандартные ожидания [пока] не имеет смысла
o Иная структура ошибок – иные цели и ожидания
o 60% - 70% переводов, [почти] не требующих редактуры – это уже прекрасно!
❖ Серьезные расхождения между рейтингами hLEPOR и LQA
▪ Несоответствие шкал
o hLEPOR в районе 0.71 соответствует Quality Rating <= 0.39 при огромном разбросе
▪ Рейтинг hLEPOR
o Напрямую не отражает потерю адекватности перевода
o Для длинных сегментов
• Низкая чувствительность к порядку слов в сложных сегментах и пропускам (omissions)
• Слабое влияние ошибок терминологии и капитализации
o Все это критично для человека
© 2018
25
LQA: Интересные факты
❖ На автоматическую оценку некоторых движков могут влиять
▪ Публичность корпуса и fuzzy-matching
❖ Оценка референсного перевода оказалась средненькой…
▪ Соответствует реальности
▪ Очень важно правильно готовить и чистить корпус
❖ Почему результаты LQA хуже hLEPOR
▪ Многочисленные глубоко неверные переводы (адекватность)
o Неверный порядок слов
o Translates as "rising sheet made out of foam"
when it should read "sheet made [out] of rising foam"
o Добавление лишнего текста
o Пропуски (omissions)
• Отдельные слова и целые куски (подчиненные предложения)
o Искажения (чисел, ссылок и пр.)
▪ Большое число ошибок терминологии и капитализации
▪ Множественное число вместо единственного в нескольких случаях
▪ Некоторые движки не смогли перевести часть сегментов
o Превышен порог по длине
© 2018
26
LQA: Интересные факты (II)
❖ Сравнение стоковых и адаптированных движков
▪ Показатели достаточно близки для большинства пар
▪ Заметный прогресс замечен только у одного
o Прогресс по числу ошибок (место остается низким)
❖ Ожидание – уходят терминологические ошибки
▪ Реально у одной из версий Stock их меньше, чем у Custom!
o Разница только в числе ошибок среднего (Medium) уровня
o Терминология + мелкие языковые огрехи
• лишний знак, мелкий пропуск, …
o Возможная причина – наличие тестового сета в виде TM
до обучения
Fusion: совмещение движков
Что если рассмотреть сценарий, когда переводчик
выбирает один из нескольких результатов перевода
разными движками?
Предполагаем, что человек будет выбирать перевод с
меньшим количеством серьёзных ошибок, а если их число
одинаково, то перевод с меньшим общим числом ошибок.
Fusion: Vendor 1 + Vendor 2
3. Стоимость владения
Стоимость тренировки1 MT движка (USD)
1 1 engine re-training per month, different training set sizes, based on the public prices provided on vendor websites.
2 Segment length in symbols based on our benchmark: 508 symbols per segment (long segments).
3 The price will be effective once Microsoft Custom Translate is launched in production (as of October 2018 it's in preview and
free).
4 Based on the actual training time we observed and a list price of $76 per hour of training
Стоимость обучения
2,3 4
Стоимость поддержки1 MT движка (USD в месяц)
1 Based on the public prices provided on vendor websites.
2 The price will be effective once Microsoft Custom Translate is launched in production (as of October 2018 it's in preview and
free).
3 Depends on the subscription tier.
Стоимость поддержки
2,3
Стоимость перевода1 различными движками (USD)
1 Based on the public prices provided on vendor websites.
2 Subject to low volume limits
3 Based on 4.79 symbols per word.
Стоимость поддержки
2,3
2 3
Несколько возможных сценариев1
1 All estimates are based on public pricing, may be inaccurate and do not account for the cost of human labor to
implement the solutions.
Total Cost of Ownership
2,3
Резюме
● Все вендоры пользуются разными моделями
ценообразования, заточенными на различные способы
использования.
● Возможно удержать стоимость оценки в разумных
пределах.
● При оценке доменно-адаптивного МП анализ полной
стоимости владения необходим.
4. Практические аспекты и
рекомендации по выбору
Время на обучение движка (в часах)
Время обучения
Сколько данных нужно для обучения
Как изменяется средний hLEPOR при увеличении
обучающего корпуса:
Данные
● 10К сегментов может быть уже достаточно для
серьёзного улучшения качества. После 100К сегментов
улучшение замедляется.
● В некоторых случаях базовые модели уже достаточно
хороши и дообучение лишь незначительно улучшает их.
● На других языковых парах и доменах ситуация может
существенно отличаться. Делайте проверку на данных
своих проектов!
● Данные защищены ToS: Google (link), IBM (link), Microsoft
(link), Globalese (link), Tilde (link)
● ModernMT может использовать данные, отправленные в
его API для улучшения движков (link).
● Некоторые движки можно развернуть on-premise:
Globalese, ModernMT, Tilde
Безопасность данных
Рекомендации по выбору системы МП
шаг 1. Подготовка тестового корпуса
шаг 2. Сравнение стоковых моделей
либо подойдут, либо зададут планку качества для кастомизации
шаг 3. Подготовка глоссария и (до)тренировочного
корпуса
шаг 4. Сравнение адаптируемых моделей
либо подойдут, либо зададут планку для подрядчика по разработке
модели с нуля
Чем мы можем помочь:
Мы унифицируем доступ к различным системам МП и помогаем
регулярно их сравнивать
● отчеты по сравнению систем МП
○ последний (скоро обновление): https://bit.ly/mt_jul2018
○ отчёт по кастомизированным моделям:
https://bit.ly/custom_nmt_nov2018
● единый API ко всем системам МП: https://bit.ly/intento_api
● SDK для NodeJS и .NET https://github.com/intento
● CLI интерфейс командной строки для перевода файлов разными
системами МП: https://bit.ly/intento_cli
● API для расчета референсных метрик и (скоро) автоматического
сравнения МП на ваших корпусах: https://bit.ly/score_api
● web-tools для перевода https://blog.inten.to/when-api-is-not-enough-a67799488c48
● плагины для MemoQ (https://bit.ly/intento_memoq),
SDL Trados (https://bit.ly/intento_trados) и (скоро) MateCat
СПАСИБО!
Григорий Сапунов
gs@inten.to
Леонид Глазычев
leonidg@logrusit.com
Grigory Sapunov
gs@inten.to
(415) 429-0021
2150 Shattuck Ave
Berkeley CA 94705
42
Leonid Glazychev
leonidg@logrusit.com
+1 (215) 344-1425
70 Addis Drive
Churchville, PA 18966

Практический подход к выбору доменно-адаптивного NMT​

  • 1.
    Практический подход квыбору доменно-адаптивного NMT Григорий Сапунов CTO Intento, Inc. Леонид Глазычев, Ph.D. CEO, Logrus IT © Intento, Inc.МПК 07.12.2018
  • 2.
    План доклада 1. Обзордоменно-адаптивного NMT 2. Гибридный подход к оценке качества 3. Стоимость владения 4. Практические аспекты и рекомендации по выбору
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
    2. Гибридный подходк оценке качества
  • 8.
  • 9.
    Подходы к оценкекачества Лингвистический анализ + не требует образца перевода + выявляет все виды ошибок, показывает абсолютный уровень качества - высокая трудоемкость - регулярные статистически значимые тесты экономически неоправданны Автоматические референсные метрики + быстрота, скорость и дешевизна + статистически значимое различие в качестве - требуется образец перевода - показывает только текстовое отличие одного перевода от другого - надежно показывает только относительную разницу в качестве Взаимно дополняют друг друга 1. выделение МП моделей с высоким качеством при помощи референсных метрик 2. анализ матрицы ошибок 3. лингвистический анализ на меньшем корпусе
  • 10.
    Методика сравнения ● Язык:en-de ● Домен: биомед ● Размер обучающего датасета: ○ 10К/100К/500К/1М предложений ● Тестовый датасет: 2K предложений ● Измерение качества на обученных и стоковых моделях (hLEPOR + LQA) ● Стоимость владения: ○ затраты на тренировку модели (деньги и время) ○ стоимость поддержки модели ○ стоимость использования модели
  • 11.
    Корпус UFAL Medical Corpusv. 1.0 ● выборка по медицинской тематике из en-de корпуса ● 2000 записей для тестовой выборки (достаточно для устойчивой оценки) ● 4 обучающих корпуса: 10K, 100K, 500K и 1M записей Длинные и сложные предложения: Plasmid vector for expression in Caenorhabditis elegans and in Escherichia colia comprising in the 5' to 3' direction of transcription operably linked to each other a heat shock promoter nucleotide sequence, a synthetic intron nucleotide sequence containing a Shine-Dalgarno sequence, optionally a nucleotide sequence coding for a nuclear localisation signal or a secretion signal, a nucleotide sequence coding for a recognisable tag, optionally a nucleotide sequence coding for a fluorescent protein, a nucleotide sequence coding for a protease cleavage site, a multiple cloning site containing a nucleotide sequence coding for an eukaryotic, such as human, protein or a nucleic acid molecule, and a nucleotide sequence coding for termination of translation.
  • 12.
    Метрики: hLEPOR LEPOR: automatic machinetranslation evaluation metric considering the enhanced Length Penalty, n-gram Position difference Penalty and Recall
  • 13.
  • 14.
    © 2018 14 ❖ «Координаты»качества: 2 общих + 1 атомарная ▪ Общая адекватность o Насколько близко перевод отражает содержание и дух источника o Насколько серьезны расхождения между источником и переводом ▪ Общая легкость восприятия o Насколько легко воспринимать и понимать локализованный контент o Насколько перевод гармонично и легко звучит, нет ли разных толкований ▪ Атомарное качество o Число и серьезность проблем на “атомарном” уровне (предложения, строки) o Испорченные теги и ссылки, проблемы с грамматикой и нац. стандартами, двойные пробелы и пр. ❖ Общие показатели более значимы и заметны ▪ Определяют первое и общее впечатление потребителя ▪ Автоматизация сложна, но оценка делается быстро Трехмерная природа качества перевода
  • 15.
    © 2018 15 Оценка атомарногокачества: MQM+ ❖ MQM+ создан в Logrus IT ▪ Переработка каталога ошибок MQM ▪ Серьезно изменена иерархия/структура ▪ Минимальные правки самих категорий ❖ Структура ▪ Следует логике процессов перевода и проверки качества ▪ Полностью масштабируема o Подход «капустного кочана» ❖ Обрываем внешние «листья» ▪ Упрощенные каталоги ошибок ▪ Каждый следующий o Основан на предыдущем, более сложном o Убирает внешний уровень детализации ▪ Снижаем сложность ▪ Обеспечиваем совместимость КАТЕГОРИИ Изменения LOGRUS IT MQM Перемещено 26 of 194 Добавлено 12 Удалено (лишние / дубликаты) 7 Переименовано 4 Изменено (примеры, определения, …) 7
  • 16.
    © 2018 16 Каталоги атомарныхошибок и капуста Полный MQM+ Средний Оптимальный Одна-категория- на-все (базовый) 4 уровня (3 почти везде), 190+ категорий Два верхних уровня каталога MQM+ Один верхний уровень каталога MQM+ Одна категория заменяет каталог 9 основных категорий + 3 дополнительные 9 основных категорий + 3 дополнительные 9 основных категорий + 3 дополнительные Экспертная оценка атомарного качества 63 категории второго уровня 63 категории второго уровня Нац. стандарты, Терминология и т.п. Шкала 0 – 9, как для общих оценок ~120 категорий нижнего уровня Каждая категория четко описана, включая примеры
  • 17.
    © 2018 17 LQA дляNMT ❖ 14 NMT-движков – 45 сегментов – около 2000 слов ▪ Выборка: средний уровень hLEPOR (0.71) + макс. разброс ▪ Очень длинные сегменты без разметки ▪ «Слепое» тестирование o Один из «движков» - референсный перевод ▪ 5 рецензентов o Каждый проходит по всем 14 движкам o По 9 сегментов на каждого (300 – 500 слов) o Нейтрализация субъективности ❖ Модифицированная «оптимальная» метрика ▪ Глобальные (holistic) оценки неприменимы o Произвольный выбор несвязных сегментов ▪ Атомарная оценка: 7 категорий вместо 9 o Adequacy, Intelligibility, Language issues, Terminology, Locale convention, Technical issues (в конкретном случае неактуальна), Style o Убрана пара «лишних» категорий: Design, Market Compliance
  • 18.
    © 2018 18 Категории ошибок(© Logrus IT) Adequacy Adequacy of translation defines how closely the translation follows the meaning of and the message conveyed by the source text (sentence, string, etc.). In other words, adequacy measures whether the translation process resulted in any discrepancies between source and target texts (except for intended ones), including plain translation mistakes,omissions or additions. Problems with adequacy can reflect additions and omissions, mistranslation, partially translated or untranslated pieces, or pieces that should not have been translated at all Intelligibility Intelligibility (Readability) of translation defines how easy it is to consume (read) and understand the target text (sentence, string, unit, etc.). Intelligibility measures how clear, unambiguous and well-written the target text is. Problems with intelligibility mean that the text takes time to read and comprehend or is completely unintelligible. Language issues Language issues include all deviations from formal language rules and requirements. Includes grammar, spelling and typography issues Include grammar, spelling, and typography errors Terminology A term (domain-specific word) is translated with a term other than the one expected for the domain or otherwise specified in a terminology glossary or client requirements.Alternatively, terminology can be correct but inconsistentthroughout the content. Inconsistentuse of terminology, including its internal inconsistencyor inconsistencywith the domain or termbase Locale convention This category refers only to whether the text is given the proper mechanical form for the locale, not whether the contentapplies to the locale or not. An incorrect format for currency is used for a German text, with a period (.) instead of a comma (,) as a thousands separator. A text translated into Japanese uses Western quote marks to indicate titles rather than " The text does not adhere to locale-specific mechanical conventions and violates requirementsfor the presentation of contentin the target locale. Covers deviations in calendar type, address, currency, date, time, name, number, telephone and measurement format, locale-specific punctuation, shortcut keys, sorting, and target text markup Technical issues Technical issues with the text comprise encoding, links and references, and markup, including tag and placeholder issues. Wrong character encoding, problems with tags, placeholders, links or cross-references,or markup problems Style Style measures compliance with existing formal style requirements as well as language, cultural and regional specifics. Problems with style cover general style issues or deviations from formal style requirements
  • 19.
    © 2018 19 Серьезность ошибок(© Logrus IT) Critical (showstopper) Showstopper-level (critical) errors are the ones that have the biggest, sometimes dramatic impact on the reader’s perception. Errors are considered as critical (showstoppers) when they can result in dire consequences for the publisher, including causing life or health risks, embarassment or legal issues, equipment damage, violating local or international laws, unintentionally offending large groups of people, potential risks of misinformation and/or dangerous user behavior, etc. Typically the content should not be published without fixing all critical issues first. Major The issue is serious, and has a noticeable effect on the overall content perception, including but not limited to seriously misleading and/or confusing the user. Typical examples include locale errors (like incorrect date, numeric or currency format) as well as problems with translation adequacy or readability for a particular sentence or string. Medium The issue has noticeable, but moderate effect on the overall text perception, including but not limited to inhibiting the user's ability to comprehend the content or perform the required task. Typical examples include incorrect capitalization, wrong markup, grammar and spelling errors. While somewhat annoying and more noticeable, medium-severity issues still do not result in misinformation, and do not affect the user’s perception seriously. Minor The issue has minimal effect on the overall text perception. Typical examples include dual spaces or incorrect typography (as far as it is not misleading and does not change the meaning) or imperfect formatting. Formally a dual space in place of a single one or a redundant comma represents an error, but its effect on the reader’s perception is minimal. Preferential Use this severity for recommendations and preferrential issues that should not affect the rating.
  • 20.
    © 2018 20 Особенности LQAдля NMT ❖ Некоторые сегменты, переведенные MT, содержат массу ошибок ▪ Редко встречается в традиционном переводе ▪ Рецензенты обязаны отмечать каждую ошибку отдельно ▪ Однако они впадают в уныние… o Отмечают 1-2 «самых страшных» ошибок o Пишут, что сегмент содержит также много прочих… ❖ Неизбежные легкие вариации в оценке серьезности ошибок ▪ Критическая или серьезная? ❖ Стандартные суммарные, взвешенные рейтинги R = не работают ❖ Критические ошибки необходимо приравнять к серьезным (major) ❖ Для оценки MT важно иное ▪ Не играет особой роли, сколько в сегменте грубых ошибок: 2 или 5 ▪ Главное – сколько в выборке почти идеальных, приемлемых и плохих переводов ❖ Основа рейтинга MT – доля переводов без ошибок/с мелкими ошибками ❖ Также учитываем долю переводов с серьезными/критическими ошибками ▪ Большинство ошибок терминологии: серьезность Medium (средние, 80%) и выше
  • 21.
    © 2018 21 LQA дляNMT (by NONE or Minor) 0 5 10 15 20 25 30 35 40 45 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% NO Errors Minor Medium Major or Worse NONE or MINOR
  • 22.
    © 2018 22 LQA дляNMT (by Major or Worse) 0 5 10 15 20 25 30 35 40 45 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% NO Errors Minor Medium Major or Worse NONE or MINOR Major or Worse
  • 23.
    © 2018 23 Суммарные итогиLQA (места) NMT Model BY NONE or MINOR BY MAJOR OR WORSE AVERAGE Engine 13 Custom 2 2 2 Engine 11 Custom 3 1 2 Engine 13 Stock 1 4 2.5 Engine 09 Custom 4 5 4.5 Engine 11 Stock 6 3 4.5 Engine 05 5 6 5.5 Engine 09 Stock 7 8 7.5 Human Reference 9 7 8 Engine 03 8 10 9 Engine 08 11 9 10 Engine 02 10 11 10.5 Engine 06 Custom 12 12 12 Engine 04 13 14 13.5 Engine 06 Stock 14 13 13.5
  • 24.
    © 2018 24 LQA: Интересныефакты ❖ Ни один перевод не проходит обычный порог ожиданий LQA ▪ Стандартные ожидания для нормализованного рейтинга качества: 60% – 70% из 100% ▪ Лучшие NMT модели дают эквивалентный рейтинг 35% – 39% o Близок к плохонькому человеческому переводу ▪ Применять к MT стандартные ожидания [пока] не имеет смысла o Иная структура ошибок – иные цели и ожидания o 60% - 70% переводов, [почти] не требующих редактуры – это уже прекрасно! ❖ Серьезные расхождения между рейтингами hLEPOR и LQA ▪ Несоответствие шкал o hLEPOR в районе 0.71 соответствует Quality Rating <= 0.39 при огромном разбросе ▪ Рейтинг hLEPOR o Напрямую не отражает потерю адекватности перевода o Для длинных сегментов • Низкая чувствительность к порядку слов в сложных сегментах и пропускам (omissions) • Слабое влияние ошибок терминологии и капитализации o Все это критично для человека
  • 25.
    © 2018 25 LQA: Интересныефакты ❖ На автоматическую оценку некоторых движков могут влиять ▪ Публичность корпуса и fuzzy-matching ❖ Оценка референсного перевода оказалась средненькой… ▪ Соответствует реальности ▪ Очень важно правильно готовить и чистить корпус ❖ Почему результаты LQA хуже hLEPOR ▪ Многочисленные глубоко неверные переводы (адекватность) o Неверный порядок слов o Translates as "rising sheet made out of foam" when it should read "sheet made [out] of rising foam" o Добавление лишнего текста o Пропуски (omissions) • Отдельные слова и целые куски (подчиненные предложения) o Искажения (чисел, ссылок и пр.) ▪ Большое число ошибок терминологии и капитализации ▪ Множественное число вместо единственного в нескольких случаях ▪ Некоторые движки не смогли перевести часть сегментов o Превышен порог по длине
  • 26.
    © 2018 26 LQA: Интересныефакты (II) ❖ Сравнение стоковых и адаптированных движков ▪ Показатели достаточно близки для большинства пар ▪ Заметный прогресс замечен только у одного o Прогресс по числу ошибок (место остается низким) ❖ Ожидание – уходят терминологические ошибки ▪ Реально у одной из версий Stock их меньше, чем у Custom! o Разница только в числе ошибок среднего (Medium) уровня o Терминология + мелкие языковые огрехи • лишний знак, мелкий пропуск, … o Возможная причина – наличие тестового сета в виде TM до обучения
  • 27.
    Fusion: совмещение движков Чтоесли рассмотреть сценарий, когда переводчик выбирает один из нескольких результатов перевода разными движками? Предполагаем, что человек будет выбирать перевод с меньшим количеством серьёзных ошибок, а если их число одинаково, то перевод с меньшим общим числом ошибок.
  • 28.
    Fusion: Vendor 1+ Vendor 2
  • 29.
  • 30.
    Стоимость тренировки1 MTдвижка (USD) 1 1 engine re-training per month, different training set sizes, based on the public prices provided on vendor websites. 2 Segment length in symbols based on our benchmark: 508 symbols per segment (long segments). 3 The price will be effective once Microsoft Custom Translate is launched in production (as of October 2018 it's in preview and free). 4 Based on the actual training time we observed and a list price of $76 per hour of training Стоимость обучения 2,3 4
  • 31.
    Стоимость поддержки1 MTдвижка (USD в месяц) 1 Based on the public prices provided on vendor websites. 2 The price will be effective once Microsoft Custom Translate is launched in production (as of October 2018 it's in preview and free). 3 Depends on the subscription tier. Стоимость поддержки 2,3
  • 32.
    Стоимость перевода1 различнымидвижками (USD) 1 Based on the public prices provided on vendor websites. 2 Subject to low volume limits 3 Based on 4.79 symbols per word. Стоимость поддержки 2,3 2 3
  • 33.
    Несколько возможных сценариев1 1All estimates are based on public pricing, may be inaccurate and do not account for the cost of human labor to implement the solutions. Total Cost of Ownership 2,3
  • 34.
    Резюме ● Все вендорыпользуются разными моделями ценообразования, заточенными на различные способы использования. ● Возможно удержать стоимость оценки в разумных пределах. ● При оценке доменно-адаптивного МП анализ полной стоимости владения необходим.
  • 35.
    4. Практические аспектыи рекомендации по выбору
  • 36.
    Время на обучениедвижка (в часах) Время обучения
  • 37.
    Сколько данных нужнодля обучения Как изменяется средний hLEPOR при увеличении обучающего корпуса:
  • 38.
    Данные ● 10К сегментовможет быть уже достаточно для серьёзного улучшения качества. После 100К сегментов улучшение замедляется. ● В некоторых случаях базовые модели уже достаточно хороши и дообучение лишь незначительно улучшает их. ● На других языковых парах и доменах ситуация может существенно отличаться. Делайте проверку на данных своих проектов!
  • 39.
    ● Данные защищеныToS: Google (link), IBM (link), Microsoft (link), Globalese (link), Tilde (link) ● ModernMT может использовать данные, отправленные в его API для улучшения движков (link). ● Некоторые движки можно развернуть on-premise: Globalese, ModernMT, Tilde Безопасность данных
  • 40.
    Рекомендации по выборусистемы МП шаг 1. Подготовка тестового корпуса шаг 2. Сравнение стоковых моделей либо подойдут, либо зададут планку качества для кастомизации шаг 3. Подготовка глоссария и (до)тренировочного корпуса шаг 4. Сравнение адаптируемых моделей либо подойдут, либо зададут планку для подрядчика по разработке модели с нуля
  • 41.
    Чем мы можемпомочь: Мы унифицируем доступ к различным системам МП и помогаем регулярно их сравнивать ● отчеты по сравнению систем МП ○ последний (скоро обновление): https://bit.ly/mt_jul2018 ○ отчёт по кастомизированным моделям: https://bit.ly/custom_nmt_nov2018 ● единый API ко всем системам МП: https://bit.ly/intento_api ● SDK для NodeJS и .NET https://github.com/intento ● CLI интерфейс командной строки для перевода файлов разными системами МП: https://bit.ly/intento_cli ● API для расчета референсных метрик и (скоро) автоматического сравнения МП на ваших корпусах: https://bit.ly/score_api ● web-tools для перевода https://blog.inten.to/when-api-is-not-enough-a67799488c48 ● плагины для MemoQ (https://bit.ly/intento_memoq), SDL Trados (https://bit.ly/intento_trados) и (скоро) MateCat
  • 42.
    СПАСИБО! Григорий Сапунов gs@inten.to Леонид Глазычев leonidg@logrusit.com GrigorySapunov gs@inten.to (415) 429-0021 2150 Shattuck Ave Berkeley CA 94705 42 Leonid Glazychev leonidg@logrusit.com +1 (215) 344-1425 70 Addis Drive Churchville, PA 18966