MT as a Translator's Tool (TFR_11) - in Russianoleg_vigodsky
- Integration of PROMT MT and SDL Trados
- Terminology development
- MT system customization: user dictionaries, DoNotTranslate lists and Translation Rules
MT as a Translator's Tool (TFR_11) - in Russianoleg_vigodsky
- Integration of PROMT MT and SDL Trados
- Terminology development
- MT system customization: user dictionaries, DoNotTranslate lists and Translation Rules
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision
Модуль потокового ввода Docsvision обеспечивает массовый ввод документов в систему с помощью потоковых документ-сканеров.
Областью применения модуля являются задачи ввода большого количества документов со сканера с привязкой результатов сканирования либо к уже имеющимся в системе регистрационным карточкам документов либо к вновь создаваемым карточкам для последующей регистрации.
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...fiadotau
Презентация к пятой лекции курса "Основы научно-технического перевода японского языка".
1 семестр 2014/15 учебного года.
Минский государственный лингвистический университет, кафедра восточных языков. Преподаватель Федотов М.С.
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".Badoo Development
1. Общее устройство системы перевода в Badoo
2. Лексемы, интеграция с таск-трекером
3. Иерархия языков, интерфейс перевода
4. Выделение лексем из текста: парсер, знающий HTML
5. Интеграция с git: многоверсионная система хранения лексем
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.RealSpeaker 2.0
Компания RealSpeaker приобрела исследование Technavio за 2 тысячи долларов по анализу мирового рынка развития систем распознавания речи в 2012-2016 гг. Мы данное исследование перевели на русский язык и решили представить русскоязычной аудитории бесплатно. Спешим сообщить, что наша разработка находится на передовой развития технологии. Если все получится - RealSpeaker и его пользователей ждет большое будущее! Навстречу переменам! Более подробно: http://realspeaker.net/ru/news/marketingovoe-issledovanie-rynka-golosovye-sistemy-raspoznavaniya-rechi-2012-2016-gg/
Научные журналы: требования международных системJulia Glavcheva
http://repository.kpi.kharkov.ua/handle/KhPI-Press/15003
Презентация семинара «Шлях статті від підготовки до визнання світовою науковою спільнотою» (21 мая 2015 г).
1.Критерии отбора изданий (сравнение 4 группы критериев Web of Science и 5 оценочных блоков в STEP (Scopus Title Evaluation Platform)).
2.Рекомендации по подготовке изданий
3.Издательская служба Уран, агенство CrossRef
4.Проект «Научная периодика Украины»
5.Практические результаты работы в проекте «Научная периодика Украины» (УРАН) редакций НТУ «ХПИ»
В конце апреля на конференции «Российские интернет-технологии» (РИТ++/2011) компания PROMT представила доклад о своей новой разработке в области машинного перевода.
Гибридная технология PROMT совмещает в себе метод машинного перевода, основанный на правилах (его сейчас используют разнообразные решения PROMT и онлайн-сервис компании Translate.Ru), и статистический метод.
Это позволяет сохранить основное преимущество традиционной технологии PROMT – создание связного и грамматически правильного перевода – и прибавить к нему сильные стороны статистического метода – быстрое добавление терминологии из двуязычного текста и обеспечение гладкости получаемого текста.
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision
Модуль потокового ввода Docsvision обеспечивает массовый ввод документов в систему с помощью потоковых документ-сканеров.
Областью применения модуля являются задачи ввода большого количества документов со сканера с привязкой результатов сканирования либо к уже имеющимся в системе регистрационным карточкам документов либо к вновь создаваемым карточкам для последующей регистрации.
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...fiadotau
Презентация к пятой лекции курса "Основы научно-технического перевода японского языка".
1 семестр 2014/15 учебного года.
Минский государственный лингвистический университет, кафедра восточных языков. Преподаватель Федотов М.С.
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".Badoo Development
1. Общее устройство системы перевода в Badoo
2. Лексемы, интеграция с таск-трекером
3. Иерархия языков, интерфейс перевода
4. Выделение лексем из текста: парсер, знающий HTML
5. Интеграция с git: многоверсионная система хранения лексем
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.RealSpeaker 2.0
Компания RealSpeaker приобрела исследование Technavio за 2 тысячи долларов по анализу мирового рынка развития систем распознавания речи в 2012-2016 гг. Мы данное исследование перевели на русский язык и решили представить русскоязычной аудитории бесплатно. Спешим сообщить, что наша разработка находится на передовой развития технологии. Если все получится - RealSpeaker и его пользователей ждет большое будущее! Навстречу переменам! Более подробно: http://realspeaker.net/ru/news/marketingovoe-issledovanie-rynka-golosovye-sistemy-raspoznavaniya-rechi-2012-2016-gg/
Научные журналы: требования международных системJulia Glavcheva
http://repository.kpi.kharkov.ua/handle/KhPI-Press/15003
Презентация семинара «Шлях статті від підготовки до визнання світовою науковою спільнотою» (21 мая 2015 г).
1.Критерии отбора изданий (сравнение 4 группы критериев Web of Science и 5 оценочных блоков в STEP (Scopus Title Evaluation Platform)).
2.Рекомендации по подготовке изданий
3.Издательская служба Уран, агенство CrossRef
4.Проект «Научная периодика Украины»
5.Практические результаты работы в проекте «Научная периодика Украины» (УРАН) редакций НТУ «ХПИ»
В конце апреля на конференции «Российские интернет-технологии» (РИТ++/2011) компания PROMT представила доклад о своей новой разработке в области машинного перевода.
Гибридная технология PROMT совмещает в себе метод машинного перевода, основанный на правилах (его сейчас используют разнообразные решения PROMT и онлайн-сервис компании Translate.Ru), и статистический метод.
Это позволяет сохранить основное преимущество традиционной технологии PROMT – создание связного и грамматически правильного перевода – и прибавить к нему сильные стороны статистического метода – быстрое добавление терминологии из двуязычного текста и обеспечение гладкости получаемого текста.
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn Global Company
SOYLEM CAT – это автоматизированное рабочее место переводчика, предоставляющее все необходимые инструменты для эффективной и удобной работы:
Машинный перевод на базе SOYLEM Business
Базы Памяти переводов (ТМ).
Словари SOYLEM и пользовательские словари
Поиск слов
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
Диалоговые системы и чат-боты: как они устроены сейчас (правила, фреймы, шаблоны) и как машинное обучение может изменить их качество и применимость.
Видеозапись лекции: https://www.youtube.com/watch?v=-9zKXLAwm7w
1. Машинный перевод по правилам
и без, или Зачем нужна гибридная
технология перевода
2. Типы систем машинного перевода
‣ Системы, основанные на правилах (rule-
based)
‣ Статистические системы (системы,
основанные на параллельных двуязычных
корпусах)
Машинный перевод по правилам и без
2
3. Rule-based системы
правила
анализа
правила лингвистические
модуль перевода
преобразования базы данных
правила
синтеза
синтаксический,
морфологический
семантический преобразование синтез
анализ
анализ
исходной
перевод
текст
Машинный перевод по правилам и без
3
4. Компоненты rule-based систем
Лингвистические базы данных
‣ двуязычные словари
‣ морфологические таблицы
‣ списки префиксов
‣ базы имен
Машинный перевод по правилам и без
4
5. Особенности rule-based систем
Преимущества
‣ синтаксическая и морфологическая точность
‣ стабильность и предсказуемость результата
‣ возможность настройки на предметную область
Недостатки
‣ трудоемкость и длительность разработки
‣ необходимость поддерживать и актуализировать
лингвистические базы данных
‣ «машинный акцент» при переводе
Машинный перевод по правилам и без
5
6. Rule-based перевод
Since the Desert One
debacle, the United
States has poured vast
resources into its
special forces.
Начиная с разгрома
Пустыни Один,
Соединенные Штаты
вылили обширные
ресурсы в свой
спецназ.
Машинный перевод по правилам и без
6
7. Статистические системы
Одноязычный
Параллельный
корпус
корпус
(язык перевода)
выравнивание, построение
извлечение языковой
фраз модели
фразовая языковая
таблица модель
исходный статистический
декодер перевод
текст
Исходный текст – это «зашифрованный» перевод,
который нужно декодировать
Машинный перевод по правилам и без
7
8. Компоненты статистических систем
Фразовая таблица – таблица соответствий фраз исходного корпуса и
корпуса переводов с некоторыми статистическими коэффициентами.
фрагмент фразовой таблицы
исходная перевод статистические
фраза коэффициенты
can download it at можете загрузить его по адресу 1 0.032 0.5 0.01
company компания 0.39 0.19 0.12 0.11
company компания-эмитент 0.85 0.42 0.01 0.05
company кредитной 0.01 0.01 0.01 0.01
company название компании 0.11 0.13 0.01 0.01
company организации , выпустившей его 1 0.05 0.01 0.37
compare all of сравнение всех 1 0.04 0.5 0.03
compare all of сравните все 0.33 0.01 0.5 0.07
Машинный перевод по правилам и без
8
9. Компоненты статистических систем
Языковая модель – набор n-грамм (последовательностей
словоформ длины n) из корпуса текстов.
фрагмент языковой модели
статистический n-грамма
коэффициент
-4.697978 в ознаменование
-4.697978 в оказание
-0.766904 <s> метод отправки
-0.508603 новые календари </s>
-0.528649 в календарь </s>
-0.988104 кворума старейшин президентом миссии
-1.048399 а также президентом мексиканской
Машинный перевод по правилам и без
9
10. Особенности статистических
систем
Преимущества
‣ Быстрая настройка
‣ Легко добавлять новые направления перевода
‣ Гладкость перевода
Недостатки
‣ «Дефицит» параллельных корпусов
‣ Многочисленные грамматические ошибки
‣ Нестабильность перевода
Машинный перевод по правилам и без
10
11. Статистический
перевод
Medvedev is to blame
Медведев виноват
Obama is to blame
Обама не виноват
Машинный перевод по правилам и без
11
12. Гибридные технологии перевода
Задача
Совместить достоинства двух основных
подходов и нивелировать их недостатки.
Зачем нужна гибридная технология перевода
12
13. Подходы к созданию гибридных
систем
‣ Интеграция лингвистических правил в
статистические системы
‣ Интеграция статистических методов в rule-
based системы
Зачем нужна гибридная технология перевода
13
14. Интеграция лингвистических
правил в статистические системы
‣ Синтаксическая и морфологическая разметка
корпусов для обучения
‣ Применение правил для идентификации и
перевода именованных сущностей
‣ Разбиение сложных слов
‣ Применение правил для идентификации и
перевода отдельных синтаксических конструкций
Решение частных задач не исправляет
фундаментальные недостатки статистического
перевода
Зачем нужна гибридная технология перевода
14
15. Интеграция статистических
методов в rule-based системы
Проблема
Rule-based системы имеют недостатки
алгоритмов анализа и синтеза, которые
постоянно воспроизводятся при переводе.
Решение
Научить систему автоматически
корректировать эти недостатки.
Система статистического постредактирования
Зачем нужна гибридная технология перевода
15
16. Гибридная технология перевода
PROMT
‣ Этап обучения системы с помощью
статистических методов
‣ Использование полученных на этапе
обучения данных в процессе перевода
Зачем нужна гибридная технология перевода
16
17. Обучение системы
Параллельный
корпус
Корпус
входного
языка
Одноязычный
корпус
rule-based корпус (язык перевода)
перевод языка
входного корпуса перевода
фразовая
таблица
данные
языковая
для статистического
rule-based модель
постредактирования
система
Зачем нужна гибридная технология перевода
17
18. Процесс перевода
модуль модуль
статистического языковых
постредактирования моделей
применение
постредактирования
оценка,
выбор
лучшего варианта
rule-based rule-based
система перевод варианты
перевода
исходный перевод
текст
Зачем нужна гибридная технология перевода
18
19. Гибридный перевод
‣ Четкая синтаксическая структура перевода
‣ Стабильность
‣ Гладкость
Зачем нужна гибридная технология перевода
19
20. Гибридный перевод
Исходный текст
Before proceeding further, every effort was made by senior staff to
ensure that a friendly atmosphere prevailed.
Rule-based перевод
Прежде, чем продолжиться далее, каждое усилие было
приложено руководящим персоналом, чтобы гарантировать, что
преобладала дружественная атмосфера.
Гибридный перевод
Прежде чем продолжить, руководящий персонал предпринял
все усилия, чтобы преобладала дружественная атмосфера.
Зачем нужна гибридная технология перевода
20
21. Гибридный перевод
Исходный текст
In the dialog box that opens, specify the necessary export settings.
Rule-based перевод
В диалоговом окне, которое открывается, определите
необходимые настройки экспорта.
Гибридный перевод
В открывшемся диалоговом окне укажите требуемые параметры
экспорта.
Зачем нужна гибридная технология перевода
21
22. Оценка машинного перевода
Большинство существующих метрик
автоматической оценки МП основаны
на сравнении с человеческим эталоном.
Необходима метрика оценки МП в отсутствие
эталона.
‣ автоматический перевод контента сетевых
ресурсов
‣ оценка изменений в технологии перевода
Оценка машинного перевода
22
23. Метрики оценки машинного
перевода
BLEU Score
Meteor
TER (Translation Error Rate)
Совпадение n-грамм в машинном переводе и эталоне
машинный перевод эталон
Нажмите «Да» в окне Нажмите «Да» в
сообщения, которое открывшемся окне
появляется. сообщения.
совпавшие n-граммы
1 Нажмите ; «Да» ; в ; окне
2 Нажмите «Да» ; «Да» в
3 Нажмите "Да" в
Оценка машинного перевода
23
24. Оценка машинного перевода без
человеческого эталона
Статистическая языковая модель (Perplexity)
Perplexity – величина, обратно пропорциональная вероятности.
Исходный текст
Click Yes in the message window that appears.
Машинный перевод 1
Нажмите «Да» в окне сообщения, которое появляется.
(Perplexity = 842)
Машинный перевод 2
Нажмите «Да» в открывшемся окне сообщения.
(Perplexity = 438)
Оценка машинного перевода
24
25. Оценка машинного перевода без
человеческого эталона
Perplexity не учитывает особенности входного текста и
грамматическую структуру перевода.
Исходный текст
Click Yes in the message window that appears.
Машинный перевод 1
Нажмите «Да» в открывшемся окне сообщения.
(Perplexity = 438)
Машинный перевод 2
Нажмите «Да»
(Perplexity = 145)
Оценка машинного перевода
25
26. Оценка машинного перевода без
человеческого эталона
Необходимо разработать комплексную
метрику оценки на основе характеристик
входного и выходного текста:
‣ длина текста (количество слов)
‣ вероятности перевода слов и фраз
‣ совпадение чисел, дат и т.п.
‣ оценка с помощью языковой модели
‣ морфологические, синтаксические признаки
Оценка машинного перевода
26
27. Спасибо!
Александр Молчанов
Компания ПРОМТ
Alexander.Molchanov@promt.ru