SlideShare a Scribd company logo
1 of 20
Download to read offline
1
Статистические методы в машинном переводе:
проблемы роста
2
Технологии перевода PROMT
Rule-based перевод
Статистический перевод
Гибридный перевод
3
Статистические и гибридные системы перевода PROMT
• Разработка с 2009 года.
• Все языки rule-based системы PROMT, а также финский,
китайский, японский, казахский, скандинавские языки.
4
Проблемы статистического и гибридного перевода
Проблемы данных:
• Источники
• Объем
• Предобработка
Проблемы перевода:
• Регистр
• Нестабильность
перевода при
использовании
статистических
компонентов
5
Статистическая/гибридная система перевода
Необходим:
• Параллельный корпус (для настройки модели перевода).
• Корпус на языке перевода (для настройки языковой
модели).
Требуемый объем параллельных данных:
~ 1,5-2 млн. словоупотреблений (статистическая система).
~ 500 тыс. словоупотреблений (гибридная система).
6
Источники данных
Открытые источники:
- Параллельные и одноязычные
корпусы в открытом доступе
- Интернет-ресурсы
Клиентские данные
7
Открытые источники
• Корпус Европарламента (20 языков, объем 10-50 млн.
словоупотреблений)
• Корпус ООН (7 языков, объем 100-200 млн. Словоупотреблений)
• Субтитры (30 языков)
• Документация (PHP, OpenOffice, …)
• Новостные корпусы
• ...
Подготовленные корпусы достаточно хорошего качества (txt/xml), но
очень специфическая тематика.
• Интернет-ресурсы
Непараллельные, разнородные данные (html); много «мусора».
8
Настройка гибридной/статистической систем перевода
Настройка универсальной системы
перевода
Использование
открытых корпусов
и Интернет-ресурсов
Настройка системы перевода для
клиента
- Общая большая модель перевода
(клиентские + дополнительные данные).
- Две модели перевода (приоритетная на
клиентских данных).
1. Можно настраивать систему
только на клиентских данных
2. При малом объеме клиентского
корпуса необходимо использовать
дополнительные данные
9
Предобработка данных
Клиентские данные тоже бывают «грязные»
Модуль предобработки данных PROMT:
1. Обработка данных в текстовом и xml-формате.
2. Валидация параллельных сегментов по соотношению длин.
3. Удаление дублирующихся сегментов.
4. Удаление непереведенных сегментов (модуль определения языка
PROMT), сегментов с малым количеством алфавитных символов.
5. Разбиение сегментов на предложения (если в сегменте их несколько).
6. Нормализация знаков препинания, лигатур, html-сущностей.
7. Токенизация.
8. Восстановление сегментов с неправильной кодировкой.
9. Проверка орфографии.
10
Предобработка данных
Некоторые проблемы невозможно решить с помощью самых сложных
алгоритмов прочистки.
Фрагмент параллельных англо-русских данных клиента (руководство
пользователя):
The name
“Dinesh Kumar Garg”
will be written as:
Полное имя
«Иван Петрович Иванов»
будет записано следующим
образом:
11
Проблемы перевода с использованием статистических
компонентов
Проблема
восстановления регистра
Проблемы,
связанные с нестабильностью/
непредсказуемостью
машинного перевода
12
Восстановление регистра при переводе
Существует стандартная модель восстановления регистра – фактически
упрощенная статистическая модель перевода из нижнего регистра в
комбинированный.
Модель восстановления регистра
Статистический
Декодер
Языковая модель
(регистрозависимая)
Фразовая таблица
(регистрозависимая)
13
Восстановление регистра при переводе
Гибридная система восстановления регистра PROMT:
1. Использование информации о регистре исходного текста (регистр
первой буквы; все предложение в верхнем/нижнем регистре;
сохранение регистра незнакомых слов).
2. Использование информации rule-based компонента (для гибридной
системы перевода).
3. Статистическая модель восстановления регистра (большая
универсальная модель + приоритетная модель на основе клиентских
данных).
14
Нестабильность статистического компонента
Google:
Путин едет на
желтой Калине
Putin goes to a
yellow Mazda
15
Нестабильность статистического компонента
Исчезновение/появление лишних символов и пунктуационных знаков:
Решение:
1. Использование информации об исходном тексте.
2. Обработка невозможных сочетаний знаков.
1.
Create a partition using the free space.
Создайте раздел, используя свободное пространство).
2.
Perform operations (e.g., ROP1, ROP2, and ROP3) on the data using a pattern.
Проведите операции (например, ROP1, ROP2 и ROP3,) на данных с помощью образца.
16
Нестабильность статистического компонента
Проблемы со специальными конструкциями и именованными сущностями
(имена, даты, адреса, номера телефонов и т.п.).
1.
Конгрессмен Джесси Л. Джексон-младший (демократ, Иллинойс) предложил множество
поправок к закону.
Congressman Jesse Jr. L. Jackson (the democrat, Illinois) proposed a number of amendments to the
law.
2.
If you want a refund, you must mail your written request to us at P.O. Box 45950, Omaha, NE 68145-
0950.
Если Вы хотите компенсацию, Вам необходимо отправить свой письменный запрос по
почте нам в почтовом ящике 45950, - Омаха, 68145-0950 штат Небраска.
17
Обработка специальных конструкций и именованных
сущностей
Правильный перевод специальных конструкций и именованных сущностей –
одно из основных требований клиентов.
Решение для гибридной
системы перевода
• Использование информации rule-
based компонента: специальные
конструкции помечаются тегами и не
обрабатываются статистическим
компонентом.
Решение для статистических
систем
• Использование парсеров PROMT (на
стадии разработки).
18
Обработка специальных конструкций и именованных
сущностей
Перевод специальных конструкций:
1.
Конгрессмен Джесси Л. Джексон-младший (демократ, Иллинойс) предложил множество
поправок к закону.
• Конгрессмен <NAME>Джесси Л. Джексон-младший</NAME> (демократ, Иллинойс)
предложил множество поправок к закону.
• Congressman Jesse L. Jackson Jr.(the democrat, Illinois) proposed a number of amendments
to the law.
2.
If you want a refund, you must mail your written request to us at P.O. Box 45950, Omaha, NE
68145-0950.
• If you want a refund, you must mail your written request to us at P.O. Box <ADDRESS>45950,
Omaha, NE 68145-0950</ADDRESS>.
• Если Вы хотите компенсацию, Вам необходимо отправить свой письменный запрос
по почте нам в почтовом ящике 45950, Омаха, штат Небраска 68145-0950.
19
Обработка специальных конструкций и именованных
сущностей
Обработка данных парсерами PROMT и замена специальных
конструкций тегами на стадии обучения (исследования)
Существенное уменьшение объема
словаря корпуса.
Улучшение качества выравнивания
параллельных данных
при обучении
статистической/гибридной
системы.
20
Спасибо за внимание!
Александр Молчанов
Руководитель группы
статистических исследований
Компания ПРОМТ
Alexander.Molchanov@promt.ru

More Related Content

Viewers also liked

интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальности
KristinaIIE105
 
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао
67921340AB
 
системы автоматизированного перевода
системы автоматизированного переводасистемы автоматизированного перевода
системы автоматизированного перевода
MariaSuina
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
 

Viewers also liked (20)

Guide russian
Guide russianGuide russian
Guide russian
 
MT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in RussianMT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in Russian
 
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
 
интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальности
 
Abbyy ls technologies_ru
Abbyy ls technologies_ruAbbyy ls technologies_ru
Abbyy ls technologies_ru
 
словари
словарисловари
словари
 
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао
 
MachineTranslation
MachineTranslationMachineTranslation
MachineTranslation
 
4.5 (1)
4.5 (1)4.5 (1)
4.5 (1)
 
FU-Lab
FU-LabFU-Lab
FU-Lab
 
системы автоматизированного перевода
системы автоматизированного переводасистемы автоматизированного перевода
системы автоматизированного перевода
 
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
 
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
 
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
 
визуализация информации
визуализация  информациивизуализация  информации
визуализация информации
 
системы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхсистемы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованиях
 
Научные журналы: требования международных систем
Научные журналы: требования международных системНаучные журналы: требования международных систем
Научные журналы: требования международных систем
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Promt
PromtPromt
Promt
 
Извлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языкахИзвлечение справочных данных из технических текстов на естественных языках
Извлечение справочных данных из технических текстов на естественных языках
 

Similar to Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста

It Pro: Как придать данным учетных систем новую ценность?
It Pro: Как придать данным учетных систем новую ценность?It Pro: Как придать данным учетных систем новую ценность?
It Pro: Как придать данным учетных систем новую ценность?
Expolink
 
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
HappyDev
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
Sergey Xek
 

Similar to Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста (20)

molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
Технологии PROMT для переводческих проектов — Юлия Епифанцева, PROMT
Технологии PROMT для переводческих проектов — Юлия Епифанцева, PROMTТехнологии PROMT для переводческих проектов — Юлия Епифанцева, PROMT
Технологии PROMT для переводческих проектов — Юлия Епифанцева, PROMT
 
Translation Technology in Russia: 10 tools most popular with large LSPs
Translation Technology in Russia: 10 tools most popular with large LSPsTranslation Technology in Russia: 10 tools most popular with large LSPs
Translation Technology in Russia: 10 tools most popular with large LSPs
 
Talksum dec2013 rus_generic
Talksum dec2013 rus_genericTalksum dec2013 rus_generic
Talksum dec2013 rus_generic
 
It Pro: Как придать данным учетных систем новую ценность?
It Pro: Как придать данным учетных систем новую ценность?It Pro: Как придать данным учетных систем новую ценность?
It Pro: Как придать данным учетных систем новую ценность?
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
1С:Автоматизированное обновление измененных конфигураций, 5.11.2015
1С:Автоматизированное обновление измененных конфигураций, 5.11.20151С:Автоматизированное обновление измененных конфигураций, 5.11.2015
1С:Автоматизированное обновление измененных конфигураций, 5.11.2015
 
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
2015-12-06 Евгений Тюменцев - Разработка надежных параллельных, распределенны...
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...
Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...
Антон Щербаков, Отказоустойчивость на примере aviasales — почему даже если на...
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
 
Cергей Aверин, Badoo
Cергей Aверин, BadooCергей Aверин, Badoo
Cергей Aверин, Badoo
 
А.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом активаА.Левенчук -- управление жизненным циклом актива
А.Левенчук -- управление жизненным циклом актива
 
Stolyarov
StolyarovStolyarov
Stolyarov
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
IBM ECM :: Сравнение документов "на просвет"
IBM ECM :: Сравнение документов "на просвет"IBM ECM :: Сравнение документов "на просвет"
IBM ECM :: Сравнение документов "на просвет"
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...How to assess the company's readiness to intelligent automation of office pro...
How to assess the company's readiness to intelligent automation of office pro...
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 

More from AINL Conferences

Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
AINL Conferences
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...
AINL Conferences
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
AINL Conferences
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"
AINL Conferences
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
AINL Conferences
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"
AINL Conferences
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"
AINL Conferences
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
AINL Conferences
 
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех... Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
AINL Conferences
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
AINL Conferences
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
AINL Conferences
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"
AINL Conferences
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL Conferences
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL Conferences
 

More from AINL Conferences (20)

Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...
 
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
 
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
 
Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"
 
Николай Бузурнюк "Автономная система распознавания русской речи"
 Николай Бузурнюк "Автономная система распознавания русской речи" Николай Бузурнюк "Автономная система распознавания русской речи"
Николай Бузурнюк "Автономная система распознавания русской речи"
 
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех... Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)
 

Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста

  • 1. 1 Статистические методы в машинном переводе: проблемы роста
  • 2. 2 Технологии перевода PROMT Rule-based перевод Статистический перевод Гибридный перевод
  • 3. 3 Статистические и гибридные системы перевода PROMT • Разработка с 2009 года. • Все языки rule-based системы PROMT, а также финский, китайский, японский, казахский, скандинавские языки.
  • 4. 4 Проблемы статистического и гибридного перевода Проблемы данных: • Источники • Объем • Предобработка Проблемы перевода: • Регистр • Нестабильность перевода при использовании статистических компонентов
  • 5. 5 Статистическая/гибридная система перевода Необходим: • Параллельный корпус (для настройки модели перевода). • Корпус на языке перевода (для настройки языковой модели). Требуемый объем параллельных данных: ~ 1,5-2 млн. словоупотреблений (статистическая система). ~ 500 тыс. словоупотреблений (гибридная система).
  • 6. 6 Источники данных Открытые источники: - Параллельные и одноязычные корпусы в открытом доступе - Интернет-ресурсы Клиентские данные
  • 7. 7 Открытые источники • Корпус Европарламента (20 языков, объем 10-50 млн. словоупотреблений) • Корпус ООН (7 языков, объем 100-200 млн. Словоупотреблений) • Субтитры (30 языков) • Документация (PHP, OpenOffice, …) • Новостные корпусы • ... Подготовленные корпусы достаточно хорошего качества (txt/xml), но очень специфическая тематика. • Интернет-ресурсы Непараллельные, разнородные данные (html); много «мусора».
  • 8. 8 Настройка гибридной/статистической систем перевода Настройка универсальной системы перевода Использование открытых корпусов и Интернет-ресурсов Настройка системы перевода для клиента - Общая большая модель перевода (клиентские + дополнительные данные). - Две модели перевода (приоритетная на клиентских данных). 1. Можно настраивать систему только на клиентских данных 2. При малом объеме клиентского корпуса необходимо использовать дополнительные данные
  • 9. 9 Предобработка данных Клиентские данные тоже бывают «грязные» Модуль предобработки данных PROMT: 1. Обработка данных в текстовом и xml-формате. 2. Валидация параллельных сегментов по соотношению длин. 3. Удаление дублирующихся сегментов. 4. Удаление непереведенных сегментов (модуль определения языка PROMT), сегментов с малым количеством алфавитных символов. 5. Разбиение сегментов на предложения (если в сегменте их несколько). 6. Нормализация знаков препинания, лигатур, html-сущностей. 7. Токенизация. 8. Восстановление сегментов с неправильной кодировкой. 9. Проверка орфографии.
  • 10. 10 Предобработка данных Некоторые проблемы невозможно решить с помощью самых сложных алгоритмов прочистки. Фрагмент параллельных англо-русских данных клиента (руководство пользователя): The name “Dinesh Kumar Garg” will be written as: Полное имя «Иван Петрович Иванов» будет записано следующим образом:
  • 11. 11 Проблемы перевода с использованием статистических компонентов Проблема восстановления регистра Проблемы, связанные с нестабильностью/ непредсказуемостью машинного перевода
  • 12. 12 Восстановление регистра при переводе Существует стандартная модель восстановления регистра – фактически упрощенная статистическая модель перевода из нижнего регистра в комбинированный. Модель восстановления регистра Статистический Декодер Языковая модель (регистрозависимая) Фразовая таблица (регистрозависимая)
  • 13. 13 Восстановление регистра при переводе Гибридная система восстановления регистра PROMT: 1. Использование информации о регистре исходного текста (регистр первой буквы; все предложение в верхнем/нижнем регистре; сохранение регистра незнакомых слов). 2. Использование информации rule-based компонента (для гибридной системы перевода). 3. Статистическая модель восстановления регистра (большая универсальная модель + приоритетная модель на основе клиентских данных).
  • 14. 14 Нестабильность статистического компонента Google: Путин едет на желтой Калине Putin goes to a yellow Mazda
  • 15. 15 Нестабильность статистического компонента Исчезновение/появление лишних символов и пунктуационных знаков: Решение: 1. Использование информации об исходном тексте. 2. Обработка невозможных сочетаний знаков. 1. Create a partition using the free space. Создайте раздел, используя свободное пространство). 2. Perform operations (e.g., ROP1, ROP2, and ROP3) on the data using a pattern. Проведите операции (например, ROP1, ROP2 и ROP3,) на данных с помощью образца.
  • 16. 16 Нестабильность статистического компонента Проблемы со специальными конструкциями и именованными сущностями (имена, даты, адреса, номера телефонов и т.п.). 1. Конгрессмен Джесси Л. Джексон-младший (демократ, Иллинойс) предложил множество поправок к закону. Congressman Jesse Jr. L. Jackson (the democrat, Illinois) proposed a number of amendments to the law. 2. If you want a refund, you must mail your written request to us at P.O. Box 45950, Omaha, NE 68145- 0950. Если Вы хотите компенсацию, Вам необходимо отправить свой письменный запрос по почте нам в почтовом ящике 45950, - Омаха, 68145-0950 штат Небраска.
  • 17. 17 Обработка специальных конструкций и именованных сущностей Правильный перевод специальных конструкций и именованных сущностей – одно из основных требований клиентов. Решение для гибридной системы перевода • Использование информации rule- based компонента: специальные конструкции помечаются тегами и не обрабатываются статистическим компонентом. Решение для статистических систем • Использование парсеров PROMT (на стадии разработки).
  • 18. 18 Обработка специальных конструкций и именованных сущностей Перевод специальных конструкций: 1. Конгрессмен Джесси Л. Джексон-младший (демократ, Иллинойс) предложил множество поправок к закону. • Конгрессмен <NAME>Джесси Л. Джексон-младший</NAME> (демократ, Иллинойс) предложил множество поправок к закону. • Congressman Jesse L. Jackson Jr.(the democrat, Illinois) proposed a number of amendments to the law. 2. If you want a refund, you must mail your written request to us at P.O. Box 45950, Omaha, NE 68145-0950. • If you want a refund, you must mail your written request to us at P.O. Box <ADDRESS>45950, Omaha, NE 68145-0950</ADDRESS>. • Если Вы хотите компенсацию, Вам необходимо отправить свой письменный запрос по почте нам в почтовом ящике 45950, Омаха, штат Небраска 68145-0950.
  • 19. 19 Обработка специальных конструкций и именованных сущностей Обработка данных парсерами PROMT и замена специальных конструкций тегами на стадии обучения (исследования) Существенное уменьшение объема словаря корпуса. Улучшение качества выравнивания параллельных данных при обучении статистической/гибридной системы.
  • 20. 20 Спасибо за внимание! Александр Молчанов Руководитель группы статистических исследований Компания ПРОМТ Alexander.Molchanov@promt.ru