SlideShare a Scribd company logo
Машинный перевод по правилам
и без, или Зачем нужна гибридная
технология перевода
Типы систем машинного перевода

    ‣ Системы, основанные на правилах (rule-
      based)
    ‣ Статистические системы (системы,
      основанные на параллельных двуязычных
      корпусах)




    Машинный перевод по правилам и без
2
Rule-based системы
                    правила
                    анализа



                    правила                                               лингвистические
                                               модуль перевода
                 преобразования                                            базы данных



                    правила
                    синтеза




                                      синтаксический,
                    морфологический
                                       семантический     преобразование     синтез
                        анализ
                                          анализ



      исходной
                                                                                            перевод
        текст




    Машинный перевод по правилам и без
3
Компоненты rule-based систем
    Лингвистические базы данных

    ‣   двуязычные словари
    ‣   морфологические таблицы
    ‣   списки префиксов
    ‣   базы имен



    Машинный перевод по правилам и без
4
Особенности rule-based систем
    Преимущества
    ‣ синтаксическая и морфологическая точность
    ‣ стабильность и предсказуемость результата
    ‣ возможность настройки на предметную область

    Недостатки
    ‣ трудоемкость и длительность разработки
    ‣ необходимость поддерживать и актуализировать
      лингвистические базы данных
    ‣ «машинный акцент» при переводе

    Машинный перевод по правилам и без
5
Rule-based перевод
    Since the Desert One
    debacle, the United
    States has poured vast
    resources into its
    special forces.

    Начиная с разгрома
    Пустыни Один,
    Соединенные Штаты
    вылили обширные
    ресурсы в свой
    спецназ.

    Машинный перевод по правилам и без
6
Статистические системы
                                                                          Одноязычный
                   Параллельный
                                                                             корпус
                      корпус
                                                                         (язык перевода)



               выравнивание,                                                    построение
                извлечение                                                       языковой
                   фраз                                                           модели

                                  фразовая                    языковая
                                  таблица                      модель




               исходный                      статистический
                                                декодер                            перевод
                 текст




    Исходный текст – это «зашифрованный» перевод,
    который нужно декодировать

    Машинный перевод по правилам и без
7
Компоненты статистических систем
    Фразовая таблица – таблица соответствий фраз исходного корпуса и
    корпуса переводов с некоторыми статистическими коэффициентами.


    фрагмент фразовой таблицы

    исходная             перевод                          статистические
    фраза                                                 коэффициенты

    can download it at   можете загрузить его по адресу   1 0.032 0.5 0.01
    company              компания                         0.39 0.19 0.12 0.11
    company              компания-эмитент                 0.85 0.42 0.01 0.05
    company              кредитной                        0.01 0.01 0.01 0.01
    company              название компании                0.11 0.13 0.01 0.01
    company              организации , выпустившей его    1 0.05 0.01 0.37
    compare all of       сравнение всех                   1 0.04 0.5 0.03
    compare all of       сравните все                     0.33 0.01 0.5 0.07




    Машинный перевод по правилам и без
8
Компоненты статистических систем
    Языковая модель – набор n-грамм (последовательностей
    словоформ длины n) из корпуса текстов.

    фрагмент языковой модели

    статистический              n-грамма
    коэффициент

    -4.697978                   в ознаменование
    -4.697978                   в оказание
    -0.766904                   <s> метод отправки
    -0.508603                   новые календари </s>
    -0.528649                   в календарь </s>
    -0.988104                   кворума старейшин президентом миссии
    -1.048399                   а также президентом мексиканской



    Машинный перевод по правилам и без
9
Особенности статистических
     систем
     Преимущества
     ‣ Быстрая настройка
     ‣ Легко добавлять новые направления перевода
     ‣ Гладкость перевода

     Недостатки
     ‣ «Дефицит» параллельных корпусов
     ‣ Многочисленные грамматические ошибки
     ‣ Нестабильность перевода


     Машинный перевод по правилам и без
10
Статистический
     перевод
     Medvedev is to blame
     Медведев виноват

     Obama is to blame
     Обама не виноват




     Машинный перевод по правилам и без
11
Гибридные технологии перевода

     Задача
     Совместить достоинства двух основных
     подходов и нивелировать их недостатки.




     Зачем нужна гибридная технология перевода
12
Подходы к созданию гибридных
     систем
     ‣ Интеграция лингвистических правил в
       статистические системы
     ‣ Интеграция статистических методов в rule-
       based системы




     Зачем нужна гибридная технология перевода
13
Интеграция лингвистических
     правил в статистические системы
     ‣ Синтаксическая и морфологическая разметка
       корпусов для обучения
     ‣ Применение правил для идентификации и
       перевода именованных сущностей
     ‣ Разбиение сложных слов
     ‣ Применение правил для идентификации и
       перевода отдельных синтаксических конструкций

     Решение частных задач не исправляет
     фундаментальные недостатки статистического
     перевода
     Зачем нужна гибридная технология перевода
14
Интеграция статистических
     методов в rule-based системы
     Проблема
     Rule-based системы имеют недостатки
     алгоритмов анализа и синтеза, которые
     постоянно воспроизводятся при переводе.
     Решение
     Научить систему автоматически
     корректировать эти недостатки.

           Система статистического постредактирования


     Зачем нужна гибридная технология перевода
15
Гибридная технология перевода
     PROMT
     ‣ Этап обучения системы с помощью
       статистических методов

     ‣ Использование полученных на этапе
       обучения данных в процессе перевода




     Зачем нужна гибридная технология перевода
16
Обучение системы
                     Параллельный
                        корпус



         Корпус
        входного
         языка
                                                                                          Одноязычный
                                                                                             корпус
                       rule-based                  корпус                                (язык перевода)
                        перевод                     языка
                    входного корпуса              перевода




                                       фразовая
                                       таблица




                                                              данные
                                                                              языковая
                                                        для статистического
                   rule-based                                                  модель
                                                        постредактирования
                    система




     Зачем нужна гибридная технология перевода
17
Процесс перевода
                                           модуль                               модуль
                                       статистического                         языковых
                                     постредактирования                        моделей




                                                              применение
                                                          постредактирования


                                                                                     оценка,
                                                                                      выбор
                                                                                 лучшего варианта
                      rule-based   rule-based
                       система      перевод                варианты
                                                           перевода




           исходный                                                                 перевод
             текст




     Зачем нужна гибридная технология перевода
18
Гибридный перевод
     ‣ Четкая синтаксическая структура перевода
     ‣ Стабильность
     ‣ Гладкость




     Зачем нужна гибридная технология перевода
19
Гибридный перевод
     Исходный текст
     Before proceeding further, every effort was made by senior staff to
     ensure that a friendly atmosphere prevailed.

     Rule-based перевод
     Прежде, чем продолжиться далее, каждое усилие было
     приложено руководящим персоналом, чтобы гарантировать, что
     преобладала дружественная атмосфера.

     Гибридный перевод
     Прежде чем продолжить, руководящий персонал предпринял
     все усилия, чтобы преобладала дружественная атмосфера.




     Зачем нужна гибридная технология перевода
20
Гибридный перевод
     Исходный текст
     In the dialog box that opens, specify the necessary export settings.

     Rule-based перевод
     В диалоговом окне, которое открывается, определите
     необходимые настройки экспорта.

     Гибридный перевод
     В открывшемся диалоговом окне укажите требуемые параметры
     экспорта.




     Зачем нужна гибридная технология перевода
21
Оценка машинного перевода
     Большинство существующих метрик
     автоматической оценки МП основаны
     на сравнении с человеческим эталоном.

     Необходима метрика оценки МП в отсутствие
       эталона.
     ‣ автоматический перевод контента сетевых
       ресурсов
     ‣ оценка изменений в технологии перевода

     Оценка машинного перевода
22
Метрики оценки машинного
     перевода
     BLEU Score
     Meteor
     TER (Translation Error Rate)

     Совпадение n-грамм в машинном переводе и эталоне

      машинный перевод                      эталон

      Нажмите «Да» в окне                   Нажмите «Да» в
      сообщения, которое                    открывшемся окне
      появляется.                           сообщения.
                    совпавшие n-граммы
                    1      Нажмите ; «Да» ; в ; окне
                    2      Нажмите «Да» ; «Да» в
                    3      Нажмите "Да" в
     Оценка машинного перевода
23
Оценка машинного перевода без
     человеческого эталона
     Статистическая языковая модель (Perplexity)

     Perplexity – величина, обратно пропорциональная вероятности.


     Исходный текст
     Click Yes in the message window that appears.

     Машинный перевод 1
     Нажмите «Да» в окне сообщения, которое появляется.
     (Perplexity = 842)

     Машинный перевод 2
     Нажмите «Да» в открывшемся окне сообщения.
     (Perplexity = 438)



     Оценка машинного перевода
24
Оценка машинного перевода без
     человеческого эталона
     Perplexity не учитывает особенности входного текста и
     грамматическую структуру перевода.


     Исходный текст
     Click Yes in the message window that appears.

     Машинный перевод 1
     Нажмите «Да» в открывшемся окне сообщения.
     (Perplexity = 438)

     Машинный перевод 2
     Нажмите «Да»
     (Perplexity = 145)




     Оценка машинного перевода
25
Оценка машинного перевода без
     человеческого эталона
     Необходимо разработать комплексную
     метрику оценки на основе характеристик
     входного и выходного текста:

     ‣   длина текста (количество слов)
     ‣   вероятности перевода слов и фраз
     ‣   совпадение чисел, дат и т.п.
     ‣   оценка с помощью языковой модели
     ‣   морфологические, синтаксические признаки

     Оценка машинного перевода
26
Спасибо!
    Александр Молчанов
      Компания ПРОМТ
Alexander.Molchanov@promt.ru

More Related Content

Viewers also liked

интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальностиKristinaIIE105
 
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
Сергей Балан
 
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision
 
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао67921340AB
 
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
fiadotau
 
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
ABBYY Language Serivces
 
FU-Lab
FU-LabFU-Lab
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Badoo Development
 
системы автоматизированного перевода
системы автоматизированного переводасистемы автоматизированного перевода
системы автоматизированного переводаMariaSuina
 
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
mpk-club
 
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
RealSpeaker 2.0
 
визуализация информации
визуализация  информациивизуализация  информации
визуализация информации
Ikarochka
 
Научные журналы: требования международных систем
Научные журналы: требования международных системНаучные журналы: требования международных систем
Научные журналы: требования международных систем
Julia Glavcheva
 
системы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхсистемы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованиях
mariastyless
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 

Viewers also liked (20)

интернет для моей специальности
интернет для моей специальностиинтернет для моей специальности
интернет для моей специальности
 
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
 
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД DocsvisionDocsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
Docsvision Потоковый ввод - модуль потокового ввода документов в СЭД Docsvision
 
4.5 (1)
4.5 (1)4.5 (1)
4.5 (1)
 
Abbyy ls technologies_ru
Abbyy ls technologies_ruAbbyy ls technologies_ru
Abbyy ls technologies_ru
 
MachineTranslation
MachineTranslationMachineTranslation
MachineTranslation
 
Guide russian
Guide russianGuide russian
Guide russian
 
_представление работы_улановао
  _представление работы_улановао  _представление работы_улановао
_представление работы_улановао
 
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
Лекция 5. Инструментарий технического переводчика. Электронные словари, поис...
 
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
«Облачная» автоматизация переводов: что нового для переводчика-профессионала?
 
FU-Lab
FU-LabFU-Lab
FU-Lab
 
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
Доклад Юрия Насретдинова на РИТ++ 2013. "Система перевода в Badoo".
 
системы автоматизированного перевода
системы автоматизированного переводасистемы автоматизированного перевода
системы автоматизированного перевода
 
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
MПК3 - SDL - Опыт внедрения решений SDL Trados в российских переводческих ком...
 
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
Маркетинговое исследование: Рынок систем распознавания речи 2012-2016 гг.
 
визуализация информации
визуализация  информациивизуализация  информации
визуализация информации
 
Научные журналы: требования международных систем
Научные журналы: требования международных системНаучные журналы: требования международных систем
Научные журналы: требования международных систем
 
системы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхсистемы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованиях
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Promt
PromtPromt
Promt
 

Similar to molchanov(promt)

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
QPsoft
 
Stolyarov
StolyarovStolyarov
Stolyarov
Lidia Pivovarova
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
Lidia Pivovarova
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netBerik Badayev
 
Presenatation Summer School Union of Translators Russia
Presenatation Summer School Union of Translators RussiaPresenatation Summer School Union of Translators Russia
Presenatation Summer School Union of Translators Russia
odobronravov
 
Presentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gmPresentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gm
Georgiy Moiseenko
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...
Ilya Nikitin
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчanna_vereshchagina
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
метод организации репозитория исходного кода
метод организации репозитория исходного кодаметод организации репозитория исходного кода
метод организации репозитория исходного кодаSergii Shmarkatiuk
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn Global Company
 

Similar to molchanov(promt) (20)

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Stolyarov
StolyarovStolyarov
Stolyarov
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem net
 
Presenatation Summer School Union of Translators Russia
Presenatation Summer School Union of Translators RussiaPresenatation Summer School Union of Translators Russia
Presenatation Summer School Union of Translators Russia
 
Presentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gmPresentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gm
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
метод организации репозитория исходного кода
метод организации репозитория исходного кодаметод организации репозитория исходного кода
метод организации репозитория исходного кода
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Languages b6cc1c17
Languages b6cc1c17Languages b6cc1c17
Languages b6cc1c17
 
Query expansion
Query expansionQuery expansion
Query expansion
 
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
 
Авиком
АвикомАвиком
Авиком
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
 
Events
EventsEvents
Events
NLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
rubashkin
rubashkinrubashkin
rubashkin
NLPseminar
 
Vlasova
VlasovaVlasova
Vlasova
NLPseminar
 
Ageev
AgeevAgeev
Ageev
NLPseminar
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
NLPseminar
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
NLPseminar
 
потапов
потаповпотапов
потапов
NLPseminar
 
белканова
белкановабелканова
белканова
NLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикин
NLPseminar
 
веселов
веселоввеселов
веселов
NLPseminar
 
Mitsov
MitsovMitsov
Mitsov
NLPseminar
 
Maleev
MaleevMaleev
Maleev
NLPseminar
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
NLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
белканова
белкановабелканова
белканова
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 
Mitsov
MitsovMitsov
Mitsov
 
Maleev
MaleevMaleev
Maleev
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
 

molchanov(promt)

  • 1. Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода
  • 2. Типы систем машинного перевода ‣ Системы, основанные на правилах (rule- based) ‣ Статистические системы (системы, основанные на параллельных двуязычных корпусах) Машинный перевод по правилам и без 2
  • 3. Rule-based системы правила анализа правила лингвистические модуль перевода преобразования базы данных правила синтеза синтаксический, морфологический семантический преобразование синтез анализ анализ исходной перевод текст Машинный перевод по правилам и без 3
  • 4. Компоненты rule-based систем Лингвистические базы данных ‣ двуязычные словари ‣ морфологические таблицы ‣ списки префиксов ‣ базы имен Машинный перевод по правилам и без 4
  • 5. Особенности rule-based систем Преимущества ‣ синтаксическая и морфологическая точность ‣ стабильность и предсказуемость результата ‣ возможность настройки на предметную область Недостатки ‣ трудоемкость и длительность разработки ‣ необходимость поддерживать и актуализировать лингвистические базы данных ‣ «машинный акцент» при переводе Машинный перевод по правилам и без 5
  • 6. Rule-based перевод Since the Desert One debacle, the United States has poured vast resources into its special forces. Начиная с разгрома Пустыни Один, Соединенные Штаты вылили обширные ресурсы в свой спецназ. Машинный перевод по правилам и без 6
  • 7. Статистические системы Одноязычный Параллельный корпус корпус (язык перевода) выравнивание, построение извлечение языковой фраз модели фразовая языковая таблица модель исходный статистический декодер перевод текст Исходный текст – это «зашифрованный» перевод, который нужно декодировать Машинный перевод по правилам и без 7
  • 8. Компоненты статистических систем Фразовая таблица – таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами. фрагмент фразовой таблицы исходная перевод статистические фраза коэффициенты can download it at можете загрузить его по адресу 1 0.032 0.5 0.01 company компания 0.39 0.19 0.12 0.11 company компания-эмитент 0.85 0.42 0.01 0.05 company кредитной 0.01 0.01 0.01 0.01 company название компании 0.11 0.13 0.01 0.01 company организации , выпустившей его 1 0.05 0.01 0.37 compare all of сравнение всех 1 0.04 0.5 0.03 compare all of сравните все 0.33 0.01 0.5 0.07 Машинный перевод по правилам и без 8
  • 9. Компоненты статистических систем Языковая модель – набор n-грамм (последовательностей словоформ длины n) из корпуса текстов. фрагмент языковой модели статистический n-грамма коэффициент -4.697978 в ознаменование -4.697978 в оказание -0.766904 <s> метод отправки -0.508603 новые календари </s> -0.528649 в календарь </s> -0.988104 кворума старейшин президентом миссии -1.048399 а также президентом мексиканской Машинный перевод по правилам и без 9
  • 10. Особенности статистических систем Преимущества ‣ Быстрая настройка ‣ Легко добавлять новые направления перевода ‣ Гладкость перевода Недостатки ‣ «Дефицит» параллельных корпусов ‣ Многочисленные грамматические ошибки ‣ Нестабильность перевода Машинный перевод по правилам и без 10
  • 11. Статистический перевод Medvedev is to blame Медведев виноват Obama is to blame Обама не виноват Машинный перевод по правилам и без 11
  • 12. Гибридные технологии перевода Задача Совместить достоинства двух основных подходов и нивелировать их недостатки. Зачем нужна гибридная технология перевода 12
  • 13. Подходы к созданию гибридных систем ‣ Интеграция лингвистических правил в статистические системы ‣ Интеграция статистических методов в rule- based системы Зачем нужна гибридная технология перевода 13
  • 14. Интеграция лингвистических правил в статистические системы ‣ Синтаксическая и морфологическая разметка корпусов для обучения ‣ Применение правил для идентификации и перевода именованных сущностей ‣ Разбиение сложных слов ‣ Применение правил для идентификации и перевода отдельных синтаксических конструкций Решение частных задач не исправляет фундаментальные недостатки статистического перевода Зачем нужна гибридная технология перевода 14
  • 15. Интеграция статистических методов в rule-based системы Проблема Rule-based системы имеют недостатки алгоритмов анализа и синтеза, которые постоянно воспроизводятся при переводе. Решение Научить систему автоматически корректировать эти недостатки.  Система статистического постредактирования Зачем нужна гибридная технология перевода 15
  • 16. Гибридная технология перевода PROMT ‣ Этап обучения системы с помощью статистических методов ‣ Использование полученных на этапе обучения данных в процессе перевода Зачем нужна гибридная технология перевода 16
  • 17. Обучение системы Параллельный корпус Корпус входного языка Одноязычный корпус rule-based корпус (язык перевода) перевод языка входного корпуса перевода фразовая таблица данные языковая для статистического rule-based модель постредактирования система Зачем нужна гибридная технология перевода 17
  • 18. Процесс перевода модуль модуль статистического языковых постредактирования моделей применение постредактирования оценка, выбор лучшего варианта rule-based rule-based система перевод варианты перевода исходный перевод текст Зачем нужна гибридная технология перевода 18
  • 19. Гибридный перевод ‣ Четкая синтаксическая структура перевода ‣ Стабильность ‣ Гладкость Зачем нужна гибридная технология перевода 19
  • 20. Гибридный перевод Исходный текст Before proceeding further, every effort was made by senior staff to ensure that a friendly atmosphere prevailed. Rule-based перевод Прежде, чем продолжиться далее, каждое усилие было приложено руководящим персоналом, чтобы гарантировать, что преобладала дружественная атмосфера. Гибридный перевод Прежде чем продолжить, руководящий персонал предпринял все усилия, чтобы преобладала дружественная атмосфера. Зачем нужна гибридная технология перевода 20
  • 21. Гибридный перевод Исходный текст In the dialog box that opens, specify the necessary export settings. Rule-based перевод В диалоговом окне, которое открывается, определите необходимые настройки экспорта. Гибридный перевод В открывшемся диалоговом окне укажите требуемые параметры экспорта. Зачем нужна гибридная технология перевода 21
  • 22. Оценка машинного перевода Большинство существующих метрик автоматической оценки МП основаны на сравнении с человеческим эталоном. Необходима метрика оценки МП в отсутствие эталона. ‣ автоматический перевод контента сетевых ресурсов ‣ оценка изменений в технологии перевода Оценка машинного перевода 22
  • 23. Метрики оценки машинного перевода BLEU Score Meteor TER (Translation Error Rate) Совпадение n-грамм в машинном переводе и эталоне машинный перевод эталон Нажмите «Да» в окне Нажмите «Да» в сообщения, которое открывшемся окне появляется. сообщения. совпавшие n-граммы 1 Нажмите ; «Да» ; в ; окне 2 Нажмите «Да» ; «Да» в 3 Нажмите "Да" в Оценка машинного перевода 23
  • 24. Оценка машинного перевода без человеческого эталона Статистическая языковая модель (Perplexity) Perplexity – величина, обратно пропорциональная вероятности. Исходный текст Click Yes in the message window that appears. Машинный перевод 1 Нажмите «Да» в окне сообщения, которое появляется. (Perplexity = 842) Машинный перевод 2 Нажмите «Да» в открывшемся окне сообщения. (Perplexity = 438) Оценка машинного перевода 24
  • 25. Оценка машинного перевода без человеческого эталона Perplexity не учитывает особенности входного текста и грамматическую структуру перевода. Исходный текст Click Yes in the message window that appears. Машинный перевод 1 Нажмите «Да» в открывшемся окне сообщения. (Perplexity = 438) Машинный перевод 2 Нажмите «Да» (Perplexity = 145) Оценка машинного перевода 25
  • 26. Оценка машинного перевода без человеческого эталона Необходимо разработать комплексную метрику оценки на основе характеристик входного и выходного текста: ‣ длина текста (количество слов) ‣ вероятности перевода слов и фраз ‣ совпадение чисел, дат и т.п. ‣ оценка с помощью языковой модели ‣ морфологические, синтаксические признаки Оценка машинного перевода 26
  • 27. Спасибо! Александр Молчанов Компания ПРОМТ Alexander.Molchanov@promt.ru