Введение в машинный
перевод (продолжение)
  Лектор: Кан Дмитрий Александрович
  III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП




                  СПбГУ, ПМ-ПУ, ТП, 2009
Темы

  Оценки человеком
  Автоматические оценки
  Гибридные системы




              СПбГУ, ПМ-ПУ, ТП, 2009
Оценки человеком

  Семантическая инвариантность
  Прагматическая инвариантность
  Лексическая инвариантность
  Структурная инвариантность
  Пространственная инвариантность
  Беглость
  Точность
  ”Do you get it?”

              СПбГУ, ПМ-ПУ, ТП, 2009
Автоматические оценки

  BLEU = Bilingual Evaluation Understudy
  METEOR = Metric for Evaluation of
  Translation with Explicit ORdering
  NIST (metric)
  Round-trip перевод




               СПбГУ, ПМ-ПУ, ТП, 2009
BLEU

  Требует существования переводов,
  сделанных человеком (Reference)
  Оценивает близость численно (word
  error rate)
  N-грамм-сравнение между переводом-
  кандидатом и 1 или более переводом
  из Reference


              СПбГУ, ПМ-ПУ, ТП, 2009
BLEU

  Главная идея: ”the closer a machine
  translation is to a professional human
  translation, the better it is”
  Взвешенное среднее числа
  совпадений N-грамм кандидата с
  переводом человека
  Инвариант порядка N-грамм, главное
  наличие совпадений

                СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики

  Быстрый
  Дешёвый
  Языко-независимый
  Высокая корреляция с оценкой
  человека
  Затраты только при старте: корпус
  переводов человеком


               СПбГУ, ПМ-ПУ, ТП, 2009
Страшная формула
  Модифицированная точная оценка




                                                c – длина перевода-
                                                кандидата
                                                r – длина Reference
                                                корпуса

                                               База: N=4, wn=1/N




                      СПбГУ, ПМ-ПУ, ТП, 2009
Другие метрики

  METEOR адресует слабости BLEU,
  такие, как полнота (компенсируется
  BP), уровень оценки (предложение
  вместо всей системы), порядок слов
  NIST метрика базируется на BLEU, но
  с варьируемыми весами: чем реже N-
  грамм-совпадение, тем выше его вес


              СПбГУ, ПМ-ПУ, ТП, 2009
Доступная всем метрика:
рекомендую
   Round-trip метрика: перевод сначала в
   одну, а затем в другую сторону
   Проверить морфологию, синтаксис и
   семантику
   Одну и ту же мысль можно выразить
   разными словами, но разные слова
   могут исказить мысль


                СПбГУ, ПМ-ПУ, ТП, 2009
Гибридные системы МП

  Архитектура




                СПбГУ, ПМ-ПУ, ТП, 2009
Темы

  Reordering
  Семантическая теория
  Прагматика, анализ контекста
  Машинный перевод на основе
  Семантической Теории




              СПбГУ, ПМ-ПУ, ТП, 2009
Reordering

  В SMT: чаще на стороне декодера,
  иногда на стороне шифратора
  Необходимость для пар из разных
  языковых групп, таких как английский
  и японский:
  Английский: субъект – глагол – объект
  Японский: субъект – объект – глагол


               СПбГУ, ПМ-ПУ, ТП, 2009
Английский vs Японский

  EN: IBM купила Lotus.
  JP: IBM Lotus купила.

  EN: Репортёры сообщили, что IBM
  купила Lotus.
  JP: Репортёры IBM Lotus купила
  сообщили.


               СПбГУ, ПМ-ПУ, ТП, 2009
Методы word reordering

  Алгебраический: по контекстным
  грамматикам (порождение, NLG)
  Статистический: по стат. Моделям
  Синтаксический
  Иерархический: мереология; Мельчук
  + эксперименты



              СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering

   Грамматика Бэкуса-Наура
   Как аукнется, так и откликнется;
   Что посеешь, то и пожнёшь; Кого
   люблю, того казню
   Правила:
   <пословица> ::= <голова>, <хвост>
   <голова> ::= <h1> <h2>
   <хвост> ::= <t1> <t2>

               СПбГУ, ПМ-ПУ, ТП, 2009
Алгебраический метод reordering

   Вывод (синтез) пословицы Кого люблю,
   того казню.
   <пословица>
   <голова>, <хвост>
   <h1> <h2>, <хвост>
   Кого <h2>, <хвост>
   Кого люблю, <хвост>
   Кого люблю, <t1> <t2>
   Кого люблю, того <t2>
   Кого люблю, того казню

                 СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы

  SRILM для построения языковой
  модели (Language Model, LM)
  Статистическая модель предложения
  Пермутации
  Поиск N-грамм-совпадений в двух
  языковых моделях
  Оптимизация


              СПбГУ, ПМ-ПУ, ТП, 2009
Архитектура системы




            СПбГУ, ПМ-ПУ, ТП, 2009
Детали

  A = [w[0],w[1],…,w[n-1],w[n]], N слов
                                         Матрица из нулей и
                                         единиц:
                                         If w[i][j] belongs to
                                         SLM
                                             P[i,j]=1
                                         Else
                                             P[i,j]=0




                СПбГУ, ПМ-ПУ, ТП, 2009
Детали #1




   Существует ребро между соседними уровнями (i,j) if P(i,j) = 1


                          СПбГУ, ПМ-ПУ, ТП, 2009
Синтаксический reordering

  PSMT = Phrase-based SMT
  Перевод последовательностей слов
  вместо отдельных слов
  Возможность локальных перестановок
  слов
  Тренировка системы на
  распознавание синтаксических
  структур

              СПбГУ, ПМ-ПУ, ТП, 2009
Иерархический reordering:
мереология
   Мереология – теория отношений
   частей:
    Частей к целому
    Части внутри частей к целому
   Линеаризация – превращение
   иерархического представления в
   линейное


                СПбГУ, ПМ-ПУ, ТП, 2009
Постулаты Мельчука

  Предложения с сильной связью: слова
  определяют порядок слов, следующих
  за ними (винительный падеж)
  Предложения со словами,
  присоединяющими другие слова
  (причастные обороты)
  Слабые связи: слова не влияют на
  взаимный порядок

              СПбГУ, ПМ-ПУ, ТП, 2009
Следствия

  Необходима иерархическая модель
  предложения
  Необходим алгоритм иерархической
  модификации дерева предложения
  Необходим алгоритм порождения
  предложения по его
  (модифицированной) древесной
  структуре

              СПбГУ, ПМ-ПУ, ТП, 2009
Компьютерная семантика
русского языка
  Глаголы
  Предлоги
  Базисные функции
  Морфологический, синтаксический и
  семантический анализ
  Вектор-функции
  Предложение = суперпозиция

              СПбГУ, ПМ-ПУ, ТП, 2009
Роли предлогов

  Пространственное взаимоположение
  объектов (стул за столом)
  Временное отношение объектов и
  процессов (думая во время пробежки)
  Казуальность (выходной из-за
  переработки)
  Логическое противопоставление
  (плавание против бега)

              СПбГУ, ПМ-ПУ, ТП, 2009
Примеры вывода семантического
анализатора
 любит<X007.004>
   (@Вин Сашу<X003.002><+СущСущ3+>
     (@Вин Умного<X001.001><+Какой:ПрилСущ7+>,
      @Вин красивого<X002.001><+Однородный:ОднорПрил6+>),
   @Им Маша<X006.003><+СущГлаг3+>
     (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>,
     @Им
    замечательная<X005.001><+Однородный:ОднорПрил6+>)
 )
 .




                      СПбГУ, ПМ-ПУ, ТП, 2009
Визуальное представление




           СПбГУ, ПМ-ПУ, ТП, 2009
Tree in C++ STL style




             СПбГУ, ПМ-ПУ, ТП, 2009
Правила линеаризации (русский
язык)
  Узлы подлежат обмену только на одном
  уровне в семантическом дереве
  При синтезе уточняющие прилагательные
  предшествуют существительным
  Притяжательные местоимения также
  предшетсвуют существительным
  Предлоги предшествуют своим
  поддеревьям в синтезируемом
  предложении

               СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код




             СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #1




            СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #3




            СПбГУ, ПМ-ПУ, ТП, 2009
Прагматика

  Мария любит Джорджа.
  Он передал коллеге карту.
  У кошки родилось двое котят – один
  белый и один афроамериканец.
  Сарай горит.




               СПбГУ, ПМ-ПУ, ТП, 2009
Анализ контекста

  Сродни анализу слов в предложении
  Гипотеза: корень – время
  Портрет объектов
  На данный момент завершены только
  два этапа анализа текста: анализ
  слова и анализ предложения



              СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
  [1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation
  [2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for Automatic
  Evaluation of Machine Translation. IBM Research Division
  [3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation with
  Improved Correlation with Human Judgments, Language Technologies Institute
  [4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison:
  Multi-Engine Machine Translation with an Open-Source Decoder for Statistical
  Machine Translation
  [5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободных
  подмножеств естественных языков, 2003
  [6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on
  Statistical Language Model, 2006
  [7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT
  [8] C. Gerstenberger : Why mereology for the linearization task in NLG?




                              СПбГУ, ПМ-ПУ, ТП, 2009

Introduction To Machine Translation 1

  • 1.
    Введение в машинный перевод(продолжение) Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  • 2.
    Темы Оценкичеловеком Автоматические оценки Гибридные системы СПбГУ, ПМ-ПУ, ТП, 2009
  • 3.
    Оценки человеком Семантическая инвариантность Прагматическая инвариантность Лексическая инвариантность Структурная инвариантность Пространственная инвариантность Беглость Точность ”Do you get it?” СПбГУ, ПМ-ПУ, ТП, 2009
  • 4.
    Автоматические оценки BLEU = Bilingual Evaluation Understudy METEOR = Metric for Evaluation of Translation with Explicit ORdering NIST (metric) Round-trip перевод СПбГУ, ПМ-ПУ, ТП, 2009
  • 5.
    BLEU Требуетсуществования переводов, сделанных человеком (Reference) Оценивает близость численно (word error rate) N-грамм-сравнение между переводом- кандидатом и 1 или более переводом из Reference СПбГУ, ПМ-ПУ, ТП, 2009
  • 6.
    BLEU Главнаяидея: ”the closer a machine translation is to a professional human translation, the better it is” Взвешенное среднее числа совпадений N-грамм кандидата с переводом человека Инвариант порядка N-грамм, главное наличие совпадений СПбГУ, ПМ-ПУ, ТП, 2009
  • 7.
    Характеристики Быстрый Дешёвый Языко-независимый Высокая корреляция с оценкой человека Затраты только при старте: корпус переводов человеком СПбГУ, ПМ-ПУ, ТП, 2009
  • 8.
    Страшная формула Модифицированная точная оценка c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N СПбГУ, ПМ-ПУ, ТП, 2009
  • 9.
    Другие метрики METEOR адресует слабости BLEU, такие, как полнота (компенсируется BP), уровень оценки (предложение вместо всей системы), порядок слов NIST метрика базируется на BLEU, но с варьируемыми весами: чем реже N- грамм-совпадение, тем выше его вес СПбГУ, ПМ-ПУ, ТП, 2009
  • 10.
    Доступная всем метрика: рекомендую Round-trip метрика: перевод сначала в одну, а затем в другую сторону Проверить морфологию, синтаксис и семантику Одну и ту же мысль можно выразить разными словами, но разные слова могут исказить мысль СПбГУ, ПМ-ПУ, ТП, 2009
  • 11.
    Гибридные системы МП Архитектура СПбГУ, ПМ-ПУ, ТП, 2009
  • 12.
    Темы Reordering Семантическая теория Прагматика, анализ контекста Машинный перевод на основе Семантической Теории СПбГУ, ПМ-ПУ, ТП, 2009
  • 13.
    Reordering ВSMT: чаще на стороне декодера, иногда на стороне шифратора Необходимость для пар из разных языковых групп, таких как английский и японский: Английский: субъект – глагол – объект Японский: субъект – объект – глагол СПбГУ, ПМ-ПУ, ТП, 2009
  • 14.
    Английский vs Японский EN: IBM купила Lotus. JP: IBM Lotus купила. EN: Репортёры сообщили, что IBM купила Lotus. JP: Репортёры IBM Lotus купила сообщили. СПбГУ, ПМ-ПУ, ТП, 2009
  • 15.
    Методы word reordering Алгебраический: по контекстным грамматикам (порождение, NLG) Статистический: по стат. Моделям Синтаксический Иерархический: мереология; Мельчук + эксперименты СПбГУ, ПМ-ПУ, ТП, 2009
  • 16.
    Алгебраический метод reordering Грамматика Бэкуса-Наура Как аукнется, так и откликнется; Что посеешь, то и пожнёшь; Кого люблю, того казню Правила: <пословица> ::= <голова>, <хвост> <голова> ::= <h1> <h2> <хвост> ::= <t1> <t2> СПбГУ, ПМ-ПУ, ТП, 2009
  • 17.
    Алгебраический метод reordering Вывод (синтез) пословицы Кого люблю, того казню. <пословица> <голова>, <хвост> <h1> <h2>, <хвост> Кого <h2>, <хвост> Кого люблю, <хвост> Кого люблю, <t1> <t2> Кого люблю, того <t2> Кого люблю, того казню СПбГУ, ПМ-ПУ, ТП, 2009
  • 18.
    Статистические подходы SRILM для построения языковой модели (Language Model, LM) Статистическая модель предложения Пермутации Поиск N-грамм-совпадений в двух языковых моделях Оптимизация СПбГУ, ПМ-ПУ, ТП, 2009
  • 19.
    Архитектура системы СПбГУ, ПМ-ПУ, ТП, 2009
  • 20.
    Детали A= [w[0],w[1],…,w[n-1],w[n]], N слов Матрица из нулей и единиц: If w[i][j] belongs to SLM P[i,j]=1 Else P[i,j]=0 СПбГУ, ПМ-ПУ, ТП, 2009
  • 21.
    Детали #1 Существует ребро между соседними уровнями (i,j) if P(i,j) = 1 СПбГУ, ПМ-ПУ, ТП, 2009
  • 22.
    Синтаксический reordering PSMT = Phrase-based SMT Перевод последовательностей слов вместо отдельных слов Возможность локальных перестановок слов Тренировка системы на распознавание синтаксических структур СПбГУ, ПМ-ПУ, ТП, 2009
  • 23.
    Иерархический reordering: мереология Мереология – теория отношений частей: Частей к целому Части внутри частей к целому Линеаризация – превращение иерархического представления в линейное СПбГУ, ПМ-ПУ, ТП, 2009
  • 24.
    Постулаты Мельчука Предложения с сильной связью: слова определяют порядок слов, следующих за ними (винительный падеж) Предложения со словами, присоединяющими другие слова (причастные обороты) Слабые связи: слова не влияют на взаимный порядок СПбГУ, ПМ-ПУ, ТП, 2009
  • 25.
    Следствия Необходимаиерархическая модель предложения Необходим алгоритм иерархической модификации дерева предложения Необходим алгоритм порождения предложения по его (модифицированной) древесной структуре СПбГУ, ПМ-ПУ, ТП, 2009
  • 26.
    Компьютерная семантика русского языка Глаголы Предлоги Базисные функции Морфологический, синтаксический и семантический анализ Вектор-функции Предложение = суперпозиция СПбГУ, ПМ-ПУ, ТП, 2009
  • 27.
    Роли предлогов Пространственное взаимоположение объектов (стул за столом) Временное отношение объектов и процессов (думая во время пробежки) Казуальность (выходной из-за переработки) Логическое противопоставление (плавание против бега) СПбГУ, ПМ-ПУ, ТП, 2009
  • 28.
    Примеры вывода семантического анализатора любит<X007.004> (@Вин Сашу<X003.002><+СущСущ3+> (@Вин Умного<X001.001><+Какой:ПрилСущ7+>, @Вин красивого<X002.001><+Однородный:ОднорПрил6+>), @Им Маша<X006.003><+СущГлаг3+> (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>, @Им замечательная<X005.001><+Однородный:ОднорПрил6+>) ) . СПбГУ, ПМ-ПУ, ТП, 2009
  • 29.
    Визуальное представление СПбГУ, ПМ-ПУ, ТП, 2009
  • 30.
    Tree in C++STL style СПбГУ, ПМ-ПУ, ТП, 2009
  • 31.
    Правила линеаризации (русский язык) Узлы подлежат обмену только на одном уровне в семантическом дереве При синтезе уточняющие прилагательные предшествуют существительным Притяжательные местоимения также предшетсвуют существительным Предлоги предшествуют своим поддеревьям в синтезируемом предложении СПбГУ, ПМ-ПУ, ТП, 2009
  • 32.
    Псевдо-код СПбГУ, ПМ-ПУ, ТП, 2009
  • 33.
    Псевдо-код #1 СПбГУ, ПМ-ПУ, ТП, 2009
  • 34.
    Псевдо-код #3 СПбГУ, ПМ-ПУ, ТП, 2009
  • 35.
    Прагматика Мариялюбит Джорджа. Он передал коллеге карту. У кошки родилось двое котят – один белый и один афроамериканец. Сарай горит. СПбГУ, ПМ-ПУ, ТП, 2009
  • 36.
    Анализ контекста Сродни анализу слов в предложении Гипотеза: корень – время Портрет объектов На данный момент завершены только два этапа анализа текста: анализ слова и анализ предложения СПбГУ, ПМ-ПУ, ТП, 2009
  • 37.
    Библиография [1]http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation [2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for Automatic Evaluation of Machine Translation. IBM Research Division [3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Language Technologies Institute [4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for Statistical Machine Translation [5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободных подмножеств естественных языков, 2003 [6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006 [7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT [8] C. Gerstenberger : Why mereology for the linearization task in NLG? СПбГУ, ПМ-ПУ, ТП, 2009