Your SlideShare is downloading. ×
0
Введение в машинный
перевод (продолжение)
  Лектор: Кан Дмитрий Александрович
  III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП



...
Темы

  Оценки человеком
  Автоматические оценки
  Гибридные системы




              СПбГУ, ПМ-ПУ, ТП, 2009
Оценки человеком

  Семантическая инвариантность
  Прагматическая инвариантность
  Лексическая инвариантность
  Структурна...
Автоматические оценки

  BLEU = Bilingual Evaluation Understudy
  METEOR = Metric for Evaluation of
  Translation with Exp...
BLEU

  Требует существования переводов,
  сделанных человеком (Reference)
  Оценивает близость численно (word
  error rat...
BLEU

  Главная идея: ”the closer a machine
  translation is to a professional human
  translation, the better it is”
  Вз...
Характеристики

  Быстрый
  Дешёвый
  Языко-независимый
  Высокая корреляция с оценкой
  человека
  Затраты только при ста...
Страшная формула
  Модифицированная точная оценка




                                                c – длина перевода-
...
Другие метрики

  METEOR адресует слабости BLEU,
  такие, как полнота (компенсируется
  BP), уровень оценки (предложение
 ...
Доступная всем метрика:
рекомендую
   Round-trip метрика: перевод сначала в
   одну, а затем в другую сторону
   Проверить...
Гибридные системы МП

  Архитектура




                СПбГУ, ПМ-ПУ, ТП, 2009
Темы

  Reordering
  Семантическая теория
  Прагматика, анализ контекста
  Машинный перевод на основе
  Семантической Теор...
Reordering

  В SMT: чаще на стороне декодера,
  иногда на стороне шифратора
  Необходимость для пар из разных
  языковых ...
Английский vs Японский

  EN: IBM купила Lotus.
  JP: IBM Lotus купила.

  EN: Репортёры сообщили, что IBM
  купила Lotus....
Методы word reordering

  Алгебраический: по контекстным
  грамматикам (порождение, NLG)
  Статистический: по стат. Моделя...
Алгебраический метод reordering

   Грамматика Бэкуса-Наура
   Как аукнется, так и откликнется;
   Что посеешь, то и пожнё...
Алгебраический метод reordering

   Вывод (синтез) пословицы Кого люблю,
   того казню.
   <пословица>
   <голова>, <хвост...
Статистические подходы

  SRILM для построения языковой
  модели (Language Model, LM)
  Статистическая модель предложения
...
Архитектура системы




            СПбГУ, ПМ-ПУ, ТП, 2009
Детали

  A = [w[0],w[1],…,w[n-1],w[n]], N слов
                                         Матрица из нулей и
              ...
Детали #1




   Существует ребро между соседними уровнями (i,j) if P(i,j) = 1


                          СПбГУ, ПМ-ПУ, Т...
Синтаксический reordering

  PSMT = Phrase-based SMT
  Перевод последовательностей слов
  вместо отдельных слов
  Возможно...
Иерархический reordering:
мереология
   Мереология – теория отношений
   частей:
    Частей к целому
    Части внутри част...
Постулаты Мельчука

  Предложения с сильной связью: слова
  определяют порядок слов, следующих
  за ними (винительный паде...
Следствия

  Необходима иерархическая модель
  предложения
  Необходим алгоритм иерархической
  модификации дерева предлож...
Компьютерная семантика
русского языка
  Глаголы
  Предлоги
  Базисные функции
  Морфологический, синтаксический и
  семант...
Роли предлогов

  Пространственное взаимоположение
  объектов (стул за столом)
  Временное отношение объектов и
  процессо...
Примеры вывода семантического
анализатора
 любит<X007.004>
   (@Вин Сашу<X003.002><+СущСущ3+>
     (@Вин Умного<X001.001><...
Визуальное представление




           СПбГУ, ПМ-ПУ, ТП, 2009
Tree in C++ STL style




             СПбГУ, ПМ-ПУ, ТП, 2009
Правила линеаризации (русский
язык)
  Узлы подлежат обмену только на одном
  уровне в семантическом дереве
  При синтезе у...
Псевдо-код




             СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #1




            СПбГУ, ПМ-ПУ, ТП, 2009
Псевдо-код #3




            СПбГУ, ПМ-ПУ, ТП, 2009
Прагматика

  Мария любит Джорджа.
  Он передал коллеге карту.
  У кошки родилось двое котят – один
  белый и один афроаме...
Анализ контекста

  Сродни анализу слов в предложении
  Гипотеза: корень – время
  Портрет объектов
  На данный момент зав...
Библиография
  [1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation
  [2] K. Papineni, S. Roukos, T...
Upcoming SlideShare
Loading in...5
×

Introduction To Machine Translation 1

649

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
649
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Introduction To Machine Translation 1"

  1. 1. Введение в машинный перевод (продолжение) Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  2. 2. Темы Оценки человеком Автоматические оценки Гибридные системы СПбГУ, ПМ-ПУ, ТП, 2009
  3. 3. Оценки человеком Семантическая инвариантность Прагматическая инвариантность Лексическая инвариантность Структурная инвариантность Пространственная инвариантность Беглость Точность ”Do you get it?” СПбГУ, ПМ-ПУ, ТП, 2009
  4. 4. Автоматические оценки BLEU = Bilingual Evaluation Understudy METEOR = Metric for Evaluation of Translation with Explicit ORdering NIST (metric) Round-trip перевод СПбГУ, ПМ-ПУ, ТП, 2009
  5. 5. BLEU Требует существования переводов, сделанных человеком (Reference) Оценивает близость численно (word error rate) N-грамм-сравнение между переводом- кандидатом и 1 или более переводом из Reference СПбГУ, ПМ-ПУ, ТП, 2009
  6. 6. BLEU Главная идея: ”the closer a machine translation is to a professional human translation, the better it is” Взвешенное среднее числа совпадений N-грамм кандидата с переводом человека Инвариант порядка N-грамм, главное наличие совпадений СПбГУ, ПМ-ПУ, ТП, 2009
  7. 7. Характеристики Быстрый Дешёвый Языко-независимый Высокая корреляция с оценкой человека Затраты только при старте: корпус переводов человеком СПбГУ, ПМ-ПУ, ТП, 2009
  8. 8. Страшная формула Модифицированная точная оценка c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N СПбГУ, ПМ-ПУ, ТП, 2009
  9. 9. Другие метрики METEOR адресует слабости BLEU, такие, как полнота (компенсируется BP), уровень оценки (предложение вместо всей системы), порядок слов NIST метрика базируется на BLEU, но с варьируемыми весами: чем реже N- грамм-совпадение, тем выше его вес СПбГУ, ПМ-ПУ, ТП, 2009
  10. 10. Доступная всем метрика: рекомендую Round-trip метрика: перевод сначала в одну, а затем в другую сторону Проверить морфологию, синтаксис и семантику Одну и ту же мысль можно выразить разными словами, но разные слова могут исказить мысль СПбГУ, ПМ-ПУ, ТП, 2009
  11. 11. Гибридные системы МП Архитектура СПбГУ, ПМ-ПУ, ТП, 2009
  12. 12. Темы Reordering Семантическая теория Прагматика, анализ контекста Машинный перевод на основе Семантической Теории СПбГУ, ПМ-ПУ, ТП, 2009
  13. 13. Reordering В SMT: чаще на стороне декодера, иногда на стороне шифратора Необходимость для пар из разных языковых групп, таких как английский и японский: Английский: субъект – глагол – объект Японский: субъект – объект – глагол СПбГУ, ПМ-ПУ, ТП, 2009
  14. 14. Английский vs Японский EN: IBM купила Lotus. JP: IBM Lotus купила. EN: Репортёры сообщили, что IBM купила Lotus. JP: Репортёры IBM Lotus купила сообщили. СПбГУ, ПМ-ПУ, ТП, 2009
  15. 15. Методы word reordering Алгебраический: по контекстным грамматикам (порождение, NLG) Статистический: по стат. Моделям Синтаксический Иерархический: мереология; Мельчук + эксперименты СПбГУ, ПМ-ПУ, ТП, 2009
  16. 16. Алгебраический метод reordering Грамматика Бэкуса-Наура Как аукнется, так и откликнется; Что посеешь, то и пожнёшь; Кого люблю, того казню Правила: <пословица> ::= <голова>, <хвост> <голова> ::= <h1> <h2> <хвост> ::= <t1> <t2> СПбГУ, ПМ-ПУ, ТП, 2009
  17. 17. Алгебраический метод reordering Вывод (синтез) пословицы Кого люблю, того казню. <пословица> <голова>, <хвост> <h1> <h2>, <хвост> Кого <h2>, <хвост> Кого люблю, <хвост> Кого люблю, <t1> <t2> Кого люблю, того <t2> Кого люблю, того казню СПбГУ, ПМ-ПУ, ТП, 2009
  18. 18. Статистические подходы SRILM для построения языковой модели (Language Model, LM) Статистическая модель предложения Пермутации Поиск N-грамм-совпадений в двух языковых моделях Оптимизация СПбГУ, ПМ-ПУ, ТП, 2009
  19. 19. Архитектура системы СПбГУ, ПМ-ПУ, ТП, 2009
  20. 20. Детали A = [w[0],w[1],…,w[n-1],w[n]], N слов Матрица из нулей и единиц: If w[i][j] belongs to SLM P[i,j]=1 Else P[i,j]=0 СПбГУ, ПМ-ПУ, ТП, 2009
  21. 21. Детали #1 Существует ребро между соседними уровнями (i,j) if P(i,j) = 1 СПбГУ, ПМ-ПУ, ТП, 2009
  22. 22. Синтаксический reordering PSMT = Phrase-based SMT Перевод последовательностей слов вместо отдельных слов Возможность локальных перестановок слов Тренировка системы на распознавание синтаксических структур СПбГУ, ПМ-ПУ, ТП, 2009
  23. 23. Иерархический reordering: мереология Мереология – теория отношений частей: Частей к целому Части внутри частей к целому Линеаризация – превращение иерархического представления в линейное СПбГУ, ПМ-ПУ, ТП, 2009
  24. 24. Постулаты Мельчука Предложения с сильной связью: слова определяют порядок слов, следующих за ними (винительный падеж) Предложения со словами, присоединяющими другие слова (причастные обороты) Слабые связи: слова не влияют на взаимный порядок СПбГУ, ПМ-ПУ, ТП, 2009
  25. 25. Следствия Необходима иерархическая модель предложения Необходим алгоритм иерархической модификации дерева предложения Необходим алгоритм порождения предложения по его (модифицированной) древесной структуре СПбГУ, ПМ-ПУ, ТП, 2009
  26. 26. Компьютерная семантика русского языка Глаголы Предлоги Базисные функции Морфологический, синтаксический и семантический анализ Вектор-функции Предложение = суперпозиция СПбГУ, ПМ-ПУ, ТП, 2009
  27. 27. Роли предлогов Пространственное взаимоположение объектов (стул за столом) Временное отношение объектов и процессов (думая во время пробежки) Казуальность (выходной из-за переработки) Логическое противопоставление (плавание против бега) СПбГУ, ПМ-ПУ, ТП, 2009
  28. 28. Примеры вывода семантического анализатора любит<X007.004> (@Вин Сашу<X003.002><+СущСущ3+> (@Вин Умного<X001.001><+Какой:ПрилСущ7+>, @Вин красивого<X002.001><+Однородный:ОднорПрил6+>), @Им Маша<X006.003><+СущГлаг3+> (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>, @Им замечательная<X005.001><+Однородный:ОднорПрил6+>) ) . СПбГУ, ПМ-ПУ, ТП, 2009
  29. 29. Визуальное представление СПбГУ, ПМ-ПУ, ТП, 2009
  30. 30. Tree in C++ STL style СПбГУ, ПМ-ПУ, ТП, 2009
  31. 31. Правила линеаризации (русский язык) Узлы подлежат обмену только на одном уровне в семантическом дереве При синтезе уточняющие прилагательные предшествуют существительным Притяжательные местоимения также предшетсвуют существительным Предлоги предшествуют своим поддеревьям в синтезируемом предложении СПбГУ, ПМ-ПУ, ТП, 2009
  32. 32. Псевдо-код СПбГУ, ПМ-ПУ, ТП, 2009
  33. 33. Псевдо-код #1 СПбГУ, ПМ-ПУ, ТП, 2009
  34. 34. Псевдо-код #3 СПбГУ, ПМ-ПУ, ТП, 2009
  35. 35. Прагматика Мария любит Джорджа. Он передал коллеге карту. У кошки родилось двое котят – один белый и один афроамериканец. Сарай горит. СПбГУ, ПМ-ПУ, ТП, 2009
  36. 36. Анализ контекста Сродни анализу слов в предложении Гипотеза: корень – время Портрет объектов На данный момент завершены только два этапа анализа текста: анализ слова и анализ предложения СПбГУ, ПМ-ПУ, ТП, 2009
  37. 37. Библиография [1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation [2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for Automatic Evaluation of Machine Translation. IBM Research Division [3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Language Technologies Institute [4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for Statistical Machine Translation [5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободных подмножеств естественных языков, 2003 [6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006 [7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT [8] C. Gerstenberger : Why mereology for the linearization task in NLG? СПбГУ, ПМ-ПУ, ТП, 2009
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×