Introduction To Machine Translation 1

836 views
732 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
836
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introduction To Machine Translation 1

  1. 1. Введение в машинный перевод (продолжение) Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  2. 2. Темы Оценки человеком Автоматические оценки Гибридные системы СПбГУ, ПМ-ПУ, ТП, 2009
  3. 3. Оценки человеком Семантическая инвариантность Прагматическая инвариантность Лексическая инвариантность Структурная инвариантность Пространственная инвариантность Беглость Точность ”Do you get it?” СПбГУ, ПМ-ПУ, ТП, 2009
  4. 4. Автоматические оценки BLEU = Bilingual Evaluation Understudy METEOR = Metric for Evaluation of Translation with Explicit ORdering NIST (metric) Round-trip перевод СПбГУ, ПМ-ПУ, ТП, 2009
  5. 5. BLEU Требует существования переводов, сделанных человеком (Reference) Оценивает близость численно (word error rate) N-грамм-сравнение между переводом- кандидатом и 1 или более переводом из Reference СПбГУ, ПМ-ПУ, ТП, 2009
  6. 6. BLEU Главная идея: ”the closer a machine translation is to a professional human translation, the better it is” Взвешенное среднее числа совпадений N-грамм кандидата с переводом человека Инвариант порядка N-грамм, главное наличие совпадений СПбГУ, ПМ-ПУ, ТП, 2009
  7. 7. Характеристики Быстрый Дешёвый Языко-независимый Высокая корреляция с оценкой человека Затраты только при старте: корпус переводов человеком СПбГУ, ПМ-ПУ, ТП, 2009
  8. 8. Страшная формула Модифицированная точная оценка c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N СПбГУ, ПМ-ПУ, ТП, 2009
  9. 9. Другие метрики METEOR адресует слабости BLEU, такие, как полнота (компенсируется BP), уровень оценки (предложение вместо всей системы), порядок слов NIST метрика базируется на BLEU, но с варьируемыми весами: чем реже N- грамм-совпадение, тем выше его вес СПбГУ, ПМ-ПУ, ТП, 2009
  10. 10. Доступная всем метрика: рекомендую Round-trip метрика: перевод сначала в одну, а затем в другую сторону Проверить морфологию, синтаксис и семантику Одну и ту же мысль можно выразить разными словами, но разные слова могут исказить мысль СПбГУ, ПМ-ПУ, ТП, 2009
  11. 11. Гибридные системы МП Архитектура СПбГУ, ПМ-ПУ, ТП, 2009
  12. 12. Темы Reordering Семантическая теория Прагматика, анализ контекста Машинный перевод на основе Семантической Теории СПбГУ, ПМ-ПУ, ТП, 2009
  13. 13. Reordering В SMT: чаще на стороне декодера, иногда на стороне шифратора Необходимость для пар из разных языковых групп, таких как английский и японский: Английский: субъект – глагол – объект Японский: субъект – объект – глагол СПбГУ, ПМ-ПУ, ТП, 2009
  14. 14. Английский vs Японский EN: IBM купила Lotus. JP: IBM Lotus купила. EN: Репортёры сообщили, что IBM купила Lotus. JP: Репортёры IBM Lotus купила сообщили. СПбГУ, ПМ-ПУ, ТП, 2009
  15. 15. Методы word reordering Алгебраический: по контекстным грамматикам (порождение, NLG) Статистический: по стат. Моделям Синтаксический Иерархический: мереология; Мельчук + эксперименты СПбГУ, ПМ-ПУ, ТП, 2009
  16. 16. Алгебраический метод reordering Грамматика Бэкуса-Наура Как аукнется, так и откликнется; Что посеешь, то и пожнёшь; Кого люблю, того казню Правила: <пословица> ::= <голова>, <хвост> <голова> ::= <h1> <h2> <хвост> ::= <t1> <t2> СПбГУ, ПМ-ПУ, ТП, 2009
  17. 17. Алгебраический метод reordering Вывод (синтез) пословицы Кого люблю, того казню. <пословица> <голова>, <хвост> <h1> <h2>, <хвост> Кого <h2>, <хвост> Кого люблю, <хвост> Кого люблю, <t1> <t2> Кого люблю, того <t2> Кого люблю, того казню СПбГУ, ПМ-ПУ, ТП, 2009
  18. 18. Статистические подходы SRILM для построения языковой модели (Language Model, LM) Статистическая модель предложения Пермутации Поиск N-грамм-совпадений в двух языковых моделях Оптимизация СПбГУ, ПМ-ПУ, ТП, 2009
  19. 19. Архитектура системы СПбГУ, ПМ-ПУ, ТП, 2009
  20. 20. Детали A = [w[0],w[1],…,w[n-1],w[n]], N слов Матрица из нулей и единиц: If w[i][j] belongs to SLM P[i,j]=1 Else P[i,j]=0 СПбГУ, ПМ-ПУ, ТП, 2009
  21. 21. Детали #1 Существует ребро между соседними уровнями (i,j) if P(i,j) = 1 СПбГУ, ПМ-ПУ, ТП, 2009
  22. 22. Синтаксический reordering PSMT = Phrase-based SMT Перевод последовательностей слов вместо отдельных слов Возможность локальных перестановок слов Тренировка системы на распознавание синтаксических структур СПбГУ, ПМ-ПУ, ТП, 2009
  23. 23. Иерархический reordering: мереология Мереология – теория отношений частей: Частей к целому Части внутри частей к целому Линеаризация – превращение иерархического представления в линейное СПбГУ, ПМ-ПУ, ТП, 2009
  24. 24. Постулаты Мельчука Предложения с сильной связью: слова определяют порядок слов, следующих за ними (винительный падеж) Предложения со словами, присоединяющими другие слова (причастные обороты) Слабые связи: слова не влияют на взаимный порядок СПбГУ, ПМ-ПУ, ТП, 2009
  25. 25. Следствия Необходима иерархическая модель предложения Необходим алгоритм иерархической модификации дерева предложения Необходим алгоритм порождения предложения по его (модифицированной) древесной структуре СПбГУ, ПМ-ПУ, ТП, 2009
  26. 26. Компьютерная семантика русского языка Глаголы Предлоги Базисные функции Морфологический, синтаксический и семантический анализ Вектор-функции Предложение = суперпозиция СПбГУ, ПМ-ПУ, ТП, 2009
  27. 27. Роли предлогов Пространственное взаимоположение объектов (стул за столом) Временное отношение объектов и процессов (думая во время пробежки) Казуальность (выходной из-за переработки) Логическое противопоставление (плавание против бега) СПбГУ, ПМ-ПУ, ТП, 2009
  28. 28. Примеры вывода семантического анализатора любит<X007.004> (@Вин Сашу<X003.002><+СущСущ3+> (@Вин Умного<X001.001><+Какой:ПрилСущ7+>, @Вин красивого<X002.001><+Однородный:ОднорПрил6+>), @Им Маша<X006.003><+СущГлаг3+> (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>, @Им замечательная<X005.001><+Однородный:ОднорПрил6+>) ) . СПбГУ, ПМ-ПУ, ТП, 2009
  29. 29. Визуальное представление СПбГУ, ПМ-ПУ, ТП, 2009
  30. 30. Tree in C++ STL style СПбГУ, ПМ-ПУ, ТП, 2009
  31. 31. Правила линеаризации (русский язык) Узлы подлежат обмену только на одном уровне в семантическом дереве При синтезе уточняющие прилагательные предшествуют существительным Притяжательные местоимения также предшетсвуют существительным Предлоги предшествуют своим поддеревьям в синтезируемом предложении СПбГУ, ПМ-ПУ, ТП, 2009
  32. 32. Псевдо-код СПбГУ, ПМ-ПУ, ТП, 2009
  33. 33. Псевдо-код #1 СПбГУ, ПМ-ПУ, ТП, 2009
  34. 34. Псевдо-код #3 СПбГУ, ПМ-ПУ, ТП, 2009
  35. 35. Прагматика Мария любит Джорджа. Он передал коллеге карту. У кошки родилось двое котят – один белый и один афроамериканец. Сарай горит. СПбГУ, ПМ-ПУ, ТП, 2009
  36. 36. Анализ контекста Сродни анализу слов в предложении Гипотеза: корень – время Портрет объектов На данный момент завершены только два этапа анализа текста: анализ слова и анализ предложения СПбГУ, ПМ-ПУ, ТП, 2009
  37. 37. Библиография [1] http://en.wikipedia.org/wiki/Category:Evaluation_of_machine_translation [2] K. Papineni, S. Roukos, T. Ward, W.-J. Zhu: Bleu: a Method for Automatic Evaluation of Machine Translation. IBM Research Division [3] S. Banerjee, A. Lavie: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Language Technologies Institute [4] Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, S. Theison: Multi-Engine Machine Translation with an Open-Source Decoder for Statistical Machine Translation [5] И. Плашенкова: Гомоморфизм алгебр-моделей контекстно-свободных подмножеств естественных языков, 2003 [6] T. Athanaselis, S. Bakamidis, I. Dologlou: Words Reordering based on Statistical Language Model, 2006 [7] J. Elming: Syntactic Reordering Integrated with Phrase-based SMT [8] C. Gerstenberger : Why mereology for the linearization task in NLG? СПбГУ, ПМ-ПУ, ТП, 2009

×