Introduction To Machine Translation

1,356 views
1,268 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,356
On SlideShare
0
From Embeds
0
Number of Embeds
10
Actions
Shares
0
Downloads
40
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introduction To Machine Translation

  1. 1. Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  2. 2. Темы Для чего нужен машинный перевод (МП) История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  3. 3. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  4. 4. Для чего нужен машинный перевод #1 Перевод: объявлений при поиске квартиры; рецептов блюд; сайтов Изучение языков Поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя [9]) Перевод научных публикаций Публикация статей (!) [5] СПбГУ, ПМ-ПУ, ТП, 2009
  5. 5. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  6. 6. История МП #1 Одновременное независимое патентование МП (1933): Пётр Смирнов-Троянский (более серьёзное исследование) [3] и Джордж Артсруни (Georges Artsrouni) (отец МП) [4] СПбГУ, ПМ-ПУ, ТП, 2009
  7. 7. История МП #2 Вторая мировая война: Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов, code breaking, в Британии) Алан Тьюринг: нечисловые программы, такие как машинный перевод 1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code- breaking себя не зарекомендовала) СПбГУ, ПМ-ПУ, ТП, 2009
  8. 8. История МП #3: direct МП Вивер своими (неверными) идеями стимулировал дальнейшие исследования в машинном переводе 1952: первая конференция по МП (MIT, Институт Технологии Массачусетса, США) 1954: демонстрация первой системы МП для пары русский<->английский, слово-в-слово В 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР СПбГУ, ПМ-ПУ, ТП, 2009
  9. 9. История МП: диаграмма Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1] СПбГУ, ПМ-ПУ, ТП, 2009
  10. 10. История МП #4: indirect МП Концепция interlingua (transfer architecture=анализ,трансфер,синтез) ‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП 1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы (в основном U.S.) Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN) СПбГУ, ПМ-ПУ, ТП, 2009
  11. 11. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  12. 12. Что происходит сейчас #1 But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST [10], 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля. СПбГУ, ПМ-ПУ, ТП, 2009
  13. 13. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие. СПбГУ, ПМ-ПУ, ТП, 2009
  14. 14. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль. СПбГУ, ПМ-ПУ, ТП, 2009
  15. 15. MP и NLP пакеты Moses: статистический МП, C++, Open source SRILM [12]: моделирование естественного языка, C++, Open source СПбГУ, ПМ-ПУ, ТП, 2009
  16. 16. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  17. 17. Статистический и традиционный подходы Altavista's BabelFish, 2000 ~ 1,000,000 / day Softissimo’s Reverso, 2001 ~ several millions Altavista & Google, 2003 ~ 10,000,000 / day СПбГУ, ПМ-ПУ, ТП, 2009
  18. 18. Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT) СПбГУ, ПМ-ПУ, ТП, 2009
  19. 19. Классика Interlingua Анализ Transfer Порождение $_source Direct $_target СПбГУ, ПМ-ПУ, ТП, 2009
  20. 20. Классика: детали СПбГУ, ПМ-ПУ, ТП, 2009
  21. 21. Direct MT system СПбГУ, ПМ-ПУ, ТП, 2009
  22. 22. Характеристики: Нет сложных лингвистических теорий Нет стратегии парсинга Использование синтаксической, семантической и лексической похожести между двумя языками Базируется на одной языковой паре «Надёжны»: могут переводить даже неполные предложения Словари – наиболее важный компонент СПбГУ, ПМ-ПУ, ТП, 2009
  23. 23. Transfer Анализ: морфология и синтаксис Выделение важных для перевода частей абстракции Source abstraction -> target abstraction Target abstraction -> синтез СПбГУ, ПМ-ПУ, ТП, 2009
  24. 24. Transfer types Синтаксический трансфер: передача синтаксических структур между языками (одной семьи) Глубокий (семантический) трансфер: семантическое представление, зависимое от языка СПбГУ, ПМ-ПУ, ТП, 2009
  25. 25. Характеристики: Содержат завершённые лингвистические концепции Компоненты анализа и порождения могут быть использованы для других языковых пар, если компоненты изолированы Словари также представляют отдельные компоненты СПбГУ, ПМ-ПУ, ТП, 2009
  26. 26. Interlingua: пример СПбГУ, ПМ-ПУ, ТП, 2009
  27. 27. Характеристики: Абстрактное представление, не зависимое от языка O(N) – построение системы для N языков vs O(N2) в transfer methods Может быть сложен для построения при широком охвате тем => узкая тема, много языков СПбГУ, ПМ-ПУ, ТП, 2009
  28. 28. Interlingua vs Transfer СПбГУ, ПМ-ПУ, ТП, 2009
  29. 29. Статистические подходы СПбГУ, ПМ-ПУ, ТП, 2009
  30. 30. Статистический подход 3 компонента: Языковая модель p(e) Модель перевода p(f|e) Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  31. 31. EBMT Необходимость в двуязычном выровненном корпусе Вероятности в переводы Установить переводные эквиваленты Перераспределить чтобы получить перевод СПбГУ, ПМ-ПУ, ТП, 2009
  32. 32. EBMT Английский Японский : How much is that red umbrella? Ano akai kasa wa ikura desu ka. How much is that small camera? Ano chiisai kamera wa ikura desu ka. СПбГУ, ПМ-ПУ, ТП, 2009
  33. 33. EBMT#1 Соответствие предложений: The man swims ⇔ L’homme nage. The woman laughs ⇔ La femme rit Соответствие частей предложений the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ... СПбГУ, ПМ-ПУ, ТП, 2009
  34. 34. SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f СПбГУ, ПМ-ПУ, ТП, 2009
  35. 35. Байес 1 e arg max p e f e e arg max p e p f e e СПбГУ, ПМ-ПУ, ТП, 2009
  36. 36. Вероятности: расшифровка p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу СПбГУ, ПМ-ПУ, ТП, 2009
  37. 37. Диаграмма для тех, кто не любит формулы СПбГУ, ПМ-ПУ, ТП, 2009
  38. 38. Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью триграм (об этом позднее, не засыпайте) Может быть вычислена с помощью статистической грамматики, напр. PCFG СПбГУ, ПМ-ПУ, ТП, 2009
  39. 39. Триграммная языковая модель СПбГУ, ПМ-ПУ, ТП, 2009
  40. 40. Вычисление языковой модели Однограммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  41. 41. Вычисление языковой модели Двуграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  42. 42. Вычисление языковой модели Триграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  43. 43. Visualization He argues, she loves СПбГУ, ПМ-ПУ, ТП, 2009
  44. 44. Вычисление языковой модели Можно увеличивать порядок «n- граммности» бесконечно долго Чем больше n, тем ниже вероятность того, что мы когда уже встречали такую последовательность СПбГУ, ПМ-ПУ, ТП, 2009
  45. 45. Backing off Что если последовательность не встречалась в модели? Вероятность 0 Так как мы умножаем по теореме Байеса, то итоговая вероятность предложения 0 Что делать? См. след. слайд СПбГУ, ПМ-ПУ, ТП, 2009
  46. 46. Backing off .8*p(w3|w1w2) + .15*p(w3|w2) + .049*p(w3)+0.001 СПбГУ, ПМ-ПУ, ТП, 2009
  47. 47. Модель перевода p(f|e) – вероятность некоторой строки (предложения) из f, при гипотезе перевода из e Формула: Так как все предложения из e новые, то это сосчитать нельзя СПбГУ, ПМ-ПУ, ТП, 2009
  48. 48. Модель перевода Разделить предложение на меньшие части, как при моделировании языка Ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений СПбГУ, ПМ-ПУ, ТП, 2009
  49. 49. Модель перевода f = Ces gens ont grandi, vécu et oeuvré des dizaines d’années dans le domaine agricole. Those people have grown up, lived and worked many years in a farming district СПбГУ, ПМ-ПУ, ТП, 2009
  50. 50. Выравнивание слов СПбГУ, ПМ-ПУ, ТП, 2009
  51. 51. Характеристики SMT Основа – параллельный корпус Вероятности назначаются подсчётом смежных пар переводов Оценки вероятностей тем точнее, чем больше корпус (и чем он качественней) СПбГУ, ПМ-ПУ, ТП, 2009
  52. 52. Характеристики SMT Зависит от языка Применяем к любой паре языков, для которых есть || параллельный корпус Нужна ! лингвистическая информация: как делить текст на предложения и на слова Не нужны лингвисты для получения правил: всё это получается из данных СПбГУ, ПМ-ПУ, ТП, 2009
  53. 53. Характеристики SMT Дёшево и быстро Компьютеры делают всю тяжёлую работу Система перевода может быть построена примерно за 2 недели СПбГУ, ПМ-ПУ, ТП, 2009
  54. 54. Материалы для построения SMT || корпус ПО для выравнивания слов Инструментарий для моделирования языка Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  55. 55. || корпус http://www.ldc.upenn.edu/ UMC корпус: чешский, русский, английский (попарно) Европейский парламент crawling СПбГУ, ПМ-ПУ, ТП, 2009
  56. 56. ПО для выравнивания слов GIZA++ http://www.fjoch.com/GIZA++.html Удобные скрипты в составе пакета Moses СПбГУ, ПМ-ПУ, ТП, 2009
  57. 57. Инструментарий моделирования языка SRILM Разработан для распознавания речи Применяется также в SMT Вычисляет вероятности n-грамм Сложные метода для back off http://www.speech.sri.com/projects/srilm/ СПбГУ, ПМ-ПУ, ТП, 2009
  58. 58. Декодер Pharaoh SMT декодер на основе фразовых моделей Строит фразовые таблицы по выравниваниям GIZA++ Перевод по фразовой таблице и SRILM- модели языка http://www.isi.edu/licensed-sw/pharaoh/ СПбГУ, ПМ-ПУ, ТП, 2009
  59. 59. Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5 [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [7] http://translate.google.com [8] http://www.translate.ru/text_Translation.aspx [9] http://www.google.ru/language_tools [10] http://www.nist.gov/speech/tests/mt/(cont’d) 2005/doc/mt05eval_official_results_release_(cont’d) 20050801_v3.html [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf [12] http://www.speech.sri.com/ СПбГУ, ПМ-ПУ, ТП, 2009
  60. 60. Библиография [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1 [14] Andy Way: Web-based Machine Translation, School of Computing [15] http://en.wikipedia.org/wiki/ [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005 [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran [18] http://www.chrisharrison.net/projects/trigramviz/index.html СПбГУ, ПМ-ПУ, ТП, 2009

×