Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction To Machine Translation

1,463 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Introduction To Machine Translation

  1. 1. Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  2. 2. Темы Для чего нужен машинный перевод (МП) История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  3. 3. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  4. 4. Для чего нужен машинный перевод #1 Перевод: объявлений при поиске квартиры; рецептов блюд; сайтов Изучение языков Поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя [9]) Перевод научных публикаций Публикация статей (!) [5] СПбГУ, ПМ-ПУ, ТП, 2009
  5. 5. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  6. 6. История МП #1 Одновременное независимое патентование МП (1933): Пётр Смирнов-Троянский (более серьёзное исследование) [3] и Джордж Артсруни (Georges Artsrouni) (отец МП) [4] СПбГУ, ПМ-ПУ, ТП, 2009
  7. 7. История МП #2 Вторая мировая война: Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов, code breaking, в Британии) Алан Тьюринг: нечисловые программы, такие как машинный перевод 1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code- breaking себя не зарекомендовала) СПбГУ, ПМ-ПУ, ТП, 2009
  8. 8. История МП #3: direct МП Вивер своими (неверными) идеями стимулировал дальнейшие исследования в машинном переводе 1952: первая конференция по МП (MIT, Институт Технологии Массачусетса, США) 1954: демонстрация первой системы МП для пары русский<->английский, слово-в-слово В 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР СПбГУ, ПМ-ПУ, ТП, 2009
  9. 9. История МП: диаграмма Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1] СПбГУ, ПМ-ПУ, ТП, 2009
  10. 10. История МП #4: indirect МП Концепция interlingua (transfer architecture=анализ,трансфер,синтез) ‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП 1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы (в основном U.S.) Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN) СПбГУ, ПМ-ПУ, ТП, 2009
  11. 11. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  12. 12. Что происходит сейчас #1 But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST [10], 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля. СПбГУ, ПМ-ПУ, ТП, 2009
  13. 13. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие. СПбГУ, ПМ-ПУ, ТП, 2009
  14. 14. Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль. СПбГУ, ПМ-ПУ, ТП, 2009
  15. 15. MP и NLP пакеты Moses: статистический МП, C++, Open source SRILM [12]: моделирование естественного языка, C++, Open source СПбГУ, ПМ-ПУ, ТП, 2009
  16. 16. Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  17. 17. Статистический и традиционный подходы Altavista's BabelFish, 2000 ~ 1,000,000 / day Softissimo’s Reverso, 2001 ~ several millions Altavista & Google, 2003 ~ 10,000,000 / day СПбГУ, ПМ-ПУ, ТП, 2009
  18. 18. Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT) СПбГУ, ПМ-ПУ, ТП, 2009
  19. 19. Классика Interlingua Анализ Transfer Порождение $_source Direct $_target СПбГУ, ПМ-ПУ, ТП, 2009
  20. 20. Классика: детали СПбГУ, ПМ-ПУ, ТП, 2009
  21. 21. Direct MT system СПбГУ, ПМ-ПУ, ТП, 2009
  22. 22. Характеристики: Нет сложных лингвистических теорий Нет стратегии парсинга Использование синтаксической, семантической и лексической похожести между двумя языками Базируется на одной языковой паре «Надёжны»: могут переводить даже неполные предложения Словари – наиболее важный компонент СПбГУ, ПМ-ПУ, ТП, 2009
  23. 23. Transfer Анализ: морфология и синтаксис Выделение важных для перевода частей абстракции Source abstraction -> target abstraction Target abstraction -> синтез СПбГУ, ПМ-ПУ, ТП, 2009
  24. 24. Transfer types Синтаксический трансфер: передача синтаксических структур между языками (одной семьи) Глубокий (семантический) трансфер: семантическое представление, зависимое от языка СПбГУ, ПМ-ПУ, ТП, 2009
  25. 25. Характеристики: Содержат завершённые лингвистические концепции Компоненты анализа и порождения могут быть использованы для других языковых пар, если компоненты изолированы Словари также представляют отдельные компоненты СПбГУ, ПМ-ПУ, ТП, 2009
  26. 26. Interlingua: пример СПбГУ, ПМ-ПУ, ТП, 2009
  27. 27. Характеристики: Абстрактное представление, не зависимое от языка O(N) – построение системы для N языков vs O(N2) в transfer methods Может быть сложен для построения при широком охвате тем => узкая тема, много языков СПбГУ, ПМ-ПУ, ТП, 2009
  28. 28. Interlingua vs Transfer СПбГУ, ПМ-ПУ, ТП, 2009
  29. 29. Статистические подходы СПбГУ, ПМ-ПУ, ТП, 2009
  30. 30. Статистический подход 3 компонента: Языковая модель p(e) Модель перевода p(f|e) Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  31. 31. EBMT Необходимость в двуязычном выровненном корпусе Вероятности в переводы Установить переводные эквиваленты Перераспределить чтобы получить перевод СПбГУ, ПМ-ПУ, ТП, 2009
  32. 32. EBMT Английский Японский : How much is that red umbrella? Ano akai kasa wa ikura desu ka. How much is that small camera? Ano chiisai kamera wa ikura desu ka. СПбГУ, ПМ-ПУ, ТП, 2009
  33. 33. EBMT#1 Соответствие предложений: The man swims ⇔ L’homme nage. The woman laughs ⇔ La femme rit Соответствие частей предложений the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ... СПбГУ, ПМ-ПУ, ТП, 2009
  34. 34. SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f СПбГУ, ПМ-ПУ, ТП, 2009
  35. 35. Байес 1 e arg max p e f e e arg max p e p f e e СПбГУ, ПМ-ПУ, ТП, 2009
  36. 36. Вероятности: расшифровка p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу СПбГУ, ПМ-ПУ, ТП, 2009
  37. 37. Диаграмма для тех, кто не любит формулы СПбГУ, ПМ-ПУ, ТП, 2009
  38. 38. Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью триграм (об этом позднее, не засыпайте) Может быть вычислена с помощью статистической грамматики, напр. PCFG СПбГУ, ПМ-ПУ, ТП, 2009
  39. 39. Триграммная языковая модель СПбГУ, ПМ-ПУ, ТП, 2009
  40. 40. Вычисление языковой модели Однограммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  41. 41. Вычисление языковой модели Двуграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  42. 42. Вычисление языковой модели Триграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  43. 43. Visualization He argues, she loves СПбГУ, ПМ-ПУ, ТП, 2009
  44. 44. Вычисление языковой модели Можно увеличивать порядок «n- граммности» бесконечно долго Чем больше n, тем ниже вероятность того, что мы когда уже встречали такую последовательность СПбГУ, ПМ-ПУ, ТП, 2009
  45. 45. Backing off Что если последовательность не встречалась в модели? Вероятность 0 Так как мы умножаем по теореме Байеса, то итоговая вероятность предложения 0 Что делать? См. след. слайд СПбГУ, ПМ-ПУ, ТП, 2009
  46. 46. Backing off .8*p(w3|w1w2) + .15*p(w3|w2) + .049*p(w3)+0.001 СПбГУ, ПМ-ПУ, ТП, 2009
  47. 47. Модель перевода p(f|e) – вероятность некоторой строки (предложения) из f, при гипотезе перевода из e Формула: Так как все предложения из e новые, то это сосчитать нельзя СПбГУ, ПМ-ПУ, ТП, 2009
  48. 48. Модель перевода Разделить предложение на меньшие части, как при моделировании языка Ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений СПбГУ, ПМ-ПУ, ТП, 2009
  49. 49. Модель перевода f = Ces gens ont grandi, vécu et oeuvré des dizaines d’années dans le domaine agricole. Those people have grown up, lived and worked many years in a farming district СПбГУ, ПМ-ПУ, ТП, 2009
  50. 50. Выравнивание слов СПбГУ, ПМ-ПУ, ТП, 2009
  51. 51. Характеристики SMT Основа – параллельный корпус Вероятности назначаются подсчётом смежных пар переводов Оценки вероятностей тем точнее, чем больше корпус (и чем он качественней) СПбГУ, ПМ-ПУ, ТП, 2009
  52. 52. Характеристики SMT Зависит от языка Применяем к любой паре языков, для которых есть || параллельный корпус Нужна ! лингвистическая информация: как делить текст на предложения и на слова Не нужны лингвисты для получения правил: всё это получается из данных СПбГУ, ПМ-ПУ, ТП, 2009
  53. 53. Характеристики SMT Дёшево и быстро Компьютеры делают всю тяжёлую работу Система перевода может быть построена примерно за 2 недели СПбГУ, ПМ-ПУ, ТП, 2009
  54. 54. Материалы для построения SMT || корпус ПО для выравнивания слов Инструментарий для моделирования языка Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  55. 55. || корпус http://www.ldc.upenn.edu/ UMC корпус: чешский, русский, английский (попарно) Европейский парламент crawling СПбГУ, ПМ-ПУ, ТП, 2009
  56. 56. ПО для выравнивания слов GIZA++ http://www.fjoch.com/GIZA++.html Удобные скрипты в составе пакета Moses СПбГУ, ПМ-ПУ, ТП, 2009
  57. 57. Инструментарий моделирования языка SRILM Разработан для распознавания речи Применяется также в SMT Вычисляет вероятности n-грамм Сложные метода для back off http://www.speech.sri.com/projects/srilm/ СПбГУ, ПМ-ПУ, ТП, 2009
  58. 58. Декодер Pharaoh SMT декодер на основе фразовых моделей Строит фразовые таблицы по выравниваниям GIZA++ Перевод по фразовой таблице и SRILM- модели языка http://www.isi.edu/licensed-sw/pharaoh/ СПбГУ, ПМ-ПУ, ТП, 2009
  59. 59. Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5 [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [7] http://translate.google.com [8] http://www.translate.ru/text_Translation.aspx [9] http://www.google.ru/language_tools [10] http://www.nist.gov/speech/tests/mt/(cont’d) 2005/doc/mt05eval_official_results_release_(cont’d) 20050801_v3.html [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf [12] http://www.speech.sri.com/ СПбГУ, ПМ-ПУ, ТП, 2009
  60. 60. Библиография [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1 [14] Andy Way: Web-based Machine Translation, School of Computing [15] http://en.wikipedia.org/wiki/ [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005 [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran [18] http://www.chrisharrison.net/projects/trigramviz/index.html СПбГУ, ПМ-ПУ, ТП, 2009

×