Введение в машинный
перевод
  Лектор: Кан Дмитрий Александрович
  III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП




                  СПбГУ, ПМ-ПУ, ТП, 2009
Темы

  Для чего нужен машинный перевод
  (МП)
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП


              СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Для чего нужен машинный
перевод #1
  Перевод: объявлений при поиске квартиры;
  рецептов блюд; сайтов
  Изучение языков
  Поиск в Интернете на разных языках
  (внутри поисковых алгоритмов и
  дополнительная функция для пользователя
  [9])
  Перевод научных публикаций
  Публикация статей (!) [5]

                СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
История МП #1

  Одновременное независимое
  патентование МП (1933): Пётр
  Смирнов-Троянский (более серьёзное
  исследование) [3] и Джордж Артсруни
  (Georges Artsrouni) (отец МП) [4]




              СПбГУ, ПМ-ПУ, ТП, 2009
История МП #2
  Вторая мировая война:
    Электронный компьютер (обсчёт
    баллистических выстрелов в США, взлом кодов,
    code breaking, в Британии)
    Алан Тьюринг: нечисловые программы, такие
    как машинный перевод
    1949, Вивер (Weaver): обсуждение МП с 200
    коллегами (однако идея использовать code-
    breaking себя не зарекомендовала)




                  СПбГУ, ПМ-ПУ, ТП, 2009
История МП #3: direct МП
    Вивер своими (неверными) идеями
    стимулировал дальнейшие исследования в
    машинном переводе
    1952: первая конференция по МП (MIT, Институт
    Технологии Массачусетса, США)
    1954: демонстрация первой системы МП для
    пары русский<->английский, слово-в-слово
    В 1960е МП стимулирован Холодной Войной:
    США, Британия, Франция, Япония и СССР




                  СПбГУ, ПМ-ПУ, ТП, 2009
История МП: диаграмма




   Figure 1: Informal graph showing the history of MT; also shown
   are the five ‘Eras of MT History’ identified by Hutchins
   (1993:27ff.) [1]


                        СПбГУ, ПМ-ПУ, ТП, 2009
История МП #4: indirect МП
    Концепция interlingua (transfer
    architecture=анализ,трансфер,синтез)
    ‘real-world knowledge’ (Bar-Hillel 1960) ->
    высококачественный МП
    1966-1976: системы МП второго поколения,
    вовлекающие лингвистику и численные методы
    (в основном U.S.)
    Появились: MÉTÉOTM (1976, Montreal [11]),
    SYSTRAN (конец 1950х, California), EUROTRA
    (1982-1993, замена SYSTRAN)




                  СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #1

  But the ambition is to produce reams of paper
  that could one day power a car.

  Google Translate Beta (Статистический
  подход, США, 1е место на NIST [10], 2005):
  Но амбиция заключается в том, чтобы
  производить пачек бумаги
  , которые могли бы один день мощность
  автомобиля.

                  СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2

  But the ambition is to produce reams of
  paper that could one day power a car.

  PROMT Translator (Традиционный
  подход, Россия, год основания: 1991)
  Но амбиция состоит в том, чтобы
  произвести стопки бумаг, которые
  могли однажды привести автомобиль
  в действие.

                СПбГУ, ПМ-ПУ, ТП, 2009
Что происходит сейчас #2

  But the ambition is to produce reams of
  paper that could one day power a car.

  Systran (Традиционный подход,
  Франция, год основания: 1968)
  Но гонор произвести reams бумаги
  которые смогли дн сила автомобиль.


                СПбГУ, ПМ-ПУ, ТП, 2009
MP и NLP пакеты

  Moses: статистический МП, C++, Open
  source
  SRILM [12]: моделирование
  естественного языка, C++, Open
  source




              СПбГУ, ПМ-ПУ, ТП, 2009
Тема

  Для чего нужен машинный перевод
  История МП
  Что происходит сейчас
  Статистический и традиционный
  подходы
  Методы оценки систем МП



              СПбГУ, ПМ-ПУ, ТП, 2009
Статистический и традиционный
подходы
  Altavista's BabelFish, 2000 ~ 1,000,000 /
  day
  Softissimo’s Reverso, 2001 ~ several
  millions
  Altavista & Google, 2003 ~ 10,000,000 /
  day



                СПбГУ, ПМ-ПУ, ТП, 2009
Методы машинного перевода

                        MT

  Rule-Based MT                    Data-Driven MT

 Transfer Interlingua              EBMT            SMT
                              (Example based MT)




                 СПбГУ, ПМ-ПУ, ТП, 2009
Классика
            Interlingua



 Анализ       Transfer Порождение

 $_source        Direct              $_target




            СПбГУ, ПМ-ПУ, ТП, 2009
Классика: детали




            СПбГУ, ПМ-ПУ, ТП, 2009
Direct MT system




             СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Нет сложных лингвистических теорий
  Нет стратегии парсинга
  Использование синтаксической,
  семантической и лексической похожести
  между двумя языками
  Базируется на одной языковой паре
  «Надёжны»: могут переводить даже
  неполные предложения
  Словари – наиболее важный компонент

                СПбГУ, ПМ-ПУ, ТП, 2009
Transfer

   Анализ: морфология и синтаксис
   Выделение важных для перевода
   частей    абстракции
   Source abstraction -> target abstraction
   Target abstraction -> синтез




                 СПбГУ, ПМ-ПУ, ТП, 2009
Transfer types

   Синтаксический трансфер: передача
   синтаксических структур между
   языками (одной семьи)
   Глубокий (семантический) трансфер:
   семантическое представление,
   зависимое от языка




               СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Содержат завершённые
  лингвистические концепции
  Компоненты анализа и порождения
  могут быть использованы для других
  языковых пар, если компоненты
  изолированы
  Словари также представляют
  отдельные компоненты

              СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua: пример




             СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики:

  Абстрактное представление, не
  зависимое от языка
  O(N) – построение системы для N
  языков vs O(N2) в transfer methods
  Может быть сложен для построения
  при широком охвате тем => узкая
  тема, много языков


               СПбГУ, ПМ-ПУ, ТП, 2009
Interlingua vs Transfer




              СПбГУ, ПМ-ПУ, ТП, 2009
Статистические подходы




           СПбГУ, ПМ-ПУ, ТП, 2009
Статистический подход

  3 компонента:
  Языковая модель p(e)
  Модель перевода p(f|e)
  Декодер




               СПбГУ, ПМ-ПУ, ТП, 2009
EBMT

  Необходимость в двуязычном
  выровненном корпусе
  Вероятности   в переводы
  Установить переводные эквиваленты
  Перераспределить чтобы получить
  перевод



              СПбГУ, ПМ-ПУ, ТП, 2009
EBMT

  Английский     Японский :
  How much is that red umbrella?        Ano
  akai kasa wa ikura desu ka.
  How much is that small camera?        Ano
  chiisai kamera wa ikura desu ka.




               СПбГУ, ПМ-ПУ, ТП, 2009
EBMT#1

   Соответствие предложений:
 The man swims ⇔ L’homme nage.
 The woman laughs ⇔ La femme rit
   Соответствие частей предложений
 the man ⇔ L’homme, swims ⇔ nage, the
   ⇔ l’, man ⇔ homme, the ⇔ la, woman
   ⇔ femme, laughs ⇔ rit ...


               СПбГУ, ПМ-ПУ, ТП, 2009
SMT in a nutshell

   Максимизировать
 p(e|f), e – предложение перевода, f –
   предложение оригинала
 Теорема Байеса:


                  p e p f e
        p e f               1
                     p f


                   СПбГУ, ПМ-ПУ, ТП, 2009
Байес
                                   1
    e arg max p e f
              e




  e arg max p e p f e
          e




                  СПбГУ, ПМ-ПУ, ТП, 2009
Вероятности: расшифровка

  p(e) – Языковая модель, которая:
    Назначает наибольшую вероятность
    беглым, грамматически верным
    предложениям
    Вычисляется по одноязычному корпусу
  p(f|e) – Модель перевода
    Назначает наибольшую вероятность
    парам предложений с одним значением
    Вычисляется по двуязычному корпусу

               СПбГУ, ПМ-ПУ, ТП, 2009
Диаграмма для тех, кто не любит
формулы




              СПбГУ, ПМ-ПУ, ТП, 2009
Языковая модель

  Правильный порядок слов
  Некоторые идеи грамматики
  Вычисляется с помощью триграм (об
  этом позднее, не засыпайте)
  Может быть вычислена с помощью
  статистической грамматики, напр.
  PCFG


              СПбГУ, ПМ-ПУ, ТП, 2009
Триграммная языковая модель




           СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Однограммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Двуграммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Триграммные вероятности




             СПбГУ, ПМ-ПУ, ТП, 2009
Visualization




        He argues, she loves
                     СПбГУ, ПМ-ПУ, ТП, 2009
Вычисление языковой модели

  Можно увеличивать порядок «n-
  граммности» бесконечно долго
  Чем больше n, тем ниже вероятность
  того, что мы когда уже встречали
  такую последовательность




              СПбГУ, ПМ-ПУ, ТП, 2009
Backing off

   Что если последовательность не
   встречалась в модели? Вероятность 0
   Так как мы умножаем по теореме
   Байеса, то итоговая вероятность
   предложения 0
   Что делать? См. след. слайд



               СПбГУ, ПМ-ПУ, ТП, 2009
Backing off

   .8*p(w3|w1w2) + .15*p(w3|w2) +
   .049*p(w3)+0.001




                 СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  p(f|e) – вероятность некоторой строки
  (предложения) из f, при гипотезе перевода
  из e
  Формула:




    Так как все предложения из e новые, то это
    сосчитать нельзя


                        СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  Разделить предложение на меньшие
  части, как при моделировании языка
  Ввести новую переменную a,
  представляющую выравнивания
  между отдельными словами в паре
  предложений




              СПбГУ, ПМ-ПУ, ТП, 2009
Модель перевода

  f = Ces gens ont grandi, vécu et oeuvré
  des dizaines d’années dans le domaine
  agricole.
  Those people have grown up, lived and
  worked many years in a farming district




                СПбГУ, ПМ-ПУ, ТП, 2009
Выравнивание слов




           СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Основа – параллельный корпус
  Вероятности назначаются подсчётом
  смежных пар переводов
  Оценки вероятностей тем точнее, чем
  больше корпус (и чем он
  качественней)



              СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Зависит от языка
  Применяем к любой паре языков, для
  которых есть || параллельный корпус
  Нужна ! лингвистическая информация:
  как делить текст на предложения и на
  слова
  Не нужны лингвисты для получения
  правил: всё это получается из данных

              СПбГУ, ПМ-ПУ, ТП, 2009
Характеристики SMT

  Дёшево и быстро
  Компьютеры делают всю тяжёлую
  работу
  Система перевода может быть
  построена примерно за 2 недели




              СПбГУ, ПМ-ПУ, ТП, 2009
Материалы для построения SMT

  || корпус
  ПО для выравнивания слов
  Инструментарий для моделирования
  языка
  Декодер




             СПбГУ, ПМ-ПУ, ТП, 2009
|| корпус

   http://www.ldc.upenn.edu/
   UMC корпус: чешский, русский,
   английский (попарно)
   Европейский парламент
   crawling




               СПбГУ, ПМ-ПУ, ТП, 2009
ПО для выравнивания слов

  GIZA++
  http://www.fjoch.com/GIZA++.html
  Удобные скрипты в составе пакета
  Moses




              СПбГУ, ПМ-ПУ, ТП, 2009
Инструментарий моделирования
языка
  SRILM
    Разработан для распознавания речи
    Применяется также в SMT
    Вычисляет вероятности n-грамм
    Сложные метода для back off
  http://www.speech.sri.com/projects/srilm/



                СПбГУ, ПМ-ПУ, ТП, 2009
Декодер

  Pharaoh
    SMT декодер на основе фразовых
    моделей
    Строит фразовые таблицы по
    выравниваниям GIZA++
    Перевод по фразовой таблице и SRILM-
    модели языка
  http://www.isi.edu/licensed-sw/pharaoh/

                СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
    [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
    35979-8
    [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ.
    ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5
    [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
    [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
    [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html
    [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
    School of Engineering
    [7] http://translate.google.com
    [8] http://www.translate.ru/text_Translation.aspx
    [9] http://www.google.ru/language_tools
    [10] http://www.nist.gov/speech/tests/mt/(cont’d)
 2005/doc/mt05eval_official_results_release_(cont’d)
 20050801_v3.html
    [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf
    [12] http://www.speech.sri.com/




                                СПбГУ, ПМ-ПУ, ТП, 2009
Библиография
  [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
  [14] Andy Way: Web-based Machine Translation, School of Computing
  [15] http://en.wikipedia.org/wiki/
  [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine
  Translation, ESSLLI 2005
  [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran
  [18] http://www.chrisharrison.net/projects/trigramviz/index.html




                             СПбГУ, ПМ-ПУ, ТП, 2009

Introduction To Machine Translation

  • 1.
    Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
  • 2.
    Темы Длячего нужен машинный перевод (МП) История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 3.
    Тема Длячего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 4.
    Для чего нуженмашинный перевод #1 Перевод: объявлений при поиске квартиры; рецептов блюд; сайтов Изучение языков Поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя [9]) Перевод научных публикаций Публикация статей (!) [5] СПбГУ, ПМ-ПУ, ТП, 2009
  • 5.
    Тема Длячего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 6.
    История МП #1 Одновременное независимое патентование МП (1933): Пётр Смирнов-Троянский (более серьёзное исследование) [3] и Джордж Артсруни (Georges Artsrouni) (отец МП) [4] СПбГУ, ПМ-ПУ, ТП, 2009
  • 7.
    История МП #2 Вторая мировая война: Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов, code breaking, в Британии) Алан Тьюринг: нечисловые программы, такие как машинный перевод 1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code- breaking себя не зарекомендовала) СПбГУ, ПМ-ПУ, ТП, 2009
  • 8.
    История МП #3:direct МП Вивер своими (неверными) идеями стимулировал дальнейшие исследования в машинном переводе 1952: первая конференция по МП (MIT, Институт Технологии Массачусетса, США) 1954: демонстрация первой системы МП для пары русский<->английский, слово-в-слово В 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР СПбГУ, ПМ-ПУ, ТП, 2009
  • 9.
    История МП: диаграмма Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1] СПбГУ, ПМ-ПУ, ТП, 2009
  • 10.
    История МП #4:indirect МП Концепция interlingua (transfer architecture=анализ,трансфер,синтез) ‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП 1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы (в основном U.S.) Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN) СПбГУ, ПМ-ПУ, ТП, 2009
  • 11.
    Тема Длячего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 12.
    Что происходит сейчас#1 But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST [10], 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля. СПбГУ, ПМ-ПУ, ТП, 2009
  • 13.
    Что происходит сейчас#2 But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие. СПбГУ, ПМ-ПУ, ТП, 2009
  • 14.
    Что происходит сейчас#2 But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль. СПбГУ, ПМ-ПУ, ТП, 2009
  • 15.
    MP и NLPпакеты Moses: статистический МП, C++, Open source SRILM [12]: моделирование естественного языка, C++, Open source СПбГУ, ПМ-ПУ, ТП, 2009
  • 16.
    Тема Длячего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
  • 17.
    Статистический и традиционный подходы Altavista's BabelFish, 2000 ~ 1,000,000 / day Softissimo’s Reverso, 2001 ~ several millions Altavista & Google, 2003 ~ 10,000,000 / day СПбГУ, ПМ-ПУ, ТП, 2009
  • 18.
    Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT) СПбГУ, ПМ-ПУ, ТП, 2009
  • 19.
    Классика Interlingua Анализ Transfer Порождение $_source Direct $_target СПбГУ, ПМ-ПУ, ТП, 2009
  • 20.
    Классика: детали СПбГУ, ПМ-ПУ, ТП, 2009
  • 21.
    Direct MT system СПбГУ, ПМ-ПУ, ТП, 2009
  • 22.
    Характеристики: Нетсложных лингвистических теорий Нет стратегии парсинга Использование синтаксической, семантической и лексической похожести между двумя языками Базируется на одной языковой паре «Надёжны»: могут переводить даже неполные предложения Словари – наиболее важный компонент СПбГУ, ПМ-ПУ, ТП, 2009
  • 23.
    Transfer Анализ: морфология и синтаксис Выделение важных для перевода частей абстракции Source abstraction -> target abstraction Target abstraction -> синтез СПбГУ, ПМ-ПУ, ТП, 2009
  • 24.
    Transfer types Синтаксический трансфер: передача синтаксических структур между языками (одной семьи) Глубокий (семантический) трансфер: семантическое представление, зависимое от языка СПбГУ, ПМ-ПУ, ТП, 2009
  • 25.
    Характеристики: Содержатзавершённые лингвистические концепции Компоненты анализа и порождения могут быть использованы для других языковых пар, если компоненты изолированы Словари также представляют отдельные компоненты СПбГУ, ПМ-ПУ, ТП, 2009
  • 26.
    Interlingua: пример СПбГУ, ПМ-ПУ, ТП, 2009
  • 27.
    Характеристики: Абстрактноепредставление, не зависимое от языка O(N) – построение системы для N языков vs O(N2) в transfer methods Может быть сложен для построения при широком охвате тем => узкая тема, много языков СПбГУ, ПМ-ПУ, ТП, 2009
  • 28.
    Interlingua vs Transfer СПбГУ, ПМ-ПУ, ТП, 2009
  • 29.
    Статистические подходы СПбГУ, ПМ-ПУ, ТП, 2009
  • 30.
    Статистический подход 3 компонента: Языковая модель p(e) Модель перевода p(f|e) Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  • 31.
    EBMT Необходимостьв двуязычном выровненном корпусе Вероятности в переводы Установить переводные эквиваленты Перераспределить чтобы получить перевод СПбГУ, ПМ-ПУ, ТП, 2009
  • 32.
    EBMT Английский Японский : How much is that red umbrella? Ano akai kasa wa ikura desu ka. How much is that small camera? Ano chiisai kamera wa ikura desu ka. СПбГУ, ПМ-ПУ, ТП, 2009
  • 33.
    EBMT#1 Соответствие предложений: The man swims ⇔ L’homme nage. The woman laughs ⇔ La femme rit Соответствие частей предложений the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ... СПбГУ, ПМ-ПУ, ТП, 2009
  • 34.
    SMT in anutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f СПбГУ, ПМ-ПУ, ТП, 2009
  • 35.
    Байес 1 e arg max p e f e e arg max p e p f e e СПбГУ, ПМ-ПУ, ТП, 2009
  • 36.
    Вероятности: расшифровка p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу СПбГУ, ПМ-ПУ, ТП, 2009
  • 37.
    Диаграмма для тех,кто не любит формулы СПбГУ, ПМ-ПУ, ТП, 2009
  • 38.
    Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью триграм (об этом позднее, не засыпайте) Может быть вычислена с помощью статистической грамматики, напр. PCFG СПбГУ, ПМ-ПУ, ТП, 2009
  • 39.
  • 40.
    Вычисление языковой модели Однограммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 41.
    Вычисление языковой модели Двуграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 42.
    Вычисление языковой модели Триграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
  • 43.
    Visualization He argues, she loves СПбГУ, ПМ-ПУ, ТП, 2009
  • 44.
    Вычисление языковой модели Можно увеличивать порядок «n- граммности» бесконечно долго Чем больше n, тем ниже вероятность того, что мы когда уже встречали такую последовательность СПбГУ, ПМ-ПУ, ТП, 2009
  • 45.
    Backing off Что если последовательность не встречалась в модели? Вероятность 0 Так как мы умножаем по теореме Байеса, то итоговая вероятность предложения 0 Что делать? См. след. слайд СПбГУ, ПМ-ПУ, ТП, 2009
  • 46.
    Backing off .8*p(w3|w1w2) + .15*p(w3|w2) + .049*p(w3)+0.001 СПбГУ, ПМ-ПУ, ТП, 2009
  • 47.
    Модель перевода p(f|e) – вероятность некоторой строки (предложения) из f, при гипотезе перевода из e Формула: Так как все предложения из e новые, то это сосчитать нельзя СПбГУ, ПМ-ПУ, ТП, 2009
  • 48.
    Модель перевода Разделить предложение на меньшие части, как при моделировании языка Ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений СПбГУ, ПМ-ПУ, ТП, 2009
  • 49.
    Модель перевода f = Ces gens ont grandi, vécu et oeuvré des dizaines d’années dans le domaine agricole. Those people have grown up, lived and worked many years in a farming district СПбГУ, ПМ-ПУ, ТП, 2009
  • 50.
    Выравнивание слов СПбГУ, ПМ-ПУ, ТП, 2009
  • 51.
    Характеристики SMT Основа – параллельный корпус Вероятности назначаются подсчётом смежных пар переводов Оценки вероятностей тем точнее, чем больше корпус (и чем он качественней) СПбГУ, ПМ-ПУ, ТП, 2009
  • 52.
    Характеристики SMT Зависит от языка Применяем к любой паре языков, для которых есть || параллельный корпус Нужна ! лингвистическая информация: как делить текст на предложения и на слова Не нужны лингвисты для получения правил: всё это получается из данных СПбГУ, ПМ-ПУ, ТП, 2009
  • 53.
    Характеристики SMT Дёшево и быстро Компьютеры делают всю тяжёлую работу Система перевода может быть построена примерно за 2 недели СПбГУ, ПМ-ПУ, ТП, 2009
  • 54.
    Материалы для построенияSMT || корпус ПО для выравнивания слов Инструментарий для моделирования языка Декодер СПбГУ, ПМ-ПУ, ТП, 2009
  • 55.
    || корпус http://www.ldc.upenn.edu/ UMC корпус: чешский, русский, английский (попарно) Европейский парламент crawling СПбГУ, ПМ-ПУ, ТП, 2009
  • 56.
    ПО для выравниванияслов GIZA++ http://www.fjoch.com/GIZA++.html Удобные скрипты в составе пакета Moses СПбГУ, ПМ-ПУ, ТП, 2009
  • 57.
    Инструментарий моделирования языка SRILM Разработан для распознавания речи Применяется также в SMT Вычисляет вероятности n-грамм Сложные метода для back off http://www.speech.sri.com/projects/srilm/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 58.
    Декодер Pharaoh SMT декодер на основе фразовых моделей Строит фразовые таблицы по выравниваниям GIZA++ Перевод по фразовой таблице и SRILM- модели языка http://www.isi.edu/licensed-sw/pharaoh/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 59.
    Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5 [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [7] http://translate.google.com [8] http://www.translate.ru/text_Translation.aspx [9] http://www.google.ru/language_tools [10] http://www.nist.gov/speech/tests/mt/(cont’d) 2005/doc/mt05eval_official_results_release_(cont’d) 20050801_v3.html [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf [12] http://www.speech.sri.com/ СПбГУ, ПМ-ПУ, ТП, 2009
  • 60.
    Библиография [13]ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1 [14] Andy Way: Web-based Machine Translation, School of Computing [15] http://en.wikipedia.org/wiki/ [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005 [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran [18] http://www.chrisharrison.net/projects/trigramviz/index.html СПбГУ, ПМ-ПУ, ТП, 2009