• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Introduction To Machine Translation
 

Introduction To Machine Translation

on

  • 1,599 views

 

Statistics

Views

Total Views
1,599
Views on SlideShare
1,590
Embed Views
9

Actions

Likes
0
Downloads
27
Comments
0

3 Embeds 9

http://www.slideshare.net 6
https://twimg0-a.akamaihd.net 2
http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Introduction To Machine Translation Introduction To Machine Translation Presentation Transcript

    • Введение в машинный перевод Лектор: Кан Дмитрий Александрович III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП СПбГУ, ПМ-ПУ, ТП, 2009
    • Темы Для чего нужен машинный перевод (МП) История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
    • Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
    • Для чего нужен машинный перевод #1 Перевод: объявлений при поиске квартиры; рецептов блюд; сайтов Изучение языков Поиск в Интернете на разных языках (внутри поисковых алгоритмов и дополнительная функция для пользователя [9]) Перевод научных публикаций Публикация статей (!) [5] СПбГУ, ПМ-ПУ, ТП, 2009
    • Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
    • История МП #1 Одновременное независимое патентование МП (1933): Пётр Смирнов-Троянский (более серьёзное исследование) [3] и Джордж Артсруни (Georges Artsrouni) (отец МП) [4] СПбГУ, ПМ-ПУ, ТП, 2009
    • История МП #2 Вторая мировая война: Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов, code breaking, в Британии) Алан Тьюринг: нечисловые программы, такие как машинный перевод 1949, Вивер (Weaver): обсуждение МП с 200 коллегами (однако идея использовать code- breaking себя не зарекомендовала) СПбГУ, ПМ-ПУ, ТП, 2009
    • История МП #3: direct МП Вивер своими (неверными) идеями стимулировал дальнейшие исследования в машинном переводе 1952: первая конференция по МП (MIT, Институт Технологии Массачусетса, США) 1954: демонстрация первой системы МП для пары русский<->английский, слово-в-слово В 1960е МП стимулирован Холодной Войной: США, Британия, Франция, Япония и СССР СПбГУ, ПМ-ПУ, ТП, 2009
    • История МП: диаграмма Figure 1: Informal graph showing the history of MT; also shown are the five ‘Eras of MT History’ identified by Hutchins (1993:27ff.) [1] СПбГУ, ПМ-ПУ, ТП, 2009
    • История МП #4: indirect МП Концепция interlingua (transfer architecture=анализ,трансфер,синтез) ‘real-world knowledge’ (Bar-Hillel 1960) -> высококачественный МП 1966-1976: системы МП второго поколения, вовлекающие лингвистику и численные методы (в основном U.S.) Появились: MÉTÉOTM (1976, Montreal [11]), SYSTRAN (конец 1950х, California), EUROTRA (1982-1993, замена SYSTRAN) СПбГУ, ПМ-ПУ, ТП, 2009
    • Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
    • Что происходит сейчас #1 But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST [10], 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля. СПбГУ, ПМ-ПУ, ТП, 2009
    • Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие. СПбГУ, ПМ-ПУ, ТП, 2009
    • Что происходит сейчас #2 But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль. СПбГУ, ПМ-ПУ, ТП, 2009
    • MP и NLP пакеты Moses: статистический МП, C++, Open source SRILM [12]: моделирование естественного языка, C++, Open source СПбГУ, ПМ-ПУ, ТП, 2009
    • Тема Для чего нужен машинный перевод История МП Что происходит сейчас Статистический и традиционный подходы Методы оценки систем МП СПбГУ, ПМ-ПУ, ТП, 2009
    • Статистический и традиционный подходы Altavista's BabelFish, 2000 ~ 1,000,000 / day Softissimo’s Reverso, 2001 ~ several millions Altavista & Google, 2003 ~ 10,000,000 / day СПбГУ, ПМ-ПУ, ТП, 2009
    • Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT) СПбГУ, ПМ-ПУ, ТП, 2009
    • Классика Interlingua Анализ Transfer Порождение $_source Direct $_target СПбГУ, ПМ-ПУ, ТП, 2009
    • Классика: детали СПбГУ, ПМ-ПУ, ТП, 2009
    • Direct MT system СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики: Нет сложных лингвистических теорий Нет стратегии парсинга Использование синтаксической, семантической и лексической похожести между двумя языками Базируется на одной языковой паре «Надёжны»: могут переводить даже неполные предложения Словари – наиболее важный компонент СПбГУ, ПМ-ПУ, ТП, 2009
    • Transfer Анализ: морфология и синтаксис Выделение важных для перевода частей абстракции Source abstraction -> target abstraction Target abstraction -> синтез СПбГУ, ПМ-ПУ, ТП, 2009
    • Transfer types Синтаксический трансфер: передача синтаксических структур между языками (одной семьи) Глубокий (семантический) трансфер: семантическое представление, зависимое от языка СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики: Содержат завершённые лингвистические концепции Компоненты анализа и порождения могут быть использованы для других языковых пар, если компоненты изолированы Словари также представляют отдельные компоненты СПбГУ, ПМ-ПУ, ТП, 2009
    • Interlingua: пример СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики: Абстрактное представление, не зависимое от языка O(N) – построение системы для N языков vs O(N2) в transfer methods Может быть сложен для построения при широком охвате тем => узкая тема, много языков СПбГУ, ПМ-ПУ, ТП, 2009
    • Interlingua vs Transfer СПбГУ, ПМ-ПУ, ТП, 2009
    • Статистические подходы СПбГУ, ПМ-ПУ, ТП, 2009
    • Статистический подход 3 компонента: Языковая модель p(e) Модель перевода p(f|e) Декодер СПбГУ, ПМ-ПУ, ТП, 2009
    • EBMT Необходимость в двуязычном выровненном корпусе Вероятности в переводы Установить переводные эквиваленты Перераспределить чтобы получить перевод СПбГУ, ПМ-ПУ, ТП, 2009
    • EBMT Английский Японский : How much is that red umbrella? Ano akai kasa wa ikura desu ka. How much is that small camera? Ano chiisai kamera wa ikura desu ka. СПбГУ, ПМ-ПУ, ТП, 2009
    • EBMT#1 Соответствие предложений: The man swims ⇔ L’homme nage. The woman laughs ⇔ La femme rit Соответствие частей предложений the man ⇔ L’homme, swims ⇔ nage, the ⇔ l’, man ⇔ homme, the ⇔ la, woman ⇔ femme, laughs ⇔ rit ... СПбГУ, ПМ-ПУ, ТП, 2009
    • SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f СПбГУ, ПМ-ПУ, ТП, 2009
    • Байес 1 e arg max p e f e e arg max p e p f e e СПбГУ, ПМ-ПУ, ТП, 2009
    • Вероятности: расшифровка p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу СПбГУ, ПМ-ПУ, ТП, 2009
    • Диаграмма для тех, кто не любит формулы СПбГУ, ПМ-ПУ, ТП, 2009
    • Языковая модель Правильный порядок слов Некоторые идеи грамматики Вычисляется с помощью триграм (об этом позднее, не засыпайте) Может быть вычислена с помощью статистической грамматики, напр. PCFG СПбГУ, ПМ-ПУ, ТП, 2009
    • Триграммная языковая модель СПбГУ, ПМ-ПУ, ТП, 2009
    • Вычисление языковой модели Однограммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
    • Вычисление языковой модели Двуграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
    • Вычисление языковой модели Триграммные вероятности СПбГУ, ПМ-ПУ, ТП, 2009
    • Visualization He argues, she loves СПбГУ, ПМ-ПУ, ТП, 2009
    • Вычисление языковой модели Можно увеличивать порядок «n- граммности» бесконечно долго Чем больше n, тем ниже вероятность того, что мы когда уже встречали такую последовательность СПбГУ, ПМ-ПУ, ТП, 2009
    • Backing off Что если последовательность не встречалась в модели? Вероятность 0 Так как мы умножаем по теореме Байеса, то итоговая вероятность предложения 0 Что делать? См. след. слайд СПбГУ, ПМ-ПУ, ТП, 2009
    • Backing off .8*p(w3|w1w2) + .15*p(w3|w2) + .049*p(w3)+0.001 СПбГУ, ПМ-ПУ, ТП, 2009
    • Модель перевода p(f|e) – вероятность некоторой строки (предложения) из f, при гипотезе перевода из e Формула: Так как все предложения из e новые, то это сосчитать нельзя СПбГУ, ПМ-ПУ, ТП, 2009
    • Модель перевода Разделить предложение на меньшие части, как при моделировании языка Ввести новую переменную a, представляющую выравнивания между отдельными словами в паре предложений СПбГУ, ПМ-ПУ, ТП, 2009
    • Модель перевода f = Ces gens ont grandi, vécu et oeuvré des dizaines d’années dans le domaine agricole. Those people have grown up, lived and worked many years in a farming district СПбГУ, ПМ-ПУ, ТП, 2009
    • Выравнивание слов СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики SMT Основа – параллельный корпус Вероятности назначаются подсчётом смежных пар переводов Оценки вероятностей тем точнее, чем больше корпус (и чем он качественней) СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики SMT Зависит от языка Применяем к любой паре языков, для которых есть || параллельный корпус Нужна ! лингвистическая информация: как делить текст на предложения и на слова Не нужны лингвисты для получения правил: всё это получается из данных СПбГУ, ПМ-ПУ, ТП, 2009
    • Характеристики SMT Дёшево и быстро Компьютеры делают всю тяжёлую работу Система перевода может быть построена примерно за 2 недели СПбГУ, ПМ-ПУ, ТП, 2009
    • Материалы для построения SMT || корпус ПО для выравнивания слов Инструментарий для моделирования языка Декодер СПбГУ, ПМ-ПУ, ТП, 2009
    • || корпус http://www.ldc.upenn.edu/ UMC корпус: чешский, русский, английский (попарно) Европейский парламент crawling СПбГУ, ПМ-ПУ, ТП, 2009
    • ПО для выравнивания слов GIZA++ http://www.fjoch.com/GIZA++.html Удобные скрипты в составе пакета Moses СПбГУ, ПМ-ПУ, ТП, 2009
    • Инструментарий моделирования языка SRILM Разработан для распознавания речи Применяется также в SMT Вычисляет вероятности n-грамм Сложные метода для back off http://www.speech.sri.com/projects/srilm/ СПбГУ, ПМ-ПУ, ТП, 2009
    • Декодер Pharaoh SMT декодер на основе фразовых моделей Строит фразовые таблицы по выравниваниям GIZA++ Перевод по фразовой таблице и SRILM- модели языка http://www.isi.edu/licensed-sw/pharaoh/ СПбГУ, ПМ-ПУ, ТП, 2009
    • Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5 [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] http://www.scientific.ru/trv/2008/013/ostap_bender.html [6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [7] http://translate.google.com [8] http://www.translate.ru/text_Translation.aspx [9] http://www.google.ru/language_tools [10] http://www.nist.gov/speech/tests/mt/(cont’d) 2005/doc/mt05eval_official_results_release_(cont’d) 20050801_v3.html [11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf [12] http://www.speech.sri.com/ СПбГУ, ПМ-ПУ, ТП, 2009
    • Библиография [13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1 [14] Andy Way: Web-based Machine Translation, School of Computing [15] http://en.wikipedia.org/wiki/ [16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005 [17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran [18] http://www.chrisharrison.net/projects/trigramviz/index.html СПбГУ, ПМ-ПУ, ТП, 2009