Your SlideShare is downloading. ×
0
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Computer Semantics And Machine Translation
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Computer Semantics And Machine Translation

1,168

Published on

Talk in Russian made at IR Workshop @ AM-CP

Talk in Russian made at IR Workshop @ AM-CP

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,168
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Компьютерная семантика и машинный перевод Дмитрий Кан 3 курс аспирантуры ПМ-ПУ, СПбГУ 2009
  • 2. Outline Компьютерная семантика Машинный перевод Статистика и классика Гибридные подходы Иерархическая линеаризация Переводной семантический словарь
  • 3. Введение в компьютерную семантику Глаголы, предлоги, слова-свойства Базисные функции Иерархия классов (картина мира + снятие полисемии=функции с разными аргументами) Присоединение слов Взаимодействие: морфология, синтаксис, семантика Полисемия (разбивать: чашку, сквер, колено, сердце)
  • 4. Этапы формализации языка Отделение семантики от прагматики Предложение как запись команд Выполнение предложения по суперпозиции по функций Анализ слова Анализ предложения Отличие от предикатов
  • 5. Базисные функции Caus(x,y) – x делает так, чтобы y (x каузирует y) Cont (x) – x продолжается Lab(x,y) – x подвергается действию y Incep(x) – x начинается Fin(x) – x заканчивается, перестает Func (x) – имеет место быть x Perf(x) – перфектность (завершенность) x Fact(x) – x соблюдается Prepar(x) – x приготовляется Multo(x) – множество x Ne x – не x.
  • 6. Смыслы СОБЛЮДАТЬСЯ Fact(Им) НАРУШАТЬСЯ Fin Fact(Им) СОБЛЮДАТЬ Caus(Им,Cont Fact(Вин)) НАРУШИТЬ Perf Caus(Им,Fin Fact(Вин)) НАРУШАТЬ Caus(Им,Fin Fact(Вин)) ГАСИТЬ Caus(Им,Fin Lab(Вин,ОГОНЬ)) Гасить свечу ГАСИТЬ Caus(Им,Fin Func (ПРОЦЕСС Вин)) Гасить колебания ГОРЕТЬ Lab(Им,ОГОНЬ) ЗАГОРЕТЬСЯ Perf Incep Lab(Им,ОГОНЬ) ПОГАСИТЬ Perf Caus(Им,Fin Lab(Вин,ОГОНЬ)) ПОТУШИТЬ Perf Caus(Им,Fin Lab(Вин,ОГОНЬ)) Потушить свечу ПОТУШИТЬ Perf Caus(Им,Prepar(ПИЩА Вин)) Потушить картошку ТУШИТЬ Caus(Им,Fin Lab(Вин,ОГОНЬ)) Тушить свечу ТУШИТЬ Caus(Им,Prepar(ПИЩА Вин)) Тушить картошку.
  • 7. Машинный перевод: мотивация Перевод объвлений, изучение языков Перевод запросов для расширения области поиска и перевод результатов поиска Семантика по WordNet: перевод на английский Публикация статей!
  • 8. Исторические вехи Иностранный текст, как криптографический шифр ALPAC доклад Systran, ПРОМТ, Google Translate
  • 9. Google translate But the ambition is to produce reams of paper that could one day power a car. Google Translate Beta (Статистический подход, США, 1е место на NIST, 2005): Но амбиция заключается в том, чтобы производить пачек бумаги , которые могли бы один день мощность автомобиля.
  • 10. ПРОМТ But the ambition is to produce reams of paper that could one day power a car. PROMT Translator (Традиционный подход, Россия, год основания: 1991) Но амбиция состоит в том, чтобы произвести стопки бумаг, которые могли однажды привести автомобиль в действие.
  • 11. Systran But the ambition is to produce reams of paper that could one day power a car. Systran (Традиционный подход, Франция, год основания: 1968) Но гонор произвести reams бумаги которые смогли дн сила автомобиль.
  • 12. Основные подходы Interlingua Анализ Transfer Порождение $_source Direct $_target
  • 13. Методы машинного перевода MT Rule-Based MT Data-Driven MT Transfer Interlingua EBMT SMT (Example based MT)
  • 14. SMT in a nutshell Максимизировать p(e|f), e – предложение перевода, f – предложение оригинала Теорема Байеса: p e p f e p e f 1 p f
  • 15. SMT in a nutshell #1 p(e) – Языковая модель, которая: Назначает наибольшую вероятность беглым, грамматически верным предложениям Вычисляется по одноязычному корпусу p(f|e) – Модель перевода Назначает наибольшую вероятность парам предложений с одним значением Вычисляется по двуязычному корпусу
  • 16. Подзадачи МП Лемматизация (русский, финский) Переупорядочение слов Переводные словари (фразовые или семантические) Маппинг синтаксических структур (японский: рекурсивный синтаксис) Word alignment Sentence alignment Parallel corpora
  • 17. Методы оценки СМП BLEU score METEOR Round-trip
  • 18. BLEU score c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N
  • 19. Word reordering Статистика: N!, сужение пространства перебора Классика: математические методы, теория мереологии, иерархическая линеаризация (не упорядочение!)
  • 20. Иерархическая линеаризация Мельчук (слабые и сильные связи) Слово определяет строгий порядок группы слов Слова соединяются в группы (деепр. обороты) Слова не вляют на взаимный порядок Семантическое дерево STL-like tree Перенос поддеревьев Сложные предложения (Я постучал, и Петя открыл дверь) Приложения: МП, plagiarism detection, summarization
  • 21. Пример семантического дерева любит<X007.004> (@Вин Сашу<X003.002><+СущСущ3+> (@Вин Умного<X001.001><+Какой:ПрилСущ7+>, @Вин красивого<X002.001><+Однородный:ОднорПрил6+>), @Им Маша<X006.003><+СущГлаг3+> (@Им интересная<X004.001><+КАКОЙ:ПрилСущ7+>, @Им замечательная<X005.001><+Однородный:ОднорПрил6+>) ) . Умного красивого Сашу любит интересная замечательная Маша.
  • 22. Визуальная интерпретация
  • 23. Tree in C++ STL style
  • 24. Правила линеаризации (русский язык) Узлы подлежат обмену только на одном уровне в семантическом дереве При синтезе уточняющие прилагательные предшествуют существительным Притяжательные местоимения также предшетсвуют существительным Предлоги предшествуют своим поддеревьям в синтезируемом предложении Замечательная интересная Маша любит красивого умного Сашу.
  • 25. Псевдо-код
  • 26. Псевдо-код#1
  • 27. Псевдо-код#2
  • 28. Переводной семантический словарь 7 лет на семантический словарь: частично автоматическое построение Для перевода: важнейший компонент Как ускорить процесс?
  • 29. Ответ: GIZA++ Гибридный подход Статистическое выравнивание слов Автоматическая генерация словаря Необходимость параллельного корпуса Проверка качества через экспериментальную СМП
  • 30. NULL And the program has been implemented | | | | | | | GIZA++ | | | | | | | | +-+---+ | | | Le programme a ete mis en application Модуль выравнивания слов Входит в состав пакета Moses (статистический МП) 86000 предложений -> 1,3 млн пар слов в выходных данных Задача разрешения полисемии Высокий уровень избыточности данных в словаре
  • 31. GIZA++: output Desperate to hold onto power , Pervez Musharraf has discarded Pakistan ' s constitutional framework and declared a state of emergency . NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 }) стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) , ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 }) конституционную ({ 14 15 }) систему ({ }) Пакистана ({ 11 12 13 }) и ({ 16 }) объявил ({ 17 }) о ({ 18 }) введении ({ }) чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  • 32. Таблица соответствий слов NULL of отчаянном Desperate to hold стремлении to власть power , , Первез Pervez Мушарраф Musharraf отверг has discarded конституционную constitutional framework Пакистана Pakistan ’ s и and объявил declared о a чрезвычайного state emergency . .
  • 33. Схема алгоритма GIZA++ Переводной || корпус merging семантический словарь Семантический анализатор
  • 34. Выдержка из словаря В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout ... МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2> --->Marshall ... НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the ... ОБРАЗ (РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global ... Всего около 18 тысяч пар слов
  • 35. Экспериментальная система МП •Словарный метод третьего уровня •Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень) •Третий уровень: семантический анализ, учитывающий ещё и контекст слова
  • 36. Примеры переводов Отчет, написанный рукой Распутина. Review was written hand Rasputin. В этой статье Аббас разбирает доклад Распутина. In this article Abbas review report Rasputin. Распутина скомпрометировали государственностью. Rasputin compromised by statehood. Распутин вел скрытный образ жизни. Rasputin lead secretive way of life. У Распутина скрытые доходы. have Rasputin an implicit income.
  • 37. Улучшение качества словаря Удаление дубликатов (sort | uc >> output) Добавление синтаксической информации: роли в предложении Добавление СГТ Вычисление предлогов: анализ словосочетаний с предлогами
  • 38. Moses: почему статистика не справляется? Статистическая модель – только приближение языковой модели, при том сугубо численное Зависимость от качества корпуса Перевод человека зачастую не прямолинеен и иносказателен, отсюда снижение качества Сложные пары языков: с богатой морфологией Снятие полисемии через лемматизацию – грубое отсечение семантики
  • 39. Классика: недостатки Медленная разработка Привязка к одному языку или группе схожих языков (синтаксис, порядок слов) Скрещивание!
  • 40. Перевод на русский Сборка по семантическим формулам Анализатор иностранного языка Статистический подход для en->ru
  • 41. Открытые задачи Прагматика Анализ текста: связи и свойства объектов, анафорические ссылки Hän meni kauppaan. -> Он (она?) пошёл (ла?) в магазин. Анафорические ссылки на часть текста
  • 42. Литература [1] Тузов В. А. Компьютерная семантика русского языка, СПб.: Изд-во С.- Петерб. ун-та, 2004. 400 с. [2] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203- 35979-8 [3] Мельчук И. А. Русский текст в модели «смысл<->текст». М.: Языки русской культуры, 1995. 682 с. [4] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [5] http://www.hutchinsweb.me.uk/IJT-2004.pdf [6] http://www.scientific.ru/trv/2008/013/ostap_bender.html [7] Natural Language Processing, Instructor: Manning, Christopher D., Stanford School of Engineering [8] http://translate.google.com [9] http://www.translate.ru/text_Translation.aspx [10] Кан Д. А., Лебедев И. С.: Линеаризация при синтезе предложений на естественном языке // Политехнический симпозиум «Молодые ученые промышленности Северо-Западного региона»; материалы конференций. СПб.: Изд-во С.-Петерб. политехн. ун-та, 2007. С. 15-16

×