• Save
Semantic feature machine translation system
Upcoming SlideShare
Loading in...5
×
 

Semantic feature machine translation system

on

  • 1,070 views

 

Statistics

Views

Total Views
1,070
Views on SlideShare
1,070
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Semantic feature machine translation system Semantic feature machine translation system Presentation Transcript

  • Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода Основные идеи диссертации на соискание ученой степени кандидата физико- математических наук, 05.13.11 Кан Дмитрий Александрович, dmitry.kan@gmail.com Петергоф, кафедра информатики математико- механического факультета 2011
  • Компьютерная семантика русского языка• Слово есть функция (над другими словами предложения)• Морфологический анализ в данном предложении возможен в общем виде только через синтактико-семантический анализ• Предложение есть суперпозиция функций-слов
  • Математическая модельФормальный семантический языкБазисные понятияПроизводные понятияСемантический словарь
  • Математическая модельСем. формул в словаре: 150 000Некоторые базисные функции:Caus(x,y) = x казуирует yCont(x) = x продолжаетсяHab(x,y) = x имеет yIncep(x) = x начинаетсяOper(x,y) = x делает yLab(x,y) = x подвергается действию yUsor(x,y) x используется для y
  • Формальный семантический язык. Суперпозиция функций.• x проявляет уважение к y• Caus(x,Fact(Уважение(y)))• x испытывает уважение к y• Oper(x,Уважение(y))• Иван будит его• Caus(Иван,Fin Спит(Он))• x уничтожает y• Caus(x,Fin Func(y))
  • Семантико-грамматические типы• СГТ предложных выражений (на примере предога С):• Он говорил с уважением• @Как С(@Тв уважением$1301132)• Он пришел с запада• $122721~@Откуда С(@Род запада$122721)• Он пришел с человеком• $1241~@сТв С(@Тв человеком$1241)
  • Формальный семантический язык. Описание альтернатив.Почти 40% глаголов русского языка являютсякаузирующимиИван вешает картину -Caus(Иван,IncepOper01(Картина,ВИСЕНИЕ))глагол ВЕШАТЬ в значенииCaus(Z1,IncepOper01(ВИН:Z2,ВИСЕНИЕ$1241/4024/11(КУДА:НАПРЕД:Z3)))Иван вешает Петра -Caus01(Иван,УБИЙСТВО(Lab(Петра, ВИСЕНИЕ)))глагол ВЕШАТЬ в значенииOper01(Z1,УБИЙСТВО$110330(КАК:Lab(РОД:Z2,ВИСЕНИЕ$1241/4024/11)))
  • Синтактико-семантический анализОбластью определения базисных функций является множество объектов базы знаний.является<X005.001> (@Тв Областью<X001.001><+СущГлаг3+> (@Род определения<X002.002><+СущСущ1+> (@Род функций<X004.002><+СущСущ6+> (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>) ) ), @Им множество<X006.001><+ГлагСущ8+> (@Род объектов<X007.001><+СущГлагСущ+> (@Род базы_знаний<X008.006><+СущСущ4+>) ) ).
  • Представление синтактико-семантического разбора в виде дерева разбораКомпьютерная лингвистика –направление искусственногоинтеллекта, которое ставит своей цельюиспользование математических моделейдля описания естественных языков.
  • Основные задачи МП• Исходный язык: – Формализация ЕЯ – Анализ текстов: связи между объектами, портреты объектов, анафорические ссылки (hän)• Исходный язык->Целевой язык: – Переводной контекстный семантический словарь – Модель перевода• Целевой язык: – Синтез предложений • Морфологический синтез (при переводе на русский) • Задача линеаризации, статистический синтез
  • Исходный язык• Формализация ЕЯ – Компьютерная семантика русского языка [1] – Статистические модели языка [2]• Анализ текстов – Связи между объектами и портрет объекта в тексте [3] – Анафорические ссылки [4,5]
  • Разрешение анафорических ссылок• 1. Джон встретил Ивана. Он передал Ивану текст публикации.• 2. Джон встретил Ивана. Тот передал Джону ответ редактора.
  • Stuct{SubjectSubject’s actionobject}
  • Псевдо-код
  • Исходный язык->Целевой язык• Переводной контекстный семантический словарь [6] – Параллельный корпус (~90 тыс. пар предложений) [7] – Максимизация апостериорной вероятности, совместная встречаемость [8] – Семантический анализатор [1]
  • NULL And the program has been implementedGIZA++ | | | | | | | | | | | | | | | +-+---+ | | | Le programme a ete mis en application• Модуль выравнивания слов• Входит в состав пакета Moses (статистический МП)• 86000 предложений -> 1,3 млн пар слов в выходных данных• Задача разрешения полисемии• Высокий уровень избыточности данных в словаре
  • Пара || предложений и выходные данные• Desperate to hold onto power , Pervez Musharraf hasdiscarded Pakistan s constitutional framework anddeclared a state of emergency .• NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })конституционную ({ 14 15 }) систему ({ })Пакистана ({ 11 12 13 }) и ({ 16 })объявил ({ 17 }) о ({ 18 }) введении ({ })чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  • Таблица соответствий словNULL ofотчаянном Desperate to holdстремлении toвласть power, ,Первез PervezМушарраф Musharrafотверг has discardedконституционную constitutional frameworkПакистана Pakistan ’ sи andобъявил declaredо aчрезвычайного state emergency. .
  • Переводной семантический словарь• Семантический анализатор разрешает полисемию посредством морфологического, синтаксического и семантического анализа• Каждое слово слева имеет свой контекст в паре параллельных предложений• Контекст выражается своей семантической формулой
  • Схема алгоритма GIZA++ Переводной|| корпус merging семантический словарь Семантический анализатор
  • Выдержка из словаряВ Y1>HabU(Y1:,ПРЕД:Z1) <149>--->WithinВ Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->atВ Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->InВ Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout...МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>--->Marshall...НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->atНА Y1>Direkt(Y1:,РОД:Z1) <100>--->onНА Y1>Direkt(Y1:,РОД:Z1) <69>--->forНА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the...ОБРАЗ (РОД:Z1) <2>--->a wayОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global...Всего около 18 тысяч пар слов
  • Технические детали построения словаря• ПК с ЦП AMD Sempron 2200, 768 MB ОЗУ, 120 GB жѐсткий диск• 2 недели работы семантического анализатора (86000 предложений)• 1 неделя работы GIZA++• 1 неделя на сборку переводного семантического словаря• Языки: Perl, C++• Строк кода: 2000
  • Экспериментальная система МП• Словарный метод третьего уровня• Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень)• Третий уровень: семантический анализ, учитывающий ещѐ и контекст слова
  • Примеры переводов экспериментальной СМП• Исходное предложение: Распутина скомпрометировали государственностью.перевод Moses: Распутина compromised государственностью.перевод экспериментальной СМП: Rasputin compromisedby statehood.• Исходное предложение: У Распутина скрытые доходы.перевод Moses: the распутина hidden incomes .перевод экспериментальной СМП: has Rasputin animplicit income.
  • Целевой язык• Синтез текста • Морфологический синтез • Задача линеаризации [10] • Статистический синтез [11]
  • Целевой язык• Статистический синтез N-уровневая сеть с N состояниями (адаптировано из [11])
  • Линеаризация семантических структур •обмену подлежат только узлы на одном уровне в дереве и с одним общим родителем; •причастные и деепричастные обороты образуют единую неделимую группу слов; •однородные члены, отвечающие на общий смысловой вопрос, могут быть упорядочены лексикографически; •при процедуре обмена местами для узлов дерева осуществляется полный перенос их поддеревьев, что позволяет сохранить семантические связи с присоединяемыми словами.
  • Метрики: оценка систем МП• BLEU• Применимость BLEU для оценки системы МП, основанной на правилах
  • Сравнение оценок беглости и адекватности экспертом и метрикойBLEU для систем Systran и двух статистических систем МП (с малыми полным тренировочными наборами) из [12], показывающая, чтоBLEU сильно недооценивает качество нестатистической системы
  • SMTM• Семантическая модель машинного переводаРассмотрим произвольное предложение P на русском языке:
  • SMTM
  • Библиография• [1] Тузов В.А. Компьютерная семантика русского языка, СПб., 2004.• [2] Stolcke A.: SRILM: An extensible language modeling toolkit. Speech Technology and Research Laboratory (2002).• [3] Кан Д.А., Лебедев И.С. Способ формализации связей между объектами в тексте на естественном языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2008. Вып. 2. С. 56—61.• [4] Qiu L., Kan M.Y., Chua T.S.. (2004). A Public Reference Implementation of the RAP Anaphora Resolution Algorithm. In proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Vol. I, pp. 291-294.• [5] Кан Д. А., Лебедев И. С., Сухопаров Е. А. Идентификация объектов текста в информационных системах // Программные продукты и системы, 2009, 2(86). С. 163—168.
  • Библиография• [6] Mitkov R., Belguith L., Stys M.: Multilingual robust anaphora resolution // In Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing. 1998.• [7] Кан Д. А.: Метод автоматического построения переводного семантического словаря для машинного перевода // Процессы управления и устойчивость: Труды 40-й научной конференции аспирантов и студентов. – СПб.: СПбГУ, 2009. – С. 429–434.• [8] Klyueva N., Bojar O.: UMC 0.1: Czech-Russian-English Multilingual Corpus. Proceedings of International Conference Corpus Linguistics, pages 188-195, October 2008.• [9] Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed, D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine Translation. Final report, JHU Workshop, 1999.
  • Библиография• [10] Кан Д.А. Задача синтеза предложений на естественном языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2009. Вып. 3. С. 205— 212.• [11] Athanaselis T., Bakamidis S., Dologlou I. A Fast Algorithm for Words Reordering Based on Language Model. - Lecture Notes in Computer Science. - Springer Berlin / Heidelberg. - Volume 4132. – 2006.• [12] Callison-Burch C., Osborne M., Koehn P. Re-evaluating the Role of Bleu in Machine Translation Research. Proceedings of EACL, 2006. P. 249—256.