Automatic Build Of Semantic Translational Dictionary

999 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
999
On SlideShare
0
From Embeds
0
Number of Embeds
38
Actions
Shares
0
Downloads
16
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Automatic Build Of Semantic Translational Dictionary

  1. 1. Метод автоматического построения переводного семантического словаря для машинного перевода Кан Дмитрий Александрович аспирантура ПМ-ПУ, 3 курс кафедра ТП 2009
  2. 2. Outline Два фундаментальных подхода к машинному переводу (МП) Характеристика классического подхода Характеристика статистического подхода Задача скрещивания двух подходов Переводной семантический словарь Экспериментальная система МП
  3. 3. Классика и статистика Классика: лингвистические правила; трансфер синтаксиса; интерлингва Статистика: статистические модели языка, перевода и переупорядочивания слов
  4. 4. Интерлингва Компьютерная семантика Семантический анализатор снимает первые две языковые оболочки: морфологию и синтаксис Каждое слово выражается на семантическом языке (аналог интерлингвы)
  5. 5. Семантический анализ Областью определения базисных функций является множество объектов базы знаний. является<X005.001> (@Тв Областью<X001.001><+СущГлаг3+> (@Род определения<X002.002><+СущСущ1+> (@Род функций<X004.002><+СущСущ6+> (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>) ) ), @Им множество<X006.001><+ГлагСущ8+> (@Род объектов<X007.001><+СущГлагСущ+> (@Род базы_знаний<X008.006><+СущСущ4+>) ) ) .
  6. 6. NULL And the program has been implemented | || | || | | | || +-+---+ | | || || | GIZA++ Le programme a ete mis en application Модуль выравнивания слов Входит в состав пакета Moses (статистический МП) 86000 предложений -> 1,3 млн пар слов в выходных данных Задача разрешения полисемии Высокий уровень избыточности данных в словаре
  7. 7. Пара || предложений и выходные данные Desperate to hold onto power , Pervez Musharraf has discarded Pakistan ' s constitutional framework and declared a state of emergency . NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 }) стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) , ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 }) конституционную ({ 14 15 }) систему ({ }) Пакистана ({ 11 12 13 }) и ({ 16 }) объявил ({ 17 }) о ({ 18 }) введении ({ }) чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  8. 8. Таблица соответствий слов NULL of отчаянном Desperate to hold стремлении to власть power , , Первез Pervez Мушарраф Musharraf отверг has discarded конституционную constitutional framework Пакистана Pakistan ’ s и and объявил declared о a чрезвычайного state emergency . .
  9. 9. Переводной семантический словарь Семантический анализатор разрешает полисемию посредством морфологического, синтаксического и семантического анализа Каждое слово слева имеет свой контекст в паре параллельных предложений Контекст выражается своей семантической формулой
  10. 10. Схема алгоритма GIZA++ Переводной семантический || корпус merging словарь Семантический анализатор
  11. 11. Выдержка из словаря В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout ... МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2> --->Marshall ... НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the ... ОБРАЗ (РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global ... Всего около 18 тысяч пар слов
  12. 12. Экспериментальная система МП Словарный метод третьего уровня Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень) Третий уровень: семантический анализ, учитывающий ещё и контекст слова
  13. 13. Оценка по BLEU score c – длина перевода- кандидата r – длина Reference корпуса База: N=4, wn=1/N
  14. 14. Сравнение с Moses 3000 предложений для оценки по BLEU Экспериментальная СМП BLEU = 12,89 Moses BLEU = 21,31 Moses оперирует над словоформами, в то время как экспериментальная СМП оперирует над леммами
  15. 15. Примеры переводов экспериментальной СМП Исходное предложение: Распутина скомпрометировали государственностью. перевод Moses: Распутина compromised государственностью. перевод экспериментальной СМП: Rasputin compromised by statehood. Исходное предложение: У Распутина скрытые доходы. перевод Moses: the распутина hidden incomes . перевод экспериментальной СМП: has Rasputin an implicit income.
  16. 16. Future plans Корректный морфологический синтез Линеаризация (переупорядочивание слов в выходном предложении) Перевод корпуса в нижний регистр перед GIZA++ Отработка имён собственных Тщательная вычистка словаря Постоянное пополнение
  17. 17. Благодарности Владимир Порошин M-Brain
  18. 18. Литература 1. Тузов В.А. Компьютерная семантика русского языка. СПб, изд-во СПбГУ, 2004. 400 с. 2. Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine Translation. Final report, JHU Workshop, 1999 3. Och F.J. An Ecient Method for Determining Bilingual Word classes. // Ninth Conf. of the Europ. Chapter of the Association for Computational Linguistics. EACL'99. Bergen, Norway, June 1999. P 7176. 4. Brown P.F., Della Pietra V.J., Della Pietra S.A. and Mercer R.L. The mathematics of statistical machine translation: Parameter estimation. // Computational linguistics 19(2), 1993 5. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A., Herbst E. Moses: Open Source Toolkit for Statistical Machine Translation. // Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. 6. Klyueva N., Bojar O. UMC 0.1: Czech-Russian-English Multilingual Corpus. // Proceedings of the Conference quot;Corpora 2008quot;. (In print.)
  19. 19. Спасибо! Вопросы?

×