• Like
08 машинный перевод
Upcoming SlideShare
Loading in...5
×

08 машинный перевод

  • 2,967 views
Uploaded on

Презентация к курсу "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

Презентация к курсу "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
  • +1 к Лидиному комментарию. Можно мыслить так: от морфологии к синтаксису, от синтаксиса к семантике (и обратно), от семантики к прагматике. Онтологии могут возникнуть как на этапе семантического анализа (выявить класс или классы к которым относится данный объект и соответсвенно все его свойства, наследуемые от над-классов), так и на этапе определения прагматики (например, применить определённую доменно-зависимую онтологию для решения конкретной задачи).
    Are you sure you want to
    Your message goes here
  • Ну можно это называть и 'надлингвистической технологией', хотя проще просто назвать семантическим анализом с использованием формальных моделей предметной области (онтологий). Онтологии уже давно и успешно используются в анализе текста, это не новость. В моем курсе упоминаются, а вообще у нас про онтологии несколько отдельных курсов есть - это профиль магистратуры.

    Но не стоит представлять онтологии, как серебрянную пулю или как нечто, что позволит отказаться от всех прочих методов анализа текста.
    Are you sure you want to
    Your message goes here
  • К надлингвистическим технологиям обработки ТЕЯС относится, например, технология 'Ontology', которая использует в своей основе эвристико-смысловую обработку ТЕЯС.
    Are you sure you want to
    Your message goes here
  • Это просто название курса. В котором рассказывается про современные технологии семантического анализа текста.

    А про надлингвистические технологии можно поподробней узнать?
    Are you sure you want to
    Your message goes here
  • Применение термина 'понимание текста' в данном случае НЕКОРРЕКТНО, поскольку машина не умеет 'понимать' смысл текста лингвистическими технологиями, так как осмысление контекста выходит за рамки компетенции языковедческих дисциплин.
    В настоящее время разрабатываются НАДЛИНГВИСТИЧЕСКИЕ технологии, способные осуществлять 'машинное осмысление' контекста,
    Are you sure you want to
    Your message goes here
    Be the first to like this
No Downloads

Views

Total Views
2,967
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
33
Comments
5
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста
  • 2. Введенние
    • Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой
    • Сферы применения: большие объемы информации и/или высокие требования к скорости перевода:
      • Документация
      • Новости
      • Военные сводки
      • Интернет-сайты, многоязычный поиск
      • Справочная информация (рецепты, объявления, адреса)
    • Основная цель: быстро понять основное содержание сообщения на иностранном языке
    • Не замена ручному переводу; можно даже сказать – другая задача
  • 3. Сожержание
    • Основные подходы
    • Перевод, основанный на правилах
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 4. Правила vs . статистика Информационное сообщение: Документ:
  • 5. Перевод по правилам
    • Морфологический анализ
    • Синтез групп (именные, глагольные и др.)
    • Синтаксический анализ
    • Синтез предложений
    • Недостатки:
    • Принципиальная сложность используемых алгоритмов
    • Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную
    Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического или автоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec .
    • Достоинства:
    • При наличии необходимых для перевода правил – высокое качество
    • перевода. Правила должны быть отлично выверены.
    • Возможность настройки словарей с учетом предметной области
  • 6. Статистический МП
    • Использует большие параллельные двуязычные корпуса N -грамм
    • Поиск наиболее подходящего перевода реализован специальной вероятностной моделью
    • Недостатки:
    • Отсутствие каких-либо механизмов анализа грамматических правил
    • Требует больших вычислительных мощностей
    • Для удовлетворительной работы необходимы огромные объемы
    • данных (сотни миллионов N -грамм)
    На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate Достоинства: для улучшения качества перевода достаточно добавлять массивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется
  • 7. Сожержание
    • Основные подходы
    • Перевод, основанный на правилах
      • прямой перевод
      • трансфер
      • интерлингва
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 8. Основные подходы
    • Direct, transfer, interlingua
  • 9. Сожержание
    • Основные подходы
    • Перевод, основанный на правилах
      • прямой перевод
      • трансфер
      • интерлингва
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 10. Прямой перевод
    • Пословный перевод ( word-by-word)
    • Никаких промежуточных структур помимо морфологии
    • После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после)
    • Используемое знание: морфологическая структура языка и локальные правила перевода слов
    Текст на исходном языке Морфологический анализ Перевод лексики (двуязычный словарь) Переупорядочивание Синтез морфологии Текст на целевом языке
  • 11. Правила
  • 12. Прямой перевод
    • Нет сложных лингвистических теорий и синтаксического анализа
    • Использование синтаксической и лексической похожести между двумя языками
    • «Надежность» - можно переводить даже неполные предложения
    • Словари – наиболее важный компонент
  • 13. Слишком простая модель
  • 14. Содержание
    • Основные подходы
    • Перевод, основанный на правилах
      • прямой перевод
      • трансфер
      • интерлингва
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 15. Система типа TRANSFER Предложение на языке входа Структура для языка входа Структура для языка выхода Предложение на языке выхода анализ TRANSFER синтез
  • 16. Основные идеи
    • Применяются знания о различиях между языками
    • Этапы:
      • Синтаксический анализ
      • Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка
      • Синтез текста на целевом языке по синтаксической структуре
  • 17. Правила
  • 18. Трансфер лексики
    • Лексические правила
    • Двуязычные словари
    • Т.е. сложность по сравнению с прямым переводом возрастает
  • 19. Пример: SYSTRAN
    • SYSTRAN = PROMT
    • in the world in Russia
    • Более 90% рынка
    • Доход в 2007 году ~ 13 млн евро
    • Акции торгуются на бирже
  • 20. SYSTRAN: комбинация прямого перевода и трансфера
    • Анализ
      • Морфологический анализ, части речи
      • Сборка словосочетаний
      • Поверхностный синтаксис
    • Трансфер
      • Перевод идиом
      • Снятие неоднозначности ( word sense disambiguation)
      • Выбор предлогов по глаголу
    • Синтез
      • Большой двуязычный словарь
      • Переупорядочивание
      • Синтез морфологии
  • 21.
    • Система типа TRANSFER, но вместо последовательного TRANSFER’a – иерархически взаимосвязанные TRANSFER’ ы для разных единиц перевода:
    • Уровень лексических единиц
    • Уровень групп
    • Уровень простых предложений
    • Уровень сложных предложений
    Пример: ПРОМТ
  • 22.
    • TRANSFER на морфологическом уровне
    • входная морф. инф.  выходная морф. инф.
    • TRANSFER на уровне групп
    • Основа – формальные сетевые грамматики
    • При анализе соединение синтаксических единиц в группы  структура в терминах непосредственных составляющих  синтез лексических единиц с наследуемыми значениями морф. признаков
    • TRANSFER на уровне предложений
    • Основа – фреймовые предикатные структуры
    • Глагол – главный элемент
    • Валентности глагола определяют заполнение фрейма
    • Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов
    • +
    • Анализ сложных предложений – в случае формирования согласования времен и правильного перевода союзов.
    Промт: трансфер на разных уронях
  • 23. Словари
    • Генеральный словарь
    • Специализированные словари
    • Пользовательские словари
    • Чем уже тематика, тем лучше качество перевода
  • 24. Трансфер
    • Глубокое лингвистическое знание – лучше качество перевода
    • Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически)
    • Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков
  • 25. Содержание
    • Основные подходы
    • Перевод, основанный на правилах
      • прямой перевод
      • трансфер
      • интерлингва
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 26. Система типа INTERLINGUA Предложение на языке входа Метаструктура для языка входа == Метаструктура для языка выхода Предложение на языке выхода анализ синтез
    • Пока ни одной подобной системы не создано
    • Причина: сложность создания семантического представления приемлемого качества
  • 27. Transfer vs. interlingua
  • 28. Сожержание
    • Основные подходы
    • Перевод, основанный на правилах
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 29. Статистический перевод
    • Основа - параллельный корпус
    • Вероятности назначаются подсчетом наиболее вероятного варианта перевода
    • Оценки вероятности зависят от объема и качества обучающего корпуса
    • Лингвистическая информация: разбиение на предложения, графематический анализ, морфология
    • При наличии корпуса простейшая система перевода может быть сделана на 2 недели
  • 30. Вероятностная модель
    • Исходная цепочка S преобразуется в такую цепочку T целевого языка, что:
    • T = argmax p (T|S)
    • Теорема Байеса:
    • T = argmax p (S|T) p (T)
    • Содержательная интерпретация:
      • хороший перевод – это сочетание точности передачи информации и правильности целевого языка;
      • нужна модель перевода p (S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p (T) (вычисляется по одноязычному корпусу)
  • 31. Языковая модель
    • Правильный порядок слов
    • Некоторые идеи грамматики
    • Вычисляется с помощью n- грамм :
  • 32. Модель перевода
    • p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e .
    • Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача .
      • a – показатель качества выравнивания ( alignment)
  • 33. Содержание
    • Основные подходы
    • Перевод, основанный на правилах
    • Перевод, основанный на машинном обучении
    • Оценка машинного перевода
  • 34. Bilingual Evaluation Understudy (BLEU)
    • Требуется тестовое множество, переведенное человеком
    • Оценивается близость между машинным и человеческим переводом
    • Взвешенное среднее числа совпадений N-грамм машинного перевода с переводом человека
  • 35. Источники
    • D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 2 5
    • A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 409-422
    • Dan Jurafsky From Languages to Information. Lecture 1 6-17 : Machine Translation - http://www.stanford.edu/class/cs124/
    • Дмитрий Кан Введение в машинный перевод - http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
    • Денис Столяров Автоматический перевод на основе шаблонов - http :// mathlingvo.ru / nlpseminar / archive /s_23
    • Елена Уфлянд Работа автоматического переводчика ПроМТ - http://mathlingvo.ru/nlpseminar/archive/s_3
    • Александр Гребеньков Работа автоматического переводчика - http :// mathlingvo.ru / nlpseminar / archive /s_10