Successfully reported this slideshow.

Lecture1

843 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Lecture1

  1. 1. Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
  2. 2. Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1. Введение в дисциплину 2. Автоматический анализ текста на морфологическом уровне 3. Автоматический анализ текста на синтаксическом уровне 4. Семантический компонент в системах автоматического анализа текста
  3. 3. Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1. Введение в дисциплину 2. Автоматический анализ текста на морфологическом уровне 3. Автоматический анализ текста на синтаксическом уровне 4. Семантический компонент в системах автоматического анализа текста
  4. 4. Компьютерный анализ естественно-языкового текста ВВЕДЕНИЕ В ДИСЦИПЛИНУ • Лингвистические информационные технологии: актуальные задачи • Лингвистическая составляющая ЛИТ (прикладная лингвистика, компьютерная лингвистика, языковая инженерия) • Функциональность ЛИТ и уровни обработки естественно-языкового текста
  5. 5. ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ • Распознавание звучащей речи • Поддержка ввода текста на электронные носители (распознавание печатного и рукописного текста, автозавершение, коррекция на лексико- морфологическом и синтаксическом уровне) • Синтез речи по тексту • Информационный поиск (лингвистически нетривиальные функции); рубрикация/индексация текстов • Машинный перевод • Извлечение фактов и знаний • Диалог с компьютерными системами на естественном языке • Компрессия текста (аннотирование, реферирование)
  6. 6. ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Составляющие по областям знания Техническая Математическая Лингвистическая составляющая составляющая составляющая
  7. 7. ЛИНГВИСТИЧЕСКАЯ СОСТАВЛЯЮЩАЯ ЛИТ • компьютерная лингвистика — это наука о том, в каком виде представлен естественный язык в компьютерных системах, решающих утилитарные задачи Содержательно близкое понятие: инженерная лингвистика (по В.Ш.Рубашкину)
  8. 8. ИНЖЕНЕРНАЯ ЛИНГВИСТИКА, иные трактовки термина 1. Linguistic Engineering – отрасль теоретических и прикладных знаний, позволяющих создавать компьютерные системы с лингвистическими компонентами; синоним – Natural Language Engineering, впоследствии – Human Language Technology 2. отрасль знаний, разрабатываемая школой под руководством Р.Г.Пиотровского (группа «Статистика речи»)
  9. 9. ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Входы • Звучащая речь в электронном представлении • Письменный текст как последовательность символов: – Без ограничений (любой текст) – Набор ключевых слов для поиска – Тексты как источник информации – Команды информационным системам и роботам • Изображения письменного текста
  10. 10. ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Выходы • Письменный текст: – Результат коррекции входного текста – Перекодированный из другой языковой системы – Результат компрессии входного текста – Изложение фактов и элементов знаний (соотв. исходному запросу) • Звучащая речь – Озвученный входной текст – Озвученные результаты перекодирования, компрессии, выполнения информационных запросов • Ссылки на электронные документы • Действия роботов
  11. 11. ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Пути преобразования входов в выходы распознавание цифровая синтез звучащая запись на ест. звучащая речь или иск. речь языке изображения действия письм. текста роботов- манипуляторов
  12. 12. ФУНКЦИОНАЛЬНОСТЬ ЛИТ: операции с текстом в цифровом представлении Учет правил слова из букв высказывания из текста из построения: слов высказываний Типовые Форм. Содерж. Форм. Содерж. Форм. Содерж. операции: Коррекция + – + – – Перевод + + + + ( ) ( ) Компрессия + ( ) ( ) ( ) ( ) Информ. + – – запрос
  13. 13. ФУНКЦИОНАЛЬНОСТЬ ЛИТ: операции с текстом в цифровом представлении Уровень языка: Лексико- Синтаксический Текстовой морфологи- ческий Типовые Форм. Содерж. Форм. Содерж. Форм. Содерж. операции: Коррекция + – + – – Перевод + + + + ( ) ( ) Компрессия + ( ) ( ) ( ) ( ) Информ. + – – запрос
  14. 14. Рекомендуемая литература • Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М., 2006.

×