Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

аот

675 views

Published on

Published in: Technology, Business
  • Be the first to comment

  • Be the first to like this

аот

  1. 1. Автоматическая обработка текста (АОТ) Воронова Ирина НОУ ВПО Институт управления бизнеса и права
  2. 2. История развития <ul><li>АОТ — преобразование текста на искусственном или естественном языке с помощью ЭВМ </li></ul>
  3. 3. Классификация АОТ <ul><li>Язык входного текста - Язык выходного текста </li></ul><ul><li>Естественный-1 - Естественный-2 </li></ul><ul><li>Искусственный - Естественный </li></ul><ul><li>Естественный - Искусственный / Естественный </li></ul><ul><li>Естественный – Естественный + {Искусственный} </li></ul>
  4. 4. Компоненты АОТ
  5. 5. Графематический анализ <ul><li>ГрафАн - это алгоритм начального анализа естественного текста (ЕТ), представленного в виде цепочки текстовых знаков (ASCII символов) </li></ul><ul><li>Задачи: </li></ul><ul><li>1. Разделение входного текста на слова, разделители и т.д. </li></ul><ul><li>2. Сборка слов, написанных в разрядку; </li></ul><ul><li>3. Выделение устойчивых оборотов, не имеющих словоизменительных вариантов; </li></ul><ul><li>4. Выделение дат в цифровых форматах; </li></ul><ul><li>5. Выделение ФИО (фамилия, имя, отчество); </li></ul><ul><li>6. Выделение электронных адресов; </li></ul><ul><li>7. Выделение предложений из входного текста; </li></ul><ul><li>8. Выделение абзацев, заголовков, примечаний. </li></ul>
  6. 6. Морфологический анализ <ul><li>МА - Построение морфологической интерпретации слов входного текста </li></ul><ul><li>Задачи: </li></ul><ul><li>1. Однозначное идентифицирование единиц текста в терминах лексико-грамматических классов; </li></ul><ul><li>2. Определение внутри класса словоизменительных характеристик словоформ (грамматический подкласс); </li></ul><ul><li>3. Сведение словоизменительных парадигм, приведение словоформ одной лексемы к канонической форме. </li></ul>
  7. 7. Синтаксический анализ <ul><li>СА - выделения в них смысловых единиц и установления связей между ними </li></ul><ul><li>Принципы: </li></ul><ul><li>1. Глагол, краткая форма прилагательного или причастие считается управляющим словом для существительного; </li></ul><ul><li>2. Существительное всегда управляет стоящим справа от него другим существительным; </li></ul><ul><li>3. Предлог всегда управляет следующим за ним существительным; </li></ul><ul><li>4. Предлог может управляться только глаголом или стоящей слева от него отглагольной формой; </li></ul><ul><li>5. Прилагательное обычно управляется стоящим справа от него существительным. </li></ul>
  8. 8. Семантический анализ <ul><li>СА -построение семантического графа текста </li></ul><ul><li>Роль – согласованность трех разных языков : </li></ul><ul><li>Язык построенных системой лингвистических структур (плюс другие лингвистические знания), которые он получает на входе; </li></ul><ul><li>2. Язык той предметной области, к которой относится текст и термины которой желательно использовать при построении выходной структуры; </li></ul><ul><li>3. Язык пользователя, для которого система АПТ должна построить Информацию. </li></ul>
  9. 9. Решение прикладных задач <ul><li>Machine Translation and Translation Aids - машинный перевод; </li></ul><ul><li>2. Text Generation - генерация текста; </li></ul><ul><li>3. Localization and Internationalization - локализация и интернационализация; </li></ul><ul><li>4. Controlled Language - работа на ограниченном языке; </li></ul><ul><li>5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок); </li></ul><ul><li>6. Information Retrieval - информационный поиск и связанные с ним задачи. </li></ul>
  10. 10. Коммерческие программные продукты
  11. 11. Спасибо за внимание!

×