аот

616 views
521 views

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
616
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

аот

  1. 1. Автоматическая обработка текста (АОТ) Воронова Ирина НОУ ВПО Институт управления бизнеса и права
  2. 2. История развития <ul><li>АОТ — преобразование текста на искусственном или естественном языке с помощью ЭВМ </li></ul>
  3. 3. Классификация АОТ <ul><li>Язык входного текста - Язык выходного текста </li></ul><ul><li>Естественный-1 - Естественный-2 </li></ul><ul><li>Искусственный - Естественный </li></ul><ul><li>Естественный - Искусственный / Естественный </li></ul><ul><li>Естественный – Естественный + {Искусственный} </li></ul>
  4. 4. Компоненты АОТ
  5. 5. Графематический анализ <ul><li>ГрафАн - это алгоритм начального анализа естественного текста (ЕТ), представленного в виде цепочки текстовых знаков (ASCII символов) </li></ul><ul><li>Задачи: </li></ul><ul><li>1. Разделение входного текста на слова, разделители и т.д. </li></ul><ul><li>2. Сборка слов, написанных в разрядку; </li></ul><ul><li>3. Выделение устойчивых оборотов, не имеющих словоизменительных вариантов; </li></ul><ul><li>4. Выделение дат в цифровых форматах; </li></ul><ul><li>5. Выделение ФИО (фамилия, имя, отчество); </li></ul><ul><li>6. Выделение электронных адресов; </li></ul><ul><li>7. Выделение предложений из входного текста; </li></ul><ul><li>8. Выделение абзацев, заголовков, примечаний. </li></ul>
  6. 6. Морфологический анализ <ul><li>МА - Построение морфологической интерпретации слов входного текста </li></ul><ul><li>Задачи: </li></ul><ul><li>1. Однозначное идентифицирование единиц текста в терминах лексико-грамматических классов; </li></ul><ul><li>2. Определение внутри класса словоизменительных характеристик словоформ (грамматический подкласс); </li></ul><ul><li>3. Сведение словоизменительных парадигм, приведение словоформ одной лексемы к канонической форме. </li></ul>
  7. 7. Синтаксический анализ <ul><li>СА - выделения в них смысловых единиц и установления связей между ними </li></ul><ul><li>Принципы: </li></ul><ul><li>1. Глагол, краткая форма прилагательного или причастие считается управляющим словом для существительного; </li></ul><ul><li>2. Существительное всегда управляет стоящим справа от него другим существительным; </li></ul><ul><li>3. Предлог всегда управляет следующим за ним существительным; </li></ul><ul><li>4. Предлог может управляться только глаголом или стоящей слева от него отглагольной формой; </li></ul><ul><li>5. Прилагательное обычно управляется стоящим справа от него существительным. </li></ul>
  8. 8. Семантический анализ <ul><li>СА -построение семантического графа текста </li></ul><ul><li>Роль – согласованность трех разных языков : </li></ul><ul><li>Язык построенных системой лингвистических структур (плюс другие лингвистические знания), которые он получает на входе; </li></ul><ul><li>2. Язык той предметной области, к которой относится текст и термины которой желательно использовать при построении выходной структуры; </li></ul><ul><li>3. Язык пользователя, для которого система АПТ должна построить Информацию. </li></ul>
  9. 9. Решение прикладных задач <ul><li>Machine Translation and Translation Aids - машинный перевод; </li></ul><ul><li>2. Text Generation - генерация текста; </li></ul><ul><li>3. Localization and Internationalization - локализация и интернационализация; </li></ul><ul><li>4. Controlled Language - работа на ограниченном языке; </li></ul><ul><li>5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок); </li></ul><ul><li>6. Information Retrieval - информационный поиск и связанные с ним задачи. </li></ul>
  10. 10. Коммерческие программные продукты
  11. 11. Спасибо за внимание!

×