АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ  НА ЕСТЕСТВЕННОМ ЯЗЫКЕ:  ВВЕДЕНИЕ Большакова Елена Игоревна  
СОДЕРЖАНИЕ История области АОТ Задачи направления Особенности естественного языка (ЕЯ) Уровни языка и текста на ЕЯ  Понятие модели АОТ Лингвистические ресурсы Основные приложения (прикладные задачи)
АВТОМАТИЧЕСКАЯ ОБРАБОТКА  ТЕКСТА на ЕЯ:  ИСТОКИ Начало работ – 50-е годы,  Потребности практики: машинный перевод Название научной области:   Автоматическая обработка тестов на ЕЯ  Natural Language Processing Машинная /Инженерная лингвистика Вычислительная/ Компьютерная лингвистика Computational Linguistics Междисциплинарное  научное направление:  Лингвистика Математика Информатика ( Computer Science ) Искусственный интеллект ( Artificial Intelligence )
АОТ  и  ЛИНГВИСТИКА Общая лингвистика Фонология (звуки речи) Морфология (структура и форма слов ЕЯ) Синтаксис (структура и функции предложений) Семантика (смысл языковых высказываний) Прагматика (значение высказываний) Социолингвистика  Психолингвистика Лексикография (описание лексикона ЕЯ) Прикладная лингвистика
АОТ:  МАТЕМАТИКА и ИНФОРМАТИКА Математическая лингвистика (область математики) Квантитативная (статистическая)  лингвистика (изучение языка/речи количественными методами)   Теория формальных языков и грамматик  – возникла из  порождающих грамматик   Н.Хомского (50-е гг.),  для анализа синтаксических структур ЕЯ Информатика ( Computer Science ) Методы трансляции языков программирования (ЯП) – алгоритмы из теории формальных языков Общность с АОТ:    цель – построение компьютерных программ
АОТ  и  ИСКУССТВЕННЫЙ ИНТЕЛЕКТ Междисциплинарный характер области ИИ:  составная часть  Computer Science ,    пересечение (по задачам и методам) с АОТ Задача ИИ – компьютерное моделирование интеллектуальных функций Методы моделирования: эвристические Обработка ЕЯ – интеллектуальная функция Первая известная программа ИИ по обработке ЕЯ – Система Т. Винограда (70-е годы);   Пример диалога : Pick up a big red block.   (человек) OK   (машина) Is there a large block behind a pyramid? Yes, Three of them. Grasp the pyramid. I don’t understand, which pyramid you mean.
ОСНОВНАЯ ЗАДАЧА  АОТ Разработка  компьютерных программ  для автоматической обработки неструктурированных текстов на ЕЯ –  лингвистических процессоров Лигвистический процессор:  Основа – некоторая  формальная модель языка Важно: зависимость от  конкретного ЕЯ Пример: редактор  Word , но не   NotePad Сложность задач АОТ: Многообразие ЕЯ (способов выражения одного и того же смысла) Сложность любого ЕЯ и текста на ЕЯ, как закодированного смысла
ОСОБЕННОСТИ  ЕЯ ЕЯ – сложная  система знаков,   возникшая для обмена информацией в процессе человеческой деятельности и постоянно изменяющаяся вместе с ней  Семиотика  - теория знаковых систем (например: знаки дорожного движения, язык жестов) Две стороны знака:  означаемое  –  означающее (материальн.) Языковой знак  – для целей  коммуникации  (например: морская сигнализация флажками)   Сложности ЕЯ (несколько сот тысяч языковых знаков) комбинаторная  система  (упор. совокупность) яз. знаков многоуровневость системы ЕЯ и текста  каждый  уровень  (подсистема) –  правила  сочетания знаков (грамматика), взаимосвязь уровней Разнообразие языков и языковые универсалии
ЯЗЫК – ПРЕОБРАЗОВАТЕЛЬ  СМЫСЛ    ТЕКСТ Центральный объект  –  текст,  линейность  текста Текст составлен из различных  единиц , относящихся к разным  уровням  (разложимость на меньшие единицы) Единицы:  незначащие  и  значащие  (языковые знаки)
ОСОБЕННОСТИ  ЕЯ: УРОВНИ Синтаксический –  предложения  (фразы) ЕЯ подуровень  словосочетаний  ( красивый закат, вижу лес ,  булочка с изюмом ) надуровень  сверхфразовых единств  ( ≈ абзацев) – предложений, объединяющихся по смыслу  Морфологический –  слова  ( словоформы ) Подуровень  морфем ;  раз-реш-ен   морфема  – минимальная значащая единица  (корень, приставка, суффикс…) имеет смысловое содержание и звуковое выражение Фонологический:  звуки  ( фонемы )/ буквы  –  незначащие единицы , средство различения др. единиц  (фразы, слова, морфемы – смысловые единицы)
ДОПОЛНИТЕЛЬНЫЕ УРОВНИ ЕЯ: Семантический : набор элементарных единиц –  сем  Лексический : множество лексем (лексикон)  лексема  – совокупность  словоформ  слова    например:  конь ,  коня ,  коню ,  коне Дискурсивный  (уровень связного текста):  схематические структуры текстов (патентные формулы, деловые письма и т.п.) Взаимосвязь всех уровней Сложность системы ЕЯ     возможность построить практически бесконечное число высказываний (смыслов)
ЕЯ и ИСКУССТВЕННЫЕ ЯЗЫКИ   Например:  языки программирования (ЯП),  логики ЯП близки к ЕЯ по функциям, но Принципиальные отличия: Открытость и изменчивость ЕЯ (на всех уровнях)    невозможность единожды создать лингв. процессор  Нестандартная сочетаемость ( синтактика )  единиц ЕЯ на всех уровнях, например,  л ексическая :    крепкий чай , но не  тяжелый чай  ( heavy tea ) Большая системность (число уровней) и степень ассиметрии связи единиц и выражаемых ими смыслов: полисемия  ,  синонимия ,  омонимия
ЕЯ: АССИМЕТРИЯ   Ассиметрия связи  означающее (единица языка)    означаемое (ее смысл) Полисемия  – многозначность языковой единицы например, для слова  земля :   Земля, суша, почва, страна, территория Синонимия  – совпадение единиц по основному  смыслу (обычно: различия в смысл. оттенках и стиле) В частности, синонимия предлогов:  о  –  про поездку синонимия слов:  горячий – жаркий синонимия приставок, суффиксов, союзов и др. Омонимия   –  звуковое совпадение или совпадение на письме (по форме) двух или более языковых единиц
ЕЯ : ОМОНИМИЯ Совпадение по форме двух разных по смыслу единиц   Наиболее частые виды:   Лексическая  омонимия   -  одинаково звучащие/пишущиеся слова, не имеющие общих элементов смысла, например,   рожа  –  лицо и вид болезни . Морфологическая  омонимия  –  совпадение форм одного и того же слова (лексемы), например, словоформа   круг  соответствует именительному и винительному падежам .  Лексико-морфологическая  омонимия – совпадение словоформ двух разных лексем, например,   стих  –  глагол в единств. числе мужского рода и существительное в единств. числе, именит. падеже), Синтаксическая  омонимия – неоднозначность синтаксической структуры (и соответствующего смысла):     Студенты из Львова поехали в Киев    Flying planes can be dangerous   (пример Хомского).
МОДЕЛИРОВАНИЕ  в АОТ Модель языка  должна обладать структурным и\или функциональным подобием Особенности моделей АОТ  (отличие от лингвистических): Формальность и  алгоритмизируемость; Функциональность: цель – воспроизведение функций языка, а не моделирование язык. деятельности человека ; Общность модели, т.е. покрытие ею довольно большого множества текстов;  Экспериментальная обоснованность (тестирование); Ориентация на конкретные прикладные задачи АОТ; Опора на те или иные  лингвистические ресурсы  как обязательную составляющую модели.
МОДУЛЬНОСТЬ  ЛИНГВ. ПРОЦЕСОРОВ   Сложность ЕЯ     лингвистический процессор – многоэтапный преобразователь (два направления – анализ и синтез)
УРОВНИ АНАЛИЗА ТЕКСТА Уровни анализа    уровни языковой системы Графематический анализ  Морфологический анализ Постморфологический анализ: разрешение морфологической омонимии Предсинтаксис: сегментация текста на предложения Синтаксический анализ предложений Семантический и прагматический анализ глубина обработки  текста    (количество уровней)
ВИДЫ  МОДЕЛЕЙ В АОТ Структурные (учет несколько уровней)  Статистические модели :   учет статистики  символов/букв , их биграмм и триграмм (уровень символов) или  слов,  их биграмм и триграмм Структурно-статистические На разных уровнях ЕЯ: Модели морфологии  Модели синтаксиса  (синтаксические деревья:  деревья непосредственно составляющих / деревья зависимостей  ) Модели представления смысла (свойства объектов, отношения, состояния, действия) – на основе моделей ИИ:  формулы исчисления предикатов  или  семантические сети
МОДЕЛЬ  «Смысл  Текст»   И. А. Мельчук,  Ю. Д. Апресян (с 70-х годов)  Смысл  – инвариант синонимичных преобразований текста. ориентация на синтез текстов   многоуровневость модели, разделение основных уровней на  поверхностный  и  глубинный  уровень, например:  глубинный  (семантизированный) и  поверхностный  («чистый») синтаксис.  Сохранение всей информации   при переходе с уровня на уровень ; Лексические функции  для описания нестандартной синтактики,  на их основе сформулированы правила синтаксического перифразирования;  Упор на словарь, а не на грамматику; в словаре –  информация для разных уровней языка (синтаксис:  модели управления слов,  описывающие их синтаксические и семантические валентности ); Семантическое представление текста: семантический граф + коммуникативная организация смысла
ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ Лингвистические процессоры базируются на определенном представлении необходимой в модели  лингвистической информации : Компьютерные словари Грамматики ЕЯ Базы словосочетаний Тезаурусы и онтологии Коллекции и корпуса текстов
ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: СЛОВАРИ  и  ГРАММАТИКИ Словари  обычно разрабатываются специально. Различаются: Охватом лексики:  общая/специальная Представленной информацией (в словарной статье): например,   морфологические словари Видом:  - словари синонимов: - словари паронимов ( чужой  и  чуждый) - словари  терминов  некоторой предметной области Грамматики  – набор правил, описывающих синтаксическую структуру предложений:  Пример   правила :   S     NP  VP
ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ:  БАЗЫ СЛОВОСОЧЕТАНИЙ Сравнительно новый тип лексического ресурса, Отражает стандартную и нестандартную сочетаемость слов ЕЯ Обширная база словосочетаний  РЯ – система  КроссЛексика Примерно миллион словосочетаний общей лексики Словосочетания многих синтаксических типов: -  определяемое слово    определитель  ( полевая форма ,  вполне удачный ) -  существительное    его дополнение  ( рост возмущения ) -  глагол    его дополнение  ( заметить разницу ,  решить продать ) -  прилагательное    его дополнение  ( дошедший до ручки ) -  сочиненная пара  ( наземный и воздушный ,  орел и решка ) Семантические связи слов: синонимы, антонимы, гиперонимы, холонимы Пометы стиля слов  (устарелый, разговорный, бранный, и т.п).
ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: ТЕЗАУРУСЫ И ОНТОЛОГИИ Тезаурус – семантический словарь РуТез  – информационно-поисковый тезаурус, 52 тыс. понятий из общественно-политической области; связи: синонимия, род-вид (выше-ниже), ассоциация, онтологическая зависимость, КроссЛексика  (поскольку представлены смысловые отношения) Онтология – формальное описание определенного набора понятий, сущностей   WordNet   –  лингвистическая онтология  на базе английских слов - Дж. Миллер, 1984 г., модель человеческой памяти - слова разбиты по частям речи - для слов каждой части речи выделены  синсеты  – наборы синонимов - версия 3.0 – 155 тыс. лексем, 117 тыс  синсетов  (понятий)  EuroNet  – аналогичные лексические ресурсы для других европейских языков
ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: КОРПУСА ТЕКСТОВ Трудоемкость создания лингвистических процессоров и лексических ресурсов     автоматизация их построения   Коллекция текстов :   представительный набор текстов, собранных по определенному принципу Корпус текстов :   коллекция текстов с лингвистической разметкой:  морфологической,  лексической, синтаксической, дискурсивной  - использование в лингвистических исследованиях - применение для машинного обучения моделей - для РЯ –  Национальный корпус русского языка Интернет-корпус:  тексты сети Интернет как корпус современной речи
C ТРУКТУРА КУРСА  «АОТ» Статистические методы и модели ЕЯ   уровень символов, уровень слов Морфологические модели АОТ   уровень слов (словоформ) Методы синтаксического анализа   подходы к синтаксическому анализу   методы анализа контекстно-свободных языков  Семантика текста и представление знаний в ИИ Разработка приложений АОТ (обзорно)   инструментальные средства   извлечение информации из текстов
ЛИТЕРАТУРА Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.  Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. –  М.: МИЭМ, 2011.  Васильев В.   Г., Кривенко М.   П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008. Болховитянов А.В., Гусев А.В., Чеповский А.М. Морфологические модели компьютерной лингвистики: учеб. пособие – М. МГУП, 2010.  Чатуев М.Б., Чеповский А.М. Частотные методы  в компьютерной лингвистике: учеб. пособие – М. МГУП, 2011.
ПРИКЛАДНЫЕ ЗАДАЧИ АОТ Машинный перевод Информационный поиск Классификация и кластеризация текстов Реферирование и аннотирование текстов Формирование ответов на вопросы Генерация текстов на ЕЯ Автоматизация подготовки и редактирования текстов Извлечение информации из текстов Анализ мнений по текстам Организация диалога с пользователем на ЕЯ Обучение ЕЯ Распознавание и синтез звучащей речи
МАШИННЫЙ ПЕРЕВОД:  НАЧАЛО ИССЛЕДОВАНИЙ 50ые годы Джоржтаунский эксперимент, 54 г.: автоматический перевод с русского на английский, словарь – 250 слов Первые работы в России:  55 г. –  перевод с английского на русский текстов по прикладной математике, словарь – 2300 слов;  далее – работы в ИПМ имени Келдыша (О.С. Кулагина) Простейшая лингвистическая модель: пословный перевод Неравномерность развития работ по МП (приостановка финансирования исследований в 60-е годы) Периодизация  методов/систем – используемая для МП лингвистическая стратегия
МАШИННЫЙ ПЕРЕВОД:  ПЕРВЫЕ ПОКОЛЕНИЯ СИСТЕМ Различие в методах и лингвистических ресурсах  50-60 гг. – двуязычные системы,    простейшие модели –    пословный  и  пословно-пооборотный  перевод (дают приемлемое качество только для родственных языков, например, испанский-португальский) 60-70 гг. –  пофразный  перевод,   наличие синтаксического анализа,  стратегия   АНАЛИЗ    ТРАНСФЕР     СИНТЕЗ  –   модульность (грамматика и словарь)  –   пред- и пост-редактирование человеком  –   появление промышленных систем:  SYSTRAN   –   США, 70 г. , перевод научно-техн. текстов
МАШИННЫЙ ПЕРЕВОД:  СРЕДНЕЕ ПОКОЛЕНИЕ СИСТЕМ экстенсивное развитие МП 3.  70-80 гг. –  многоязычные  системы,   идея внутреннего   универсального семантического  языка-посредника  (для европейских языков) Россия (организации и отечественные системы):   ВЦП:  англо/немецко/французско-русский перевод – системы АМПАР, НЕРПА, ФРАП   ИнформЭлектро / ИППИ – система  ЭТАП , основана на модели ЕЯ «Смысл  Текст» , французско/английско-русский перевод научно-технических текстов, одна из наиболее полных лингвистических моделей МП,  Канада:   с 76 г.   TAUM METEO  – полноценная система перевода метеосводок с английского на французский
МАШИННЫЙ ПЕРЕВОД:  ПОСЛЕДНИЕ ПОКОЛЕНИЯ СИСТЕМ с середины 80х годов 4.   80-90 гг. – многоязычные системы,   –   опора на лексические и терминологические БД   –   использование  интерлингвы  – языка-посредника   –  система ЭТАП-3 – язык  UNL 5.   90-00 гг.   – использование статистики, корпусов текстов:   статистическая трансляция  (переводчик в  Google , работа в реальном масштабе ) Оценка систем МП  (Кулагина О.С., ИПМ):   адекватность и понятность перевода грамматическая правильность предложений семантическая связность всего текста
МАШИННЫЙ ПЕРЕВОД:  СОВРЕМЕННОЕ СОСТОЯНИЕ Большое количество работ по МП за все годы исследований Много коммерческих систем, но нет с удовлетворительным качеством перевода ПРОМТ,  ABBY Проблема полностью автоматического перевода текстов по открытой тематике неразрешима нерешенные проблемы:  –   многовариантность синт. анализа, необходимо подключение семантики   –   межфразовые связи в тексте, единое понятийное пространство (семантика)
ПРИКЛАДНЫЕ ЗАДАЧИ: ИНФОРМАЦИОННЫЙ ПОИСК   50  гг.:  Information Retrieval   –   основные понятия: Поисковый образ  документа на ЕЯ –  ключевые слова (отражают основное содержание документа),  например:  мультимедийные документы ,  вентилируемое водолазное снаряжение Запрос на поиск  документа/ов – набор нужных слов, выражающих информационную потребность Результат поиска –  релевантные  документы (их ключевые слова соответствуют поисковому запросу, используются разные критерии соответствия) Корпоративные информационные системы полнотекстовый поиск
ИНФОРМАЦИОННЫЙ ПОИСК: МЕТОДЫ Индексирование   документа на ЕЯ – выделение ключевых слов  и словосочетаний вручную человеком или автоматически критерии автоматического индексирования: -  статистические  (частота употребления слов\словосочетаний) и  -  лингвистические  (лексические, грамматические) для поиска в сети  Интернет  - выделение всех знаменательных слов (индексация документов Показатели качества поиска Полнота  ( Recall ):  R   =   число найденных прав. результатов   число возможных прав. ответов Точность  ( Precision ):  P   =   число найденных прав. результатов     общее число всех результатов F- мера:   F = 2*P*R /( P+R)
ИНФОРМАЦИОННЫЙ ПОИСК: СМЕЖНЫЕ ЗАДАЧИ Используется, как правило, векторная модель текста  –  набор слов ( bag of words ) Классификация текстов  – отнесение к классам с заданными свойствами/параметрами  Рубрицирование текстов  – классификация, соотнесение с иерархической  системой классов Кластеризация текстов  – создание подмножеств близких тематически документов Для решения –  методы машинного обучения Приложения: выявление спама и др.  Научное направление –  Text Mining   (часть   Data Mining )
ИНФОРМАЦИОННЫЙ ПОИСК: РЕФЕРИРОВАНИЕ,  АННОТИРОВАНИЕ   Реферирование текста  – построение краткого реферата для одного или нескольких тематически связанных текстов -  основная стратегия – отбор наиболее значимых  предложений -  сложности: учет анафорических ссылок Аннотирование текста -  аннотация  – вторичный документ, еще более краткий, чем реферат - в простейшем случае – перечень основных тем/ключевых слов документа
ПРИКЛАДНЫЕ ЗАДАЧИ:   QUESTION ANSWERING   Ответы на вопросы  – сравнительно новая задача ИП и КЛ, очень актуальная (но и забытое старое направление ИИ, 70 гг.)  Нужен не документ или сниппет, а ответ на конкретный вопрос , например:  Кто придумал вилку? Примерная стратегия построения ответа: - определение типа вопроса, и запрашиваемого понятия  - построение запроса к интернет-поисковику - извлечение из найденных документов нужной информации - построение фразы ответа
ПРИКЛАДНЫЕ ЗАДАЧИ: ГЕНЕРАЦИЯ ТЕКСТА с 70х годов – в рамках ИИ, рост работ в 90-2000 гг. Особенности задачи – автоматическое построение описания на ЕЯ информации, представленной в  нетекстовой форме  : БД, таблицы, семантические сети, рисунки и др. При этом требуется нужный пользователю    объем  описания (размер текста) и  аспект  описания Возможные формы ответов:   –  отчет по БД   – ответ на вопрос пользователя (о составе БД, определения основных объектов, объяснения устройств, комментарий по новым фактам БД и т.п.)   –  инструкция пользования прибором или др.
ГЕНЕРАЦИЯ ТЕКСТА: МЕТОДЫ Выходной результат –  связный  текст на ЕЯ Необходимы компьют. модели семантики и  дискурса Теория  RST – Rhetorical Structure Theory (Mann, Thompson, 1987  гг.): риторические отношения Этапы (модули) генерации:   Планировщик  (что сказать) – содержание и общая структура текста (объекты, события, их лексическое выражение, риторические схемы) Лингвистический модуль  (как) – лингвистическое оформление содержания (синтакс. и морфол. синтез)  Условность разделения: языково-независимые структуры и  структуры, зависящие от языка
ГЕНЕРАЦИЯ ТЕКСТА: СИСТЕМЫ Системы многоязыковой генерации инструкций, руководств пользователя,  патентных формул (Европа)  –  задачи тиражирования документов на разных языках (техническое писательство) Система  GOSSIP  (Канада) – генерация на английском языке аннотаций протоколов работы ОС (анализ с целью защиты от несанкционированного доступа) FoG  (Канада)  –  двуязычная генерация текстов метеосводок (на англ. и франц. языках) по общей базе метеоданных, на основе системы МП  TAUM METEO  и  модели ЕЯ «Смысл  Текст»  (И.А.Мельчук)  3 этапа (модуля) обработки:  1) отбор метеоданных  2) концептуализация (сжатие, обобщение метеособытий) 3) лингвистический компонент (синтез предложений)
ПРИКЛАДНЫЕ ЗАДАЧИ :   WRITING  SUPPORT   Автоматизация подготовки и редактирования текстов Первые программы:  - автоматическая простановка переносов слов - проверка орфографии (спеллеры, автокорректоры) Коммерческие системы:  проверка орфографии , частично – синтаксиса, а также – сложности  стиля Исследовательские разработки: - выявление неправильного употребления предлогов (использование моделей управления) - обнаружение сложных лексических ошибок (описки, приводящие к другим словам:  овальный/оральный,  паронимические ошибки : болотный/болотистый
ПРИКЛАДНЫЕ ЗАДАЧИ:   INFORMATION EXTRACTION   Извлечение информации (знаний) из текстов: Специфика задачи – распознавание и выявление в тексте определенной значимой информации: –  конкретных  объектов   ( имен лиц, названий фирм и учреждений, географических названий, дат и т.п).  – понятий (терминов:  технология двойной накачки ) –  отношений  (связей) выделенных объектов и понятий  (например:  давать кредит –  связанных с ними  событий  и  фактов Обычно: обработка текстовых корпусов (Мегабайты, Гигабайты),  в том числе – интернет-тексты
INFORMATION EXTRACTION  : ЦЕЛИ,  ОБЛАСТИ Задачи: текстовая аналитика (экономическая, производственная, правоохранительная и др.), базы фактов построение словарей терминов и тезаурусов (освоение новой ПО)  обучение по текстам (ИИ): построение онтологий (моделей проблемной области) Примеры областей: военно-морские операции террористическая деятельность совместные предприятия назначения и отставки запуски космических кораблей
INFORMATION EXTRACTION   ВЫДЕЛЯЕМЫЕ  СУЩНОСТИ Именованные сущности : Имена персоналий, должности Географические названия Названия фирм, организаций, учреждений Адреса Даты Марки товаров Биология: гены, белки Отношения  (связи) выделенных сущностей, например:  работать в   Смирнов А.  работает  в   ОА «Альфа» с 1998 г. связанные с ними  события  ( events ) получение кредита, слияние компаний…
INFORMATION EXTRACTION   ТЕХНОЛОГИИ Основные подходы:  – извлечение на основе лингвистических правил ( rule-based )  – машинное обучение (все чаще) Особенность – частичный синтаксический анализ текстов (неэфффективность и многовариантность синт. разбора)  Лигвистические правила-шаблоны , содержащие лексическую, морфологическую и синтаксическую информацию  Итеративная разработка правил и шаблонов Одна из центральных проблем –  установление тождества, слияние различных именований одной и той же сущности:  William Gates, Bill Gates ,  сокращения:  W .  Gates именные группы: владелец  Microsoft
INFORMATION EXTRACTION   ЛИНГВИСТИЧЕСКИЕ ШАБЛОНЫ Точность выделения по шаблонам – 90-96%  (в целом выше, чем при машинном обучении) Лингвистич. шаблон  – описание языковой конструкции, ее  лексического состава  и  грамматических  свойств: N   “ работает ”  в   NP   (Noun Phrase) Элементы шаблонов:  Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы
INFORMATION EXTRACTION :  ПРОЕКТ  ONTOS АвиКомп, 2000  – 2010  гг. Извлечение под управлением  онтологии Инструментальная система  GATE Семейство систем  OntosMiner   - для разных ЕЯ и ПО  Цели Построение модели  ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата -  извлеченная информация
INFORMATION EXTRACTION :   ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют  понятия  специальной области знаний:  общий регистр ,  число с плавающей точкой,    пенсионное обеспечение Критерии выделения: статистические  (частотность) лингвистические  (шаблоны) :    лексические, грамматические свойства, Например: шаблоны определений терминов Приложения: построение  глоссариев  и  предметных указателей создание онтологий и тезаурусов   ПО поддержка терминологич. редактирования текстов навигация по терминам текста
ПРИКЛАДНЫЕ ЗАДАЧИ: OPINION MINING Относится к области   Text Mining   Близко по целям и методам  к  Information Extraction Opinion Mining   и  Sentiment Analysis  : –  выделение и суммирование мнений (о товарах, фильмах и проч.) в сети Интернетфорумах,  блогах и т.п. –   оценка тональности текста ( контент-анализ )
ДРУГИЕ ПРИКЛАДНЫЕ ЗАДАЧИ Диалог с пользователем на ЕЯ  (ИИ, с 60 гг.) –   запросы к специализированной базе данных    (язык ограничен лексически и грамматически)   –  разбор вопроса, генерация фразы ответа  –   близость к задачам автоматической генерации,    а также  Questions Answering   Обучение ЕЯ  (отдельные уровни и модели) обычно: лексика языка, грамматика Распознавание и синтез звучащей речи :  –   учет  фонологического  уровня,  –  использование моделей морфологии
ЗАКЛЮЧЕНИЕ Расширяющийся круг прикладных задач АОТ, рассмотренные приложения: осязаемые результаты В основном используются простые  и редуцированные модели языка Причина: трудоемкость разработки сложных моделей, неэффективность соответствующих алгоритмов Современная тенденция - применение машинного обучения ,  которое дополняет Традиционный подход –  rule-based  (основанный на правилах, имеющих лингвистическую интерпретацию) СПАСИБО ЗА ВНИМАНИЕ!
C ТРУКТУРА КУРСА  «АОТ» Статистические методы и модели ЕЯ   уровень символов, уровень слов Морфологические модели АОТ   уровень слов (словоформ) Методы синтаксического анализа   подходы к синтаксическому анализу   методы анализа контекстно-свободных языков  Семантика текста и представление знаний в ИИ Разработка приложений АОТ (обзорно)   инструментальные средства   извлечение информации из текстов

АОТ - Введение

  • 1.
    АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ: ВВЕДЕНИЕ Большакова Елена Игоревна  
  • 2.
    СОДЕРЖАНИЕ История областиАОТ Задачи направления Особенности естественного языка (ЕЯ) Уровни языка и текста на ЕЯ Понятие модели АОТ Лингвистические ресурсы Основные приложения (прикладные задачи)
  • 3.
    АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА на ЕЯ: ИСТОКИ Начало работ – 50-е годы, Потребности практики: машинный перевод Название научной области: Автоматическая обработка тестов на ЕЯ Natural Language Processing Машинная /Инженерная лингвистика Вычислительная/ Компьютерная лингвистика Computational Linguistics Междисциплинарное научное направление: Лингвистика Математика Информатика ( Computer Science ) Искусственный интеллект ( Artificial Intelligence )
  • 4.
    АОТ и ЛИНГВИСТИКА Общая лингвистика Фонология (звуки речи) Морфология (структура и форма слов ЕЯ) Синтаксис (структура и функции предложений) Семантика (смысл языковых высказываний) Прагматика (значение высказываний) Социолингвистика Психолингвистика Лексикография (описание лексикона ЕЯ) Прикладная лингвистика
  • 5.
    АОТ: МАТЕМАТИКАи ИНФОРМАТИКА Математическая лингвистика (область математики) Квантитативная (статистическая) лингвистика (изучение языка/речи количественными методами) Теория формальных языков и грамматик – возникла из порождающих грамматик Н.Хомского (50-е гг.), для анализа синтаксических структур ЕЯ Информатика ( Computer Science ) Методы трансляции языков программирования (ЯП) – алгоритмы из теории формальных языков Общность с АОТ: цель – построение компьютерных программ
  • 6.
    АОТ и ИСКУССТВЕННЫЙ ИНТЕЛЕКТ Междисциплинарный характер области ИИ: составная часть Computer Science , пересечение (по задачам и методам) с АОТ Задача ИИ – компьютерное моделирование интеллектуальных функций Методы моделирования: эвристические Обработка ЕЯ – интеллектуальная функция Первая известная программа ИИ по обработке ЕЯ – Система Т. Винограда (70-е годы); Пример диалога : Pick up a big red block. (человек) OK (машина) Is there a large block behind a pyramid? Yes, Three of them. Grasp the pyramid. I don’t understand, which pyramid you mean.
  • 7.
    ОСНОВНАЯ ЗАДАЧА АОТ Разработка компьютерных программ для автоматической обработки неструктурированных текстов на ЕЯ – лингвистических процессоров Лигвистический процессор: Основа – некоторая формальная модель языка Важно: зависимость от конкретного ЕЯ Пример: редактор Word , но не NotePad Сложность задач АОТ: Многообразие ЕЯ (способов выражения одного и того же смысла) Сложность любого ЕЯ и текста на ЕЯ, как закодированного смысла
  • 8.
    ОСОБЕННОСТИ ЕЯЕЯ – сложная система знаков, возникшая для обмена информацией в процессе человеческой деятельности и постоянно изменяющаяся вместе с ней Семиотика - теория знаковых систем (например: знаки дорожного движения, язык жестов) Две стороны знака: означаемое – означающее (материальн.) Языковой знак – для целей коммуникации (например: морская сигнализация флажками) Сложности ЕЯ (несколько сот тысяч языковых знаков) комбинаторная система (упор. совокупность) яз. знаков многоуровневость системы ЕЯ и текста каждый уровень (подсистема) – правила сочетания знаков (грамматика), взаимосвязь уровней Разнообразие языков и языковые универсалии
  • 9.
    ЯЗЫК – ПРЕОБРАЗОВАТЕЛЬ СМЫСЛ  ТЕКСТ Центральный объект – текст, линейность текста Текст составлен из различных единиц , относящихся к разным уровням (разложимость на меньшие единицы) Единицы: незначащие и значащие (языковые знаки)
  • 10.
    ОСОБЕННОСТИ ЕЯ:УРОВНИ Синтаксический – предложения (фразы) ЕЯ подуровень словосочетаний ( красивый закат, вижу лес , булочка с изюмом ) надуровень сверхфразовых единств ( ≈ абзацев) – предложений, объединяющихся по смыслу Морфологический – слова ( словоформы ) Подуровень морфем ; раз-реш-ен морфема – минимальная значащая единица (корень, приставка, суффикс…) имеет смысловое содержание и звуковое выражение Фонологический: звуки ( фонемы )/ буквы – незначащие единицы , средство различения др. единиц (фразы, слова, морфемы – смысловые единицы)
  • 11.
    ДОПОЛНИТЕЛЬНЫЕ УРОВНИ ЕЯ:Семантический : набор элементарных единиц – сем Лексический : множество лексем (лексикон) лексема – совокупность словоформ слова например: конь , коня , коню , коне Дискурсивный (уровень связного текста): схематические структуры текстов (патентные формулы, деловые письма и т.п.) Взаимосвязь всех уровней Сложность системы ЕЯ  возможность построить практически бесконечное число высказываний (смыслов)
  • 12.
    ЕЯ и ИСКУССТВЕННЫЕЯЗЫКИ Например: языки программирования (ЯП), логики ЯП близки к ЕЯ по функциям, но Принципиальные отличия: Открытость и изменчивость ЕЯ (на всех уровнях)  невозможность единожды создать лингв. процессор Нестандартная сочетаемость ( синтактика ) единиц ЕЯ на всех уровнях, например, л ексическая : крепкий чай , но не тяжелый чай ( heavy tea ) Большая системность (число уровней) и степень ассиметрии связи единиц и выражаемых ими смыслов: полисемия , синонимия , омонимия
  • 13.
    ЕЯ: АССИМЕТРИЯ Ассиметрия связи означающее (единица языка)  означаемое (ее смысл) Полисемия – многозначность языковой единицы например, для слова земля : Земля, суша, почва, страна, территория Синонимия – совпадение единиц по основному смыслу (обычно: различия в смысл. оттенках и стиле) В частности, синонимия предлогов: о – про поездку синонимия слов: горячий – жаркий синонимия приставок, суффиксов, союзов и др. Омонимия – звуковое совпадение или совпадение на письме (по форме) двух или более языковых единиц
  • 14.
    ЕЯ : ОМОНИМИЯСовпадение по форме двух разных по смыслу единиц Наиболее частые виды: Лексическая омонимия - одинаково звучащие/пишущиеся слова, не имеющие общих элементов смысла, например, рожа – лицо и вид болезни . Морфологическая омонимия – совпадение форм одного и того же слова (лексемы), например, словоформа круг соответствует именительному и винительному падежам . Лексико-морфологическая омонимия – совпадение словоформ двух разных лексем, например, стих – глагол в единств. числе мужского рода и существительное в единств. числе, именит. падеже), Синтаксическая омонимия – неоднозначность синтаксической структуры (и соответствующего смысла): Студенты из Львова поехали в Киев Flying planes can be dangerous (пример Хомского).
  • 15.
    МОДЕЛИРОВАНИЕ вАОТ Модель языка должна обладать структурным и\или функциональным подобием Особенности моделей АОТ (отличие от лингвистических): Формальность и алгоритмизируемость; Функциональность: цель – воспроизведение функций языка, а не моделирование язык. деятельности человека ; Общность модели, т.е. покрытие ею довольно большого множества текстов; Экспериментальная обоснованность (тестирование); Ориентация на конкретные прикладные задачи АОТ; Опора на те или иные лингвистические ресурсы как обязательную составляющую модели.
  • 16.
    МОДУЛЬНОСТЬ ЛИНГВ.ПРОЦЕСОРОВ Сложность ЕЯ  лингвистический процессор – многоэтапный преобразователь (два направления – анализ и синтез)
  • 17.
    УРОВНИ АНАЛИЗА ТЕКСТАУровни анализа  уровни языковой системы Графематический анализ Морфологический анализ Постморфологический анализ: разрешение морфологической омонимии Предсинтаксис: сегментация текста на предложения Синтаксический анализ предложений Семантический и прагматический анализ глубина обработки текста (количество уровней)
  • 18.
    ВИДЫ МОДЕЛЕЙВ АОТ Структурные (учет несколько уровней) Статистические модели : учет статистики символов/букв , их биграмм и триграмм (уровень символов) или слов, их биграмм и триграмм Структурно-статистические На разных уровнях ЕЯ: Модели морфологии Модели синтаксиса (синтаксические деревья: деревья непосредственно составляющих / деревья зависимостей ) Модели представления смысла (свойства объектов, отношения, состояния, действия) – на основе моделей ИИ: формулы исчисления предикатов или семантические сети
  • 19.
    МОДЕЛЬ «Смысл Текст» И. А. Мельчук, Ю. Д. Апресян (с 70-х годов) Смысл – инвариант синонимичных преобразований текста. ориентация на синтез текстов многоуровневость модели, разделение основных уровней на поверхностный и глубинный уровень, например: глубинный (семантизированный) и поверхностный («чистый») синтаксис. Сохранение всей информации при переходе с уровня на уровень ; Лексические функции для описания нестандартной синтактики, на их основе сформулированы правила синтаксического перифразирования; Упор на словарь, а не на грамматику; в словаре – информация для разных уровней языка (синтаксис: модели управления слов, описывающие их синтаксические и семантические валентности ); Семантическое представление текста: семантический граф + коммуникативная организация смысла
  • 20.
    ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ Лингвистическиепроцессоры базируются на определенном представлении необходимой в модели лингвистической информации : Компьютерные словари Грамматики ЕЯ Базы словосочетаний Тезаурусы и онтологии Коллекции и корпуса текстов
  • 21.
    ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: СЛОВАРИ и ГРАММАТИКИ Словари обычно разрабатываются специально. Различаются: Охватом лексики: общая/специальная Представленной информацией (в словарной статье): например, морфологические словари Видом: - словари синонимов: - словари паронимов ( чужой и чуждый) - словари терминов некоторой предметной области Грамматики – набор правил, описывающих синтаксическую структуру предложений: Пример правила : S  NP VP
  • 22.
    ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: БАЗЫ СЛОВОСОЧЕТАНИЙ Сравнительно новый тип лексического ресурса, Отражает стандартную и нестандартную сочетаемость слов ЕЯ Обширная база словосочетаний РЯ – система КроссЛексика Примерно миллион словосочетаний общей лексики Словосочетания многих синтаксических типов: - определяемое слово  определитель ( полевая форма , вполне удачный ) - существительное  его дополнение ( рост возмущения ) - глагол  его дополнение ( заметить разницу , решить продать ) - прилагательное  его дополнение ( дошедший до ручки ) - сочиненная пара ( наземный и воздушный , орел и решка ) Семантические связи слов: синонимы, антонимы, гиперонимы, холонимы Пометы стиля слов (устарелый, разговорный, бранный, и т.п).
  • 23.
    ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: ТЕЗАУРУСЫИ ОНТОЛОГИИ Тезаурус – семантический словарь РуТез – информационно-поисковый тезаурус, 52 тыс. понятий из общественно-политической области; связи: синонимия, род-вид (выше-ниже), ассоциация, онтологическая зависимость, КроссЛексика (поскольку представлены смысловые отношения) Онтология – формальное описание определенного набора понятий, сущностей WordNet – лингвистическая онтология на базе английских слов - Дж. Миллер, 1984 г., модель человеческой памяти - слова разбиты по частям речи - для слов каждой части речи выделены синсеты – наборы синонимов - версия 3.0 – 155 тыс. лексем, 117 тыс синсетов (понятий) EuroNet – аналогичные лексические ресурсы для других европейских языков
  • 24.
    ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ: КОРПУСАТЕКСТОВ Трудоемкость создания лингвистических процессоров и лексических ресурсов  автоматизация их построения Коллекция текстов : представительный набор текстов, собранных по определенному принципу Корпус текстов : коллекция текстов с лингвистической разметкой: морфологической, лексической, синтаксической, дискурсивной - использование в лингвистических исследованиях - применение для машинного обучения моделей - для РЯ – Национальный корпус русского языка Интернет-корпус: тексты сети Интернет как корпус современной речи
  • 25.
    C ТРУКТУРА КУРСА «АОТ» Статистические методы и модели ЕЯ уровень символов, уровень слов Морфологические модели АОТ уровень слов (словоформ) Методы синтаксического анализа подходы к синтаксическому анализу методы анализа контекстно-свободных языков Семантика текста и представление знаний в ИИ Разработка приложений АОТ (обзорно) инструментальные средства извлечение информации из текстов
  • 26.
    ЛИТЕРАТУРА Леонтьева Н.Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011. Васильев В.   Г., Кривенко М.   П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008. Болховитянов А.В., Гусев А.В., Чеповский А.М. Морфологические модели компьютерной лингвистики: учеб. пособие – М. МГУП, 2010. Чатуев М.Б., Чеповский А.М. Частотные методы в компьютерной лингвистике: учеб. пособие – М. МГУП, 2011.
  • 27.
    ПРИКЛАДНЫЕ ЗАДАЧИ АОТМашинный перевод Информационный поиск Классификация и кластеризация текстов Реферирование и аннотирование текстов Формирование ответов на вопросы Генерация текстов на ЕЯ Автоматизация подготовки и редактирования текстов Извлечение информации из текстов Анализ мнений по текстам Организация диалога с пользователем на ЕЯ Обучение ЕЯ Распознавание и синтез звучащей речи
  • 28.
    МАШИННЫЙ ПЕРЕВОД: НАЧАЛО ИССЛЕДОВАНИЙ 50ые годы Джоржтаунский эксперимент, 54 г.: автоматический перевод с русского на английский, словарь – 250 слов Первые работы в России: 55 г. – перевод с английского на русский текстов по прикладной математике, словарь – 2300 слов; далее – работы в ИПМ имени Келдыша (О.С. Кулагина) Простейшая лингвистическая модель: пословный перевод Неравномерность развития работ по МП (приостановка финансирования исследований в 60-е годы) Периодизация методов/систем – используемая для МП лингвистическая стратегия
  • 29.
    МАШИННЫЙ ПЕРЕВОД: ПЕРВЫЕ ПОКОЛЕНИЯ СИСТЕМ Различие в методах и лингвистических ресурсах 50-60 гг. – двуязычные системы, простейшие модели – пословный и пословно-пооборотный перевод (дают приемлемое качество только для родственных языков, например, испанский-португальский) 60-70 гг. – пофразный перевод, наличие синтаксического анализа, стратегия АНАЛИЗ  ТРАНСФЕР  СИНТЕЗ – модульность (грамматика и словарь) – пред- и пост-редактирование человеком – появление промышленных систем: SYSTRAN – США, 70 г. , перевод научно-техн. текстов
  • 30.
    МАШИННЫЙ ПЕРЕВОД: СРЕДНЕЕ ПОКОЛЕНИЕ СИСТЕМ экстенсивное развитие МП 3. 70-80 гг. – многоязычные системы, идея внутреннего универсального семантического языка-посредника (для европейских языков) Россия (организации и отечественные системы): ВЦП: англо/немецко/французско-русский перевод – системы АМПАР, НЕРПА, ФРАП ИнформЭлектро / ИППИ – система ЭТАП , основана на модели ЕЯ «Смысл  Текст» , французско/английско-русский перевод научно-технических текстов, одна из наиболее полных лингвистических моделей МП, Канада: с 76 г. TAUM METEO – полноценная система перевода метеосводок с английского на французский
  • 31.
    МАШИННЫЙ ПЕРЕВОД: ПОСЛЕДНИЕ ПОКОЛЕНИЯ СИСТЕМ с середины 80х годов 4. 80-90 гг. – многоязычные системы, – опора на лексические и терминологические БД – использование интерлингвы – языка-посредника – система ЭТАП-3 – язык UNL 5. 90-00 гг. – использование статистики, корпусов текстов: статистическая трансляция (переводчик в Google , работа в реальном масштабе ) Оценка систем МП (Кулагина О.С., ИПМ): адекватность и понятность перевода грамматическая правильность предложений семантическая связность всего текста
  • 32.
    МАШИННЫЙ ПЕРЕВОД: СОВРЕМЕННОЕ СОСТОЯНИЕ Большое количество работ по МП за все годы исследований Много коммерческих систем, но нет с удовлетворительным качеством перевода ПРОМТ, ABBY Проблема полностью автоматического перевода текстов по открытой тематике неразрешима нерешенные проблемы: – многовариантность синт. анализа, необходимо подключение семантики – межфразовые связи в тексте, единое понятийное пространство (семантика)
  • 33.
    ПРИКЛАДНЫЕ ЗАДАЧИ: ИНФОРМАЦИОННЫЙПОИСК 50 гг.: Information Retrieval – основные понятия: Поисковый образ документа на ЕЯ – ключевые слова (отражают основное содержание документа), например: мультимедийные документы , вентилируемое водолазное снаряжение Запрос на поиск документа/ов – набор нужных слов, выражающих информационную потребность Результат поиска – релевантные документы (их ключевые слова соответствуют поисковому запросу, используются разные критерии соответствия) Корпоративные информационные системы полнотекстовый поиск
  • 34.
    ИНФОРМАЦИОННЫЙ ПОИСК: МЕТОДЫИндексирование документа на ЕЯ – выделение ключевых слов и словосочетаний вручную человеком или автоматически критерии автоматического индексирования: - статистические (частота употребления слов\словосочетаний) и - лингвистические (лексические, грамматические) для поиска в сети Интернет - выделение всех знаменательных слов (индексация документов Показатели качества поиска Полнота ( Recall ): R = число найденных прав. результатов число возможных прав. ответов Точность ( Precision ): P = число найденных прав. результатов общее число всех результатов F- мера: F = 2*P*R /( P+R)
  • 35.
    ИНФОРМАЦИОННЫЙ ПОИСК: СМЕЖНЫЕЗАДАЧИ Используется, как правило, векторная модель текста – набор слов ( bag of words ) Классификация текстов – отнесение к классам с заданными свойствами/параметрами Рубрицирование текстов – классификация, соотнесение с иерархической системой классов Кластеризация текстов – создание подмножеств близких тематически документов Для решения – методы машинного обучения Приложения: выявление спама и др. Научное направление – Text Mining (часть Data Mining )
  • 36.
    ИНФОРМАЦИОННЫЙ ПОИСК: РЕФЕРИРОВАНИЕ, АННОТИРОВАНИЕ Реферирование текста – построение краткого реферата для одного или нескольких тематически связанных текстов - основная стратегия – отбор наиболее значимых предложений - сложности: учет анафорических ссылок Аннотирование текста - аннотация – вторичный документ, еще более краткий, чем реферат - в простейшем случае – перечень основных тем/ключевых слов документа
  • 37.
    ПРИКЛАДНЫЕ ЗАДАЧИ: QUESTION ANSWERING Ответы на вопросы – сравнительно новая задача ИП и КЛ, очень актуальная (но и забытое старое направление ИИ, 70 гг.) Нужен не документ или сниппет, а ответ на конкретный вопрос , например: Кто придумал вилку? Примерная стратегия построения ответа: - определение типа вопроса, и запрашиваемого понятия - построение запроса к интернет-поисковику - извлечение из найденных документов нужной информации - построение фразы ответа
  • 38.
    ПРИКЛАДНЫЕ ЗАДАЧИ: ГЕНЕРАЦИЯТЕКСТА с 70х годов – в рамках ИИ, рост работ в 90-2000 гг. Особенности задачи – автоматическое построение описания на ЕЯ информации, представленной в нетекстовой форме : БД, таблицы, семантические сети, рисунки и др. При этом требуется нужный пользователю объем описания (размер текста) и аспект описания Возможные формы ответов: – отчет по БД – ответ на вопрос пользователя (о составе БД, определения основных объектов, объяснения устройств, комментарий по новым фактам БД и т.п.) – инструкция пользования прибором или др.
  • 39.
    ГЕНЕРАЦИЯ ТЕКСТА: МЕТОДЫВыходной результат – связный текст на ЕЯ Необходимы компьют. модели семантики и дискурса Теория RST – Rhetorical Structure Theory (Mann, Thompson, 1987 гг.): риторические отношения Этапы (модули) генерации: Планировщик (что сказать) – содержание и общая структура текста (объекты, события, их лексическое выражение, риторические схемы) Лингвистический модуль (как) – лингвистическое оформление содержания (синтакс. и морфол. синтез) Условность разделения: языково-независимые структуры и структуры, зависящие от языка
  • 40.
    ГЕНЕРАЦИЯ ТЕКСТА: СИСТЕМЫСистемы многоязыковой генерации инструкций, руководств пользователя, патентных формул (Европа) – задачи тиражирования документов на разных языках (техническое писательство) Система GOSSIP (Канада) – генерация на английском языке аннотаций протоколов работы ОС (анализ с целью защиты от несанкционированного доступа) FoG (Канада) – двуязычная генерация текстов метеосводок (на англ. и франц. языках) по общей базе метеоданных, на основе системы МП TAUM METEO и модели ЕЯ «Смысл  Текст» (И.А.Мельчук) 3 этапа (модуля) обработки: 1) отбор метеоданных 2) концептуализация (сжатие, обобщение метеособытий) 3) лингвистический компонент (синтез предложений)
  • 41.
    ПРИКЛАДНЫЕ ЗАДАЧИ : WRITING SUPPORT Автоматизация подготовки и редактирования текстов Первые программы: - автоматическая простановка переносов слов - проверка орфографии (спеллеры, автокорректоры) Коммерческие системы: проверка орфографии , частично – синтаксиса, а также – сложности стиля Исследовательские разработки: - выявление неправильного употребления предлогов (использование моделей управления) - обнаружение сложных лексических ошибок (описки, приводящие к другим словам: овальный/оральный, паронимические ошибки : болотный/болотистый
  • 42.
    ПРИКЛАДНЫЕ ЗАДАЧИ: INFORMATION EXTRACTION Извлечение информации (знаний) из текстов: Специфика задачи – распознавание и выявление в тексте определенной значимой информации: – конкретных объектов ( имен лиц, названий фирм и учреждений, географических названий, дат и т.п). – понятий (терминов: технология двойной накачки ) – отношений (связей) выделенных объектов и понятий (например: давать кредит – связанных с ними событий и фактов Обычно: обработка текстовых корпусов (Мегабайты, Гигабайты), в том числе – интернет-тексты
  • 43.
    INFORMATION EXTRACTION : ЦЕЛИ, ОБЛАСТИ Задачи: текстовая аналитика (экономическая, производственная, правоохранительная и др.), базы фактов построение словарей терминов и тезаурусов (освоение новой ПО) обучение по текстам (ИИ): построение онтологий (моделей проблемной области) Примеры областей: военно-морские операции террористическая деятельность совместные предприятия назначения и отставки запуски космических кораблей
  • 44.
    INFORMATION EXTRACTION ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности : Имена персоналий, должности Географические названия Названия фирм, организаций, учреждений Адреса Даты Марки товаров Биология: гены, белки Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события ( events ) получение кредита, слияние компаний…
  • 45.
    INFORMATION EXTRACTION ТЕХНОЛОГИИ Основные подходы: – извлечение на основе лингвистических правил ( rule-based ) – машинное обучение (все чаще) Особенность – частичный синтаксический анализ текстов (неэфффективность и многовариантность синт. разбора) Лигвистические правила-шаблоны , содержащие лексическую, морфологическую и синтаксическую информацию Итеративная разработка правил и шаблонов Одна из центральных проблем – установление тождества, слияние различных именований одной и той же сущности: William Gates, Bill Gates , сокращения: W . Gates именные группы: владелец Microsoft
  • 46.
    INFORMATION EXTRACTION ЛИНГВИСТИЧЕСКИЕ ШАБЛОНЫ Точность выделения по шаблонам – 90-96% (в целом выше, чем при машинном обучении) Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “ работает ” в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы
  • 47.
    INFORMATION EXTRACTION : ПРОЕКТ ONTOS АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация
  • 48.
    INFORMATION EXTRACTION : ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют понятия специальной области знаний: общий регистр , число с плавающей точкой, пенсионное обеспечение Критерии выделения: статистические (частотность) лингвистические (шаблоны) : лексические, грамматические свойства, Например: шаблоны определений терминов Приложения: построение глоссариев и предметных указателей создание онтологий и тезаурусов ПО поддержка терминологич. редактирования текстов навигация по терминам текста
  • 49.
    ПРИКЛАДНЫЕ ЗАДАЧИ: OPINIONMINING Относится к области Text Mining Близко по целям и методам к Information Extraction Opinion Mining и Sentiment Analysis : – выделение и суммирование мнений (о товарах, фильмах и проч.) в сети Интернетфорумах, блогах и т.п. – оценка тональности текста ( контент-анализ )
  • 50.
    ДРУГИЕ ПРИКЛАДНЫЕ ЗАДАЧИДиалог с пользователем на ЕЯ (ИИ, с 60 гг.) – запросы к специализированной базе данных (язык ограничен лексически и грамматически) – разбор вопроса, генерация фразы ответа – близость к задачам автоматической генерации, а также Questions Answering Обучение ЕЯ (отдельные уровни и модели) обычно: лексика языка, грамматика Распознавание и синтез звучащей речи : – учет фонологического уровня, – использование моделей морфологии
  • 51.
    ЗАКЛЮЧЕНИЕ Расширяющийся кругприкладных задач АОТ, рассмотренные приложения: осязаемые результаты В основном используются простые и редуцированные модели языка Причина: трудоемкость разработки сложных моделей, неэффективность соответствующих алгоритмов Современная тенденция - применение машинного обучения , которое дополняет Традиционный подход – rule-based (основанный на правилах, имеющих лингвистическую интерпретацию) СПАСИБО ЗА ВНИМАНИЕ!
  • 52.
    C ТРУКТУРА КУРСА «АОТ» Статистические методы и модели ЕЯ уровень символов, уровень слов Морфологические модели АОТ уровень слов (словоформ) Методы синтаксического анализа подходы к синтаксическому анализу методы анализа контекстно-свободных языков Семантика текста и представление знаний в ИИ Разработка приложений АОТ (обзорно) инструментальные средства извлечение информации из текстов