Системы аннотирования и реферирования

Системы аннотирования и
реферирования
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 5

Свёртывание информации
• Задачи
– Индексирование
– Аннотирование
– Реферирование
– Конспектирование
– Фрагментирование
• Это сжатие, или компрессия, текста
первичного документа при его
переработке в текст вторичного
документа

Типы свертывания информации
• Аннотация
–150-200 знаков
–указательный реферат
(indicative abstract)
• Реферат
–1500-2000 знаков
–информативный реферат
(informative abstract)
Связный текст, который кратко выражает
центральную тему или предмет какого-то
документа
Связный текст, который кроме этого кратко
выражает цель, применяемые методы и
основные результаты описанного
исследования или разработки

Типология
• выдержки vs резюме
– фрагменты документа
– заново переписанный текст
• общий vs основан на запросе vs
ориентирован на пользователя
– в одинаковой мере раскрыты все основные
темы
– основан на запросе “what are the causes of
the war?”
– пользователь интересуется химией
• для новичка vs для эксперта
– включение предпосылок
– только новая информация

Типология
• однодокументный vs многодокументный
– научная статья
– сборник докладов конференции
• текстовая форма vs перечисление vs таблица
vs структурированная информация
– абзац
– список основных положений, тезисов
– числовая информация в таблице
– с заголовками
• на языке документа vs на другом языке
– одноязычное реферирование
– перевод реферата

Исследователи
• Г.П.Лун
• Г.Эдмундсон
• В.Е.Берзон
• И.П.Севбо
• Э.Ф.Скороходько
• Д.Г.Лахути
• В.П.Леонов
• Р.Г.Пиотровский

Направления
• Квазиреферирование
– экстракция из первичных документов
наиболее информативных фрагментов и их
склейка
• Собственно автоматическое
реферирование
– выделение существенной информации и
порождение новых текстов

Направления
• Квазиреферирование
– анализ поверхностно-синтаксических
отношений в тексте
• Собственно автоматическое
реферирование
– обращение к глубинно-семантическим
процессам
– экспериментальные исследования, до
широкой реализации еще не дошло

Экстрактивные методы
• Акцент на выделение характерных
фрагментов – предложений
• С помощью фразовых шаблонов
• И статистики
• В большинстве методов применяется
модель линейных весовых
коэффициентов – каждому блоку текста
назначаются веса
• Самые «тяжёлые» блоки склеиваются

Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• Location: в начале, в середине или в
конце; в вводной части или в
заключении
• CuePhrase: «в заключение», «в данной
статье», «согласно результатам
анализа» и т.д.

Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• StatTerm: статистическая важность
автоматическая индексация (например,
метрика tf.idf)
• AddTerm: есть ли в блоке текста также
термины из
– заголовка,
– колонтитула,
– 1-го параграфа,
– пользовательского запроса

Обобщенная архитектура
реферирования без опоры на
знания
Билл Диксон поступил на работу в Procter & Gamble в
1994 году. В 1996 году он стал ее вице-президентом
Исходный
текст
Измерения
статистической
важности
Сопоставление
шаблонов
Расчёт
частоты
Расчёт
частоты
Выделе-
ние
Выбор
Анализ Синтез

Статистические методы
Метод Луна (Luhn, 1958)
1. часто встречающиеся в тексте слова
являются наиболее значимыми
2. чем больше часто встречающихся слов
оказывается рядом, тем более
существенную информацию содержит
предложение
– Игнорируются смысловые связи между
словами
+ простота анализа, однородность
получаемых результатов

Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Метод Луна незначительно
модифицирован
– N R NN R NNN R NN
– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8
• R – слова, частота встречаемости
которых превосходит среднюю частоту
слов в документе
• 10% предложений (<=20) – размер
реферата

Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Предложения с большими весами подлежали
включению в реферат
• Со средним — помечались как «резервные»
• Если число встретившихся в двух
предложениях синонимов и близких по
значению слов > 25% от общего количества
слов в предложении, то такие предложения
считались избыточными и вычеркивались
• В этом случае для реферата выбирались
предложения из резерва
• Этот процесс длился до тех пор, пока не
устранялись избыточные или не
заканчивались «резервные» предложения

Метод Освальда
• Использовался инструмент,
применяемый при индексировании:
• Предложения анализируемого текста
сопоставлялись с заданными
перечнями слов, объединёнными по
смыслу
• Отбирались предложения с
наибольшим количеством совпавших с
перечнем слов
• Отобранные предложения далее
обрабатывались по методу Г. Луна

Метод Освальда
• выявление слов, отражающих содержание
документа;
• выявление «мультитермов», т.е. устойчивых
словосочетаний, при условии, что они
встречаются в тексте чаще одного раза;
• выявление предложений с двумя и более
мультитермами;
• расположение мультитермов в порядке
частоты встречаемости;
• отбор предложений с наибольшим
количеством основных слов и мультитермов

Методы статистических
ассоциаций
• Л. Дойл и М. Квиллиан
• применили для отражения содержания
документов ассоциативные методы
создания семантически связанных
групп (пучков) терминов (word clusters)
• совместная встречаемость терминов в
предложениях
• В реферат включаются не только
основные термины, но и другие
элементы текста

Ассоциативные карты Л. Дойла
• Сначала создаётся исходная матрица
(ключевые слова текста) и матрица
взаимосвязанных элементов.
• Использовав коэффициент корреляции
Пирсона, Л. Дойл вычислил коэффициенты
подобия между терминами отдельных
документов
• Реферат представлял собой реферат
телеграфного стиля (короткие назывные
предложения или набор ключевых слов
(дескрипторов)

Семантические карты
М. Квиллиана
• М. Квиллиан предложил использовать
не ассоциативные карты, составленные
на основе статистических показателей,
а семантические карты.
• При этом учитывались взаимосвязи не
между отдельными словами, а между
информативными концептами

Экстрактивные методы
• Дистрибутивный метод Эрла (Earl)
• Метод автоматического реферирования
документов (Automatic Document
Abstracting Method — ADAM)
• Дж. Раш, Р. Сальвадор и А. Замора
«Метод отказа от предложений»
(method for rejecting sentenses)
• Метод текстовых связей

Методы с опорой на знания
Два основных подхода метода формирования
краткого изложения

Системы аннотирования и реферирования

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Системы аннотирования и реферирования

Similar to Системы аннотирования и реферирования (20)

More from Artem Lukanin

More from Artem Lukanin (20)

Системы аннотирования и реферирования