SlideShare a Scribd company logo
Системы аннотирования и
реферирования
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 5
Свёртывание информации
• Задачи
– Индексирование
– Аннотирование
– Реферирование
– Конспектирование
– Фрагментирование
• Это сжатие, или компрессия, текста
первичного документа при его
переработке в текст вторичного
документа
Типы свертывания информации
• Аннотация
–150-200 знаков
–указательный реферат
(indicative abstract)
• Реферат
–1500-2000 знаков
–информативный реферат
(informative abstract)
Связный текст, который кратко выражает
центральную тему или предмет какого-то
документа
Связный текст, который кроме этого кратко
выражает цель, применяемые методы и
основные результаты описанного
исследования или разработки
Типология
• выдержки vs резюме
– фрагменты документа
– заново переписанный текст
• общий vs основан на запросе vs
ориентирован на пользователя
– в одинаковой мере раскрыты все основные
темы
– основан на запросе “what are the causes of
the war?”
– пользователь интересуется химией
• для новичка vs для эксперта
– включение предпосылок
– только новая информация
Типология
• однодокументный vs многодокументный
– научная статья
– сборник докладов конференции
• текстовая форма vs перечисление vs таблица
vs структурированная информация
– абзац
– список основных положений, тезисов
– числовая информация в таблице
– с заголовками
• на языке документа vs на другом языке
– одноязычное реферирование
– перевод реферата
Исследователи
• Г.П.Лун
• Г.Эдмундсон
• В.Е.Берзон
• И.П.Севбо
• Э.Ф.Скороходько
• Д.Г.Лахути
• В.П.Леонов
• Р.Г.Пиотровский
Направления
• Квазиреферирование
– экстракция из первичных документов
наиболее информативных фрагментов и их
склейка
• Собственно автоматическое
реферирование
– выделение существенной информации и
порождение новых текстов
Направления
• Квазиреферирование
– анализ поверхностно-синтаксических
отношений в тексте
• Собственно автоматическое
реферирование
– обращение к глубинно-семантическим
процессам
– экспериментальные исследования, до
широкой реализации еще не дошло
Экстрактивные методы
• Акцент на выделение характерных
фрагментов – предложений
• С помощью фразовых шаблонов
• И статистики
• В большинстве методов применяется
модель линейных весовых
коэффициентов – каждому блоку текста
назначаются веса
• Самые «тяжёлые» блоки склеиваются
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• Location: в начале, в середине или в
конце; в вводной части или в
заключении
• CuePhrase: «в заключение», «в данной
статье», «согласно результатам
анализа» и т.д.
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• StatTerm: статистическая важность
автоматическая индексация (например,
метрика tf.idf)
• AddTerm: есть ли в блоке текста также
термины из
– заголовка,
– колонтитула,
– 1-го параграфа,
– пользовательского запроса
Обобщенная архитектура
реферирования без опоры на
знания
Билл Диксон поступил на работу в Procter & Gamble в
1994 году. В 1996 году он стал ее вице-президентом
Исходный
текст
Измерения
статистической
важности
Сопоставление
шаблонов
Расчёт
частоты
Расчёт
частоты
Выделе-
ние
Выбор
Анализ Синтез
Статистические методы
Метод Луна (Luhn, 1958)
1. часто встречающиеся в тексте слова
являются наиболее значимыми
2. чем больше часто встречающихся слов
оказывается рядом, тем более
существенную информацию содержит
предложение
– Игнорируются смысловые связи между
словами
+ простота анализа, однородность
получаемых результатов
Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Метод Луна незначительно
модифицирован
– N R NN R NNN R NN
– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8
• R – слова, частота встречаемости
которых превосходит среднюю частоту
слов в документе
• 10% предложений (<=20) – размер
реферата
Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Предложения с большими весами подлежали
включению в реферат
• Со средним — помечались как «резервные»
• Если число встретившихся в двух
предложениях синонимов и близких по
значению слов > 25% от общего количества
слов в предложении, то такие предложения
считались избыточными и вычеркивались
• В этом случае для реферата выбирались
предложения из резерва
• Этот процесс длился до тех пор, пока не
устранялись избыточные или не
заканчивались «резервные» предложения
Метод Освальда
• Использовался инструмент,
применяемый при индексировании:
• Предложения анализируемого текста
сопоставлялись с заданными
перечнями слов, объединёнными по
смыслу
• Отбирались предложения с
наибольшим количеством совпавших с
перечнем слов
• Отобранные предложения далее
обрабатывались по методу Г. Луна
Метод Освальда
• выявление слов, отражающих содержание
документа;
• выявление «мультитермов», т.е. устойчивых
словосочетаний, при условии, что они
встречаются в тексте чаще одного раза;
• выявление предложений с двумя и более
мультитермами;
• расположение мультитермов в порядке
частоты встречаемости;
• отбор предложений с наибольшим
количеством основных слов и мультитермов
Методы статистических
ассоциаций
• Л. Дойл и М. Квиллиан
• применили для отражения содержания
документов ассоциативные методы
создания семантически связанных
групп (пучков) терминов (word clusters)
• совместная встречаемость терминов в
предложениях
• В реферат включаются не только
основные термины, но и другие
элементы текста
Ассоциативные карты Л. Дойла
• Сначала создаётся исходная матрица
(ключевые слова текста) и матрица
взаимосвязанных элементов.
• Использовав коэффициент корреляции
Пирсона, Л. Дойл вычислил коэффициенты
подобия между терминами отдельных
документов
• Реферат представлял собой реферат
телеграфного стиля (короткие назывные
предложения или набор ключевых слов
(дескрипторов)
Семантические карты
М. Квиллиана
• М. Квиллиан предложил использовать
не ассоциативные карты, составленные
на основе статистических показателей,
а семантические карты.
• При этом учитывались взаимосвязи не
между отдельными словами, а между
информативными концептами
Экстрактивные методы
• Дистрибутивный метод Эрла (Earl)
• Метод автоматического реферирования
документов (Automatic Document
Abstracting Method — ADAM)
• Дж. Раш, Р. Сальвадор и А. Замора
«Метод отказа от предложений»
(method for rejecting sentenses)
• Метод текстовых связей
Методы с опорой на знания
Два основных подхода метода формирования
краткого изложения

More Related Content

What's hot

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
Lidia Pivovarova
 
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Елена Смутнева
 
Web-02-Intermediate PHP
Web-02-Intermediate PHPWeb-02-Intermediate PHP
Web-02-Intermediate PHP
Noveo
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
извлечение фактов из текста
извлечение фактов из текстаизвлечение фактов из текста
извлечение фактов из текста
Institute of Management Business and Law
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 

What's hot (18)

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
Шафферт Е. Стратегии развития словаря при чтении художественных и научно попу...
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Web-02-Intermediate PHP
Web-02-Intermediate PHPWeb-02-Intermediate PHP
Web-02-Intermediate PHP
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
извлечение фактов из текста
извлечение фактов из текстаизвлечение фактов из текста
извлечение фактов из текста
 
Puls Russian
Puls RussianPuls Russian
Puls Russian
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Tomita
TomitaTomita
Tomita
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
черевыщенко 1
черевыщенко 1черевыщенко 1
черевыщенко 1
 
тезаурус
тезаурустезаурус
тезаурус
 

Similar to Системы аннотирования и реферирования

Библиометрические показатели для оценки публикационной активности
Библиометрические показатели для оценки публикационной активностиБиблиометрические показатели для оценки публикационной активности
Библиометрические показатели для оценки публикационной активностиnulibrary
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Denis Samoylov
 
Оформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
Оформление результатов исследования: памятка перед защитой _ Тамара КулинковичОформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
Оформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
HRPR Camp - Самое технологичное событие в HR
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
GeeksLab Odessa
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Text2011elaz
Text2011elazText2011elaz
Text2011elaz
Vladimir Kukharenko
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
Lidia Pivovarova
 
Научная публикация международного уровня
Научная публикация международного уровняНаучная публикация международного уровня
Научная публикация международного уровня
Margarita Saydalieva
 
контент анализ понятия
контент анализ понятияконтент анализ понятия
контент анализ понятия
Елена Ключева
 
воеводина и.а.требования к научно исследов. работе
воеводина и.а.требования к научно исследов. работевоеводина и.а.требования к научно исследов. работе
воеводина и.а.требования к научно исследов. работеOlga Zelinskaya
 
Referat(lection)
Referat(lection)Referat(lection)
Referat(lection)
Pomeshickurs
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...
Eugene Bartov
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
Grishan1
 

Similar to Системы аннотирования и реферирования (20)

Библиометрические показатели для оценки публикационной активности
Библиометрические показатели для оценки публикационной активностиБиблиометрические показатели для оценки публикационной активности
Библиометрические показатели для оценки публикационной активности
 
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
Информационный поиск. Инвертированный индекс. Обработка булевых запросов.
 
Оформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
Оформление результатов исследования: памятка перед защитой _ Тамара КулинковичОформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
Оформление результатов исследования: памятка перед защитой _ Тамара Кулинкович
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Text2011elaz
Text2011elazText2011elaz
Text2011elaz
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Научная публикация международного уровня
Научная публикация международного уровняНаучная публикация международного уровня
Научная публикация международного уровня
 
контент анализ понятия
контент анализ понятияконтент анализ понятия
контент анализ понятия
 
шанс
шансшанс
шанс
 
Citation
CitationCitation
Citation
 
воеводина и.а.требования к научно исследов. работе
воеводина и.а.требования к научно исследов. работевоеводина и.а.требования к научно исследов. работе
воеводина и.а.требования к научно исследов. работе
 
Referat(lection)
Referat(lection)Referat(lection)
Referat(lection)
 
дидактический конструктор
дидактический конструктордидактический конструктор
дидактический конструктор
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 
Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиArtem Lukanin
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографииArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистики
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
Криптография
КриптографияКриптография
Криптография
 

Системы аннотирования и реферирования

  • 1. Системы аннотирования и реферирования А.В. Луканин Автоматическая обработка естественного языка. Лекция 5
  • 2. Свёртывание информации • Задачи – Индексирование – Аннотирование – Реферирование – Конспектирование – Фрагментирование • Это сжатие, или компрессия, текста первичного документа при его переработке в текст вторичного документа
  • 3. Типы свертывания информации • Аннотация –150-200 знаков –указательный реферат (indicative abstract) • Реферат –1500-2000 знаков –информативный реферат (informative abstract) Связный текст, который кратко выражает центральную тему или предмет какого-то документа Связный текст, который кроме этого кратко выражает цель, применяемые методы и основные результаты описанного исследования или разработки
  • 4. Типология • выдержки vs резюме – фрагменты документа – заново переписанный текст • общий vs основан на запросе vs ориентирован на пользователя – в одинаковой мере раскрыты все основные темы – основан на запросе “what are the causes of the war?” – пользователь интересуется химией • для новичка vs для эксперта – включение предпосылок – только новая информация
  • 5. Типология • однодокументный vs многодокументный – научная статья – сборник докладов конференции • текстовая форма vs перечисление vs таблица vs структурированная информация – абзац – список основных положений, тезисов – числовая информация в таблице – с заголовками • на языке документа vs на другом языке – одноязычное реферирование – перевод реферата
  • 6. Исследователи • Г.П.Лун • Г.Эдмундсон • В.Е.Берзон • И.П.Севбо • Э.Ф.Скороходько • Д.Г.Лахути • В.П.Леонов • Р.Г.Пиотровский
  • 7. Направления • Квазиреферирование – экстракция из первичных документов наиболее информативных фрагментов и их склейка • Собственно автоматическое реферирование – выделение существенной информации и порождение новых текстов
  • 8. Направления • Квазиреферирование – анализ поверхностно-синтаксических отношений в тексте • Собственно автоматическое реферирование – обращение к глубинно-семантическим процессам – экспериментальные исследования, до широкой реализации еще не дошло
  • 9. Экстрактивные методы • Акцент на выделение характерных фрагментов – предложений • С помощью фразовых шаблонов • И статистики • В большинстве методов применяется модель линейных весовых коэффициентов – каждому блоку текста назначаются веса • Самые «тяжёлые» блоки склеиваются
  • 10. Расчёт веса блока текста • Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U) • Location: в начале, в середине или в конце; в вводной части или в заключении • CuePhrase: «в заключение», «в данной статье», «согласно результатам анализа» и т.д.
  • 11. Расчёт веса блока текста • Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U) • StatTerm: статистическая важность автоматическая индексация (например, метрика tf.idf) • AddTerm: есть ли в блоке текста также термины из – заголовка, – колонтитула, – 1-го параграфа, – пользовательского запроса
  • 12. Обобщенная архитектура реферирования без опоры на знания Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом Исходный текст Измерения статистической важности Сопоставление шаблонов Расчёт частоты Расчёт частоты Выделе- ние Выбор Анализ Синтез
  • 13. Статистические методы Метод Луна (Luhn, 1958) 1. часто встречающиеся в тексте слова являются наиболее значимыми 2. чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содержит предложение – Игнорируются смысловые связи между словами + простота анализа, однородность получаемых результатов
  • 14. Метод ACSI-Matic (Assistant Chief of Staff for Intelligence) • Метод Луна незначительно модифицирован – N R NN R NNN R NN – 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8 • R – слова, частота встречаемости которых превосходит среднюю частоту слов в документе • 10% предложений (<=20) – размер реферата
  • 15. Метод ACSI-Matic (Assistant Chief of Staff for Intelligence) • Предложения с большими весами подлежали включению в реферат • Со средним — помечались как «резервные» • Если число встретившихся в двух предложениях синонимов и близких по значению слов > 25% от общего количества слов в предложении, то такие предложения считались избыточными и вычеркивались • В этом случае для реферата выбирались предложения из резерва • Этот процесс длился до тех пор, пока не устранялись избыточные или не заканчивались «резервные» предложения
  • 16. Метод Освальда • Использовался инструмент, применяемый при индексировании: • Предложения анализируемого текста сопоставлялись с заданными перечнями слов, объединёнными по смыслу • Отбирались предложения с наибольшим количеством совпавших с перечнем слов • Отобранные предложения далее обрабатывались по методу Г. Луна
  • 17. Метод Освальда • выявление слов, отражающих содержание документа; • выявление «мультитермов», т.е. устойчивых словосочетаний, при условии, что они встречаются в тексте чаще одного раза; • выявление предложений с двумя и более мультитермами; • расположение мультитермов в порядке частоты встречаемости; • отбор предложений с наибольшим количеством основных слов и мультитермов
  • 18. Методы статистических ассоциаций • Л. Дойл и М. Квиллиан • применили для отражения содержания документов ассоциативные методы создания семантически связанных групп (пучков) терминов (word clusters) • совместная встречаемость терминов в предложениях • В реферат включаются не только основные термины, но и другие элементы текста
  • 19. Ассоциативные карты Л. Дойла • Сначала создаётся исходная матрица (ключевые слова текста) и матрица взаимосвязанных элементов. • Использовав коэффициент корреляции Пирсона, Л. Дойл вычислил коэффициенты подобия между терминами отдельных документов • Реферат представлял собой реферат телеграфного стиля (короткие назывные предложения или набор ключевых слов (дескрипторов)
  • 20. Семантические карты М. Квиллиана • М. Квиллиан предложил использовать не ассоциативные карты, составленные на основе статистических показателей, а семантические карты. • При этом учитывались взаимосвязи не между отдельными словами, а между информативными концептами
  • 21. Экстрактивные методы • Дистрибутивный метод Эрла (Earl) • Метод автоматического реферирования документов (Automatic Document Abstracting Method — ADAM) • Дж. Раш, Р. Сальвадор и А. Замора «Метод отказа от предложений» (method for rejecting sentenses) • Метод текстовых связей
  • 22. Методы с опорой на знания Два основных подхода метода формирования краткого изложения