1. ДИПЛОМНАЯ РАБОТА
АВТОМАТИЧЕСКОЕ
ОБНОВЛЕНИЕ АННОТАЦИИ
НОВОСТНОГО КЛАСТЕРА
Автор: Алексеев Алексей (группа 524)
Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
2. Постановка задачи - 1
2
Новостной кластер – набор новостных сообщений
(документов) по поводу некоторого события.
Аннотация – краткое описание события, составленное из
предложений документов кластера.
2 февраля 2007 года в 16.00 – начало теннисного матча.
Две части новостного кластера – до и после 16.00.
Первая часть - только анонс игры, вторая часть – как
анонс (запоздавшие сообщения), так и результаты.
Обновлённая аннотация: победитель, счёт (результаты).
23.05.2010
3. Постановка задачи - 2
3
Обновлённая аннотация строится независимо от
начальной аннотации (с нуля).
Цели и задачи дипломной работы:
I. Предложить метод создания обновлённой
аннотации новостного кластера.
II. Оценить качество предложенного метода
путем реализации метода для сравнения.
III. Создать программную систему для
автоматического создания обновлённой
аннотации новостного кластера.
23.05.2010
4. Предложенный подход
4
Предложен метод создания обновлённой
аннотации в два этапа:
1. Выявление предложений, содержащих новую
информацию.
2. Аннотирование, используя только новые
предложения.
Определение новизны – комбинация двух
принципиально различных методов выявления
новой информации.
Комплексное аннотирование - на основе
тематического представления текста.
23.05.2010
5. Определение новизны
5
Первый метод: сравнение предложений на «не
похожесть» по косинусной мере:
v1 v2
cos()
v1 v 2
Если предложение «не похоже» на остальные – новое.
Второй метод: новые слова = новая информация.
Разные слова – разный вклад в новизну:
1
Вес _ слова
log( df set )
Итоговый вес предложения – сумма весов всех новых
слов. Вес больше порога - новое.
23.05.2010
6. Аннотирование на основе
тематического представления - 1
6
Построение тематического ЮЖНЫЙ, МИХАИЛ 23
представления - разбиение всех РОССИЯНЕ 12
понятий, упомянутых в документе на РОССИЙСКАЯ ФЕДЕРАЦИЯ 10
группы близких по смыслу понятий – ТЕННИСИСТ 6
тематических узлов (ТУ). СПОРТИВНЫЙ ФИНАЛ 36
Используются описания понятий в СПОРТИВНОЕ СОРЕВНОВАНИЕ 54
Тезаурусе русского языка РуТез. СПОРТ 8
СПОРТСМЕН 2
Оперируем не отдельными словами, а
ФИНАЛИСТ 1
набором близких по смыслу слов, ТЕННИСНЫЙ КОРТ 14
используемых именно в этом тексте. ТЕННИС 12
Позволяет моделировать лексическую ЗАГРЕБ 70
связность текста, устранять повторы. ХОРВАТИЯ 36
23.05.2010
7. Аннотирование на основе
тематического представления - 2
7
Тезауруса не всегда достаточно. Необходим учёт
именованных сущностей, неописанных в Тезаурусе.
Вводится общая оценка – вес предложения,
складывающийся из компонентов:
1. Весов упомянутых концептов Тезауруса.
2. Весов слов с большой буквы (кроме первого слова
предложения).
Вес самой частотной именованной сущности:
Wmax_ word min 100,Wmax_ conc Frmax_ word / Frmax_ conc
Вес остальных именованных сущностей:
Wword Wmax_ word Frword / Frmax_ word
23.05.2010
8. Аннотирование на основе
тематического представления - 3
8
Аннотация состоит из заголовка и нескольких
предложений, из разных документов кластера.
Заголовок аннотации – один из заголовков
документов, имеющий наибольший вес по ТУ (ИС)
Отмечаются все упомянутые тематические узлы.
Выбирается предложение:
1. Содержащее уже упомянутый тематический узел (ИС).
2. Содержащее новый тематический узел (ИС).
3. Имеющее наибольший вес по тематическим узлам и
именованным сущностям.
Длина аннотации – 100 слов.
23.05.2010
9. Архитектурная схема системы
9
Язык разработки:
C#
Фиолетовые
модули – внешние
Входные данные –
новостной кластер,
разделённый на 2
части
Выходные данные
– классическая
аннотация первой
части кластера,
обновлённая
аннотация второй
части кластера 23.05.2010
10. Пример обновлённой аннотации
10
1. Южный уступил дорогу в финал любимцу публики, ОРЕАНДА / SPORT. RU.
2. Михаил Южный не смог выйти в финал турнира АТП в Загребе, проиграв
прошлогоднему победителю турнира и первому сеяному хорвату Ивану
Любичичу.
3. Турнирный путь Южного : 1-й круг : Николя Маю (Франция) - 7:6, 6:3 2-й
круг : Томаш Чакль (Чехия) - 6:4, 6:2 Четвертьфинал : Марк Гиквел
(Франция) - 7:5, 6:2 Полуфинал : Иван Любичич (Хорватия, 1) - 6:2, 3:6, 5:7.
4. В финале хорватский теннисист сыграет с киприотом Маркосом
Багдатисом, выбившим из борьбы австрийца Александра Пейю - 6:4, 6:3.
5. Полуфинал Маркос Багдатис (Кипр, 2) - Александр Пейя (Австрия, Q) - 6:4.
6. Первый сет Михаил взял довольно легко, во втором проиграл, а в третьем
вел со счетом 4:2, однако уступил.
23.05.2010
11. Оценка полноты изложения
11
Для сравнения реализован метод MMR. Название Обн.
4 модификации методов. метода Анн.
Оценка содержания – метод MMR 0.457
«Пирамиды». MMR+новизна 0.543
Лингвисты составили эталонные Тематическое
аннотации (2-4). представление
0.630
Вручную выделены «информационные (по всему
кластеру)
единицы» (ИЕ) - факты.
Тематическое
Итоговая оценка:
вес _ найденных _ ИЕ
представление
0.587
(по второй части
вес _ всех _ ИЕ _ данног о_ кластера кластера)
23.05.2010
12. Основные результаты
12
Предложен подход к созданию обновлённой аннотации
новостного кластера.
Создан программный комплекс, реализующий
предложенный подход.
Для сравнения предложенного подхода реализован
один из лучших существующих методов – MMR.
Произведена оценка различных модификаций методов
по содержанию (метод «Пирамиды») и читабельности:
Более высокая полнота обновленной аннотации.
Более высокое качество изложения.
Публикации:
Опубликованы тезисы докладов (МГУ, МИФИ)
Подготовлен и подан доклад на Всероссийскую конференцию RCDL
23.05.2010