SlideShare a Scribd company logo
1 of 12
Download to read offline
ДИПЛОМНАЯ РАБОТА



     АВТОМАТИЧЕСКОЕ
  ОБНОВЛЕНИЕ АННОТАЦИИ
   НОВОСТНОГО КЛАСТЕРА

                    Автор: Алексеев Алексей (группа 524)

Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
Постановка задачи - 1
2


       Новостной кластер – набор новостных сообщений
        (документов) по поводу некоторого события.
       Аннотация – краткое описание события, составленное из
        предложений документов кластера.




       2 февраля 2007 года в 16.00 – начало теннисного матча.
          Две части новостного кластера – до и после 16.00.

          Первая часть - только анонс игры, вторая часть – как
           анонс (запоздавшие сообщения), так и результаты.
          Обновлённая аннотация: победитель, счёт (результаты).
                                                             23.05.2010
Постановка задачи - 2
3


       Обновлённая аннотация строится независимо от
        начальной аннотации (с нуля).
    Цели и задачи дипломной работы:
        I.     Предложить метод создания обновлённой
               аннотации новостного кластера.
        II.    Оценить качество предложенного метода
               путем реализации метода для сравнения.
        III.   Создать программную систему для
               автоматического создания обновлённой
               аннотации новостного кластера.
                                                        23.05.2010
Предложенный подход
4


       Предложен метод создания обновлённой
        аннотации в два этапа:
        1. Выявление предложений, содержащих новую
            информацию.
        2. Аннотирование, используя только новые
            предложения.
         Определение новизны – комбинация двух
          принципиально различных методов выявления
          новой информации.
         Комплексное аннотирование - на основе
          тематического представления текста.
                                                23.05.2010
Определение новизны
5


       Первый метод: сравнение предложений на «не
        похожесть» по косинусной мере:
                      v1  v2
            cos() 
                     v1  v 2
       Если предложение «не похоже» на остальные – новое.
       Второй метод: новые слова = новая информация.
       Разные слова – разный вклад в новизну:
                              1
            Вес _ слова 
                          log( df set )
       Итоговый вес предложения – сумма весов всех новых
        слов. Вес больше порога - новое.
                                                        23.05.2010
Аннотирование на основе
       тематического представления - 1
6


   Построение тематического               ЮЖНЫЙ, МИХАИЛ              23
    представления - разбиение всех          РОССИЯНЕ                  12
    понятий, упомянутых в документе на      РОССИЙСКАЯ ФЕДЕРАЦИЯ      10
    группы близких по смыслу понятий –      ТЕННИСИСТ                  6
    тематических узлов (ТУ).               СПОРТИВНЫЙ ФИНАЛ           36
   Используются описания понятий в         СПОРТИВНОЕ СОРЕВНОВАНИЕ   54
    Тезаурусе русского языка РуТез.          СПОРТ                     8
                                             СПОРТСМЕН                 2
   Оперируем не отдельными словами, а
                                             ФИНАЛИСТ                  1
    набором близких по смыслу слов,        ТЕННИСНЫЙ КОРТ             14
    используемых именно в этом тексте.       ТЕННИС                   12
   Позволяет моделировать лексическую     ЗАГРЕБ                     70
    связность текста, устранять повторы.     ХОРВАТИЯ                 36

                                                                23.05.2010
Аннотирование на основе
        тематического представления - 2
7


          Тезауруса не всегда достаточно. Необходим учёт
           именованных сущностей, неописанных в Тезаурусе.
          Вводится общая оценка – вес предложения,
           складывающийся из компонентов:
        1.   Весов упомянутых концептов Тезауруса.
        2.   Весов слов с большой буквы (кроме первого слова
             предложения).
          Вес самой частотной именованной сущности:
         Wmax_ word  min 100,Wmax_ conc  Frmax_ word / Frmax_ conc 
        Вес остальных именованных сущностей:
         Wword  Wmax_ word  Frword / Frmax_ word 
                                                                    23.05.2010
Аннотирование на основе
        тематического представления - 3
8


            Аннотация состоит из заголовка и нескольких
             предложений, из разных документов кластера.
            Заголовок аннотации – один из заголовков
             документов, имеющий наибольший вес по ТУ (ИС)
            Отмечаются все упомянутые тематические узлы.
            Выбирается предложение:
        1.    Содержащее уже упомянутый тематический узел (ИС).
        2.    Содержащее новый тематический узел (ИС).
        3.    Имеющее наибольший вес по тематическим узлам и
              именованным сущностям.
            Длина аннотации – 100 слов.
                                                           23.05.2010
Архитектурная схема системы
9



       Язык разработки:
               C#

    Фиолетовые
    модули – внешние

     Входные данные –
    новостной кластер,
    разделённый на 2
    части

     Выходные данные
    – классическая
    аннотация первой
    части кластера,
    обновлённая
    аннотация второй
    части кластера             23.05.2010
Пример обновлённой аннотации
 10


1.    Южный уступил дорогу в финал любимцу публики, ОРЕАНДА / SPORT. RU.
2.    Михаил Южный не смог выйти в финал турнира АТП в Загребе, проиграв
      прошлогоднему победителю турнира и первому сеяному хорвату Ивану
      Любичичу.
3.    Турнирный путь Южного : 1-й круг : Николя Маю (Франция) - 7:6, 6:3 2-й
      круг : Томаш Чакль (Чехия) - 6:4, 6:2 Четвертьфинал : Марк Гиквел
      (Франция) - 7:5, 6:2 Полуфинал : Иван Любичич (Хорватия, 1) - 6:2, 3:6, 5:7.
4.    В финале хорватский теннисист сыграет с киприотом Маркосом
      Багдатисом, выбившим из борьбы австрийца Александра Пейю - 6:4, 6:3.
5.    Полуфинал Маркос Багдатис (Кипр, 2) - Александр Пейя (Австрия, Q) - 6:4.
6.    Первый сет Михаил взял довольно легко, во втором проиграл, а в третьем
      вел со счетом 4:2, однако уступил.


                                                                          23.05.2010
Оценка полноты изложения
11


    Для сравнения реализован метод MMR.        Название       Обн.
    4 модификации методов.                      метода        Анн.
    Оценка содержания – метод                    MMR         0.457
     «Пирамиды».                              MMR+новизна     0.543
    Лингвисты составили эталонные             Тематическое
     аннотации (2-4).                         представление
                                                              0.630
    Вручную выделены «информационные            (по всему
                                                 кластеру)
     единицы» (ИЕ) - факты.
                                                Тематическое
    Итоговая оценка:
             вес _ найденных _ ИЕ
                                               представление
                                                               0.587
                                              (по второй части
      вес _ всех _ ИЕ _ данног о_ кластера       кластера)
                                                              23.05.2010
Основные результаты
12

            Предложен подход к созданию обновлённой аннотации
             новостного кластера.
            Создан программный комплекс, реализующий
             предложенный подход.
            Для сравнения предложенного подхода реализован
             один из лучших существующих методов – MMR.
            Произведена оценка различных модификаций методов
             по содержанию (метод «Пирамиды») и читабельности:
              Более высокая полнота обновленной аннотации.
              Более высокое качество изложения.
            Публикации:
              Опубликованы тезисы докладов (МГУ, МИФИ)
              Подготовлен и подан доклад на Всероссийскую конференцию RCDL
                                                                              23.05.2010

More Related Content

Similar to Автоматическое обновление аннотации новостного кластера

урок дюсембаевой риты
урок дюсембаевой ритыурок дюсембаевой риты
урок дюсембаевой ритыoquzaman
 
TMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsTMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsIosif Itkin
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011Nick
 

Similar to Автоматическое обновление аннотации новостного кластера (11)

Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Lecture 0
Lecture 0Lecture 0
Lecture 0
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
clasification
clasificationclasification
clasification
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 
урок дюсембаевой риты
урок дюсембаевой ритыурок дюсембаевой риты
урок дюсембаевой риты
 
Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
TMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class DiagramsTMPA-2013 Kompan and Bui: OOP Class Diagrams
TMPA-2013 Kompan and Bui: OOP Class Diagrams
 
Новые поступления - Март 2011
Новые поступления - Март 2011Новые поступления - Март 2011
Новые поступления - Март 2011
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 

Автоматическое обновление аннотации новостного кластера

  • 1. ДИПЛОМНАЯ РАБОТА АВТОМАТИЧЕСКОЕ ОБНОВЛЕНИЕ АННОТАЦИИ НОВОСТНОГО КЛАСТЕРА Автор: Алексеев Алексей (группа 524) Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
  • 2. Постановка задачи - 1 2  Новостной кластер – набор новостных сообщений (документов) по поводу некоторого события.  Аннотация – краткое описание события, составленное из предложений документов кластера.  2 февраля 2007 года в 16.00 – начало теннисного матча.  Две части новостного кластера – до и после 16.00.  Первая часть - только анонс игры, вторая часть – как анонс (запоздавшие сообщения), так и результаты.  Обновлённая аннотация: победитель, счёт (результаты). 23.05.2010
  • 3. Постановка задачи - 2 3  Обновлённая аннотация строится независимо от начальной аннотации (с нуля). Цели и задачи дипломной работы: I. Предложить метод создания обновлённой аннотации новостного кластера. II. Оценить качество предложенного метода путем реализации метода для сравнения. III. Создать программную систему для автоматического создания обновлённой аннотации новостного кластера. 23.05.2010
  • 4. Предложенный подход 4  Предложен метод создания обновлённой аннотации в два этапа: 1. Выявление предложений, содержащих новую информацию. 2. Аннотирование, используя только новые предложения.  Определение новизны – комбинация двух принципиально различных методов выявления новой информации.  Комплексное аннотирование - на основе тематического представления текста. 23.05.2010
  • 5. Определение новизны 5  Первый метод: сравнение предложений на «не похожесть» по косинусной мере: v1  v2 cos()  v1  v 2  Если предложение «не похоже» на остальные – новое.  Второй метод: новые слова = новая информация.  Разные слова – разный вклад в новизну: 1 Вес _ слова  log( df set )  Итоговый вес предложения – сумма весов всех новых слов. Вес больше порога - новое. 23.05.2010
  • 6. Аннотирование на основе тематического представления - 1 6  Построение тематического ЮЖНЫЙ, МИХАИЛ 23 представления - разбиение всех РОССИЯНЕ 12 понятий, упомянутых в документе на РОССИЙСКАЯ ФЕДЕРАЦИЯ 10 группы близких по смыслу понятий – ТЕННИСИСТ 6 тематических узлов (ТУ). СПОРТИВНЫЙ ФИНАЛ 36  Используются описания понятий в СПОРТИВНОЕ СОРЕВНОВАНИЕ 54 Тезаурусе русского языка РуТез. СПОРТ 8 СПОРТСМЕН 2  Оперируем не отдельными словами, а ФИНАЛИСТ 1 набором близких по смыслу слов, ТЕННИСНЫЙ КОРТ 14 используемых именно в этом тексте. ТЕННИС 12  Позволяет моделировать лексическую ЗАГРЕБ 70 связность текста, устранять повторы. ХОРВАТИЯ 36 23.05.2010
  • 7. Аннотирование на основе тематического представления - 2 7  Тезауруса не всегда достаточно. Необходим учёт именованных сущностей, неописанных в Тезаурусе.  Вводится общая оценка – вес предложения, складывающийся из компонентов: 1. Весов упомянутых концептов Тезауруса. 2. Весов слов с большой буквы (кроме первого слова предложения).  Вес самой частотной именованной сущности: Wmax_ word  min 100,Wmax_ conc  Frmax_ word / Frmax_ conc   Вес остальных именованных сущностей: Wword  Wmax_ word  Frword / Frmax_ word  23.05.2010
  • 8. Аннотирование на основе тематического представления - 3 8  Аннотация состоит из заголовка и нескольких предложений, из разных документов кластера.  Заголовок аннотации – один из заголовков документов, имеющий наибольший вес по ТУ (ИС)  Отмечаются все упомянутые тематические узлы.  Выбирается предложение: 1. Содержащее уже упомянутый тематический узел (ИС). 2. Содержащее новый тематический узел (ИС). 3. Имеющее наибольший вес по тематическим узлам и именованным сущностям.  Длина аннотации – 100 слов. 23.05.2010
  • 9. Архитектурная схема системы 9  Язык разработки: C# Фиолетовые модули – внешние  Входные данные – новостной кластер, разделённый на 2 части  Выходные данные – классическая аннотация первой части кластера, обновлённая аннотация второй части кластера 23.05.2010
  • 10. Пример обновлённой аннотации 10 1. Южный уступил дорогу в финал любимцу публики, ОРЕАНДА / SPORT. RU. 2. Михаил Южный не смог выйти в финал турнира АТП в Загребе, проиграв прошлогоднему победителю турнира и первому сеяному хорвату Ивану Любичичу. 3. Турнирный путь Южного : 1-й круг : Николя Маю (Франция) - 7:6, 6:3 2-й круг : Томаш Чакль (Чехия) - 6:4, 6:2 Четвертьфинал : Марк Гиквел (Франция) - 7:5, 6:2 Полуфинал : Иван Любичич (Хорватия, 1) - 6:2, 3:6, 5:7. 4. В финале хорватский теннисист сыграет с киприотом Маркосом Багдатисом, выбившим из борьбы австрийца Александра Пейю - 6:4, 6:3. 5. Полуфинал Маркос Багдатис (Кипр, 2) - Александр Пейя (Австрия, Q) - 6:4. 6. Первый сет Михаил взял довольно легко, во втором проиграл, а в третьем вел со счетом 4:2, однако уступил. 23.05.2010
  • 11. Оценка полноты изложения 11  Для сравнения реализован метод MMR. Название Обн.  4 модификации методов. метода Анн.  Оценка содержания – метод MMR 0.457 «Пирамиды». MMR+новизна 0.543  Лингвисты составили эталонные Тематическое аннотации (2-4). представление 0.630  Вручную выделены «информационные (по всему кластеру) единицы» (ИЕ) - факты. Тематическое  Итоговая оценка:  вес _ найденных _ ИЕ представление 0.587 (по второй части  вес _ всех _ ИЕ _ данног о_ кластера кластера) 23.05.2010
  • 12. Основные результаты 12  Предложен подход к созданию обновлённой аннотации новостного кластера.  Создан программный комплекс, реализующий предложенный подход.  Для сравнения предложенного подхода реализован один из лучших существующих методов – MMR.  Произведена оценка различных модификаций методов по содержанию (метод «Пирамиды») и читабельности:  Более высокая полнота обновленной аннотации.  Более высокое качество изложения.  Публикации:  Опубликованы тезисы докладов (МГУ, МИФИ)  Подготовлен и подан доклад на Всероссийскую конференцию RCDL 23.05.2010