SlideShare a Scribd company logo
1 of 11
Download to read offline
Автоматическое порождение
   тематических отчетов
    из потоков новостей
        Дипломная работа


                            Александров Дмитрий Вадимович
                                                группа 524

                                    Научный руководитель:
                                 К.ф.-м.н., в.н.с. НИВЦ МГУ
                           Лукашевич Наталья Валентиновна
         Москва, 2011 г.
Автоматическое порождение
         отчетов
 Информации  слишком  много,  ее  необходимо 
  обрабатывать  автоматически,  приводя  к  виду, 
  удобному для восприятия и работы
 Поток  данных  —  это  последовательность 
  сообщений  с  общей  тематикой,  поступающих  из 
  разнородных источников
 Тематический  отчет  —  структурированная  сводка, 
  описывающая  характерные  признаки  каждого 
  объекта, о котором идет речь, отдельно
Постановка задачи
Исследовать существующие методы автоматической 
 обработки потоков документов
Разработать    систему,     порождающую       краткие 
  структурированные сводки по кластеру текстов
Для этого необходимо:
     классифицировать данные по однородным объектам;
     выделить структуру целевых отчетов;
     извлечь значения признаков из текстов;
     аннотировать описания
     Задача  рассматривается  на  примере  построения 
       тематических отчетов по отзывам путешественников.
Входные данные
Типичный отзыв:
Наше пребывание в Чехии в этот раз было кратким. Мы с семьей разместились в Подебрадах,
курорте, расположенном километрах в 50 от столицы. Был конец апреля, но весна
развернулась не на шутку. Цвели деревья и цветы, радостно порхали пернатые, в то время как
у нас на Урале было холодно и неуютно. Тихий и уютный городишко запомнился нам
удивительной красотой. Да, это курорт, но и они бывают разные. Сюда приезжают лечиться
пациенты с сердечно-сосудистыми заболеваниями, ревматизмом и сахарным диабетом.

Выделенные рубрики:
        памятники истории и культуры;
        лечебный туризм (Сюда приезжают лечиться пациенты с … заболеваниями);
        климат (Был конец апреля, но весна развернулась не на шутку.);
        где остановиться;
        природные достопримечательности;
        местоположение (...расположенном километрах в 50 от столицы...);
        вечерние и ночные развлечения
Предложенный подход (1)
Производится  морфологический  анализ  текстов, 
 нормализующий текст (разработка НИВЦ МГУ)
Для  сегментации  по  объектам  (собственный 
 алгоритм)
    из  заголовка  и  первой  строки  выделяется  объект  по 
      умолчанию;
    считается, что описывается текущий объект;
    когда  упоминается        новый     объект,    текущий 
      заменяется;
    вводится механизм коэффициентов сомнения
Предложенный подход (2)
Для  классификации  по  набору  описываемых  признаков 
 применяется  система  автоматической  рубрикации 
 (разработка НИВЦ МГУ):
     множество рубрик порождает набор признаков;
     система соотносит предложения с рубриками;
Для аннотирования описаний (собственный алгоритм):
     применяется  метод  тематических  узлов  (узлы  —  сущности, 
       объединяющие  близкие  по  смыслу  слова,  строятся  с 
       применением тезауруса);
     ранжирование  по  релевантности  запросу  (в  качестве  запроса 
       используется  рубрика  для  акцентирования  внимания  на 
       нужном признаке);
     снижение повторяемости информации
Архитектура системы
Поставленный эксперимент
Предметная область — формирование отчета о стране 
 или ее регионе на основании отзывов туристов. 
 Источники:
     форумы;
     блоги;
     статьи
Объекты сегментации — города и регионы
     Подебрады,  Брно,  Чески  Крумлов,  Бржецлав,  Карловы  Вары, 
      Кутна Гора, Богемия, Моравия
Признаки, лежащие в основе структуры отчета — 
 аспекты путешествия
Результаты
                  Памятники
                                                                   Лечебный
                  истории и            Как добраться
                                                                    туризм
                  культуры
                                           Мы с семьей             Сюда приезжают
               Меня же, помешанного
                                          разместились в         лечиться пациенты с
               на замках, порадовала
                                       Подебрадах, курорте,     сердечно-сосудистыми
 Подебрады         внушительная
                                          расположенном            заболеваниями,
                 постройка в центре
                                        километрах в 50 от          ревматизмом и
                исторического ядра.
                                             столицы.            сахарным диабетом.
                  Синагога была           Туда мы ехали с
               построена в 1892 году                             Пльзень - известный
                                       автовокзала Florenc на
                на границе Старого                              центр пивоварения. С
                                          автобусе Прага-
  Пльзень         города рядом с        Пльзень-Марианские
                                                                  1842-го года здесь
                 собором Святого                                 варят известнейшее
                                           Лазни некоей
                                                                 пиво Pilsner Urquell.
                  Варфоломея.          карловарской фирмы.
               Млынская колоннада         Я взял билет на
                                                                В Карловых Варах на
                самая большая в         главной вокзале из
                                                                поверхность выходят
Карловы Вары    Карловых Варах и        Праги до Карловых
                                                                    12 целебных
                один из символов         Вар. Он стоит на
                                                                    источников.
                     города                одного 350 кс.
Оценка
Модуль сегментирования
    Метрика  точности  —  доля  предложений,  правильно 
     соотнесенных с описываемыми объектами
    Результат — около 70%
Модуль аннотирования
    Метрика  точности  —  вычитание  из  единицы  доли 
     паразитных предложений и предложений, ошибочно 
     отнесенных к тематике сводки
    Результат — около 85%
Итоги работы
Предложен  подход  к  задаче  автоматического 
 порождения тематических отчетов, основанный на 
 декомпозиции задачи на более простые шаги:
    Разработан алгоритм сегментации текстов;
    Используется автоматический рубрикатор;
    Разработан метод аннотирования по запросу­рубрике, 
      основанный  на  построении  тематических  узлов, 
      поддерживающий новизну информации. 
Создан  программный  комплекс,  реализующий 
 предложенный подход и решающий поставленную 
 задачу

More Related Content

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Автоматическое порождение тематических отчетов из потоков новостей

  • 1. Автоматическое порождение тематических отчетов из потоков новостей Дипломная работа Александров Дмитрий Вадимович группа 524 Научный руководитель: К.ф.-м.н., в.н.с. НИВЦ МГУ Лукашевич Наталья Валентиновна Москва, 2011 г.
  • 2. Автоматическое порождение отчетов Информации  слишком  много,  ее  необходимо  обрабатывать  автоматически,  приводя  к  виду,  удобному для восприятия и работы Поток  данных  —  это  последовательность  сообщений  с  общей  тематикой,  поступающих  из  разнородных источников Тематический  отчет  —  структурированная  сводка,  описывающая  характерные  признаки  каждого  объекта, о котором идет речь, отдельно
  • 3. Постановка задачи Исследовать существующие методы автоматической  обработки потоков документов Разработать  систему,  порождающую  краткие  структурированные сводки по кластеру текстов Для этого необходимо: классифицировать данные по однородным объектам; выделить структуру целевых отчетов; извлечь значения признаков из текстов; аннотировать описания Задача  рассматривается  на  примере  построения  тематических отчетов по отзывам путешественников.
  • 4. Входные данные Типичный отзыв: Наше пребывание в Чехии в этот раз было кратким. Мы с семьей разместились в Подебрадах, курорте, расположенном километрах в 50 от столицы. Был конец апреля, но весна развернулась не на шутку. Цвели деревья и цветы, радостно порхали пернатые, в то время как у нас на Урале было холодно и неуютно. Тихий и уютный городишко запомнился нам удивительной красотой. Да, это курорт, но и они бывают разные. Сюда приезжают лечиться пациенты с сердечно-сосудистыми заболеваниями, ревматизмом и сахарным диабетом. Выделенные рубрики: памятники истории и культуры; лечебный туризм (Сюда приезжают лечиться пациенты с … заболеваниями); климат (Был конец апреля, но весна развернулась не на шутку.); где остановиться; природные достопримечательности; местоположение (...расположенном километрах в 50 от столицы...); вечерние и ночные развлечения
  • 5. Предложенный подход (1) Производится  морфологический  анализ  текстов,  нормализующий текст (разработка НИВЦ МГУ) Для  сегментации  по  объектам  (собственный  алгоритм) из  заголовка  и  первой  строки  выделяется  объект  по  умолчанию; считается, что описывается текущий объект; когда  упоминается  новый  объект,  текущий  заменяется; вводится механизм коэффициентов сомнения
  • 6. Предложенный подход (2) Для  классификации  по  набору  описываемых  признаков  применяется  система  автоматической  рубрикации  (разработка НИВЦ МГУ): множество рубрик порождает набор признаков; система соотносит предложения с рубриками; Для аннотирования описаний (собственный алгоритм): применяется  метод  тематических  узлов  (узлы  —  сущности,  объединяющие  близкие  по  смыслу  слова,  строятся  с  применением тезауруса); ранжирование  по  релевантности  запросу  (в  качестве  запроса  используется  рубрика  для  акцентирования  внимания  на  нужном признаке); снижение повторяемости информации
  • 8. Поставленный эксперимент Предметная область — формирование отчета о стране  или ее регионе на основании отзывов туристов.  Источники: форумы; блоги; статьи Объекты сегментации — города и регионы Подебрады,  Брно,  Чески  Крумлов,  Бржецлав,  Карловы  Вары,  Кутна Гора, Богемия, Моравия Признаки, лежащие в основе структуры отчета —  аспекты путешествия
  • 9. Результаты Памятники Лечебный истории и Как добраться туризм культуры Мы с семьей Сюда приезжают Меня же, помешанного разместились в лечиться пациенты с на замках, порадовала Подебрадах, курорте, сердечно-сосудистыми Подебрады внушительная расположенном заболеваниями, постройка в центре километрах в 50 от ревматизмом и исторического ядра. столицы. сахарным диабетом. Синагога была Туда мы ехали с построена в 1892 году Пльзень - известный автовокзала Florenc на на границе Старого центр пивоварения. С автобусе Прага- Пльзень города рядом с Пльзень-Марианские 1842-го года здесь собором Святого варят известнейшее Лазни некоей пиво Pilsner Urquell. Варфоломея. карловарской фирмы. Млынская колоннада Я взял билет на В Карловых Варах на самая большая в главной вокзале из поверхность выходят Карловы Вары Карловых Варах и Праги до Карловых 12 целебных один из символов Вар. Он стоит на источников. города одного 350 кс.
  • 10. Оценка Модуль сегментирования Метрика  точности  —  доля  предложений,  правильно  соотнесенных с описываемыми объектами Результат — около 70% Модуль аннотирования Метрика  точности  —  вычитание  из  единицы  доли  паразитных предложений и предложений, ошибочно  отнесенных к тематике сводки Результат — около 85%
  • 11. Итоги работы Предложен  подход  к  задаче  автоматического  порождения тематических отчетов, основанный на  декомпозиции задачи на более простые шаги: Разработан алгоритм сегментации текстов; Используется автоматический рубрикатор; Разработан метод аннотирования по запросу­рубрике,  основанный  на  построении  тематических  узлов,  поддерживающий новизну информации.  Создан  программный  комплекс,  реализующий  предложенный подход и решающий поставленную  задачу