SlideShare a Scribd company logo
1 of 29
Download to read offline
АВТОМАТИЧЕСКОЕ
ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА
    ОСНОВЕ СТРУКТУРЫ
  НОВОСТНОГО КЛАСТЕРА
                Автор: Алексеев Алексей Александрович
Научный руководитель: Лукашевич Наталья Валентиновна
ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ
2


       Новостные сервисы (30-40 тыс. документов в
        день)
       Кластеризация новостей на одну тему –
        новостной кластер (вхождения слов)
         Удаление дубликатов
         Рубрикация по тематическим рубрикам
         Автоматическое аннотирование
         Определение новизны
         Извлечение информации

       Многие операции выполняются на основе
        пословного представления
                                                     24.10.2011
ПРОБЛЕМЫ ПОСЛОВНОГО
               ПРЕДСТАВЛЕНИЯ
3


       Одна сущность названа посредством цепочки слов
        (многословным выражением)
       В кластере используется много разных наименований
        одной и той же сущности
       Авиабаза США в Киргизии:
          база Манас, авиабаза Манас, Манас,
          база в международном аэропорту Манас,
          база США, американская авиабаза
       Проблемы:
          Определение границ кластера
          Автоматическое порождение аннотации
          Определение новизны информации
          Выделение подкластеров и др.
                                                            24.10.2011
ПРИРОДА ВОЗНИКНОВЕНИЯ
                  ВАРИАТИВНОСТИ - 1
4


       Цель использования:
           Референция (отнесенность языкового выражения к одному
            и тому же объекту действительности)
    3 февраля президент Киргизии Курманбек Бакиев заявил о решении
    правительства прекратить деятельность авиабазы на территории
    республики… Президент не стал скрывать, что экономические резоны
    стали главной причиной побудившей правительство страны принять
    такое решение.
           Перефразирование (изменение текста без изменения
            смысла - рерайтинг)
    Судьбу авиабазы США в "Манасе" решит парламент Киргизии.
    Парламент Киргизии в четверг примет окончательное решение о судьбе
    авиабазы США.
           Лексическая связность (обеспечение связности текста
            посредством известных взаимоотношений слов)           24.10.2011
ПРИРОДА ВОЗНИКНОВЕНИЯ
            ВАРИАТИВНОСТИ - 2
5


     Привязка   к контексту:
      Общеизвестно (Киргизия –   Киргизстан)
      Выводится из   контекста
В декабре 2006 года 46-летний водитель топливозаправщика киргизской
фирмы, занимающейся обслуживанием аэропорта "Манас", Александр
Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом
на КПП при въезде на перрон аэропорта"… Американский военный,
несмотря на неоднократные требования киргизского МИДа, также был
тайно вывезен с территории страны и до сих пор не предстал перед
судом.
     Одинаково по смыслу (синонимы) или близко по
     смыслу (часть-целое, род-вид)
Власти Киргизии не опасаются, что решение о закрытии базы может
привести к обострению взаимоотношений с США и западноевропейским
государствами. "Никаких политических разногласий у нас с США нет."
                                                             24.10.2011
МЕТОДЫ УСЛОЖНЕНИЯ
                ПРЕДСТАВЛЕНИЯ
6


       Применение тезаурусов
           Синонимы
           Словосочетания
           Лексические цепочки
           Но: все   заранее описать невозможно

       Разрешение кореферентности
           Именованные объекты
           Полное и частичное наименование
           Разрешение кореферентности
           Но: вариативность наименования относится не только к
            именованным сущностям
                                                            24.10.2011
МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И
             КВАЗИСИНОНИМЫ
7


       Многословные выражения, отдельные части
        которых зачастую не отражают смысла всего
        выражения («Российская Федерация», «Авиабаза
        Манас»)
       Квазисинонимы – слова или выражения, которые
        не являются синонимами в общем случае, но
        могут таковыми являться к некотором контексте
       Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не
        являются синонимами в общем случае, но в
        контексте некоторого специфичного текста могут
        таковыми являться
                                                   24.10.2011
ИДЕЯ ИССЛЕДОВАНИЯ
8

       Новостной кластер содержит множество документов на
        одну и ту же тему
       Рерайтеры специально переписывают тексты, используя
        синонимы и близкие по смыслу слова
       Задача: на основе структуры кластера
         извлечь многословные выражения, обозначающие
          основные сущности кластера,
         найти слова и словосочетания, являющиеся
          квазисинонимами в рамках данного кластера
       Метод:
         Свойства связного текста - глобальная связность

         Новостной кластер (посвящен одной теме)
                                                         24.10.2011
ПЛАН ДОКЛАДА
9


       Постановка задачи выделения
        многословных выражений и
        квазисинонимов

           Обзор существующих методов
       Гипотеза и ее проверка
       Предлагаемый подход и его оценка
       Заключение                         24.10.2011
Context-based Quasi-Synonym Extraction - 1
           University of Massachusetts, USA, 2009
10
         Van Dang, Xiaobing Xue and W. Bruce Croft
        Извлечение квазисинонимов из текстового корпуса
        Метод основан на анализе контекстов употребления
         кандидатов в квазисинонимы (как и большинство
         существующих методов)
        Различия методов: какой контекст рассматривать и с
         помощью какой метрики вычислять меру схожести
        В работе предлагается метод акцентирующийся на
         качестве, а не на типе контекста
        Например слова-кандидаты «пистолет» и «ружьё» и
         контекстные слова «целиться» и «положить»:
     “.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”
          “.. целиться из пистолета .. “ – “.. целиться из ружья ..”
                                                                     24.10.2011
Context-based Quasi-Synonym Extraction - 2
           University of Massachusetts, USA, 2009
11
         Van Dang, Xiaobing Xue and W. Bruce Croft
        Чем чаще слово употребляется в различных контекстах,
         тем меньше контекстной информации оно несёт:
                              1 1
                       P( с)  
                              Z W
             W – количество слов с данным контекстом
             Z – нормализующий параметр
        Контекст слова – n-грамма слов вокруг него
        Предложено два варианта вычисления
         квазисинонимичности выражений: с начислением
         «штрафных» баллов за несовпадающий контекст и без
        Идея – чем больше контекстов лучшего качества выражения
         разделяют, тем выше их квазисинонимичность
                                                             24.10.2011
Extracting Paraphrases from a Parallel Corpus - 1
               Columbia University, USA, 2001
         Regina Barzilay and Kathleen R. McKeown
12


         Задача – построение корпуса парафраз для дальнейшего
          его применения в различных областях

         Сравнении различных переводов одного и того же текста

         Использовались различные переводы различных романов
          на английский язык (всего 11 текстов)

         Препроцессинг: выравнивание предложений текстов (на
          основе одинаковых слов, которых было 42%, P = 92%)

         Всего получилось 44.562 предложения (1.798.526 слов)

         Алгоритм взаимного обучения (co-training)
                                                             24.10.2011
Extracting Paraphrases from a Parallel Corpus - 2
               Columbia University, USA, 2001
         Regina Barzilay and Kathleen R. McKeown
13


         Шаблоны (паттерны) парафраз: последовательность
          частей речи с пометками о повторении слов:
          Emma burst into tears and he tried to comfort her, saying things
            to make her smile.
          Emma cried, and he tried to console her, adorning his words with
            puns.
            left =“VB1 TO2 ” (“tried to”)    right =“PRP$3 ,4 ” (“her ,”)
         Инициализация алгоритма: шаблоны контекстов
          одинаковых слов
         В качестве отрицательных примеров – остальные
          сочетания со словами предложения ((n-1) + (m-1))
         После извлечения шаблонов опять извлекаются
          парафразы и алгоритм зацикливается                           24.10.2011
Extracting Paraphrases from a Parallel Corpus - 3
               Columbia University, USA, 2001
         Regina Barzilay and Kathleen R. McKeown
14


         Длина контекста – 3 слова (но также запоминаются более
          короткие контексты, так как они иногда лучше)
         В рамках оценки результатов проведен анализ
          согласованности асессоров при определении парафраз
         Согласованность асессоров:
           68% без контекстов            97% с контекстами
         Точность:
          ~85% без контекстов            ~92% с контекстами
         Полнота: 69%
         Синонимы( 35%)     гиперонимы (32%)       сёстры (18%)
          без связи (10%)    другие типы связи (5%)          24.10.2011
ПЛАН ДОКЛАДА
15


        Постановка задачи выделения
         многословных выражений и
         квазисинонимов
        Обзор существующих методов

            Гипотеза и ее проверка
        Предлагаемый подход и его оценка
        Заключение                         24.10.2011
ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА
16


        Van Dijk и гипотеза глобальной связности (1985)
        Связный текст имеет одну главную тему и эта
         тема может быть выражена как пропозиция
        Тема целого текста раскрывается в тексте
         посредством локальных тем
        Каждое предложение текста соответствует
         некоторой теме текста
        Механизм глобальной связности позволяет
         контролировать локальный связки и переходы
                                                       24.10.2011
ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.
            ГЛОБАЛЬНАЯ СВЯЗНОСТЬ
17


        Связный текст обладает лексической
         связностью: лексические и семантические
         повторы
        Лексическая связность – инструмент глобальной
         связности
        Чем больше две сущности упоминаются в одних
         и тех же предложениях текста, тем более важно
         отношение между ними для содержания текста
        Если сущности часто упоминаются, но мало
         встречаются в одних и тех же предложениях
         текста, то возможно они связаны между собой
         по смыслу (синоним, род-вид, часть-целое)
                                                   24.10.2011
АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1
18


         Проверка предположений была произведена с
          помощью Тезауруса русского языка РуТез
         В качестве правильных примеров
          квазисинонимии рассматривались объекты,
          связанные в Тезаурусе
         Различные типы связи рассматривались отдельно
         Две группы по частям речи:
                СУЩ. + СУЩ.     #      ПРИЛ. + СУЩ.
         Для каждой пары объектов вычислялись
          количество вхождений в одни и те же
          предложения (Fsegm) и в соседние (Fsent)
                                                      24.10.2011
АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2
19




            Тип связи             Fsegm / Fsent Число пар

       Синонимы (СУЩ + СУЩ)         0.309         31
      Синонимы (ПРИЛ + СУЩ)         0.491         53
       Род – Вид (СУЩ + СУЩ)        1.130         88
       Род – Вид (ПРИЛ + СУЩ)       1.471        28
      Часть – Целое (СУЩ + СУЩ)     0.779        58
     Часть – Целое (ПРИЛ + СУЩ)     1.580        29
       Без связи по Тезаурусу       1.440       21483
НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА
            СВЯЗНОГО ТЕКСТА
20


        Кластер – не является связным текстом,
            но имеет тему кластера
            статистические особенности усиливаются
        Извлечение
            Многословных выражений,
            Совокупностей квазисинонимов

        Пример: Новостной кластер от 19.02.2009
        Тема: Денонсация соглашения между Киргизией и США
         по поводу авиабазы США, расположенной в
         международном аэропорту Манас
        195 новостных документов
                                                        24.10.2011
ПЛАН ДОКЛАДА
21


        Постановка задачи выделения
         многословных выражений и
         квазисинонимов
        Обзор существующих методов
        Гипотеза и ее проверка
            Предлагаемый подход и его оценка
        Заключение
                                          24.10.2011
ПРЕДЛАГАЕМЫЙ ПОДХОД
22


        Комбинация классического подхода (анализ контекстов) с
         гипотезой совместной встречаемости
        4 типа контекстов: через глагол (AV); рядом (Near); не
         рядом (NN); в соседних предложениях (NS)
        Основное правило:
                    NS > 2 * (AV + Near + NN)
        Выделение квазисинонимов проходит в 3 этапа
        «Классическая» составляющая: использование жестких
         контекстов (2 слова до и после сущности)
        Использование формальных сходств сущностей-
         кандидатов
                                                                  24.10.2011
ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ
23


        Этап 1: Совместное использование «жестких» контекстов
         и формальных сходств сущностей-кандидатов, таких как:
          Метрики схожести (использовался простой вариант -
           одинаковые начала слов объектов)
          «Вложенные» объекты (все слова одного объекта
           встречаются в другом)
          «Пересекающиеся» объекты (слова объектов имеют
           пересечения)

        Этап 2: Использование только «жестких» контекстов

        Этап 3: Использование только формальных сходств

        Каждый этап является итеративным (до тех пор, пока
         происходит хотя бы одна склейка)                     24.10.2011
РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА
          НА КЛАСТЕРЕ ПРИМЕРЕ
24


        Авиабаза: авиабаза Манас, база, база Манас,
         военный база, закрытие базы
        Денонсация соглашения с США: денонсация
         соглашения, денонсация договора, расторжение
         договора, соглашение, денонсация
        Парламент Киргизии: Киргизский парламент,
         парламент Кыргызстана, парламент,
         киргизский, парламентский, парламентарий;
        Манас: аэропорт Манас, Международный
         аэропорт Манас
                                                   24.10.2011
ТЕСТИРОВАНИЕ МЕТОДА
25


        Оценка результата нетривиальна: высокая степень
         субъективности и низкая согласованность экспертов
        «Человеческое» восприятие не самое главное – важна
         применимость в других задачах
        Исследована применимость к задаче аннотирования
        11 новостных кластеров, 2-4 ручные аннотации к каждому
        Оценка содержания аннотаций методом «Пирамиды»
        Ручное выделение «информационных единиц» – фактов
        Итоговая оценка:
                         вес _ найденных _ ИЕ
                  вес _ всех _ ИЕ _ данного _ кластера       24.10.2011
Maximal Marginal Relevance (MMR)
26

        Известный метод для запрос-ориентированного
         аннотирования (1998)
        Итеративный метод
        Ранжирование предложений-кандидатов:
          Максимизировать сходство с запросом

          Минимизировать сходство с уже отобранными в
           аннотацию предложениями
     Пусть: Q – запрос к системе, S – множество предложений
       кандидатов, s – рассматриваемое предложение кандидат,
       Е – множество выбранных предложений. Тогда:
                                                                       
         MMR  arg max   Sim1 s, Q   1     max Sim2 s, s j 
                  sS                                  s j E             24.10.2011
Аннотирование на основе
     тематического представления текста
27

        Построение тематического представления - разбиение
         понятий на группы близких по смыслу понятий (Тезаурус)
        Оперируем не отдельными словами, а набором близких
         по смыслу слов, используемых именно в этом тексте
        Аннотация состоит из заголовка и нескольких
         предложений (из разных документов кластера)
        Заголовок – один из заголовков документов (по весу)
        Основная идея: включение как уже упомянутого, так и
         нового тематического узла при отборе предложения
        Выбирается предложение:
            Имеющее наибольший вес
            Содержащее уже упомянутый тематический узел
            Содержащее новый тематический узел                24.10.2011
РЕЗУЛЬТАТЫ
28




                   Название метода                         Оценка

     M
                         MMR по словам                     0,557
     M              MMR по квазисинонимам                  0,601
     R       MMR по тематическим узлам тезауруса           0,537
               Аннотирование по тематическим узлам
                     (узлы на основе тезауруса)
                                                           0,560
     Ан.
               Аннотирование по тематическим узлам
     по
          (узлы на основе рядов квазисинонимов, 30 штук)
                                                           0,669
     Т.У.
               Аннотирование по тематическим узлам
          (узлы на основе рядов квазисинонимов, 50 штук)
                                                           0,665
ЗАКЛЮЧЕНИЕ
29


        Поставлена задача выделения квазисинонимов в текстах
        Дан обзор существующих подходов в данной области
        Выдвинута и проверена гипотеза о скрытых взаимосвязях
         в реальных текстах
        На основании гипотезы предложен новый подход для
         выделения квазисинонимов
        Предложенный подход протестирован в контексте
         применимости к важной задаче автоматической
         обработки текста – автоматическое аннотирование
        В дальнейшем предполагается создание комплексного
         метода, комбинирующего текущие ряды квазисинонимов
         с информацией из тезауруса                       24.10.2011

More Related Content

Similar to презентация (Quasi synonyms, вмк 25.10.2011)

лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
Noobie312
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
Ochirov Tsyren
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
Lidia Pivovarova
 

Similar to презентация (Quasi synonyms, вмк 25.10.2011) (20)

лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
 
Прототипическая, фреймовая и кластерная семантические модели группы англоязыч...
Прототипическая, фреймовая и кластерная семантические модели группы англоязыч...Прототипическая, фреймовая и кластерная семантические модели группы англоязыч...
Прототипическая, фреймовая и кластерная семантические модели группы англоязыч...
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Puls Russian
Puls RussianPuls Russian
Puls Russian
 
Masa
MasaMasa
Masa
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Экспертные системы: лекция №5
Экспертные системы: лекция №5Экспертные системы: лекция №5
Экспертные системы: лекция №5
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

презентация (Quasi synonyms, вмк 25.10.2011)

  • 1. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА ОСНОВЕ СТРУКТУРЫ НОВОСТНОГО КЛАСТЕРА Автор: Алексеев Алексей Александрович Научный руководитель: Лукашевич Наталья Валентиновна
  • 2. ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ 2  Новостные сервисы (30-40 тыс. документов в день)  Кластеризация новостей на одну тему – новостной кластер (вхождения слов)  Удаление дубликатов  Рубрикация по тематическим рубрикам  Автоматическое аннотирование  Определение новизны  Извлечение информации  Многие операции выполняются на основе пословного представления 24.10.2011
  • 3. ПРОБЛЕМЫ ПОСЛОВНОГО ПРЕДСТАВЛЕНИЯ 3  Одна сущность названа посредством цепочки слов (многословным выражением)  В кластере используется много разных наименований одной и той же сущности  Авиабаза США в Киргизии:  база Манас, авиабаза Манас, Манас,  база в международном аэропорту Манас,  база США, американская авиабаза  Проблемы:  Определение границ кластера  Автоматическое порождение аннотации  Определение новизны информации  Выделение подкластеров и др. 24.10.2011
  • 4. ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 1 4  Цель использования:  Референция (отнесенность языкового выражения к одному и тому же объекту действительности) 3 февраля президент Киргизии Курманбек Бакиев заявил о решении правительства прекратить деятельность авиабазы на территории республики… Президент не стал скрывать, что экономические резоны стали главной причиной побудившей правительство страны принять такое решение.  Перефразирование (изменение текста без изменения смысла - рерайтинг) Судьбу авиабазы США в "Манасе" решит парламент Киргизии. Парламент Киргизии в четверг примет окончательное решение о судьбе авиабазы США.  Лексическая связность (обеспечение связности текста посредством известных взаимоотношений слов) 24.10.2011
  • 5. ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 2 5  Привязка к контексту:  Общеизвестно (Киргизия – Киргизстан)  Выводится из контекста В декабре 2006 года 46-летний водитель топливозаправщика киргизской фирмы, занимающейся обслуживанием аэропорта "Манас", Александр Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом на КПП при въезде на перрон аэропорта"… Американский военный, несмотря на неоднократные требования киргизского МИДа, также был тайно вывезен с территории страны и до сих пор не предстал перед судом.  Одинаково по смыслу (синонимы) или близко по смыслу (часть-целое, род-вид) Власти Киргизии не опасаются, что решение о закрытии базы может привести к обострению взаимоотношений с США и западноевропейским государствами. "Никаких политических разногласий у нас с США нет." 24.10.2011
  • 6. МЕТОДЫ УСЛОЖНЕНИЯ ПРЕДСТАВЛЕНИЯ 6  Применение тезаурусов  Синонимы  Словосочетания  Лексические цепочки  Но: все заранее описать невозможно  Разрешение кореферентности  Именованные объекты  Полное и частичное наименование  Разрешение кореферентности  Но: вариативность наименования относится не только к именованным сущностям 24.10.2011
  • 7. МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И КВАЗИСИНОНИМЫ 7  Многословные выражения, отдельные части которых зачастую не отражают смысла всего выражения («Российская Федерация», «Авиабаза Манас»)  Квазисинонимы – слова или выражения, которые не являются синонимами в общем случае, но могут таковыми являться к некотором контексте  Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не являются синонимами в общем случае, но в контексте некоторого специфичного текста могут таковыми являться 24.10.2011
  • 8. ИДЕЯ ИССЛЕДОВАНИЯ 8  Новостной кластер содержит множество документов на одну и ту же тему  Рерайтеры специально переписывают тексты, используя синонимы и близкие по смыслу слова  Задача: на основе структуры кластера  извлечь многословные выражения, обозначающие основные сущности кластера,  найти слова и словосочетания, являющиеся квазисинонимами в рамках данного кластера  Метод:  Свойства связного текста - глобальная связность  Новостной кластер (посвящен одной теме) 24.10.2011
  • 9. ПЛАН ДОКЛАДА 9  Постановка задачи выделения многословных выражений и квазисинонимов  Обзор существующих методов  Гипотеза и ее проверка  Предлагаемый подход и его оценка  Заключение 24.10.2011
  • 10. Context-based Quasi-Synonym Extraction - 1 University of Massachusetts, USA, 2009 10 Van Dang, Xiaobing Xue and W. Bruce Croft  Извлечение квазисинонимов из текстового корпуса  Метод основан на анализе контекстов употребления кандидатов в квазисинонимы (как и большинство существующих методов)  Различия методов: какой контекст рассматривать и с помощью какой метрики вычислять меру схожести  В работе предлагается метод акцентирующийся на качестве, а не на типе контекста  Например слова-кандидаты «пистолет» и «ружьё» и контекстные слова «целиться» и «положить»: “.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..” “.. целиться из пистолета .. “ – “.. целиться из ружья ..” 24.10.2011
  • 11. Context-based Quasi-Synonym Extraction - 2 University of Massachusetts, USA, 2009 11 Van Dang, Xiaobing Xue and W. Bruce Croft  Чем чаще слово употребляется в различных контекстах, тем меньше контекстной информации оно несёт: 1 1 P( с)   Z W W – количество слов с данным контекстом Z – нормализующий параметр  Контекст слова – n-грамма слов вокруг него  Предложено два варианта вычисления квазисинонимичности выражений: с начислением «штрафных» баллов за несовпадающий контекст и без  Идея – чем больше контекстов лучшего качества выражения разделяют, тем выше их квазисинонимичность 24.10.2011
  • 12. Extracting Paraphrases from a Parallel Corpus - 1 Columbia University, USA, 2001 Regina Barzilay and Kathleen R. McKeown 12  Задача – построение корпуса парафраз для дальнейшего его применения в различных областях  Сравнении различных переводов одного и того же текста  Использовались различные переводы различных романов на английский язык (всего 11 текстов)  Препроцессинг: выравнивание предложений текстов (на основе одинаковых слов, которых было 42%, P = 92%)  Всего получилось 44.562 предложения (1.798.526 слов)  Алгоритм взаимного обучения (co-training) 24.10.2011
  • 13. Extracting Paraphrases from a Parallel Corpus - 2 Columbia University, USA, 2001 Regina Barzilay and Kathleen R. McKeown 13  Шаблоны (паттерны) парафраз: последовательность частей речи с пометками о повторении слов: Emma burst into tears and he tried to comfort her, saying things to make her smile. Emma cried, and he tried to console her, adorning his words with puns. left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)  Инициализация алгоритма: шаблоны контекстов одинаковых слов  В качестве отрицательных примеров – остальные сочетания со словами предложения ((n-1) + (m-1))  После извлечения шаблонов опять извлекаются парафразы и алгоритм зацикливается 24.10.2011
  • 14. Extracting Paraphrases from a Parallel Corpus - 3 Columbia University, USA, 2001 Regina Barzilay and Kathleen R. McKeown 14  Длина контекста – 3 слова (но также запоминаются более короткие контексты, так как они иногда лучше)  В рамках оценки результатов проведен анализ согласованности асессоров при определении парафраз  Согласованность асессоров: 68% без контекстов 97% с контекстами  Точность: ~85% без контекстов ~92% с контекстами  Полнота: 69%  Синонимы( 35%) гиперонимы (32%) сёстры (18%) без связи (10%) другие типы связи (5%) 24.10.2011
  • 15. ПЛАН ДОКЛАДА 15  Постановка задачи выделения многословных выражений и квазисинонимов  Обзор существующих методов  Гипотеза и ее проверка  Предлагаемый подход и его оценка  Заключение 24.10.2011
  • 16. ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА 16  Van Dijk и гипотеза глобальной связности (1985)  Связный текст имеет одну главную тему и эта тема может быть выражена как пропозиция  Тема целого текста раскрывается в тексте посредством локальных тем  Каждое предложение текста соответствует некоторой теме текста  Механизм глобальной связности позволяет контролировать локальный связки и переходы 24.10.2011
  • 17. ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs. ГЛОБАЛЬНАЯ СВЯЗНОСТЬ 17  Связный текст обладает лексической связностью: лексические и семантические повторы  Лексическая связность – инструмент глобальной связности  Чем больше две сущности упоминаются в одних и тех же предложениях текста, тем более важно отношение между ними для содержания текста  Если сущности часто упоминаются, но мало встречаются в одних и тех же предложениях текста, то возможно они связаны между собой по смыслу (синоним, род-вид, часть-целое) 24.10.2011
  • 18. АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1 18  Проверка предположений была произведена с помощью Тезауруса русского языка РуТез  В качестве правильных примеров квазисинонимии рассматривались объекты, связанные в Тезаурусе  Различные типы связи рассматривались отдельно  Две группы по частям речи: СУЩ. + СУЩ. # ПРИЛ. + СУЩ.  Для каждой пары объектов вычислялись количество вхождений в одни и те же предложения (Fsegm) и в соседние (Fsent) 24.10.2011
  • 19. АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2 19 Тип связи Fsegm / Fsent Число пар Синонимы (СУЩ + СУЩ) 0.309 31 Синонимы (ПРИЛ + СУЩ) 0.491 53 Род – Вид (СУЩ + СУЩ) 1.130 88 Род – Вид (ПРИЛ + СУЩ) 1.471 28 Часть – Целое (СУЩ + СУЩ) 0.779 58 Часть – Целое (ПРИЛ + СУЩ) 1.580 29 Без связи по Тезаурусу 1.440 21483
  • 20. НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА СВЯЗНОГО ТЕКСТА 20  Кластер – не является связным текстом,  но имеет тему кластера  статистические особенности усиливаются  Извлечение  Многословных выражений,  Совокупностей квазисинонимов  Пример: Новостной кластер от 19.02.2009  Тема: Денонсация соглашения между Киргизией и США по поводу авиабазы США, расположенной в международном аэропорту Манас  195 новостных документов 24.10.2011
  • 21. ПЛАН ДОКЛАДА 21  Постановка задачи выделения многословных выражений и квазисинонимов  Обзор существующих методов  Гипотеза и ее проверка  Предлагаемый подход и его оценка  Заключение 24.10.2011
  • 22. ПРЕДЛАГАЕМЫЙ ПОДХОД 22  Комбинация классического подхода (анализ контекстов) с гипотезой совместной встречаемости  4 типа контекстов: через глагол (AV); рядом (Near); не рядом (NN); в соседних предложениях (NS)  Основное правило: NS > 2 * (AV + Near + NN)  Выделение квазисинонимов проходит в 3 этапа  «Классическая» составляющая: использование жестких контекстов (2 слова до и после сущности)  Использование формальных сходств сущностей- кандидатов 24.10.2011
  • 23. ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ 23  Этап 1: Совместное использование «жестких» контекстов и формальных сходств сущностей-кандидатов, таких как:  Метрики схожести (использовался простой вариант - одинаковые начала слов объектов)  «Вложенные» объекты (все слова одного объекта встречаются в другом)  «Пересекающиеся» объекты (слова объектов имеют пересечения)  Этап 2: Использование только «жестких» контекстов  Этап 3: Использование только формальных сходств  Каждый этап является итеративным (до тех пор, пока происходит хотя бы одна склейка) 24.10.2011
  • 24. РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА НА КЛАСТЕРЕ ПРИМЕРЕ 24  Авиабаза: авиабаза Манас, база, база Манас, военный база, закрытие базы  Денонсация соглашения с США: денонсация соглашения, денонсация договора, расторжение договора, соглашение, денонсация  Парламент Киргизии: Киргизский парламент, парламент Кыргызстана, парламент, киргизский, парламентский, парламентарий;  Манас: аэропорт Манас, Международный аэропорт Манас 24.10.2011
  • 25. ТЕСТИРОВАНИЕ МЕТОДА 25  Оценка результата нетривиальна: высокая степень субъективности и низкая согласованность экспертов  «Человеческое» восприятие не самое главное – важна применимость в других задачах  Исследована применимость к задаче аннотирования  11 новостных кластеров, 2-4 ручные аннотации к каждому  Оценка содержания аннотаций методом «Пирамиды»  Ручное выделение «информационных единиц» – фактов  Итоговая оценка:  вес _ найденных _ ИЕ  вес _ всех _ ИЕ _ данного _ кластера 24.10.2011
  • 26. Maximal Marginal Relevance (MMR) 26  Известный метод для запрос-ориентированного аннотирования (1998)  Итеративный метод  Ранжирование предложений-кандидатов:  Максимизировать сходство с запросом  Минимизировать сходство с уже отобранными в аннотацию предложениями Пусть: Q – запрос к системе, S – множество предложений кандидатов, s – рассматриваемое предложение кандидат, Е – множество выбранных предложений. Тогда:   MMR  arg max   Sim1 s, Q   1     max Sim2 s, s j  sS  s j E  24.10.2011
  • 27. Аннотирование на основе тематического представления текста 27  Построение тематического представления - разбиение понятий на группы близких по смыслу понятий (Тезаурус)  Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте  Аннотация состоит из заголовка и нескольких предложений (из разных документов кластера)  Заголовок – один из заголовков документов (по весу)  Основная идея: включение как уже упомянутого, так и нового тематического узла при отборе предложения  Выбирается предложение:  Имеющее наибольший вес  Содержащее уже упомянутый тематический узел  Содержащее новый тематический узел 24.10.2011
  • 28. РЕЗУЛЬТАТЫ 28 Название метода Оценка M MMR по словам 0,557 M MMR по квазисинонимам 0,601 R MMR по тематическим узлам тезауруса 0,537 Аннотирование по тематическим узлам (узлы на основе тезауруса) 0,560 Ан. Аннотирование по тематическим узлам по (узлы на основе рядов квазисинонимов, 30 штук) 0,669 Т.У. Аннотирование по тематическим узлам (узлы на основе рядов квазисинонимов, 50 штук) 0,665
  • 29. ЗАКЛЮЧЕНИЕ 29  Поставлена задача выделения квазисинонимов в текстах  Дан обзор существующих подходов в данной области  Выдвинута и проверена гипотеза о скрытых взаимосвязях в реальных текстах  На основании гипотезы предложен новый подход для выделения квазисинонимов  Предложенный подход протестирован в контексте применимости к важной задаче автоматической обработки текста – автоматическое аннотирование  В дальнейшем предполагается создание комплексного метода, комбинирующего текущие ряды квазисинонимов с информацией из тезауруса 24.10.2011