SlideShare a Scribd company logo
1 of 21
Download to read offline
Извлечение событий из текстовых
 документов

 Сергей Серебряков
 HP Labs Russia
 26/05/2012
 AINL, Санкт-Петербург
© Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
События
 1. В Topic Detection and Tracking события представляют собой множества
    документов которые описывают “нечто уникальное, произошедшее в
    определённый момент времени”;
 2. В Message Understanding Conference события представляют собой группы
    или фразы формирующие шаблон, связывающий участников, временные
    выражения и локации друг с другом;
 3. Событие состоит из глагола и двух именованных сущностей появляющихся
    вместе достаточно часто в документах на определённую тематику;




2 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Постановка задачи
 События включают сущности и отношения между ним и предполагают смену
 состояния:
 • В 1998 корпорация Exxon приобрела Mobil (поглощение);
 • Sportmart Inc заявил во вторник что Andrew Hochberg, президент, был назначен
   управляющим компанией (смена должностной позиции);
 Задача извлечения событий заключается в автоматическом определении
 событий в неструктурированных документах и извлечение детальной
 информации о них, в идеале, определяя “кто сделал что кому, когда, при
 помощи каких методов (инструментов), где и почему” (H. Tanev et al., 2009)



3 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Примеры
1. SRA сегодня объявила о том что она прибрела Sentech, компанию, консультирующую в
   области управления электроэнергией и имеющую большой опыт в области возобновляемых
   источников энергии.
         1. Объявление компании (Компания: SRA, Временное выражение: сегодня)
         2. Поглощение(Покупатель: SRA, Приобретаемая компания: Sentech)
2. David Gyngell ушёл с позиции директора Crown Ltd в связи с тем что его новая должность в
   компании PBL Media не позволит ему эффективно исполнять обязанности в компании
   Crown.
         1. Отставка(Человек: David Gyngell, Позиция: director, Компания: Crown Ltd)
3. Morrow Snowboards Inc объявил что David Calapp был назначен исполнительным
   директором компании.
         1. Объявление компании (Компания: Morrow Snowbards)
         2. Смена позиции (Человек: David Calapp, Новая позиция: исполнительный директор)

4 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Мотивация
    Система извлечения событий                                                                                                   Сложная обработка событий:
    Вход: неструктурированные данные                                                                                             Вход: атомарные события
    Выход: извлечённые события с атрибутами                                                                                      Выход: сложные события
    Поглощение: [HP, Palm, 28.04.2010]                                                                                           Событие A коррелирует с B.
    Банкротство: [LaunchTech, 14.01.2011]                                                                                        Событие C призойдёт с вероят. 0.8.
    Смена позиции: [Leo Apotheker, HP, SEO, 30.10.2010]                                                                          Сложное событие D происходит.
    Природная катастрофа: [Earthquake, New Zeland, 04.10.2010]                                                                   Сложное событие E не происходит.


     Большой объём неструктурированных данных                                                                                        Аналитика
     содержащих полезную информацию                                                                                                  Вход: события, сложные события
                                                                                                                                     Выход: рекомендованные действия
                                                                                                                                                 Покупка акций.
                                                                                                                                                 Продажа акций.
                                                                                                                                                 Изменение цепочки поставок.
                                                                                                                                                 …


5 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Предыдущие работы
• Академические исследования
    –TimeML (J. Pustejovsky et al., 2003)
    –Automatic Content Extraction (G. Diddington et al., 2004)
• Коммерческие системы
    –Thomson Reuters (T. Heinze et al., 2008)
    –European Media Monitor (C. Best et al., 2005)




6 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Требования
 Извлечение информации в реальном времени;
 Извлечение полного набора аттрибутов и дополнительной информации с
целью лучшего понимания контекста;
 Применимость к новым задачам и возможность к расширению множества
извлекаемых событий;




7 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Предлагаемый подход
  Извлечение событий с использованием:
            Словарного поиска;
            Извлекающих правил;
            Unstructured Information Management Architecture (UIMA);

  Отличия от предыдущих работ:
            Извлечение богатого набора аттрибутов и дополнительной информации с
             целью лучшего понимания контекста путём агрегации аннотаций
            Обоработка документа целиком
            Извлечение информации с минимальной задержкой


8 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Извлечение событий
                                                                                                                                     Документ
                                                Разбивка на
                                               предложения                                       CAS:
                                                                                              (документ,
                                                                                              аннотации)
                                          Разбивка по словам



                                            Словарный поиск



                                              Извлекающие
                                                                                                                                     События
                                                правила

                                                                                              Система

      –       Разбивка по предложения и словам: whitespace tokenizer (UIMA)
      –       Словарный поиск: dictionary based concept mapper (UIMA)
      –       Извлекающие правила: TextMARKER engine
9 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Словарный поиск
  24 словаря для извлечения 5 типов событий
             города, компании, страны, имена, индикаторы событий, элементы
            временных выражений и т.п.
  Каждый элемент в словаре содержит ряд атрибутов которые
 копируются в аннотации




10 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Агрегация на основе правил
                                                                                                                   Правила объединяют аннотации
                     Компания
                                                                                                                    в более сложные структуры
                                                                                                                    и/или модифицируют
                                                                                                                    существующие аннотации.
                           … ЗАО Новые Технологии…

                Индикатор                             Слово с                                   Слово с
                компании                          заглавной буквы                           заглавной буквы

             CompanyIndicator CapitalizedWord+? ->
                                                                                    MARK(Company{name(#2), type(#1)})


11 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Извлечение информации с использованием правил
                                                                                   Resignation Event



                    Person                                                                                                                     Company

        First Name             CW                 Resignation Indicator                                   Position                        CW        CW Company Indicator
             T                 T              T            T                  T           T         T                T                T    T         T      T
         Gene Isenberg is stepping down as chief executive of Nabors Industries Ltd.

•     FirstName CW
         •       {->MARK(LastName), MARK(Person, 1, 2)};
•     CW+? CompanyIndicator+
         •       {-> MARKONCE(Company, 1, 2)};
•     Person ResignationIndicator "as" Position "of" "the"? Company
         •       {->GATHER(ResignationEvent, 1, 2, 3, 4, 5, 6, 7, "person" = 1, "position" = 4, "company" = 7)};




12 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Атрибуты
                       Событие                                                                                                  Атрибуты
Слияния & Поглощения                                                        покупатель, покупаемый, временное выражение,
                                                                            сумма сделки
Смена должностной позиции                                                   человек, прошлая позиция, новая позиция, прошлая
                                                                            компания, новая компания, временное выражение
Отставка                                                                    человек, позиция, компания, временное выражение
Объявления людей                                                            человек, временное выражение
Объявления компаний                                                         компания, временное выражение




13 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Примеры
                            Текст                                                                                                Правило
3 миллиарда                                                                 NUM+? WordNumber+
                                                                            {-> MARKONCE(NUM, 1, 2)};
2.3 млн долларов                                                            NUM CurrencyUnit
                                                                            {-> MARKONCE(PriceUnit, 1, 2)};
ЗАО Новые Технологии                                                        CompanyIndicator CW+?
                                                                            {-> MARKONCE(Company, 1, 2, 3)};
Redmond-based Microsoft                                                     City "-" "based" Company
                                                                            {-> MARKONCE(Company, 1, 2, 3, 4)};
14 Февраля 08                                                               DayNumber Month NUM{REGEXP("^([0-9]{2})$")
                                                                            ->MARKONCE(TE, 1, 2, 3, 4, 5)};




14 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
События
 Индикатор события (триггер) – ключевое слово сигнализирующие о возможном
 наличии события

                       Событие                                                                                 Пример индикатора
Слияния & Поглощения                                                         приобрёл, была приобретена, была куплена, будет
                                                                             приобретена
Смена должностной позиции                                                    был назначен, занял должность
Отставка                                                                     Покинул должность, ушёл с позиции
Объявления компаний и                                                        объявил, проинформировала, сделала объявление
людей



15 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Примеры правил
                    Text                                                                                                       Rule
HP acquired Palm.                                          Company AcquisitionIndicator "the"? Company
                                                           {-> GATHER(AcquisitionEvent, 1, 2, 3, 4,“comp1" = 1, “comp2" = 4)};
John Kimpbell has resigned                                 Person ResignationIndicator "as" Position
as vice president.                                         {->GATHER(ResignationEvent, 1, 2, 3, 4, "person" = 1, "position" = 4)};

Andrew Hochberg was                                        Person PositionChangeIndicator W? Position "of" "the"? Company TE?
named as CEO of the                                        {-> GATHER(PositionChange, 1, 2, 3, 4, 5, 7, 8,"person" = 1, "newPosition" =
Sportmart Inc. couple of days                              4, "newCompany" = 7)};
ago.




 16 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Мотивация использования архитектуры UIMA
  1. Документы внутри UIMA обрабатываются аннотаторами – компонентами
     реализующими определённый метод извлечения информации (разбивка на
     предложения, разбивка по словам, определение частей речи и т.п.);
  2. Существует большое количество репозиториев с UIMA аннотаторами
     реализующие различные алгоритмы обработки текстов;
  3. Опыт компаний показывает что UIMA представляет собой удобную
     архитектуру для обработки больших объёмов неструктурированных данных;
  4. Механизм UIMA AS позволяет разворачивать процессоры текстов на
     нескольких узлах сети тем самым масштабируя систему под возрастающие
     потоки информации;




17 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Архитектура




18 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Average processing time is 37 ms for articles containing one event and 45.72 ms in case if an article contains two events.

    Эксперимент
    Пять типов событий                                                                                                                         Выход
    1.        CA – объявления компаний                                                                                          CA       PA    M&A     RES   MPC
    2.        PA – объявления людей                                                                          CA                 163      21      0     0      0
    3.        M&A – слияния и поглощения                                                                     PA                  12      200     0     0      0
    4.        RES – отставка
                                                                                                          M&A                     0      0      125    0      0




                                                                                          Вход
    5.        MPC – смена должностной
              позиции                                                                                       RES                   0      0       0     217    0
                                                                                                           MPC                    0      0       0     0     15
                                                                                                         Other                   17      3      14     5      0

    Среднее время обработки 37 мс для новости содержащей описание одного
    события и 45.72 мс в случае наличия в новостном документе двух событий.

   19 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Извлечение событий из текстов на русском языке


               Source                         #article                     Announce                               M&A                 MPC          Res
                                                 s                          ments
                     RIA                          2800                             2382                              744              58           28
            mergers.ru                           12500                             6561                            7494               163          74
           maonline.ru                           13000                          ~10000                           ~5000                      ~200

           •        Workstation, 4 GB RAM, Windows 7 x64, 3 pipelines inside CPE;
           •        Среднее количество символов в статье 2436;
           •        Среднее время обработки одной статьи 57 мс.

20 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Спасибо!



21 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

More Related Content

Viewers also liked

гвоздикин
гвоздикингвоздикин
гвоздикинNLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловскаяNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
 

Viewers also liked (11)

rubashkin
rubashkinrubashkin
rubashkin
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
Skatov
SkatovSkatov
Skatov
 
Events
EventsEvents
Events
 
бетин
бетинбетин
бетин
 
Tomita
TomitaTomita
Tomita
 
Vlasova
VlasovaVlasova
Vlasova
 
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 

Similar to Serebryakov

Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction OverviewNLPseminar
 
Государственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартаповГосударственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартаповSergey Lourie
 
Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)Anatoly Levenchuk
 
Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2Technopark
 
Стандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMATСтандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMATAndrey Bayda
 
12 10 11_!shareрoint
12 10 11_!shareрoint12 10 11_!shareрoint
12 10 11_!shareрointITMsupport
 
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессовАлександр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессовMichael Dobner
 
100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rusIlya Ponomarev
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_БондаренкоLETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_Бондаренкоguestfa9aa
 
Мастер класс ПДн Бондаренко
Мастер класс ПДн БондаренкоМастер класс ПДн Бондаренко
Мастер класс ПДн Бондаренкоguest5a2f763
 

Similar to Serebryakov (14)

Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction Overview
 
Государственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартаповГосударственно-частное партнерство: серийное создание стартапов
Государственно-частное партнерство: серийное создание стартапов
 
Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)Тьюториал "Введение в системную инженерию" (15 января 2013)
Тьюториал "Введение в системную инженерию" (15 января 2013)
 
Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2Бизнес весна 2014 лекция 2
Бизнес весна 2014 лекция 2
 
Big data, Clouds & HPC
Big data, Clouds & HPCBig data, Clouds & HPC
Big data, Clouds & HPC
 
Стандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMATСтандарт OMG Essence и работа инициативы SEMAT
Стандарт OMG Essence и работа инициативы SEMAT
 
12 10 11_!shareрoint
12 10 11_!shareрoint12 10 11_!shareрoint
12 10 11_!shareрoint
 
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессовАлександр Муравлев, Спортмастер - Искусство создания эффективных процессов
Александр Муравлев, Спортмастер - Искусство создания эффективных процессов
 
100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus100930 Skolkovo executive summary rus
100930 Skolkovo executive summary rus
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_БондаренкоLETA_Мастер-класс_ПДн_АНХ_Бондаренко
LETA_Мастер-класс_ПДн_АНХ_Бондаренко
 
Мастер класс ПДн Бондаренко
Мастер класс ПДн БондаренкоМастер класс ПДн Бондаренко
Мастер класс ПДн Бондаренко
 

More from NLPseminar

More from NLPseminar (10)

Mitsov
MitsovMitsov
Mitsov
 
Maleev
MaleevMaleev
Maleev
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
 
Kiseleva
KiselevaKiseleva
Kiseleva
 
News Articles Clustering
News Articles ClusteringNews Articles Clustering
News Articles Clustering
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
shajkevich_2
shajkevich_2shajkevich_2
shajkevich_2
 
Shajkevich_1
Shajkevich_1Shajkevich_1
Shajkevich_1
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Ruwikt
RuwiktRuwikt
Ruwikt
 

Serebryakov

  • 1. Извлечение событий из текстовых документов Сергей Серебряков HP Labs Russia 26/05/2012 AINL, Санкт-Петербург © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 2. События 1. В Topic Detection and Tracking события представляют собой множества документов которые описывают “нечто уникальное, произошедшее в определённый момент времени”; 2. В Message Understanding Conference события представляют собой группы или фразы формирующие шаблон, связывающий участников, временные выражения и локации друг с другом; 3. Событие состоит из глагола и двух именованных сущностей появляющихся вместе достаточно часто в документах на определённую тематику; 2 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 3. Постановка задачи События включают сущности и отношения между ним и предполагают смену состояния: • В 1998 корпорация Exxon приобрела Mobil (поглощение); • Sportmart Inc заявил во вторник что Andrew Hochberg, президент, был назначен управляющим компанией (смена должностной позиции); Задача извлечения событий заключается в автоматическом определении событий в неструктурированных документах и извлечение детальной информации о них, в идеале, определяя “кто сделал что кому, когда, при помощи каких методов (инструментов), где и почему” (H. Tanev et al., 2009) 3 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 4. Примеры 1. SRA сегодня объявила о том что она прибрела Sentech, компанию, консультирующую в области управления электроэнергией и имеющую большой опыт в области возобновляемых источников энергии. 1. Объявление компании (Компания: SRA, Временное выражение: сегодня) 2. Поглощение(Покупатель: SRA, Приобретаемая компания: Sentech) 2. David Gyngell ушёл с позиции директора Crown Ltd в связи с тем что его новая должность в компании PBL Media не позволит ему эффективно исполнять обязанности в компании Crown. 1. Отставка(Человек: David Gyngell, Позиция: director, Компания: Crown Ltd) 3. Morrow Snowboards Inc объявил что David Calapp был назначен исполнительным директором компании. 1. Объявление компании (Компания: Morrow Snowbards) 2. Смена позиции (Человек: David Calapp, Новая позиция: исполнительный директор) 4 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 5. Мотивация Система извлечения событий Сложная обработка событий: Вход: неструктурированные данные Вход: атомарные события Выход: извлечённые события с атрибутами Выход: сложные события Поглощение: [HP, Palm, 28.04.2010] Событие A коррелирует с B. Банкротство: [LaunchTech, 14.01.2011] Событие C призойдёт с вероят. 0.8. Смена позиции: [Leo Apotheker, HP, SEO, 30.10.2010] Сложное событие D происходит. Природная катастрофа: [Earthquake, New Zeland, 04.10.2010] Сложное событие E не происходит. Большой объём неструктурированных данных Аналитика содержащих полезную информацию Вход: события, сложные события Выход: рекомендованные действия Покупка акций. Продажа акций. Изменение цепочки поставок. … 5 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 6. Предыдущие работы • Академические исследования –TimeML (J. Pustejovsky et al., 2003) –Automatic Content Extraction (G. Diddington et al., 2004) • Коммерческие системы –Thomson Reuters (T. Heinze et al., 2008) –European Media Monitor (C. Best et al., 2005) 6 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 7. Требования  Извлечение информации в реальном времени;  Извлечение полного набора аттрибутов и дополнительной информации с целью лучшего понимания контекста;  Применимость к новым задачам и возможность к расширению множества извлекаемых событий; 7 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 8. Предлагаемый подход  Извлечение событий с использованием:  Словарного поиска;  Извлекающих правил;  Unstructured Information Management Architecture (UIMA);  Отличия от предыдущих работ:  Извлечение богатого набора аттрибутов и дополнительной информации с целью лучшего понимания контекста путём агрегации аннотаций  Обоработка документа целиком  Извлечение информации с минимальной задержкой 8 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 9. Извлечение событий Документ Разбивка на предложения CAS: (документ, аннотации) Разбивка по словам Словарный поиск Извлекающие События правила Система – Разбивка по предложения и словам: whitespace tokenizer (UIMA) – Словарный поиск: dictionary based concept mapper (UIMA) – Извлекающие правила: TextMARKER engine 9 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 10. Словарный поиск  24 словаря для извлечения 5 типов событий  города, компании, страны, имена, индикаторы событий, элементы временных выражений и т.п.  Каждый элемент в словаре содержит ряд атрибутов которые копируются в аннотации 10 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 11. Агрегация на основе правил Правила объединяют аннотации Компания в более сложные структуры и/или модифицируют существующие аннотации. … ЗАО Новые Технологии… Индикатор Слово с Слово с компании заглавной буквы заглавной буквы CompanyIndicator CapitalizedWord+? -> MARK(Company{name(#2), type(#1)}) 11 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 12. Извлечение информации с использованием правил Resignation Event Person Company First Name CW Resignation Indicator Position CW CW Company Indicator T T T T T T T T T T T T Gene Isenberg is stepping down as chief executive of Nabors Industries Ltd. • FirstName CW • {->MARK(LastName), MARK(Person, 1, 2)}; • CW+? CompanyIndicator+ • {-> MARKONCE(Company, 1, 2)}; • Person ResignationIndicator "as" Position "of" "the"? Company • {->GATHER(ResignationEvent, 1, 2, 3, 4, 5, 6, 7, "person" = 1, "position" = 4, "company" = 7)}; 12 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 13. Атрибуты Событие Атрибуты Слияния & Поглощения покупатель, покупаемый, временное выражение, сумма сделки Смена должностной позиции человек, прошлая позиция, новая позиция, прошлая компания, новая компания, временное выражение Отставка человек, позиция, компания, временное выражение Объявления людей человек, временное выражение Объявления компаний компания, временное выражение 13 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 14. Примеры Текст Правило 3 миллиарда NUM+? WordNumber+ {-> MARKONCE(NUM, 1, 2)}; 2.3 млн долларов NUM CurrencyUnit {-> MARKONCE(PriceUnit, 1, 2)}; ЗАО Новые Технологии CompanyIndicator CW+? {-> MARKONCE(Company, 1, 2, 3)}; Redmond-based Microsoft City "-" "based" Company {-> MARKONCE(Company, 1, 2, 3, 4)}; 14 Февраля 08 DayNumber Month NUM{REGEXP("^([0-9]{2})$") ->MARKONCE(TE, 1, 2, 3, 4, 5)}; 14 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 15. События Индикатор события (триггер) – ключевое слово сигнализирующие о возможном наличии события Событие Пример индикатора Слияния & Поглощения приобрёл, была приобретена, была куплена, будет приобретена Смена должностной позиции был назначен, занял должность Отставка Покинул должность, ушёл с позиции Объявления компаний и объявил, проинформировала, сделала объявление людей 15 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 16. Примеры правил Text Rule HP acquired Palm. Company AcquisitionIndicator "the"? Company {-> GATHER(AcquisitionEvent, 1, 2, 3, 4,“comp1" = 1, “comp2" = 4)}; John Kimpbell has resigned Person ResignationIndicator "as" Position as vice president. {->GATHER(ResignationEvent, 1, 2, 3, 4, "person" = 1, "position" = 4)}; Andrew Hochberg was Person PositionChangeIndicator W? Position "of" "the"? Company TE? named as CEO of the {-> GATHER(PositionChange, 1, 2, 3, 4, 5, 7, 8,"person" = 1, "newPosition" = Sportmart Inc. couple of days 4, "newCompany" = 7)}; ago. 16 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 17. Мотивация использования архитектуры UIMA 1. Документы внутри UIMA обрабатываются аннотаторами – компонентами реализующими определённый метод извлечения информации (разбивка на предложения, разбивка по словам, определение частей речи и т.п.); 2. Существует большое количество репозиториев с UIMA аннотаторами реализующие различные алгоритмы обработки текстов; 3. Опыт компаний показывает что UIMA представляет собой удобную архитектуру для обработки больших объёмов неструктурированных данных; 4. Механизм UIMA AS позволяет разворачивать процессоры текстов на нескольких узлах сети тем самым масштабируя систему под возрастающие потоки информации; 17 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 18. Архитектура 18 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 19. Average processing time is 37 ms for articles containing one event and 45.72 ms in case if an article contains two events. Эксперимент Пять типов событий Выход 1. CA – объявления компаний CA PA M&A RES MPC 2. PA – объявления людей CA 163 21 0 0 0 3. M&A – слияния и поглощения PA 12 200 0 0 0 4. RES – отставка M&A 0 0 125 0 0 Вход 5. MPC – смена должностной позиции RES 0 0 0 217 0 MPC 0 0 0 0 15 Other 17 3 14 5 0 Среднее время обработки 37 мс для новости содержащей описание одного события и 45.72 мс в случае наличия в новостном документе двух событий. 19 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 20. Извлечение событий из текстов на русском языке Source #article Announce M&A MPC Res s ments RIA 2800 2382 744 58 28 mergers.ru 12500 6561 7494 163 74 maonline.ru 13000 ~10000 ~5000 ~200 • Workstation, 4 GB RAM, Windows 7 x64, 3 pipelines inside CPE; • Среднее количество символов в статье 2436; • Среднее время обработки одной статьи 57 мс. 20 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 21. Спасибо! 21 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.