Serebryakov

932 views
877 views

Published on

Выступление HP labs на AINL. Сергей Серебряков

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
932
On SlideShare
0
From Embeds
0
Number of Embeds
345
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Serebryakov

  1. 1. Извлечение событий из текстовых документов Сергей Серебряков HP Labs Russia 26/05/2012 AINL, Санкт-Петербург© Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  2. 2. События 1. В Topic Detection and Tracking события представляют собой множества документов которые описывают “нечто уникальное, произошедшее в определённый момент времени”; 2. В Message Understanding Conference события представляют собой группы или фразы формирующие шаблон, связывающий участников, временные выражения и локации друг с другом; 3. Событие состоит из глагола и двух именованных сущностей появляющихся вместе достаточно часто в документах на определённую тематику;2 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  3. 3. Постановка задачи События включают сущности и отношения между ним и предполагают смену состояния: • В 1998 корпорация Exxon приобрела Mobil (поглощение); • Sportmart Inc заявил во вторник что Andrew Hochberg, президент, был назначен управляющим компанией (смена должностной позиции); Задача извлечения событий заключается в автоматическом определении событий в неструктурированных документах и извлечение детальной информации о них, в идеале, определяя “кто сделал что кому, когда, при помощи каких методов (инструментов), где и почему” (H. Tanev et al., 2009)3 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  4. 4. Примеры1. SRA сегодня объявила о том что она прибрела Sentech, компанию, консультирующую в области управления электроэнергией и имеющую большой опыт в области возобновляемых источников энергии. 1. Объявление компании (Компания: SRA, Временное выражение: сегодня) 2. Поглощение(Покупатель: SRA, Приобретаемая компания: Sentech)2. David Gyngell ушёл с позиции директора Crown Ltd в связи с тем что его новая должность в компании PBL Media не позволит ему эффективно исполнять обязанности в компании Crown. 1. Отставка(Человек: David Gyngell, Позиция: director, Компания: Crown Ltd)3. Morrow Snowboards Inc объявил что David Calapp был назначен исполнительным директором компании. 1. Объявление компании (Компания: Morrow Snowbards) 2. Смена позиции (Человек: David Calapp, Новая позиция: исполнительный директор)4 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  5. 5. Мотивация Система извлечения событий Сложная обработка событий: Вход: неструктурированные данные Вход: атомарные события Выход: извлечённые события с атрибутами Выход: сложные события Поглощение: [HP, Palm, 28.04.2010] Событие A коррелирует с B. Банкротство: [LaunchTech, 14.01.2011] Событие C призойдёт с вероят. 0.8. Смена позиции: [Leo Apotheker, HP, SEO, 30.10.2010] Сложное событие D происходит. Природная катастрофа: [Earthquake, New Zeland, 04.10.2010] Сложное событие E не происходит. Большой объём неструктурированных данных Аналитика содержащих полезную информацию Вход: события, сложные события Выход: рекомендованные действия Покупка акций. Продажа акций. Изменение цепочки поставок. …5 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  6. 6. Предыдущие работы• Академические исследования –TimeML (J. Pustejovsky et al., 2003) –Automatic Content Extraction (G. Diddington et al., 2004)• Коммерческие системы –Thomson Reuters (T. Heinze et al., 2008) –European Media Monitor (C. Best et al., 2005)6 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  7. 7. Требования Извлечение информации в реальном времени; Извлечение полного набора аттрибутов и дополнительной информации сцелью лучшего понимания контекста; Применимость к новым задачам и возможность к расширению множестваизвлекаемых событий;7 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  8. 8. Предлагаемый подход  Извлечение событий с использованием:  Словарного поиска;  Извлекающих правил;  Unstructured Information Management Architecture (UIMA);  Отличия от предыдущих работ:  Извлечение богатого набора аттрибутов и дополнительной информации с целью лучшего понимания контекста путём агрегации аннотаций  Обоработка документа целиком  Извлечение информации с минимальной задержкой8 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  9. 9. Извлечение событий Документ Разбивка на предложения CAS: (документ, аннотации) Разбивка по словам Словарный поиск Извлекающие События правила Система – Разбивка по предложения и словам: whitespace tokenizer (UIMA) – Словарный поиск: dictionary based concept mapper (UIMA) – Извлекающие правила: TextMARKER engine9 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  10. 10. Словарный поиск  24 словаря для извлечения 5 типов событий  города, компании, страны, имена, индикаторы событий, элементы временных выражений и т.п.  Каждый элемент в словаре содержит ряд атрибутов которые копируются в аннотации10 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  11. 11. Агрегация на основе правил Правила объединяют аннотации Компания в более сложные структуры и/или модифицируют существующие аннотации. … ЗАО Новые Технологии… Индикатор Слово с Слово с компании заглавной буквы заглавной буквы CompanyIndicator CapitalizedWord+? -> MARK(Company{name(#2), type(#1)})11 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  12. 12. Извлечение информации с использованием правил Resignation Event Person Company First Name CW Resignation Indicator Position CW CW Company Indicator T T T T T T T T T T T T Gene Isenberg is stepping down as chief executive of Nabors Industries Ltd.• FirstName CW • {->MARK(LastName), MARK(Person, 1, 2)};• CW+? CompanyIndicator+ • {-> MARKONCE(Company, 1, 2)};• Person ResignationIndicator "as" Position "of" "the"? Company • {->GATHER(ResignationEvent, 1, 2, 3, 4, 5, 6, 7, "person" = 1, "position" = 4, "company" = 7)};12 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  13. 13. Атрибуты Событие АтрибутыСлияния & Поглощения покупатель, покупаемый, временное выражение, сумма сделкиСмена должностной позиции человек, прошлая позиция, новая позиция, прошлая компания, новая компания, временное выражениеОтставка человек, позиция, компания, временное выражениеОбъявления людей человек, временное выражениеОбъявления компаний компания, временное выражение13 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  14. 14. Примеры Текст Правило3 миллиарда NUM+? WordNumber+ {-> MARKONCE(NUM, 1, 2)};2.3 млн долларов NUM CurrencyUnit {-> MARKONCE(PriceUnit, 1, 2)};ЗАО Новые Технологии CompanyIndicator CW+? {-> MARKONCE(Company, 1, 2, 3)};Redmond-based Microsoft City "-" "based" Company {-> MARKONCE(Company, 1, 2, 3, 4)};14 Февраля 08 DayNumber Month NUM{REGEXP("^([0-9]{2})$") ->MARKONCE(TE, 1, 2, 3, 4, 5)};14 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  15. 15. События Индикатор события (триггер) – ключевое слово сигнализирующие о возможном наличии события Событие Пример индикатораСлияния & Поглощения приобрёл, была приобретена, была куплена, будет приобретенаСмена должностной позиции был назначен, занял должностьОтставка Покинул должность, ушёл с позицииОбъявления компаний и объявил, проинформировала, сделала объявлениелюдей15 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  16. 16. Примеры правил Text RuleHP acquired Palm. Company AcquisitionIndicator "the"? Company {-> GATHER(AcquisitionEvent, 1, 2, 3, 4,“comp1" = 1, “comp2" = 4)};John Kimpbell has resigned Person ResignationIndicator "as" Positionas vice president. {->GATHER(ResignationEvent, 1, 2, 3, 4, "person" = 1, "position" = 4)};Andrew Hochberg was Person PositionChangeIndicator W? Position "of" "the"? Company TE?named as CEO of the {-> GATHER(PositionChange, 1, 2, 3, 4, 5, 7, 8,"person" = 1, "newPosition" =Sportmart Inc. couple of days 4, "newCompany" = 7)};ago. 16 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  17. 17. Мотивация использования архитектуры UIMA 1. Документы внутри UIMA обрабатываются аннотаторами – компонентами реализующими определённый метод извлечения информации (разбивка на предложения, разбивка по словам, определение частей речи и т.п.); 2. Существует большое количество репозиториев с UIMA аннотаторами реализующие различные алгоритмы обработки текстов; 3. Опыт компаний показывает что UIMA представляет собой удобную архитектуру для обработки больших объёмов неструктурированных данных; 4. Механизм UIMA AS позволяет разворачивать процессоры текстов на нескольких узлах сети тем самым масштабируя систему под возрастающие потоки информации;17 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  18. 18. Архитектура18 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  19. 19. Average processing time is 37 ms for articles containing one event and 45.72 ms in case if an article contains two events. Эксперимент Пять типов событий Выход 1. CA – объявления компаний CA PA M&A RES MPC 2. PA – объявления людей CA 163 21 0 0 0 3. M&A – слияния и поглощения PA 12 200 0 0 0 4. RES – отставка M&A 0 0 125 0 0 Вход 5. MPC – смена должностной позиции RES 0 0 0 217 0 MPC 0 0 0 0 15 Other 17 3 14 5 0 Среднее время обработки 37 мс для новости содержащей описание одного события и 45.72 мс в случае наличия в новостном документе двух событий. 19 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  20. 20. Извлечение событий из текстов на русском языке Source #article Announce M&A MPC Res s ments RIA 2800 2382 744 58 28 mergers.ru 12500 6561 7494 163 74 maonline.ru 13000 ~10000 ~5000 ~200 • Workstation, 4 GB RAM, Windows 7 x64, 3 pipelines inside CPE; • Среднее количество символов в статье 2436; • Среднее время обработки одной статьи 57 мс.20 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  21. 21. Спасибо!21 © Copyright 2011 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

×