Адаптация англоязычной
     системы извлечения
 информации к русскому языку
                   Лидия Пивоварова
               University of Helsinki, СПбГУ




15 сентября 2012
PULS
• PULS – система извлечения информации
  из новостного потока и поддержки
  принятия решений
• Руководитель проекта: Roman Yangarber
• Участники: Mian Du, Peter von Etter, Silja
  Huttunen, Lidia Pivovarova, Matthew
  Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël
  Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen


              http://puls.cs.helsinki.fi/puls/
Мотивация

    СМИ могут быть единственным источником
    информации о событии

    или самым оперативным источником

    или источником дополнительных сведений /
    альтернативной точки зрения


    Русский язык: до сих пор является lingua
    franca на территории бывшего Советского
    Союза
Сценарий: Medical




Мониторинг распространения инфекционных
заболеваний
Сценарий: Border Security




Мониторинг нелегальной миграции; преступности, связанной
с пересчением границ (например, контрабанды); кризисных
(криминальных) ситуаций
Сценарий: Border Security
Русский язык: постановка задачи
• анализ новостных русскоязычных текстов для
  сценариев Border Security и Medical
• представление результатов в
  унифицированном (общем для англоязычных и
  русскоязычных текстов) формате
• максимальное использование уже готовых
  (разработанных для англоязычной системы)
  инструментов
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Лингвистический анализ
• Используется система АОТ (морфология и
  синтаксис)
• Используется не вся выдача АОТ
  –   Именные группы
  –   Предложные группы
  –   Глагольные группы
  –   Имена, числа, другие сущности
• Для интеграции АОТ в систему PULS
  используется Wrapper
Морфологический анализ (АОТ Lemm)
Синтаксический анализ (AOT Synan)
WRAPPER

    Lemm: не снимает неоднозначности

    Synan: не содержит всех слов, только те,
    которые задействованы в
    отношениях/группах

    Wrapper: объединение результатов
    морфологического и синтаксического
    разбора
          
              + некоторые элементы семантической разметки
              (например, имена собственные)
WRAPPER

    Грамматические теги переводятся на английский

    Для каждого отношения проводится связь между хозяином
    и зависимым
     
        прочие варианты морфологического разбора
        уничтожаются
     
        если лемма хозяина и зависимого нулевая (например,
        группа), она восстанавливается

    Если зависимый имеет два хозяина (сочинение), связи
    приводятся к древесному виду

    Некоторые группы переводятся в отношения, прочие
    игнорируются

    Разбор слов, не задействованных в синтаксических
    отношениях, копируется из морфологического разбора (со
    всеми неоднозначностями)
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Структура онтологии
     ДЕРЕВО
   КОНЦЕПТОВ

- отношение ОБЩЕЕ-
ЧАСТНОЕ (IS-A)

- множественное
наследование
- возможность
приписывать
концептам любые
свойства
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)
   КОНЦЕПТОВ
                     1. Имплицитный:
- отношение ОБЩЕЕ-          - если имя концепта состоит
ЧАСТНОЕ (IS-A)       из одного слова, оно также
                     рассматривается как слово,
- множественное      обозначающее этот концепт,
наследование         которое может встретиться в
- возможность        тексте
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
(DEFCONCEPT C­ART_AIR :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))
(DEFCONCEPT C­ART_LAND :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))
(DEFCONCEPT C­ART_WATER :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED))

(DEFCONCEPT C­PLANE :TYPEOF (C­ART_AIR))
(DEFCONCEPT CARRIER :TYPEOF (C­ART_WATER C­ART_LAND C­ART_AIR))
(DEFCONCEPT GUNSHIP :TYPEOF (C­ART_AIR))
(DEFCONCEPT LAUNCHER :TYPEOF (C­ART_AIR C­VEHICLE))
(DEFCONCEPT ROCKET :TYPEOF (S­ARMS C­VEHICLE))
(DEFCONCEPT SHUTTLE :TYPEOF (C­ART_AIR C­VEHICLE))
(DEFCONCEPT VEHICLE :TYPEOF (C­ART_LAND C­ART_AIR C­VEHICLE))

(DEFCONCEPT A­PLANE  :TYPEOF (C­PLANE))
(DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER 
   CHOPPER) :TYPEOF (C­PLANE))

(DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C­ART_LAND))
(DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C­ART_LAND)) 
(DEFCONCEPT CRUISER :TYPEOF (C­ART_LAND C­ART_WATER))
(DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C­ART_LAND))
(DEFCONCEPT PATHFINDER :TYPEOF (C­ART_LAND))
(DEFCONCEPT SUBWAY :TYPEOF (C­ART_LAND))
(DEFCONCEPT TANK :TYPEOF (C­ART_LAND))
(DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C­ART_LAND))
(DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C­ART_LAND))

(DEFCONCEPT A­SHIP :TYPEOF (C­ART_WATER)) 
(DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C­ART_WATER))
(DEFCONCEPT FERRY :TYPEOF (C­ART_WATER))
(DEFCONCEPT FLEET :TYPEOF (C­ART_WATER))
(DEFCONCEPT FRIGATE :TYPEOF (C­ART_WATER))
(DEFCONCEPT LIFEBOAT :TYPEOF (C­ART_WATER))
(DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C­ART_WATER))
(DEFCONCEPT SUBMARINE :TYPEOF (C­ART_WATER))
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)
   КОНЦЕПТОВ
                     1. Имплицитный:
- отношение ОБЩЕЕ-          - если имя концепта состоит
ЧАСТНОЕ (IS-A)       из одного слова, оно также
                     рассматривается как слово,
- множественное      обозначающее этот концепт,
наследование         которое может встретиться в
- возможность        тексте
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы
свойства             непосредственно в дерево
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний


                          Русскоязычный лексикон

                     - Слова
                     - Словосочетания (в виде
                     специальных образцов)
Структура онтологии
     ДЕРЕВО             Лексикон (английский язык)                СЛОВАРИ
   КОНЦЕПТОВ                                              - Отношение
                     1. Имплицитный:                      INSTANCE-OF
- отношение ОБЩЕЕ-          - если имя концепта состоит     - географические
ЧАСТНОЕ (IS-A)       из одного слова, оно также           пункты
                     рассматривается как слово,             - болезни
- множественное      обозначающее этот концепт,             - компании
наследование         которое может встретиться в            - персоналии
- возможность        тексте                                 - etc...
приписывать                 - также возможно добавлять
концептам любые      однословные синонимы                 Переводы словарей на
свойства             непосредственно в дерево                 русский язык
                     концептов

                     2. Эксплицитный
                            - Лексикон словосочетаний


                          Русскоязычный лексикон

                     - Слова
                     - Словосочетания (в виде
                     специальных образцов)
Общая схема работы системы
     Документ          Лингвистический       Семантическая
    (plain text)           анализ              разметка




  Предложения,
 синтаксические    Фактографический анализ
группы, сущности
                                                   Запись в
                                                     базе
                                 Правила
                     Образцы                        данных
                                 вывода
Образцы



np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)
Образцы



np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW)


•Жесткий порядок слов
•Проверки семантических классов
•Проверки грамматических категорий (вообще говоря, любых,
чаще всего – частей речи)
•Некоторые элементы могут быть необязательны или
повторяться
•Можно использовать образцы низкого уровня (каскад)
Правила



Если
  - найдено событие типа CRISIS
   - в тексте упоминается контрабанда
То
   - тип события меняется на SMUGGLE
Правила



   Работают на семантическом уровне
   Никакие “физические” характеристики, кроме близости,
    не проверяются
   Благодаря этому, покрывают гораздо большее число
    языковых явлений (в том числе, стилистических)
   И не зависят от языка (sic!)
   Не очень точны и не могут использоваться без образцов.
Образцы и правила
Русский язык
    Адаптация
    системы на      =   Образцы   +   Словарь
    другой язык


    Все остальное (по крайней мере,
    теоретически) может заимствоваться из
    уже работающей системы

    База образцов – ключевой компонент
    системы, который отражает не только
    особенности языка и сценария, но также
    стилистические особенности текста
Образцы: адаптация к русскому
Английский язык                 Русский язык
•GUI, где образцы легко создаются Образцы пишутся
на основе фрагментов текста       напрямую в коде
•Система парафраза
•Автоматическая генерация
образцов
•154 образца в медицинском
сценарии, 308 образцов для
пограничной безопасности

Фиксированный порядок слов      Свободный
                                порядок слов
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала
•   Арестовала преступника полиция
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала, а не оштрафовала
•   Арестовала преступника полиция
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
•   Полиция арестовала преступника
•   Полиция преступника арестовала, а не оштрафовала
•   Арестовала преступника полиция, а не таможня
•   Преступника полиция арестовала
•   Преступника арестовала полиция
•   Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала полиция преступника
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
  после того, как поступил звонок “сверху”
Свободный порядок слов
• Полиция арестовала преступника
• Полиция преступника арестовала, а не оштрафовала
• Арестовала преступника полиция, а не таможня
• Преступника полиция арестовала в тот момент, когда он
  пытался пересечь границу
• Преступника, который пять лет скрывался от закона, в
  конце концов арестовала полиция
• Арестовала наша доблестная полиция преступника только
  после того как поступил звонок “сверху”


         • Даже в новостных текстах!
Образцы-триггеры

    Порядок слов неинформативен

    Однако отказ от учета порядка слов в
    образце потребовал бы существенной
    переделки механизма поиска образцов в
    тексте

    Другое решение: образцы-триггеры,
    которые создают событие

    Максимальная опора на правила вывода,
    которые уточняют и дополняют событие
Образец из одного слова?

    Неодназначность:
    Эксперты осудили действия активистов.
     Hас моментально обвинили бы в проведении политики "Апартеида".
    ...урезание бюджета приведет к сокращению программы "Кипат
    барзель", и задержит приобретение новых четырех батарей.

    В некоторых случаях синтаксическая
    информация определяет тип события:

    Полицейский поймал преступника → ARREST
    Полицейского поймал преступник → KIDNAPPING

    Совсем без синтаксиса обойтись не удастся
Итоговая форма образца

    Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта,
  <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали,
  мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант
  обвиняется)
Итоговая форма образца

    Триггер + объект

ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта,
  <полиция> арестовала мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали,
  мигранта арестовала <полиция>)
ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант)
СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован)
СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта)
СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант
  обвиняется)

    Два образца (для учета порядка слов) +
    разумное число ограничений
Образцы и правила (русский язык)
• Security:
  – 23 образца, большая часть из них создает
    событие типа CRISIS
  – Правила дополняют событие и меняют его
    тип
• Medical:
  – 4 образца: некто заболел, заболел некто,
    эпидемия болезни, случай заболевания
  – В случае, если правила не могут найти в
    тексте конкретную болезнь, событие
    уничтожается
Онтология, образцы и правила

    Образцы: требуется формальная онтология
    
        A person arrested on a border → ILLEGAL-ENTRY
    
        Goods arrested on a border → SMUGGLING

    Правила: скорее, нужен тезаурус
    
        Border, border-guard, illegal entry → ILLEGAL-ENTRY
    
        Customs, customs-officer, contraband → SMUGGLING

    Онтология
    
        баланс полноты и точности
    
        противоречия между правилами и образцами
    
        некоторые допущения, сделанные для упрощения
        работы в одноязычной системе при добавлении
        второго языка могут приводить к нелогичному
        поведению системы
    
        решение: дополнительные тезаурусные отношения
Оценка: Security

    64 документа

    Часть из них размечалась до создания системы

    Часть – на основе анализа работы раннего
    прототипа системы (студентами СПбГУ)

    65 событий

    Около трети документов не содержат событий
Оценка: Security

    64 документа

    Часть из них размечалась до создания системы

    Часть – на основе анализа работы раннего
    прототипа системы (студентами СпбГУ)

    65 событий

    Около трети документов не содержат событий
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Релевантность – характеризует
  полезность извлеченных фактов,
  независимо от их правильности
Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
  – Lexical features: слова из текста
  – Discourse features: расположение событий в тексте,
    содержание слотов
• Классификация событий на актуальные (4),
  устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского
  сценария для русского языка, мы так же
  пытались оценить возможности
  классификатора релевантности
Классификатор релевантности
• Машинное обучение с учителем
• SVM, Naïve Bayes, 200-300 документов
• Два типа свойств:
  – Lexical features: слова из текста
  – Discourse features: расположение событий в тексте,
    содержание слотов
• Классификация событий на актуальные (4),
  устаревшие (2) и бесполезные (0)

• Оценивая качество работы медицинского
  сценария для русского языка, мы также
  пытались оценить возможности
  классификатора релевантности
Эксперимент
• Классификатор:
  – натренирован на английских документах
  – использует только discourse features
• 307 документов, 491 событий, подправленных
  человеком и оцененных по 5-ти бальной
  шкале
  – 264 релевантных события (2-5), 114 –
    высокорелевантных (4-5)
Эксперимент
• Классификатор:
  – натренирован на английских документах
  – использует только discourse features
• 307 документов, 491 событие, подправленные
  человеком и оцененные по 5-ти бальной
  шкале
  – 264 релевантных события (2-5), 114 –
    высокорелевантных (4-5)
Релевантность: первые выводы
• Использование классификатора релевантности
  повышает точность работы системы за счет
  полноты
• F-мера при этом не уменьшается или растет

• Содержательно: классификатор релевантности
  дополняет образцы-триггеры и «облегчает»
  базу образцов
• Гибридная оценка отражает качество работы
  системы с точки зрения пользователя
Дальнейшая работа
• Развитие базы образцов, пополнение
  словарей
• Обучение классификатора на русских
  документах

• Система парафраза, автоматическая
  генерация образцов…
Публикации

    Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event
    Extraction for Infectious Disease Outbreaks In Proceedings of the 3rd
    Annual Human Language Technology Conference HLT-2002 (2002) San
    Diego, CA

    M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V
    Zavarella. Automated event extraction in the domain of Border Security In
    Proceedings of MINUCS-2009: Workshop on Mining User-Generated
    Content for Security, at the UCMedia-2009: ICST Conference on User-
    Centric Media (2009) Venice, Italy

    Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber.
    Relevance prediction in information extraction using discourse and lexical
    features Nodalida-2011: Nordic Conference on Computational Linguistics
    (2011) Riga, Latvia

    Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia
    Tarbeeva, Roman Yangarber. Building support tools for Russian-language
    information extraction BSNLP-2011: Balto-Slavonic Natural Language
    Processing (2011) Plzeň, Czech Republic
Спасибо за внимание!

Puls Russian

  • 1.
    Адаптация англоязычной системы извлечения информации к русскому языку Лидия Пивоварова University of Helsinki, СПбГУ 15 сентября 2012
  • 2.
    PULS • PULS –система извлечения информации из новостного потока и поддержки принятия решений • Руководитель проекта: Roman Yangarber • Участники: Mian Du, Peter von Etter, Silja Huttunen, Lidia Pivovarova, Matthew Pierce, Mikhail Novikov, Esben Alfort, Lauri Jokipii, Gaël Lejeune, Heikki Manninen, Natalia Tarbeeva, Arto Vihavainen http://puls.cs.helsinki.fi/puls/
  • 4.
    Мотивация  СМИ могут быть единственным источником информации о событии  или самым оперативным источником  или источником дополнительных сведений / альтернативной точки зрения  Русский язык: до сих пор является lingua franca на территории бывшего Советского Союза
  • 5.
  • 8.
    Сценарий: Border Security Мониторингнелегальной миграции; преступности, связанной с пересчением границ (например, контрабанды); кризисных (криминальных) ситуаций
  • 9.
  • 11.
    Русский язык: постановказадачи • анализ новостных русскоязычных текстов для сценариев Border Security и Medical • представление результатов в унифицированном (общем для англоязычных и русскоязычных текстов) формате • максимальное использование уже готовых (разработанных для англоязычной системы) инструментов
  • 13.
    Общая схема работысистемы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 14.
    Общая схема работысистемы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 15.
    Лингвистический анализ • Используетсясистема АОТ (морфология и синтаксис) • Используется не вся выдача АОТ – Именные группы – Предложные группы – Глагольные группы – Имена, числа, другие сущности • Для интеграции АОТ в систему PULS используется Wrapper
  • 16.
  • 17.
  • 18.
    WRAPPER  Lemm: не снимает неоднозначности  Synan: не содержит всех слов, только те, которые задействованы в отношениях/группах  Wrapper: объединение результатов морфологического и синтаксического разбора  + некоторые элементы семантической разметки (например, имена собственные)
  • 19.
    WRAPPER  Грамматические теги переводятся на английский  Для каждого отношения проводится связь между хозяином и зависимым  прочие варианты морфологического разбора уничтожаются  если лемма хозяина и зависимого нулевая (например, группа), она восстанавливается  Если зависимый имеет два хозяина (сочинение), связи приводятся к древесному виду  Некоторые группы переводятся в отношения, прочие игнорируются  Разбор слов, не задействованных в синтаксических отношениях, копируется из морфологического разбора (со всеми неоднозначностями)
  • 20.
    Общая схема работысистемы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 21.
    Структура онтологии ДЕРЕВО КОНЦЕПТОВ - отношение ОБЩЕЕ- ЧАСТНОЕ (IS-A) - множественное наследование - возможность приписывать концептам любые свойства
  • 22.
    Структура онтологии ДЕРЕВО Лексикон (английский язык) КОНЦЕПТОВ 1. Имплицитный: - отношение ОБЩЕЕ- - если имя концепта состоит ЧАСТНОЕ (IS-A) из одного слова, оно также рассматривается как слово, - множественное обозначающее этот концепт, наследование которое может встретиться в - возможность тексте приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 23.
    (DEFCONCEPT C­ART_AIR :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­ART_LAND :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­ART_WATER :TYPEOF (C­ARTIFACT C­TRANSPORT­RELATED)) (DEFCONCEPT C­PLANE :TYPEOF (C­ART_AIR)) (DEFCONCEPT CARRIER :TYPEOF (C­ART_WATER C­ART_LAND C­ART_AIR)) (DEFCONCEPT GUNSHIP :TYPEOF (C­ART_AIR)) (DEFCONCEPT LAUNCHER :TYPEOF (C­ART_AIR C­VEHICLE)) (DEFCONCEPT ROCKET :TYPEOF (S­ARMS C­VEHICLE)) (DEFCONCEPT SHUTTLE :TYPEOF (C­ART_AIR C­VEHICLE)) (DEFCONCEPT VEHICLE :TYPEOF (C­ART_LAND C­ART_AIR C­VEHICLE)) (DEFCONCEPT A­PLANE  :TYPEOF (C­PLANE)) (DEFCONCEPT PLANE :ALIAS (JET AIRPLANE AIRLINER AIRCRAFT AEROPLANE HELICOPTER  CHOPPER) :TYPEOF (C­PLANE)) (DEFCONCEPT BUS :ALIAS (MINIBUS) :TYPEOF (C­ART_LAND)) (DEFCONCEPT CAR :ALIAS (SUV LIMOUSINE) :TYPEOF (C­ART_LAND))  (DEFCONCEPT CRUISER :TYPEOF (C­ART_LAND C­ART_WATER)) (DEFCONCEPT MOTORBIKE :ALIAS (MOTORCYCLE) :TYPEOF (C­ART_LAND)) (DEFCONCEPT PATHFINDER :TYPEOF (C­ART_LAND)) (DEFCONCEPT SUBWAY :TYPEOF (C­ART_LAND)) (DEFCONCEPT TANK :TYPEOF (C­ART_LAND)) (DEFCONCEPT TRAILER :ALIAS (MINIVAN) :TYPEOF (C­ART_LAND)) (DEFCONCEPT TRUCK :ALIAS (LORRY) :TYPEOF (C­ART_LAND)) (DEFCONCEPT A­SHIP :TYPEOF (C­ART_WATER))  (DEFCONCEPT BOAT :ALIAS (SPEEDBOAT) :TYPEOF (C­ART_WATER)) (DEFCONCEPT FERRY :TYPEOF (C­ART_WATER)) (DEFCONCEPT FLEET :TYPEOF (C­ART_WATER)) (DEFCONCEPT FRIGATE :TYPEOF (C­ART_WATER)) (DEFCONCEPT LIFEBOAT :TYPEOF (C­ART_WATER)) (DEFCONCEPT SHIP :ALIAS (YACHT) :TYPEOF (C­ART_WATER)) (DEFCONCEPT SUBMARINE :TYPEOF (C­ART_WATER))
  • 24.
    Структура онтологии ДЕРЕВО Лексикон (английский язык) КОНЦЕПТОВ 1. Имплицитный: - отношение ОБЩЕЕ- - если имя концепта состоит ЧАСТНОЕ (IS-A) из одного слова, оно также рассматривается как слово, - множественное обозначающее этот концепт, наследование которое может встретиться в - возможность тексте приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 25.
    Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний
  • 26.
    Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы свойства непосредственно в дерево концептов 2. Эксплицитный - Лексикон словосочетаний Русскоязычный лексикон - Слова - Словосочетания (в виде специальных образцов)
  • 27.
    Структура онтологии ДЕРЕВО Лексикон (английский язык) СЛОВАРИ КОНЦЕПТОВ - Отношение 1. Имплицитный: INSTANCE-OF - отношение ОБЩЕЕ- - если имя концепта состоит - географические ЧАСТНОЕ (IS-A) из одного слова, оно также пункты рассматривается как слово, - болезни - множественное обозначающее этот концепт, - компании наследование которое может встретиться в - персоналии - возможность тексте - etc... приписывать - также возможно добавлять концептам любые однословные синонимы Переводы словарей на свойства непосредственно в дерево русский язык концептов 2. Эксплицитный - Лексикон словосочетаний Русскоязычный лексикон - Слова - Словосочетания (в виде специальных образцов)
  • 28.
    Общая схема работысистемы Документ Лингвистический Семантическая (plain text) анализ разметка Предложения, синтаксические Фактографический анализ группы, сущности Запись в базе Правила Образцы данных вывода
  • 29.
  • 30.
    Образцы np-head(C-AUTHORITY,BELOW) vg(P-ARREST-OR-CHARGE) np-head(C-PERSON,BELOW) •Жесткийпорядок слов •Проверки семантических классов •Проверки грамматических категорий (вообще говоря, любых, чаще всего – частей речи) •Некоторые элементы могут быть необязательны или повторяться •Можно использовать образцы низкого уровня (каскад)
  • 31.
    Правила Если -найдено событие типа CRISIS - в тексте упоминается контрабанда То - тип события меняется на SMUGGLE
  • 32.
    Правила  Работают на семантическом уровне  Никакие “физические” характеристики, кроме близости, не проверяются  Благодаря этому, покрывают гораздо большее число языковых явлений (в том числе, стилистических)  И не зависят от языка (sic!)  Не очень точны и не могут использоваться без образцов.
  • 33.
  • 34.
    Русский язык Адаптация системы на = Образцы + Словарь другой язык  Все остальное (по крайней мере, теоретически) может заимствоваться из уже работающей системы  База образцов – ключевой компонент системы, который отражает не только особенности языка и сценария, но также стилистические особенности текста
  • 35.
    Образцы: адаптация крусскому Английский язык Русский язык •GUI, где образцы легко создаются Образцы пишутся на основе фрагментов текста напрямую в коде •Система парафраза •Автоматическая генерация образцов •154 образца в медицинском сценарии, 308 образцов для пограничной безопасности Фиксированный порядок слов Свободный порядок слов
  • 36.
    Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала • Арестовала преступника полиция • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 37.
    Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 38.
    Свободный порядок слов • Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала • Преступника арестовала полиция • Арестовала полиция преступника
  • 39.
    Свободный порядок слов •Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника арестовала полиция • Арестовала полиция преступника
  • 40.
    Свободный порядок слов •Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала полиция преступника
  • 41.
    Свободный порядок слов •Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала наша доблестная полиция преступника только после того, как поступил звонок “сверху”
  • 42.
    Свободный порядок слов •Полиция арестовала преступника • Полиция преступника арестовала, а не оштрафовала • Арестовала преступника полиция, а не таможня • Преступника полиция арестовала в тот момент, когда он пытался пересечь границу • Преступника, который пять лет скрывался от закона, в конце концов арестовала полиция • Арестовала наша доблестная полиция преступника только после того как поступил звонок “сверху” • Даже в новостных текстах!
  • 43.
    Образцы-триггеры  Порядок слов неинформативен  Однако отказ от учета порядка слов в образце потребовал бы существенной переделки механизма поиска образцов в тексте  Другое решение: образцы-триггеры, которые создают событие  Максимальная опора на правила вывода, которые уточняют и дополняют событие
  • 44.
    Образец из одногослова?  Неодназначность: Эксперты осудили действия активистов. Hас моментально обвинили бы в проведении политики "Апартеида". ...урезание бюджета приведет к сокращению программы "Кипат барзель", и задержит приобретение новых четырех батарей.  В некоторых случаях синтаксическая информация определяет тип события:  Полицейский поймал преступника → ARREST Полицейского поймал преступник → KIDNAPPING  Совсем без синтаксиса обойтись не удастся
  • 45.
    Итоговая форма образца  Триггер + объект ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>) ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант) СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован) СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется)
  • 46.
    Итоговая форма образца  Триггер + объект ГЛАГОЛ+СУЩЕСТВИТЕЛЬНОЕ (арестовали мигранта, <полиция> арестовала мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ (мигранта арестовали, мигранта арестовала <полиция>) ПРИЧАСТИЕ+СУЩЕСТВИТЕЛЬНОЕ (арестован мигрант) СУЩЕСТВИТЕЛЬНОЕ+ПРИЧАСТИЕ (мигрант арестован) СУЩЕСТВИТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ (арест мигранта) СУЩЕСТВИТЕЛЬНОЕ+ГЛАГОЛ(РЕФЛЕКСИВНЫЙ) (мигрант обвиняется) Два образца (для учета порядка слов) + разумное число ограничений
  • 47.
    Образцы и правила(русский язык) • Security: – 23 образца, большая часть из них создает событие типа CRISIS – Правила дополняют событие и меняют его тип • Medical: – 4 образца: некто заболел, заболел некто, эпидемия болезни, случай заболевания – В случае, если правила не могут найти в тексте конкретную болезнь, событие уничтожается
  • 48.
    Онтология, образцы иправила  Образцы: требуется формальная онтология  A person arrested on a border → ILLEGAL-ENTRY  Goods arrested on a border → SMUGGLING  Правила: скорее, нужен тезаурус  Border, border-guard, illegal entry → ILLEGAL-ENTRY  Customs, customs-officer, contraband → SMUGGLING  Онтология  баланс полноты и точности  противоречия между правилами и образцами  некоторые допущения, сделанные для упрощения работы в одноязычной системе при добавлении второго языка могут приводить к нелогичному поведению системы  решение: дополнительные тезаурусные отношения
  • 49.
    Оценка: Security  64 документа  Часть из них размечалась до создания системы  Часть – на основе анализа работы раннего прототипа системы (студентами СПбГУ)  65 событий  Около трети документов не содержат событий
  • 50.
    Оценка: Security  64 документа  Часть из них размечалась до создания системы  Часть – на основе анализа работы раннего прототипа системы (студентами СпбГУ)  65 событий  Около трети документов не содержат событий
  • 51.
    Классификатор релевантности • Релевантность– характеризует полезность извлеченных фактов, независимо от их правильности
  • 52.
    Классификатор релевантности • Релевантность– характеризует полезность извлеченных фактов, независимо от их правильности
  • 53.
    Классификатор релевантности • Релевантность– характеризует полезность извлеченных фактов, независимо от их правильности
  • 54.
    Классификатор релевантности • Машинноеобучение с учителем • SVM, Naïve Bayes, 200-300 документов • Два типа свойств: – Lexical features: слова из текста – Discourse features: расположение событий в тексте, содержание слотов • Классификация событий на актуальные (4), устаревшие (2) и бесполезные (0) • Оценивая качество работы медицинского сценария для русского языка, мы так же пытались оценить возможности классификатора релевантности
  • 55.
    Классификатор релевантности • Машинноеобучение с учителем • SVM, Naïve Bayes, 200-300 документов • Два типа свойств: – Lexical features: слова из текста – Discourse features: расположение событий в тексте, содержание слотов • Классификация событий на актуальные (4), устаревшие (2) и бесполезные (0) • Оценивая качество работы медицинского сценария для русского языка, мы также пытались оценить возможности классификатора релевантности
  • 56.
    Эксперимент • Классификатор: – натренирован на английских документах – использует только discourse features • 307 документов, 491 событий, подправленных человеком и оцененных по 5-ти бальной шкале – 264 релевантных события (2-5), 114 – высокорелевантных (4-5)
  • 57.
    Эксперимент • Классификатор: – натренирован на английских документах – использует только discourse features • 307 документов, 491 событие, подправленные человеком и оцененные по 5-ти бальной шкале – 264 релевантных события (2-5), 114 – высокорелевантных (4-5)
  • 58.
    Релевантность: первые выводы •Использование классификатора релевантности повышает точность работы системы за счет полноты • F-мера при этом не уменьшается или растет • Содержательно: классификатор релевантности дополняет образцы-триггеры и «облегчает» базу образцов • Гибридная оценка отражает качество работы системы с точки зрения пользователя
  • 59.
    Дальнейшая работа • Развитиебазы образцов, пополнение словарей • Обучение классификатора на русских документах • Система парафраза, автоматическая генерация образцов…
  • 60.
    Публикации  Ralph Grishman, Silja Huttunen, Roman Yangarber. Real-Time Event Extraction for Infectious Disease Outbreaks In Proceedings of the 3rd Annual Human Language Technology Conference HLT-2002 (2002) San Diego, CA  M Atkinson, J Piskorski, H Tanev, E van der Goot, R Yangarber, V Zavarella. Automated event extraction in the domain of Border Security In Proceedings of MINUCS-2009: Workshop on Mining User-Generated Content for Security, at the UCMedia-2009: ICST Conference on User- Centric Media (2009) Venice, Italy  Silja Huttunen, Arto Vihavainen, Peter von Etter, Roman Yangarber. Relevance prediction in information extraction using discourse and lexical features Nodalida-2011: Nordic Conference on Computational Linguistics (2011) Riga, Latvia  Mian Du, Peter von Etter, Mikhail Kopotev, Mikhail Novikov, Natalia Tarbeeva, Roman Yangarber. Building support tools for Russian-language information extraction BSNLP-2011: Balto-Slavonic Natural Language Processing (2011) Plzeň, Czech Republic
  • 61.