SlideShare a Scribd company logo
1 of 93
Download to read offline
Временное измерение в
приложениях автоматической
обработки текста

Oleksandr Kolomiyets
Department of Computer Science
Katholieke Universiteit Leuven
oleksandr.kolomiyets@cs.kuleuven.be
Temporal Information Processing
• Temporal – time (время)
– Merriam Webster:
• “relating to time as opposed to eternity” (временное vs. постоянное)
• “relating to the sequence of time or to a particular time” (хронологическое)

• Information – meaningful data (данные со смыслом)
• Processing – process, procedure (обработка)
• Temporal Information Processing of Text =
Обработка естественного языка с фокусом на
извлечение временных данных со смыслом
Temporal Information
• Events (события) как непрерывная функция
E12
E5

E (events)

E10
E4

E2

E8
E6
E1

E3

E9

E11

E13

E7

t6 < t8

t (time)
Temporal Information
• Discrete events (дискретные события)
E1

E (events)

E6
E2

E3
E5

E4

t-1

t-2 t+1

t+2

t (time)
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
Carte chronologique (1753):
Jacques Barbeu-Dubourg
(1709 – 1779)
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
The Chart of Biography (1765): Joseph Priestley (1733 – 1804)
The New Chart of Biography (1769):
Joseph Priestley
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
The New Chart of History (1769): Joseph Priestley (1733 – 1804)
The New Chart of History (1769):
Joseph Priestley
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
Carte figurative des pertes successives en hommes de l'Armée
Française dans la campagne de Russie 1812-1813: Charles
Minard (1781 – 1870)
Charles Minard (1781 – 1870)
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
The Temple of Time (1846): Emma Willard (1787 – 1870)
The Temple of Time (1846): Emma
Willard
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
HyperHistory (www.hyperhistory.com)
HyperHistory Timelines
Примеры временной информации и
ее визуализация
• Представление временной информации
– Хронологии (timelines)
Stock Markets
Temporal Information Processing
Структурированная
информация

Визуализация во
времени
Temporal Information Processing
Неструктурированная
информация

Визуализация во времени
Temporal Information Processing
Неструктурированная
информация

Ручная обработка

Визуализация во времени

Структурированная
информация
Temporal Information Processing
Неструктурированная
информация

Ручная обработка

Визуализация во времени

Структурированная
информация
Temporal Information Processing
Неструктурированная
информация

Автоматическая
обработка

Визуализация во времени

Структурированная
информация
Temporal Information Processing
Неструктурированная
информация

Автоматическая
обработка

Визуализация во времени

Структурированная
информация
Оглавление
• Что такое информация о времени в естественном
языке
• Задачи извлечения информации о времени
• Временные выражения в естественном языке
• Проблемы разметки информации о времени
• Извлечение хронологий событий
Что такое информация о времени
Что такое информация о времени

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed Tahrir Square in
Cairo to try to seize control from protesters who had set up camp there.
Demonstrators fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in control but
running battles are now being fought. The violent clashes between the
security forces and protesters have lasted two days in Cairo and other
cities.
Что такое информация о времени
• Информация о времени
– (E)vents (события)
• stormed, set up, fled, fired, beat,
appeared, battles, clashes
• Штурмовать, разбить, разбежаться,
выстрелить, избить, казаться, бои,
столкновения

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have

stormed

Tahrir Square in

set up camp
there. Demonstrators fled as officers fired tear gas and beat them
with truncheons. At one point the police appeared to be in control
but running battles are now being fought. The violent clashes
Cairo to try to seize control from protesters who had

between the security forces and protesters have lasted two days in Cairo
and other cities.
Что такое информация о времени
• Информация о времени
– (E)vents (события)
– (T)imes = Timex (времен. выражения)
• 20 November 2011, 16:02 GMT, now, two
days

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed Tahrir Square in
Cairo to try to seize control from protesters who had set up camp there.
Demonstrators fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in control but
running battles are now being fought. The violent clashes between the
security forces and protesters have lasted
other cities.

two days

in Cairo and
Что такое информация о времени
• Информация о времени
– (E)vents (stormed, set up, fled, fired, beat,
appeared, battles, clashes)
– (T)imes (20 November 2011, 16:02 GMT, now,
two days)
– Temporal Relations (E-E, E-T, T-T)
(Отношения во времени)

E

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
control but running battles are now being fought. The
violent clashes between the security forces and
protesters have lasted two days in Cairo and other cities.

штурмовать
разбить

штурмовать

после

разбить

выстрелить разбежаться
после

разбежаться

казаться

бои

до

казаться

бои

столкновения

P2D (two days)

t

бои

включ.

столкновения

2012-11-20T16:02

выстрелить

равно

сейчас

2 дня
Задачи извлечения информации о
времени
Информация о времени

Отношения во времени

Нормализация

Распознавание
событий

Распознавание
времен. выражений

Естественный язык (текст)
Задачи извлечения информации о
времени
Информация о времени

Отношения во времени

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
control but running battles are now being fought. The
violent clashes between the security forces and
protesters have lasted
cities.

Нормализация

Распознавание
событий

Распознавание
времен. выражений

сейчас

2 дня

Естественный язык (текст)

two days

in Cairo and other
Задачи извлечения информации о
времени
Информация о времени

Отношения во времени

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
control but running battles are now being fought. The
violent clashes between the security forces and
protesters have lasted
cities.

Нормализация

Распознавание
событий

сейчас

Распознавание
времен. выражений

two days

in Cairo and other

VALUE = 2011-11-20T16:02
TYPE = TIME

2 дня

VALUE = P2D
TYPE = DURATION

Естественный язык (текст)
Задачи извлечения информации о
времени
20 November 2011 Last updated at 16:02 GMT

Информация о времени

Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators

fled

as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
Отношения во времени

control but running battles are now being fought.
The violent clashes between the security forces and
protesters have lasted two days in Cairo and other cities.
аттаковать

Нормализация

Распознавание
событий

Распознавание
времен. выражений

CLASS=OCCURENCE
POL

разбежаться

бои

TENSE

CLASS=OCCURENCE
POL

Естественный язык (текст)

MOD

MOD

TENSE

CLASS=OCCURENCE
POL

MOD

TENSE
Задачи извлечения информации о
времени
20 November 2011 Last updated at 16:02 GMT

Информация о времени

Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators

fled

as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
Отношения во времени

Нормализация

Распознавание
событий

control but running battles are now being fought.
The violent clashes between the security forces and
protesters have lasted two days in Cairo and other cities.

штурмовать

после

разбежаться

Распознавание
времен. выражений

Естественный язык (текст)

разбить

выстрелить

до

казаться

бои

после

бои

включ.

столкновения

равно

сейчас

2 дня
Задачи извлечения информации о
времени
Информация о времени

Отношения во времени

Нормализация

Распознавание
событий

Распознавание
времен. выражений

Естественный язык (текст)
Разпознаваение временных
выражений
• Распознавание по списку правил
– Регулярные выражения (regular expressions)
– Словари
– ...

• Машинное обучение
– Статистические методы
– Модели Маркова
– Двоичная классификация
Классификация по словам – модель
Маркова
•

Классификация по словам
–

Метки: Begin, Inside and Outside

–

Признаки
– Слово
days
– Лексема
day
– Часть речи
NNS
– Шаблон
days = xxxx
– Соседние слова, лексемы, части речи

–

Методы
– Срытая марковская модель (HMM)
– Марковская модель максимальной энтропии
– Условные случайные поля (CRF)

X
Bush
can
call
up
to
200,000
reservists
for
up
to
180
days
without
seeking
congressional
approval
.

Y
O
O
O
O
O
O
O
O
B
I
I
I
O
O
O
O
O

T
I
M
E
X
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной
меткой
Example:
He noted, however, that the company's order entry has
increased from the low levels of the early summer following
the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Признаки
•
•
•
•
•

•

•
•

Главное слово
summer
Лексема
summer
Часть речи
NN (summer)
Слова в СФТ
– the, early, summer, DT, JJ, NN
Образец
– the early summer = xxx_xxxxx_xxxxxx
– March 26 = Xxxxx_99
Конденсированный образец
– the early summer = (x)_(x)_(x)
– March 26 = X(x)_(9)
Образец СФТ
DT_JJ_NN
Глубина в дереве разбора
Условия эксперимента
• Методы
– Марковская модель максимальной энтропии (MEMM)
– Двоичная классификация СФТ методом максимальной энтропии (ME)

• Данные
– TimeBank 1.2
– 10-кратная перекрестная оценка (90-10-10)

• Критерии оценки
– Строгий (1:1)
– Гибкий (1:N)

• Оценки эффективности
– Точность (Precision (P))
– Полнота выборки (Recall (R))
– F1-мера: 2 × P × R
P+R
Результаты

N
0

F1
0.747

1

0.946

0.686

0.793

2

0.94

0.652

0.768

0.936

0.645

0.762

0

0.888

0.382

0.532

1

0.921

0.446

0.599

2

0.911

0.426

0.578

3

Строгий

R
0.628

3

Гибкий

P
0.928

0.905

0.414

0.566

[Kolomiyets & Moens, 2009, KI-09]
[Kolomiyets & Moens, 2009, AST-2009]

P

R

F1

0.872

0.836

0.852

0.866

0.796

0.828
Анализ ошибок
• Низкий уровень полноты выборки
• Особенности
– 7 временных выражений с главным словом summer (лето), но
ни одного примера с winter (зима)
– spring (весна) и fall (осень) встречаются в корпусе всего 2 раза

• Идея: генерирование дополнительных примеров на
основе имеющихся
Имеем разметку:
Имея набор синонимов [summer, autumn, fall, winter, spring]
Можно сгенерировать:

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Метод бутстрэппинга (Bootstrapped)
• Источник синонимов
– WordNet (Miller, 1995)

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Метод бутстрэппинга (Bootstrapped)
– Моделирование языков со скрытыми состояниями (LWLM)
(Deschacht & Moens, 2009)

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Условия эксперимента
• Методы
– Baseline: основной (без bootstrapping)
– LWLM: LWLM слова используются для генерирования
– LWLM+WordNet: Слова из пересечения 2 множеств
(LWLM+WordNet)

• Условия:
– Для каждого настоящего экземпляра разметки геренируется от
1 до 10 дополнительных примеров
– Обновление модели для каждого из условий

• Корпус:
– TempEval-2010 (стандартный корпус с разметкой временной
информации)
– Reuters
– Wikipedia
Результаты в TempEval-2010
LWLM
Baseline

• TempEval-2010
– Baseline
• P: 0.78; R: 0.82; F1: 0.80

– LWLM (Bootstrapped)
• P: 0.85; R: 0.84; F1: 0.845
[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Результаты Bootstrapped

• LWLM
– 23.3% уменьшение ошибки с 5 первыми синонимами (Reuters )
– 10.6% уменьшение ошибки с 3 первыми синонимами (Wikipedia)

• LWLM+WordNet
– 10.1% уменьшение ошибки с 4 первыми синонимами (Reuters )
– 12.8% уменьшение ошибки с 5 первыми синонимами (Wikipedia)

[Kolomiyets, Bethard & Moens, 2011, ACL-2011]
Разпознаваение временных
выражений - Выводы
• Редкие и не качественные аннотации для
статистических методов
• Bootstrapping улучшает результаты распознавания
• Использование синонимов только из WordNet не
улучшает результаты
• Результаты очень сильно зависят от точности
синтаксического анализа
Разпознаваение временных
выражений – Вопросы
• Распознавание методами машинного обучения хуже
чем методами основанными на правилах
• Какое количество и качество аннотаций необходимо
чтобы достигнуть уровня систем основанных на
правилах?
• Насколько сложно портировать системы на
правилах на другие языки и жанры текста?
Сложности извлечения информации
о времени
20 November 2011 Last updated at 16:02 GMT

Информация о времени

Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators

fled

as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be in
Отношения во времени

Нормализация

Распознавание
событий

control but running battles are now being fought.
The violent clashes between the security forces and
protesters have lasted two days in Cairo and other cities.

штурмовать

до

казаться

Естественный язык (текст)

бои

разбить

после

разбежаться

Распознавание
времен. выражений

после

бои

включ.

столкновения

равно

сейчас

2 дня
Почему раcпознавание отношений
во времени сложная задача
• Для n событий существует
 n  возможных отношений
 
2
 

– n=8
– N=56

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from

set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces and
protesters who had

protesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from

set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces and
protesters who had

protesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события
• Надо ли рассматривать все события
– Только те которые находятся в
определенном синтаксическом
контексте

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from

set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces and
protesters who had

protesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from

• Надо ли рассматривать все события
– Только те которые находятся в
определенном синтаксическом
контексте
– И только те для которых пары
предопределены

set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces and
protesters who had

protesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события
• Надо ли рассматривать все события
– Только те которые находятся в
определенном синтаксическом
контексте
– И только те для которых пары
предопределены

20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed
Tahrir Square in Cairo to try to seize control from

set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces and
protesters who had

protesters have lasted two days in Cairo and other cities.
Основные подходы
• Системы машинного обучения
– Последовательная классификация
• Нахождение всех отношений
• Пост-обработка
– Фильтрование ошибок на основе правил
– Выполнение условий и ограничений (constraints)

– Групповая классификация
• Включение гибких условий в статистическую модель
• Определение вероятности для применения условий
• Разметка всего документа с вероятностными ограничениями (constraints)

• Выводы
– Групповая классификация лучше чем последовательная
– Отсутствие качественных аннотаций
– Разрывы в хронологических линиях событий
Основные проблемы в обработке
текста и времени
• Отсутствие разметок

корпус

• Отсутствие четкой спецификации для разметок
что и как размечать
• Отсутствие критериев для оценки хронологических
линий
Основная проблема – Связанные
данные о времени
• Предположение: истории для детей имеют простую
хронологию событий
• Фокус на самые основные метки отношений во
времени
• Какая точность разметки может быть достигнута
экспертами
Пример: История для детей

There was once a house that was overrun with Mice. A Cat
heard of this, and said to herself, "That’s the place for me,"
and off she went and took up her quarters in the house, and
caught the Mice one by one and ate them. At last the Mice
could stand it no longer, and they determined to take to their
holes and stay there. "That’s awkward," said the Cat to
herself: "the only thing to do is to coax them out by a trick."
So she considered a while, and then climbed up the wall and
let herself hang down by her hind legs from a peg, and
pretended to be dead. By and by a Mouse peeped out and
saw the Cat hanging there. "Aha!" it cried, "you’re very
clever, madam, no doubt: but you may turn yourself into a
bag of meal hanging there, if you like, yet you won’t catch us
coming anywhere near you."

[Bethard, Kolomiyets & Moens, 2012, LREC-2012]
Пример: Хронология событий
There was once a house that was overrun with Mice. A Cat
heard of this, and said to herself, "That’s the place for me," and off
she went and took up her quarters in the house, and caught the Mice
one by one and ate them. At last the Mice could stand it no longer,
and they determined to take to their holes and stay there. "That’s
awkward," said the Cat to herself: "the only thing to do is to coax
them out by a trick." So she considered a while, and then climbed up
the wall and let herself hang down by her hind legs from a peg, and
pretended to be dead. By and by a Mouse peeped out and saw the
Cat hanging there. "Aha!" it cried, "you’re very clever, madam, no
doubt: but you may turn yourself into a bag of meal hanging there,
if you like, yet you won’t catch us coming anywhere near you."
Пример: Хронология событий
There was once a house that was overrun with Mice. A Cat
heard of this, and said to herself, "That’s the place for me," and off
she went and took up her quarters in the house, and caught the Mice
one by one and ate them. At last the Mice could stand it no longer,
and they determined to take to their holes and stay there. "That’s
awkward," said the Cat to herself: "the only thing to do is to coax
them out by a trick." So she considered a while, and then climbed up
the wall and let herself hang down by her hind legs from a peg, and
pretended to be dead. By and by a Mouse peeped out and saw the
Cat hanging there. "Aha!" it cried, "you’re very clever, madam, no
doubt: but you may turn yourself into a bag of meal hanging there,
if you like, yet you won’t catch us coming anywhere near you."

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)
– Оптимальное решение на каждом шагу (Shift or Reduce)
– Для тренировки используется локальный экстремум из
оракла (machine learning)
– При достижении конечного состояния, метод возвращает
структуру (хронологию)

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)
– Оптимальное решение на каждом шагу (Shift or Reduce)
– Для тренировки используется локальный экстремум из
оракла (machine learning)
– При достижении конечного состояния, метод возвращает
структуру (хронологию)
– Пример: Reduce-Right

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)
– Оптимальное решение на каждом шагу (Shift or Reduce)
– Для тренировки используется локальный экстремум из
оракла (machine learning)
– При достижении конечного состояния, метод возвращает
структуру (хронологию)
– Пример: Reduce-Left

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)
– Оптимальное решение на каждом шагу (Shift or Reduce)
– Для тренировки используется локальный экстремум из
оракла (machine learning)
– При достижении конечного состояния, метод возвращает
структуру (хронологию)
– Пример: Shift

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)
– Оптимальное решение на каждом шагу (Shift or Reduce)
– Для тренировки используется локальный экстремум из
оракла (machine learning)
– При достижении конечного состояния, метод возвращает
структуру (хронологию)
– Пример: Конечное состояние

[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод: Maximum Spanning Tree (MST)
– Поиск глобального экстремума путем максимизации веса
остовного дерева графа
y = arg max
y∈D

[Kolomiyets, Bethard & Moens, ACL-2012]

∑ s(ψ , r ,ψ
ψ

(ψ i , rk ,

j )∈A

i

k

j

)
Условия эксперимента
• Методы:
–
–
–
–

Shift-Reduce парсер
MST парсер
Baseline 1: линейная последовательноть событий
Baseline 2: линейная последовательноть событий с
классификацией отношений

• Условия
– Корпус: 100 историй для детей, 14,000 слов, 1136 отношений
– 10-кратная перекрестная оценка

• Оценки эффективности:
– Точность неразмеченных присоединений (UAA) – точность
нахождения связи, но без временной метки
– Точность размеченных присоединений (LAA) – точность
нахождения связи и временной метки
[Kolomiyets, Bethard & Moens, ACL-2012]
Результаты
Method

UAA

LAA

Baseline 1

0.830

0.581

Baseline 2

0.830

0.581

SRP

0.839

0.632

MST

0.835

0.606

• Выводы:
• Линейная хронология событий (в текстах для
детей)
• Автоматические методы лучше основных
«интуитивных» подходов
• Единственная связанная временная структура
[Kolomiyets, Bethard & Moens, ACL-2012]
Не только тексты для детей!
• Разметка времени для новостей
• Достаточно ли этой информации для компьютерного
понимания текста?
Компьютерное понимание текста
ПРИЛОЖЕНИЯ В СИСТЕМАХ
АВТОМАТИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТА
TERENCE (2010-2013)

Цель:
дизайн и разработка адаптивной системы
удаленного обучения для детей с плохим
понимания текста
Пользователи:
дети, возрастная группа (6-11)
педагоги
TERENCE (2010-2013)
Научное утверждение:
плохое понимание текста (связей между
сущностями и событиями) поправимо путем
увеличения нагрузки на чтение и адаптации
текста для чтения (сложность,
структурированность)
Идея:
вовлечение детей в процесс чтения:
генерирование компьютерных игр,
адаптация содержания
TERENCE (2010-2013)

Задания:
- автоматическое определение сложности
текста
- автоматическая разметка событий,
персонажей и их ролей, временные и причинноследственный связи
- (полу)автоматическое генерирование игр,
правильных и релевантных ответов о событиях
и персонажах
MUSE (2012-2015)

Machine Understanding for Interactive Storytelling
Цель:
создание методов компьютерного понимания текста
для дальнейшей визуализации сюжета в
виртуальном мире. Пользователь будет иметь
возможность исследовать виртуальный мир и
развитие сюжета с перспективы главного героя.
MUSE (2012-2015)
Научное утверждение:
Легкий доступ к информации. Понимание текста –
одна из главных проблем современного общества,
например понимание специализированных
руководств и инструкций в области медицины.
Идея:
Создание виртуальной реальности, в которой смысл
текста можно будет «исследовать» виртуально
MUSE (2012-2015)
• Ожирение
– Консультация с домашним врачем
– Серия консультаций с узкопрофильными специалистами
– Серия анализов
• Подготовка к анализам
• Процедура проведения анализов
• ...

– Допуск
• Хирургическое вмешательство (биатрическая хирургия)
– Желудочное шунтирование
– Бандажирование желудка
– Рукавная гастропластика
• Описание процедуры операции (лапароскопия)
• Риски
• Реабилитация
• ...
Nlp seminar.kolomiyets.dec.2013

More Related Content

More from Natalia Ostapuk

Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12Natalia Ostapuk
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1Natalia Ostapuk
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledgeNatalia Ostapuk
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledgeNatalia Ostapuk
 
семинар Spb ling_v3
семинар Spb ling_v3семинар Spb ling_v3
семинар Spb ling_v3Natalia Ostapuk
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Bonch-Osmolovskaya 3.3.2012
Bonch-Osmolovskaya 3.3.2012Bonch-Osmolovskaya 3.3.2012
Bonch-Osmolovskaya 3.3.2012Natalia Ostapuk
 

More from Natalia Ostapuk (20)

Tomita 4марта
Tomita 4мартаTomita 4марта
Tomita 4марта
 
Konyushkova
KonyushkovaKonyushkova
Konyushkova
 
Braslavsky 13.12.12
Braslavsky 13.12.12Braslavsky 13.12.12
Braslavsky 13.12.12
 
Клышинский 8.12
Клышинский 8.12Клышинский 8.12
Клышинский 8.12
 
Zizka synasc 2012
Zizka synasc 2012Zizka synasc 2012
Zizka synasc 2012
 
Zizka immm 2012
Zizka immm 2012Zizka immm 2012
Zizka immm 2012
 
Zizka aimsa 2012
Zizka aimsa 2012Zizka aimsa 2012
Zizka aimsa 2012
 
Analysis by-variants
Analysis by-variantsAnalysis by-variants
Analysis by-variants
 
место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1место онтологий в современной инженерии на примере Iso 15926 v1
место онтологий в современной инженерии на примере Iso 15926 v1
 
Text mining
Text miningText mining
Text mining
 
Additional2
Additional2Additional2
Additional2
 
Additional1
Additional1Additional1
Additional1
 
Seminar1
Seminar1Seminar1
Seminar1
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge
 
2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge2011 04 troussov_graph_basedmethods-weakknowledge
2011 04 troussov_graph_basedmethods-weakknowledge
 
Angelii rus
Angelii rusAngelii rus
Angelii rus
 
семинар Spb ling_v3
семинар Spb ling_v3семинар Spb ling_v3
семинар Spb ling_v3
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Bonch-Osmolovskaya 3.3.2012
Bonch-Osmolovskaya 3.3.2012Bonch-Osmolovskaya 3.3.2012
Bonch-Osmolovskaya 3.3.2012
 
Авиком
АвикомАвиком
Авиком
 

Nlp seminar.kolomiyets.dec.2013

  • 1. Временное измерение в приложениях автоматической обработки текста Oleksandr Kolomiyets Department of Computer Science Katholieke Universiteit Leuven oleksandr.kolomiyets@cs.kuleuven.be
  • 2. Temporal Information Processing • Temporal – time (время) – Merriam Webster: • “relating to time as opposed to eternity” (временное vs. постоянное) • “relating to the sequence of time or to a particular time” (хронологическое) • Information – meaningful data (данные со смыслом) • Processing – process, procedure (обработка) • Temporal Information Processing of Text = Обработка естественного языка с фокусом на извлечение временных данных со смыслом
  • 3. Temporal Information • Events (события) как непрерывная функция E12 E5 E (events) E10 E4 E2 E8 E6 E1 E3 E9 E11 E13 E7 t6 < t8 t (time)
  • 4. Temporal Information • Discrete events (дискретные события) E1 E (events) E6 E2 E3 E5 E4 t-1 t-2 t+1 t+2 t (time)
  • 5. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) Carte chronologique (1753): Jacques Barbeu-Dubourg (1709 – 1779)
  • 6. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) The Chart of Biography (1765): Joseph Priestley (1733 – 1804)
  • 7. The New Chart of Biography (1769): Joseph Priestley
  • 8. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) The New Chart of History (1769): Joseph Priestley (1733 – 1804)
  • 9. The New Chart of History (1769): Joseph Priestley
  • 10. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) Carte figurative des pertes successives en hommes de l'Armée Française dans la campagne de Russie 1812-1813: Charles Minard (1781 – 1870)
  • 11. Charles Minard (1781 – 1870)
  • 12. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) The Temple of Time (1846): Emma Willard (1787 – 1870)
  • 13. The Temple of Time (1846): Emma Willard
  • 14. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) HyperHistory (www.hyperhistory.com)
  • 16. Примеры временной информации и ее визуализация • Представление временной информации – Хронологии (timelines) Stock Markets
  • 19. Temporal Information Processing Неструктурированная информация Ручная обработка Визуализация во времени Структурированная информация
  • 20. Temporal Information Processing Неструктурированная информация Ручная обработка Визуализация во времени Структурированная информация
  • 23. Оглавление • Что такое информация о времени в естественном языке • Задачи извлечения информации о времени • Временные выражения в естественном языке • Проблемы разметки информации о времени • Извлечение хронологий событий
  • 25. Что такое информация о времени 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted two days in Cairo and other cities.
  • 26. Что такое информация о времени • Информация о времени – (E)vents (события) • stormed, set up, fled, fired, beat, appeared, battles, clashes • Штурмовать, разбить, разбежаться, выстрелить, избить, казаться, бои, столкновения 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes Cairo to try to seize control from protesters who had between the security forces and protesters have lasted two days in Cairo and other cities.
  • 27. Что такое информация о времени • Информация о времени – (E)vents (события) – (T)imes = Timex (времен. выражения) • 20 November 2011, 16:02 GMT, now, two days 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted other cities. two days in Cairo and
  • 28. Что такое информация о времени • Информация о времени – (E)vents (stormed, set up, fled, fired, beat, appeared, battles, clashes) – (T)imes (20 November 2011, 16:02 GMT, now, two days) – Temporal Relations (E-E, E-T, T-T) (Отношения во времени) E 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted two days in Cairo and other cities. штурмовать разбить штурмовать после разбить выстрелить разбежаться после разбежаться казаться бои до казаться бои столкновения P2D (two days) t бои включ. столкновения 2012-11-20T16:02 выстрелить равно сейчас 2 дня
  • 29. Задачи извлечения информации о времени Информация о времени Отношения во времени Нормализация Распознавание событий Распознавание времен. выражений Естественный язык (текст)
  • 30. Задачи извлечения информации о времени Информация о времени Отношения во времени 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted cities. Нормализация Распознавание событий Распознавание времен. выражений сейчас 2 дня Естественный язык (текст) two days in Cairo and other
  • 31. Задачи извлечения информации о времени Информация о времени Отношения во времени 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted cities. Нормализация Распознавание событий сейчас Распознавание времен. выражений two days in Cairo and other VALUE = 2011-11-20T16:02 TYPE = TIME 2 дня VALUE = P2D TYPE = DURATION Естественный язык (текст)
  • 32. Задачи извлечения информации о времени 20 November 2011 Last updated at 16:02 GMT Информация о времени Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in Отношения во времени control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted two days in Cairo and other cities. аттаковать Нормализация Распознавание событий Распознавание времен. выражений CLASS=OCCURENCE POL разбежаться бои TENSE CLASS=OCCURENCE POL Естественный язык (текст) MOD MOD TENSE CLASS=OCCURENCE POL MOD TENSE
  • 33. Задачи извлечения информации о времени 20 November 2011 Last updated at 16:02 GMT Информация о времени Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in Отношения во времени Нормализация Распознавание событий control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted two days in Cairo and other cities. штурмовать после разбежаться Распознавание времен. выражений Естественный язык (текст) разбить выстрелить до казаться бои после бои включ. столкновения равно сейчас 2 дня
  • 34. Задачи извлечения информации о времени Информация о времени Отношения во времени Нормализация Распознавание событий Распознавание времен. выражений Естественный язык (текст)
  • 35. Разпознаваение временных выражений • Распознавание по списку правил – Регулярные выражения (regular expressions) – Словари – ... • Машинное обучение – Статистические методы – Модели Маркова – Двоичная классификация
  • 36. Классификация по словам – модель Маркова • Классификация по словам – Метки: Begin, Inside and Outside – Признаки – Слово days – Лексема day – Часть речи NNS – Шаблон days = xxxx – Соседние слова, лексемы, части речи – Методы – Срытая марковская модель (HMM) – Марковская модель максимальной энтропии – Условные случайные поля (CRF) X Bush can call up to 200,000 reservists for up to 180 days without seeking congressional approval . Y O O O O O O O O B I I I O O O O O T I M E X
  • 37. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 38. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 39. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 40. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 41. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 42. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 43. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 44. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 45. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 46. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 47. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 48. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 49. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 50. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 51. Двоичная классификация СФТ • Классификация СФТ позитивной либо негативной меткой Example: He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml]
  • 52. Двоичная классификация СФТ • Признаки • • • • • • • • Главное слово summer Лексема summer Часть речи NN (summer) Слова в СФТ – the, early, summer, DT, JJ, NN Образец – the early summer = xxx_xxxxx_xxxxxx – March 26 = Xxxxx_99 Конденсированный образец – the early summer = (x)_(x)_(x) – March 26 = X(x)_(9) Образец СФТ DT_JJ_NN Глубина в дереве разбора
  • 53. Условия эксперимента • Методы – Марковская модель максимальной энтропии (MEMM) – Двоичная классификация СФТ методом максимальной энтропии (ME) • Данные – TimeBank 1.2 – 10-кратная перекрестная оценка (90-10-10) • Критерии оценки – Строгий (1:1) – Гибкий (1:N) • Оценки эффективности – Точность (Precision (P)) – Полнота выборки (Recall (R)) – F1-мера: 2 × P × R P+R
  • 55. Анализ ошибок • Низкий уровень полноты выборки • Особенности – 7 временных выражений с главным словом summer (лето), но ни одного примера с winter (зима) – spring (весна) и fall (осень) встречаются в корпусе всего 2 раза • Идея: генерирование дополнительных примеров на основе имеющихся Имеем разметку: Имея набор синонимов [summer, autumn, fall, winter, spring] Можно сгенерировать: [Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
  • 56. Метод бутстрэппинга (Bootstrapped) • Источник синонимов – WordNet (Miller, 1995) [Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
  • 57. Метод бутстрэппинга (Bootstrapped) – Моделирование языков со скрытыми состояниями (LWLM) (Deschacht & Moens, 2009) [Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
  • 58. Условия эксперимента • Методы – Baseline: основной (без bootstrapping) – LWLM: LWLM слова используются для генерирования – LWLM+WordNet: Слова из пересечения 2 множеств (LWLM+WordNet) • Условия: – Для каждого настоящего экземпляра разметки геренируется от 1 до 10 дополнительных примеров – Обновление модели для каждого из условий • Корпус: – TempEval-2010 (стандартный корпус с разметкой временной информации) – Reuters – Wikipedia
  • 59. Результаты в TempEval-2010 LWLM Baseline • TempEval-2010 – Baseline • P: 0.78; R: 0.82; F1: 0.80 – LWLM (Bootstrapped) • P: 0.85; R: 0.84; F1: 0.845 [Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
  • 60. Результаты Bootstrapped • LWLM – 23.3% уменьшение ошибки с 5 первыми синонимами (Reuters ) – 10.6% уменьшение ошибки с 3 первыми синонимами (Wikipedia) • LWLM+WordNet – 10.1% уменьшение ошибки с 4 первыми синонимами (Reuters ) – 12.8% уменьшение ошибки с 5 первыми синонимами (Wikipedia) [Kolomiyets, Bethard & Moens, 2011, ACL-2011]
  • 61. Разпознаваение временных выражений - Выводы • Редкие и не качественные аннотации для статистических методов • Bootstrapping улучшает результаты распознавания • Использование синонимов только из WordNet не улучшает результаты • Результаты очень сильно зависят от точности синтаксического анализа
  • 62. Разпознаваение временных выражений – Вопросы • Распознавание методами машинного обучения хуже чем методами основанными на правилах • Какое количество и качество аннотаций необходимо чтобы достигнуть уровня систем основанных на правилах? • Насколько сложно портировать системы на правилах на другие языки и жанры текста?
  • 63. Сложности извлечения информации о времени 20 November 2011 Last updated at 16:02 GMT Информация о времени Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from protesters who had set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in Отношения во времени Нормализация Распознавание событий control but running battles are now being fought. The violent clashes between the security forces and protesters have lasted two days in Cairo and other cities. штурмовать до казаться Естественный язык (текст) бои разбить после разбежаться Распознавание времен. выражений после бои включ. столкновения равно сейчас 2 дня
  • 64. Почему раcпознавание отношений во времени сложная задача • Для n событий существует  n  возможных отношений   2   – n=8 – N=56 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters who had protesters have lasted two days in Cairo and other cities.
  • 65. Упрощение задачи • Только очень частые события 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters who had protesters have lasted two days in Cairo and other cities.
  • 66. Упрощение задачи • Только очень частые события • Надо ли рассматривать все события – Только те которые находятся в определенном синтаксическом контексте 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters who had protesters have lasted two days in Cairo and other cities.
  • 67. Упрощение задачи • Только очень частые события 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from • Надо ли рассматривать все события – Только те которые находятся в определенном синтаксическом контексте – И только те для которых пары предопределены set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters who had protesters have lasted two days in Cairo and other cities.
  • 68. Упрощение задачи • Только очень частые события • Надо ли рассматривать все события – Только те которые находятся в определенном синтаксическом контексте – И только те для которых пары предопределены 20 November 2011 Last updated at 16:02 GMT Egyptian military police in riot gear have stormed Tahrir Square in Cairo to try to seize control from set up camp there. Demonstrators fled as officers fired tear gas and beat them with truncheons. At one point the police appeared to be in control but running battles are now being fought. The violent clashes between the security forces and protesters who had protesters have lasted two days in Cairo and other cities.
  • 69. Основные подходы • Системы машинного обучения – Последовательная классификация • Нахождение всех отношений • Пост-обработка – Фильтрование ошибок на основе правил – Выполнение условий и ограничений (constraints) – Групповая классификация • Включение гибких условий в статистическую модель • Определение вероятности для применения условий • Разметка всего документа с вероятностными ограничениями (constraints) • Выводы – Групповая классификация лучше чем последовательная – Отсутствие качественных аннотаций – Разрывы в хронологических линиях событий
  • 70. Основные проблемы в обработке текста и времени • Отсутствие разметок корпус • Отсутствие четкой спецификации для разметок что и как размечать • Отсутствие критериев для оценки хронологических линий
  • 71. Основная проблема – Связанные данные о времени • Предположение: истории для детей имеют простую хронологию событий • Фокус на самые основные метки отношений во времени • Какая точность разметки может быть достигнута экспертами
  • 72. Пример: История для детей There was once a house that was overrun with Mice. A Cat heard of this, and said to herself, "That’s the place for me," and off she went and took up her quarters in the house, and caught the Mice one by one and ate them. At last the Mice could stand it no longer, and they determined to take to their holes and stay there. "That’s awkward," said the Cat to herself: "the only thing to do is to coax them out by a trick." So she considered a while, and then climbed up the wall and let herself hang down by her hind legs from a peg, and pretended to be dead. By and by a Mouse peeped out and saw the Cat hanging there. "Aha!" it cried, "you’re very clever, madam, no doubt: but you may turn yourself into a bag of meal hanging there, if you like, yet you won’t catch us coming anywhere near you." [Bethard, Kolomiyets & Moens, 2012, LREC-2012]
  • 73. Пример: Хронология событий There was once a house that was overrun with Mice. A Cat heard of this, and said to herself, "That’s the place for me," and off she went and took up her quarters in the house, and caught the Mice one by one and ate them. At last the Mice could stand it no longer, and they determined to take to their holes and stay there. "That’s awkward," said the Cat to herself: "the only thing to do is to coax them out by a trick." So she considered a while, and then climbed up the wall and let herself hang down by her hind legs from a peg, and pretended to be dead. By and by a Mouse peeped out and saw the Cat hanging there. "Aha!" it cried, "you’re very clever, madam, no doubt: but you may turn yourself into a bag of meal hanging there, if you like, yet you won’t catch us coming anywhere near you."
  • 74. Пример: Хронология событий There was once a house that was overrun with Mice. A Cat heard of this, and said to herself, "That’s the place for me," and off she went and took up her quarters in the house, and caught the Mice one by one and ate them. At last the Mice could stand it no longer, and they determined to take to their holes and stay there. "That’s awkward," said the Cat to herself: "the only thing to do is to coax them out by a trick." So she considered a while, and then climbed up the wall and let herself hang down by her hind legs from a peg, and pretended to be dead. By and by a Mouse peeped out and saw the Cat hanging there. "Aha!" it cried, "you’re very clever, madam, no doubt: but you may turn yourself into a bag of meal hanging there, if you like, yet you won’t catch us coming anywhere near you." [Kolomiyets, Bethard & Moens, ACL-2012]
  • 75. Построение хронологий событий • Метод Shift-Reduce Parser (SRP) – Оптимальное решение на каждом шагу (Shift or Reduce) – Для тренировки используется локальный экстремум из оракла (machine learning) – При достижении конечного состояния, метод возвращает структуру (хронологию) [Kolomiyets, Bethard & Moens, ACL-2012]
  • 76. Построение хронологий событий • Метод Shift-Reduce Parser (SRP) – Оптимальное решение на каждом шагу (Shift or Reduce) – Для тренировки используется локальный экстремум из оракла (machine learning) – При достижении конечного состояния, метод возвращает структуру (хронологию) – Пример: Reduce-Right [Kolomiyets, Bethard & Moens, ACL-2012]
  • 77. Построение хронологий событий • Метод Shift-Reduce Parser (SRP) – Оптимальное решение на каждом шагу (Shift or Reduce) – Для тренировки используется локальный экстремум из оракла (machine learning) – При достижении конечного состояния, метод возвращает структуру (хронологию) – Пример: Reduce-Left [Kolomiyets, Bethard & Moens, ACL-2012]
  • 78. Построение хронологий событий • Метод Shift-Reduce Parser (SRP) – Оптимальное решение на каждом шагу (Shift or Reduce) – Для тренировки используется локальный экстремум из оракла (machine learning) – При достижении конечного состояния, метод возвращает структуру (хронологию) – Пример: Shift [Kolomiyets, Bethard & Moens, ACL-2012]
  • 79. Построение хронологий событий • Метод Shift-Reduce Parser (SRP) – Оптимальное решение на каждом шагу (Shift or Reduce) – Для тренировки используется локальный экстремум из оракла (machine learning) – При достижении конечного состояния, метод возвращает структуру (хронологию) – Пример: Конечное состояние [Kolomiyets, Bethard & Moens, ACL-2012]
  • 80. Построение хронологий событий • Метод: Maximum Spanning Tree (MST) – Поиск глобального экстремума путем максимизации веса остовного дерева графа y = arg max y∈D [Kolomiyets, Bethard & Moens, ACL-2012] ∑ s(ψ , r ,ψ ψ (ψ i , rk , j )∈A i k j )
  • 81. Условия эксперимента • Методы: – – – – Shift-Reduce парсер MST парсер Baseline 1: линейная последовательноть событий Baseline 2: линейная последовательноть событий с классификацией отношений • Условия – Корпус: 100 историй для детей, 14,000 слов, 1136 отношений – 10-кратная перекрестная оценка • Оценки эффективности: – Точность неразмеченных присоединений (UAA) – точность нахождения связи, но без временной метки – Точность размеченных присоединений (LAA) – точность нахождения связи и временной метки [Kolomiyets, Bethard & Moens, ACL-2012]
  • 82. Результаты Method UAA LAA Baseline 1 0.830 0.581 Baseline 2 0.830 0.581 SRP 0.839 0.632 MST 0.835 0.606 • Выводы: • Линейная хронология событий (в текстах для детей) • Автоматические методы лучше основных «интуитивных» подходов • Единственная связанная временная структура [Kolomiyets, Bethard & Moens, ACL-2012]
  • 83. Не только тексты для детей! • Разметка времени для новостей • Достаточно ли этой информации для компьютерного понимания текста?
  • 86. TERENCE (2010-2013) Цель: дизайн и разработка адаптивной системы удаленного обучения для детей с плохим понимания текста Пользователи: дети, возрастная группа (6-11) педагоги
  • 87. TERENCE (2010-2013) Научное утверждение: плохое понимание текста (связей между сущностями и событиями) поправимо путем увеличения нагрузки на чтение и адаптации текста для чтения (сложность, структурированность) Идея: вовлечение детей в процесс чтения: генерирование компьютерных игр, адаптация содержания
  • 88. TERENCE (2010-2013) Задания: - автоматическое определение сложности текста - автоматическая разметка событий, персонажей и их ролей, временные и причинноследственный связи - (полу)автоматическое генерирование игр, правильных и релевантных ответов о событиях и персонажах
  • 89.
  • 90. MUSE (2012-2015) Machine Understanding for Interactive Storytelling Цель: создание методов компьютерного понимания текста для дальнейшей визуализации сюжета в виртуальном мире. Пользователь будет иметь возможность исследовать виртуальный мир и развитие сюжета с перспективы главного героя.
  • 91. MUSE (2012-2015) Научное утверждение: Легкий доступ к информации. Понимание текста – одна из главных проблем современного общества, например понимание специализированных руководств и инструкций в области медицины. Идея: Создание виртуальной реальности, в которой смысл текста можно будет «исследовать» виртуально
  • 92. MUSE (2012-2015) • Ожирение – Консультация с домашним врачем – Серия консультаций с узкопрофильными специалистами – Серия анализов • Подготовка к анализам • Процедура проведения анализов • ... – Допуск • Хирургическое вмешательство (биатрическая хирургия) – Желудочное шунтирование – Бандажирование желудка – Рукавная гастропластика • Описание процедуры операции (лапароскопия) • Риски • Реабилитация • ...