Universal Schemas

Universal Schema
Универсальная схема
для извлечения информации
Невмержицкий Сергей

Использованные материалы
Probabilistic Databases of Universal Schema
Limin Yao, Sebastian Riedel, Andrew McCallum, University of Massachusetts

Relation Extraction with Matrix Factorization and Universal
Schemas
Sebastian Riedel, University College London
Limin Yao, Andrew McCallum, Benjamin M. Marlin, University of Massachusetts

Идея работы
Сейчас используют
Формат источника данных

Схема базы данных

Минусы:
●

Потеря корректности и полноты естественного языка

Предлагается
●
●

Универсальная схема
Вероятностная база данных

Рисунок 1. Заполнение базы данных универсальной схемы. Темные кручи - наблюдаемые
факты, серые - предполагаемые. Извлечение отношений (RE) отображает поверхностные
паттерны в структурные отношения.

Обозначения
R - множество отношений между словами (“the X–historian-at–Y”).
T - множество именованных сущностей (<FERGUSON,HARVARD>)
Факт - это такой кортеж <r,t>, где

и

На вход модели подается множество наблюдаемых фактов O и
наблюдаемые факты для конкретного кортежа обозначаются как:

Кортежи и триплеты
Это почти как множества только со следующими отличиями:
●
●
●

могут иметь повторяющиеся элементы
порядок элементов имеет значение
кортеж всегда имеет ограниченное количество элементов

Например в RDF используются трехместные кортежи, так называемые
триплеты или триады:
●
●

<Вася, любит, Машу>
<машина, цвет, красный>

В данной работе используются двухместные кортежи: <Москва, Россия>.

Цель исследования
Проверить, что данная модель может предсказать для конкретной пары
отношения (r) и кортежа (t) вероятность p(yr,t=1), где yr,t- это некоторое
бинарное число, равное единице, если t находится в связи с r.
Для этого мы вводим набор экспоненциальных моделей, которые
оценивают вероятность, используя натуральный параметр
и
логистическую функцию:

является функцией от r, t и набора весов и/или скрытыми векторами.

Модели натурального параметра
Latent Feature Model
В данной модели мы измеряем совместимость r и t как скалярное
произведение двух скрытых переменных, отражающих размер K:

Этот подход соответствует обобщенному методу главных компонент
(PCA).

Рисунок 2. gPCA изменяет оценку представления двух отношений и кортежа при появлении
наблюдения r1(e). Это позволяет оценивать вероятность ненаблюдаемого факта r2(e).

Neighborhood Model
В основе данной модели лежит гипотеза: Мы можем интерполировать
значение интересующих нас отношение+кортеж, основываясь на
известных нам значениях истинности схожих отношений того же самого
кортежа.

Entity Model
В отличие от хорошо структурированных баз данных типа Freebase и
DBPedia, в реальности не всегда имеется возможность различить
отношения. Поэтому, вместо использования заранее определенного
набора типов сущностей, в данной модели мы обучаемся по скрытым в
данных сущностям (latent entity representation from data).

Combined Model
На практике все вышеуказанные модели могут отразить важные аспекты
данных, поэтому мы также используем совмещенную модель:

Parameter Estimation
Данные модели используют веса и скрытые вектора. Мы можем оценить
эти данные максимизируя log-likelihood.
Вычисление негативных утверждений с помощью неявной обратной связи.
Для получения максимальной вычислительной мощности производится
оптимизация множества фактов стохастическим градиентным спуском
(SGD)

Отличия от других подходов
Open IE
Новый подход основан на единой унифицированной модели, не требует
никаких типов сущностей. Выведение факта составляет всего несколько
скалярных произведений.

Never-Ending Learning and Bootstrapping
Новая модель лишь усиливает корреляции между обрабатываемыми
кореференциями. Это дает преимущество в том, что неправильные
предсказания имеют меньшую вероятность быть усиленными, что снижает
риск семантической дрейфа.

Данные для эксперимента
Источник

Тест

NYTimes

после 2000 года

1990-1999 года

Freebase факты

8k

8k

Freebase сущности

●
●
●

Обучение

200k

200k

Named-entities recognition
Выравнивание новостного корпуса и структурированных данных
Фильтрации отношений реже 10 наблюдений

Выполнение эксперимента
Два раздельных эксперимента для структурированных данных и
поверхностных шаблонов.
Каждое отношение рассматривается как запрос и получение первых 1000
пары сущностей из каждой системы. Затем берутся первые 100 ответов от
каждой системы и вручную оцениваем их истинность. Это дает нам набор
релевантных результатов, которые мы используем для вычисления
полноты и точности:
●
●
●

средняя точность
mean average precision (MAP)
weighted mean average precision

Результаты для Freebase
Таблица 1 содержит результаты для отношений Freebase, исключая те,
для которых система не смогла найти релевантные факты.
●
●
●

MI09 - Distant supervision for relation extraction without labeled data [Mike
Mintz et al., 2009].
YA11 - Версия MI09 с добавлением “preprocessed cluster features”
[Limin Yao et al., 2011]
SU12 - the state-of-the-art Multi-Instance Multi-Label system [Mihai
Surdeanu et al., 2012].

Для всех новых моделей использованы одинаковые значения K = 100,
1000 epochs, 0.01 в качестве регулязатора для весов компонентов и 0.1
для весов соседей.

Таблица 1. Средние и (взвешенные) MAP значения для отношений Freebase, основанные на
объединенных данных.
Столбец # содержит количество позитивных фактов в базе. Жирным указаны победители, курсивом - ничья.

График 1. Средняя 11-значная кривая точность-полнота для отношений Freebase

График 2. Точность и полнота для works_written(X,Y)

Результаты для Surface Patterns
Таблица 2 содержит сравнение наших моделей на 10 поверхностных
паттернах.
Эти результаты были выбраны как наиболее интересные, по мнению
автора, вопросы, не содержащиеся в Freebase. Мы вновь видим, что
добавление скрытых моделей (F, E) существенно улучшает результаты по
сравнению с N-моделью.

Таблица 2. Средние и (взвешенные) MAP значения для отношений поверхностных паттернов

График 3. Средняя 11-значная кривая точность-полнота для отношений поверхностных
паттернов

Заключение
Была представлена модель извлечения отношений в универсальные
схемы. Подобные схемы содержат петтерны поверхности, а также
отношения из структурированных, полученные из данных.
Поверхностные паттерны + Структурированные отношения
= Улучшение качества!
Новая модель расходует меньше времени на обучение при равных
объёмах информации.
Новый подход можно использовать для различных интеграционных задач.

Ссылки
Probabilistic Databases of Universal Schema [Limin Yao и др., 2012]
Open IE: http://ai.cs.washington.edu/projects/open-information-extraction
Метод главных компонент:
●
●

http://ru.wikipedia.org/wiki/Метод_главных_компонент
http://books.nips.cc/papers/files/nips14/AA27.pdf

Коллаборативная фильтрация: http://ru.wikipedia.
org/wiki/Коллаборативная_фильтрация

Universal Schemas

Recommended

Recommended

More Related Content

Similar to Universal Schemas

Similar to Universal Schemas (16)

Universal Schemas