SlideShare a Scribd company logo
Universal Schema
Универсальная схема
для извлечения информации
Невмержицкий Сергей
Использованные материалы
Probabilistic Databases of Universal Schema
Limin Yao, Sebastian Riedel, Andrew McCallum, University of Massachusetts

Relation Extraction with Matrix Factorization and Universal
Schemas
Sebastian Riedel, University College London
Limin Yao, Andrew McCallum, Benjamin M. Marlin, University of Massachusetts
Идея работы
Сейчас используют
Формат источника данных

Схема базы данных

Минусы:
●

Потеря корректности и полноты естественного языка

Предлагается
●
●

Универсальная схема
Вероятностная база данных
Рисунок 1. Заполнение базы данных универсальной схемы. Темные кручи - наблюдаемые
факты, серые - предполагаемые. Извлечение отношений (RE) отображает поверхностные
паттерны в структурные отношения.
Обозначения
R - множество отношений между словами (“the X–historian-at–Y”).
T - множество именованных сущностей (<FERGUSON,HARVARD>)
Факт - это такой кортеж <r,t>, где

и

На вход модели подается множество наблюдаемых фактов O и
наблюдаемые факты для конкретного кортежа обозначаются как:
Кортежи и триплеты
Это почти как множества только со следующими отличиями:
●
●
●

могут иметь повторяющиеся элементы
порядок элементов имеет значение
кортеж всегда имеет ограниченное количество элементов

Например в RDF используются трехместные кортежи, так называемые
триплеты или триады:
●
●

<Вася, любит, Машу>
<машина, цвет, красный>

В данной работе используются двухместные кортежи: <Москва, Россия>.
Цель исследования
Проверить, что данная модель может предсказать для конкретной пары
отношения (r) и кортежа (t) вероятность p(yr,t=1), где yr,t- это некоторое
бинарное число, равное единице, если t находится в связи с r.
Для этого мы вводим набор экспоненциальных моделей, которые
оценивают вероятность, используя натуральный параметр
и
логистическую функцию:

является функцией от r, t и набора весов и/или скрытыми векторами.
Модели натурального параметра
Latent Feature Model
В данной модели мы измеряем совместимость r и t как скалярное
произведение двух скрытых переменных, отражающих размер K:

Этот подход соответствует обобщенному методу главных компонент
(PCA).
Рисунок 2. gPCA изменяет оценку представления двух отношений и кортежа при появлении
наблюдения r1(e). Это позволяет оценивать вероятность ненаблюдаемого факта r2(e).
Модели натурального параметра
Neighborhood Model
В основе данной модели лежит гипотеза: Мы можем интерполировать
значение интересующих нас отношение+кортеж, основываясь на
известных нам значениях истинности схожих отношений того же самого
кортежа.
Модели натурального параметра
Entity Model
В отличие от хорошо структурированных баз данных типа Freebase и
DBPedia, в реальности не всегда имеется возможность различить
отношения. Поэтому, вместо использования заранее определенного
набора типов сущностей, в данной модели мы обучаемся по скрытым в
данных сущностям (latent entity representation from data).
Модели натурального параметра
Combined Model
На практике все вышеуказанные модели могут отразить важные аспекты
данных, поэтому мы также используем совмещенную модель:
Parameter Estimation
Данные модели используют веса и скрытые вектора. Мы можем оценить
эти данные максимизируя log-likelihood.
Вычисление негативных утверждений с помощью неявной обратной связи.
Для получения максимальной вычислительной мощности производится
оптимизация множества фактов стохастическим градиентным спуском
(SGD)
Отличия от других подходов
Open IE
Новый подход основан на единой унифицированной модели, не требует
никаких типов сущностей. Выведение факта составляет всего несколько
скалярных произведений.

Never-Ending Learning and Bootstrapping
Новая модель лишь усиливает корреляции между обрабатываемыми
кореференциями. Это дает преимущество в том, что неправильные
предсказания имеют меньшую вероятность быть усиленными, что снижает
риск семантической дрейфа.
Данные для эксперимента
Источник

Тест

NYTimes

после 2000 года

1990-1999 года

Freebase факты

8k

8k

Freebase сущности

●
●
●

Обучение

200k

200k

Named-entities recognition
Выравнивание новостного корпуса и структурированных данных
Фильтрации отношений реже 10 наблюдений
Выполнение эксперимента
Два раздельных эксперимента для структурированных данных и
поверхностных шаблонов.
Каждое отношение рассматривается как запрос и получение первых 1000
пары сущностей из каждой системы. Затем берутся первые 100 ответов от
каждой системы и вручную оцениваем их истинность. Это дает нам набор
релевантных результатов, которые мы используем для вычисления
полноты и точности:
●
●
●

средняя точность
mean average precision (MAP)
weighted mean average precision
Результаты для Freebase
Таблица 1 содержит результаты для отношений Freebase, исключая те,
для которых система не смогла найти релевантные факты.
●
●
●

MI09 - Distant supervision for relation extraction without labeled data [Mike
Mintz et al., 2009].
YA11 - Версия MI09 с добавлением “preprocessed cluster features”
[Limin Yao et al., 2011]
SU12 - the state-of-the-art Multi-Instance Multi-Label system [Mihai
Surdeanu et al., 2012].

Для всех новых моделей использованы одинаковые значения K = 100,
1000 epochs, 0.01 в качестве регулязатора для весов компонентов и 0.1
для весов соседей.
Таблица 1. Средние и (взвешенные) MAP значения для отношений Freebase, основанные на
объединенных данных.
Столбец # содержит количество позитивных фактов в базе. Жирным указаны победители, курсивом - ничья.
График 1. Средняя 11-значная кривая точность-полнота для отношений Freebase
График 2. Точность и полнота для works_written(X,Y)
Результаты для Surface Patterns
Таблица 2 содержит сравнение наших моделей на 10 поверхностных
паттернах.
Эти результаты были выбраны как наиболее интересные, по мнению
автора, вопросы, не содержащиеся в Freebase. Мы вновь видим, что
добавление скрытых моделей (F, E) существенно улучшает результаты по
сравнению с N-моделью.
Таблица 2. Средние и (взвешенные) MAP значения для отношений поверхностных паттернов
График 3. Средняя 11-значная кривая точность-полнота для отношений поверхностных
паттернов
Заключение
Была представлена модель извлечения отношений в универсальные
схемы. Подобные схемы содержат петтерны поверхности, а также
отношения из структурированных, полученные из данных.
Поверхностные паттерны + Структурированные отношения
= Улучшение качества!
Новая модель расходует меньше времени на обучение при равных
объёмах информации.
Новый подход можно использовать для различных интеграционных задач.
Ссылки
Probabilistic Databases of Universal Schema [Limin Yao и др., 2012]
Open IE: http://ai.cs.washington.edu/projects/open-information-extraction
Метод главных компонент:
●
●

http://ru.wikipedia.org/wiki/Метод_главных_компонент
http://books.nips.cc/papers/files/nips14/AA27.pdf

Коллаборативная фильтрация: http://ru.wikipedia.
org/wiki/Коллаборативная_фильтрация

More Related Content

Similar to Universal Schemas

Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
Andrii Gakhov
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
Gleb Zakhodiakin
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиaman565656
 
007
007007
007JIuc
 
Lekcia10
Lekcia10Lekcia10
Lekcia10
Aigerim Serubai
 
Управление Данными. Лекция 5
Управление Данными. Лекция 5Управление Данными. Лекция 5
Управление Данными. Лекция 5
Dmitriy Krukov
 
Формирование технологической и информационной компетентности школьников при и...
Формирование технологической и информационной компетентности школьников при и...Формирование технологической и информационной компетентности школьников при и...
Формирование технологической и информационной компетентности школьников при и...balin777
 
5 даталогич модельбд
5 даталогич модельбд5 даталогич модельбд
5 даталогич модельбд
Evgeniy Golendyhin
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
Alexander Babich
 
Базы данных лекция №5
Базы данных лекция №5Базы данных лекция №5
Базы данных лекция №5
Vitaliy Pak
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
Serge Terekhov
 
Презентация Neo4j на ADD-3
Презентация Neo4j на ADD-3Презентация Neo4j на ADD-3
Презентация Neo4j на ADD-3Evgeny Gazdovsky
 
тапаев к.
тапаев к.тапаев к.
тапаев к.
Asem Sarsembayeva
 

Similar to Universal Schemas (16)

Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
отчет по теме корреляционные зависимости
отчет по теме корреляционные зависимостиотчет по теме корреляционные зависимости
отчет по теме корреляционные зависимости
 
007
007007
007
 
Lekcia10
Lekcia10Lekcia10
Lekcia10
 
л 2 7
л 2 7л 2 7
л 2 7
 
л 2 14
л 2 14л 2 14
л 2 14
 
Управление Данными. Лекция 5
Управление Данными. Лекция 5Управление Данными. Лекция 5
Управление Данными. Лекция 5
 
Формирование технологической и информационной компетентности школьников при и...
Формирование технологической и информационной компетентности школьников при и...Формирование технологической и информационной компетентности школьников при и...
Формирование технологической и информационной компетентности школьников при и...
 
5 даталогич модельбд
5 даталогич модельбд5 даталогич модельбд
5 даталогич модельбд
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
 
Базы данных лекция №5
Базы данных лекция №5Базы данных лекция №5
Базы данных лекция №5
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
лекция 36
лекция 36лекция 36
лекция 36
 
Презентация Neo4j на ADD-3
Презентация Neo4j на ADD-3Презентация Neo4j на ADD-3
Презентация Neo4j на ADD-3
 
тапаев к.
тапаев к.тапаев к.
тапаев к.
 

Universal Schemas

  • 1. Universal Schema Универсальная схема для извлечения информации Невмержицкий Сергей
  • 2. Использованные материалы Probabilistic Databases of Universal Schema Limin Yao, Sebastian Riedel, Andrew McCallum, University of Massachusetts Relation Extraction with Matrix Factorization and Universal Schemas Sebastian Riedel, University College London Limin Yao, Andrew McCallum, Benjamin M. Marlin, University of Massachusetts
  • 3. Идея работы Сейчас используют Формат источника данных Схема базы данных Минусы: ● Потеря корректности и полноты естественного языка Предлагается ● ● Универсальная схема Вероятностная база данных
  • 4. Рисунок 1. Заполнение базы данных универсальной схемы. Темные кручи - наблюдаемые факты, серые - предполагаемые. Извлечение отношений (RE) отображает поверхностные паттерны в структурные отношения.
  • 5. Обозначения R - множество отношений между словами (“the X–historian-at–Y”). T - множество именованных сущностей (<FERGUSON,HARVARD>) Факт - это такой кортеж <r,t>, где и На вход модели подается множество наблюдаемых фактов O и наблюдаемые факты для конкретного кортежа обозначаются как:
  • 6. Кортежи и триплеты Это почти как множества только со следующими отличиями: ● ● ● могут иметь повторяющиеся элементы порядок элементов имеет значение кортеж всегда имеет ограниченное количество элементов Например в RDF используются трехместные кортежи, так называемые триплеты или триады: ● ● <Вася, любит, Машу> <машина, цвет, красный> В данной работе используются двухместные кортежи: <Москва, Россия>.
  • 7. Цель исследования Проверить, что данная модель может предсказать для конкретной пары отношения (r) и кортежа (t) вероятность p(yr,t=1), где yr,t- это некоторое бинарное число, равное единице, если t находится в связи с r. Для этого мы вводим набор экспоненциальных моделей, которые оценивают вероятность, используя натуральный параметр и логистическую функцию: является функцией от r, t и набора весов и/или скрытыми векторами.
  • 8. Модели натурального параметра Latent Feature Model В данной модели мы измеряем совместимость r и t как скалярное произведение двух скрытых переменных, отражающих размер K: Этот подход соответствует обобщенному методу главных компонент (PCA).
  • 9. Рисунок 2. gPCA изменяет оценку представления двух отношений и кортежа при появлении наблюдения r1(e). Это позволяет оценивать вероятность ненаблюдаемого факта r2(e).
  • 10. Модели натурального параметра Neighborhood Model В основе данной модели лежит гипотеза: Мы можем интерполировать значение интересующих нас отношение+кортеж, основываясь на известных нам значениях истинности схожих отношений того же самого кортежа.
  • 11. Модели натурального параметра Entity Model В отличие от хорошо структурированных баз данных типа Freebase и DBPedia, в реальности не всегда имеется возможность различить отношения. Поэтому, вместо использования заранее определенного набора типов сущностей, в данной модели мы обучаемся по скрытым в данных сущностям (latent entity representation from data).
  • 12. Модели натурального параметра Combined Model На практике все вышеуказанные модели могут отразить важные аспекты данных, поэтому мы также используем совмещенную модель:
  • 13. Parameter Estimation Данные модели используют веса и скрытые вектора. Мы можем оценить эти данные максимизируя log-likelihood. Вычисление негативных утверждений с помощью неявной обратной связи. Для получения максимальной вычислительной мощности производится оптимизация множества фактов стохастическим градиентным спуском (SGD)
  • 14. Отличия от других подходов Open IE Новый подход основан на единой унифицированной модели, не требует никаких типов сущностей. Выведение факта составляет всего несколько скалярных произведений. Never-Ending Learning and Bootstrapping Новая модель лишь усиливает корреляции между обрабатываемыми кореференциями. Это дает преимущество в том, что неправильные предсказания имеют меньшую вероятность быть усиленными, что снижает риск семантической дрейфа.
  • 15. Данные для эксперимента Источник Тест NYTimes после 2000 года 1990-1999 года Freebase факты 8k 8k Freebase сущности ● ● ● Обучение 200k 200k Named-entities recognition Выравнивание новостного корпуса и структурированных данных Фильтрации отношений реже 10 наблюдений
  • 16. Выполнение эксперимента Два раздельных эксперимента для структурированных данных и поверхностных шаблонов. Каждое отношение рассматривается как запрос и получение первых 1000 пары сущностей из каждой системы. Затем берутся первые 100 ответов от каждой системы и вручную оцениваем их истинность. Это дает нам набор релевантных результатов, которые мы используем для вычисления полноты и точности: ● ● ● средняя точность mean average precision (MAP) weighted mean average precision
  • 17. Результаты для Freebase Таблица 1 содержит результаты для отношений Freebase, исключая те, для которых система не смогла найти релевантные факты. ● ● ● MI09 - Distant supervision for relation extraction without labeled data [Mike Mintz et al., 2009]. YA11 - Версия MI09 с добавлением “preprocessed cluster features” [Limin Yao et al., 2011] SU12 - the state-of-the-art Multi-Instance Multi-Label system [Mihai Surdeanu et al., 2012]. Для всех новых моделей использованы одинаковые значения K = 100, 1000 epochs, 0.01 в качестве регулязатора для весов компонентов и 0.1 для весов соседей.
  • 18. Таблица 1. Средние и (взвешенные) MAP значения для отношений Freebase, основанные на объединенных данных. Столбец # содержит количество позитивных фактов в базе. Жирным указаны победители, курсивом - ничья.
  • 19. График 1. Средняя 11-значная кривая точность-полнота для отношений Freebase
  • 20. График 2. Точность и полнота для works_written(X,Y)
  • 21. Результаты для Surface Patterns Таблица 2 содержит сравнение наших моделей на 10 поверхностных паттернах. Эти результаты были выбраны как наиболее интересные, по мнению автора, вопросы, не содержащиеся в Freebase. Мы вновь видим, что добавление скрытых моделей (F, E) существенно улучшает результаты по сравнению с N-моделью.
  • 22. Таблица 2. Средние и (взвешенные) MAP значения для отношений поверхностных паттернов
  • 23. График 3. Средняя 11-значная кривая точность-полнота для отношений поверхностных паттернов
  • 24. Заключение Была представлена модель извлечения отношений в универсальные схемы. Подобные схемы содержат петтерны поверхности, а также отношения из структурированных, полученные из данных. Поверхностные паттерны + Структурированные отношения = Улучшение качества! Новая модель расходует меньше времени на обучение при равных объёмах информации. Новый подход можно использовать для различных интеграционных задач.
  • 25. Ссылки Probabilistic Databases of Universal Schema [Limin Yao и др., 2012] Open IE: http://ai.cs.washington.edu/projects/open-information-extraction Метод главных компонент: ● ● http://ru.wikipedia.org/wiki/Метод_главных_компонент http://books.nips.cc/papers/files/nips14/AA27.pdf Коллаборативная фильтрация: http://ru.wikipedia. org/wiki/Коллаборативная_фильтрация