ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
Тапаев Қуандық Худайбердіұлы
учащийся группы КД-31 Западно-Казахстанский инновационно-технологический университет
Руководитель: старший преподаватель кафедры экологии и биотехнологии Бегайдарова Калампыр Дуйсенбаевна
Тапаев Қуандық Худайбердіұлы
учащийся группы КД-31 Западно-Казахстанский инновационно-технологический университет
Руководитель: старший преподаватель кафедры экологии и биотехнологии Бегайдарова Калампыр Дуйсенбаевна
2. Использованные материалы
Probabilistic Databases of Universal Schema
Limin Yao, Sebastian Riedel, Andrew McCallum, University of Massachusetts
Relation Extraction with Matrix Factorization and Universal
Schemas
Sebastian Riedel, University College London
Limin Yao, Andrew McCallum, Benjamin M. Marlin, University of Massachusetts
3. Идея работы
Сейчас используют
Формат источника данных
Схема базы данных
Минусы:
●
Потеря корректности и полноты естественного языка
Предлагается
●
●
Универсальная схема
Вероятностная база данных
4. Рисунок 1. Заполнение базы данных универсальной схемы. Темные кручи - наблюдаемые
факты, серые - предполагаемые. Извлечение отношений (RE) отображает поверхностные
паттерны в структурные отношения.
5. Обозначения
R - множество отношений между словами (“the X–historian-at–Y”).
T - множество именованных сущностей (<FERGUSON,HARVARD>)
Факт - это такой кортеж <r,t>, где
и
На вход модели подается множество наблюдаемых фактов O и
наблюдаемые факты для конкретного кортежа обозначаются как:
6. Кортежи и триплеты
Это почти как множества только со следующими отличиями:
●
●
●
могут иметь повторяющиеся элементы
порядок элементов имеет значение
кортеж всегда имеет ограниченное количество элементов
Например в RDF используются трехместные кортежи, так называемые
триплеты или триады:
●
●
<Вася, любит, Машу>
<машина, цвет, красный>
В данной работе используются двухместные кортежи: <Москва, Россия>.
7. Цель исследования
Проверить, что данная модель может предсказать для конкретной пары
отношения (r) и кортежа (t) вероятность p(yr,t=1), где yr,t- это некоторое
бинарное число, равное единице, если t находится в связи с r.
Для этого мы вводим набор экспоненциальных моделей, которые
оценивают вероятность, используя натуральный параметр
и
логистическую функцию:
является функцией от r, t и набора весов и/или скрытыми векторами.
8. Модели натурального параметра
Latent Feature Model
В данной модели мы измеряем совместимость r и t как скалярное
произведение двух скрытых переменных, отражающих размер K:
Этот подход соответствует обобщенному методу главных компонент
(PCA).
9. Рисунок 2. gPCA изменяет оценку представления двух отношений и кортежа при появлении
наблюдения r1(e). Это позволяет оценивать вероятность ненаблюдаемого факта r2(e).
10. Модели натурального параметра
Neighborhood Model
В основе данной модели лежит гипотеза: Мы можем интерполировать
значение интересующих нас отношение+кортеж, основываясь на
известных нам значениях истинности схожих отношений того же самого
кортежа.
11. Модели натурального параметра
Entity Model
В отличие от хорошо структурированных баз данных типа Freebase и
DBPedia, в реальности не всегда имеется возможность различить
отношения. Поэтому, вместо использования заранее определенного
набора типов сущностей, в данной модели мы обучаемся по скрытым в
данных сущностям (latent entity representation from data).
12. Модели натурального параметра
Combined Model
На практике все вышеуказанные модели могут отразить важные аспекты
данных, поэтому мы также используем совмещенную модель:
13. Parameter Estimation
Данные модели используют веса и скрытые вектора. Мы можем оценить
эти данные максимизируя log-likelihood.
Вычисление негативных утверждений с помощью неявной обратной связи.
Для получения максимальной вычислительной мощности производится
оптимизация множества фактов стохастическим градиентным спуском
(SGD)
14. Отличия от других подходов
Open IE
Новый подход основан на единой унифицированной модели, не требует
никаких типов сущностей. Выведение факта составляет всего несколько
скалярных произведений.
Never-Ending Learning and Bootstrapping
Новая модель лишь усиливает корреляции между обрабатываемыми
кореференциями. Это дает преимущество в том, что неправильные
предсказания имеют меньшую вероятность быть усиленными, что снижает
риск семантической дрейфа.
15. Данные для эксперимента
Источник
Тест
NYTimes
после 2000 года
1990-1999 года
Freebase факты
8k
8k
Freebase сущности
●
●
●
Обучение
200k
200k
Named-entities recognition
Выравнивание новостного корпуса и структурированных данных
Фильтрации отношений реже 10 наблюдений
16. Выполнение эксперимента
Два раздельных эксперимента для структурированных данных и
поверхностных шаблонов.
Каждое отношение рассматривается как запрос и получение первых 1000
пары сущностей из каждой системы. Затем берутся первые 100 ответов от
каждой системы и вручную оцениваем их истинность. Это дает нам набор
релевантных результатов, которые мы используем для вычисления
полноты и точности:
●
●
●
средняя точность
mean average precision (MAP)
weighted mean average precision
17. Результаты для Freebase
Таблица 1 содержит результаты для отношений Freebase, исключая те,
для которых система не смогла найти релевантные факты.
●
●
●
MI09 - Distant supervision for relation extraction without labeled data [Mike
Mintz et al., 2009].
YA11 - Версия MI09 с добавлением “preprocessed cluster features”
[Limin Yao et al., 2011]
SU12 - the state-of-the-art Multi-Instance Multi-Label system [Mihai
Surdeanu et al., 2012].
Для всех новых моделей использованы одинаковые значения K = 100,
1000 epochs, 0.01 в качестве регулязатора для весов компонентов и 0.1
для весов соседей.
18. Таблица 1. Средние и (взвешенные) MAP значения для отношений Freebase, основанные на
объединенных данных.
Столбец # содержит количество позитивных фактов в базе. Жирным указаны победители, курсивом - ничья.
19. График 1. Средняя 11-значная кривая точность-полнота для отношений Freebase
21. Результаты для Surface Patterns
Таблица 2 содержит сравнение наших моделей на 10 поверхностных
паттернах.
Эти результаты были выбраны как наиболее интересные, по мнению
автора, вопросы, не содержащиеся в Freebase. Мы вновь видим, что
добавление скрытых моделей (F, E) существенно улучшает результаты по
сравнению с N-моделью.
22. Таблица 2. Средние и (взвешенные) MAP значения для отношений поверхностных паттернов
23. График 3. Средняя 11-значная кривая точность-полнота для отношений поверхностных
паттернов
24. Заключение
Была представлена модель извлечения отношений в универсальные
схемы. Подобные схемы содержат петтерны поверхности, а также
отношения из структурированных, полученные из данных.
Поверхностные паттерны + Структурированные отношения
= Улучшение качества!
Новая модель расходует меньше времени на обучение при равных
объёмах информации.
Новый подход можно использовать для различных интеграционных задач.
25. Ссылки
Probabilistic Databases of Universal Schema [Limin Yao и др., 2012]
Open IE: http://ai.cs.washington.edu/projects/open-information-extraction
Метод главных компонент:
●
●
http://ru.wikipedia.org/wiki/Метод_главных_компонент
http://books.nips.cc/papers/files/nips14/AA27.pdf
Коллаборативная фильтрация: http://ru.wikipedia.
org/wiki/Коллаборативная_фильтрация