4. Выделяем
свойства
• Большой
• Тяжелый
• Рыжий
• Ржет
• Маленькая
• Легкая
• Коричневая
• Крякает
5. Абстракция
• Тяжелый
• Большой
• Рыжий
• Ржет
• Легкая
• Маленькая
• Коричневая
• Крякает
Класс
Вес
Рост
Цвет
Звук
6. Животные
Тип
Вес
Рост
Цвет
Звук
Утка
2кг
50см.
Коричневый
Кря
Лошадь
350кг
2м.
Черный
Игого
Комар
1гр.
5мм.
Серый
Бззззз
Слон
2т.
3м.
Серый
Туду
• Летающие
• Катающие
• Хвостатые
• Хоботные
7. Плохой
путь
-‐
наследование
Нужно
2N
классов,
чтобы
покрыть
предметную
область
8. Хороший
путь
-‐
композиция
ID
Тип
1
Утка
2
Лошадь
3
Комар
4
Слон
ID
Вес
Рост
Цвет
Звук
1
2кг
50см.
Коричневый
Кря
2
350кг
2м.
Черный
Игого
3
1гр.
5мм.
Серый
Бззззз
4
2т.
3м.
Серый
Туду
ID
Длина
хобота
Гибкость
хобота
3
3мм.
Нет
4
1,5м.
Да
13. Структура
онтологии
• Классы
содержат
атрибуты
• Объекты
бывают
каких-‐то
классов
• Атрибут
–
связь
между
объектом
и
значением
атрибута
• Если
связь
слишком
сложная,
то
она
становится
объектом-‐медиатором
14. Структура
онтологии
• Каждый
класс
содержит
только
те
атрибуты,
которые
ему
нужны.
• Каждый
атрибут
содержит
только
объекты
определенного
класса.
• Каждый
объект
может
иметь
сколько
угодно
классов.
16. Resource
Descrip~on
Framework
RDF
–
это
концепция
хранения
данных.
Все
данные
должны
храниться
в
триплетах.
ID
Property
Value
ID
–
идентификатор
сущности
Property
–
атрибут
Value
–
значение
атрибута
17. Преимущества
RDF
• Простота
• Данные
хранятся
единообразно
– Легко
составлять
запросы
– Легко
использовать
в
коде
• Вся
онтология
–
один
файл
– Легко
администрировать
18. Недостатки
RDF
• Неудобно
хранить
простые
частотные
структуры
• Трудно
верифицировать
корректность
данных
• Неоптимальная
структура
19. Реализации
RDF
RDF
–
это
только
концепция.
Данные
можно
хранить
как
угодно.
Если
вы
храните
данные
кошерно,
они
всегда
легко
сводимы
к
RDF.
Как
можно
реализовать:
• CSV-‐файлы
• XML,
JSON
• Turtle,
RDFS,
OWL,
RDFa,
microdata,
…
hup://w3.org
21. RDF-‐хранилища
• Работают
in-‐memory
или
медленно
• Запрос
–
это
хождение
по
графу
• Основной
стандарт
языка
запросов
SPARQL
Virtuoso
(hup://virtuoso.openlinksw.com/)
4store
(hup://4store.org/)
Stardog
(hup://stardog.com/)
29. Mapping
• (Не)изоморфность
графа
– Enumera~on
vs
class
– Терминальные
и
нетерминальные
атрибуты
– Разная
структура
классов
• Разный
формат
значений
атрибутов
– Даты
– Числа
с
точкой
30. Merge
• Фрагментарное
заполнение
• Ошибки
в
значениях
атрибутов
• Разные
типы
данных
в
атрибутах
• Разная
важность
атрибутов
• Merge/split-‐проблема
с
объектами
31. Простой
алгоритм
слияния
1. Приводим
2
онтологии
к
общей
структуре
2. Формируем
гипотезы
пар
объектов
3. Сравниваем
значения
атрибутов
1. Если
разница
мала
–
сливаем
2. Иначе
–
не
сливаем
4. Делаем
итеративно,
пока
количество
объектов
не
перестанет
меняться
32. Гипотезы
пар
• Баланс
между
полнотой
склейки
и
количеством
пар
• Общий
ключ
• Общий
источник
• Общее
значение
атрибута
• Общий
класс
33. Функция
расстояния
• Для
каждого
терминального
типа
своя
функция
расстояния
– Разница
чисел/дат
– Расстояние
Левенштейна
для
строк
– Евклидово
расстояние
для
координат
• Для
нетерминальных
типов
всё
сложно
– Объекты
могут
ссылаться
на
еще
не
склеенные
объекты
– Нужно
сравнивать
атрибуты
объектов,
на
которые
стоит
ссылка
39. Ontology
reasoning
• Порождение
фактов,
которые
не
записаны
в
онтологию
• Сводится
к
запросу
к
базе
объектов
Вася
живет
в
Москве
Москва
находится
в
России
Вася
живет
в
России
40. Выделение
объектов
в
тексте
• Снятие
языковой,
онтологической
и
структурной
неоднозначности
• Присваивание
объекту
«важности»
для
текста
(и
наоборот)
41. Персонализация
• Люди
интересуются
объектами
• Объекты
сильно
коррелируют
с
тематиками
и
событиями
• Можно
автоматически
расширять
множество
интересов
за
счет
похожих
объектов
42. Вовлеченность
пользователя
• Объекты
на
серпе
– Разукрашивание
выдачи
– Рекомендации
похожих
объектов
– Провязка
с
медиасервисами
• Конвертация
текста
в
гипертекст
43. «Понимание»
текста
• Нахождение
текстов,
похожих
по
смыслу
– Сюжеты
в
новостях
– Смысловые
дубликаты
• Категоризация
текстов
44. Онтологии
в
бою
• Поисковые
системы
(Yandex,
Google,
Bing)
• IBM
Watson
• Wolfram
alpha
• news360.com