Семантические сети и семантический Web
RDF
Семантические словари
Open Graph
Schema.org
Синтаксические правила
Синтаксис RDFa
Синтаксис Microdata
Синтаксис JSON-LD
Использованы материалы:
http://www.slideshare.net/Alik_Kirillovich/semantic-web-i
https://ru.wikipedia.org/wiki/Семантическая_сеть
https://habrahabr.ru/company/yandex/blog/211638/
2. Семантическая сеть
На рубеже XXI века технологии обработки текста начали
эволюционировать в технологии осмысления текста.
Решить проблему осмысления возможно двумя путями:
Natural Language Processing (NLP) обработка естественного
языка, обучить машину понимать синтаксис и семантику
естественного (человеческого) языка (сопоставимо с
созданием искусственного интеллекта);
Semantic Network представить знания в форме, понятной
любой машине.
Семантика – смысловое значение единиц языка.
Развертывание семантической сети над сетью Интернет
преследует цель превратить Интернет в распределённую
базу знаний глобального масштаба. Данная концепция
получила название Semantic Web.
2
4. Семантический web
Семантический web (SW) это общедоступная
глобальная надстройка (система стандартов) на базе
Всемирной паутины (WWW), предназначенная для
представления смысла информации в виде,
пригодном для компьютерной обработки.
Для описания предметной области в понятных для
компьютерной обработки терминах и в целях
одинакового трактования смысла текста любым
программным агентом используются онтологии.
Языки описания онтологий: RDF, OWL.
SW в сети Интернет работает параллельно с WWW,
используя протокол HTTP и идентификаторы
ресурсов URI.
Тим Бернерс-Ли: «GGG – Giant Global Graph»
4
5. RDF
Для представления утверждений о любых ресурсах
(метаданных) в виде, пригодном для машинной обработки
W3C разработал спецификацию (абстрактную модель) RDF
(Resource Description Framework).
Всякое утверждение о ресурсе в RDF-модели представляется в
виде триплета:
«субъект» - «предикат» - «объект»
Ресурс – любая сущность: цифровая (изображение), так и
материальная (человек, город), ресурс может являться
анонимным (не иметь URI)
Субъект – ресурс, задаваемый URI
Предикат – свойство, атрибут ресурса (URI)
Объект – значение ресурса (URI, текст, константа)
СУБЪЕКТ ОБЪЕКТ
ПРЕДИКАТ
«Альберт Эйнштейн» МЕСТО_РОЖДЕНИЯ «Германия»
http://einshein.org.de http://schema.org/birthplace urn:oid:2.16.276
6. RDF-граф
Множество RDF-утверждений образует
ориентированный граф.
Все RDF-графы образуют GGG.
6
ТЕОРИЯ
ОТНОСИТЕЛЬНОСТИ
1905
ДАТА_ПОЯВЛЕНИЯ
14 МАРТА
1879
АЛЬБЕРТ
ЭЙНШТЕЙН
АВТОР
ДАТА_ПОЯВЛЕНИЯ
7. RDF применение
Для сериализации RDF (записи в текстовом виде и
обмена RDF-графами) существуют специальные
форматы: RDF/XML, N-Triples, Turtle, N3.
В случае, когда элементы RDF-графа необходимо
разместить на HTML-странице, сериализация
выполняется с помощью семантической
микроразметки.
Под семантической разметкой (или
микроразметкой) понимается разметка страницы с
дополнительными тегами и атрибутами в тегах,
которые указывают на смысловое значение
материалов, размещенных на странице.
7
8. Семантическая разметка
Для хранения и передачи информации, уложенной в
RDF-модель, разработано множество семантических
разметок.
Семантическая разметка состоит из
специализированных словарей;
синтаксических правил.
Словарь – семантический язык, набор классов и их
свойств, с помощью которых формализуется смысл
содержимого на странице.
Синтаксис – способ использования словаря,
определяет, с помощью каких тегов и как именно
будут указываться сущности и их свойства.
8
9. Специализированные словари
В различные периоды существования GGG
использовались следующие специализированные
словари для формирования семантики
информационных ресурсов:
Open Graph,
Schema.org,
Friend of a Friend (FOAF),
Microformats.org (+ синтаксические правила),
Dublin Core,
Data Vocabulary (интегрирован в Schema.org),
Good Relations (интегрирован в Schema.org),
Twitter Cards
другие.
9
10. Словарь Open Graph
Словарь от Facebook, разработанный для того, чтобы
любой сайт имел возможность интегрироваться в
социальную сеть и иметь правильное отображение в ней.
Разметка Open Graph поддерживается Вконтакте,
Google+, Twitter, LinkedIn, Telegram, WhatsApp и др.
<html prefix=" og: http://ogp.me/ns#
profile: http://ogp.me/ns/profile#">
<head>
<meta property="og:title" content="Albert Einstein" />
<meta property="og:url" content="http://einshein.org.de" />
<meta property="og:type" content="profile" />
<meta property="profile:first_name" content="Albert" />
<meta property="profile:last_name" content="Einstein" />
<meta property="profile:gender" content="male" />
</head></html> 10
11. Превью ссылок через Open Graph
<meta property="og:type" content="article">
<meta property="og:title" content="Вышел трейлер новых Звёздных войн">
<meta property="og:url" content="https://life.ru/t/культура
/vyshiel_trieilier_novykh_zviozdnykh_voin">
<meta property="og:description" content="Изгой-один: Звёздные войны.
Истории — это новый, восьмой фильм киносаги …">
<meta property="og:image" content="https://static.life.ru/posts/1367752.jpg">
11
12. Словарь Schema.org
Словарь, который появился по инициативе и
развиваемый совместно информационно-поисковыми
системами Google, Яндекс, Bing и Yahoo!
Разметка Schema.org дает возможность формировать
специальные сниппеты в поисковой выдаче.
Словарь состоит из наборов классов (itemtype),
описывающих различные сущности и их свойства
(itemprop). В Schema.org их уже несколько сотен. Все
классы имеют свое место в древовидной иерархии.
тип Thing (корень словаря)
Action — описывает действие, которое может выполнятся
кем-то определенным (человеком или организацией);
CreativeWork — описывает творческие работы: видео,
картинки и др.;
Product — описывает все, что продается и покупается;
Person;
Event;
Place. 12
16. Другие специализированные словари
Словарь FOAF (Friend of a Friend) распространен в
основном в среде блогов, специализируется на связях
между людьми, их взаимодействиях и объединениях.
Содержит классы Agent, Organization, Group, Person.
Классы описываются свойствами:
Простыми: age, gender, surname, birthday, skypeID, email
Специфичными, например, knows — для описания
отношений класса Person.
Словарь Data Vocabulary разрабатывался Google. На
данный момент не развивается, все результаты
перенесены в Schema.org.
Microformats.org - открытый стандарт объединяющий
и синтаксис, и словари для семантической разметки
сайтов. Имел широкое распространение, но на смену
ему пришли более гибкие OG и Sсhema.org.
16
18. Синтаксические правила
В GGG целесообразно выделить следующие
синтаксические правила, предназначенные для
формирования семантики на основе
специализированных словарей:
RDFa,
Microformats.org (+ словари),
Microdata,
JSON-LD.
18
19. Синтаксис RDFa
Resourse Description Framework in attributes (RDFa)
разработан W3C в 2004 г. в качестве универсального
стандарта трансляции HTML-разметку с
семантическими данными в RDF.
RDFa рекомендуется создателями словаря Open
Graph (FB).
Может быть использован с другими словарями, в том
числе Dublin Core, Data Vocabulary.
19
22. Синтаксис RDFa + словарь DC + FOAF
<html prefix="foaf: http://xmlns.com/foaf/0.1/"
prefix="dc: http://purl.org/dc/elements/1.1/" >
<body about="http://example.org/john">
<p>Я - <span property="foaf:nick"> John </span>
<p>
Меня <span rel="foaf:interest" resource="urn:ISBN:0123">
интересует книга <cite property="dc:title">
Плетя паутину (Weaving the Web) </cite>
авторства <span property="dc:creator">
Tim Berners-Lee </span></span>.
</p>
</body> </html> 22
23. Синтаксис Microdata
Расширение HTML5, наряду со структурными
семантическими тегами <nav>, <article>, <section>,
<aside>
Синтаксис Microdata появился в Google в качестве
простой альтернативы RDFa.
По мнению Google: «RDFa сложен настолько , что в
90% случаях его использования допускаются
ошибки».
Синтаксис Microdata рекомендует использование
словаря Schema.org.
Основные элементы Microdata — атрибуты
itemscope, itemtype и itemprop, указывающие на
сущности и их свойства.
23
24. Синтаксис Microdata + Schema.org
itemscope указывает парсеру на то, что в HTML-
блоке содержатся данные о конкретной сущности.
itemtype указывает на тип сущности;
itemprop указывает на свойство (property) этой
сущности.
<div itemscope itemtype="http://schema.org/Movie">
<h1 itemprop="name">Форрест Гамп (1994)</h1>
<span itemprop="alternativeHeadline">
Forrest Gump</span>
<img itemprop="image"
src="http://www.imdb.com/title/tt0109830"/>
</div>
24
25. Синтаксис JSON-LD
JavaScript Object Notation for Linked Data (JSON-LD)
расширение JSON, позволяющее осуществлять
сериализацию данных при взаимодействии с RDF.
Cинтаксис, который в отличие от всех остальных,
разработан для внедрения в тег и использования в
сервисных API.
Очевидное удобство: сосредоточенность
семантических данных в одном теге <script>
25