SlideShare a Scribd company logo
1 of 26
Лекция 6
Семантическая сеть
 На рубеже XXI века технологии обработки текста начали
эволюционировать в технологии осмысления текста.
 Решить проблему осмысления возможно двумя путями:
 Natural Language Processing (NLP) обработка естественного
языка, обучить машину понимать синтаксис и семантику
естественного (человеческого) языка (сопоставимо с
созданием искусственного интеллекта);
 Semantic Network представить знания в форме, понятной
любой машине.
 Семантика – смысловое значение единиц языка.
 Развертывание семантической сети над сетью Интернет
преследует цель превратить Интернет в распределённую
базу знаний глобального масштаба. Данная концепция
получила название Semantic Web.
2
Использование семантических сетей
 Аннотирование документа;
 Построение реферата документа;
 Кластеризация документов (соотнесение классам по
смысловой близости)
 Поиск идентичных по смыслу документов;
 Определение тематики документа;
 Сематический Web (паутина):
 фасетная навигация (Amazon.com, ebay.com,
Yandex.Маркет);
 семантические банки знаний (DBpedia , Freebase, WA);
 семантические агенты (Siri, Cortana, Алиса);
 семантический поиск (Google Knowlege Graph, Google
Rank Brain, Yandex.Королев, Yandex Entity Search, Bing
Satori, Wolfram Alpha).
3
Семантический web
 Семантический web (SW) это общедоступная
глобальная надстройка (система стандартов) на базе
Всемирной паутины (WWW), предназначенная для
представления смысла информации в виде,
пригодном для компьютерной обработки.
 Для описания предметной области в понятных для
компьютерной обработки терминах и в целях
одинакового трактования смысла текста любым
программным агентом используются онтологии.
 Языки описания онтологий: RDF, OWL.
 SW в сети Интернет работает параллельно с WWW,
используя протокол HTTP и идентификаторы
ресурсов URI.
 Тим Бернерс-Ли: «GGG – Giant Global Graph»
4
RDF
 Для представления утверждений о любых ресурсах
(метаданных) в виде, пригодном для машинной обработки
W3C разработал спецификацию (абстрактную модель) RDF
(Resource Description Framework).
 Всякое утверждение о ресурсе в RDF-модели представляется в
виде триплета:
 «субъект» - «предикат» - «объект»
 Ресурс – любая сущность: цифровая (изображение), так и
материальная (человек, город), ресурс может являться
анонимным (не иметь URI)
 Субъект – ресурс, задаваемый URI
 Предикат – свойство, атрибут ресурса (URI)
 Объект – значение ресурса (URI, текст, константа)
СУБЪЕКТ ОБЪЕКТ
ПРЕДИКАТ
«Альберт Эйнштейн» МЕСТО_РОЖДЕНИЯ «Германия»
http://einshein.org.de http://schema.org/birthplace urn:oid:2.16.276
RDF-граф
 Множество RDF-утверждений образует
ориентированный граф.
 Все RDF-графы образуют GGG.
6
ТЕОРИЯ
ОТНОСИТЕЛЬНОСТИ
1905
ДАТА_ПОЯВЛЕНИЯ
14 МАРТА
1879
АЛЬБЕРТ
ЭЙНШТЕЙН
АВТОР
ДАТА_ПОЯВЛЕНИЯ
RDF применение
 Для сериализации RDF (записи в текстовом виде и
обмена RDF-графами) существуют специальные
форматы: RDF/XML, N-Triples, Turtle, N3.
 В случае, когда элементы RDF-графа необходимо
разместить на HTML-странице, сериализация
выполняется с помощью семантической
микроразметки.
 Под семантической разметкой (или
микроразметкой) понимается разметка страницы с
дополнительными тегами и атрибутами в тегах,
которые указывают на смысловое значение
материалов, размещенных на странице.
7
Семантическая разметка
 Для хранения и передачи информации, уложенной в
RDF-модель, разработано множество семантических
разметок.
 Семантическая разметка состоит из
 специализированных словарей;
 синтаксических правил.
 Словарь – семантический язык, набор классов и их
свойств, с помощью которых формализуется смысл
содержимого на странице.
 Синтаксис – способ использования словаря,
определяет, с помощью каких тегов и как именно
будут указываться сущности и их свойства.
8
Специализированные словари
 В различные периоды существования GGG
использовались следующие специализированные
словари для формирования семантики
информационных ресурсов:
 Open Graph,
 Schema.org,
 Friend of a Friend (FOAF),
 Microformats.org (+ синтаксические правила),
 Dublin Core,
 Data Vocabulary (интегрирован в Schema.org),
 Good Relations (интегрирован в Schema.org),
 Twitter Cards
 другие.
9
Словарь Open Graph
 Словарь от Facebook, разработанный для того, чтобы
любой сайт имел возможность интегрироваться в
социальную сеть и иметь правильное отображение в ней.
 Разметка Open Graph поддерживается Вконтакте,
Google+, Twitter, LinkedIn, Telegram, WhatsApp и др.
<html prefix=" og: http://ogp.me/ns#
profile: http://ogp.me/ns/profile#">
<head>
<meta property="og:title" content="Albert Einstein" />
<meta property="og:url" content="http://einshein.org.de" />
<meta property="og:type" content="profile" />
<meta property="profile:first_name" content="Albert" />
<meta property="profile:last_name" content="Einstein" />
<meta property="profile:gender" content="male" />
</head></html> 10
Превью ссылок через Open Graph
<meta property="og:type" content="article">
<meta property="og:title" content="Вышел трейлер новых Звёздных войн">
<meta property="og:url" content="https://life.ru/t/культура
/vyshiel_trieilier_novykh_zviozdnykh_voin">
<meta property="og:description" content="Изгой-один: Звёздные войны.
Истории — это новый, восьмой фильм киносаги …">
<meta property="og:image" content="https://static.life.ru/posts/1367752.jpg">
11
Словарь Schema.org
 Словарь, который появился по инициативе и
развиваемый совместно информационно-поисковыми
системами Google, Яндекс, Bing и Yahoo!
 Разметка Schema.org дает возможность формировать
специальные сниппеты в поисковой выдаче.
 Словарь состоит из наборов классов (itemtype),
описывающих различные сущности и их свойства
(itemprop). В Schema.org их уже несколько сотен. Все
классы имеют свое место в древовидной иерархии.
 тип Thing (корень словаря)
 Action — описывает действие, которое может выполнятся
кем-то определенным (человеком или организацией);
 CreativeWork — описывает творческие работы: видео,
картинки и др.;
 Product — описывает все, что продается и покупается;
 Person;
 Event;
 Place. 12
Словарь Schema.org. Подтип Place
13
Словарь Schema.org. Пример
<div itemscope itemtype="http://schema.org/Product">
<h1 itemprop="name">Видеокамера GoPro HERO4 Black
Edition Adventure</h1></div>
<div itemprop="aggregateRating"
itemscope itemtype="http://schema.org/AggregateRating">
<meta itemprop="ratingValue" content="10"></div>
<div itemprop="offers"
itemscope itemtype="http://schema.org/Offer">
<meta itemprop="price" content="38990">
<meta itemprop="priceCurrency" content="RUB"></div>
14
Словарь Schema.org. Спецификация
Другие специализированные словари
 Словарь FOAF (Friend of a Friend) распространен в
основном в среде блогов, специализируется на связях
между людьми, их взаимодействиях и объединениях.
Содержит классы Agent, Organization, Group, Person.
Классы описываются свойствами:
 Простыми: age, gender, surname, birthday, skypeID, email
 Специфичными, например, knows — для описания
отношений класса Person.
 Словарь Data Vocabulary разрабатывался Google. На
данный момент не развивается, все результаты
перенесены в Schema.org.
 Microformats.org - открытый стандарт объединяющий
и синтаксис, и словари для семантической разметки
сайтов. Имел широкое распространение, но на смену
ему пришли более гибкие OG и Sсhema.org.
16
Распространенность словарей в Рунете
17
* Данные предоставлены Яндекс, 2014 г.
Синтаксические правила
 В GGG целесообразно выделить следующие
синтаксические правила, предназначенные для
формирования семантики на основе
специализированных словарей:
 RDFa,
 Microformats.org (+ словари),
 Microdata,
 JSON-LD.
18
Синтаксис RDFa
 Resourse Description Framework in attributes (RDFa)
разработан W3C в 2004 г. в качестве универсального
стандарта трансляции HTML-разметку с
семантическими данными в RDF.
 RDFa рекомендуется создателями словаря Open
Graph (FB).
 Может быть использован с другими словарями, в том
числе Dublin Core, Data Vocabulary.
19
Синтаксис RDFa + словарь OG
<html prefix="og: http://ogp.me/ns#">
<head>
<title>Форрест Гамп (1994)</title>
<meta property="og:title" content="Forrest Gump"/>
<meta property="og:type" content="video.movie"/>
<meta property="og:url"
content="http://www.imdb.com/title/tt0109830"/>
<meta property="og:image"
content="http://www.imdb.com/img/i0109830"/>
</head>
</html>
20
Синтаксис RDFa + словарь DC
<div xmlns:rdf= "http://www.w3.org/rdf-syntax-ns#"
xmlns:dc= "http://purl.org/dc/elements/1.1/">
<rdf:Description rdf:about="http://analitika.ru/">
<span property="dc:title"> Forex </span>
<span property="dc:creator"> D.A. </span>
<span property="dc:subject"> Биржевая
индустрия </span>
</div>
21
Синтаксис RDFa + словарь DC + FOAF
<html prefix="foaf: http://xmlns.com/foaf/0.1/"
prefix="dc: http://purl.org/dc/elements/1.1/" >
<body about="http://example.org/john">
<p>Я - <span property="foaf:nick"> John </span>
<p>
Меня <span rel="foaf:interest" resource="urn:ISBN:0123">
интересует книга <cite property="dc:title">
Плетя паутину (Weaving the Web) </cite>
авторства <span property="dc:creator">
Tim Berners-Lee </span></span>.
</p>
</body> </html> 22
Синтаксис Microdata
 Расширение HTML5, наряду со структурными
семантическими тегами <nav>, <article>, <section>,
<aside>
 Синтаксис Microdata появился в Google в качестве
простой альтернативы RDFa.
 По мнению Google: «RDFa сложен настолько , что в
90% случаях его использования допускаются
ошибки».
 Синтаксис Microdata рекомендует использование
словаря Schema.org.
 Основные элементы Microdata — атрибуты
itemscope, itemtype и itemprop, указывающие на
сущности и их свойства.
23
Синтаксис Microdata + Schema.org
 itemscope указывает парсеру на то, что в HTML-
блоке содержатся данные о конкретной сущности.
 itemtype указывает на тип сущности;
 itemprop указывает на свойство (property) этой
сущности.
<div itemscope itemtype="http://schema.org/Movie">
<h1 itemprop="name">Форрест Гамп (1994)</h1>
<span itemprop="alternativeHeadline">
Forrest Gump</span>
<img itemprop="image"
src="http://www.imdb.com/title/tt0109830"/>
</div>
24
Синтаксис JSON-LD
 JavaScript Object Notation for Linked Data (JSON-LD)
расширение JSON, позволяющее осуществлять
сериализацию данных при взаимодействии с RDF.
 Cинтаксис, который в отличие от всех остальных,
разработан для внедрения в тег и использования в
сервисных API.
 Очевидное удобство: сосредоточенность
семантических данных в одном теге <script>
25
Синтаксис JSON-LD + Schema.org
<script type="application/ld+json">
{
"@context": "http://schema.org/",
"@type": "Product",
"name": "Видеокамера GoPro HERO4 Black Edition",
"aggregateRating": {
"@type": "AggregateRating",
"ratingValue": "10" },
"offers": {
"@type": "Offer",
"price": "38990",
"priceCurrency": "RUB" }
}
</script>
26

More Related Content

Similar to Мировые информационные ресурсы. Лекция 6

DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
it-people
 
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Open City Foundation
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction Overview
NLPseminar
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
Игорь Мызгин
 

Similar to Мировые информационные ресурсы. Лекция 6 (20)

СПИК 2011: Семантический веб: новая эра контекстной рекламы против паранойи с...
СПИК 2011: Семантический веб: новая эра контекстной рекламы против паранойи с...СПИК 2011: Семантический веб: новая эра контекстной рекламы против паранойи с...
СПИК 2011: Семантический веб: новая эра контекстной рекламы против паранойи с...
 
Hpc Day
Hpc DayHpc Day
Hpc Day
 
Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных. Реальный мир и хорошие модели данных.
Реальный мир и хорошие модели данных.
 
Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...
 
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
DUMP-2013 Наука и жизнь - Практические применения семантических вычислений - ...
 
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS)
 
Мастер класс по открытым данным
Мастер класс по открытым даннымМастер класс по открытым данным
Мастер класс по открытым данным
 
Как осуществить поиск в Интернете
Как осуществить поиск в ИнтернетеКак осуществить поиск в Интернете
Как осуществить поиск в Интернете
 
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
Антон Полухин, Данные «Портала открытых данных правительства Москвы» в формат...
 
ПРИМЕНЕНИЕ ОНТОЛОГИЙ В СИСТЕМЕ УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМИ РЕСУРСАМИ
ПРИМЕНЕНИЕ ОНТОЛОГИЙ В СИСТЕМЕ УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМИ РЕСУРСАМИПРИМЕНЕНИЕ ОНТОЛОГИЙ В СИСТЕМЕ УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМИ РЕСУРСАМИ
ПРИМЕНЕНИЕ ОНТОЛОГИЙ В СИСТЕМЕ УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМИ РЕСУРСАМИ
 
KL10TCH.School : Введение в Linked Data и Semantic Web
KL10TCH.School : Введение в Linked Data и Semantic WebKL10TCH.School : Введение в Linked Data и Semantic Web
KL10TCH.School : Введение в Linked Data и Semantic Web
 
Создание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе DspaceСоздание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе Dspace
 
Nosql and Mongodb
Nosql and MongodbNosql and Mongodb
Nosql and Mongodb
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
Php
PhpPhp
Php
 
Укрощение XML
Укрощение XMLУкрощение XML
Укрощение XML
 
NoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsNoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospects
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Information Extraction Overview
Information Extraction OverviewInformation Extraction Overview
Information Extraction Overview
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
 

More from Dmitriy Krukov

More from Dmitriy Krukov (14)

Мировые информационные ресурсы. Лекция 7
Мировые информационные ресурсы. Лекция 7Мировые информационные ресурсы. Лекция 7
Мировые информационные ресурсы. Лекция 7
 
Мировые информационные ресурсы. Лекция 5
Мировые информационные ресурсы. Лекция 5Мировые информационные ресурсы. Лекция 5
Мировые информационные ресурсы. Лекция 5
 
Мировые информационные ресурсы. Лекция 4
Мировые информационные ресурсы. Лекция 4Мировые информационные ресурсы. Лекция 4
Мировые информационные ресурсы. Лекция 4
 
Мировые информационные ресурсы. Лекция 3
Мировые информационные ресурсы. Лекция 3Мировые информационные ресурсы. Лекция 3
Мировые информационные ресурсы. Лекция 3
 
Мировые информационные ресурсы. Лекция 1
Мировые информационные ресурсы. Лекция 1Мировые информационные ресурсы. Лекция 1
Мировые информационные ресурсы. Лекция 1
 
Мировые информационные ресурсы. Лекция 2
Мировые информационные ресурсы. Лекция 2Мировые информационные ресурсы. Лекция 2
Мировые информационные ресурсы. Лекция 2
 
Управление Данными. Лекция 8
Управление Данными. Лекция 8Управление Данными. Лекция 8
Управление Данными. Лекция 8
 
Управление Данными. Лекция 7
Управление Данными. Лекция 7Управление Данными. Лекция 7
Управление Данными. Лекция 7
 
Управление Данными. Лекция 6
Управление Данными. Лекция 6Управление Данными. Лекция 6
Управление Данными. Лекция 6
 
Управление Данными. Лекция 5
Управление Данными. Лекция 5Управление Данными. Лекция 5
Управление Данными. Лекция 5
 
Управление Данными. Лекция 4
Управление Данными. Лекция 4Управление Данными. Лекция 4
Управление Данными. Лекция 4
 
Управление Данными. Лекция 3
Управление Данными. Лекция 3Управление Данными. Лекция 3
Управление Данными. Лекция 3
 
Управление Данными. Лекция 1
Управление Данными. Лекция 1Управление Данными. Лекция 1
Управление Данными. Лекция 1
 
Управление Данными. Лекция 2
Управление Данными. Лекция 2Управление Данными. Лекция 2
Управление Данными. Лекция 2
 

Мировые информационные ресурсы. Лекция 6

  • 2. Семантическая сеть  На рубеже XXI века технологии обработки текста начали эволюционировать в технологии осмысления текста.  Решить проблему осмысления возможно двумя путями:  Natural Language Processing (NLP) обработка естественного языка, обучить машину понимать синтаксис и семантику естественного (человеческого) языка (сопоставимо с созданием искусственного интеллекта);  Semantic Network представить знания в форме, понятной любой машине.  Семантика – смысловое значение единиц языка.  Развертывание семантической сети над сетью Интернет преследует цель превратить Интернет в распределённую базу знаний глобального масштаба. Данная концепция получила название Semantic Web. 2
  • 3. Использование семантических сетей  Аннотирование документа;  Построение реферата документа;  Кластеризация документов (соотнесение классам по смысловой близости)  Поиск идентичных по смыслу документов;  Определение тематики документа;  Сематический Web (паутина):  фасетная навигация (Amazon.com, ebay.com, Yandex.Маркет);  семантические банки знаний (DBpedia , Freebase, WA);  семантические агенты (Siri, Cortana, Алиса);  семантический поиск (Google Knowlege Graph, Google Rank Brain, Yandex.Королев, Yandex Entity Search, Bing Satori, Wolfram Alpha). 3
  • 4. Семантический web  Семантический web (SW) это общедоступная глобальная надстройка (система стандартов) на базе Всемирной паутины (WWW), предназначенная для представления смысла информации в виде, пригодном для компьютерной обработки.  Для описания предметной области в понятных для компьютерной обработки терминах и в целях одинакового трактования смысла текста любым программным агентом используются онтологии.  Языки описания онтологий: RDF, OWL.  SW в сети Интернет работает параллельно с WWW, используя протокол HTTP и идентификаторы ресурсов URI.  Тим Бернерс-Ли: «GGG – Giant Global Graph» 4
  • 5. RDF  Для представления утверждений о любых ресурсах (метаданных) в виде, пригодном для машинной обработки W3C разработал спецификацию (абстрактную модель) RDF (Resource Description Framework).  Всякое утверждение о ресурсе в RDF-модели представляется в виде триплета:  «субъект» - «предикат» - «объект»  Ресурс – любая сущность: цифровая (изображение), так и материальная (человек, город), ресурс может являться анонимным (не иметь URI)  Субъект – ресурс, задаваемый URI  Предикат – свойство, атрибут ресурса (URI)  Объект – значение ресурса (URI, текст, константа) СУБЪЕКТ ОБЪЕКТ ПРЕДИКАТ «Альберт Эйнштейн» МЕСТО_РОЖДЕНИЯ «Германия» http://einshein.org.de http://schema.org/birthplace urn:oid:2.16.276
  • 6. RDF-граф  Множество RDF-утверждений образует ориентированный граф.  Все RDF-графы образуют GGG. 6 ТЕОРИЯ ОТНОСИТЕЛЬНОСТИ 1905 ДАТА_ПОЯВЛЕНИЯ 14 МАРТА 1879 АЛЬБЕРТ ЭЙНШТЕЙН АВТОР ДАТА_ПОЯВЛЕНИЯ
  • 7. RDF применение  Для сериализации RDF (записи в текстовом виде и обмена RDF-графами) существуют специальные форматы: RDF/XML, N-Triples, Turtle, N3.  В случае, когда элементы RDF-графа необходимо разместить на HTML-странице, сериализация выполняется с помощью семантической микроразметки.  Под семантической разметкой (или микроразметкой) понимается разметка страницы с дополнительными тегами и атрибутами в тегах, которые указывают на смысловое значение материалов, размещенных на странице. 7
  • 8. Семантическая разметка  Для хранения и передачи информации, уложенной в RDF-модель, разработано множество семантических разметок.  Семантическая разметка состоит из  специализированных словарей;  синтаксических правил.  Словарь – семантический язык, набор классов и их свойств, с помощью которых формализуется смысл содержимого на странице.  Синтаксис – способ использования словаря, определяет, с помощью каких тегов и как именно будут указываться сущности и их свойства. 8
  • 9. Специализированные словари  В различные периоды существования GGG использовались следующие специализированные словари для формирования семантики информационных ресурсов:  Open Graph,  Schema.org,  Friend of a Friend (FOAF),  Microformats.org (+ синтаксические правила),  Dublin Core,  Data Vocabulary (интегрирован в Schema.org),  Good Relations (интегрирован в Schema.org),  Twitter Cards  другие. 9
  • 10. Словарь Open Graph  Словарь от Facebook, разработанный для того, чтобы любой сайт имел возможность интегрироваться в социальную сеть и иметь правильное отображение в ней.  Разметка Open Graph поддерживается Вконтакте, Google+, Twitter, LinkedIn, Telegram, WhatsApp и др. <html prefix=" og: http://ogp.me/ns# profile: http://ogp.me/ns/profile#"> <head> <meta property="og:title" content="Albert Einstein" /> <meta property="og:url" content="http://einshein.org.de" /> <meta property="og:type" content="profile" /> <meta property="profile:first_name" content="Albert" /> <meta property="profile:last_name" content="Einstein" /> <meta property="profile:gender" content="male" /> </head></html> 10
  • 11. Превью ссылок через Open Graph <meta property="og:type" content="article"> <meta property="og:title" content="Вышел трейлер новых Звёздных войн"> <meta property="og:url" content="https://life.ru/t/культура /vyshiel_trieilier_novykh_zviozdnykh_voin"> <meta property="og:description" content="Изгой-один: Звёздные войны. Истории — это новый, восьмой фильм киносаги …"> <meta property="og:image" content="https://static.life.ru/posts/1367752.jpg"> 11
  • 12. Словарь Schema.org  Словарь, который появился по инициативе и развиваемый совместно информационно-поисковыми системами Google, Яндекс, Bing и Yahoo!  Разметка Schema.org дает возможность формировать специальные сниппеты в поисковой выдаче.  Словарь состоит из наборов классов (itemtype), описывающих различные сущности и их свойства (itemprop). В Schema.org их уже несколько сотен. Все классы имеют свое место в древовидной иерархии.  тип Thing (корень словаря)  Action — описывает действие, которое может выполнятся кем-то определенным (человеком или организацией);  CreativeWork — описывает творческие работы: видео, картинки и др.;  Product — описывает все, что продается и покупается;  Person;  Event;  Place. 12
  • 14. Словарь Schema.org. Пример <div itemscope itemtype="http://schema.org/Product"> <h1 itemprop="name">Видеокамера GoPro HERO4 Black Edition Adventure</h1></div> <div itemprop="aggregateRating" itemscope itemtype="http://schema.org/AggregateRating"> <meta itemprop="ratingValue" content="10"></div> <div itemprop="offers" itemscope itemtype="http://schema.org/Offer"> <meta itemprop="price" content="38990"> <meta itemprop="priceCurrency" content="RUB"></div> 14
  • 16. Другие специализированные словари  Словарь FOAF (Friend of a Friend) распространен в основном в среде блогов, специализируется на связях между людьми, их взаимодействиях и объединениях. Содержит классы Agent, Organization, Group, Person. Классы описываются свойствами:  Простыми: age, gender, surname, birthday, skypeID, email  Специфичными, например, knows — для описания отношений класса Person.  Словарь Data Vocabulary разрабатывался Google. На данный момент не развивается, все результаты перенесены в Schema.org.  Microformats.org - открытый стандарт объединяющий и синтаксис, и словари для семантической разметки сайтов. Имел широкое распространение, но на смену ему пришли более гибкие OG и Sсhema.org. 16
  • 17. Распространенность словарей в Рунете 17 * Данные предоставлены Яндекс, 2014 г.
  • 18. Синтаксические правила  В GGG целесообразно выделить следующие синтаксические правила, предназначенные для формирования семантики на основе специализированных словарей:  RDFa,  Microformats.org (+ словари),  Microdata,  JSON-LD. 18
  • 19. Синтаксис RDFa  Resourse Description Framework in attributes (RDFa) разработан W3C в 2004 г. в качестве универсального стандарта трансляции HTML-разметку с семантическими данными в RDF.  RDFa рекомендуется создателями словаря Open Graph (FB).  Может быть использован с другими словарями, в том числе Dublin Core, Data Vocabulary. 19
  • 20. Синтаксис RDFa + словарь OG <html prefix="og: http://ogp.me/ns#"> <head> <title>Форрест Гамп (1994)</title> <meta property="og:title" content="Forrest Gump"/> <meta property="og:type" content="video.movie"/> <meta property="og:url" content="http://www.imdb.com/title/tt0109830"/> <meta property="og:image" content="http://www.imdb.com/img/i0109830"/> </head> </html> 20
  • 21. Синтаксис RDFa + словарь DC <div xmlns:rdf= "http://www.w3.org/rdf-syntax-ns#" xmlns:dc= "http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://analitika.ru/"> <span property="dc:title"> Forex </span> <span property="dc:creator"> D.A. </span> <span property="dc:subject"> Биржевая индустрия </span> </div> 21
  • 22. Синтаксис RDFa + словарь DC + FOAF <html prefix="foaf: http://xmlns.com/foaf/0.1/" prefix="dc: http://purl.org/dc/elements/1.1/" > <body about="http://example.org/john"> <p>Я - <span property="foaf:nick"> John </span> <p> Меня <span rel="foaf:interest" resource="urn:ISBN:0123"> интересует книга <cite property="dc:title"> Плетя паутину (Weaving the Web) </cite> авторства <span property="dc:creator"> Tim Berners-Lee </span></span>. </p> </body> </html> 22
  • 23. Синтаксис Microdata  Расширение HTML5, наряду со структурными семантическими тегами <nav>, <article>, <section>, <aside>  Синтаксис Microdata появился в Google в качестве простой альтернативы RDFa.  По мнению Google: «RDFa сложен настолько , что в 90% случаях его использования допускаются ошибки».  Синтаксис Microdata рекомендует использование словаря Schema.org.  Основные элементы Microdata — атрибуты itemscope, itemtype и itemprop, указывающие на сущности и их свойства. 23
  • 24. Синтаксис Microdata + Schema.org  itemscope указывает парсеру на то, что в HTML- блоке содержатся данные о конкретной сущности.  itemtype указывает на тип сущности;  itemprop указывает на свойство (property) этой сущности. <div itemscope itemtype="http://schema.org/Movie"> <h1 itemprop="name">Форрест Гамп (1994)</h1> <span itemprop="alternativeHeadline"> Forrest Gump</span> <img itemprop="image" src="http://www.imdb.com/title/tt0109830"/> </div> 24
  • 25. Синтаксис JSON-LD  JavaScript Object Notation for Linked Data (JSON-LD) расширение JSON, позволяющее осуществлять сериализацию данных при взаимодействии с RDF.  Cинтаксис, который в отличие от всех остальных, разработан для внедрения в тег и использования в сервисных API.  Очевидное удобство: сосредоточенность семантических данных в одном теге <script> 25
  • 26. Синтаксис JSON-LD + Schema.org <script type="application/ld+json"> { "@context": "http://schema.org/", "@type": "Product", "name": "Видеокамера GoPro HERO4 Black Edition", "aggregateRating": { "@type": "AggregateRating", "ratingValue": "10" }, "offers": { "@type": "Offer", "price": "38990", "priceCurrency": "RUB" } } </script> 26

Editor's Notes

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10
  11. 11
  12. 12
  13. 13
  14. 14
  15. 15
  16. 16
  17. 17
  18. 18
  19. 19
  20. 20
  21. 21
  22. 22
  23. 23
  24. 24
  25. 25
  26. 26