2. Plan de la présentation
• Pourquoi le web sémantique ?
• La modélisation des données.
• Comment exprimer du sens ?
• Utilisation des données sémantiques.
• RDF.
• Les ontologies.
• FOAF (aka Friend Of A Friend).
• Le "global graph".
4. Comment le web fonctionne ?
Le web fonctionne parce que, nous, les
humains sommes extrêmement doués et
flexibles dans le traitement de données.
Nous sommes capables de tout lire et
d'acquérir de nouvelles connaissances.
Aujourd'hui, Google trouve l'information mais
ne la comprend pas !
6. Le web aujourd'hui... c'est quoi ?
• Les machines stockent le texte.
• On peut rechercher dans l'ensemble des
textes grâce à des outils comme Google.
• On clique sur une page pour l'afficher.
• L'humain doit lire le texte, chercher
l'information qui l'intéresse et la
comprendre.
7. C'est assez basique...
• N'est-ce pas dommage que les machines ne
soient pas capable de tirer partie des
informations que nous mettons sur
Internet ?
• N'est ce pas dommage que des millions de
pages indiquent le lieu de naissance
d'Einstein et que Google nous répondre qu'il
faut que nous lisions les pages qu'il indique ?
8. Et donc voici le web sémantique
L'idée du web sémantique est de fournir aux
machines des données qu'elles pourraient
comprendre et à partir desquelles elles
pourraient tirer de nouvelles connaissances.
Les applications pourraient extraire des
informations de différentes sources et les
combiner.
10. Qu'est ce que cela change ?
• Nous passerions d'un monde où nous
publions des données pour les humains à un
monde où nous publions aussi des données
lisibles et compréhensibles par les machines.
• L'objectif étant de permettre aux
machines de faire un peu plus de travail à
notre place :)
13. Autres exemples...
• Je veux tous les acteurs qui ont joué dans un
film dans les années 70 avec un acteur qui
s'appelle "Robert" qui a entre 30 et 40 ans.
• Je veux toutes les chansons qui ont "love"
dans leur titre et qui ont été écrites par des
gens qui n'ont jamais été marié.
• Je veux la liste des entreprises parisiennes
crées entre 1970 et 1980 et qui ont été
dirigée par au moins une personne ayant fait
ses études à HEC
14. Libérer les données
Le web sémantique a pour but de fournir un
moyen standardisé d'utiliser et de publier des
données sans avoir à fournir un travail
considérable pour obtenir et intégrer ces
données.
De cette façon, des programmes intelligents
pourront lire ces données et en tirer des
informations pertinentes.
15. L'idée générale
Des données publiées partout pour être lues
par des machines.
Des programmes qui parcourent Internet à la
recherche des ces données afin d'augmenter
leur connaissance.
Des outils qui nous font des réponses exactes à
nos questions.
17. Tabulaire
C'est la manière la plus simple (CSV, Excel...)
pour afficher, trier, imprimer et modifier des
données.
Le problème, comment gérer, par exemple, des
tarifs, des journées de fermeture ou des
horaires d'ouverture ?
18. Données relationnelles
Le modèle relationnel permet de stocker des
données dans de multiples tables et de faire
des liens entre elles.
On peut ainsi mieux représenter les choses et
faire des requêtes plus complexes.
Le problème : il faut analyser et figer
l'organisation des données.
19. Relations Sémantiques
L'idée est de déplacer toutes les relations
tables / champs / clé au format clé / propriété /
valeur.
1 Nom Traumat
1 Prénom Stéphane
2 Nom Eastwood
2 Prénom Clint
C'est un schéma flexible qui se décrit lui même.
21. Comment exprimer du sens ?
Les informations sont représentées sous forme
de Triplets, c'est à dire une association entre
sujet, prédicat et objet.
• Le sujet représente la ressource à décrire.
• Le prédicat représente un type de propriété
applicable à cette ressource.
• L'objet représente une donnée ou une autre
ressource : c'est la valeur de la propriété.
22. Exemple
Sujet -> Prédicat -> Objet
• Bill Gates dirige Microsoft
• Bill Gates est né en 1950
• Microsoft est basé à Seattle
• Seattle est dans l'état de Washington
23. Exemple en XML
<rdf:Description
<foaf:givenname>Stéphane</foaf:givenname>
<foaf:nick>trom</foaf:nick>
<foaf:phone>+33 5 45 373 373</foaf:phone>
<foaf:workplace>http://www.scub.net</foaf:workplace>
</rdf:Description>
25. Inférence
L'inférence est une opération qui consiste à
tirer une conclusion à partir de règles de base.
Imaginons une base sur les goûts des gens :
• Stéphane Traumat aime Haricots
Imaginons une autre base sur les aliments :
• Haricot est un légume
Une application peut en déduire :
Stéphane aime certains légumes
26. Inférence - Autres exemples
Autres exemples :
• Si une personne vit en France et qu'elle a
moins de 18 ans, elle n'a pas le droit de voter.
• Si une entreprise est à Angouleme, je peux
considérer qu'elle est en Charente.
• Si une personne fait un poids de 100 kg et
qu'elle fait moins de 1m70, je peux dire
qu'elle est en surpoid.
27. Fusion des graphes
Une des plus importantes propriétés des
graphes d'objets est que l'on peut fusionner
deux graphes facilement si ces deux graphes
ont deux identifiants en commun. Et le tout,
sans effort.
Dans l'exemple des haricots, on a fusionné
deux bases différentes.
28. Recherche de liens
On peut très facilement parcourir un graphe
pour trouver, par exemple, ce qui relie deux
entreprises ou deux personnes.
Les applications peuvent parcourir les graphes
afin de trouver les données liées.
29. Faire des requêtes
SPARQL est un langage pour faire des requêtes.
Il est adapté à la structure spécifique des
graphes RDF et s'appuie sur les triplets qui les
constituent.
En cela, il est différent du classique SQL mais
s'en inspire clairement dans sa syntaxe et ses
fonctionnalités.
30. Faire des requêtes - exemple
PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?name ?birth ?death ?person WHERE {
?person dbpedia2:birthPlace <http://
dbpedia.org/resource/Berlin> .
?person dbo:birthDate ?birth .
?person foaf:name ?name .
?person dbo:deathDate ?death
FILTER (?birth < "1900-01-01"^^xsd:date) .
}
33. RDF
Resource Description Framework (RDF) est un
modèle de graphe destiné à décrire de façon
formelle les ressources Web et leurs
métadonnées, de façon à permettre le
traitement automatique de telles descriptions.
Développé par le W3C, RDF est le langage de
base du Web sémantique. Une des syntaxes de
ce langage est RDF/XML.
35. Les ontologies
L'ontologie est l'ensemble structuré des termes
et concepts représentant le sens d'un champ
d'informations, que ce soit par les
métadonnées d'un espace de noms, ou les
éléments d'un domaine de connaissances.
Une ontologie fournit un vocabulaire précis
pour expliquer quelque chose.
39. Quatuo
Quatuo est une application Google App Engine
qui fait plusieurs choses :
• Il permet à n'importe qui de créer un profile
FOAF et de l'exposer sur le web.
• Il parcours le web à la recherche de profils
FOAF et les enregistrent dans la base.
• Permet de faire des recherches sur les profils
FOAF et trouver les liens entre eux.
42. La vision du graph global
Le web sémantique est en fait un gigantesque
graph global qui est composé d'un ensemble
de petits graph distributés sur Internet.
C'est aussi ce qu'on appelle les Linked Data.
Aujourd'hui, on estime qu'il y a 4,7 milliards de
triples RDF reliés par 142 millions de liens RDF.