Your SlideShare is downloading. ×

Contenu d'un nouveau cours sur les Technologies sémantiques

470

Published on

Le cours INF 6070 est un nouveau cours de la maîtrise en technologies de l'informations qui traite des applications du Web sémantique à la gestion des connaissances.

Le cours INF 6070 est un nouveau cours de la maîtrise en technologies de l'informations qui traite des applications du Web sémantique à la gestion des connaissances.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
470
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Le processus traditionnel de gestion de l'information dans les organisations débute lorsque l’organisation capte de l'information relative à ses activités. Elle en retient une partie et la traite. Une faible partie se retrouve dans ce qu'on pourrait appeler la "mémoire de l'organisation" sous la forme de documents et de bases de données informatisées. Cette information sert à produire des biens et des services qui seront ensuite commercialisée. La commercialisation amène des informations sur le marché qui peuvent être réintroduites pour recommencer un cycle d'amélioration des produits et services de l'organisation. Signalons qu’il a relativement peu d'informations qui sont retenues par l'organisation. En plus de celles qui ne sont pas intégrées dans les documents et les bases de données, il y a toutes les connaissances tacites qui résident dans la tête des membres du personnel, sans compter les informations qui s'échangent maintenant sur les réseaux sociaux, dans des discussions informelles ou au sein de communautés de pratique. ______________________________ La gestion des connaissances ajoute à cette démarche classique un processus de transformation de l'information sous forme de connaissances structurées, réconciliées avec l'identification des compétences du personnel. Cette base de connaissances sert d'une part, à indexer les informations des bases de données et de documents------ et, d'autre part à extraire de nouvelles informations des connaissances tacites ou informelles qui existent dans l'organisation.
  • Plusieurs méthodologies ont été créées dans la dernière décennie pour la gestion des connaissances. Elles reposent toutes sur deux processus inverses: la formalisation ou production des connaissances et la réutilisation des informations découlant des connaissances. La formalisation part de représentations personnelles des connaissances propre à un individu et se déploie à des représentations partagées au moyen de mécanismes d'échange. De là on élabore des représentations structurées ou modèles de connaissances que l'on conserve dans une bibliothèque de modèles. Ces modèles servent à la diffusion des informations sous forme de documents, de bases d'informations interrogeables ou d'activités de formation. Le processus inverse part de là, de l'accès aux informations structurées à l'aide d'outils de gestion des modèles de connaissances. On y retrouve, les méthodes, les théories, les règles et les procédures qui constituent le savoir de l'organisation et qui serviront aux applications à des cas réels. _____________________________ Ces méthodologies et ces processus font appel à un ensemble de technologies: infrastructure matérielle, logicielle et de réseaux; bases de données, de documents, de connaissances; outils de modélisation et de forage de données, outils de formation et d'aide à la collaboration; outils d'aide à la décision. Les bases de connaissances, les outils de modélisation et les outils d'aide à la décision sont propres aux domaine des technologies sémantiques que nous allons étudier.
  • Aujourd'hui, l'utilisation du Web est omniprésente dans les organisations. Y coexistent les trois générations du Web, à commencer par le Web de documents ou Web 1.0, caractérisé par l'usage des URLs ou URIs pour localiser les documents, le langage HTML pour écrire les pages Web et le protocole HTTP pour le transfert des informations sur les réseaux. ____________________ Le Web social ou Web 2.0 n'est pas un autre réseau. C'est une extension du Web de documents axée sur la communication et la collaboration à travers les Wikis, les blogues et les réseaux sociaux. Un énorme volume d'information passe à travers ces différents outils de communication dont une très faible partie est retenue par les organisations, en partie parce qu'elle réside dans les serveurs propriétaires des grandes entreprises du Web 2.0 tels que Facebook ou Google. ____________________ Le Web sémantique ou Web 3.0 est lui aussi une extension du Web de documents et du Web social. À la différence de ces deux générations du Web, le Web sémantique s'intéresse au traitement des connaissances, ce qui en fait un incontournable outil pour la gestion des connaissances. Il se distingue en donnant accès aux données qui alimentent les pages du Web 1.0 et du Web 2.0 ----et aussi en liant ces données entre elles, quelle que soit leur provenance, à l'aide des technologies sémantique: une représentation en forme de graphe ---- des vocabulaires de concepts sous forme d’ontologies ----interrogeable par un langage de requête, SPARQL, capable de tenir compte de liens entre données. Le Web sémantique représente dans un graphe de données, non seulement les ressources-documents, mais les objets du monde réel, notamment les personnes, ainsi que les concepts abstraits, fournissant ainsi un sens aux texte des documents. __________ Le Web sémantique a donc la capacité de créer un véritable Web intégré, capables d'inférences et d'applications plus intelligentes que par le passé
  • Le Web sémantique n’est pas un caprice de chercheursC’est une nécessité devant la masse croissance des informations Sinon nous allons crouler sous la masse d'informations, incapables de gérer nos connaissances personnelles comme celles de nos organisations _____________________ Cette masse d’informations sur le Web, qui augmente à chaque heure de façon exponentielle, pose un défi énorme aux usagers, un défi que les moteurs de recherche les plus performants n'arrivent pas à relever vraiment D'abord, le Web de documents ne traitent que des mots, la syntaxe et non la sémantique des mots. Or la syntaxe des langues naturelle est ambigüe Ex: Java Ensuite la plupart de nos requêtes requièrent l'intégration de plusieurs sources de données, ce qui demandera à l'usager de combiner toute une séquence de requêtes, alors que l'ordinateur pourrait le faire pour nous. L'ordinateur actuellement sert essentiellement à présenter des pages à l'usage à partir d'une base de données. Celles-ci ne sont reliées aux autres qu'au prix d'un effort de programmation. Les base de données étant fondées sur une structure rigide et utiliseant une multiplicités de technologies, cela ne facilite pas la tâche. Il faut donc une autre approche pour nous permettre des requêtes intelligentes nécessitées par la multiplication des informations sur le Web.
  • Voici un exemple d'application dont nous terminons actuellement le développement au LICEF. Il s'agit du logiciel COMÈTE qui importe les métadonnées décrivant des ressources d'apprentissage provenant de tous les coins du monde, donc des ressources variées. COMÈTE permet des recherches intelligentes dans la masse d'informations. Par exemple, trouver toutes les ressources produites par telle personne et ses co-auteurs. Google ne peut le faire qu'au prix de plusieurs requêtes successives après une consultation de plusieurs des pages résultant des requêtes. COMÈTE peut le faire en liant ensemble les données de sources diverses en un seul graphe-----contenant par exemple l’URI d’ une personne, liées à un document, lequel est lié à une autre personne, elle même ayant produit un document avec quelqu'un d'autre.
  • Voici une autre application réalisée par la firme française Antidot. On a enrichi une base de données de 43 720 monuments historiques en France au moyen de six (6) autre sources de données préexistantes: la liste des 3065 gares ferroviaires, celle des 301 stations du métro parisien, les données du code officiel géographique de l ’ INSEE, une banque de 122 828 photos de monuments, les descriptions des monuments dans Wikipedia (intégrées dans DBpedia dont nous parlerons plus loin) et le service de géolocalisation Yahoo! PlaceFinder qui permet d ’ afficher les lieux sur un carte géographique. Toutes ces données ont été reliées entre elles par des liens RDF formant un énorme graphe de données liées. Elles peuvent être consultées de façon intégrée dans un portail extrêmement utile pour les touristes et les intervenants de l ’ industrie touristique.
  • Un autre exemple d ’ application a été réalisé dans le cadre du projet PRIOWS au LICEF. Le défi consistait à pouvoir interroger une trentaine de banque de données hétérogènes d ’ une grande entreprise portant sur les équipements, les documents techniques, les processus d ’ entretien, les données sur les personnel, etc. ; et de pouvoir les interroger comme une seule sans les modifier. __________________ Pour ce faire, nous avons construit une ontologie regroupant les principales connaissances de l ’ organisation traitées dans se banques . On a mis les termes de l ’ ontologies en relation avec les attributs des bases de données. On a pu alors interroger les sources d ’ information via l ’ ontologie, comme s ’ il s ’ agissait d ’ une seule source d ’ information intégrée.
  • Le Web de données liées ou Web sémantique est une couche additionnelle imbriquée dans le Web de documents classique. Sa construction a commencée en janvier 2007 par l’identification des premiers ensembles de données disponibles sous des licences ouvertes, puis par leur conversion en graphe RDF et leur diffusion sur le Web. Cette possibilité étant ouverte à tous (d’où le terme « open data ») le nombre d’ensembles de données et de vocabulaires disponibles a cru très rapidement. En mai 2007, on ne comptait que 12 ensemble des données, notamment DBpedia, FOAF et Geo-names. À la fin de 2010, le Web de données regroupait 203 ensembles de données regroupant près de 27 milliards de triples et près de 400 milions de lien RDF  _________________________________ Dans le graphe présenté ici, chaque nœud représente un ensemble de données. Les liens entre eux signifient qu’un ensemble de données utilise en partie le vocabulaire d’un autres nœud. Ainsi, un ensemble de données comme DBpedia est l’objet d’un très grand nombre de liens car son vocabulaire est souvent réutilisé. Les ensembles de données sont classés par catégories tel qu’indiqué dans le tableau 1 qui donne pour chacune le nombre de noeuds, de triples et de liens RDF.
  • Le cours que vous entreprenez va vous permettre d'explorer cet univers passionnant. Il se présente sous la forme d'un site Web facile d'utilisation. Chacun des cinq modules est précédé d'une présentation du contenu et des compétences visées, ainsi qu'un aperçu comme celui à l’ éran décrivant les activités du module. Des hyperliens donnent accès aux consignes des activités, aux ressources utilisées dans chaque activité, aux productions que vous devez réaliser ainsi que la portion de l'évaluation qui y est attachée. Le livre "Semantic Web for the Working Ontologist" est celui qui fait l'objet du plus grand nombre de recommandations positives parmi tous ceux offerts actuellement. Nous l'avons retenu pour la qualité de son approche pédagogique et son caractère appliqué, bien adapté au programme de la Maîtrise en technologies de l'information. Il y a peu de manuel en français. Pour compenser, j'ai rédigé quatre textes d'introduction en français que vous consulterez au cours du module 1.
  • Le cours est subdivisé en cinq modules. Le premier module est un survol des principaux concepts de la gestion des connaissances, du Web sémantique et de ses applications. Les activités sont basés sur quatre textes introductifs Les modules 2, 3 et 4 proposent une progressions à partir des technologies sémantiques de base (RDF et SPARQL), jusqu’aux vocabulaires élaborarées du Ontology Web . Nous suivons ainsi la démarche du manuel recommandé. Ces modules impliquent un familiarisation avec la modélisation des connaissances à l’aide du logiciel GMOT, ainsi que l’utilisation du logiciel PROTÉGÉ pour effectuer des requêtes SPARQL et des inférences à l’aide du moteur d’inférence PELLET (tous deux intégrés à PROTÉGÉ). Prenant l’exemple d’une organisation, en l’occurrence la TÉLUQ, on construit d’abord des bases utilisant uniquement RDF, le ressource description framework (module 2). Puis au module 3, on étend les représentations et les capacités d’inférence à l’aide de vocabulaires RDFS, enfin, au module 4, on étend encore les représentations et les capacités d’inférence par l’utilisations de l’ Ontology Web Language (OWL) et du Simple Knowledge Organization system (SKOS). Le module 5 permet d’appliquer les connaissances des modules précédents dans un un projet d'application qui vous offre de construire une maquette d’un système sémantique pour la gestion des connaissances dans une organisation de votre choix. Vous pourrez entreprendre le projet normalement après le module 3 ou le module 4. Les liens P plus pâles indiquent toutefois que vous pouvez aussi en commencer la réalisation du projet après le module 1 en le développant de façon incrémentale.
  • Il y a 12 objectifs au cours qui sont autant de compétences visées que vous devrez avoir maîtrisées à la fin du cours. _______________ Nous les avons associés aux différentes modules et même aux activités à l'intérieur des modules de façon à clarifier les objectifs à chaque étape du cours. Ainsi le module 1 porte principalement sur les deux premiers objectifs, mais aussi sur quelques autres à cause de certains exercices pratiques de familiarisation Le module 2 porte principalement sur le RDF et le langage d'interrogation SPARQL qui permet d'extraire des informations d'un graphe RDF. Il implique également l'utilisation des logiciels GMOT et PROTÉGÉ Le module 3 porte principalement sur le RDFS et les inférences ou raisonnements sur une base de connaissances. Le module 4 porte principales sur l'OWL et le vocabulaire SKOS pour la construction des thésaurus et l’alignement des vocabulaires. Le module projet 5 vous permettra d'intégrer tous les objectifs et principalement l'objectif 12 qui vise la réalisation d'une ingénierie d'un petit système sémantique pour la gestion des connaissances.
  • Une feuille de route vous donne un aperçu d’ensemble des modules, de leurs activités, du temps suggéré pour chacune et de leur répartition sur une échéancier de 15 semaines. L’évaluation est répartie comme suit: un questionnaire pour chacun des 4 premiers modules, comptant pour 4 points chacun et un travail pratique dans les modules 2, 3 et 4 comptant pour 18 points chacun et le projet du module 5 comptant pour 30 % de la note finale.
  • Transcript

    • 1. Présentation du Cours Inf-6070Présentation du Cours Inf-6070 Dr. Gilbert PaquetteDr. Gilbert Paquette www.licef.ca/cice; www.licef.ca/gp Directeur de la chaire de recherche enDirecteur de la chaire de recherche en Ingénierie cognitive et éducationnelle (CICÉ)Ingénierie cognitive et éducationnelle (CICÉ) UER Science et TechnologiesUER Science et Technologies Télé-universitéTélé-université Juillet 2013Juillet 2013
    • 2. Le ContenuLe Contenu  Le contenu de ce cours est dispensé depuis peu dans plusieursLe contenu de ce cours est dispensé depuis peu dans plusieurs programmes de maîtrise des universités européennes et nord-programmes de maîtrise des universités européennes et nord- américaines, ------bien qu’aucun ne soit offert encore totalement àaméricaines, ------bien qu’aucun ne soit offert encore totalement à distance comme celui-ci.distance comme celui-ci.  Il met en relation deux domaines connaissant un essor très rapide:Il met en relation deux domaines connaissant un essor très rapide: la gestion des connaissances dans les organisationsla gestion des connaissances dans les organisations (qui fournit le(qui fournit le terrain d’application) et lesterrain d’application) et les technologies du Web sémantiquetechnologies du Web sémantique, le, le Web 3.0, qui en donnent les moyens.Web 3.0, qui en donnent les moyens.  Ce sont des sujets que nous avons étudiés ici depuis quelquesCe sont des sujets que nous avons étudiés ici depuis quelques années à travers différents projets de recherche développementannées à travers différents projets de recherche développement réalisés sous ma direction au Centre de recherche LICEF de la Télé-réalisés sous ma direction au Centre de recherche LICEF de la Télé- université, avec plusieurs partenaires universitaires ou industriels.université, avec plusieurs partenaires universitaires ou industriels.  EN 2013, ces sujets sont devenus matures comme en témoigne leEN 2013, ces sujets sont devenus matures comme en témoigne le nombre croissant d’applications réalisés dans un grand nombre denombre croissant d’applications réalisés dans un grand nombre de domaine par des partenaires majeurs de l’industrie.domaine par des partenaires majeurs de l’industrie.
    • 3. La gestion des connaissancesLa gestion des connaissances dans les organisationsdans les organisations  L’économie du savoir est marquée par la globalisation des échanges et la croissances exponentielle des informations  Le savoir et les connaissances conditionnent directement la compétitivité des entreprises et l’efficacité des organisations.  L’entreprise doit devenir apprenante. Elle doit pouvoir gérer ses connaissances et les utiliser de façon stratégique  Définitions (Jean-Yves Prax) – Une définition fonctionnelle : « Manager le cycle de vie de la connaissance depuis l’émergence d’une idée : formalisation, validation, diffusion, réutilisation, valorisation. » – Une définition opérationnelle : « Combiner les savoirs et les savoir-faire dans les processus, produits, organisations, pour créer de la valeur. » – Une définition économique : « Valoriser le capital intellectuel de la firme. »
    • 4. Le processus de gestion desLe processus de gestion des connaissancesconnaissances Faire circuler l’information Faire circuler l’information Traiter l’information Traiter l’information Produire biens et services Produire biens et services Commercial i-ser biens et services Commercial i-ser biens et services Référencer et rechercher Référencer et rechercher Biens et services Biens et services Infos disponibles Infos disponibles Information retenue Information retenue Documents BDs Documents BDs Mémoire organisationnelle ModéliserModéliser Extraire l’information Extraire l’information Connaissances Compétences Connaissances Compétences Base de Connaiss- ances Base de Connaiss- ances
    • 5. Méthodes et OutilsMéthodes et Outils Formalisation et Utilisation Technologies
    • 6. Les générations du WebLes générations du Web Dimension communication Dimensionconnaissances 2.0 Web social (Wikis, blogues, réseaux,…) 1.0 Web de documents (URIs, HTML, HTTP) 4.0 Web intégré 3.0 Web sémantique (RDF, RDFS, OWL, SPARQL) C S
    • 7. Les limites du Web de documentsLes limites du Web de documents et du Web 2.0et du Web 2.0  Un immense réservoir d’informations (décembre 2011) – 555 millions de sites +300 millions nouveaux en 2011. – 800 millions d’usagers de Facebook; +200 millions de en 2011. – 100 millions usagers Twitter. – 200 milliards de vidéos visionnés sur YouTube par mois ! – Flickr héberge plus de 6 milliards de photos disponibles sur le Web  Défi énorme aux usager – les moteurs traditionnels ne suffisent plus – Documents regroupent des mots – ambiguité de sens – Ex: Java – Requête requiert une intégration de plusieurs sources – Pages alimentées par des bases de données: structures non visibles, multiplicité des technologies, non interelations – L’ordinateur ne sert qu’à présenter des pages – Nécessité de recherches intelligentes. – lier les données par graphe
    • 8. Le Web de données liéesLe Web de données liées
    • 9. Un exemple dUn exemple d’’applicationapplication (©Antidot)(©Antidot)
    • 10. Un exemple dUn exemple d’’applicationapplication (Projet PRIOWS)(Projet PRIOWS) Ontologie Requête Experts DocumentsDonnées Processus Methodes Recherch e fédérée
    • 11. Le Web de données liéesLe Web de données liées
    • 12. Maquette du coursMaquette du cours
    • 13. La démarche du cours
    • 14. Les Objectifs (compétences)Les Objectifs (compétences) 1 Décrire les principales caractéristiques, les principaux processus, enjeux, et facteurs clés de succès de la gestion des connaissances 2 Distinguer les différentes technologies sémantiques entre elles et par rapport aux autres technologies de l’information. 3 Utiliser le modèle RDF pour décrire des ressources sur le web de données 4 Utiliser le langage RDFS pour élaborer des vocabulaires de description de ressources 5 Utiliser le langage OWL pour décrire des domaines de connaissance 6 Utiliser le langage SKOS pour élaborer des thésaurus 7 Utiliser le logiciel GMOT pour la représentation des connaissances 8 Utiliser le logiciel PROTÉGÉ pour la représentation et le traitement des connaissances 9 Construire des requêtes SPARQL sur une base de connaissances 10 Analyser des raisonnements sur une base de connaissances 11 Distinguer différentes modalités d’annotation sémantique 12 Réaliser une ingénierie d’un système sémantique de gestion des connaissances
    • 15. LL’’évaluationévaluation
    • 16. LL’’encadrementencadrement  L’encadrement et l’évaluation des travaux sont assurés par une personne chargée d’encadrement possédant une expertise reconnue dans le domaine des technologies sémantiques.  L’encadrement se fait principalement par le biais du courrier électronique et de la page Facebook du cours.  Une rencontre synchrone d’évaluation à laquelle participe le professeur responsable du cours a lieu à la fin de session.  D’autres rencontres synchrones par téléphone, Skype ou avec Connect Pro pourraient être organisées à la discrétion de la personne chargée d’encadrement ou selon les demandes des étudiants.  Pour des questions d’ordre administratif, la personne coordonnatrice à l’encadrement pour les programmes en technologie de l’information (TI) à la Télé-université peut également être contactée Voir le document de présentation du cours et la feuille de route
    • 17. ConclusionConclusion  Le Web sémantique est un sujet passionnantLe Web sémantique est un sujet passionnant  Il représente déjà une bonne du présent, et surtout de l’avenir, desIl représente déjà une bonne du présent, et surtout de l’avenir, des technologies de l’information, lesquelles passent par destechnologies de l’information, lesquelles passent par des application de plus en plus intelligente du Web sur le réseau desapplication de plus en plus intelligente du Web sur le réseau des réseaux.réseaux.  Mon équipe et moi sommes à votre disposition pour vous aider àMon équipe et moi sommes à votre disposition pour vous aider à réussir ce cours.réussir ce cours.  Je vous souhaite dans ce cours autant de plaisir que nous avons euJe vous souhaite dans ce cours autant de plaisir que nous avons eu à le concevoir.à le concevoir.  Bonne chance dans vos travauxBonne chance dans vos travaux

    ×