Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Ontologies, web de données et SKOS transformation

1,999 views

Published on

Présentation faite lors d'une réunion du projet animitex à Montpellier en aôut 2014. Cette présentation brosse un apercu des standards du web sémantique disponible sur le web de données. Puis nous introduisons brièvement les travaux de Fabien Amarger sur la transformation de SKOS en ontologie.

Published in: Technology
  • Be the first to comment

Ontologies, web de données et SKOS transformation

  1. 1. www.irstea.fr Pour mieux affirmer ses missions, le Cemagref devient Irstea Catherine ROUSSEY Projet Animitex 28 aout 2014, Montpellier Ontologies, Web de Données et SKOS Transformation Merci à Fabien Amarger Fabien Gandon
  2. 2. 2 Plan • Définitions de base: de l’Ontologie aux ontologies • Données Information Connaissances • Interopérabilité et ontologies • Format et standard du web sémantique • Ontologie linguistique  système de recherche d’information • Exemple SKOS • Ontologie de données  web de données • Exemple RDFS, OWL • Ontologie Logique…
  3. 3. 3 Définitions: DONNÉES, INFORMATIONS, CONNAISSANCES Donnée: un élément d’information, percevable, manipulable Information: donnée + sens + contexte type Connaissance: information + stabilité + croyance abstraction + traitement généralisation d’un ensemble d’information = modèle toujours propre à une personne partagée avec d’autres personnes
  4. 4. 4 Schéma général DONNÉES, INFORMATIONS, CONNAISSANCES Données Information Connaissances Perception Sens dans un contexte Résultat d’un processus d’apprentissage: une généralisation d’un ensemble d’information que l’on va mémoriser Données Données typées Classes en POO Description sous forme d’attribut (description quantitative & qualitative ) + méthodes (traitements) Connaissances en IA Des traitement particuliers sur les données qualitatives Différent niveau de granularité : information structurée  non structurées BD Relationnelle Données fortement structurées optimisées pour le stockage
  5. 5. 5 Définition ONTOLOGIE Ontologie avec un O majuscule (philosophie): Une science: une branche de la métaphysique qui a pour objectif l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout ce qui est… Ontologies au pluriel avec un o minuscule (informatique): Outils informatiques résultat d’une modélisation d’un domaine d’étude défini pour un objectif donné acceptée par une communauté d’utilisateurs …
  6. 6. 6 Ontologies … Gruber 1993 : « une ontologie est une spécification explicite d’une conceptualisation » • Conceptualisation: modèle abstrait du domaine: quelles entités? • Spécification explicite: les types et leurs contraintes d’usage sont définis dans un langage… Exemples: • Un thésaurus : vocabulaire normalisé • Un schéma de BD : un modèle structuré d'un domaine • Un système expert : un modèle du domaine formalisé pour les inférences, des conditions exprimées à l'aide de formules logiques Ontologie linguistique, ressource termino-ontologique, ontologie de domaine, ontologie de haut niveau, vocabulaire de métadonnées… Thomas R. Gruber. “A translation approach to portable ontology specifications”, Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220
  7. 7. 7 Différent niveau d’Intéropérabilité 7 Increasing Interoperability Capability Increasing Knowledge Lexical Interoperability Data Interoperability Object Interoperability List Thesaurus Taxonomy Conceptual Model Logical Theory Controlled Vocabulary Glossary UML DB Schema XML Schema ER Model OWL Description Logic Lexical Database RDF SKOS
  8. 8. 8 Web sémantique, ontologies, web de données World Wide Web Consortium (W3C) Credit Benjamin Nowak
  9. 9. 9 Syntaxe de base du web sémantique RDF: RESOURCE DESCRIPTION FRAMEWORK is a triple model i.e. every piece of knowledge is broken down into ( subject , predicate , object ) RDF Credit Fabien GANDON
  10. 10. 10 http://inria.fr/~fabien#me http://inria.fr/schema#author http://inria.fr/rr/doc.html http://inria.fr/schema#theme "Music" 10 Credit Fabien GANDON
  11. 11. 11 <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22- rdf-syntax-ns#" xmlns:inria="http://inria.fr/schema#" > <rdf:Description rdf:about="http://inria.fr/rr/doc.html"> <inria:author rdf:resource= "http://inria.fr/~fabien#me" /> <inria:theme>Music</inria:theme> </rdf:Description> </rdf:RDF> 11 Credit Fabien GANDON
  12. 12. 12 Les composants des ontologies Concept / Class Term Object/Instance Relation hasLabel Property Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasArgument hasArgument hasName hasName * * * 1 * 1 * 1 * * * * 1 *
  13. 13. 13 Ontologie linguistique/terminologique Concept/ Class Term Object/Instance Relation hasLabel Property Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasArgument hasArgument hasName hasName * * * 1 * 1 * 1 * * * * 1 *
  14. 14. 14 Problème de l’interopérabilité lexicale Le même terme est utilisé pour représenter différents objets Le même objet est référencé par des termes différents Credit Fabien GANDON
  15. 15. 15 A relatively large natural stream of water 15 rivière fleuve river rio A relatively large natural stream of water Water course Una corriente relativamente larga corriente de agua natural Cours d’eau naturel de moyenne ou de faible importance, qui en principe n’aboutit pas directement à la mer Cours d’eau naturel généralement important (plus spécialement lorsque ce cours d’eau se jette dans la mer)
  16. 16. 16 A relatively large natural stream of water 16 rivière fleuve river rio A relatively large natural stream of water Water course Una corriente relativamente larga corriente de agua natural Cours d’eau naturel de moyenne ou de faible importance, qui en principe n’aboutit pas directement à la mer Cours d’eau naturel généralement important (plus spécialement lorsque ce cours d’eau se jette dans la mer)
  17. 17. 17 17
  18. 18. 18 Système de Recherche d’Information Matchin g Docum ent index and user query 1 2 3 Multilingual Corpora Query Ordered list of documents Terminological Ontology Information Retrieval System indexing
  19. 19. 19 Système de Recherche sur le web mapping Query annotation Results annotation annotation
  20. 20. 20 Format des ontologies terminologiques SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM Credit http://www.w3.org/2004/02/skos/intro
  21. 21. 21 Ontologie de données * Concept / Class Term Object/Instance Relation hasLabel Property Semantic Relation Object Relation Linguistic Relation Logical Definition Textual Definition isInstanceOf hasArgument hasName hasArgument hasArgument hasName hasName * * 1 * 1 * 1 * * * * 1 *
  22. 22. 22 Exemple d’ontologie de données LE DICTIONNAIRE AGRICOLE GIEEA
  23. 23. 23 Intéropérabilité de données LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML) Blue data Blue system Green data Green system Red data Red system
  24. 24. 24 Intéropérabilité de données LE WEB DE DONNÉES OU LINKED DATA An extension of the current Web… … where data are given well-defined and explicitly represented meaning, … … so that it can be shared and used by humans and machines, ... ... better enabling them to work in cooperation And clear principles on how to publish data
  25. 25. 25 Les ontologies dans le web de données Une ontologie contient un vocabulaire et un schéma de données: • consensuels, • publiés sur le web et documentés • formalisés avec des standards du web (RDF, OWL, SPARQL) • Avec des contraintes en DL (conditions nécessaires et/ou suffisantes) = un schéma de données pour le web de données
  26. 26. 26 The Linking Open Data cloud 26 Credit Bill ROBERTS Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
  27. 27. 27 Format des ontologies de données RDF SCHEMA define classes and relations of resources and organize their hierarchy define signatures of relations (domain, range) document them with labels and comments define associated inference rules Credit Fabien Gandon #12 #21 #47 #48 "document" "book" "livre" "novel" "roman" "short story" "nouvelle"
  28. 28. 28
  29. 29. 29 Format des ontologies de données OWL WEB ONTOLOGY LANGUAGE OWL is based on Description Logics The logical theory (model) can be define using different knowledge representation Languages: Description Logics, Frames, Conceptual Graphs OWL Profiles EL: large numbers of properties and/or classes and polynomial time. QL: large volumes of instance data, and conjunctive query answering using conventional relational database in LOGSPACE RL: scalable reasoning without sacrificing too much expressive power using rule-based reasoning in polynomial time Credit Fabien Gandon
  30. 30. 30 Ou trouver des ontologies ? SWOOGLE http://swoogle.umbc.edu/ Watson http://watson.kmi.open.ac.uk/WatsonWUI/ LOV Linked Open Vocabulary http://lov.okfn.org/dataset/lov/ W3C groups http://www.w3.org/Consortium/activities Credit Fabien Gandon
  31. 31. www.irstea.fr Pour mieux affirmer ses missions, le Cemagref devient Irstea C. Roussey J.P. Chanet (Irstea) N. Hernandez O. Haemmerlé (IRIT) Thèse de Fabien Amarger construction d’ontologies agricoles …
  32. 32. 32 Plan Motivation Cas d’étude : projet sur les BSV Interrogation avec SWIP Thème de la thèse Comment construire des ontologies à partir de sources non ontologiques Etat de l’art: Méthodologie Néon Transformation SKOS Notre proposition Ontology Design Pattern Multiplier les Sources Calculer la confiance des éléments + filtrage
  33. 33. 33 Motivations • Volonté d’aider les agriculteurs à diminuer l’usage des produits phytosanitaires • Augmentation du nombre de données dans le domaine de l’agriculture • Bulletins de Santé du Végétal • thésaurus AGROVOC • base de données publique e-phy • etc. • Volonté de contribuer au Linked Open Data (LOD) • Interrogation de l’ontologie par requête en langage naturel (projet SWIP) • Méthodologie de construction d’ontologies à partir de divers sources • Interrogation intelligente des informations collectées
  34. 34. 34 Credit Fabien Amarger
  35. 35. 35 Cas d'étude: Bulletin de Sante du Végétal (BSV) Bulletin d’alerte français contient des observations sur le développement des cultures et les risques d’attaques de leurs agresseurs BSV distribués sur le web au format pdf BSV hétérogènes: Différents auteurs, Différents style de présentation, Différents contenus (texte structuré, tableau, image) Aider la recherche d'information dans ces BSV + reconstruire des données d'observation des cultures documentées par les BSV Comment faciliter la recherche des BSV ? Trouver les BSV qui correspondent à un besoin Identifier la partie des BSV intéressante Un système de Recherche d’Information ?
  36. 36. 36 Processus d'Interrogation SWIP de l'IRIT SEMANTIC WEB INTERFACE USING PATTERN Interprétation de la requête en langage naturel Ontologie + triplets RDF Requête exprimée en langage naturel Requête exprimée en langage pivot Liste de requêtes formelles classées Patrons Formalisation de la requête en langage pivot phrases explicatives Interrogation en français d’une base de triplets RDF Credit Camille Pradel
  37. 37. 37 Le Système d'Interrogation SWIP pdf Internet Archive url Annotation Triple store RDF pdf Stockage Interrogation Modélisation Ontologies annotations
  38. 38. 38 Cas d'étude: Annotations des BSV PROCESSUS ITÉRATIFS D'ANNOTATION Ontologies agricoles 1) Reformater les BSV 2) Tenir compte de la structure des textes pour déduire des données utiles Annotation complexes= •Attaque d'un type de culture •Par un bio-agresseur •Quand •Où •A quel niveau de risque outil d'extraction d'information BD d'annotations = ontologie peuplée d'observations des cultures Annotations RDF
  39. 39. 39 Etat de l’art: méthodologie Néon
  40. 40. 40 Etat de l’Art • Processus incrémentale: Utilisation que d’une seule source • Possibilité d’extraction : • Classes • Relations non nommées • Intuition de relation de subsomption (rdfs:subClassOf) • Techniques de désambiguïsation • Contraignantes ou pas suffisantes • Validation peu existante • Validation de la conceptualisation manuelle • Validation structurelle automatique Méthodologie de construction d’ontologie exploitant la multiplication des sources d’informations disponibles et dirigée par des patrons de conceptions (Ontology Design Pattern)
  41. 41. 41 Transformation automatique d’un SKOS EXAMPLE AGROVOC
  42. 42. 42 Transformation automatique d’un SKOS RÉSULTAT SUR AGROVOC
  43. 43. 43 Proposition Hypothèses générales • Chaque source est modelisée en fonction de son usage •  Besoin de remodeliser • Toutes les sources n’ont pas la même qualité • La présence de la même information dans plusieurs sources implique une augmentation de la confiance attribuée à cette information Motivations • Construire des ontologies modulaires, Ontologie de domaine de haut niveau centrée sur une fonctionnalité • Premier cas d’étude module sur la taxonomie agricole • Enrichissement de module AgronomicTaxon
  44. 44. 44 Proposition ADAPTATION DE DEUX SCÉNARII DE NÉON
  45. 45. 45 Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP) Il existe déjà des ODP en lien avec l'agriculture • FAO (projet Neon): isPestOf, LinneanTaxonomy • Données observations des espèces disponibles sur le Web de données :Geospecies ontology, TaxonConcept, … Fusion, intégration et enrichissement de ces ODP Pour répondre à nos besoins. • Méthode de développement d’ ontologies à partir d’ODP
  46. 46. 46 Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP)
  47. 47. 47 Proposition Schéma générale de la méthode
  48. 48. 48 Proposition TRANSFORMATION AUTOMATIQUE DIRIGÉE PAR LE MODULE
  49. 49. 49 Transformation du thésaurus Agrovoc SKOS original
  50. 50. 50 Example Agrovoc
  51. 51. 51 Proposition KB MERGING
  52. 52. 52 Expérimentation 3 sources de bonne qualité: Thésaurus Agrovoc Classification TaxRef Classification NCBI Construction d’un gold standard à partir de la validation de 3 agronomes INRA et Irstea. Extraction des instances F measure > 0.74 très bonne précision Extraction des relations à améliorer F measure < 0,45
  53. 53. 53 Conclusion et Perspectives Extraction de classes, de labels, de relation d'instanciation Besoin de définir un modèle d’annotations spatio-temporelles des observations Construction d’une ontologie modulaire : 1 module créé / 5 Des spécifications du workflow d’annotation en devenir more on googlesite agriontology
  54. 54. 54 Réutilisation de sources agricoles Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI Extraire des données de chaque source et les agréger en suivant les ODP Construction d'ontologies modulaires

×