annotation des Bulletins de Santé du Végétal en utilisant les technologies web sémantique. Objectif final développer le web de données agricol en proposant des ontologies dédiées et des méthodes d'enrichissement et de mises à jour propres à ce domaine
2. 2
Plan
Web sémantique, Web de données
le web de données agricoles?
Système de Recherche d’Information sur les BSV
SWIP interroge des annotations RDF
Les ontologies agricoles: méthode de développement
Ontology Design Pattern
Thèse de Fabien Amarger: réutiliser des sources
Conclusion et perspectives
4. 4
Linked Open Data (LOD) ou web de données
ETAT DES LIEUX
Publication des données et de leur schémas
sur le web
Identifier et lier les données
[ Franck van Harmelen 2008]
Agriculture dans le LOD?
Données géographiques,
Données statistiques
Sciences du vivant
(observation des espèces)
5. 5
Ontologies agricoles et recherche d'information
sémantique
Problématique
• Le web de données agricoles est peu développé
• Il existe de nombreuses sources d’information : thésaurus, BD, alertes
agricoles, textes réglementaires
• Comment construire des ontologies agricoles réutilisables pour publier sur le
web de données et développer des systèmes d’interrogation dédiés
Proposition
• Utiliser de Design Pattern Ontologiques (ODP) et des schémas connus de
vocabulaires de métadonnées [WOD 2013]
• Réutiliser et transformer des sources viables existantes [Thèse de Fabien
Amarger]
• Cas d’usage de l’application SWIP de l’IRIT : génération de patrons de
requêtes propres au domaine étudié
Cas d’étude
Bulletins de Santé du Végétal, données capteurs
6. 6
Sources de données agricoles
Plusieurs ressources dédiées au domaine agricole
•Thesaurus/ classification/ Taxonomie:
Agrovoc, TaxRef, NCBI
•Base de Données :
e-phy, EPPT
•XML Schema :
AGROXML, GIEA
•Collection de documents:
Bulletin de Santé du Végétal
•Forum/web site:
wikipedia, wikispecies
•Ontologies/ dataset RDF: biotop, plant, oboe
Web de Données Agricole
•Certaines sources sont déjà sur le web de données: Agrovoc, wikipedia
• Le web de données est principalement anglophone
7. 7
Perspectives sur les ontologies agricoles:
QUE VEUT FAIRE IRSTEA
1. Proposer des méthodes de construction d’ontologies
Evaluer les méthodes existantes et les adapter pour les besoins agricoles
Réutiliser des sources de données non ontologiques
Automatiser la construction des ontologies pour des besoins spécifiques
Agriculture un cas particulier de modélisation spatio-temporelle
2. Améliorer la qualité des ontologies
Développer des méthodes de détection d'erreurs: Antipatterns
Concevoir et réutiliser des Design Patterns Ontologiques (ODP)
3. Eprouver l'utilité des ontologies dans des applications dédiées
Publier et lier des données agricoles sur le web de données
Rechercher et interroger des données agricoles
Observation des cultures + changement climatique
Observation des bio-agresseurs + préconisation de bonnes pratiques
8. 8
Processus d'Interrogation SWIP de l'IRIT
SEMANTIC WEB INTERFACE USING PATTERN
Interprétation de la requête
en langage naturel
Ontologie +
triplets RDF
Requête exprimée en langage naturel
Requête exprimée en langage pivot
Liste de requêtes formelles classées
Patrons
Formalisation de la requête
en langage pivot
phrases explicatives
Interrogation en français d’une base de triplets RDF
9. 9
Le Système de Recherche d’Information
SWIP
pdf Internet
Archive
url
Annotation Triple store RDF
pdf
Stockage
Interrogation
Modélisation
Ontologies
annotations
10. 10
Cas d'Usage: Annotation des Bulletin de Sante
du Végétal (BSV)
Bulletin d’alerte français contient des observations sur le
développement des cultures et les risques d’attaques de leurs
agresseurs
BSV distribués sur le web au format pdf
BSV hétérogènes: Différents auteurs, Différents style de
présentation, Différents contenus (texte structuré, tableau, image)
Aider la recherche d'information dans ces BSV + reconstruire
des données d'observation des cultures documentées par les
BSV
Comment aider l'annotation de ces BSV pour construire
des ontologies sur les observations des cultures et de leurs
attaques?
• Annotations Spatio-temporelles,
•Interaction entre plusieurs organismes vivants: une plante cultivée et
ses agresseurs
11. 11
Irstea Agronomic Taxon
DESIGN PATTERN ONTOLOGIQUES (ODP)
Il existe déjà des ODP en lien
avec l'agriculture
• FAO (projet Neon): isPestOf,
LinneanTaxonomy
• Données observations des
espèces disponibles sur le
Web de données :Geospecies
ontology, TaxonConcept, …
Fusion, intégration et
enrichissement de ces ODP
Pour répondre à nos besoins.
• Méthode de développement d’
ontologies à partir d’ODP
12. 12
Réutilisation de sources agricoles
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI
Extraire des données de chaque source et les agréger en suivant les ODP
Construction d'ontologies modulaires
13. 13
Cas d'Usage: Annotations des BSV
PROCESSUS ITÉRATIFS D'ANNOTATION
Ontologies
agricoles
1) Reformater les BSV
2) Tenir compte de la structure
des textes pour déduire des
données utiles
Annotation complexes=
•Attaque d'un type de culture
•Par un bio-agresseur
•Quand
•Où
•A quel niveau de risque
outil d'extraction d'information
La base d'annotations =
ontologie peuplée d'observations
des cultures
Annotations
RDF
14. 14
Collections des BSV à l'Irstea
Tous les bulletins de 2011 des 19 régions= 2825 BSV
Focus: grande culture de la région Bourgogne = 37 BSV
Projet Vespa de INRA
• Début: Automne 2013
• Analyse sociologique des BSV
• BSV stocké sur Internet Archive sous forme de collection
une page web par BSV
Problèmes rencontrés:
• Identifier les BSV et leur donner une URL valide
• Difficultés à extraire le contenu textuel des BSV
• Besoin de normalisation: les noms des filières agricoles
• La liste des cultures dépend du pays: plante un agresseur ou une
culture
15. 15
Conclusion et Perspectives
Des spécifications du workflow d’annotation des BSV en devenir
Besoin de définir un modèle d’annotations spatio-temporelles des
observations
Construction d’ ontologies modulaires basé sur des ODP
• 1 module créé / 5 modules
• AgronomicTaxon (WOD 2013)
• plantes cultivées, agresseurs, adventices, maladies
• Cultures: parcelle culturales avec un profil de culture
• Variétés et propriétées des variétées
• Observations spatio temporelles d'attaques sur les cultures
more on googlesite agriontology
Mettre une image du lod plus grande pour bien montrer les nœuds
Gestion de données et modelisation pour les Observations Spatio temporelle
Web sémantique des formats pour rendre les donnees interroperables faciliter l’échange de données, rendre les données accessibles
Le LOD un projet de publication de données sur le web.
Change la manière de développer les applications. Découper la gestion des données, des applications.
Les BSV un exemple d’annotations bidon une culture attaque etc…
Les annotations d’autres peuvent annoter de manière différente.
Interrogation…SWIP les models sont complique les requetes aussi decouper les requetes en petite requete dedié à un modele de données.
Mes compétences sont les ontologies en générales et les technologies du web sémantique
Le W3C a proposé plusieurs standards pour développer le web
Je ne vais parler que d’une petite partie des standards proposés par le W3C pour la publication de données que le web
RDF permet de présenter les données avec une syntaxe sous forme de triplet
RDF S et OWL permettent de définir les schéma associés à ces données.
Lorsque le schéma est plutôt complexe on parle d’ontologies sinon on parle de vocabulaire de métadonnées.
Par exemple OWL-DL permet de poser des contraintes sur l’appartenance d’un individu à une classe.
Le web de données aussi appelée Linked Open Data
Est une initiative pour publier des données ouvertes et leurs schémas sur le web.
Le but du LOD n’est pas que de mettre à disposition des données sur le web
Mais aussi des lier ces données et ces schémas pour identifier les complémentarités et les équivalences.
Par exemple en 2008 sur le LOD
Geonames est une source qui présente toutes les entités géographiques pays villes etc…
Vous avez la même dans une partie de DBPedia qui est la base de données associés à wikipedia
Ainsi en liant les données de géonames sur la ville de paris aux données de dbpedia vous pouvez compléter les info de localisation avec des informations sur le nombre d’habitants.
Je souhaite promouvoir dans l’equipe la publication de données agricoles sur le web de données.
Les ontologies sont les schémas de données complexes du web de données
Elles permettent de structurer les données qui sont publiées sur le web.
Ontologie les schémas riches du web de données
Design Pattern: schéma réutilisable et bien formé
Quand j’écris ontologies je pense aussi à base de connaissances des ontologies peuplées.
1.1, 1.2, 1.3, 2.2, 2.3, 3.1 et 3.2 C’est la these de Fabien
3.2 c’est SWIP
Mettrre en avant que nous réutilisons et enrichissons
Un processus de transformation de sources
Chaque région à une classification propre de ses cultures