Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

580 views

Published on

annotation des Bulletins de Santé du Végétal en utilisant les technologies web sémantique. Objectif final développer le web de données agricol en proposant des ontologies dédiées et des méthodes d'enrichissement et de mises à jour propres à ce domaine

Published in: Internet
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
580
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Mettre une image du lod plus grande pour bien montrer les nœuds
    Gestion de données et modelisation pour les Observations Spatio temporelle
    Web sémantique des formats pour rendre les donnees interroperables faciliter l’échange de données, rendre les données accessibles
    Le LOD un projet de publication de données sur le web.
    Change la manière de développer les applications. Découper la gestion des données, des applications.
    Les BSV un exemple d’annotations bidon une culture attaque etc…
    Les annotations d’autres peuvent annoter de manière différente.
    Interrogation…SWIP les models sont complique les requetes aussi decouper les requetes en petite requete dedié à un modele de données.
  • Mes compétences sont les ontologies en générales et les technologies du web sémantique

    Le W3C a proposé plusieurs standards pour développer le web
    Je ne vais parler que d’une petite partie des standards proposés par le W3C pour la publication de données que le web

    RDF permet de présenter les données avec une syntaxe sous forme de triplet
    RDF S et OWL permettent de définir les schéma associés à ces données.
    Lorsque le schéma est plutôt complexe on parle d’ontologies sinon on parle de vocabulaire de métadonnées.

    Par exemple OWL-DL permet de poser des contraintes sur l’appartenance d’un individu à une classe.

    Le web de données aussi appelée Linked Open Data
    Est une initiative pour publier des données ouvertes et leurs schémas sur le web.
  • Le but du LOD n’est pas que de mettre à disposition des données sur le web
    Mais aussi des lier ces données et ces schémas pour identifier les complémentarités et les équivalences.

    Par exemple en 2008 sur le LOD
    Geonames est une source qui présente toutes les entités géographiques pays villes etc…
    Vous avez la même dans une partie de DBPedia qui est la base de données associés à wikipedia
    Ainsi en liant les données de géonames sur la ville de paris aux données de dbpedia vous pouvez compléter les info de localisation avec des informations sur le nombre d’habitants.

    Je souhaite promouvoir dans l’equipe la publication de données agricoles sur le web de données.

    Les ontologies sont les schémas de  données complexes du web de données
    Elles permettent de structurer les données qui sont publiées sur le web.

  • Ontologie les schémas riches du web de données
    Design Pattern: schéma réutilisable et bien formé
  • Quand j’écris ontologies je pense aussi à base de connaissances des ontologies peuplées.

    1.1, 1.2, 1.3, 2.2, 2.3, 3.1 et 3.2 C’est la these de Fabien

    3.2 c’est SWIP
  • Mettrre en avant que nous réutilisons et enrichissons
  • Un processus de transformation de sources
  • Chaque région à une classification propre de ses cultures
  • Présentation du projet de l'irstea sur l'annotation des bulletins d'alerte agricole 2014

    1. 1. www.irstea.fr Pour mieux affirmer ses missions, le Cemagref devient Irstea Fabien AMARGER, Stephan BERNARD, Jean-Pierre CHANET, Catherine ROUSSEY Vers le développement du web de données agricoles
    2. 2. 2 Plan Web sémantique, Web de données  le web de données agricoles? Système de Recherche d’Information sur les BSV SWIP interroge des annotations RDF Les ontologies agricoles: méthode de développement Ontology Design Pattern Thèse de Fabien Amarger: réutiliser des sources Conclusion et perspectives
    3. 3. 3 Web sémantique, ontologies, web de données Image de Benjamin Nowak World Wide Web Consortium (W3C)
    4. 4. 4 Linked Open Data (LOD) ou web de données ETAT DES LIEUX Publication des données et de leur schémas sur le web Identifier et lier les données [ Franck van Harmelen 2008] Agriculture dans le LOD? Données géographiques, Données statistiques Sciences du vivant (observation des espèces)
    5. 5. 5 Ontologies agricoles et recherche d'information sémantique Problématique • Le web de données agricoles est peu développé • Il existe de nombreuses sources d’information : thésaurus, BD, alertes agricoles, textes réglementaires • Comment construire des ontologies agricoles réutilisables pour publier sur le web de données et développer des systèmes d’interrogation dédiés Proposition • Utiliser de Design Pattern Ontologiques (ODP) et des schémas connus de vocabulaires de métadonnées [WOD 2013] • Réutiliser et transformer des sources viables existantes [Thèse de Fabien Amarger] • Cas d’usage de l’application SWIP de l’IRIT : génération de patrons de requêtes propres au domaine étudié Cas d’étude Bulletins de Santé du Végétal, données capteurs
    6. 6. 6 Sources de données agricoles Plusieurs ressources dédiées au domaine agricole •Thesaurus/ classification/ Taxonomie: Agrovoc, TaxRef, NCBI •Base de Données : e-phy, EPPT •XML Schema : AGROXML, GIEA •Collection de documents: Bulletin de Santé du Végétal •Forum/web site: wikipedia, wikispecies •Ontologies/ dataset RDF: biotop, plant, oboe Web de Données Agricole •Certaines sources sont déjà sur le web de données: Agrovoc, wikipedia • Le web de données est principalement anglophone
    7. 7. 7 Perspectives sur les ontologies agricoles: QUE VEUT FAIRE IRSTEA 1. Proposer des méthodes de construction d’ontologies  Evaluer les méthodes existantes et les adapter pour les besoins agricoles  Réutiliser des sources de données non ontologiques  Automatiser la construction des ontologies pour des besoins spécifiques  Agriculture un cas particulier de modélisation spatio-temporelle 2. Améliorer la qualité des ontologies  Développer des méthodes de détection d'erreurs: Antipatterns  Concevoir et réutiliser des Design Patterns Ontologiques (ODP) 3. Eprouver l'utilité des ontologies dans des applications dédiées  Publier et lier des données agricoles sur le web de données  Rechercher et interroger des données agricoles Observation des cultures + changement climatique Observation des bio-agresseurs + préconisation de bonnes pratiques
    8. 8. 8 Processus d'Interrogation SWIP de l'IRIT SEMANTIC WEB INTERFACE USING PATTERN Interprétation de la requête en langage naturel Ontologie + triplets RDF Requête exprimée en langage naturel Requête exprimée en langage pivot Liste de requêtes formelles classées Patrons Formalisation de la requête en langage pivot phrases explicatives Interrogation en français d’une base de triplets RDF
    9. 9. 9 Le Système de Recherche d’Information SWIP pdf Internet Archive url Annotation Triple store RDF pdf Stockage Interrogation Modélisation Ontologies annotations
    10. 10. 10 Cas d'Usage: Annotation des Bulletin de Sante du Végétal (BSV) Bulletin d’alerte français contient des observations sur le développement des cultures et les risques d’attaques de leurs agresseurs BSV distribués sur le web au format pdf BSV hétérogènes: Différents auteurs, Différents style de présentation, Différents contenus (texte structuré, tableau, image) Aider la recherche d'information dans ces BSV + reconstruire des données d'observation des cultures documentées par les BSV Comment aider l'annotation de ces BSV pour construire des ontologies sur les observations des cultures et de leurs attaques? • Annotations Spatio-temporelles, •Interaction entre plusieurs organismes vivants: une plante cultivée et ses agresseurs
    11. 11. 11 Irstea Agronomic Taxon DESIGN PATTERN ONTOLOGIQUES (ODP) Il existe déjà des ODP en lien avec l'agriculture • FAO (projet Neon): isPestOf, LinneanTaxonomy • Données observations des espèces disponibles sur le Web de données :Geospecies ontology, TaxonConcept, … Fusion, intégration et enrichissement de ces ODP Pour répondre à nos besoins. • Méthode de développement d’ ontologies à partir d’ODP
    12. 12. 12 Réutilisation de sources agricoles Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI Extraire des données de chaque source et les agréger en suivant les ODP Construction d'ontologies modulaires
    13. 13. 13 Cas d'Usage: Annotations des BSV PROCESSUS ITÉRATIFS D'ANNOTATION Ontologies agricoles 1) Reformater les BSV 2) Tenir compte de la structure des textes pour déduire des données utiles Annotation complexes= •Attaque d'un type de culture •Par un bio-agresseur •Quand •Où •A quel niveau de risque outil d'extraction d'information La base d'annotations = ontologie peuplée d'observations des cultures Annotations RDF
    14. 14. 14 Collections des BSV à l'Irstea Tous les bulletins de 2011 des 19 régions= 2825 BSV Focus: grande culture de la région Bourgogne = 37 BSV Projet Vespa de INRA • Début: Automne 2013 • Analyse sociologique des BSV • BSV stocké sur Internet Archive sous forme de collection  une page web par BSV Problèmes rencontrés: • Identifier les BSV et leur donner une URL valide • Difficultés à extraire le contenu textuel des BSV • Besoin de normalisation: les noms des filières agricoles • La liste des cultures dépend du pays: plante un agresseur ou une culture
    15. 15. 15 Conclusion et Perspectives Des spécifications du workflow d’annotation des BSV en devenir Besoin de définir un modèle d’annotations spatio-temporelles des observations Construction d’ ontologies modulaires basé sur des ODP • 1 module créé / 5 modules • AgronomicTaxon (WOD 2013) • plantes cultivées, agresseurs, adventices, maladies • Cultures: parcelle culturales avec un profil de culture • Variétés et propriétées des variétées • Observations spatio temporelles d'attaques sur les cultures more on googlesite agriontology
    16. 16. 16 BSV La région La date de parution Les auteurs Filière agricole Le numéro
    17. 17. 17 BSV L’agresseur Le stade de développement de la culture la culture Le niveau de risque
    18. 18. 18 Annotation fine : Objectifs
    19. 19. 19
    20. 20. 20 Agronomic Taxon
    21. 21. 21 Processus d'annotation Extraction brute

    ×