Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

2,319 views

Published on

Présentation de Florence Amardeilh et Danica Damljanovic à IC 2009

Published in: Technology
  • Be the first to comment

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

  1. 1. Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels Florence Amardeilh & Danica Damljanovic IC’2009, 27 mai 2009, Hammamet Funded by: European Commission – 6th Framework Project Reference: IST-2004-026460
  2. 2. Contexte  Projet européen IST-TAO (2006-2009)  Transitioning Applications to Ontologies  www.tao-project.eu  Use-case scenario: Annotation d’artefacts logiciels (documentation technique, code source, web services, WSDL files…) 2
  3. 3. Bridging the gap Contenu hétérogène non structuré Contenu structuré + Connaissance structurée 3
  4. 4. Processus Structured information Text Mining Ontology and Audio Mining vocabulary control Reasoning Input engines documents Metadata generation Format transformation Knowledge population User (knowledge store validation integration) 4
  5. 5. Content Augmentation Manager (CA Manager)  Definition du processus en trois étapes principales : Extraction d’information Consolidation d’information Stockage d’information  Avoir un unique format d’échange entre chaque étape  Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible  Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant  Reposer sur une “Service Oriented Architecture” (SOA) 5
  6. 6. Architecture choisie  Choix de UIMA comme épine dorsale du CA-Manager. framework open-source IBM Avantages : Capacité à définir un workflow flexible Composants distribués et pluggables Une structure de données commune aux composants Partage et réutilisabilité de composants open-source  Choix des langages et techniques du Web Sémantique Interopérabilité Facilité d’échanger/partager/exploiter les formats et leur sémantique Facilité de créer/appeler de nouveaux services 6
  7. 7. Quels types de données voulons-nous? Title : « brave new world » Date : 1954-09-23 Person : Place :  3 choses : Connaissance: entités, relations, attributs Occurrences : offsets/positions des entités dans le texte analysé Annotations : ensemble de métadonnées sur le document soumis (se référant aux entités de connaissance) 7
  8. 8. CA Manager pipeline 1. Extraction 2. Consolidation 3. Stockage d’Information d’Information d’Information Découpe Nettoyer + Sérialise Extraire Contrôler Inférer Stocker r Fusionner r RegEx KCIT ITM Pellet RDF OWL ITM Sesame p 8
  9. 9. Cas d’usage : annoter les artefacts logiciels Key Concept Identification Tool (KCIT) for automatic content augmentation: produces ontology-aware annotations automatically deals with term and morphological variations (list of documents, document list) deals with wide range of file formats and differently sized documents domain independent: easily used with different ontologies 9
  10. 10. Challenges raised by software artefacts Customisation of generic Tokeniser for processing software artefacts: e.g. getDocumentName should be separated into get, Document, and Name tokens Customisation of generic Sentence Splitter JavaDoc: usually no punctuation marks 10
  11. 11. Extract : Onto Root Gazetteer 11
  12. 12. Validation des résultats 12
  13. 13. KCIT évaluation: corpus Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE : 4 forum posts de la mailing liste GATE 3 java classes du source code de GATE 7 chapitres du guide utilisateur de GATE 3 publications sur la plateforme GATE 2 pages Web accessibles depuis le site Web http://gate.ac.uk 1 guide du développeur d’applications GATE 13
  14. 14. KCIT évaluation: resultats 14
  15. 15. CA Manager évaluation : résultats  Evaluation de la flexibilité et du passage à l’échelle de l’infrastructure offerte par le CA Manager  Evaluation de la performance des algorithmes de consolidation  Même corpus que pour l’évaluation de KCIT  Exemple : “movies.xml” 129 annotations générées par KCIT 46 instances de connaissances créées par le CA Manager 27 annotations sémantiques crées pour ce document au final Element type Number of Number of Number of Recall Precision F1-measure in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+ ontology elements (A) elements (B) elements (C) P) Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965  Difficultés à évaluer la performances en utilisant des 15 mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
  16. 16. Conclusion  Avantages de cette infrastructure :  Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports  Cache la complexité d’UIMA si ce n’est pas nécessaire  Focalise sur la transmission et l’interprétation des résultats des outils d’extraction d’information aux référentiels sémantiques  Définit un Schéma d’annotation générique  Fournit un service (simple, à distance, architecture SOA)  Plug&play : possibilité d’écrire facilement un nouveau connecteur vers un outil externe (IE ou référentiel sémantique)  Démo en libre accès, comme un web service ou une interface de test, accessible à :  http://62.210.155.132/ca-test 16
  17. 17. Travaux futurs project ontology corpus CA tool repository Terradata Architectural 3D objects DBPedia and ITM ontology (3D Geonames objects) web services VigiTermes Adverse Drug PubMed Luxid (Temis) ITM Effect ontology abstracts Eiffel Tourism Touristic TimeFrame ITM ontology web sites (Modyco, Univ Paris X) Microbio MiRNA ontology PubMed FunGen Sesame articles Discovery (INSERM) 17

×