Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels - Presentation Transcript

    1. Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels Florence Amardeilh & Danica Damljanovic IC’2009, 27 mai 2009, Hammamet Funded by: European Commission – 6th Framework Project Reference: IST-2004-026460
    2. Contexte  Projet européen IST-TAO (2006-2009)  Transitioning Applications to Ontologies  www.tao-project.eu  Use-case scenario: Annotation d’artefacts logiciels (documentation technique, code source, web services, WSDL files…) 2
    3. Bridging the gap Contenu hétérogène non structuré Contenu structuré + Connaissance structurée 3
    4. Processus Structured information Text Mining Ontology and Audio Mining vocabulary control Reasoning Input engines documents Metadata generation Format transformation Knowledge population User (knowledge store validation integration) 4
    5. Content Augmentation Manager (CA Manager)  Definition du processus en trois étapes principales : Extraction d’information Consolidation d’information Stockage d’information  Avoir un unique format d’échange entre chaque étape  Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible  Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant  Reposer sur une “Service Oriented Architecture” (SOA) 5
    6. Architecture choisie  Choix de UIMA comme épine dorsale du CA-Manager. framework open-source IBM Avantages : Capacité à définir un workflow flexible Composants distribués et pluggables Une structure de données commune aux composants Partage et réutilisabilité de composants open-source  Choix des langages et techniques du Web Sémantique Interopérabilité Facilité d’échanger/partager/exploiter les formats et leur sémantique Facilité de créer/appeler de nouveaux services 6
    7. Quels types de données voulons-nous? Title : « brave new world » Date : 1954-09-23 Person : Place :  3 choses : Connaissance: entités, relations, attributs Occurrences : offsets/positions des entités dans le texte analysé Annotations : ensemble de métadonnées sur le document soumis (se référant aux entités de connaissance) 7
    8. CA Manager pipeline 1. Extraction 2. Consolidation 3. Stockage d’Information d’Information d’Information Découpe Nettoyer + Sérialise Extraire Contrôler Inférer Stocker r Fusionner r RegEx KCIT ITM Pellet RDF OWL ITM Sesame p 8
    9. Cas d’usage : annoter les artefacts logiciels Key Concept Identification Tool (KCIT) for automatic content augmentation: produces ontology-aware annotations automatically deals with term and morphological variations (list of documents, document list) deals with wide range of file formats and differently sized documents domain independent: easily used with different ontologies 9
    10. Challenges raised by software artefacts Customisation of generic Tokeniser for processing software artefacts: e.g. getDocumentName should be separated into get, Document, and Name tokens Customisation of generic Sentence Splitter JavaDoc: usually no punctuation marks 10
    11. Extract : Onto Root Gazetteer 11
    12. Validation des résultats 12
    13. KCIT évaluation: corpus Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE : 4 forum posts de la mailing liste GATE 3 java classes du source code de GATE 7 chapitres du guide utilisateur de GATE 3 publications sur la plateforme GATE 2 pages Web accessibles depuis le site Web http://gate.ac.uk 1 guide du développeur d’applications GATE 13
    14. KCIT évaluation: resultats 14
    15. CA Manager évaluation : résultats  Evaluation de la flexibilité et du passage à l’échelle de l’infrastructure offerte par le CA Manager  Evaluation de la performance des algorithmes de consolidation  Même corpus que pour l’évaluation de KCIT  Exemple : “movies.xml” 129 annotations générées par KCIT 46 instances de connaissances créées par le CA Manager 27 annotations sémantiques crées pour ce document au final Element type Number of Number of Number of Recall Precision F1-measure in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+ ontology elements (A) elements (B) elements (C) P) Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965  Difficultés à évaluer la performances en utilisant des 15 mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
    16. Conclusion  Avantages de cette infrastructure :  Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports  Cache la complexité d’UIMA si ce n’est pas nécessaire  Focalise sur la transmission et l’interprétation des résultats des outils d’extraction d’information aux référentiels sémantiques  Définit un Schéma d’annotation générique  Fournit un service (simple, à distance, architecture SOA)  Plug&play : possibilité d’écrire facilement un nouveau connecteur vers un outil externe (IE ou référentiel sémantique)  Démo en libre accès, comme un web service ou une interface de test, accessible à :  http://62.210.155.132/ca-test 16
    17. Travaux futurs project ontology corpus CA tool repository Terradata Architectural 3D objects DBPedia and ITM ontology (3D Geonames objects) web services VigiTermes Adverse Drug PubMed Luxid (Temis) ITM Effect ontology abstracts Eiffel Tourism Touristic TimeFrame ITM ontology web sites (Modyco, Univ Paris X) Microbio MiRNA ontology PubMed FunGen Sesame articles Discovery (INSERM) 17
    SlideShare Zeitgeist 2009

    + Conférence IC 2009Conférence IC 2009 Nominate

    custom

    338 views, 0 favs, 0 embeds more stats

    Présentation de Florence Amardeilh et Danica Damlj more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 338
      • 338 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 9
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories

    Tags