Your SlideShare is downloading. ×
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

1,764
views

Published on

Présentation de Florence Amardeilh et Danica Damljanovic à IC 2009

Présentation de Florence Amardeilh et Danica Damljanovic à IC 2009

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,764
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
59
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels Florence Amardeilh & Danica Damljanovic IC’2009, 27 mai 2009, Hammamet Funded by: European Commission – 6th Framework Project Reference: IST-2004-026460
  • 2. Contexte  Projet européen IST-TAO (2006-2009)  Transitioning Applications to Ontologies  www.tao-project.eu  Use-case scenario: Annotation d’artefacts logiciels (documentation technique, code source, web services, WSDL files…) 2
  • 3. Bridging the gap Contenu hétérogène non structuré Contenu structuré + Connaissance structurée 3
  • 4. Processus Structured information Text Mining Ontology and Audio Mining vocabulary control Reasoning Input engines documents Metadata generation Format transformation Knowledge population User (knowledge store validation integration) 4
  • 5. Content Augmentation Manager (CA Manager)  Definition du processus en trois étapes principales : Extraction d’information Consolidation d’information Stockage d’information  Avoir un unique format d’échange entre chaque étape  Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible  Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant  Reposer sur une “Service Oriented Architecture” (SOA) 5
  • 6. Architecture choisie  Choix de UIMA comme épine dorsale du CA-Manager. framework open-source IBM Avantages : Capacité à définir un workflow flexible Composants distribués et pluggables Une structure de données commune aux composants Partage et réutilisabilité de composants open-source  Choix des langages et techniques du Web Sémantique Interopérabilité Facilité d’échanger/partager/exploiter les formats et leur sémantique Facilité de créer/appeler de nouveaux services 6
  • 7. Quels types de données voulons-nous? Title : « brave new world » Date : 1954-09-23 Person : Place :  3 choses : Connaissance: entités, relations, attributs Occurrences : offsets/positions des entités dans le texte analysé Annotations : ensemble de métadonnées sur le document soumis (se référant aux entités de connaissance) 7
  • 8. CA Manager pipeline 1. Extraction 2. Consolidation 3. Stockage d’Information d’Information d’Information Découpe Nettoyer + Sérialise Extraire Contrôler Inférer Stocker r Fusionner r RegEx KCIT ITM Pellet RDF OWL ITM Sesame p 8
  • 9. Cas d’usage : annoter les artefacts logiciels Key Concept Identification Tool (KCIT) for automatic content augmentation: produces ontology-aware annotations automatically deals with term and morphological variations (list of documents, document list) deals with wide range of file formats and differently sized documents domain independent: easily used with different ontologies 9
  • 10. Challenges raised by software artefacts Customisation of generic Tokeniser for processing software artefacts: e.g. getDocumentName should be separated into get, Document, and Name tokens Customisation of generic Sentence Splitter JavaDoc: usually no punctuation marks 10
  • 11. Extract : Onto Root Gazetteer 11
  • 12. Validation des résultats 12
  • 13. KCIT évaluation: corpus Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE : 4 forum posts de la mailing liste GATE 3 java classes du source code de GATE 7 chapitres du guide utilisateur de GATE 3 publications sur la plateforme GATE 2 pages Web accessibles depuis le site Web http://gate.ac.uk 1 guide du développeur d’applications GATE 13
  • 14. KCIT évaluation: resultats 14
  • 15. CA Manager évaluation : résultats  Evaluation de la flexibilité et du passage à l’échelle de l’infrastructure offerte par le CA Manager  Evaluation de la performance des algorithmes de consolidation  Même corpus que pour l’évaluation de KCIT  Exemple : “movies.xml” 129 annotations générées par KCIT 46 instances de connaissances créées par le CA Manager 27 annotations sémantiques crées pour ce document au final Element type Number of Number of Number of Recall Precision F1-measure in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+ ontology elements (A) elements (B) elements (C) P) Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965  Difficultés à évaluer la performances en utilisant des 15 mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
  • 16. Conclusion  Avantages de cette infrastructure :  Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports  Cache la complexité d’UIMA si ce n’est pas nécessaire  Focalise sur la transmission et l’interprétation des résultats des outils d’extraction d’information aux référentiels sémantiques  Définit un Schéma d’annotation générique  Fournit un service (simple, à distance, architecture SOA)  Plug&play : possibilité d’écrire facilement un nouveau connecteur vers un outil externe (IE ou référentiel sémantique)  Démo en libre accès, comme un web service ou une interface de test, accessible à :  http://62.210.155.132/ca-test 16
  • 17. Travaux futurs project ontology corpus CA tool repository Terradata Architectural 3D objects DBPedia and ITM ontology (3D Geonames objects) web services VigiTermes Adverse Drug PubMed Luxid (Temis) ITM Effect ontology abstracts Eiffel Tourism Touristic TimeFrame ITM ontology web sites (Modyco, Univ Paris X) Microbio MiRNA ontology PubMed FunGen Sesame articles Discovery (INSERM) 17

×