Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique - Presentation Transcript

    1. Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique IC Inès Jilani (SPIM) 2009 Florence Amardeilh(MoDyCo) Projet STIC-AMSUD Microbio
    2. Contexte 1  Maîtrise des techniques de séquençage du génome  Explosion des données et des connaissances La littérature est la source de données et de connaissances la plus importante. Le travail des annotateurs est assuré manuellement.  Besoin d’outils automatiques
    3. Projet Microbio  Programme STIC-AMSUD  Collaboration avec l’Institut Pasteur de Montevideo (Uruguay)  Recherche de connaissances sur les miARN: ARN simple-brin (21 à 24 nucléotides) qui s'apparient à des ARN messagers, ils guident leur dégradation, ou la répression de leur traduction en protéine, entraînant l’apparition ou au contraire l'inhibition de maladies
    4. Problématique Microbio  Phases du projet Microbio : 1. Construire une ontologie de domaine sur les miARNs 1. Identifier et extraire les mutations et les régulations impliquant des miARNs  Identifier l’information modale pour enrichir la connaissance extraite des textes bio-médicaux  Fournir aux biologistes des interfaces pour explotier la basede connaissance ainsi générée
    5. Construction manuelle d’une ontologie de domaine  A partir de :  la littérature scientifique bio-médicale  Les bases de données existantes sur les gènes, les maladies, les miARN, les mutations, etc.  Les modélisation de terminologies ou d’ontologies existantes se rapprochant du sujet de notre étude (Gene Ontology, Sequence Ontologgy, …)  Entretiens avec les biologistes de l’IP¨Uruguay  Modélisation d’une ontologie au sujet des régulations et des mutations entre miARN et mARN
    6. Ontologie Microbio Extension de la « Sequence Ontology » pour prendre en compte les spécificités des miARN
    7. Validation de l’ontologie miARN  En cours par les biologistes de l’IP  Travail également en cours :  création semi-automatique d’une ontologie des miARNs à partir des corpus issus de MedLine  Comparaison des deux ontologies pour leur validation et enrichissement potentiel
    8. Matériel pour l’extraction de connaissances  Pubmed: portail de Medline1  Règles surlignées par l’expert biologiste 1 www.ncbi.nlm.nih.gov/entrez/
    9. Matériel pour l’extraction de connaissances  Terminologies utilisées pour construire les dictionnaires
    10. Corpus collecté  Requête: SNPs [MH] AND miRNAs [MH] AND human [MH]  Résultat: 35 articles dont 21 disponibles en entier (533 853 tokens pour une taille de 2,2 Mo)
    11. Méthode d’extraction  Patrons de tri/quadri-occurrence:
    12. Evaluation de la tâche de Peuplement de l’ontologie  Résultats de l’extraction de connaissances sur les miARN:  35 annotations différentes extraites automatiquement  Evaluation: 30 annotations étaient à retrouver (annotations réalisées manuellement par l’expert biologiste)  Précision = 25/35 = 0,72  Rappel = 15/30 = 0,50
    13. Discussion sur l’évaluation  Rappel relativement bas: pas de prise en compte des variantes morphologiques des maladies par exemple.  L’outil ne détecte pas une phrase qui contient « lung cancers » car notre dictionnaire n’inclut que les formes au singulier « lung cancer ».  Le chiffre de la précision souffre de la synonymie des noms de gènes avec les noms propres, ou des acronymes utilisés pour référencer des techniques en biologie.
    14. Mise en place du processus de peuplement de l’ontologie  Utilisation de l’infrastructure offerte par le CA Manager  Outil d’extraction d’information « miR Discovery » exploitant les patrons présentés  Référentiel sémantique : Sesame  Définition des règles d’acquisition de connaissance pour exprimer le passage des informations extraites en instances de connaissances  Définition des algorithmes de consolidation pour fsiltrer et améliorer les résultats obtenus par l’extraction
    15. Conclusion et travaux futurs  Améliorer la performance de l’outil d’extraction et continuer le développement de sa couverture  Achever les connecteurs au serveur de connaissance Sesame (via le CA Manager) et ajouter l’enrichissement automatique à partir d’autres sources de données accessibbles par web services  Fournir des informations de confiance aux biologistes concernant les nouvelles instances créées dans la base de connaissance (information sur les relations identifiées entre les entités, preuves de l’expérimentation, etc.) grâce à l’information modale pouvant être identifiée dans les textes analysés
    SlideShare Zeitgeist 2009

    + Conférence IC 2009Conférence IC 2009 Nominate

    custom

    206 views, 0 favs, 0 embeds more stats

    Présentation d'Ines Jilani et Florence Amardeilh more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 206
      • 206 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 3
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories

    Tags