Your SlideShare is downloading. ×
Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Acfas 2013 - Comment publier sur le web sémantique : la méthode de Bio2RDF

204

Published on

Bio2RDF poster about using Talend at ACFAS 2013 in Québec

Bio2RDF poster about using Talend at ACFAS 2013 in Québec

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
204
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Contexte Avec la prolifération des bases de données publiques disponibles dans le domaine de la biologie moléculaire et de la génétique, l’intégration des données en bio-informatique est un problème fondamental. Malgré de nombreuses initiatives visant la création de bases de données intégrées des instituts internationaux tel que le NCBI américain, l’EBI européen et l’institut KEGG au Japon, l’espace de données actuels reste composé de silos indépendants. Depuis 2006 le projet Bio2RDF [http://bio2rdf.org] hébergé au Centre de recherche du CHUQ, a pour mission de rendre disponible à la communauté des chercheurs en sciences de la vie, un sous-ensemble des données publiques des domaines de la biologie moléculaire, de la génétique et de la médecin selon les principes du web sémantique énoncés par le W3C. Cette contribution au web de données (Linked Data) a obtenu une reconnaissance internationale est s’est avérée être un modèle qui a inspiré de nombreux autres projets de diffusion des connaissances en bio-informatique. Comment produire, publier et consommer des données sémantiques ? Comment profiter de ce vaste ensemble de données pour répondre à une question complexe ? Le potentiel de cette approche est illustré en répondant à la question Quel est le domaine de recherche du projet Bio2RDF ? Comment publier sur le web sémantique : la méthode de Bio2RDF François Belleau, Arnaud Droit Centre de Biologie Computationnelle Centre de recherche du CHUQ Renseignements ● Le projet Bio2RDF est disponible à l’adresse http://bio2rdf.org ● Les personnes intéressées peuvent joindre le groupe de discussion à l’adresse suivante : https://groups.google.com/forum/?fromgroups#!forum/bio2rdf ● Ce projet est sous la supervision du Dr Arnaud Droit, Directeur du Centre de Biologie Computationnelle du CRCHUQ à l’Université Laval. ● Mes remerciements aux membres de la communauté Bio2RDF et plus particulièrement à Marc-Alexandre Nolin and Peter Ansell, deux des développeurs initiaux. Figure 1) Le réseau des bases de données sémantiques en 2011, la section rose représente les données des sciences de la vie principalement constituée des ressources de Bio2RDF. [http://lod-cloud.net/] Figure 2.1) La page HTML présentant l’article sur Bio2RDF publié en 2008, dont le numéro de référence pubmed est le 18472304. Figure 2.2) Le processus Talend de transformation du document XML provenant du NCBI utilisé pour effectuer la conversion au format RDF. Produire du RDF en utilisant un ETL Les données du web sémantique sont diffusées sous la forme de triplets (sujet- prédicat-objet). Convertir des sources de données existantes aux formats variés (HTML, XML, SQL) en format RDF est une fonction clé du projet Bio2RDF. Pour accomplir cette tâche et après avoir exploré différents scénarios de conversion basés sur l’utilisation de plusieurs cadres de développement (JSP, Perl et PHP), le logiciel libre d’ETL, le logiciel Talend Integration Studio [http://www.talend.com], est désormais utilisé. Cette approche accélère le processus de programmation et améliore grandement le contrôle de qualité. Le processus de conversion d’un document Pubmed de format XML obtenu via le service REST eFetch au format RDF est illustré ici. Publier dans le web de données via REST Le projet Bio2RDF a appliqué dès ses débuts les quatre règles [http://www.w3.org/DesignIssues/LinkedData.html] du web sémantique énoncé par Tim Berner Lee pour mettre à la disposition des chercheurs 40 points de services SPARQL proposant les bases de données en bio-informatique les plus utilisées (Kegg, PDB, UniProt, etc.). À ces services SPARQL, s’ajoute les services REST d’accès qui reposent sur trois services essentiels utilisés dans la construction de processus de création d’un mashup : 1. Le service DESCRIBE retourne la définition d’une ressource en triplets; 2. Le service LINK permet d’obtenir la liste des références externes vers la ressource; 3. Le service SEARCH permet d’effectuer une recherche dans les littéraux du graphe. En utilisant le logiciel Talend ESB, une nouvelle version des services REST initiaux a été développée avec un minimum d’efforts de réalisation en consommant les services REST ou SOAP des fournisseurs de données. Il s’agit d’un modèle de programmation efficace et économique prometteur.Consommer du RDF pour construire un mashup Pour illustrer la capacité du modèle du web sémantique à répondre à une question complexe, on applique la stratégie suivante : construire une base de données spécialisée pour répondre à chaque question. Voici comment créer un mashup pour découvrir le domaine de recherche du projet Bio2RDF. Le processus de construction est le suivant : 1) rechercher sur Pubmed à l’aide du service SEARCH, les articles associés au mot clé ‘bio2rdf’ (6 résultats) 2) obtenir la liste des articles qui les ont cités à l’aide du service LINK (85 résultats); 3) obtenir la version RDF des métadonnées des 91 articles trouvés à l’aide du service DESCRIBE; 4) obtenir la définition des termes MeSH employés via le point de service SPARQL de Bio2RDF. Une fois les données obtenues, les charger dans un triplestore et exécuter la requête SPARQL qui répond à la question en exploitant le réseau sémantique composé des citations par les auteurs. Ce processus est entièrement automatisé avec un workflow Talend. La réponse à la question: Bio2RDF est un projet de ‘Factual Database and Semantics’ ce qui correspond bien à la réalité et ce qui n’avait pas été perçu par les annotateurs du NCBI lors de sa publication initiale en 2008. Conclusion Il a été démontré qu’en utilisant le logiciel d’ETL Talend, il est possible de publier efficacement et à faible coût des données scientifiques afin de contribuer à la construction du web sémantique scientifique. En consommant les triplets, nous avons illustré comment construire un mashup capable de répondre à des questions nécessitant l’intégration des données provenant de différentes sources. Le potentiel du web sémantique et des données ouvertes en science est prometteur, il ne s’agit que du début. Figure 2.3) La version RDF en format XML de la description de l’article où chaque élément d’information significatif a été transformé en triplet. Figure 3.1) La description du service REST pour Pubmed développé à l’aide de la suite Talend ESB. Figure 3.2) Le service REST de conversion au format RDF basés sur les services eFetch, eSearch et eLink du NCBI [http://www.ncbi.nlm.nih.gov/books/NBK25499]. Figure 4.3) La définition des termes MeSH qui répondent à la question. Figure 4.1) Le workflow Talend utilisé pour construire le mashup en consommant les services REST de Bio2RDF. Figure 4.2) La requête SPARQL pour obtenir la définition des mots clés les plus utilisés pour décrire le domaine de recherche de Bio2RDF.

×