SIFR : Indexation sémantique de ressources biomédicales francophones

Kickoff meeting at ANR for JCJC projects 2013. Presented by Clement Jonquet. The project as it was selected originally.

SIFR : Indexation sémantique de ressources biomédicales francophones

  1. 1. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 SIFR Indexation sémantique de ressources biomédicales francophones Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM) Université Montpellier 2 & CNRS Catalogue et Index des Sites Médicaux de langue Française (CISMeF) CHU de Rouen Stanford Center for Biomedical Informatics Research (BMIR) Stanford University 4 ans
  2. 2. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Contexte: le volume de données en biomédecine ne cesse de croître • Limites de l’indexation par « mots-clefs » • Les terminologies et les ontologies jouent un rôle central – Manque crucial d’outils et de services pour les données francophones • Challenge de l'intégration de données biomédicales – Nouvelles découvertes scientifiques par rapprochement des différentes données disponibles – Recherche translationelle
  3. 3. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Objectif: Exploiter les ontologies pour l'indexation, la fouille, et la recherche de données biomédicales françaises • Obj1: Conception et développement d’un annotateur francophone • Obj2: Amélioration des approches et techniques d’indexation sémantique la reconnaissance de concept (NLP), les ontologies médicales francophones, les distances sémantiques, le multilinguisme, les alignements, l’enrichissment, le web de données • Obj3: Valoriser les services pour la communauté
  4. 4. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Des portails d’ontologies/terminologies existants mais pas interopérables Financé par Financé par
  5. 5. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Un annotateur de texte biomedicaux francophones • Workflow de l’annotateur francophone inspiré du NCBO Annotator
  6. 6. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Exploiter la sémantique des ontologies biomédicales dans les applications orientées utilisateurs Les professionnels de santé utiliserons l’outil d’annotation pour traiter sémantiquement leur données: – Fouille, – Recherche d’information – Décisionnel – Intégration
  7. 7. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Une valorisation de chaque acteur pour aller vers le haut French organization with ontologies/terminologies French biomedical data provider Ontology translation Semantic Indexing of French data Custom use cases HMTP features and services for the community - French portal - HMTP editing - multilingual search - search of Frenh data resources NCBO & BioPortal features and services for the community - versioning - URIs - views & slices - annotation workflow - search of English data resources - REST services - SPARQL endpoint - visualization - widgets - community
  8. 8. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Interaction possible avec d’autres ANR • Passées – InterSTIS (ANR-07-TECSAN-010– www.interstis.org) – ALADIN (ANR-08-TECS-001 – www.aladin-project.eu) – L3IM (ANR-08-TECS-00 – http://projet4- limbio.smbh.univ-paris13.fr) • En cours – RAVEL (ANR-11-TECS-0012) – SIFADO (ANR-11-TECS-0014 ) – DataLift (ANR-10-CORD-0009 – http://datalift.org) – TerSan (ANR-11-TECS-0019)
  9. 9. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Contact • Pr. Stefan J. Darmoni, MD, PhD - terminologies médicales fr • stefan.darmoni@chu-rouen.fr • Pr. Mark Musen, MD, PhD - bio-ontologies, web sémantique • musen@stanford.edu • Mathieu Roche, PhD - TALN, fouille de texte • roche@lirmm.fr • Sandra Bringay, PhD - fouille de donnée • bringay@lirmm.fr • Francois Scharffe, PhD - Web sémantique, données liées • scharffe@lirmm.fr Personnes impliqués • Clement Jonquet, PhD – web sémantique, annotation, bio-ontologies • jonquet@lirmm.fr
  10. 10. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Résumé du projet Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces données est en français. En général, le contenu textuel de ces ressources est indexé par mots-clefs pour permettre une recherche efficace mais avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. L'intégration de données biomédicales et l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du rapprochement des différentes données disponibles (i.e., « translational research »). Les terminologies et les ontologies jouent un rôle central en sciences de la vie pour structurer les données médicales et les rendre interopérables. En particulier, la communauté les utilise pour créer des index sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent. Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français, particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques). Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources biomédicales françaises. Nous construirons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français. Ce sera le premier jalon de la création (dans de futurs projets) d’un index de données qui permettra la recherche et la fouille sémantique et multilingue. Nous suivrons les visions scientifiques de la bio-informatique translationnelle et du Web sémantique qui encouragent la découverte de nouvelles connaissances en regroupant et recombinant les connaissances déjà existantes. Le projet SIFR rassemble plusieurs jeunes chercheurs/chercheuses du LIRMM pour réaliser cet objectif. Clement Jonquet, 31 ans, maitre de conférences à l’Université Montpellier 2 depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant son postdoc de 3 ans à Stanford. Il sera accompagné de 3 jeunes chercheurs : Francois Scharffe (Web sémantique), Sandra Bringay (fouille de donnée) and Dr. Mathieu Roche (TALN, fouille de texte). Des partenaires de très grande qualité sont également associés au projet : (i)°Stanford BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances biomédicales ; (ii)°le groupe CISMeF, leader national en services de terminologies pour la santé en France. En outre, d’autres partenaires académiques et industriels ont également été identifiés et collaboreront à la valorisation concrète des résultats du projet en termes d'impact scientifique et économique (e.g., Ontologos Corp, CNRS-INIST). Bien sûr, nous capitaliserons sur le travail accompli depuis 16 ans en France, en particulier par le groupe CISMeF. Cependant, SIFR sera le premier projet impliquant techniquement et financièrement un leader international comme BMIR et SIFR permettra l’implantation d’une nouvelle thématique de recherche au LIRMM. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services d'indexation hautement performants basés sur les ontologies leur permettant d’améliorer leur processus de production et de consommation de données. Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en biomédecine.

×