SIFR : Indexation sémantique de ressources biomédicales francophones
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
SIFR
Indexation sémantique de ressources
biomédicales francophones
Laboratoire d'Informatique, de Robotique et de Microélectronique de
Montpellier (LIRMM)
Université Montpellier 2 & CNRS
Catalogue et Index des Sites Médicaux de langue Française (CISMeF)
CHU de Rouen
Stanford Center for Biomedical Informatics Research (BMIR)
Stanford University
4 ans
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Contexte: le volume de données en
biomédecine ne cesse de croître
• Limites de l’indexation par « mots-clefs »
• Les terminologies et les ontologies jouent un rôle
central
– Manque crucial d’outils et de services pour les
données francophones
• Challenge de l'intégration de données
biomédicales
– Nouvelles découvertes scientifiques par
rapprochement des différentes données disponibles
– Recherche translationelle
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Objectif: Exploiter les ontologies pour
l'indexation, la fouille, et la recherche de
données biomédicales françaises
• Obj1: Conception et développement d’un annotateur
francophone
• Obj2: Amélioration des approches et techniques
d’indexation sémantique
la reconnaissance de concept (NLP), les ontologies médicales
francophones, les distances sémantiques, le multilinguisme, les
alignements, l’enrichissment, le web de données
• Obj3: Valoriser les services pour la communauté
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Des portails d’ontologies/terminologies existants
mais pas interopérables
Financé par Financé par
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Un annotateur de texte biomedicaux
francophones
• Workflow de l’annotateur francophone
inspiré du NCBO Annotator
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Exploiter la sémantique des ontologies
biomédicales dans les applications orientées
utilisateurs
Les professionnels de
santé utiliserons
l’outil d’annotation
pour traiter
sémantiquement
leur données:
– Fouille,
– Recherche
d’information
– Décisionnel
– Intégration
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Une valorisation de chaque acteur pour aller
vers le haut
French organization with
ontologies/terminologies
French biomedical data
provider
Ontology translation
Semantic Indexing of French
data
Custom use cases
HMTP features and services
for the community
- French portal
- HMTP editing
- multilingual search
- search of Frenh data
resources
NCBO & BioPortal features
and services for the
community
- versioning
- URIs
- views & slices
- annotation workflow
- search of English data
resources
- REST services
- SPARQL endpoint
- visualization
- widgets
- community
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Interaction possible avec d’autres ANR
• Passées
– InterSTIS (ANR-07-TECSAN-010– www.interstis.org)
– ALADIN (ANR-08-TECS-001 – www.aladin-project.eu)
– L3IM (ANR-08-TECS-00 – http://projet4-
limbio.smbh.univ-paris13.fr)
• En cours
– RAVEL (ANR-11-TECS-0012)
– SIFADO (ANR-11-TECS-0014 )
– DataLift (ANR-10-CORD-0009 – http://datalift.org)
– TerSan (ANR-11-TECS-0019)
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Contact
• Pr. Stefan J. Darmoni, MD, PhD - terminologies médicales fr
• stefan.darmoni@chu-rouen.fr
• Pr. Mark Musen, MD, PhD - bio-ontologies, web sémantique
• musen@stanford.edu
• Mathieu Roche, PhD - TALN, fouille de texte
• roche@lirmm.fr
• Sandra Bringay, PhD - fouille de donnée
• bringay@lirmm.fr
• Francois Scharffe, PhD - Web sémantique, données liées
• scharffe@lirmm.fr
Personnes impliqués
• Clement Jonquet, PhD – web sémantique,
annotation, bio-ontologies
• jonquet@lirmm.fr
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Résumé du projet
Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces
données est en français. En général, le contenu textuel de ces ressources est indexé par mots-clefs pour permettre une recherche efficace mais
avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. L'intégration de données biomédicales et
l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du
rapprochement des différentes données disponibles (i.e., « translational research »). Les terminologies et les ontologies jouent un rôle central en
sciences de la vie pour structurer les données médicales et les rendre interopérables. En particulier, la communauté les utilise pour créer des index
sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent.
Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement
d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français,
particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques).
Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques
soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources
biomédicales françaises. Nous construirons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe
pour les ressources en anglais, mais spécialisé pour le Français. Ce sera le premier jalon de la création (dans de futurs projets) d’un index de
données qui permettra la recherche et la fouille sémantique et multilingue. Nous suivrons les visions scientifiques de la bio-informatique
translationnelle et du Web sémantique qui encouragent la découverte de nouvelles connaissances en regroupant et recombinant les
connaissances déjà existantes.
Le projet SIFR rassemble plusieurs jeunes chercheurs/chercheuses du LIRMM pour réaliser cet objectif. Clement Jonquet, 31 ans, maitre de
conférences à l’Université Montpellier 2 depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant
son postdoc de 3 ans à Stanford. Il sera accompagné de 3 jeunes chercheurs : Francois Scharffe (Web sémantique), Sandra Bringay (fouille de
donnée) and Dr. Mathieu Roche (TALN, fouille de texte). Des partenaires de très grande qualité sont également associés au projet : (i)°Stanford
BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances
biomédicales ; (ii)°le groupe CISMeF, leader national en services de terminologies pour la santé en France. En outre, d’autres partenaires
académiques et industriels ont également été identifiés et collaboreront à la valorisation concrète des résultats du projet en termes d'impact
scientifique et économique (e.g., Ontologos Corp, CNRS-INIST).
Bien sûr, nous capitaliserons sur le travail accompli depuis 16 ans en France, en particulier par le groupe CISMeF. Cependant, SIFR sera le premier
projet impliquant techniquement et financièrement un leader international comme BMIR et SIFR permettra l’implantation d’une nouvelle
thématique de recherche au LIRMM. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services
d'indexation hautement performants basés sur les ontologies leur permettant d’améliorer leur processus de production et de consommation de
données. Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en
biomédecine.