SlideShare a Scribd company logo
1 of 10
Download to read offline
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
SIFR
Indexation sémantique de ressources
biomédicales francophones
Laboratoire d'Informatique, de Robotique et de Microélectronique de
Montpellier (LIRMM)
Université Montpellier 2 & CNRS
Catalogue et Index des Sites Médicaux de langue Française (CISMeF)
CHU de Rouen
Stanford Center for Biomedical Informatics Research (BMIR)
Stanford University
4 ans
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Contexte: le volume de données en
biomédecine ne cesse de croître
• Limites de l’indexation par « mots-clefs »
• Les terminologies et les ontologies jouent un rôle
central
– Manque crucial d’outils et de services pour les
données francophones
• Challenge de l'intégration de données
biomédicales
– Nouvelles découvertes scientifiques par
rapprochement des différentes données disponibles
– Recherche translationelle
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Objectif: Exploiter les ontologies pour
l'indexation, la fouille, et la recherche de
données biomédicales françaises
• Obj1: Conception et développement d’un annotateur
francophone
• Obj2: Amélioration des approches et techniques
d’indexation sémantique
la reconnaissance de concept (NLP), les ontologies médicales
francophones, les distances sémantiques, le multilinguisme, les
alignements, l’enrichissment, le web de données
• Obj3: Valoriser les services pour la communauté
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Des portails d’ontologies/terminologies existants
mais pas interopérables
Financé par Financé par
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Un annotateur de texte biomedicaux
francophones
• Workflow de l’annotateur francophone
inspiré du NCBO Annotator
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Exploiter la sémantique des ontologies
biomédicales dans les applications orientées
utilisateurs
Les professionnels de
santé utiliserons
l’outil d’annotation
pour traiter
sémantiquement
leur données:
– Fouille,
– Recherche
d’information
– Décisionnel
– Intégration
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Une valorisation de chaque acteur pour aller
vers le haut
French organization with
ontologies/terminologies
French biomedical data
provider
Ontology translation
Semantic Indexing of French
data
Custom use cases
HMTP features and services
for the community
- French portal
- HMTP editing
- multilingual search
- search of Frenh data
resources
NCBO & BioPortal features
and services for the
community
- versioning
- URIs
- views & slices
- annotation workflow
- search of English data
resources
- REST services
- SPARQL endpoint
- visualization
- widgets
- community
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Interaction possible avec d’autres ANR
• Passées
– InterSTIS (ANR-07-TECSAN-010– www.interstis.org)
– ALADIN (ANR-08-TECS-001 – www.aladin-project.eu)
– L3IM (ANR-08-TECS-00 – http://projet4-
limbio.smbh.univ-paris13.fr)
• En cours
– RAVEL (ANR-11-TECS-0012)
– SIFADO (ANR-11-TECS-0014 )
– DataLift (ANR-10-CORD-0009 – http://datalift.org)
– TerSan (ANR-11-TECS-0019)
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Contact
• Pr. Stefan J. Darmoni, MD, PhD - terminologies médicales fr
• stefan.darmoni@chu-rouen.fr
• Pr. Mark Musen, MD, PhD - bio-ontologies, web sémantique
• musen@stanford.edu
• Mathieu Roche, PhD - TALN, fouille de texte
• roche@lirmm.fr
• Sandra Bringay, PhD - fouille de donnée
• bringay@lirmm.fr
• Francois Scharffe, PhD - Web sémantique, données liées
• scharffe@lirmm.fr
Personnes impliqués
• Clement Jonquet, PhD – web sémantique,
annotation, bio-ontologies
• jonquet@lirmm.fr
ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013
Résumé du projet
Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces
données est en français. En général, le contenu textuel de ces ressources est indexé par mots-clefs pour permettre une recherche efficace mais
avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. L'intégration de données biomédicales et
l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du
rapprochement des différentes données disponibles (i.e., « translational research »). Les terminologies et les ontologies jouent un rôle central en
sciences de la vie pour structurer les données médicales et les rendre interopérables. En particulier, la communauté les utilise pour créer des index
sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent.
Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement
d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français,
particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques).
Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques
soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources
biomédicales françaises. Nous construirons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe
pour les ressources en anglais, mais spécialisé pour le Français. Ce sera le premier jalon de la création (dans de futurs projets) d’un index de
données qui permettra la recherche et la fouille sémantique et multilingue. Nous suivrons les visions scientifiques de la bio-informatique
translationnelle et du Web sémantique qui encouragent la découverte de nouvelles connaissances en regroupant et recombinant les
connaissances déjà existantes.
Le projet SIFR rassemble plusieurs jeunes chercheurs/chercheuses du LIRMM pour réaliser cet objectif. Clement Jonquet, 31 ans, maitre de
conférences à l’Université Montpellier 2 depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant
son postdoc de 3 ans à Stanford. Il sera accompagné de 3 jeunes chercheurs : Francois Scharffe (Web sémantique), Sandra Bringay (fouille de
donnée) and Dr. Mathieu Roche (TALN, fouille de texte). Des partenaires de très grande qualité sont également associés au projet : (i)°Stanford
BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances
biomédicales ; (ii)°le groupe CISMeF, leader national en services de terminologies pour la santé en France. En outre, d’autres partenaires
académiques et industriels ont également été identifiés et collaboreront à la valorisation concrète des résultats du projet en termes d'impact
scientifique et économique (e.g., Ontologos Corp, CNRS-INIST).
Bien sûr, nous capitaliserons sur le travail accompli depuis 16 ans en France, en particulier par le groupe CISMeF. Cependant, SIFR sera le premier
projet impliquant techniquement et financièrement un leader international comme BMIR et SIFR permettra l’implantation d’une nouvelle
thématique de recherche au LIRMM. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services
d'indexation hautement performants basés sur les ontologies leur permettant d’améliorer leur processus de production et de consommation de
données. Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en
biomédecine.

More Related Content

Similar to SIFR : Indexation sémantique de ressources biomédicales francophones

Capital Transfert Aquitaine Valo
Capital Transfert Aquitaine ValoCapital Transfert Aquitaine Valo
Capital Transfert Aquitaine ValoPhilippe GORRY
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017Bertrand Tavitian
 
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTTERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTJean-Charles Dron
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...ABES
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...Le_GFII
 
Gallois chambefort valoriser la collecte des archives de la recherche
Gallois chambefort valoriser la collecte des archives de la rechercheGallois chambefort valoriser la collecte des archives de la recherche
Gallois chambefort valoriser la collecte des archives de la rechercheAssociationAF
 
OpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiquesOpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiquesopenminted_eu
 
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Le_GFII
 
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilitéASIP Santé
 
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...AssociationAF
 
Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Desconnets Jean-Christophe
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...Institut National Polytechnique de Toulouse
 
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...Ne3LS_Network
 

Similar to SIFR : Indexation sémantique de ressources biomédicales francophones (20)

Capital Transfert Aquitaine Valo
Capital Transfert Aquitaine ValoCapital Transfert Aquitaine Valo
Capital Transfert Aquitaine Valo
 
9 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_20179 30 fandre-dist_cnrs_piv_2017
9 30 fandre-dist_cnrs_piv_2017
 
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CTTERMINOLOGIE MÉDICALE LOINC & SNOMED CT
TERMINOLOGIE MÉDICALE LOINC & SNOMED CT
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - " ISIDO...
 
Introduction au Plan de Gestion de Données
Introduction au Plan de Gestion de DonnéesIntroduction au Plan de Gestion de Données
Introduction au Plan de Gestion de Données
 
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
L'Intelligence Technologique comme composante du pilotage scientifique de l'U...
 
Gallois chambefort valoriser la collecte des archives de la recherche
Gallois chambefort valoriser la collecte des archives de la rechercheGallois chambefort valoriser la collecte des archives de la recherche
Gallois chambefort valoriser la collecte des archives de la recherche
 
OpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiquesOpenMinTeD - Une infrastructure text-mining au service des scientifiques
OpenMinTeD - Une infrastructure text-mining au service des scientifiques
 
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
Open Mining Infratsructure for TExt & Data : une infrastructure text-mining a...
 
Communication Archives Ouvertes
Communication Archives OuvertesCommunication Archives Ouvertes
Communication Archives Ouvertes
 
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité
20171123 5 etude de mise en oeuvre de terminologies_séminaire interopérabilité
 
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
Le cahier de laboratoire électronique à l’Inserm : changement de pratiques, c...
 
ED VAS 2016 Pour une recherche bibliographique efficace
ED VAS 2016 Pour une recherche bibliographique efficaceED VAS 2016 Pour une recherche bibliographique efficace
ED VAS 2016 Pour une recherche bibliographique efficace
 
ISTséance1
ISTséance1ISTséance1
ISTséance1
 
Presentation jeudistv2
Presentation jeudistv2Presentation jeudistv2
Presentation jeudistv2
 
Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...L'offre de services numériques du SCD de l'Institut National Polytechnique de...
L'offre de services numériques du SCD de l'Institut National Polytechnique de...
 
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...
Charles-Anica Endo – Avancement des travaux du réseau Ne3LS et annonce des pr...
 
Projet Nextic
Projet NexticProjet Nextic
Projet Nextic
 

More from INRAE (MISTEA) and University of Montpellier (LIRMM)

More from INRAE (MISTEA) and University of Montpellier (LIRMM) (20)

Ontology repositories and case study with OntoPortal
Ontology repositories and case study with OntoPortalOntology repositories and case study with OntoPortal
Ontology repositories and case study with OntoPortal
 
Ontology Repositories and Semantic Artefact Catalogues with the OntoPortal Te...
Ontology Repositories and Semantic Artefact Catalogues with the OntoPortal Te...Ontology Repositories and Semantic Artefact Catalogues with the OntoPortal Te...
Ontology Repositories and Semantic Artefact Catalogues with the OntoPortal Te...
 
Semantic artefact and ontology services for long-term data interpretation
Semantic artefact and ontology services for long-term data interpretationSemantic artefact and ontology services for long-term data interpretation
Semantic artefact and ontology services for long-term data interpretation
 
O’FAIRe: Ontology FAIRness Evaluator in the AgroPortal semantic resource rep...
O’FAIRe: Ontology FAIRness Evaluator in theAgroPortal semantic resource rep...O’FAIRe: Ontology FAIRness Evaluator in theAgroPortal semantic resource rep...
O’FAIRe: Ontology FAIRness Evaluator in the AgroPortal semantic resource rep...
 
Presentation OntoCommons Workshop March 2021
Presentation OntoCommons Workshop March 2021Presentation OntoCommons Workshop March 2021
Presentation OntoCommons Workshop March 2021
 
Presentation FAIRsFAIR workshop (June 2021)
Presentation FAIRsFAIR workshop (June 2021)Presentation FAIRsFAIR workshop (June 2021)
Presentation FAIRsFAIR workshop (June 2021)
 
Presentation FAIRsFAIR workshop (April 2020)
Presentation FAIRsFAIR workshop (April 2020)Presentation FAIRsFAIR workshop (April 2020)
Presentation FAIRsFAIR workshop (April 2020)
 
Tutorial: “How to use ontology repositories and ontology–based services”
Tutorial: “How to use ontology repositories and ontology–based services”Tutorial: “How to use ontology repositories and ontology–based services”
Tutorial: “How to use ontology repositories and ontology–based services”
 
Mastering an ontology & vocabulary management technology in France ?
Mastering an ontology & vocabulary management technology in France ?Mastering an ontology & vocabulary management technology in France ?
Mastering an ontology & vocabulary management technology in France ?
 
Portail d’ontologies et annotation sémantique de texte - Application en biomé...
Portail d’ontologies et annotation sémantique de texte - Application en biomé...Portail d’ontologies et annotation sémantique de texte - Application en biomé...
Portail d’ontologies et annotation sémantique de texte - Application en biomé...
 
FAIR data requires FAIR ontologies, how do we do?
FAIR data requires FAIR ontologies, how do we do?FAIR data requires FAIR ontologies, how do we do?
FAIR data requires FAIR ontologies, how do we do?
 
AgroPortal : a vocabulary and ontology repository for agronomy, plant science...
AgroPortal : a vocabulary and ontology repository for agronomy, plant science...AgroPortal : a vocabulary and ontology repository for agronomy, plant science...
AgroPortal : a vocabulary and ontology repository for agronomy, plant science...
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
 
About the use of biomedical ontologies to play with text in the context of th...
About the use of biomedical ontologies to play with text in the context of th...About the use of biomedical ontologies to play with text in the context of th...
About the use of biomedical ontologies to play with text in the context of th...
 
Challenges for ontology repositories and applications to biomedicine and agro...
Challenges for ontology repositories and applications to biomedicine and agro...Challenges for ontology repositories and applications to biomedicine and agro...
Challenges for ontology repositories and applications to biomedicine and agro...
 
Presentation AgroPortal
Presentation AgroPortalPresentation AgroPortal
Presentation AgroPortal
 
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
A few contributions of the SIFR (Semantic Indexing of French biomedical Resou...
 
AgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domainAgroPortal : a proposition for ontology- based services in the agronomic domain
AgroPortal : a proposition for ontology- based services in the agronomic domain
 
Roadmap for a multilingual BioPortal
Roadmap for a multilingual BioPortalRoadmap for a multilingual BioPortal
Roadmap for a multilingual BioPortal
 
Presentation Sommet iPad en education 2014 Polytech Montpellier
Presentation Sommet iPad en education 2014 Polytech MontpellierPresentation Sommet iPad en education 2014 Polytech Montpellier
Presentation Sommet iPad en education 2014 Polytech Montpellier
 

SIFR : Indexation sémantique de ressources biomédicales francophones

  • 1. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 SIFR Indexation sémantique de ressources biomédicales francophones Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM) Université Montpellier 2 & CNRS Catalogue et Index des Sites Médicaux de langue Française (CISMeF) CHU de Rouen Stanford Center for Biomedical Informatics Research (BMIR) Stanford University 4 ans
  • 2. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Contexte: le volume de données en biomédecine ne cesse de croître • Limites de l’indexation par « mots-clefs » • Les terminologies et les ontologies jouent un rôle central – Manque crucial d’outils et de services pour les données francophones • Challenge de l'intégration de données biomédicales – Nouvelles découvertes scientifiques par rapprochement des différentes données disponibles – Recherche translationelle
  • 3. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Objectif: Exploiter les ontologies pour l'indexation, la fouille, et la recherche de données biomédicales françaises • Obj1: Conception et développement d’un annotateur francophone • Obj2: Amélioration des approches et techniques d’indexation sémantique la reconnaissance de concept (NLP), les ontologies médicales francophones, les distances sémantiques, le multilinguisme, les alignements, l’enrichissment, le web de données • Obj3: Valoriser les services pour la communauté
  • 4. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Des portails d’ontologies/terminologies existants mais pas interopérables Financé par Financé par
  • 5. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Un annotateur de texte biomedicaux francophones • Workflow de l’annotateur francophone inspiré du NCBO Annotator
  • 6. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Exploiter la sémantique des ontologies biomédicales dans les applications orientées utilisateurs Les professionnels de santé utiliserons l’outil d’annotation pour traiter sémantiquement leur données: – Fouille, – Recherche d’information – Décisionnel – Intégration
  • 7. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Une valorisation de chaque acteur pour aller vers le haut French organization with ontologies/terminologies French biomedical data provider Ontology translation Semantic Indexing of French data Custom use cases HMTP features and services for the community - French portal - HMTP editing - multilingual search - search of Frenh data resources NCBO & BioPortal features and services for the community - versioning - URIs - views & slices - annotation workflow - search of English data resources - REST services - SPARQL endpoint - visualization - widgets - community
  • 8. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Interaction possible avec d’autres ANR • Passées – InterSTIS (ANR-07-TECSAN-010– www.interstis.org) – ALADIN (ANR-08-TECS-001 – www.aladin-project.eu) – L3IM (ANR-08-TECS-00 – http://projet4- limbio.smbh.univ-paris13.fr) • En cours – RAVEL (ANR-11-TECS-0012) – SIFADO (ANR-11-TECS-0014 ) – DataLift (ANR-10-CORD-0009 – http://datalift.org) – TerSan (ANR-11-TECS-0019)
  • 9. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Contact • Pr. Stefan J. Darmoni, MD, PhD - terminologies médicales fr • stefan.darmoni@chu-rouen.fr • Pr. Mark Musen, MD, PhD - bio-ontologies, web sémantique • musen@stanford.edu • Mathieu Roche, PhD - TALN, fouille de texte • roche@lirmm.fr • Sandra Bringay, PhD - fouille de donnée • bringay@lirmm.fr • Francois Scharffe, PhD - Web sémantique, données liées • scharffe@lirmm.fr Personnes impliqués • Clement Jonquet, PhD – web sémantique, annotation, bio-ontologies • jonquet@lirmm.fr
  • 10. ANR SIFR - JCJC 2012 – C. Jonquet – 24 Janvier 2013 Résumé du projet Le volume de données en biomédecine ne cesse de croître. En dépit d'une large adoption de l'anglais en sciences, une quantité significative de ces données est en français. En général, le contenu textuel de ces ressources est indexé par mots-clefs pour permettre une recherche efficace mais avec des limites évidentes : synonymes, polysémie, utilisation des connaissances du domaine. L'intégration de données biomédicales et l'interopérabilité sémantique sont indispensables pour permettre de nouvelles découvertes scientifiques qui pourraient émerger du rapprochement des différentes données disponibles (i.e., « translational research »). Les terminologies et les ontologies jouent un rôle central en sciences de la vie pour structurer les données médicales et les rendre interopérables. En particulier, la communauté les utilise pour créer des index sémantiques, destinés à améliorer la recherche et la fouille de données grâce aux connaissances médicales que ces ontologies formalisent. Cependant, outre l'existence de nombreuses ressources en anglais, il y a beaucoup moins d'ontologies en français et il manque crucialement d'outils et de services pour les exploiter. Cette lacune contraste avec le montant considérable de données biomédicales produites en français, particulièrement dans le monde clinique (e.g., dossiers médicaux électroniques). Le projet ‘Semantic Indexing of French Biomedical Data Resources’ (SIFR) a pour objectif de résoudre les défis scientifiques et techniques soulevés pour exploiter les ontologies dans la construction de services d'indexation, de fouille, et de recherche de données pour les ressources biomédicales françaises. Nous construirons un workflow d'indexation basé sur les ontologies (i.e., French Annotator) similaire à celui qui existe pour les ressources en anglais, mais spécialisé pour le Français. Ce sera le premier jalon de la création (dans de futurs projets) d’un index de données qui permettra la recherche et la fouille sémantique et multilingue. Nous suivrons les visions scientifiques de la bio-informatique translationnelle et du Web sémantique qui encouragent la découverte de nouvelles connaissances en regroupant et recombinant les connaissances déjà existantes. Le projet SIFR rassemble plusieurs jeunes chercheurs/chercheuses du LIRMM pour réaliser cet objectif. Clement Jonquet, 31 ans, maitre de conférences à l’Université Montpellier 2 depuis Sept. 2010, coordonnera le projet et capitalisera sur l’expérience dans le domaine acquise durant son postdoc de 3 ans à Stanford. Il sera accompagné de 3 jeunes chercheurs : Francois Scharffe (Web sémantique), Sandra Bringay (fouille de donnée) and Dr. Mathieu Roche (TALN, fouille de texte). Des partenaires de très grande qualité sont également associés au projet : (i)°Stanford BMIR, un leader mondial en outils et services –anglais– basés sur les ontologies pour aider la construction de systèmes à base de connaissances biomédicales ; (ii)°le groupe CISMeF, leader national en services de terminologies pour la santé en France. En outre, d’autres partenaires académiques et industriels ont également été identifiés et collaboreront à la valorisation concrète des résultats du projet en termes d'impact scientifique et économique (e.g., Ontologos Corp, CNRS-INIST). Bien sûr, nous capitaliserons sur le travail accompli depuis 16 ans en France, en particulier par le groupe CISMeF. Cependant, SIFR sera le premier projet impliquant techniquement et financièrement un leader international comme BMIR et SIFR permettra l’implantation d’une nouvelle thématique de recherche au LIRMM. SIFR offrira à la communauté biomédicale (e.g., cliniciens, professionnels de santé, chercheurs) des services d'indexation hautement performants basés sur les ontologies leur permettant d’améliorer leur processus de production et de consommation de données. Ce projet placera la France dans une position clé pour mener de futurs projets Européens sur des questions de données multilingues en biomédecine.