• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur
 

Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur

on

  • 180 views

Journées ABES 2014 - 21 mai 2014 - Session "ISTEX et le Text and Data Mining" - ...

Journées ABES 2014 - 21 mai 2014 - Session "ISTEX et le Text and Data Mining" -
Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur - Mathieu Roche , CIRAD - UMR TETIS : "Le TDM côté chercheur : besoins, méthodologie et résultats". Une illustration du potentiel de la "fouille de texte" (TDM) appliquée à la recherche environnementale et de santé publique.

Statistics

Views

Total Views
180
Views on SlideShare
180
Embed Views
0

Actions

Likes
3
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur Journées ABES 2014 - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur Presentation Transcript

    • Pourquoi fouiller les publications scientifiques ? Mathieu Roche ABES - 21 mai 2014 1 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Plan 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 2 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les 3V du "Big Data" Volume : Données massives Variété : Données hétérogènes "syntaxiquement" et "sémantiquement" Vélocité : Données disponibles par flux Et encore plein d’autres V : Versatilité, Véracité, Visualisation, Valorisation, etc. 3 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Fouille de données 4 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 5 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Extraction/Acquisition Exploitation/Filtrage Processus de Fouille de Textes - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Données Textuelles Connaissances 6 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Les descripteurs linguistiques Exemple Il vend son bien de Montpellier 7 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Sélection des mots ayant une fonction grammaticale définie (par exemple, noms, verbes, adjectifs) → sélection des mots vend, bien et Montpellier Remarque : distinction du mot bien entre nom, adverbe et adjectif Exemple - Etiquetage Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/Prep Montpellier/NomPropre Principe de l’étiquetage grammatical (Brill’s tagger) : lexiques règles lexicales règles contextuelles 8 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du mot Rassemblement des mots d’une même famille présents sous forme fléchie : lemmatisation ou radicalisation → vend : vendre Ajout de connaissances sémantiques → vendre est lié au concept du Commerce Résolution anaphorique → remplacement du pronom 9 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Traitement linguistique du syntagme Des collocations aux syntagmes/termes Sens global déductible des unités composant le groupe (chapeau en paille) Connaissances sémantiques Connaissances syntaxiques (patrons ADJ-NOM, NOM-PREP-NOM, etc) Méthodes de TAL pour l’extraction de syntagmes/termes : linguistiques, statistiques, mixtes 10 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Résumé : du Corpus... aux descripteurs linguistiques Mais pour des personnes très spontanées ... Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ ... Etiquetage Extraction des descripteurs (par exemple, syntagmes) fichier clients conseiller clientèle front page assurance qualité logiciel ciel ... - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Corpus Nettoyage Normalisation Processus de Fouille de textes 11 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 12 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Recherche d’Information Première étape : représentation des textes... l’approche "sac de mots" Pondération statistique des descripteurs : TF, IDF, TF-IDF, 13 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) : But : déterminer les K plus proches voisins de textes à prédire Principe : La classe majoritaire propre à ces K plus proches voisins est choisie pour les textes à prédire (ou la classe majoritaire après pondération avec la mesure de similarité) Paramètres : La valeur K et la mesure de similarité (par exemple, la mesure cosinus) 14 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Deuxième étape : Application d’un algorithme d’apprentissage K plus proches voisins (KPPV) - Exemple : 15 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 16 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 17 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% 18 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Les descripteurs linguistiques La Recherche d’Information L’évaluation Précision = 9 10 = 90% / Rappel = 9 50 = 18% 19 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 20 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie corpus Cirad (∼15 Mo) corpus TETIS (∼500 Ko) Merci à la Délégation à l’Information Scientifique Technique du Cirad 21 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (1) Méthode Étape 1 : Extraction des candidats (méthode par patron) Étape 2 : Filtrage des candidats (méthode statistique) Mesure Web (fouille du Web) : WebDice(acro, def ) = 2×hits(acro,def ) hits(acro)+hits(def ) Exemple : WebDice(BSV , Banana streak virus) = 2×hits(”BSV ” AND ”Banana streak virus”) hits(”BSV ”)+hits(”Banana streak virus”) 22 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’acronymes dans les textes (2) Résultats (données Cirad) : Acronym Possible definition WebDice ATPSM Agricultural Trade Policy Simulation Model 1.3014 TYLCV Tomato yellow leaf curl virus 0.7167 NRPS NonRibosomal Peptide Synthetase 0.4423 CIAT Centro international de agricultura tropical 0.1408 ACMV African cassava mosaic virus 0.0970 CSSV Cacao swollen shoot virus 0.0245 VLE Virtual Laboratory Environment 0.0222 CLF Corynespora Leaf Fall 0.0208 BSV Banana streak virus 0.0053 BMR Bois Massif Reconstitué 0.0046 ER Ehrlichia ruminantium 0.0004 BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001 ASA Articulation du Semi-aride 0 MAE Mesures agrienvironnementales 0 [Roche, ISA workshop’2014] 23 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique d’Entités Spatiales (ES) dans les textes Utilisation de patrons d’extraction pour identifier des indicateurs spatiaux (orientation, distance, adjacence, inclusion, figure géométrique) des Entités Spatiales Absolues et Relatives [Kergosien et al., IJGIS’2014] 24 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (1) Travaux menés avec Sophie Fortuno, (Cirad, TETIS) Méthode Étape 1 : Extraction des candidats termes (méthodes linguistiques + statistiques) Exemple : "soft contact" vs. "soft contact lens" Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes + des ressources comme Agrovoc) 25 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (2) – Étape 1 [Lossio et al., IJKDB’2014] 26 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Étape 2 + prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO – Food and Agriculture Organization) 27 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Résultats quantitatifs [stage étudiants en informatique (Master IPS)] Corpus Cirad : 28% des termes simples / 12% des termes composés de BioTex sont présents dans Agrovoc Corpus TETIS : 25% des termes simples / 1% des termes composés de BioTex sont présents dans Agrovoc Résultats qualitatifs [stage étudiante "Ressources documentaires et bases de données"] Définition de critères de pertinence liés à l’indexation : sélectivité, objectivité, cohérence, indépendance contextuelle 28 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie • Identification automatique des termes dans les textes (3) – Résultats Exemples de termes (en français) : développement durable, sécurité alimentaire, croissance démographique, développement rural, aménagement du territoire, gouvernance territoriale, etc. Publication en Open Data (CKAN – Comprehensive Knowledge Archive Network) : Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3) publications Cirad associées (numéros) 29 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives 1 Introduction 2 Les algorithmes pour fouiller les documents Les descripteurs linguistiques La Recherche d’Information L’évaluation 3 La fouille des publications scientifiques au Cirad La recherche d’acronymes L’extraction d’entités spatiales L’extraction de la terminologie 4 Prospectives 30 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Veille d’épidémiologie animale : Comment détecter des signaux faibles dans la masse de données ? Croisement des publications avec d’autres types de données (dépêches, presse, tweets, etc.) 31 / 32
    • Introduction Les algorithmes pour fouiller les documents La fouille des publications scientifiques au Cirad Prospectives Remerciements Les chercheurs : Sophie Fortuno (Cirad, TETIS), Maguelonne Teisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan Antonio Lossio (LIRMM) Les documentalistes : Marie-Claude Deboin (Cirad), Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad), Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea) Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS - UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir 32 / 32