Variation corpus

1,210 views
1,073 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,210
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
15
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Variation corpus

  1. 1. Terminologie et corpus : la question du genre et de la variation Myriam Bouveret (DYALANG) Anne Condamines (ERSS) Valérie Delavigne (DYALANG) Pierre Zweigenbaum (DIAM/SIM) Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  2. 2. Introduction <ul><li>le corpus permet de construire des ressources langagières de types différents (glossaires, index, terminologies, thésaurus, ontologies…) </li></ul><ul><li>mais le corpus est aussi en soi une ressource langagière à considérer en amont </li></ul><ul><li>des corpus, méthodes, ressources adaptées aux applications, utilisateurs </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  3. 3. Sens / signification <ul><li>Ce déplacement en linguistique renvoie à la question de la signification </li></ul><ul><li>Linguistique et informatique ont une base logique commune qui a permis de travailler sur le sens </li></ul><ul><li>Nécessité de trouver de nouvelles bases entre linguistique et informatique reposant sur la signification (cf. Slodzian 2000) </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  4. 4. Contexte, variation, genre <ul><li>On pose ici le problème du sens en contexte : variation et genre pour des ressources crées à partir de textes </li></ul><ul><li>le genre, une sorte de variation </li></ul><ul><li>Un texte n’est pas normé, il est produit selon un genre (ex : comptes rendus médicaux, résumés de thèse, fiches de dégustation, etc…) </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  5. 5. 2. La variation <ul><li>« La variation mesure un décalage entre une forme lexicalisée et son usage » (Slodzian 2000 :75) </li></ul><ul><li>Le sens n’est pas figé. Synonymie et polysémie comme variation inhérente à la langue naturelle </li></ul><ul><li>Cas de variation : variation sémantique (polysémie, synonymie), variantes morphologiques et variation multilingue </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  6. 6. Variation sémantique et morphologique Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet exemples extraits du corpus LLI, Laboratoire de linguistique et d'informatique de l'université de Montréal Sortie 1 la sortie des informations output process Sortie 2 la sortie imprimée output data Sortie 3 la sortie du logiciel  computer output Sortie 4 la sortie plug
  7. 7. Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Terme instrument localisation résultat mémoriser mémoire formater format indexation index impression imprimante imprimé
  8. 8. TAL: Différents aspects de la variation Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Terme entré Terme de référence Flexion Aberrations chromosomiques Aberration chromosomique Dérivation Sténose valve aorte Sténose aortique valvulaire Syntaxe (+ dérivation) Adénome de la prostate Adénome prostatique
  9. 9. Sémantique Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Terme entré Terme de référence Synonymes Appareil Derme Dispositif Corium Co-référents Canal de Cuvier Veine cardinale commune
  10. 10. Genre et variation lexicale <ul><li>Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique </li></ul><ul><li>Une dimension du genre est le public visé </li></ul><ul><li>Exemple: grand public vs spécialistes </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Crise cardiaque Infarctus du myocarde Rhume Rhinopharyngite
  11. 11. Genre et variation morphologique <ul><li>Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique </li></ul><ul><li>Cas: productivité des adjectifs dérivés dans des corpus médicaux (hématologie) </li></ul><ul><li>Exemple: dérivés en – al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  12. 12. Genre et variation syntaxique <ul><li>Les outils de TAL ont des performances qui varient avec le genre des textes </li></ul><ul><li>L’étiquetage morpho-syntaxique (GRACE) diffère selon le genre: HEUR et Brill-Limsi </li></ul><ul><li>Exemple :journaux, mémoires, romans et essais. Performances homogènes sauf pour mémoires </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  13. 13. 3. La question du genre <ul><li>Problématique </li></ul><ul><ul><li>Caractériser les textes au-delà de leur contenu </li></ul></ul><ul><ul><li>Prendre en compte la situation de production d’un texte </li></ul></ul><ul><ul><li>Genre influe sur les ressources terminologiques </li></ul></ul><ul><ul><ul><li>ex : légitimité /illégitimité des textes de vulgarisation </li></ul></ul></ul><ul><li>Définition </li></ul><ul><ul><li>Comportement discursif observable par des régularités langagières auxquelles les locuteurs obéissent (Bahktine) </li></ul></ul><ul><ul><li>Compétence métalinguistique. </li></ul></ul><ul><ul><li>Normes: horizon d’attente, modèle de création </li></ul></ul><ul><ul><li>Descriptions insuffisantes: droit, génie génétique, physique nucléaire, art pariétal… </li></ul></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  14. 14. Une typologie des genres est-elle possible ? <ul><li>Tentatives nombreuses: r hétorique classique,champ littéraire, institution scolaire. Mais : </li></ul><ul><ul><ul><li>Multiplication des situations possibles </li></ul></ul></ul><ul><ul><ul><li>Classes trop générales </li></ul></ul></ul><ul><ul><ul><li>Hétérogénéité des genres (ex: écrit vs oral) </li></ul></ul></ul><ul><ul><ul><li>Plusieurs genres dans un même texte </li></ul></ul></ul><ul><ul><ul><li>Diversité des critères descriptifs (action sociale, fonctionnement rhétorique, situations énonciatives, finalité du discours, situation sociale, types d’interaction, actes de langage…) </li></ul></ul></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  15. 15. Marqueurs de reformulation <ul><li>Un exemple: les marqueurs des discours de vulgarisation </li></ul><ul><ul><li>indice fort : importance du métalangage </li></ul></ul><ul><ul><ul><li>juxtaposition, coordination, verbes ( être , appeler , nommer , signifier , désigner …) </li></ul></ul></ul><ul><ul><ul><li>expressions métalinguistiques ( c'est-à-dire , autrement dit, en d’autres termes …), joncteurs ( ou, soit …) </li></ul></ul></ul><ul><li>- Mais </li></ul><ul><ul><ul><li>Marqueurs non spécifiques </li></ul></ul></ul><ul><ul><ul><li>Tous les textes de vulgarisation ne portent pas ces marques </li></ul></ul></ul><ul><ul><ul><li>Certains textes spécialisés les portent </li></ul></ul></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  16. 16. Marqueurs de relation <ul><li>Marqueur d’anaphorique a permis de repérer 44 génériques (cf. Aussenac, Condamines et Szulman 2000) </li></ul><ul><ul><li>Exemple: Archivage de l’état de configuration logiciel. Cette activité… </li></ul></ul><ul><li>Ces génériques apparaissent comme têtes de termes complexes: acteur, activité, composant, processus </li></ul><ul><li>Hypothèse: si plus fréquents dans textes non spécialistes on peut utiliser ces génériques pour constituer des ressources terminologiques s’adressant à des non-spécialistes </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  17. 17. Conclusion <ul><li>Pistes pour une étude de la variation </li></ul><ul><ul><li>Outils d’extraction cf. Syntex </li></ul></ul><ul><ul><li>Patterns d’extraction </li></ul></ul><ul><ul><li>Marqueurs de genre </li></ul></ul><ul><ul><li>Modèles de ressources flexibles : intégrant la variation. Nature du sens ? </li></ul></ul><ul><ul><li>Modèles de ressources économiques : indexant la variation </li></ul></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  18. 18. Pistes: des marqueurs de genre <ul><li>Quelles questions poser pour typifier les genres ? </li></ul><ul><li>Comment exploiter les outils existants pour étudier des genres ? Ex, Biber utilise les concordanciers pour une étude des marques discursives (« study of discourse characteristics » Biber, Conrad and Reppen, 1998 :106) </li></ul><ul><li>Des marqueurs grand public/spécialisé  ? </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  19. 19. Pistes: des dimensions du genre <ul><li>Difficultés de caractériser les genres (ex Web, mémoires) </li></ul><ul><li>On peut utiliser des traits ou des dimensions différentielles </li></ul><ul><li>Exemple: dimensions externes (destinataire, objectif) et dimensions internes (style, factualité, technicité) cf.Sinclair (EAGLES), Biber </li></ul>Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet
  20. 20. Bibliographie Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet Assadi H.et Bourigault D., 2000, « Analyse syntaxique et statistique pour la construction d’ontologies à partir de textes », in Actes d’IC 2000, Ingénierie des connaissances , Toulouse 2002, Eyrolles, 243-256   Aussenac, Condamines et Szulman, à paraître, « Prise en compte de l’application dans la constitution de produits terminologiques »   Biber D., Conrad S. and Reppen R., 1998, Corpus Linguistics. Investigating language stucture and use , Cambridge University Press   Biber D., 1994, “Representativeness in corpus design. Linguistica Computazionale, IX-X:377-408”. Current Issues in Computational Linguistics: in honor of Don Walker .   Condamines A. et Rebeyrolles J., 2000, « Construction d’une BCT à partir de textes : expérimentation d’une méthdoe », in Actes d’IC 2000, Ingénierie des connaissances , Toulouse 2002, Eyrolles, 191-206   Delavigne V. et Bouveret M. (Ed.), 2000, Sémantique des termes , Dyalang, Publications de l’Université de Rouen   Grabar et Zweigenbaum, à paraître, « Productivité à travers domaines et genres : dérivés adjectivaux et langue médicale », Langue française Illouz G., « Typage de données textuelles et adaptation des traitements linguistiques. Application à l’annotation morpho-syntaxique », thèse de l’Université de Paris XI, 2000   Illouz G ; 1999, « Méta-étiqueteurs adaptatif : vers une utilisation pragmatique des ressources linguistiques », Actes de TALN 99 , (Pascal Amsili coord.), 185-194, ATALA Cargèse Sinclair J., 1996, « Preliminary Recommendations on Text Typology , document en ligne ( http://nicolet.ilc.pi.cnr.it/EAGLES/texttyp/texttyp.html ), EAGLES (Expert Advisory Group on Language Engineering Standards)   Slodzian M., 2000, « L’émergence d’une terminologie textuelle et le retour du sens », in Béjoint et Thoiron 2000, Le sens en terminologie , Duculot-Aupelf, 61-85   Zweigenbaum P. et Grabar N., « Liens morphologiques et structuration de terminologie », in Actes d’IC 2000, Ingénierie des connaissances , Toulouse 2002, Eyrolles, 325-334

×