Traduction assist´ee par ordinateur et corpus
comparables
Conf´erence invit´ee : Prix de th`ese ATALA 2014
Estelle Delpech...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Contexte
Lingua et Machina logiciels de Traduction ...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
La Traduction Assist´ee par Ordinateur (TAO)
TAO Te...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Mat´eriau de base : historique de traductions (corp...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Limite des corpus parall`eles
Disponibilit´e
nouvea...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR can...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR can...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
7 / 41
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction d...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction d...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction d...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction d...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Objectifs de la th`ese
1. ´Evaluer l’int´erˆet des ...
Traduction assist´ee par ordinateur et corpus comparables
Introduction
Plan
1. M´ethode classique d’extraction de lexiques...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
1. M´ethode classique d’extraction de lexiques bilingues `a part...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
2. ´Evaluation applicative des lexiques bilingues destin´es `a l...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionne...
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Plan
1. M´ethode classique d’extraction de lexiques b...
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Peut-on utiliser les corpus comparables pour extraire...
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Tr`es ambitieux en l’´etat actuel
Lexique obtenu tr`e...
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives I
Peu utile pour la phase de traduction ...
Traduction assist´ee par ordinateur et corpus comparables
Conclusion
Perspectives II
Conclusion : aider `a l’exploration d...
Merci pour votre attention
Slides compl´ementaires
Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Donn´ees ´evaluation
S termes sources
R r´ef´ere...
Traduction assist´ee par ordinateur et corpus comparables
Taille donn´ees
Lexiques ´evaluation
EN-FR EN-DE
1839 1824
Table...
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : m´ethodes ...
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : r´esultats...
G´en´ericit´e I
C PE UE PEA UEA
Composition savante (18%) ,03 ,95 ,03 1 ,03
Cognat ,13 ,66 ,08 ,81 ,10
Composition populai...
G´en´ericit´e II
C PE UE PEA UEA
Composition savante (18%) ,03 ,96 ,02 ,98 ,02
Cognat ,10 ,58 ,06 ,66 ,07
Composition popu...
Traduction assist´ee par ordinateur et corpus comparables
Apport mod`ele g´en´erique
G´en´ericit´e du mod`ele : discussion...
Traduction assist´ee par ordinateur et corpus comparables
Apport ressources linguistiques
Apport des ressources linguistiq...
Ressources linguistiques I
C PE UE PEA UEA
Base ,16 ,73 ,12 ,77 ,12
Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21
Bas...
Ressources linguistiques II
C PE UE PEA UEA
Base ,15 ,60 ,09 ,63 ,10
Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16
Ba...
Traduction assist´ee par ordinateur et corpus comparables
Apport traductions fertiles
Apport des traductions fertiles
Trad...
Traductions fertiles I
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,75 ,18
Traductions fertiles ,24 ,52 ,12 ,55 ,...
Traductions fertiles II
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,69 ,16
Traductions fertiles ,20 ,26 ,05 ,30 ...
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Nombre de traductions candidates
56 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
Donn´ees exp´erimentales
57 / 41
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats
Comparaison des crit`eres :
Cont...
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ fran¸cais
Top1 Top2 To...
Traduction assist´ee par ordinateur et corpus comparables
Exp´eriences ranking
R´esultats anglais ¡ allemand
Top1 Top2 Top...
Traduction assist´ee par ordinateur et corpus comparables
R´ef´erences
Principales publications
Th`ese
FR Delpech (2013) :...
R´ef´erences I
Baker, M. (1996).
Corpus-based translation studies: The challenges that lie ahead.
In Somers, H., editor, T...
R´ef´erences II
Delpech, E. (2011a).
Evaluation of terminologies acquired from comparable corpora : an application perspec...
R´ef´erences III
Friedbichler, I. and Friedbichler, M. (1997).
The potential of domain-specific target-language corpora for...
R´ef´erences IV
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphoseman...
Upcoming SlideShare
Loading in...5
×

Invited speaker, ATALA 2014 Ph. D. Thesis award

357

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
357
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Invited speaker, ATALA 2014 Ph. D. Thesis award

  1. 1. Traduction assist´ee par ordinateur et corpus comparables Conf´erence invit´ee : Prix de th`ese ATALA 2014 Estelle Delpech Responsable scientifique, Nomao www.nomao.com/labs Travaux de th`ese effectu´es au LINA sous la direction de B. Daille et E. Morin TALN’14 – 2 juillet 2014 – Marseille, France
  2. 2. Traduction assist´ee par ordinateur et corpus comparables Introduction Contexte Lingua et Machina logiciels de Traduction Assist´ee par Ordinateur et Traduction Automatique [Brown de Colstoun et al., 2011] ANR Metricc exploitation des corpus comparables pour: recherche d’information interlingue cat´egorisation multilingue traduction assist´ee par ordinateur 2 / 41
  3. 3. Traduction assist´ee par ordinateur et corpus comparables Introduction La Traduction Assist´ee par Ordinateur (TAO) TAO Technologies permettant aux humains de mieux traduire pr´e-traduction logiciels de gestion terminologique m´emoires de traduction = TA Traduction sans intervention humaine 3 / 41
  4. 4. Traduction assist´ee par ordinateur et corpus comparables Introduction Mat´eriau de base : historique de traductions (corpus parall`ele) 4 / 41
  5. 5. Traduction assist´ee par ordinateur et corpus comparables Introduction Limite des corpus parall`eles Disponibilit´e nouveaux domaines ? langues peu dot´ees ? Risque qualitatif Partie Cible : variante de la langue cible appel´ee translecte (“translationese”) [Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007] 5 / 41
  6. 6. Traduction assist´ee par ordinateur et corpus comparables Introduction Solution possible : corpus comparables Texte FR cancer du sein Texte EN cancer du sein Ipsen is participating in studies conducted under the auspices of the IBCSG for the treatment of premenopausal breast cancer. These studies compare conventional treatment methods with hormone therapy combining Decapeptyl R with estrogen suppressor agents. Their findings could lead to a revision of treatment guidelines for breast cancer in pre-menopausal women expressing hormonal receptors. Hormonoth´erapie Dans environ deux tiers des cancers du sein, les cellules canc´ereuses pr´esentent des r´ecepteurs hormonaux en exc`es. La tumeur est alors dite hormonosensible car les œstrog`enes stimulent la prolif´eration canc´ereuse par l’interm´ediaire des r´ecepteurs. Les traitements agiront soit en diminuant le taux d’œstrog`enes dans le sang, soit en bloquant les r´ecepteurs hormonaux 6 / 41
  7. 7. Traduction assist´ee par ordinateur et corpus comparables Introduction Solution possible : corpus comparables Texte FR cancer du sein Texte EN cancer du sein Ipsen is participating in studies conducted under the auspices of the IBCSG for the treatment of premenopausal breast cancer. These studies compare conventional treatment methods with hormone therapy combining Decapeptyl R with estrogen suppressor agents. Their findings could lead to a revision of treatment guidelines for breast cancer in pre-menopausal women expressing hormonal receptors. Hormonoth´erapie Dans environ deux tiers des cancers du sein, les cellules canc´ereuses pr´esentent des r´ecepteurs hormonaux en exc`es. La tumeur est alors dite hormonosensible car les œstrog`enes stimulent la prolif´eration canc´ereuse par l’interm´ediaire des r´ecepteurs. Les traitements agiront soit en diminuant le taux d’œstrog`enes dans le sang, soit en bloquant les r´ecepteurs hormonaux 6 / 41
  8. 8. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables 7 / 41
  9. 9. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] 7 / 41
  10. 10. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] 7 / 41
  11. 11. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] Traduction non assist´ee am´eliorations qualitatives [Zanettin, 1998, Friedbichler and Friedbichler, 1997, Mc Enery and Xiao, 2007] 7 / 41
  12. 12. Traduction assist´ee par ordinateur et corpus comparables Introduction Exploitation des corpus comparables TA extraction de lexiques pour l’adaptation au domaine : +0.02 `a 0.03 BLEU [Carpuat et al., 2012] CLIR augmentation du lexique bilingue utilis´e par le syst`eme de RI : +0.016 MAP [Li et al., 2011] Traduction non assist´ee am´eliorations qualitatives [Zanettin, 1998, Friedbichler and Friedbichler, 1997, Mc Enery and Xiao, 2007] TAO ? 7 / 41
  13. 13. Traduction assist´ee par ordinateur et corpus comparables Introduction Objectifs de la th`ese 1. ´Evaluer l’int´erˆet des corpus comparables pour la TAO 2. Am´eliorer/Proposer des modalit´es d’exploitation pour la TAO 8 / 41
  14. 14. Traduction assist´ee par ordinateur et corpus comparables Introduction Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 9 / 41
  15. 15. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 10 / 41
  16. 16. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables M´ethode d’extraction classique 11 / 41
  17. 17. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires 12 / 41
  18. 18. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} 12 / 41
  19. 19. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  20. 20. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} {instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...} biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  21. 21. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables Alignement par similarit´e contextuelle Premiers travaux : [Rapp, 1999, Fung, 1997] Hypoth`ese distributionnelle : deux mots de sens proche tendent `a apparaˆıtre dans des contextes similaires biallelic : {instability: 5.14, tamoxifen: 2.13, cell-type: 2.1 ...} {instabilit´e: 5.14, tamoxif`ene: 2.13, ?: 2.1 ...} calcul similarit´e : 0.34 biall´elique : {instabilit´e: 5.78, traitement: 6.33, tamoxif`ene: 1.2 ...} 12 / 41
  22. 22. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances 13 / 41
  23. 23. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates 13 / 41
  24. 24. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 13 / 41
  25. 25. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 Difficult´e (vs. corpus parall`eles) : espace de recherche tr`es vaste traduction peut ˆetre absente 13 / 41
  26. 26. Traduction assist´ee par ordinateur et corpus comparables 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables ´Evaluation et performances Pr´ecision sur le TopN : % de termes avec un traduction correcte parmi les N premi`eres traductions candidates Corpus sp´ecialis´es <700k mots : 41% `a 76% sur Top20 Difficult´e (vs. corpus parall`eles) : espace de recherche tr`es vaste traduction peut ˆetre absente ´Evaluation par r´ef´erence : capacit´e `a reproduire un lexique construit a priori quid de l’apport en contexte d’utilisation r´eel ? 13 / 41
  27. 27. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 14 / 41
  28. 28. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Lexique ´evalu´e Extrait d’un corpus comparable cancer du sein EN-FR Interface riche [Delpech and Daille, 2010]: acc`es aux contextes, recherche en corpus, variantes orthographiques, termes proches, fr´equence, etc. 15 / 41
  29. 29. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine M´ethodologie d’´evaluation [Delpech, 2011a, Delpech, 2011b] 16 / 41
  30. 30. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine M´ethodologie d’´evaluation Objet ´evalu´e : expressions probl´ematiques Mesure : % de traductions exactes, acceptables, fausses 17 / 41
  31. 31. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine R´esultats 18 / 41
  32. 32. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances 19 / 41
  33. 33. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus 19 / 41
  34. 34. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions 19 / 41
  35. 35. Traduction assist´ee par ordinateur et corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine Difficult´es d’usage et r´esistances Trop de termes sources non couverts ⇒ collecte du corpus Pas assez d’information pour choisir la bonne traduction ⇒ contextualiser les traductions Pas assez pr´ecis, trop de traductions candidates ⇒ diminuer le nombre de traductions ⇒ approche compositionnelle [Morin and Daille, 2010] 19 / 41
  36. 36. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 20 / 41
  37. 37. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe 21 / 41
  38. 38. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” 21 / 41
  39. 39. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} 21 / 41
  40. 40. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} 21 / 41
  41. 41. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} Recomposition {AB, BA} {bleu colorant, colorant bleu} 21 / 41
  42. 42. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Principe “ab” “blue dye” D´ecomposition {a, b} {blue, dye} Traduction {A, B} {bleu, colorant} Recomposition {AB, BA} {bleu colorant, colorant bleu} S´election “BA” “colorant bleu” 21 / 41
  43. 43. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables 22 / 41
  44. 44. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes 22 / 41
  45. 45. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20 [Morin and Daille, 2010] 22 / 41
  46. 46. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Int´erˆet pour les corpus comparables Peu/pas d´ependant de la fr´equence des termes Meilleure pr´ecision : 88% sur Top1 vs. 20% sur Top20 [Morin and Daille, 2010] Concerne de nombreux cas : 60% des nouveaux termes sont complexes [Namer and Baud, 2007] 48,7% des compos´es Nom Nom ont une traduction compositionnelle [?] 75,1% des unit´es polylexicales ont une traduction compositionnelle [Robitaille et al., 2006] 22 / 41
  47. 47. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation 23 / 41
  48. 48. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique 23 / 41
  49. 49. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique 23 / 41
  50. 50. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : 23 / 41
  51. 51. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] 23 / 41
  52. 52. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] [ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] : alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri} 23 / 41
  53. 53. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Gestion de la variation Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010] gene therapy ¡ th´erapie g´enique Divergence lexicale [Robitaille et al., 2006, ˇS. Vintar, 2010] machine translation ¡ traduction automatique Fertilit´e : compos´es nominaux allemands ¡ SN [Weller et al., 2011] [ML] compos´es n´eoclassiques [Claveau and Kijak, 2011] : alignements de type 菌 ¡ {bact´erie, bact´erio, bact´eri} ⇒ Am´eliorer le traitement de la fertilit´e dans l’approche compositionnelle 23 / 41
  54. 54. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions 24 / 41
  55. 55. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash 24 / 41
  56. 56. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash ´Equivalence morph`eme li´e → morph`eme libre tumorectomy ¡ ablation (de la) tumeur randomly ¡ (de) mani`ere randomis´ee postm´enopause ¡ apr`es (la) m´enopause 24 / 41
  57. 57. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e [Delpech et al., 2012b] Propositions D´ecoupage en morph`emes antioxydant ¡ anti+oxydant mouthwash ¡ mouth+wash ´Equivalence morph`eme li´e → morph`eme libre tumorectomy ¡ ablation (de la) tumeur randomly ¡ (de) mani`ere randomis´ee postm´enopause ¡ apr`es (la) m´enopause Ne pas n´ecessairement conserver la fronti`ere de morph`eme : mouth+wash ¡ bain (de) bouche 24 / 41
  58. 58. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e Limite : fertilit´e “de surface” (bijection entre morph`emes sources et cibles) 25 / 41
  59. 59. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Traitement de la fertilit´e Limite : fertilit´e “de surface” (bijection entre morph`emes sources et cibles) trait´e non trait´e 25 / 41
  60. 60. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees 26 / 41
  61. 61. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] 26 / 41
  62. 62. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] 26 / 41
  63. 63. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] 26 / 41
  64. 64. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] 26 / 41
  65. 65. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] 26 / 41
  66. 66. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] compos´e nominal ¡ compos´e nominal ou SN [Weller et al., 2011] 26 / 41
  67. 67. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Travaux existants Structures trait´ees SN ¡ SN [Robitaille et al., 2006, L´eon, 2008] N N ¡ N N [Baldwin and Tanaka, 2004] N Adj ¡ N Adj ou N N [Morin and Daille, 2010] compos´e n´eoclassique ¡ compos´e n´eoclassique [Harastani, 2014] pr´efix´e ¡ pr´efix´e [Cartoni, 2009] compos´e nominal ¡ compos´e nominal ou SN [Weller et al., 2011] ⇒ Am´eliorer la g´en´ericit´e 26 / 41
  68. 68. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e 27 / 41
  69. 69. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e Pas d’a priori sur les structures : pas de patrons de traductions 27 / 41
  70. 70. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Am´elioration de la g´en´ericit´e Pas d’a priori sur les structures : pas de patrons de traductions Approche par “force brute”: g´en´eration de toutes les traductions possibles filtrage sur le corpus cible + ranking 27 / 41
  71. 71. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  72. 72. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  73. 73. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  74. 74. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  75. 75. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  76. 76. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  77. 77. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  78. 78. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  79. 79. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  80. 80. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle G´en´eration [Delpech et al., 2012a] 28 / 41
  81. 81. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule 29 / 41
  82. 82. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule 29 / 41
  83. 83. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule Projection corpus : “...substance est toxique pour les cellules de cancer...” “...m´edicaments toxiques pour la cellule canc´ereuse...” 29 / 41
  84. 84. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Filtrage cytotoxic ↓ toxique cellule ↓ toxique (prep|det|num|conj){0,3} cellule Projection corpus : “...substance est toxique pour les cellules de cancer...” “...m´edicaments toxiques pour la cellule canc´ereuse...” ⇒toxique/Adj pour/Prep le/Det cellule/Nom 29 / 41
  85. 85. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Ranking multi-crit`eres [Delpech et al., 2012a] C similarit´e des Contextes source et cible F Fr´equence traduction P probabilit´e traduction Parties du discours M fiabilit´e Modes de traduction Combinaison : C + F + P + M apr`es standardisation 30 / 41
  86. 86. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  87. 87. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  88. 88. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  89. 89. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE Unit´es monolexicales morphologiquement complexes compos´es n´eoclassiques : tumorectomy compos´es populaires : docetaxel-induced pr´efix´es : anti-oestrogen suffix´es : colourless 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  90. 90. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle Exp´erimentation Corpus cancer du sein EN FR DE1, 400k mots par langue Traduction EN¡ FR et EN ¡ DE Unit´es monolexicales morphologiquement complexes compos´es n´eoclassiques : tumorectomy compos´es populaires : docetaxel-induced pr´efix´es : anti-oestrogen suffix´es : colourless S´election : non traduites par le dictionnaire bilingue traduction non pr´esente dans le corpus cible 1 en collaboration avec Claire Lemaire, Universit´e Stendhal, Grenoble 31 / 41
  91. 91. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] 32 / 41
  92. 92. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] A priori utilisation d’un lexique de r´ef´erence id´eal pour comparaison ´evaluation du rappel ⇒ vision biais´ee des performances en situation d’utilisation : traduction se trouve dans la partie cible 32 / 41
  93. 93. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori vs. a posteriori [Ozdowska, 2006] A priori utilisation d’un lexique de r´ef´erence id´eal pour comparaison ´evaluation du rappel ⇒ vision biais´ee des performances en situation d’utilisation : traduction se trouve dans la partie cible A posteriori annotation des sorties par des juges plus subjectif seuls couverture et pr´ecision ´evaluables ⇒ plus fid`ele `a la performances en situation d’utilisation 32 / 41
  94. 94. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori R´esultats UMLS R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .52 .80 .65 .75 .61 EN-DE .51 .70 .53 .58 .54 33 / 41
  95. 95. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori R´esultats UMLS R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .52 .80 .65 .75 .61 EN-DE .51 .70 .53 .58 .54 UMLS + annotations juges, ex. : bioavailable ¡ biodisponibilit´e R Pmax P@1 al´ea P@1 rank F1 @1 rank EN-FR .63 .95 .92 .95 .76 EN-DE .66 .89 .81 .87 .75 33 / 41
  96. 96. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a priori Travaux similaires Compositionnelle P R F1 [Robitaille et al., 2006] SN .81 .82 .81 [Baldwin and Tanaka, 2004] N N .51 .47 .49 + trad. acceptables .78 .72 .75 [Cartoni, 2009] pr´efix´es .42-.94 [Morin and Daille, 2010] N ADJ .88 .13 .23 [Harastani, 2014] n´eoclassique .95-1 .2-.12 .5-.22 ML P R F1 [Claveau and Kijak, 2011] n´eoclassique .63 .45 .53 + autres ressources .89 .64 .74 34 / 41
  97. 97. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori 35 / 41
  98. 98. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : 35 / 41
  99. 99. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision 35 / 41
  100. 100. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) 35 / 41
  101. 101. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) 35 / 41
  102. 102. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) R´esultats : C P U EN-FR .40 .59 .24 EN-DE .36 .48 .18 35 / 41
  103. 103. Traduction assist´ee par ordinateur et corpus comparables 3. Extraction de lexiques bilingues par l’approche compositionnelle ´Evaluation a posteriori Mesures : Pr´ecision Couverture % termes sources avec au moins 1 traduction (qq soit sa qualit´e) Utilisabilit´e % termes sources avec au moins 1 traduction correcte (C× P) R´esultats : C P U EN-FR .40 .59 .24 EN-DE .36 .48 .18 PA UA .69 .28 .56 .20 35 / 41
  104. 104. Traduction assist´ee par ordinateur et corpus comparables Conclusion Plan 1. M´ethode classique d’extraction de lexiques bilingues `a partir de corpus comparables 2. ´Evaluation applicative des lexiques bilingues destin´es `a la traduction humaine 3. Extraction de lexiques bilingues par l’approche compositionnelle Conclusion 36 / 41
  105. 105. Traduction assist´ee par ordinateur et corpus comparables Conclusion Peut-on utiliser les corpus comparables pour extraire des lexiques bilingues utiles pour les traducteurs ? Approche par similarit´e contextuelle : forte couverture mais lexiques trop ambigus Approche compositionnelle : r´eduit le nombre de traductions mais cantonn´ee aux ´el´ements avec traduction compositionnelle 20% `a 28% avec une traduction correcte 37 / 41
  106. 106. Traduction assist´ee par ordinateur et corpus comparables Conclusion Tr`es ambitieux en l’´etat actuel Lexique obtenu tr`es r´eduit ou trop ambigu Difficile d’augmenter le corpus th´ematique fine, forte comparabilit´e peu de textes sp´ecialis´es Difficult´e inh´erente aux corpus comparables : seulement une partie du vocabulaire en commun 38 / 41
  107. 107. Traduction assist´ee par ordinateur et corpus comparables Conclusion Perspectives I Peu utile pour la phase de traduction proprement dite Utile pour : phase d’exploration / familiarisation avec le domaine [Durieux, 2010] assistance `a la consistution de ressources lexicales sp´ecialis´ees/terminologiques 39 / 41
  108. 108. Traduction assist´ee par ordinateur et corpus comparables Conclusion Perspectives II Conclusion : aider `a l’exploration de corpus comparables extraction, alignement de contextes pertinents outils de recherche avanc´es, concordanciers travailler avec les traducteurs/terminologues : automatiser les techniques Projet ANR CRISTAL : extraction de contextes riches en connaissance dans les corpus comparables (LINA, Lingua et Machina, CLLE-ERSS, FTI) 40 / 41
  109. 109. Merci pour votre attention
  110. 110. Slides compl´ementaires
  111. 111. Traduction assist´ee par ordinateur et corpus comparables Taille donn´ees Donn´ees ´evaluation S termes sources R r´ef´erence a priori P r´ef´erence a posteriori R ∩ P = ∅ T donn´ees apprentissage rankking T = P R E donn´ees ´evaluation du mod ranking E = P ∩ R 43 / 41
  112. 112. Traduction assist´ee par ordinateur et corpus comparables Taille donn´ees Lexiques ´evaluation EN-FR EN-DE 1839 1824 Table: Termes sources `a traduire EN-FR EN-DE 126 ¡ 163 90 ¡ 104 Table: Lexique ´evaluation a priori EN-FR EN-DE 730 ¡ 2129 654 ¡ 2016 Table: Lexique ´evaluation a posteriori 44 / 41
  113. 113. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : m´ethodes test´ees Pr´efixation : pretreatment ¡ pr´e-traitement Composition savante : hypercalcaemia ¡ hypercalc´emie Composition populaire : acute-phase ¡ Akutphase, akuten Phase Cognat : t-test ¡ t-Test 45 / 41
  114. 114. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : r´esultats Composition savante, pr´efixation : m´ethodes tr`es pr´ecises (>0.92) mais petite couverture (<0.03) Composition populaire : petite couverture, moyennement pr´ecise (0.62 `a 0.65) Cognats : meilleure couverture (0.10 `a 0.13), pr´ecision moyenne `a bonne (0.66 `a 0.81) Notre m´ethode : large couverture : 0.36 `a 0.40 pr´ecision moyenne : 0.68 `a 0.56 utilisabilit´e meilleure : 0.20 `a 0.28 vs. cognats 0.07 `a 0.10 46 / 41
  115. 115. G´en´ericit´e I C PE UE PEA UEA Composition savante (18%) ,03 ,95 ,03 1 ,03 Cognat ,13 ,66 ,08 ,81 ,10 Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03 Pr´efixation (31%) ,02 ,90 ,02 ,97 ,02 Notre m´ethode ,40 ,59 ,24 ,69 ,28 Table: anglais ¡ fran¸cais
  116. 116. G´en´ericit´e II C PE UE PEA UEA Composition savante (18%) ,03 ,96 ,02 ,98 ,02 Cognat ,10 ,58 ,06 ,66 ,07 Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03 Pr´efixation (32%) ,03 ,86 ,02 ,92 ,03 Notre m´ethode ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  117. 117. Traduction assist´ee par ordinateur et corpus comparables Apport mod`ele g´en´erique G´en´ericit´e du mod`ele : discussion Variation morphologique : pretreatment ¡ pr´etraiter, cardiotoxicity¡ cardiotoxique, time-consuming ¡ consommateur de temps Fertilit´e : pretreatment ¡ avant le traitement, hypercalcaemia ¡ zu viel calcium in das blut Cognats : aromatase-inhibiting ¡ hemmung der aromatase‘inhibition de l’aromatase’ Suffixes : colorless ¡ sans colorant, randomly ¡ (de) mani`ere randomis´ee Strat´egie de repli : ribosome ¡ ribosomique 49 / 41
  118. 118. Traduction assist´ee par ordinateur et corpus comparables Apport ressources linguistiques Apport des ressources linguistiques Syst`eme de base : dictionnaire g´en´eraliste et table de traduction des morph`emes Synonymes : pas adapt´es (bloodstream ¡ courant sanguin ¡ circulation sanguine) Familles morphologiques : +0.09 `a 0.11 de couverture ; +0.04 `a 0.06 d’utilisabilit´e Cognats : + 0.12 de couverture ; +0.06 `a 0.09 d’utilisabilit´e Combinaison : + 0.17 `a 0.24 couverture ; +0.10 `a 0.16 utilisabilit´e 50 / 41
  119. 119. Ressources linguistiques I C PE UE PEA UEA Base ,16 ,73 ,12 ,77 ,12 Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21 Base + familles morphologiques ,27 ,56 ,15 ,66 ,18 Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13 Toutes les ressources ,40 ,59 ,24 ,69 ,28 Table: anglais ¡ fran¸cais
  120. 120. Ressources linguistiques II C PE UE PEA UEA Base ,15 ,60 ,09 ,63 ,10 Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16 Base + familles morphologiques ,24 ,48 ,12 ,57 ,14 Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10 Toutes les ressources ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  121. 121. Traduction assist´ee par ordinateur et corpus comparables Apport traductions fertiles Apport des traductions fertiles Traductions fertiles nettement moins pr´ecises (-0.20 `a -0.39) Combinaison aux traductions non fertiles int´eressante (+6 `a 10 points utilisabilit´e) 53 / 41
  122. 122. Traductions fertiles I C PE UE PEA UEA Traductions non fertiles ,24 ,58 ,14 ,75 ,18 Traductions fertiles ,24 ,52 ,12 ,55 ,13 Traductions non fertiles ,24 ,58 ,14 ,75 ,18 Toutes les traductions ,40 ,59 , 24 ,69 ,28 Table: anglais ¡ fran¸cais
  123. 123. Traductions fertiles II C PE UE PEA UEA Traductions non fertiles ,24 ,58 ,14 ,69 ,16 Traductions fertiles ,20 ,26 ,05 ,30 ,06 Traductions non fertiles ,24 ,58 ,14 ,69 ,16 Toutes les traductions ,36 ,48 ,17 ,56 ,20 Table: anglais ¡ allemand
  124. 124. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking Nombre de traductions candidates 56 / 41
  125. 125. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking Donn´ees exp´erimentales 57 / 41
  126. 126. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats Comparaison des crit`eres : Contextes : moins bon crit`ere (0.80 `a 0.88 Top1) Fiabilit´e des modes de traduction : meilleur crit`ere (0.82 `a 0.93 Top1) Meilleures m´ethodes (0.85 `a 0.93, +5 `a 9 points vs. al´eatoire, Top1) : Combinaison non pond´er´ee Combinaison pond´er´ee Coordinate Ascent, AdaRank 58 / 41
  127. 127. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats anglais ¡ fran¸cais Top1 Top2 Top3 RPM Meilleure pr´ecision possible ,94 ,94 ,94 1 Combinaison non pond´er´ee ,928 ,94 ,94 2 Combinaison pond´er´ee ,928 ,94 ,94 2 Coordinate Ascent ,928 ,94 ,94 2 Lambda MART ,928 ,94 ,94 2 M ,928 ,94 ,94 2 F ,916 ,928 ,94 3 AdaRank ,892 ,904 ,928 4 P ,892 ,904 ,928 4 C ,88 ,904 ,928 4 Al´eatoire ,836 ,898 ,928 13 59 / 41
  128. 128. Traduction assist´ee par ordinateur et corpus comparables Exp´eriences ranking R´esultats anglais ¡ allemand Top1 Top2 Top3 RPM Meilleure pr´ecision possible ,879 ,879 ,879 1 Combinaison pond´er´ee ,848 ,879 ,879 2 Lambda MART ,848 ,864 ,864 5 Combinaison non pond´er´ee ,833 ,864 ,879 3 Coordinate Ascent ,833 ,864 ,879 3 F ,833 ,848 ,879 3 AdaRank ,833 ,848 ,848 17 P ,833 ,848 ,848 17 M ,818 ,864 ,879 3 C ,803 ,864 ,864 28 Al´eatoire ,77 ,832 ,846 28 60 / 41
  129. 129. Traduction assist´ee par ordinateur et corpus comparables R´ef´erences Principales publications Th`ese FR Delpech (2013) : “Traduction assist´ee par ordinateur et corpus comparables”, Th`ese de doctorat en Informatique, Universit´e de Nantes, France, 265 pages. EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE Wiley, London, 287 pages. ´Evaluation applicative FR, long Delpech (2011) : “Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee”, Revue des Nouvelles Technologies de l’Information (RNTI), vol. RNTI-E-22, pp. 23–48. EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora: an Application Perspective”, Proc. of the 18th Nordic Conference of Computational Linguistics (NODALIDA), pp. 66–73, Riga, Lettonie. G´en´eration de lexiques bilingues EN, Fertilit´e Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable Corpora”, 10th biennial Conference of the Association for Machine Translation in the Americas (AMTA’12), 10 pages, San Diego, CA. EN,G´en´eration+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon from comparable corpora: compositional translation and ranking”, Proc. of the 24th International Conference on Computational Linguistics, Long papers (COLING’12), pp. 745–762, Mumbia, India. 61 / 41
  130. 130. R´ef´erences I Baker, M. (1996). Corpus-based translation studies: The challenges that lie ahead. In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour of Juan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, ´Etats-Unis d’Am´erique. Baldwin, T. and Tanaka, T. (2004). Translation by machine of complex nominals. In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31, Barcelona, Spain. Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011). Libellex : une plateforme multiservices pour la gestion des contenus multilingues. In Lafourcade, M. and Prince, V., editors, Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, volume 2, page 319, Montpellier, France. Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan, J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012). Domain adaptation in machine translation: Final report. In 2012 Johns Hopkins Summer Workshop Final Report. derni`ere consultation le 01/02/2013. Cartoni, B. (2009). Lexical morphology in machine translation: A feasibility study. In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Ath`enes, Gr`ece. Claveau, V. and Kijak, E. (2011). Morphological analysis of biomedical terminology with Analogy-Based alignment. In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011, pages 347–354, Hissar, Bulgaria.
  131. 131. R´ef´erences II Delpech, E. (2011a). Evaluation of terminologies acquired from comparable corpora : an application perspective. In Pedersen B.S., Ne˘spore G., S. I., editor, Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia. Delpech, E. (2011b). Un protocole d’´evaluation applicative des terminologies bilingues destin´ees `a la traduction sp´ecialis´ee. Revue des Nouvelles Technologies de l’Information (RNTI) - Num´ero sp´ecial : Evaluation des m´ethodes d’Extraction de Connaissances dans les Donn´ees (Eval’ECD). Delpech, E. and Daille, B. (2010). Dealing with lexicon acquired from comparable corpora : validation and exchange. In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages 211–223, Dublin, Ireland. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a). Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation and ranking. In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai, Inde. Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b). Identification of fertile translations in medical comparable corpora: a morpho-compositional approach. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas, San Diego, California. Durieux, C. (2010). Fondement didactique de la traduction technique. La maison du dictionnaire, Paris, France.
  132. 132. R´ef´erences III Friedbichler, I. and Friedbichler, M. (1997). The potential of domain-specific target-language corpora for the translator’s workbench. In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie. Fung, P. (1997). Finding terminology translations from non-parallel corpora. In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong. Harastani, R. (2014). Alignement lexical en corpus comparables : le cas des compos´es savants et des adjectifs relationnels. Th`ese de doctorat en informatique, Universit´e de Nantes, Nantes, France. L´eon, S. (2008). Acquisition automatique de traductions d’unit´es lexicales complexes `a partir du Web. Th`ese en sciences du langage - traitement automatique des langues, Universit´e de Provence - Aix-Marseille I, Marseille, France. Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011). Degr´e de comparabilit´e, extraction lexicale et recherche d’information interlingue. In Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles, pages 283–293, Montpellier, France. Mc Enery, A. M. and Xiao, R. Z. (2007). Parallel and comparable corpora: What is happening? In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., Translating Europe, pages 18–31. Multilingual Matters, Clevedon, UK. Morin, E. and Daille, B. (2010). Compositionality and lexical alignment of multi-word terms. In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation (LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
  133. 133. R´ef´erences IV Namer, F. and Baud, R. (2007). Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system. International Journal of Medical Informatics, 76(2-3):226–33. Ozdowska, S. (2006). ALIBI, un syst`eme d’ALIgnement BIlingue `a base de r`egles de propapagation syntaxique. Th`ese de doctorat en sciences du langage, Universit´e Toulouse II Le Mirail, Toulouse, France. Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), pages 519–526, College Park, MD, USA. Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006). Compiling French-Japanese terminologies from the web. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, pages 225–232, Trento, Italy. ˇS. Vintar (2010). Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation. Terminology, 16(2):141–158. Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011). Simple methods for dealing with term variation and term alignment. In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93, Paris, France. Zanettin, F. (1998). Bilingual comparable corpora and the training of translators. Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×