1. 1
Thèse de doctoratThèse de doctorat
28 octobre 200528 octobre 2005
Christophe ChenonChristophe Chenon
GETA-CLIPS-IMAGGETA-CLIPS-IMAG
Vers une meilleure utilisabilité desVers une meilleure utilisabilité des
mémoires de traduction, fondée surmémoires de traduction, fondée sur
un alignement sous-phrastiqueun alignement sous-phrastique
2. 2
La traduction à IBMLa traduction à IBM
25 centres de traduction à travers le monde25 centres de traduction à travers le monde
Une trentaine de languesUne trentaine de langues
En France : 20 millions de mots par anEn France : 20 millions de mots par an
Logiciels et texteLogiciels et texte
THAM à mémoires de traductionTHAM à mémoires de traduction
Pionniers (~1990 Translation Manager)Pionniers (~1990 Translation Manager)
Consiste à réutiliser des traductions déjà faitesConsiste à réutiliser des traductions déjà faites
- Cohérence stylistique, terminologique- Cohérence stylistique, terminologique
- Productivité- Productivité
- Travail en réseau- Travail en réseau
5. 5
Principe de fonctionnementPrincipe de fonctionnement
On conserve toutes les traductions…On conserve toutes les traductions…
Le traducteur travaille par « segment »Le traducteur travaille par « segment »
Il traduit le segment (avec ou sans aide)Il traduit le segment (avec ou sans aide)
On enregistre des « bisegments »On enregistre des « bisegments »
…… pour les réutiliserpour les réutiliser
SiSi le segment est déjà traduit dans la mémoirele segment est déjà traduit dans la mémoire
Le système demande (éventuellement) une confirmation au traducteurLe système demande (éventuellement) une confirmation au traducteur
SiSi segment n’est pas traduitsegment n’est pas traduit
- SoitSoit le système propose des segments « proches »le système propose des segments « proches »
=> Le traducteur part de l’une des traductions=> Le traducteur part de l’une des traductions
- SoitSoit aucun segment de la mémoire n’est procheaucun segment de la mémoire n’est proche
=> Il faut traduire complètement=> Il faut traduire complètement
On veut proposer mieux au traducteur
6. 6
À traduire
This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.
Un scénario « de rêve »…Un scénario « de rêve »…
Dans la mémoireDans la mémoire
This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.
Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..
This task will show you how to change views.This task will show you how to change views.
Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
7. 7
À traduire
This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.
Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.
Analyse du scénarioAnalyse du scénario
Dans la mémoireDans la mémoire
This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.
Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..
This task will show you how to change views.This task will show you how to change views.
Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
8. 8
Vers un alignement sous-phrastiqueVers un alignement sous-phrastique
ExpliciterExpliciter
Correspondances au niveau des motsCorrespondances au niveau des mots
Briques traductionnellesBriques traductionnelles
Leur agencementLeur agencement
DifficultésDifficultés
Déterminer des frontièresDéterminer des frontières
Trouver les traductionsTrouver les traductions
Rétablir l’ordreRétablir l’ordre
Objectif: enrichissement des mémoiresObjectif: enrichissement des mémoires
Formaliser cette informationFormaliser cette information
Calculer cette informationCalculer cette information
À plus long terme: généraliser cette informationÀ plus long terme: généraliser cette information
9. 9
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
MotivationsMotivations
Illustration du résultat attenduIllustration du résultat attendu
Le modèle TransTreeLe modèle TransTree
Acquisition de l’informationAcquisition de l’information
ExpérimentationsExpérimentations
Application et perspectivesApplication et perspectives
10. 10
Quelques travaux dans ce domaineQuelques travaux dans ce domaine
Correspondances entre analysesCorrespondances entre analyses
Synchronous Structured String-Tree CorrespondencesSynchronous Structured String-Tree Correspondences (S-SSTC)(S-SSTC)
Al Adhaileh, Tang (Penang)Al Adhaileh, Tang (Penang)
Fine-grained Alignment of Multilingual TextsFine-grained Alignment of Multilingual Texts
Cyrus, Feddes (Münster)Cyrus, Feddes (Münster)
Analyse bilingueAnalyse bilingue
Stochastic Inversion Transduction GrammarsStochastic Inversion Transduction Grammars (SITG)(SITG)
Wu (Hong-Kong)Wu (Hong-Kong)
Tous utilisent une approche symbolique
fondée sur des ressources linguistiques
11. 11
OrOr
Ces approches ont des limites…Ces approches ont des limites…
Dépendance vis-à-vis de la langueDépendance vis-à-vis de la langue
Coût des ressources linguistiquesCoût des ressources linguistiques
……que ne connaissent pas les environnementque ne connaissent pas les environnement
de THAM à mémoire de traductionde THAM à mémoire de traduction
Succès de cette technologieSuccès de cette technologie
On va mettre en œuvre desOn va mettre en œuvre des méthodes statistiquesméthodes statistiques
14. 14
« « Boîte de dialogueBoîte de dialogue » »
Un diagramme TransTree simple Un diagramme TransTree simple
Amphigrammes
15. 15
TransTreeTransTree
PrincipesPrincipes
Bi-arbre n-aire, abstrait, non ordonnéBi-arbre n-aire, abstrait, non ordonné
Correspondances chaîne-chaîne non orientéesCorrespondances chaîne-chaîne non orientées
Les nœuds sont des « amphigrammes »Les nœuds sont des « amphigrammes »
Briques traductionnelles gigognesBriques traductionnelles gigognes
Armature textuelle et points d’insertionArmature textuelle et points d’insertion
Feuilles = paire de chaînes de caractèresFeuilles = paire de chaînes de caractères
« amphigramme atomique »« amphigramme atomique »
17. 17
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
Acquisition de l’informationAcquisition de l’information
Ligne directriceLigne directrice
Alignements atomiquesAlignements atomiques
Structuration des segmentsStructuration des segments
Alignements sous-phrastiquesAlignements sous-phrastiques
ClassificationClassification
ExpérimentationsExpérimentations
Application et perspectivesApplication et perspectives
18. 18
Ligne directriceLigne directrice
Démarche métalinguistiqueDémarche métalinguistique
Axe interlingue => digrammes, amphigrammesAxe interlingue => digrammes, amphigrammes
Axe syntagmatique => arbres binaires de sécabilitéAxe syntagmatique => arbres binaires de sécabilité
Axe paradigmatique => classes, patrons de trad.Axe paradigmatique => classes, patrons de trad.
Démarche statistiqueDémarche statistique
Ce qui revient souvent est utile, figéCe qui revient souvent est utile, figé
Les exceptions confirment la règle…Les exceptions confirment la règle…
19. 19
Click OK to close the dialog box
Cliquez sur OK pour fermer la boîte de dialogue
Ligne directriceLigne directrice
21. 21
Mots typographiquesMots typographiques
GranularitéGranularité
Systèmes d’écriture à séparateursSystèmes d’écriture à séparateurs
Méthode utiliséeMéthode utilisée
Meilleurs candidats réciproques parMeilleurs candidats réciproques par
l’information mutuelle (surfréquence)l’information mutuelle (surfréquence)
Processus itératifProcessus itératif
Placement par moindres croisementsPlacement par moindres croisements
Certains mots non appariésCertains mots non appariés
Alignements atomiquesAlignements atomiques
22. 22
DigrammesDigrammes
Idée de baseIdée de base
Couple de mots typographiques vu comme unitéCouple de mots typographiques vu comme unité
(avions,had) =/= (avions,planes)(avions,had) =/= (avions,planes)
Désambiguïsation forteDésambiguïsation forte
Vrai digramme = couple de motsVrai digramme = couple de mots
Faux digramme = un mot seulementFaux digramme = un mot seulement
Unité de granularitéUnité de granularité
Chaque segment va être considéré
comme une suite de digrammes
Cliquez(Clic) sur() OK(OK) pour(to) fermer(close) la(the) boîte(box) de() dialogue(dialog).
23. 23
SécabilitéSécabilité
Indice de cohésion de chaque séparateurIndice de cohésion de chaque séparateur
Permet de constituer des groupes de motsPermet de constituer des groupes de mots
Estimée sur une fenêtre glissanteEstimée sur une fenêtre glissante
Structuration des segmentsStructuration des segments
N(gd)
N(g) ∙ N(d)
Cliquez sur OK pour fermer la boîte de dialogue
g d
24. 24
Cliquez sur OK pour fermer la boîte de dialogue
Arbre binaire de sécabilitéArbre binaire de sécabilité
2 6 8 5 7 4 1 3
6
8
7
2 5
4
31
25. 25
Alignements sous-phrastiquesAlignements sous-phrastiques
Passage du binaire au n-airePassage du binaire au n-aire
Axe interlingueAxe interlingue
Comparaison des arbres binaires de sécabilitéComparaison des arbres binaires de sécabilité
Notion de congruenceNotion de congruence
Un amphigramme est constitué avec deux nœudsUn amphigramme est constitué avec deux nœuds
dominant le même ensemble de vrais digrammesdominant le même ensemble de vrais digrammes
On prendOn prend au moinsau moins deux vrais digrammes,deux vrais digrammes,
=> il peut y en avoir plus : arbre résultant n-aire=> il peut y en avoir plus : arbre résultant n-aire
26. 26
Click OK to close the dialog box
Cliquez sur OK pour fermer la boîte de dialogue
CongruenceCongruence
30. 30
En résumé…En résumé…
TransTree permet d’exprimer desTransTree permet d’exprimer des
correspondances sous-phrastiques dans lescorrespondances sous-phrastiques dans les
mémoires de traductionmémoires de traduction
Le modèle est accompagné d’une méthodeLe modèle est accompagné d’une méthode
générale d’acquisition de données par voiegénérale d’acquisition de données par voie
statistiquestatistique
31. 31
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
Acquisition de l’informationAcquisition de l’information
ExpérimentationsExpérimentations
Données de travailDonnées de travail
ÉÉchantillonschantillons
Application et perspectivesApplication et perspectives
32. 32
Filtrage des mémoiresFiltrage des mémoires
Tous les bisegments ne sont pas utilesTous les bisegments ne sont pas utiles
Segments non textuels (balises, code, variables etc.)Segments non textuels (balises, code, variables etc.)
Anglais dans le français (ou l’inverse)Anglais dans le français (ou l’inverse)
Mauvais découpageMauvais découpage
33. 33
VolumesVolumes
Avant filtrageAvant filtrage
Taille des données : 565 MoTaille des données : 565 Mo
Nombre de mémoires : 453Nombre de mémoires : 453
Nombre de bisegments : 1 785 684Nombre de bisegments : 1 785 684
Après filtrageAprès filtrage
Segments
Mots
(occurrences)
Mots
(prototypes) Hapax
SOURCE 64 658 691 532 18 727 7 376
CIBLE 64 658 758 896 20 334 7 981
35. 35
Echantillon briques traductionnellesEchantillon briques traductionnelles
default par défaut
database base de données
Click Cliquez sur
password mot de passe
all tous les
output de sortie
viewpoint point de vue
will be sera
Cannot Impossible de
cannot ne peut pas
cannot ne pouvez pas
Buidtime Client de modélisation
as au fur et à mesure que
37. 37
Applications immédiatesApplications immédiates
Aide aux traducteursAide aux traducteurs
Améliore la perception de ce qui est utileAméliore la perception de ce qui est utile
Permet une édition plus efficacePermet une édition plus efficace
EnseignementEnseignement
ÉÉditions bilinguesditions bilingues
Permet à l’apprenant d’identifier les correspondancesPermet à l’apprenant d’identifier les correspondances
38. 38
PerspectivesPerspectives
Algorithme de production de segments cibleAlgorithme de production de segments cible
ClassificationClassification
Modèle de traductionModèle de traduction
ÉÉvaluation sur la traductionvaluation sur la traduction
Systèmes d’écriture sans séparateurSystèmes d’écriture sans séparateur
Ajuster les indicesAjuster les indices
Digrammes, sécabilité, classificationDigrammes, sécabilité, classification
Avec un algorithme itératifAvec un algorithme itératif
Diminution du nombre de descripteursDiminution du nombre de descripteurs
Densification de l’alignementDensification de l’alignement