SlideShare a Scribd company logo
1 of 40
1
Thèse de doctoratThèse de doctorat
28 octobre 200528 octobre 2005
Christophe ChenonChristophe Chenon
GETA-CLIPS-IMAGGETA-CLIPS-IMAG
Vers une meilleure utilisabilité desVers une meilleure utilisabilité des
mémoires de traduction, fondée surmémoires de traduction, fondée sur
un alignement sous-phrastiqueun alignement sous-phrastique
2
La traduction à IBMLa traduction à IBM
25 centres de traduction à travers le monde25 centres de traduction à travers le monde

Une trentaine de languesUne trentaine de langues

En France : 20 millions de mots par anEn France : 20 millions de mots par an

Logiciels et texteLogiciels et texte
THAM à mémoires de traductionTHAM à mémoires de traduction

Pionniers (~1990 Translation Manager)Pionniers (~1990 Translation Manager)

Consiste à réutiliser des traductions déjà faitesConsiste à réutiliser des traductions déjà faites
- Cohérence stylistique, terminologique- Cohérence stylistique, terminologique
- Productivité- Productivité
- Travail en réseau- Travail en réseau
3
FonctionnementFonctionnement
Traducteurs
Texte
à
traduire
Texte
traduit
Nlangues
Translation Manager
Mémoires de
traduction
Le système de THAM utilise des mémoires de traduction
4
5
Principe de fonctionnementPrincipe de fonctionnement
On conserve toutes les traductions…On conserve toutes les traductions…

Le traducteur travaille par « segment »Le traducteur travaille par « segment »

Il traduit le segment (avec ou sans aide)Il traduit le segment (avec ou sans aide)

On enregistre des « bisegments »On enregistre des « bisegments »
…… pour les réutiliserpour les réutiliser

SiSi le segment est déjà traduit dans la mémoirele segment est déjà traduit dans la mémoire
Le système demande (éventuellement) une confirmation au traducteurLe système demande (éventuellement) une confirmation au traducteur

SiSi segment n’est pas traduitsegment n’est pas traduit
- SoitSoit le système propose des segments « proches »le système propose des segments « proches »
=> Le traducteur part de l’une des traductions=> Le traducteur part de l’une des traductions
- SoitSoit aucun segment de la mémoire n’est procheaucun segment de la mémoire n’est proche
=> Il faut traduire complètement=> Il faut traduire complètement
On veut proposer mieux au traducteur
6
À traduire
This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.
Un scénario « de rêve »…Un scénario « de rêve »…
Dans la mémoireDans la mémoire
This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.
Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..
This task will show you how to change views.This task will show you how to change views.
Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
7
À traduire
This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.
Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.
Analyse du scénarioAnalyse du scénario
Dans la mémoireDans la mémoire
This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.
Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..
This task will show you how to change views.This task will show you how to change views.
Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
8
Vers un alignement sous-phrastiqueVers un alignement sous-phrastique
ExpliciterExpliciter

Correspondances au niveau des motsCorrespondances au niveau des mots

Briques traductionnellesBriques traductionnelles

Leur agencementLeur agencement
DifficultésDifficultés

Déterminer des frontièresDéterminer des frontières

Trouver les traductionsTrouver les traductions

Rétablir l’ordreRétablir l’ordre
Objectif: enrichissement des mémoiresObjectif: enrichissement des mémoires

Formaliser cette informationFormaliser cette information

Calculer cette informationCalculer cette information

À plus long terme: généraliser cette informationÀ plus long terme: généraliser cette information
9
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement

MotivationsMotivations

Illustration du résultat attenduIllustration du résultat attendu

Le modèle TransTreeLe modèle TransTree
Acquisition de l’informationAcquisition de l’information
ExpérimentationsExpérimentations
Application et perspectivesApplication et perspectives
10
Quelques travaux dans ce domaineQuelques travaux dans ce domaine
Correspondances entre analysesCorrespondances entre analyses

Synchronous Structured String-Tree CorrespondencesSynchronous Structured String-Tree Correspondences (S-SSTC)(S-SSTC)
Al Adhaileh, Tang (Penang)Al Adhaileh, Tang (Penang)

Fine-grained Alignment of Multilingual TextsFine-grained Alignment of Multilingual Texts
Cyrus, Feddes (Münster)Cyrus, Feddes (Münster)
Analyse bilingueAnalyse bilingue

Stochastic Inversion Transduction GrammarsStochastic Inversion Transduction Grammars (SITG)(SITG)
Wu (Hong-Kong)Wu (Hong-Kong)
Tous utilisent une approche symbolique
fondée sur des ressources linguistiques
11
OrOr
Ces approches ont des limites…Ces approches ont des limites…

Dépendance vis-à-vis de la langueDépendance vis-à-vis de la langue

Coût des ressources linguistiquesCoût des ressources linguistiques
……que ne connaissent pas les environnementque ne connaissent pas les environnement
de THAM à mémoire de traductionde THAM à mémoire de traduction

Succès de cette technologieSuccès de cette technologie
On va mettre en œuvre desOn va mettre en œuvre des méthodes statistiquesméthodes statistiques
12
Illustration du résultat attenduIllustration du résultat attendu
13
Le modèle TransTreeLe modèle TransTree
14
« « Boîte de dialogueBoîte de dialogue » »
Un diagramme TransTree simple Un diagramme TransTree simple 
Amphigrammes
15
TransTreeTransTree
PrincipesPrincipes

Bi-arbre n-aire, abstrait, non ordonnéBi-arbre n-aire, abstrait, non ordonné

Correspondances chaîne-chaîne non orientéesCorrespondances chaîne-chaîne non orientées
Les nœuds sont des « amphigrammes »Les nœuds sont des « amphigrammes »

Briques traductionnelles gigognesBriques traductionnelles gigognes

Armature textuelle et points d’insertionArmature textuelle et points d’insertion

Feuilles = paire de chaînes de caractèresFeuilles = paire de chaînes de caractères
« amphigramme atomique »« amphigramme atomique »
16
Bi-arbre…Bi-arbre…
17
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
Acquisition de l’informationAcquisition de l’information

Ligne directriceLigne directrice

Alignements atomiquesAlignements atomiques

Structuration des segmentsStructuration des segments

Alignements sous-phrastiquesAlignements sous-phrastiques

ClassificationClassification
ExpérimentationsExpérimentations
Application et perspectivesApplication et perspectives
18
Ligne directriceLigne directrice
Démarche métalinguistiqueDémarche métalinguistique

Axe interlingue => digrammes, amphigrammesAxe interlingue => digrammes, amphigrammes

Axe syntagmatique => arbres binaires de sécabilitéAxe syntagmatique => arbres binaires de sécabilité

Axe paradigmatique => classes, patrons de trad.Axe paradigmatique => classes, patrons de trad.
Démarche statistiqueDémarche statistique

Ce qui revient souvent est utile, figéCe qui revient souvent est utile, figé

Les exceptions confirment la règle…Les exceptions confirment la règle…
19
Click OK to close the dialog box
Cliquez sur OK pour fermer la boîte de dialogue
Ligne directriceLigne directrice
20
Bi-arbre…Bi-arbre…
21
Mots typographiquesMots typographiques

GranularitéGranularité

Systèmes d’écriture à séparateursSystèmes d’écriture à séparateurs
Méthode utiliséeMéthode utilisée

Meilleurs candidats réciproques parMeilleurs candidats réciproques par
l’information mutuelle (surfréquence)l’information mutuelle (surfréquence)

Processus itératifProcessus itératif

Placement par moindres croisementsPlacement par moindres croisements

Certains mots non appariésCertains mots non appariés
Alignements atomiquesAlignements atomiques
22
DigrammesDigrammes
Idée de baseIdée de base

Couple de mots typographiques vu comme unitéCouple de mots typographiques vu comme unité
(avions,had) =/= (avions,planes)(avions,had) =/= (avions,planes)

Désambiguïsation forteDésambiguïsation forte
Vrai digramme = couple de motsVrai digramme = couple de mots
Faux digramme = un mot seulementFaux digramme = un mot seulement

Unité de granularitéUnité de granularité
Chaque segment va être considéré
comme une suite de digrammes
Cliquez(Clic) sur() OK(OK) pour(to) fermer(close) la(the) boîte(box) de() dialogue(dialog).
23
SécabilitéSécabilité

Indice de cohésion de chaque séparateurIndice de cohésion de chaque séparateur

Permet de constituer des groupes de motsPermet de constituer des groupes de mots

Estimée sur une fenêtre glissanteEstimée sur une fenêtre glissante
Structuration des segmentsStructuration des segments
N(gd)
N(g) ∙ N(d)
Cliquez sur OK pour fermer la boîte de dialogue
g d
24
Cliquez sur OK pour fermer la boîte de dialogue
Arbre binaire de sécabilitéArbre binaire de sécabilité
2 6 8 5 7 4 1 3
6
8
7
2 5
4
31
25
Alignements sous-phrastiquesAlignements sous-phrastiques
Passage du binaire au n-airePassage du binaire au n-aire

Axe interlingueAxe interlingue

Comparaison des arbres binaires de sécabilitéComparaison des arbres binaires de sécabilité

Notion de congruenceNotion de congruence
Un amphigramme est constitué avec deux nœudsUn amphigramme est constitué avec deux nœuds
dominant le même ensemble de vrais digrammesdominant le même ensemble de vrais digrammes
On prendOn prend au moinsau moins deux vrais digrammes,deux vrais digrammes,
=> il peut y en avoir plus : arbre résultant n-aire=> il peut y en avoir plus : arbre résultant n-aire
26
Click OK to close the dialog box
Cliquez sur OK pour fermer la boîte de dialogue
CongruenceCongruence
27
Autre exempleAutre exemple
This task shows you how to change views.
Dans cette tâche, vous apprendrez à modifier les vues.
28
SaturationSaturation
This A shows B how
Dans cette A B apprendrez
29
ClassificationClassification
Deux objectifsDeux objectifs

FactorisationFactorisation

ExtrapolationExtrapolation
Généralisation des amphigrammesGénéralisation des amphigrammes

On remplace les amphigrammes fils par desOn remplace les amphigrammes fils par des
paradigmes d’amphigrammes (classes)paradigmes d’amphigrammes (classes)

Amphigrammes « génériques »Amphigrammes « génériques »

Obtention d’une grammaireObtention d’une grammaire
=> TransTree = arbre de dérivation=> TransTree = arbre de dérivation
30
En résumé…En résumé…
TransTree permet d’exprimer desTransTree permet d’exprimer des
correspondances sous-phrastiques dans lescorrespondances sous-phrastiques dans les
mémoires de traductionmémoires de traduction
Le modèle est accompagné d’une méthodeLe modèle est accompagné d’une méthode
générale d’acquisition de données par voiegénérale d’acquisition de données par voie
statistiquestatistique
31
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
Acquisition de l’informationAcquisition de l’information
ExpérimentationsExpérimentations

Données de travailDonnées de travail

ÉÉchantillonschantillons
Application et perspectivesApplication et perspectives
32
Filtrage des mémoiresFiltrage des mémoires
Tous les bisegments ne sont pas utilesTous les bisegments ne sont pas utiles

Segments non textuels (balises, code, variables etc.)Segments non textuels (balises, code, variables etc.)

Anglais dans le français (ou l’inverse)Anglais dans le français (ou l’inverse)

Mauvais découpageMauvais découpage
33
VolumesVolumes
Avant filtrageAvant filtrage

Taille des données : 565 MoTaille des données : 565 Mo

Nombre de mémoires : 453Nombre de mémoires : 453

Nombre de bisegments : 1 785 684Nombre de bisegments : 1 785 684
Après filtrageAprès filtrage
Segments
Mots
(occurrences)
Mots
(prototypes) Hapax
SOURCE 64 658 691 532 18 727 7 376
CIBLE 64 658 758 896 20 334 7 981
34
Longueur des phrasesLongueur des phrases
Nombre de mots
X1000phrases
35
Echantillon briques traductionnellesEchantillon briques traductionnelles
default par défaut
database base de données
Click Cliquez sur
password mot de passe
all tous les
output de sortie
viewpoint point de vue
will be sera
Cannot Impossible de
cannot ne peut pas
cannot ne pouvez pas
Buidtime Client de modélisation
as au fur et à mesure que
36
PlanPlan
IntroductionIntroduction
Modèle pour l’alignementModèle pour l’alignement
Acquisition de l’informationAcquisition de l’information
ExpérimentationsExpérimentations
Application et perspectivesApplication et perspectives
37
Applications immédiatesApplications immédiates
Aide aux traducteursAide aux traducteurs

Améliore la perception de ce qui est utileAméliore la perception de ce qui est utile

Permet une édition plus efficacePermet une édition plus efficace
EnseignementEnseignement

ÉÉditions bilinguesditions bilingues

Permet à l’apprenant d’identifier les correspondancesPermet à l’apprenant d’identifier les correspondances
38
PerspectivesPerspectives
Algorithme de production de segments cibleAlgorithme de production de segments cible

ClassificationClassification

Modèle de traductionModèle de traduction

ÉÉvaluation sur la traductionvaluation sur la traduction
Systèmes d’écriture sans séparateurSystèmes d’écriture sans séparateur
Ajuster les indicesAjuster les indices

Digrammes, sécabilité, classificationDigrammes, sécabilité, classification

Avec un algorithme itératifAvec un algorithme itératif
Diminution du nombre de descripteursDiminution du nombre de descripteurs
Densification de l’alignementDensification de l’alignement
39
MerciMerci
40

More Related Content

Viewers also liked

La démarche Esprit de Service : levier de la transformation de service du gro...
La démarche Esprit de Service : levier de la transformation de service du gro...La démarche Esprit de Service : levier de la transformation de service du gro...
La démarche Esprit de Service : levier de la transformation de service du gro...itSMF France
 
La présentation des performances SEO
La présentation des performances SEOLa présentation des performances SEO
La présentation des performances SEOBruno Hug
 
Les francais et les obseques 2007
Les francais et les obseques 2007Les francais et les obseques 2007
Les francais et les obseques 2007csnaf
 
Animation en bilbiothèque
Animation en bilbiothèqueAnimation en bilbiothèque
Animation en bilbiothèquemaximeetcelia
 
Funcion De Bessel, Regla De Carson Y Modulacion Exponencial
Funcion De Bessel, Regla De Carson Y Modulacion ExponencialFuncion De Bessel, Regla De Carson Y Modulacion Exponencial
Funcion De Bessel, Regla De Carson Y Modulacion Exponencialguest3f54e2
 
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Alberto González-Talaván
 
Voici donc la liste des 10 choses apres 30 ans
Voici donc la liste des 10 choses apres 30 ansVoici donc la liste des 10 choses apres 30 ans
Voici donc la liste des 10 choses apres 30 ansSophie Perso
 
Las herramientas 2.0 para la gestión de nuestra Marca Personal
Las herramientas 2.0 para la gestión de nuestra Marca PersonalLas herramientas 2.0 para la gestión de nuestra Marca Personal
Las herramientas 2.0 para la gestión de nuestra Marca PersonalMontserrat Peñarroya
 
Facebook
FacebookFacebook
FacebookIlla
 
PresentacióNchistesgrafica
PresentacióNchistesgraficaPresentacióNchistesgrafica
PresentacióNchistesgraficaHomar
 
Contraception et sexualité
Contraception et sexualitéContraception et sexualité
Contraception et sexualitélitous
 
Propuesta didáctica sobre educación en valores
Propuesta didáctica sobre educación en valoresPropuesta didáctica sobre educación en valores
Propuesta didáctica sobre educación en valoresSergio Perez
 
Présentation offre B2O Conseil
Présentation offre B2O ConseilPrésentation offre B2O Conseil
Présentation offre B2O Conseilb2oconseil
 
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Moreno
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura MorenoInstituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Moreno
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Morenotallera
 
Palmerillas Y Acuario Abraham, Juanjo Y Miguel
Palmerillas Y Acuario Abraham, Juanjo Y Miguel Palmerillas Y Acuario Abraham, Juanjo Y Miguel
Palmerillas Y Acuario Abraham, Juanjo Y Miguel juanjomoya00
 

Viewers also liked (19)

La démarche Esprit de Service : levier de la transformation de service du gro...
La démarche Esprit de Service : levier de la transformation de service du gro...La démarche Esprit de Service : levier de la transformation de service du gro...
La démarche Esprit de Service : levier de la transformation de service du gro...
 
La présentation des performances SEO
La présentation des performances SEOLa présentation des performances SEO
La présentation des performances SEO
 
Les francais et les obseques 2007
Les francais et les obseques 2007Les francais et les obseques 2007
Les francais et les obseques 2007
 
Animation en bilbiothèque
Animation en bilbiothèqueAnimation en bilbiothèque
Animation en bilbiothèque
 
潘學觀Test
潘學觀Test潘學觀Test
潘學觀Test
 
desarrollo
desarrollodesarrollo
desarrollo
 
Funcion De Bessel, Regla De Carson Y Modulacion Exponencial
Funcion De Bessel, Regla De Carson Y Modulacion ExponencialFuncion De Bessel, Regla De Carson Y Modulacion Exponencial
Funcion De Bessel, Regla De Carson Y Modulacion Exponencial
 
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...Séance 06, Introduction à la publication des données d'échantillonnage dans l...
Séance 06, Introduction à la publication des données d'échantillonnage dans l...
 
Lcbx results
Lcbx resultsLcbx results
Lcbx results
 
Voici donc la liste des 10 choses apres 30 ans
Voici donc la liste des 10 choses apres 30 ansVoici donc la liste des 10 choses apres 30 ans
Voici donc la liste des 10 choses apres 30 ans
 
Las herramientas 2.0 para la gestión de nuestra Marca Personal
Las herramientas 2.0 para la gestión de nuestra Marca PersonalLas herramientas 2.0 para la gestión de nuestra Marca Personal
Las herramientas 2.0 para la gestión de nuestra Marca Personal
 
Classement des Nations du Sport 2010
Classement des Nations du Sport 2010Classement des Nations du Sport 2010
Classement des Nations du Sport 2010
 
Facebook
FacebookFacebook
Facebook
 
PresentacióNchistesgrafica
PresentacióNchistesgraficaPresentacióNchistesgrafica
PresentacióNchistesgrafica
 
Contraception et sexualité
Contraception et sexualitéContraception et sexualité
Contraception et sexualité
 
Propuesta didáctica sobre educación en valores
Propuesta didáctica sobre educación en valoresPropuesta didáctica sobre educación en valores
Propuesta didáctica sobre educación en valores
 
Présentation offre B2O Conseil
Présentation offre B2O ConseilPrésentation offre B2O Conseil
Présentation offre B2O Conseil
 
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Moreno
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura MorenoInstituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Moreno
Instituto De MicrobiologíA RamóN Y Cajal Miguel Fisac Laura Moreno
 
Palmerillas Y Acuario Abraham, Juanjo Y Miguel
Palmerillas Y Acuario Abraham, Juanjo Y Miguel Palmerillas Y Acuario Abraham, Juanjo Y Miguel
Palmerillas Y Acuario Abraham, Juanjo Y Miguel
 

Similar to Soutenance.final

Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 
Correction Orthographique et Grammaticale Automatique
Correction Orthographique et Grammaticale AutomatiqueCorrection Orthographique et Grammaticale Automatique
Correction Orthographique et Grammaticale Automatiqueguest3be047
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : NgrammesJaouad Dabounou
 
2010 accueils vocaux_langage_naturel
2010 accueils vocaux_langage_naturel2010 accueils vocaux_langage_naturel
2010 accueils vocaux_langage_naturelAriane Halber
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceMarie-Alice Blete
 
Introduction à LaTeX : le système de composition professionnel
Introduction à LaTeX : le système de composition professionnelIntroduction à LaTeX : le système de composition professionnel
Introduction à LaTeX : le système de composition professionnelECAM Brussels Engineering School
 
Réalisation d’un interpréteur en langue Arabe - Khawarizmi
Réalisation d’un interpréteur en langue Arabe - KhawarizmiRéalisation d’un interpréteur en langue Arabe - Khawarizmi
Réalisation d’un interpréteur en langue Arabe - KhawarizmiBachir Benyammi
 
Après la macro, la micro !
Après la macro, la micro !Après la macro, la micro !
Après la macro, la micro !htmlvv
 
Piegesppt 090510064258-phpapp02
Piegesppt 090510064258-phpapp02Piegesppt 090510064258-phpapp02
Piegesppt 090510064258-phpapp02Gerard Zenoni
 
Le langage Prolog
Le langage PrologLe langage Prolog
Le langage PrologBruno Delb
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudPhilippe Gambette
 
Robot Framework Introduction
Robot Framework IntroductionRobot Framework Introduction
Robot Framework Introductionlaurent bristiel
 
Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...Gilbert Paquette
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsEquipex Biblissima
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahilitihtow
 

Similar to Soutenance.final (20)

Drools
DroolsDrools
Drools
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Correction Orthographique et Grammaticale Automatique
Correction Orthographique et Grammaticale AutomatiqueCorrection Orthographique et Grammaticale Automatique
Correction Orthographique et Grammaticale Automatique
 
Modèles de langue : Ngrammes
Modèles de langue : NgrammesModèles de langue : Ngrammes
Modèles de langue : Ngrammes
 
2010 accueils vocaux_langage_naturel
2010 accueils vocaux_langage_naturel2010 accueils vocaux_langage_naturel
2010 accueils vocaux_langage_naturel
 
Décryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data scienceDécryptage des LLMs au-delà de la hype - Lyon Data science
Décryptage des LLMs au-delà de la hype - Lyon Data science
 
Introduction à LaTeX : le système de composition professionnel
Introduction à LaTeX : le système de composition professionnelIntroduction à LaTeX : le système de composition professionnel
Introduction à LaTeX : le système de composition professionnel
 
Réalisation d’un interpréteur en langue Arabe - Khawarizmi
Réalisation d’un interpréteur en langue Arabe - KhawarizmiRéalisation d’un interpréteur en langue Arabe - Khawarizmi
Réalisation d’un interpréteur en langue Arabe - Khawarizmi
 
2 tid conception-projet-cours2
2 tid conception-projet-cours22 tid conception-projet-cours2
2 tid conception-projet-cours2
 
Après la macro, la micro !
Après la macro, la micro !Après la macro, la micro !
Après la macro, la micro !
 
Piegesppt 090510064258-phpapp02
Piegesppt 090510064258-phpapp02Piegesppt 090510064258-phpapp02
Piegesppt 090510064258-phpapp02
 
Le langage Prolog
Le langage PrologLe langage Prolog
Le langage Prolog
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 
Builsing DSL using MDE
Builsing DSL using MDEBuilsing DSL using MDE
Builsing DSL using MDE
 
Robot Framework Introduction
Robot Framework IntroductionRobot Framework Introduction
Robot Framework Introduction
 
Le langage C
Le langage CLe langage C
Le langage C
 
Irisa p gros
Irisa p grosIrisa p gros
Irisa p gros
 
Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...
 
Collatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latinsCollatinus : Lemmatiser et analyser des textes latins
Collatinus : Lemmatiser et analyser des textes latins
 
Jep 2012 Swahili
Jep 2012 SwahiliJep 2012 Swahili
Jep 2012 Swahili
 

Soutenance.final

  • 1. 1 Thèse de doctoratThèse de doctorat 28 octobre 200528 octobre 2005 Christophe ChenonChristophe Chenon GETA-CLIPS-IMAGGETA-CLIPS-IMAG Vers une meilleure utilisabilité desVers une meilleure utilisabilité des mémoires de traduction, fondée surmémoires de traduction, fondée sur un alignement sous-phrastiqueun alignement sous-phrastique
  • 2. 2 La traduction à IBMLa traduction à IBM 25 centres de traduction à travers le monde25 centres de traduction à travers le monde  Une trentaine de languesUne trentaine de langues  En France : 20 millions de mots par anEn France : 20 millions de mots par an  Logiciels et texteLogiciels et texte THAM à mémoires de traductionTHAM à mémoires de traduction  Pionniers (~1990 Translation Manager)Pionniers (~1990 Translation Manager)  Consiste à réutiliser des traductions déjà faitesConsiste à réutiliser des traductions déjà faites - Cohérence stylistique, terminologique- Cohérence stylistique, terminologique - Productivité- Productivité - Travail en réseau- Travail en réseau
  • 4. 4
  • 5. 5 Principe de fonctionnementPrincipe de fonctionnement On conserve toutes les traductions…On conserve toutes les traductions…  Le traducteur travaille par « segment »Le traducteur travaille par « segment »  Il traduit le segment (avec ou sans aide)Il traduit le segment (avec ou sans aide)  On enregistre des « bisegments »On enregistre des « bisegments » …… pour les réutiliserpour les réutiliser  SiSi le segment est déjà traduit dans la mémoirele segment est déjà traduit dans la mémoire Le système demande (éventuellement) une confirmation au traducteurLe système demande (éventuellement) une confirmation au traducteur  SiSi segment n’est pas traduitsegment n’est pas traduit - SoitSoit le système propose des segments « proches »le système propose des segments « proches » => Le traducteur part de l’une des traductions=> Le traducteur part de l’une des traductions - SoitSoit aucun segment de la mémoire n’est procheaucun segment de la mémoire n’est proche => Il faut traduire complètement=> Il faut traduire complètement On veut proposer mieux au traducteur
  • 6. 6 À traduire This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text. Un scénario « de rêve »…Un scénario « de rêve »… Dans la mémoireDans la mémoire This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text. Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte.. This task will show you how to change views.This task will show you how to change views. Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
  • 7. 7 À traduire This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text. Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte. Analyse du scénarioAnalyse du scénario Dans la mémoireDans la mémoire This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text. Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte.. This task will show you how to change views.This task will show you how to change views. Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.
  • 8. 8 Vers un alignement sous-phrastiqueVers un alignement sous-phrastique ExpliciterExpliciter  Correspondances au niveau des motsCorrespondances au niveau des mots  Briques traductionnellesBriques traductionnelles  Leur agencementLeur agencement DifficultésDifficultés  Déterminer des frontièresDéterminer des frontières  Trouver les traductionsTrouver les traductions  Rétablir l’ordreRétablir l’ordre Objectif: enrichissement des mémoiresObjectif: enrichissement des mémoires  Formaliser cette informationFormaliser cette information  Calculer cette informationCalculer cette information  À plus long terme: généraliser cette informationÀ plus long terme: généraliser cette information
  • 9. 9 PlanPlan IntroductionIntroduction Modèle pour l’alignementModèle pour l’alignement  MotivationsMotivations  Illustration du résultat attenduIllustration du résultat attendu  Le modèle TransTreeLe modèle TransTree Acquisition de l’informationAcquisition de l’information ExpérimentationsExpérimentations Application et perspectivesApplication et perspectives
  • 10. 10 Quelques travaux dans ce domaineQuelques travaux dans ce domaine Correspondances entre analysesCorrespondances entre analyses  Synchronous Structured String-Tree CorrespondencesSynchronous Structured String-Tree Correspondences (S-SSTC)(S-SSTC) Al Adhaileh, Tang (Penang)Al Adhaileh, Tang (Penang)  Fine-grained Alignment of Multilingual TextsFine-grained Alignment of Multilingual Texts Cyrus, Feddes (Münster)Cyrus, Feddes (Münster) Analyse bilingueAnalyse bilingue  Stochastic Inversion Transduction GrammarsStochastic Inversion Transduction Grammars (SITG)(SITG) Wu (Hong-Kong)Wu (Hong-Kong) Tous utilisent une approche symbolique fondée sur des ressources linguistiques
  • 11. 11 OrOr Ces approches ont des limites…Ces approches ont des limites…  Dépendance vis-à-vis de la langueDépendance vis-à-vis de la langue  Coût des ressources linguistiquesCoût des ressources linguistiques ……que ne connaissent pas les environnementque ne connaissent pas les environnement de THAM à mémoire de traductionde THAM à mémoire de traduction  Succès de cette technologieSuccès de cette technologie On va mettre en œuvre desOn va mettre en œuvre des méthodes statistiquesméthodes statistiques
  • 12. 12 Illustration du résultat attenduIllustration du résultat attendu
  • 13. 13 Le modèle TransTreeLe modèle TransTree
  • 14. 14 « « Boîte de dialogueBoîte de dialogue » » Un diagramme TransTree simple Un diagramme TransTree simple  Amphigrammes
  • 15. 15 TransTreeTransTree PrincipesPrincipes  Bi-arbre n-aire, abstrait, non ordonnéBi-arbre n-aire, abstrait, non ordonné  Correspondances chaîne-chaîne non orientéesCorrespondances chaîne-chaîne non orientées Les nœuds sont des « amphigrammes »Les nœuds sont des « amphigrammes »  Briques traductionnelles gigognesBriques traductionnelles gigognes  Armature textuelle et points d’insertionArmature textuelle et points d’insertion  Feuilles = paire de chaînes de caractèresFeuilles = paire de chaînes de caractères « amphigramme atomique »« amphigramme atomique »
  • 17. 17 PlanPlan IntroductionIntroduction Modèle pour l’alignementModèle pour l’alignement Acquisition de l’informationAcquisition de l’information  Ligne directriceLigne directrice  Alignements atomiquesAlignements atomiques  Structuration des segmentsStructuration des segments  Alignements sous-phrastiquesAlignements sous-phrastiques  ClassificationClassification ExpérimentationsExpérimentations Application et perspectivesApplication et perspectives
  • 18. 18 Ligne directriceLigne directrice Démarche métalinguistiqueDémarche métalinguistique  Axe interlingue => digrammes, amphigrammesAxe interlingue => digrammes, amphigrammes  Axe syntagmatique => arbres binaires de sécabilitéAxe syntagmatique => arbres binaires de sécabilité  Axe paradigmatique => classes, patrons de trad.Axe paradigmatique => classes, patrons de trad. Démarche statistiqueDémarche statistique  Ce qui revient souvent est utile, figéCe qui revient souvent est utile, figé  Les exceptions confirment la règle…Les exceptions confirment la règle…
  • 19. 19 Click OK to close the dialog box Cliquez sur OK pour fermer la boîte de dialogue Ligne directriceLigne directrice
  • 21. 21 Mots typographiquesMots typographiques  GranularitéGranularité  Systèmes d’écriture à séparateursSystèmes d’écriture à séparateurs Méthode utiliséeMéthode utilisée  Meilleurs candidats réciproques parMeilleurs candidats réciproques par l’information mutuelle (surfréquence)l’information mutuelle (surfréquence)  Processus itératifProcessus itératif  Placement par moindres croisementsPlacement par moindres croisements  Certains mots non appariésCertains mots non appariés Alignements atomiquesAlignements atomiques
  • 22. 22 DigrammesDigrammes Idée de baseIdée de base  Couple de mots typographiques vu comme unitéCouple de mots typographiques vu comme unité (avions,had) =/= (avions,planes)(avions,had) =/= (avions,planes)  Désambiguïsation forteDésambiguïsation forte Vrai digramme = couple de motsVrai digramme = couple de mots Faux digramme = un mot seulementFaux digramme = un mot seulement  Unité de granularitéUnité de granularité Chaque segment va être considéré comme une suite de digrammes Cliquez(Clic) sur() OK(OK) pour(to) fermer(close) la(the) boîte(box) de() dialogue(dialog).
  • 23. 23 SécabilitéSécabilité  Indice de cohésion de chaque séparateurIndice de cohésion de chaque séparateur  Permet de constituer des groupes de motsPermet de constituer des groupes de mots  Estimée sur une fenêtre glissanteEstimée sur une fenêtre glissante Structuration des segmentsStructuration des segments N(gd) N(g) ∙ N(d) Cliquez sur OK pour fermer la boîte de dialogue g d
  • 24. 24 Cliquez sur OK pour fermer la boîte de dialogue Arbre binaire de sécabilitéArbre binaire de sécabilité 2 6 8 5 7 4 1 3 6 8 7 2 5 4 31
  • 25. 25 Alignements sous-phrastiquesAlignements sous-phrastiques Passage du binaire au n-airePassage du binaire au n-aire  Axe interlingueAxe interlingue  Comparaison des arbres binaires de sécabilitéComparaison des arbres binaires de sécabilité  Notion de congruenceNotion de congruence Un amphigramme est constitué avec deux nœudsUn amphigramme est constitué avec deux nœuds dominant le même ensemble de vrais digrammesdominant le même ensemble de vrais digrammes On prendOn prend au moinsau moins deux vrais digrammes,deux vrais digrammes, => il peut y en avoir plus : arbre résultant n-aire=> il peut y en avoir plus : arbre résultant n-aire
  • 26. 26 Click OK to close the dialog box Cliquez sur OK pour fermer la boîte de dialogue CongruenceCongruence
  • 27. 27 Autre exempleAutre exemple This task shows you how to change views. Dans cette tâche, vous apprendrez à modifier les vues.
  • 28. 28 SaturationSaturation This A shows B how Dans cette A B apprendrez
  • 29. 29 ClassificationClassification Deux objectifsDeux objectifs  FactorisationFactorisation  ExtrapolationExtrapolation Généralisation des amphigrammesGénéralisation des amphigrammes  On remplace les amphigrammes fils par desOn remplace les amphigrammes fils par des paradigmes d’amphigrammes (classes)paradigmes d’amphigrammes (classes)  Amphigrammes « génériques »Amphigrammes « génériques »  Obtention d’une grammaireObtention d’une grammaire => TransTree = arbre de dérivation=> TransTree = arbre de dérivation
  • 30. 30 En résumé…En résumé… TransTree permet d’exprimer desTransTree permet d’exprimer des correspondances sous-phrastiques dans lescorrespondances sous-phrastiques dans les mémoires de traductionmémoires de traduction Le modèle est accompagné d’une méthodeLe modèle est accompagné d’une méthode générale d’acquisition de données par voiegénérale d’acquisition de données par voie statistiquestatistique
  • 31. 31 PlanPlan IntroductionIntroduction Modèle pour l’alignementModèle pour l’alignement Acquisition de l’informationAcquisition de l’information ExpérimentationsExpérimentations  Données de travailDonnées de travail  ÉÉchantillonschantillons Application et perspectivesApplication et perspectives
  • 32. 32 Filtrage des mémoiresFiltrage des mémoires Tous les bisegments ne sont pas utilesTous les bisegments ne sont pas utiles  Segments non textuels (balises, code, variables etc.)Segments non textuels (balises, code, variables etc.)  Anglais dans le français (ou l’inverse)Anglais dans le français (ou l’inverse)  Mauvais découpageMauvais découpage
  • 33. 33 VolumesVolumes Avant filtrageAvant filtrage  Taille des données : 565 MoTaille des données : 565 Mo  Nombre de mémoires : 453Nombre de mémoires : 453  Nombre de bisegments : 1 785 684Nombre de bisegments : 1 785 684 Après filtrageAprès filtrage Segments Mots (occurrences) Mots (prototypes) Hapax SOURCE 64 658 691 532 18 727 7 376 CIBLE 64 658 758 896 20 334 7 981
  • 34. 34 Longueur des phrasesLongueur des phrases Nombre de mots X1000phrases
  • 35. 35 Echantillon briques traductionnellesEchantillon briques traductionnelles default par défaut database base de données Click Cliquez sur password mot de passe all tous les output de sortie viewpoint point de vue will be sera Cannot Impossible de cannot ne peut pas cannot ne pouvez pas Buidtime Client de modélisation as au fur et à mesure que
  • 36. 36 PlanPlan IntroductionIntroduction Modèle pour l’alignementModèle pour l’alignement Acquisition de l’informationAcquisition de l’information ExpérimentationsExpérimentations Application et perspectivesApplication et perspectives
  • 37. 37 Applications immédiatesApplications immédiates Aide aux traducteursAide aux traducteurs  Améliore la perception de ce qui est utileAméliore la perception de ce qui est utile  Permet une édition plus efficacePermet une édition plus efficace EnseignementEnseignement  ÉÉditions bilinguesditions bilingues  Permet à l’apprenant d’identifier les correspondancesPermet à l’apprenant d’identifier les correspondances
  • 38. 38 PerspectivesPerspectives Algorithme de production de segments cibleAlgorithme de production de segments cible  ClassificationClassification  Modèle de traductionModèle de traduction  ÉÉvaluation sur la traductionvaluation sur la traduction Systèmes d’écriture sans séparateurSystèmes d’écriture sans séparateur Ajuster les indicesAjuster les indices  Digrammes, sécabilité, classificationDigrammes, sécabilité, classification  Avec un algorithme itératifAvec un algorithme itératif Diminution du nombre de descripteursDiminution du nombre de descripteurs Densification de l’alignementDensification de l’alignement
  • 40. 40