Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
TRADUCTION AUTOMATIQUE EN
LANGUE DES SIGNES BASÉE
SUR UNE APPROCHE STATISTIQUE
Présentée et soutenue publiquement le 10/03...
10/03/2017 2
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de ...
10/03/2017 3
• Projet WebSign du laboratoire de recherche LaTICE : mettre en
œuvre un outil de communication pour les male...
10/03/2017 4
• Le travail effectué s’articule autour de 4 axes :
Introduction (suite…)
1. L’étude des spécificités de la t...
10/03/2017 5
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de ...
10/03/2017 6
• Langue des signes  Langue naturelle
• Système de communication :
– Flexible
– Transmission
• Composition :...
10/03/2017 7
• L’universalité
• Les langues vocales
• L’iconicité
• Les standards d’écriture:
– Notation
– Annotation
Etat...
10/03/2017 8
• Forme écrite des LS:
– Utilisation
– Accès à l’information et au
contenu multimédia
• Spécificités :
– Mots...
10/03/2017 9
1. Système de notation de "Stokoe"
2. Système de notation "SignWriting"
3. Système de notation "HamNoSys"
4. ...
10/03/2017 10
• Etiquettes en majuscules
• Une glose = Un signe en ASL
• Exemple :
Etat de l’art
Système de notation "Glos...
10/03/2017 11
• Nécessité
• Spécification à un domaine particulier
 Traitement automatique des LS :
– Traduction
– Visual...
10/03/2017 12
• Collection de données  TALS
• Projets nationaux ou internationaux
• Caractéristiques
– Objectifs
– Taux d...
10/03/2017 13
• Ressources pour chaque LS
• Corpus vidéo  Outil d’annotation
• Définir les structures lexicales, syntaxiq...
10/03/2017 14
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 15
• Le TALS : la traduction automatique, la synthèse 3D, la modélisation, la génération de
discours automatiqu...
10/03/2017 16
Traitement automatique des langues des signes
Aperçu
•  Plusieurs approches
•  Absence d’une métrique de m...
10/03/2017 17
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 18
• Le système de transcription : Les conventions de Liddell.
• Représentation en gloses.
• Gestes non-manuels...
10/03/2017 19
• Soit la phrase en anglais suivante "I don't like chocolate".
Modélisation d’un système de transcription en...
10/03/2017 20
•  Aspect sémantique entre les signes
•  La mise en scène
•  La géométrie spatiale.
Modélisation d’un sys...
10/03/2017 21
• Taux de précision = 97%
• Les étapes d'évaluation :
– Préparation de la liste des phrases en Anglais avec ...
10/03/2017 22
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 23
• Approche
• 52 relations de dépendances grammaticales
• Taux de précision proche de 100% et un rappel (reca...
10/03/2017 24
• Noyau verbal
• Classificateurs
• Le temps
• Types de phrases:
– les questions de type "yes/no"
– les quest...
10/03/2017 25
• Les approches existantes :
– l’approche directe (approche de première génération)
– les approches de deuxi...
10/03/2017 26
Génération de discours en ASL à partir des règles de dépendances
Architecture du système proposé
Identificat...
10/03/2017 27
• Prétraitement et analyse lexicale
• Analyse grammaticale (96,72% / 84%)
• Analyse de dépendances
Génératio...
10/03/2017 28
• Matrice d’adjacence
Génération de discours en ASL à partir des règles de dépendances
Architecture du systè...
10/03/2017 29
• Génération de l'énoncé en ASL :
temps → sujet → verbe → objet → complément d'objet
• Matrice d’adjacence :...
10/03/2017 30
• Lemmatisation et mise en forme
• Post-processing
– Reconnaissance des entités nommées
– Résolution des cor...
10/03/2017 31
• Nombre de phrases !
• Evaluation des règles de transfert entre les deux langues (Anglais et ASL)
règle de ...
10/03/2017 32
Génération de discours en ASL à partir des règles de dépendances
Génération d'un corpus parallèle Anglais-AS...
10/03/2017 33
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 34
• Limites:
– Non-Bijectivité
– Evaluation manuelle.
• Les modèles
statistiques (les
modèles IBM)
• Alignemen...
10/03/2017 35
• Modèle probabiliste de Brown et al. : |
• Une traduction possible de = max de la probabilité | :
• Deux co...
10/03/2017 36
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Génération d’une mémoire de traduction lex...
10/03/2017 37
• Modèle IBM-1
• La probabilité de traduction d’une phrase source :
• Exemple :
Construction d'une mémoire d...
10/03/2017 38
• T-tables :
• Exemple :
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Alignement
Diagra...
10/03/2017 39
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Apprentissage des modèles de traductions l...
10/03/2017 40
0 1 2 3 4 5 6 7 10 15 20
YOU car 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,031...
10/03/2017 41
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Application de l’algorithme EM sur le modè...
10/03/2017 42
• Similarité des chaînes de caractères.
• La distance de Jaro-Winkler :
• distribution probabiliste d'une tr...
10/03/2017 43
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Optimisation à base des chaînes de caractè...
10/03/2017 44
• Modèles IBM :
– Modèle IBM 2: il supporte la traduction lexicale du modèle IBM 1 et rajoute un
nouveau par...
10/03/2017 45
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Modèles d’alignements
what is your
DESC-YO...
10/03/2017 46
• Alignement des phrases :
Construction d'une mémoire de traductions
lexicales "Anglais-ASL"
 YOU SEE | you...
10/03/2017 47
• Formulation :
• La formulation est identique à celle du modèle IBM (alignement mot-à-mot), pour
l'aligneme...
10/03/2017 48
• Le décodage : recherche des hypothèses t ayant les plus grandes probabilités suivant le
modèle de traducti...
10/03/2017 49
Construction d'une mémoire de traductions lexicales "Anglais-ASL"
Décodage : Exemple
YOU WHATNAME
name .
‘s ...
10/03/2017 50
• Taux d’Erreur de l’Alignement ‘Alignment Error Rate AER)’ :
• La mesure de précision :
• Le rappel :
Const...
10/03/2017 51
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 52
• Implémentation du traducteur automatique statistique basé sur une approche
sous-phrastique.
• Moses
• GIZA...
10/03/2017 53
• BLEU (BiLangual Evaluation Understudy en anglais) : algorithme pour l'évaluation de la
qualité d'un texte ...
10/03/2017 54
Variation du score BLEU selon la taille du corpus d'évaluation
Expérimentations et évaluation (suite…)
10/03/2017 55
• Introduction
• Etat de l’art
• Traitement automatique des langues de signes
• Modélisation d’un système de...
10/03/2017 56
• La traduction automatique vers l’ASL : Accessibilité aux contenus
numériques
• Contributions :
– Systèmes ...
10/03/2017 57
• Optimisation et intégration d’autres algorithmes d’apprentissage
• Comparaison à d’autres approches de tra...
10/03/2017 58
1. Achraf Othman, Mohamed Jemni. “A Novel Approach for
Translating English Statements to American Sign Langu...
Merci pour votre attention
10/03/2017
Upcoming SlideShare
Loading in …5
×

TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

652 views

Published on

EXPOSÉ de THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE PRÉSENTÉ PAR ACHRAF OTHMAN. CETTE THÈSE EST DIRIGÉE PAR PROF. MOHAMED JEMNI.

Published in: Education
  • Be the first to comment

TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

  1. 1. TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE Présentée et soutenue publiquement le 10/03/2017 par : Achraf Othman Dirigée par : Prof. Mohamed JEMNI Jury: Président: Prof. Faiez GARGOURI Rapporteur: Prof. Mounir ZRIGUI Rapporteur: Prof. Chiraz LATIRI Examinateur: Prof. Kais HADDAR THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE 10/03/2017
  2. 2. 10/03/2017 2 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  3. 3. 10/03/2017 3 • Projet WebSign du laboratoire de recherche LaTICE : mettre en œuvre un outil de communication pour les malentendants à travers le web, en utilisant un personnage virtuel 3D • Langue des signes  communauté des personnes sourdes • Interprétation et accès à l’information • Le Traitement automatique du langage naturel (TALN) • Le traitement automatique des langues de signes (TALS) • Traduction automatique vers et à partir des LS Introduction www.latice.rnu.tn/websign
  4. 4. 10/03/2017 4 • Le travail effectué s’articule autour de 4 axes : Introduction (suite…) 1. L’étude des spécificités de la traduction de la langue des signes transcrite manuellement ou bien automatiquement ; 2. Le développement d’un système de transcription ; 3. La génération d’un corpus parallèle artificiel en utilisant des approches linguistiques. 4. La traduction automatique en utilisant une approche statistique.
  5. 5. 10/03/2017 5 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  6. 6. 10/03/2017 6 • Langue des signes  Langue naturelle • Système de communication : – Flexible – Transmission • Composition : – Configuration – Emplacement – Orientation – Mouvement – Expression du visage Etat de l’art La langue des signes (LS)
  7. 7. 10/03/2017 7 • L’universalité • Les langues vocales • L’iconicité • Les standards d’écriture: – Notation – Annotation Etat de l’art Les langues de signes (suite…)
  8. 8. 10/03/2017 8 • Forme écrite des LS: – Utilisation – Accès à l’information et au contenu multimédia • Spécificités : – Mots et phrases ; – Configuration des deux mains – Gestes non-manuels – Iconicité – Possibilités descriptives Etat de l’art Systèmes de transcription des langues des signes ASL Lexicon Video Dataset ASLLVD
  9. 9. 10/03/2017 9 1. Système de notation de "Stokoe" 2. Système de notation "SignWriting" 3. Système de notation "HamNoSys" 4. Système de notation "SiGML" 5. Système de notation "SML" 6. Système de notation "Gloss" Etat de l’art Les systèmes de notation
  10. 10. 10/03/2017 10 • Etiquettes en majuscules • Une glose = Un signe en ASL • Exemple : Etat de l’art Système de notation "Gloss" "What is your name ?" "NAME YOU WHATWH"
  11. 11. 10/03/2017 11 • Nécessité • Spécification à un domaine particulier  Traitement automatique des LS : – Traduction – Visualisation • Gestes manuels • Gestion non-manuels Etat de l’art Systèmes de transcription: Problématiques
  12. 12. 10/03/2017 12 • Collection de données  TALS • Projets nationaux ou internationaux • Caractéristiques – Objectifs – Taux des données – Politique d'accessibilité – Nombre des participants – Système de transcription – Outils d'annotation – Les mouvements et les postules – La qualité des vidéos enregistrées Etat de l’art Les ressources linguistiques
  13. 13. 10/03/2017 13 • Ressources pour chaque LS • Corpus vidéo  Outil d’annotation • Définir les structures lexicales, syntaxiques, morphologiques etc. • Dictionnaires • Les problématiques qu'on peut extraire : –  Absence d'une grande base de données textuelle pour le TALS –  Spécification à un domaine –  Coût Etat de l’art Les ressources linguistiques : Problématiques
  14. 14. 10/03/2017 14 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  15. 15. 10/03/2017 15 • Le TALS : la traduction automatique, la synthèse 3D, la modélisation, la génération de discours automatique etc… • La synthèse des langues des signes : – basée sur la vidéo – l’animation de personnages de synthèse ou agent conversationnel • Plusieurs travaux sur le TALS: – WebSign du laboratoire LaTICE – VisiCast – eSIGN – TESSA – Vcom3D Traitement automatique des LS : TALS
  16. 16. 10/03/2017 16 Traitement automatique des langues des signes Aperçu •  Plusieurs approches •  Absence d’une métrique de mesure de la qualité de traduction •  Efficacité des systèmes d’annotation •  Evaluation.
  17. 17. 10/03/2017 17 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  18. 18. 10/03/2017 18 • Le système de transcription : Les conventions de Liddell. • Représentation en gloses. • Gestes non-manuels. Modélisation d’un système de transcription en XML pour l’ASL La représentation en XML "His aunt lived in Turkey. There had no contact with the aunt. She died and left something to him in her will”
  19. 19. 10/03/2017 19 • Soit la phrase en anglais suivante "I don't like chocolate". Modélisation d’un système de transcription en XML pour l’ASL API de création de XML-Gloss : Exemple
  20. 20. 10/03/2017 20 •  Aspect sémantique entre les signes •  La mise en scène •  La géométrie spatiale. Modélisation d’un système de transcription en XML pour l’ASL Discussions
  21. 21. 10/03/2017 21 • Taux de précision = 97% • Les étapes d'évaluation : – Préparation de la liste des phrases en Anglais avec leurs transcriptions correspondantes. – Pour chaque phrase, on suit une liste d'instructions pour générer le XML-Gloss. – Rendu final en utilisant les feuilles de style XSLT. – Comparer la transcription avec la transcription générée. Si le rendu est identique, on valide la phrase et sa transcription Modélisation d’un système de transcription en XML pour l’ASL API de création de XML-Gloss : Evaluation
  22. 22. 10/03/2017 22 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  23. 23. 10/03/2017 23 • Approche • 52 relations de dépendances grammaticales • Taux de précision proche de 100% et un rappel (recall) proche de 90% •  Notre approche : – Traitement automatique du texte donné en entrée et le représenter sous forme d'un graphe sémantique – Génération automatique de la transcription XML-Gloss Génération de discours en ASL à partir des règles de dépendances Motivations et Contributions
  24. 24. 10/03/2017 24 • Noyau verbal • Classificateurs • Le temps • Types de phrases: – les questions de type "yes/no" – les questions de type "wh" – les phrases négatives – Coordinations et subordination – Emotions Génération de discours en ASL à partir des règles de dépendances Motivations et Contributions (suite…) "I ASK YOU ‘YOU ASK ME’. BOOK:flat BOOK:thick "John doesn't buy the house"
  25. 25. 10/03/2017 25 • Les approches existantes : – l’approche directe (approche de première génération) – les approches de deuxième génération : • la méthode de transfert • la méthode interlingua • La méthode de la traduction par transfert  la traduction automatique de l‘Anglais vers l’ASL Génération de discours en ASL à partir des règles de dépendances Approche proposée
  26. 26. 10/03/2017 26 Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé Identification de langues Analyse syntaxique  Arbre syntaxique Analyseur de dépendances Matrice d’adjacence Lemmatisation et mise en forme Reconnaissance des entités nommées Corpus textuel Règles de segmentation Modèle d’étiquetage Grammaire de chunk Grammaire de dépendances Règles de transferts Etiquetage des catégories grammaticales Découpage en phrases et en mots Résolution de coréférence Génération d’une transcription XML-Gloss Texte brut Transcription en XML-Gloss
  27. 27. 10/03/2017 27 • Prétraitement et analyse lexicale • Analyse grammaticale (96,72% / 84%) • Analyse de dépendances Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) NNP("kate",NNP) → kate VBD("gave",VBD) → gave NN("chocolate",NN)→ chocolate IN("for",IN) → for DT("each",DT) → each NN("boy",NN) → boy SYM(",",SYM) → , NN("yesterday",NN)→ yesterday SYM(".",SYM) → . Kate gave chocolate for each boy .yesterday,
  28. 28. 10/03/2017 28 • Matrice d’adjacence Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) Graphe de dépendance de la phrase "Kate gave chocolate for each boy, yesterday" 28 19 40 50 49 18
  29. 29. 10/03/2017 29 • Génération de l'énoncé en ASL : temps → sujet → verbe → objet → complément d'objet • Matrice d’adjacence : tmod → nsubj → root → dobj → prep_for • Sous-composantes : tmod → nsubj → root → dobj → prep_for+det Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) "yesterday kate{t} gave chocolate each-boy"
  30. 30. 10/03/2017 30 • Lemmatisation et mise en forme • Post-processing – Reconnaissance des entités nommées – Résolution des coréférences – Génération de la transcription XML-Gloss • Rendu final Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé (exemple (suite…)) "YESTERDAY KATE{t} GIVE CHOCOLATE EACH-BOY"
  31. 31. 10/03/2017 31 • Nombre de phrases ! • Evaluation des règles de transfert entre les deux langues (Anglais et ASL) règle de transfert ( ⇒ ) par : "tmod + nsubj + root + dobj + prep_for-det" ⇒ "T + S + V + O + CO" • 820 règles de transfert • Taux de précision 82% pour 6720 phrases Génération de discours en ASL à partir des règles de dépendances Architecture du système proposé : Evaluation é = ( ) ( ) ×
  32. 32. 10/03/2017 32 Génération de discours en ASL à partir des règles de dépendances Génération d'un corpus parallèle Anglais-ASL Statistiques des données extraites à partir du corpus Gutenberg Nombre de mots Nombre de phrases Corpus Anglais 1 595 579 658 79 611 533 Anglais A.S.L # Phrases # Jetons # Phrases # Jetons Corpus pour apprentissage Corpus pour raffinement Corpus pour évaluation 79907 26636 13317 669045 223522 111658 79907 26636 13317 370030 123816 61773
  33. 33. 10/03/2017 33 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  34. 34. 10/03/2017 34 • Limites: – Non-Bijectivité – Evaluation manuelle. • Les modèles statistiques (les modèles IBM) • Alignement des mots et phrases (PBMT) Architecture du système de traduction automatique Recherche d’une traduction possible post-traitement pré-traitement Modèle lexical Modèle d’alignement Modèle de langage Texte en anglais Transcription en ASL Texte en anglais Transcription en ASL
  35. 35. 10/03/2017 35 • Modèle probabiliste de Brown et al. : | • Une traduction possible de = max de la probabilité | : • Deux composantes : – un modèle de traduction p T|P – un modèle de langage p(T) •  Mémoires de traduction Architecture du système de traduction automatique Principes de la traduction automatique statistique = max ( | ) = max ( | ) ( )
  36. 36. 10/03/2017 36 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Génération d’une mémoire de traduction lexicale Traduction de 'REVIEW' Nombre d'occurrences Probabilité d'alignement reviewed 1 1.0000000 reviews 3 0.6666667 review 9 0.4000000 for 7216 0.0001840 - 0.0001261 of 10854 0.0001064 the 32608 0.0000326 : → ∑ = 1 et ∀ : 0 ≤ ≤ 1 = 1.0000000 0.6666667 0.4000000 0.0001840 0.0001261 0.0001064 0.0000326 si e=′reviewed′ si e=′reviews′ si e=′review′ si e=′for′ si e=∅ si e=′of′ si e=′the′
  37. 37. 10/03/2017 37 • Modèle IBM-1 • La probabilité de traduction d’une phrase source : • Exemple : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement : Modèle d’alignement IBM 1 , | = + |
  38. 38. 10/03/2017 38 • T-tables : • Exemple : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement Diagramme d'alignement de la phrase 'YOU BLUE CAR' en ASL
  39. 39. 10/03/2017 39 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Apprentissage des modèles de traductions lexicales • Alignement à partir d’une grande quantité de données. • Problème de données incomplètes ! • L’algorithme EM : i. Initialiser le modèle avec une distribution probabiliste uniforme. ii. Appliquer le modèle sur les données existantes (Espérance). iii. Apprendre le modèle à partir des données (Maximisation). iv. Itérer les étapes 2 et 3 jusqu’à la convergence (généralement vers 1). • Les probabilités de traductions lexicales et de la Théorème de dérivation des fonctions :
  40. 40. 10/03/2017 40 0 1 2 3 4 5 6 7 10 15 20 YOU car 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315 YOU name 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000 YOU my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 YOU your 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000 NAME your 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000 NAME car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 NAME my 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315 NAME name 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000 PRO-1st name 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000 PRO-1st car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 PRO-1st your 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 PRO-1st my 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685 CAR my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 CAR your 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000 CAR name 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 CAR car 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Application de l’algorithme EM sur le modèle IBM 1
  41. 41. 10/03/2017 41 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Application de l’algorithme EM sur le modèle IBM 1
  42. 42. 10/03/2017 42 • Similarité des chaînes de caractères. • La distance de Jaro-Winkler : • distribution probabiliste d'une traduction lexicale : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Optimisation à base des chaînes de caractères similaires = + ℓ 1 − = 1 3 + + − = ⋅ + ⋅ ,
  43. 43. 10/03/2017 43 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Optimisation à base des chaînes de caractères similaires
  44. 44. 10/03/2017 44 • Modèles IBM : – Modèle IBM 2: il supporte la traduction lexicale du modèle IBM 1 et rajoute un nouveau paramètre dans l’équation de l’alignement a(i|j,l_f,l_e ). – Modèle IBM 3: il supporte toute les caractéristiques du modèle IBM 2 et rajoute un modèle de richesse n(∅,f). – Modèle IBM 4: En plus du modèle IBM 3, ce modèle supporte le modèle probabiliste de la distorsion lors de la traduction. Il formalise l’ajout d’un NULL. – Modèle IBM 5: Ce modèle est le plus avancé, il permet de calculer la défaillance de la traduction lors de la phase de l’apprentissage. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Modèles d’alignements
  45. 45. 10/03/2017 45 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Modèles d’alignements what is your DESC-YOURTEACHER NAME 1 2 3 23 4 teacher 4 ‘s name 5 6 ? 7 ‘HUH’ ? 5 6 NULL HEY 1 your teacher name ?? your teacher name ?? HEY DESC-YOUR TEACHER NAME ?‘HUH’ Etape de Richesse Insertion du jeton NULL Traduction lexicale Alignement
  46. 46. 10/03/2017 46 • Alignement des phrases : Construction d'une mémoire de traductions lexicales "Anglais-ASL"  YOU SEE | you see  the new clothing store | NEW CLOTHES STORE  put in | PUT IN
  47. 47. 10/03/2017 47 • Formulation : • La formulation est identique à celle du modèle IBM (alignement mot-à-mot), pour l'alignement à segments, on décompose ( | ) en : – est la phrase cible (la traduction). – est la langue source. – ( ) est le modèle du langage de la langue cible. •  Efficacité. •  Traduction proche de la traduction humaine. •  Aussi, la traduction à partir des segments nous permet de résoudre les problèmes d'ambigüités. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Alignement à base de segments (suite…) | = ∅ | − −
  48. 48. 10/03/2017 48 • Le décodage : recherche des hypothèses t ayant les plus grandes probabilités suivant le modèle de traduction ( | ). • Le modèle ( | ) est une combinaison log-linéaire de quatre composants : – un ou plusieurs modèles trigramme de la langue cible, – un ou plusieurs modèles de traduction basés sur les segments – un modèle de distorsion – et un modèle de longueur qui rend compte des différences de longueur entre les deux langues. Construction d'une mémoire de traductions lexicales "Anglais-ASL" Décodage = ∅ | − −
  49. 49. 10/03/2017 49 Construction d'une mémoire de traductions lexicales "Anglais-ASL" Décodage : Exemple YOU WHATNAME name . ‘s name . ‘s name name you you . your you are what what is what he says what he ‘s names named name ? you are you you ? , you what are you what you say you what you tell you what what i what you what is the YOU WHATNAME -0.563 -0.564 -0.566 -0.566 -0.229 -0.422 -0.433 -0.550 -0.387 -0.572 -0.653 -0.679 -0.766 -0.805 -0.931 -1.076 -0.588 -0.666 -0.669 -0.644 -0.650 -0.791 -0.898 -0.695 -0.695 -0.728
  50. 50. 10/03/2017 50 • Taux d’Erreur de l’Alignement ‘Alignment Error Rate AER)’ : • La mesure de précision : • Le rappel : Construction d'une mémoire de traductions lexicales "Anglais-ASL" Evaluation , ; = ∩ + ∩ +
  51. 51. 10/03/2017 51 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  52. 52. 10/03/2017 52 • Implémentation du traducteur automatique statistique basé sur une approche sous-phrastique. • Moses • GIZA++ : implémente les algorithmes des modèles IBM 1-5. • SRI-LM : implémente les algorithmes de génération des modèles de langage (n- gram). Expérimentations et évaluation www.statmt.org/moses
  53. 53. 10/03/2017 53 • BLEU (BiLangual Evaluation Understudy en anglais) : algorithme pour l'évaluation de la qualité d'un texte traduit par un traducteur automatique. La qualité est déterminée à partir de la traduction générée automatiquement et sa référence traduite par un être humain. • Corpus : Expérimentations et évaluation (suite…) Nombre de mots Nombre de phrases Corpus Anglais
  54. 54. 10/03/2017 54 Variation du score BLEU selon la taille du corpus d'évaluation Expérimentations et évaluation (suite…)
  55. 55. 10/03/2017 55 • Introduction • Etat de l’art • Traitement automatique des langues de signes • Modélisation d’un système de transcription en XML pour l’ASL • Génération de discours en ASL à partir des règles de dépendances • Architecture du système de traduction automatique • Expérimentations et évaluation • Conclusion et perspectives
  56. 56. 10/03/2017 56 • La traduction automatique vers l’ASL : Accessibilité aux contenus numériques • Contributions : – Systèmes de transcription – Génération des corpus artificiels à partir des graphes de dépendances grammaticales. – Apprentissage automatique. – Modèles d’alignement IBM – Décodage Conclusion et perspectives
  57. 57. 10/03/2017 57 • Optimisation et intégration d’autres algorithmes d’apprentissage • Comparaison à d’autres approches de traduction • Langues des signes Arabes , Langues des signes Françaises etc… Conclusion et perspectives
  58. 58. 10/03/2017 58 1. Achraf Othman, Mohamed Jemni. “A Novel Approach for Translating English Statements to American Sign Language Gloss”. 14thICCHP 2014, Paris, France, July 9-11, 2014, Proceedings, Part II. LNCS 8548, Springer 2014, ISBN 978- 3-319-08598-2, pp 431-438. 2. Mohamed Jemni, Sameer Semreen, Achraf Othman, Zouhour Tmar, Nadia Aouiti. “Toward the creation of an Arab Gloss for arabic Sign Language annotation”. 4th ICTA13, October 21-23, 2013, Hammamet, Tunisia. 3. Achraf Othman, Raouia Hamdoun. “Toward a new transcription model in XML for Sign Language Processing based on gloss annotation system”. 4th ICTA13, October 21-23, 2013, Hammamet, Tunisia. 4. Zouhour Tmar, Achraf Othman, Mohamed Jemni. “A Rule- Based Approach for Building an Artificial English-ASL Corpus”. International Conference on Electrical Engineering and Software Applications ICEESA, March 21- 23, 2013, Hammamet, Tunisia. 5. Achraf Othman, Mohamed Jemni. “A probabilistic model for Sign Language Translation Memory”. The 1st International Symposium on Intelligent Informatics, ISI’12, August, Chennai, India, 4-5, 2012. 6. Achraf Othman, Zouhour Tmar, Mohamed Jemni. “Toward developing a very big Sign Language Parallel Corpus”. The 13th ICCHP, Lecture Note in Computer Science LNCS Springer, July 11-13, 2012, University of Linz, Austria. 7. Achraf Othman, Mohamed Jemni. “English-ASL Gloss Parallel Corpus 2012: ASLG-PC12”. LREC 2012, 5th Workshop on the Representation and Processing of Sign Languages: Interactions between Corpus and Lexicon, May 51-27, 2012, Istanbul Turkey. 8. Achraf Othman, Mohamed Jemni, “La traduction automatique à base de statistiques au service de la langue des signes”. 4ème édition du colloque INFOL@NGUES 2012, April 5-7, 2012, Béjà, Tunisia. 9. Achraf Othman, Mohamed Jemni. “Statistical Sign Language Machine Translation: from English written text to American Sign Language Gloss”. International Journal of Computer Science Issues, Vol 8, Issue 5, September 30, 2011. Publications
  59. 59. Merci pour votre attention 10/03/2017

×