Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DH EHESS Odyssée : Marianne Reboul

4,487 views

Published on

Séminaire Digital Humanities de l'EHESS, séance du 6 avril 2016 : L’Odyssée aujourd’hui. Projets de recherche et d’enseignement, avec Marianne Reboul, Arnaud Laborderie, Aurélien Berra et des étudiants de master.

Annonce du séminaire : http://philologia.hypotheses.org/1610.

Published in: Education
  • Be the first to comment

  • Be the first to like this

DH EHESS Odyssée : Marianne Reboul

  1. 1. Projet Odysseus Outil de comparaison automatique de traductions
  2. 2. Introduction La traductologie
  3. 3. 1.Uneétudehistorique :  N.B. : Pour Google Ngram, attention aux résultats faussés
  4. 4. 2.Unexerciced'analysestylistique :  Traduction de Salomon Certon : 1604 Muse raconte moy l'homme fin & rusé Qui si longtemps erra, depuis qu'il eut  rasé Le sacré mur de Troye, & d'hommes &  de villes Remarqua les façons farrouches &  civiles, Il eut en son esprit en courant sur les  mers Des douleurs en grand nombre, & des  travaux amers.  Traduction de Philippe Jaccottet : 1955 Ô Muse, conte­moi l’aventure de  l’Inventif : celui qui pilla Troie, qui pendant des  années erra, voyant beaucoup de villes, découvrant  beaucoup d’usages, souffrant beaucoup d’angoisses dans  son âme sur la mer ? Quelques chiffres : 6 vers pour Certon 4 vers pour Jaccottet 53 mots pour Certon 32 pour Jaccottet
  5. 5. 3.Pourquoifaire ?  ● Corpus : 207 traductions différentes >>> une centaine de traductions intégrales >>> plusieurs dizaines de millions de mots >>> 95 ans à compter seulement ● Objectivité : >>> pas de théorie a priori >>> remise en cause permanente avec outils évolutifs
  6. 6. I. Les phases de preprocessing
  7. 7. Les outils de base ● Segmentation : <ID1>Mentès, fils d’Anchialus, et il règne sur les</ID1> <ID2>Taphiens, peuple fort appliqué, à la marine. Ainsi  parla</ID2> ● Tokénisation : 1/ Avant tokenisation : {[Car, de toutes les femmes du palais c'était celle qui avait  le plus d'affection pour lui.]} 2/ Après tokenisation : {[Car] [,] [de] [toutes] [les] [femmes] [du] [palais] [c] [']  [était] [celle] [qui] [avait] [le] [plus] [d'affection] [pour] [lui]}
  8. 8. Les outils de base (suite) ● Lemmatisation : 1/Avant lemmatisation : {[Car, de toutes les femmes du palais c'était celle qui  avait le plus d'affection pour lui.]} 2/Après lemmatisation : {[Car] [,] [de] [tout] [le] [femme] [du] [palais] [c] ['] [être]  [celui] [qui] [avoir] [le] [plus] [d'affection] [pour] [lui]}  N.B. : 2 types de lemmatiseurs :  ✔ grammaire à état fini (dits « rule-based ») ✔ statistiques  (dont  l'apprentissage  dépend  entièrement  de  l'entraînement  sur  un  corpus)
  9. 9. Les outils de base (fin) ● Etiquetage syntaxique léger : Puis le peuple des morts par mes voeux et prières imploré,  je saisis les deux bêtes, leur tranchai la gorge sur le trou. Puis : ADV // le : DET:ART // peuple : NOM // des :  PRP:det // morts : NOM // par : PRP // mes : DET:POS //  voeux : NOM // et : KON // prières : NOM // imploré :  VER:pper // , : PUN // je : PRO:PER // saisis : VER:pres //  les : DET:ART // deux : NUM // bêtes : NOM // , : PUN //  leur : PRO:PER // tranchai : VER:simp // la : DET:ART //  gorge : NOM // sur : PRP // le : DET:ART // trou : NOM //
  10. 10. Quelques outils utiles ● Tokénisation du français : Freeling, NLTK, OpenNLP et  StanfordCoreNLP, Bonsai de l'équipe Alpage et TreeTagger  (la plupart des fautes : formes compositionnelles) ● Lemmatisation du français : LgeRM, Morfette, Unitex,  TreeTagger, etc. ● POSTagging français (étiquetage syntaxique léger) : ceux  que j'utilise : TreeTagger, StanfordTagger,  OpenNLPTagger ● Treebanks, etc : MaltParser, MSTParser et Berkeley  Parser (mentionnons aussi le FRMG Parser, et le LFG  Parser)
  11. 11. II. Alignement et Vecteurs
  12. 12. L'alignement humain/machine S1/C1 + S1/C2 + C1/C2 (S, C1) / (S, C2) (S, C1)/(S, C2)/(S, C3) OU (Comp(Cna, Cnb))/(Comp(Cn'a, Cn'b)) etc.
  13. 13. Le texte pivot G.XI.1 G.XI.2 G.XI.3 G.XI.4 Grec D.XI.1 D.XI.2 D.XI.3 D.XI.4 Dacier L.XI.1 L.XI.2 L.XI.3 L.XI.4 Lebrun B.XI.1 B.XI.2 B.XI.3 B.XI.4 Berard
  14. 14. L'alignement (biséquentiel ici) POStagging : noms propres Source Cible Prétraitement Needleman-Wunsch Sac de séquences : n séquences texte S n séquences texte C
  15. 15. La vectorisation : pourquoi ? Source Cible <IDx>M  ,   ,   μ  οῦσα πολύτροπον ὃς άλα    ,  </IDx>πολλὰ πλάγξθη ἐπεὶ <IDx>Muse , qu'il faut me dire , Celui  qui tant erra quand , de</IDx> <IDy>T      ροίης ἱερὸν πτολίεθρον  :    ’     ἔπερσεν πολλῶν δ ἀνθρώπων ἴδεν       </IDy>ἄστεα καὶ νόον ἔγνω <IDy>Troade , il eut pillé la ville sainte  , Celui qui visita les cités de tant  d'hommes et connut leur esprit</IDy> Trg1 : Ulysse sur les vaisseaux recourbés vers Ilion Src1 : δυσσ οςὈ ῆ λιον ε ς ε πωλον βη κοίλ σ' ν νηυσίνἼ ἰ ὔ ἔ ῃ ἐ ὶ Trg2 : Cyclope tua dans sa caverne profonde Src2 : Κύκλωψ ν σπ ϊ γλαφυρἐ ῆ ῷ Trg3 : le fils chéri d'Ulysse Src3 : δυσσ οςὈ ῆ φίλος υ όςἱ Vecteur d’ δυσσ ος :Ὀ ῆ 1 0 1 Vecteur d’Ulysse : 1 0 1 Vecteur de Κύκλωψ : 0 1 0 Vecteur de Cyclope : 0 1 0
  16. 16. III. Interface et comparaison statistique
  17. 17. 1.cDesexemplesconcrets(entreautres) Traductions Françaises
  18. 18. Desexemplesconcrets(ensuite)
  19. 19. Desexemplesconcrets(enfin)
  20. 20. (Zoom)
  21. 21. La comparaison statistique
  22. 22. Merci de votre attention Pour toutes questions : odysseuspolymetis2010@gmail.com

×