2012 MosesCore LocWorld Seattle: Language Processing Techniques for Statistical Machine Translation

273 views
235 views

Published on

How advanced technologies can improve the generic output of machine translation.

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
273
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

2012 MosesCore LocWorld Seattle: Language Processing Techniques for Statistical Machine Translation

  1. 1. Language Processing TechniquesforStatistical Machine TranslationContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  2. 2. To start ...Contact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  3. 3. … you choose Moses ...Translation memories + linguistic assetsCleaning and training following tutorialsBLEU score seems ok in training… but ...the results are awful!Contact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  4. 4. Why?Not enough dataUnclean translation memoriesMisalignmentsSpelling and grammar errorsDifficult language pairsSelection of wrong parametersApplication of suboptimal techniquesSo many things … what can you do?Contact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  5. 5. Contact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  6. 6. Some stepsMaximum exploitation of existing assetsSource content optimizationData selection and cleaningImprovement of the modelsLinguistic processingContinuous improvementContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  7. 7. Existing assets: increase TM leverageTranslation memory sharingClients, Partners, Competitors, EU, UN, TAUSRelevant on-line data retrievalAdvanced TM techniquesSub-segment matchingParts of Speech replacementContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  8. 8. Source optimization (I): Pre-editingSpell checkGrammar checkStyle checkTerminology checkClient checklistnewdocproposeddoc + htmlreportContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  9. 9. Source optimization (II): Summarization% to reduceUse translation memoriesProjectClientAllnewdocproposeddoc + htmlreportContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  10. 10. Summarization examplehttp://www.translationautomation.com/press-releases/free-open-source-machine-translation-tutorial-is-made-available-by-tausContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  11. 11. Data selection and cleaning – a sampleClean translation memoriesLength, punctuation, terminology, repetitions …Segment splittingOptimize weight of most frequent n-grams in corpusValidate their translationsAdd out-of-domain data for irrelevant n-gramsContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  12. 12. Models optimizationFilter the translation tablesRemove the garbage + tune the weights if necessaryOptimize language modelsAdapt them to the translation purposeTune parameters correctlyTune set, test set, optimization parameters …Improve recasingContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  13. 13. Linguistic processingIn the source and/or target languageGrammar checkingEntities detectionproper nouns, alphanumeric words, numbers, ...Compound words splittingSentence reorderingContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  14. 14. Continuous improvementQualitative feedback of translatorsReportsAutomatic post-processing withmachine translation + post-edited segmentsContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96
  15. 15. An example fromSourceXXX 335102 doses are calculated as a free acid of the sodium salt (NA).The potential toxicity of XXX 335102 was studied in a number of acute toxicity studies in mouse and ratand repeat dose toxicity studies of 8 and 32 weeks each in rat and monkeys.XXX 335102 was negative in a panel of in vivo and in vitro tests to assess mutagenicity andclastogenicity identifying no genotoxic risks for human subjects.An in vitro assay for phototoxic potential suggested that XXX 335102 is photoxic/photosensitive.In the 8-week studies in monkeys, increases in unconjugated bilirubin were noted at the doses tested(33, 88, 192 and 444mg/kg/day); the greatest increases occurring at Week 4 and declining or returningto control levels by Week 8.ReferenceLas dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS).La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones yratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutageniay clastogenia, sin identificarse riesgos genotóxicos para el ser humano.En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico ofotosensibilizador.En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con lasdosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 ydisminuyendo o volviendo a los niveles de control en la semana 8.
  16. 16. Generic engineXXX 335102 se calculan en forma de dosis de ácido libre del sodio sal (NA).La Toxicidad potencial de XXX 335102 fue estudiado en una serie de estudios de toxicidad aguda enratón y rata y vuelva a dosis estudios de toxicidad, de 8 y de 32 semanas en rata y cada uno de losmonos.XXX 335102 era negativo en un grupo de in vivo y pruebas in vitro para evaluar mutagenicidad ygenotóxicas clastogenicity no identificar los riesgos para los participantes humanos.Un para fines de ensayo in vitro phototoxic potencial se sugirió que XXX 335102photoxic/Photosensitive.En Los 8 -week estudios en los monos, aumentos en unconjugated bilirrubina salieron a las dosisanalizada (33, 88, 192 y 444 mg/kg/día); los mayores incrementos habidos En la semana 4 y lareducción o devolver a nivel de control de 8 Por semana.Medical engine with improvementsLas dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS).La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones yratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia yclastogenia, sin identificarse riesgos genotóxicos para el ser humano.En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico ofotosensibilizador.En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosisestudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo ovolviendo a los niveles de control en la semana 8.
  17. 17. ReferenceLas dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS).La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones yratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutageniay clastogenia, sin identificarse riesgos genotóxicos para el ser humano.En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico ofotosensibilizador.En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con lasdosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 ydisminuyendo o volviendo a los niveles de control en la semana 8.Medical engine with improvementsLas dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS).La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones yratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia yclastogenia, sin identificarse riesgos genotóxicos para el ser humano.En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico ofotosensibilizador.En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosisestudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo ovolviendo a los niveles de control en la semana 8.
  18. 18. ConclusionsMT can be combined with other advanced techniquesCreating and improving an engine requires timeYou can also be lucky at the first try!The optimum results require translatorsImplementation of the linguistic knowledgeContinuous improvementContact: Diego Bartolome – dbc@tauyou.comC/ Les Planes 39, 1o 2a – 08201 Sabadell – SpainTel. +34 93 711 29 96

×