Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Doktorantūras semināra 1. prezentācija

196 views

Published on

Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus. Prezentācija par mašīntulkošanu doktorantūras skolas semināram 25.03.2015

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Doktorantūras semināra 1. prezentācija

  1. 1. Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus Autors: Matīss Rikters Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
  2. 2. Saturs • Mašīntulkošanas vēsture, pielietojums • Galvenie virzieni, tulkojumu vērtēšana • Hibrīdā mašīntulkošana • Daudzsistēmu hibrīdā MT • Daudzsistēmu hibrīdās MT eksperiments • Daudzvārdu savienojumu apstrāde
  3. 3. Mašīntulkošana • 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi – Džordžtaunas IBM eksperiments • 1954-1966 - Lielas divvalodu vārdnīcas + likumi • 1966-1980 - ALPAC ziņojums, pētījumi turpinājās Eiropā un Kanādā • 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT • 1990 - 2000 – Pētījumi runas tulkošanā
  4. 4. Mašīntulkošanas pielietojums • Tulkošanas pakalpojumi – Google Translate, Bing Translator, ... – Apjomīgu dokumentu tulkošana • Lokalizācija – Ebay, Adobe, ... • Terorisma apkarošana • Tulkošana no runas runā – Skype, ...
  5. 5. Mašīntulkošanas pieejas • Likumos bāzēta MT (LBMT) – Pārvietojumos bāzētā MT – Uz vārdnīcām bāzētā MT – Starpvalodu MT • Datos bāzēta MT – Statistiskā MT (SMT) – Uz piemēriem bāzētā MT • Hibrīdā MT
  6. 6. Mašīntulkojuma vērtēšana • BLEU – Vārdu un n-grammu atbilstība • METEOR • NIST • WER • Daudz citu
  7. 7. Hibrīdā MT • Daudzsistēmu hibrīdā MT • Statistiskā likumu ģenerēšana • Daudzkārtējā apstrāde (multi-pass)
  8. 8. Daudzsistēmu hibrīdā MT • Labākā veselā tulkojuma izvēle • Labāko tulkojuma daļu kombinēšana • Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
  9. 9. Literatūras izpēte Atslēgvārdi Atrastie raksti Coupling machine translation 3 Coupling hybrid machine-translation 2 Machine-translation System combination 12 Multi-Engine machine translation 11 • Tika meklēti raksti par daudzsistēmu mašīntulkošanu • Pēc anotāciju izlasīšanas atstāti 14 raksti detalizētai analīzei • Raksti izanalizēti un savstarpēji salīdzināti to rezultāti
  10. 10. Literatūras izpēte • Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network) • Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros • Visbiežāk tiek apvienotas SMT un LBMT • BLEU rezultāts vidēji pieaug par 5 – 10 %
  11. 11. Daudzsistēmu MT metodes • SMT + LBMT • Pārpratumu tīkls (confusion network) • Pārpratumu tīkls + uzlabojumi • Stara meklēšana (beam search) • Citas metodes
  12. 12. SMT + LBMT • Populārākais no sistēmu apvienošanas veidiem • BLEU pieaug par 10-15% Analizētie raksti: • Coupling Statistical Machine Translation with Rule-based Transfer and Generation • Hybrid architectures for multi-engine machine translation • Multi-engine machine translation with an open-source decoder for statistical machine translation • Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
  13. 13. Pārpratumu tīkls • Vienkāršākais sistēmu apvienošanas veids • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 4-10% Analizētie raksti: • Lattice-based system combination for statistical machine translation • MANY: Open source machine translation system combination
  14. 14. Pārpratumu tīkls + N-grammu balstītas iezīmes • Uzlabo pārpratumu tīkla darbību • BLEU pieaug par līdz pat 14% Analizētie raksti: • Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination • Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
  15. 15. Stara meklēšana • Alternatīva pārpratumu tīklam • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 10-14% Analizētie raksti: • Joint optimization for machine translation system combinationJoint optimization for machine translation system combination • Combining Machine Translation Output with Open Source: The CarnegieCombining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
  16. 16. Citas MT apvienošanas metodes • SMT+EBMT+TM+ NE • Rekursīvā teikumu dekompozīcija • Heiristiskā un statistiskā atlase 1-5% BLEU uzlabojums Analizētie raksti: • USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014 • Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching • Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition • First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
  17. 17. Daudzsistēmu hibrīdās MT eksperiments Tīmekļa MT sistēmas latviešu – angļu valodām •Google Translate •Bing Translator •Tildes Tulkotājs •Pragma 6 •BabelXL
  18. 18. Daudzvārdu savienojumu apstrāde
  19. 19. Daudzvārdu savienojumu apstrāde Metode BLEU Bāzlīnija 62.23 Bāzlīnija + MWE treniņu datos 62.10 Bāzlīnija + 2. tulkošanas tabula 62.04 Bāzlīnija + papildus iezīme 62.37
  20. 20. Līdz šim paveiktais • Izlasīta pusotra grāmata par MT • Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation • Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai • Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
  21. 21. Turpmākie tuvie plāni • Pabeigt rakstu par daudzsistēmu MT • Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu • Vadīt pāris kvalifikācijas darbu • Izplānot citus tālākus plānus
  22. 22. Izmantotie avoti • Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36. • Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010). • Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005. • Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008). • He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009. • Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3- Volume 3. Association for Computational Linguistics, 2009. • Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155. • Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006). • Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005. • Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007. • Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014. • Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008. • Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009. • Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022. • Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013. • Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks • Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/
  23. 23. Jautājumi?

×