Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Die Rolle der Terminologie in der maschinellen Übersetzung

419 views

Published on

Vor der Systemauswahl bei der Einführung von MÜ-Systemen in Unternehmen steht besser früher als später auch die Frage nach der Integration bestehender Terminologie in den MÜ-Prozess an. Neuere Verfahren zur MÜ geben nun Anlass, die Rolle der Terminologie für das domänenspezifische MÜ-Training erneut zu evaluieren. Hierzu gibt der Vortrag eine Bestandsaufnahme zur Voraussagbarkeit und Rückverfolgung terminologischer Effekte in diversen MÜ-Szenarien, die als Orientierungshilfe zur Systemwahl dienen kann.

Veranstaltung: tekom Frühjahrstagung 2017, Kassel

Published in: Business
  • Be the first to comment

  • Be the first to like this

Die Rolle der Terminologie in der maschinellen Übersetzung

  1. 1. Zur Rolle der Terminologie in der maschinellen Übersetzung Adaption, Integration & Effekte
  2. 2. Redaktions- prozess Übersetzungs- prozess Publikations- prozess Seit 2016 Sprachprozessberater bei berns language consulting Studium der Computerlinguistik & Sozialpsychologie Fokus: MÜ-Training & -Evaluation, Terminologiemanagement, Sprachqualitätssicherung http://www.berns-language-consulting.de @blcTeam Christian Eisold +49 211 22 06 77 15 eisold@berns-language-consulting.de Begleitend zum Vortag: Kapitel zum Thema im BDÜ-Ratgeber ‚Maschinelle Übersetzung‘ (2017)
  3. 3. • Mehr als zehn Jahre System-Expertise und Kunden-Erfahrung • Effiziente Textprozesse für Content-Erstellung und -Übersetzung • Unabhängig von Software- und Übersetzungsanbietern • Beste System- und Prozess-Lösungen für unsere Kunden
  4. 4. Agenda  MT-Verfahren im Vergleich  Domänenadaption & Terminologie-Integration • in der regelbasierten MT (RBMT) • in der statistischen MT (SMT) • in der neuronalen MT (NMT)  Korpuserstellung & terminologische Ressourcen  Vorverarbeitung von Trainings- und Übersetzungstexten  Zusammenfassung & Fazit
  5. 5. Regelbasiert Hybrid Korpusbasiert MT-Verfahren im Vergleich NMTSMT 201420001960 Datenbasis: Datenmodell: Training: RBMT Gramm. Merkmale, Morphologie, Semantik Manuelle Lexikoneinträge Regeln Übersetzungsmodell (TM) Häufigkeiten von Phrasenpaaren Sprachmodell (LM) Wortfolgen -> ‚Fluency‘ Auszählung von Phrasen im Korpus Software Chemie Wörter -> Vektoren, Neuronale Netze, Encoder-Decoder, RNNs, attentional models, etc. Anpassung von Gewichtungen Software Chemie
  6. 6. Domänenadaption & Terminologie-Integration Anpassung eines Übersetzungssystems an fachspezifische Texte (Domänen) Definition Übersetzung von domänenfremden Texten = unbekannte Terminologie = schlechte Qualität im Zieltext Wozu? • Termverwendung in Trainings- und Ausgangstexten • Domänenspezifische Wörterbücher / Korpora • Vorverarbeitung, Filter, Systemanpassungen Wie? ´Glossaries are the glue of quality´ Tony O'Dowd, Kantan MT
  7. 7. Mir ist ein Fehler aufgefallenAusgangssatz Domänenadaption in der RBMT I noticed a mistake. Fehler Substantiv - animiert Abstraktion Wörterbuch Zielsatz D1 Eintrag Regeln aufgefallen Verb intransitiv Partizip II
  8. 8. Domänenadaption in der RBMT Mir ist ein Fehler aufgefallen. aufgefallen Verb intransitiv Partizip II I noticed an error. Fehler Substantiv - animiert Abstraktion Wörterbuch Ausgangssatz Zielsatz D2 Eintrag Regeln bug.a
  9. 9. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT 2. 1. 3. Priorisierung
  10. 10. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT Screenshot: Eintrag für ‚Fehler‘ im generellen Wörterbuch  Unbekannte Terminologie kann über Termbanken integriert werden  Import erübrigt nicht Codieraufwand
  11. 11. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT Screenshot: Eintrag für ‚aufgefallen‘ im allgemeinen Wörterbuch  Wortformen müssen einzeln angelegt werden  Entscheidung über Worteigenschaften nicht immer leicht zu fällen (z.B. Argumentrahmen) He admires your working with such skill. admire (($SUBJ N1 (TYPE P1)) ($DOBJ N1 N0 (ICP ING-SUBJ))) Bsp. Für Argumentrahmen:
  12. 12. Domänenadaption in der SMT Software Software Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora
  13. 13. Domänenadaption in der SMT Software Chemie Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora Chemie
  14. 14. Domänenadaption in der SMT Software News Chemie Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora News
  15. 15. Domänenadaption in der SMT Software News Chemie Single-Domain- Korpora MT-System Chat Training einzelner Engines über domänenspezifische Korpora Chat
  16. 16. Software Systemvoraussetzung Bitte vor der Installation Systemvoraussetzungen prüfen. Domänenadaption in der SMT Mischkorpus Software MT-System Software DEU ENG ‚corpus filtering‘ Gigabyte Startmenü Korpusfilterung über domänenspezifische Termbanken Die Anwendung benötigt mindestens 4 Gigabyte RAM. Starten Sie das Programm über den Eintrag im Startmenü. Die stärkste der schwachen Bindungen ist die Wasserstoffbrückenbindung. Mischkorpus
  17. 17. Domänenadaption in der SMT Software Chemie Mischkorpus MT-System Chemie DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken Chemie
  18. 18. Domänenadaption in der SMT Software News Chemie Mischkorpus MT-System News DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken News
  19. 19. Domänenadaption in der SMT Software News Chemie Chat Mischkorpus MT-System Chat DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken Chat
  20. 20. MT-System Domänenadaption in der SMT Software Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Software Domänenspezifisches Korpus der Zielsprache
  21. 21. Domänenadaption in der SMT Software Chemie MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Chemie Domänenspezifisches Korpus der Zielsprache
  22. 22. Domänenadaption in der SMT Software News Chemie MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle News Domänenspezifisches Korpus der Zielsprache
  23. 23. Domänenadaption in der SMT Software News Chemie Chat MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Chat Domänenspezifisches Korpus der Zielsprache
  24. 24. Terminologie-Integration in der SMT Indirekte Integration in Trainingstexte ... einem Fehler ... ... dieses Fehlers ... ... diesen Fehlern ... ... a bug ... ... this bug ... ... these bugs ... • Standardfall, Terminologie im Trainingstext • Je mehr Verwendungskontexte, desto mehr Wortformen sind dem System bekannt • Oft benötigte/fehlende Wortformen können dem Korpus im Kontext hinzugefügt werden  Analyse notwendig • Teilweise vom Anwender durchführbar
  25. 25. Terminologie-Integration in der SMT Direkte Integration in Trainingstexte Term-DB Fehler bug DEU ENG Vor der Installation bitte folgende Schritte beachten: Please follow these steps before installation: Bitte Systemvorraussetzungen überprüfen Please check system requirements Mindestens 4 Gigabyte RAM At least 4 gigabytes ram Fehler bug Rechner PC • Vom Anwender durchführbar • Bei kanonischen Formen keine Flexion im Zieltext • Ohne Voranalyse Effekte schwer einzuschätzen • Integration von flektierten Formen möglich, aber problematisch • Integration auch in monolinguale Texte für das Sprachmodell nötig
  26. 26. Terminologie-Integration in der SMT ‚phrase table‘-Kombination Term-DB + • Durch den Systembetreiber durchzuführen • Präferenz für Terme durch separates Übersetzungsmodell • Bei kanonischen Formen keine Flexion im Zieltext phrase tables = Liste mit bilingualen Phrasenpaaren + Wahrscheinlichkeiten
  27. 27. Terminologie-Integration in der SMT XML-Markup im Ausgangstext ... das ist <np translation="a cute place">ein kleines haus</np> ... ... this is a cute place ... das ist ein kleines <n translation="dwelling||house“ prob="0.8||0.2">haus</n>' • Standardmethode für dynamische Termintegration • Schneller Domänenwechsel möglich • Analyse des Ausgangstextes (Lemmatisierung) nötig • Benötigt bei stark flektierenden Zielsprachen Module zur Generierung von Wortendungen Software Term-DB Vorverarbeitung
  28. 28. Domänenadaption in der NMT 1. Lange Trainingszeiten 2. Vokabulargröße ist hardware- u. zeitabhängig 3. Unbekannte Wörter (Out-Of-Vocabulary) vermindern Übersetzungsqualität 4. Bisher keine explizite Methode zur Termintegration Ausgangslage 1. Adaption über Neutraining wenig flexibel 2. Terme sind nicht zwangsläufig häufig im Korpus vertreten 3. Terme sind dem System nicht bekannt (OOV-Wörter) 4. Terminologie muss über den Trainingstext gelernt werden Konsequenzen für die Domänenadaption Vielfältige Lösungsansätze im Forschungsbereich (z.B. morphembasierte NMT) Lösungen
  29. 29. Terminologische Ressourcen & Korpuserstellung Seed-Terme Term (DEU) Term (ENG) WWW Dieser Satz enthält einen [Term]. This sentence contains a [Term]. Just a regular sentence. Ein ganz gewöhnlicher Satz. Term-DB NEWS SMT/NMT D1 Crawler Termextraktion D1 DEU ENG RBMT Erstellung von Einträgen
  30. 30. dator, persondator, pc – Computer, Rechner, PC Vorverarbeitung Computer, Rechner, PC Software, Anwendung, Programm Rechner Anwendung  Bestimmung von Termvarianten in Nutzerdokumenten  Keine 1:n / n:1 / n:n – Beziehungen in Trainings- und Ausgangstexten dator – Computer, Rechner, PC Eine Form pro Bedeutung! Keine Synonymie, Homografie Nutzung von Sprachprüf-Tools und Termbanken bei Texterstellung Termextraktion Normalisierung dator, persondator, pc – Computer
  31. 31. Thank You! Vielen Dank! @blcTeam +49 211 22 06 77 22 info@berns-language-consulting.de www.berns-language-consulting.de

×