Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologi...
Mehrsprachigkeit – ein Problem?! 
Mehrsprachige Technologien – 6. Oktober 2014! 2!
Übersetzung: Ein Riesengeschäft!! 
Kommerzielle Übersetzung: ein Markt von 
über 20 Milliarden Euro jährlich!! 
Bereitstel...
Übersetzung: Ein Riesengeschäft!! 
Wirtschaftlicher Vorteil;! 
Anforderung an öffentliche 
Einrichtungen, insbesondere in ...
Übersetzung – ein Potential in Europa: 
The Digital Single Market!! 
• 51% der europäischen 
Einzelhändler verkaufen 
Ware...
Die Sprachtechnologie-Community 
in Europa: META-NET! 
• Exzellenznetzwerk! 
• 60 Forschungseinrichtungen 
in 34 Ländern! ...
7! 
Übersetzung: 
Automatisierung 
ist unverzichtbar!! 
Steigende Anforderungen! 
– Übersetzungsmenge! 
– Sprachabdeckung!...
Automatische Übersetzung 
für Jedermann?! 
Online 
Übersetzungstool: 
Google Translate, 
Bing Translate, ...! 
Meine 
Inha...
Exkurs: Ansätze für MT! 
9! 
Regelbasierter Ansatz! 
– Nutzt Grammatik, 
Lexikon, Überset-zungsregeln 
! 
– Vorteil: leich...
Exkurs: Ansätze für MT! 
Statistischer Ansatz! 
– Nutzt Trainingsdaten von existierenden 
Übersetzungen! 
– Vorteil: Neue ...
Online MT Services! 
• Basis: typischerweise statistischer Ansatz! 
• Ergebnisse sind schnell verfügbar! 
• Qualität oft s...
WAS BRAUCHEN KMU UM MT 
ERFOLGREICH EINZUSETZEN?! 
Mehrsprachige Technologien – 6. Oktober 2014! 12!
1. Eigene Übersetzungssysteme! 
• System anpassen via 
entsprechender 
Trainingsdaten! 
– Verfügbarkeit variiert 
stark je...
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Anpassung an Domänen! 
14! 
... 
...
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Eigene Terminologie: (Firmen) spe...
1. Eigene Übersetzungssysteme! 
• Leichte Integration in 
Digital Content 
Management! 
– Workflows zwischen 
CMS, DMS, En...
2. Qualität! 
• Übersetzungsqualität: Was ist das?! 
– Beispiel: Text verständlich, Layout kaputt – 
Zeitersparnis durch Ü...
3. Integration in Workflows! 
• Inhaltserstellung! 
• Übersetzung! 
• Korrektur durch menschliche Übersetzer 
(Post-Editin...
4. Nutzung existierender, 
mehrsprachiger Daten! 
• Beispieldatenquelle: Wikipedia/DBpedia! 
– Sprachübergreifende Links! ...
FORSCHUNGSERGEBNISSE! 
Mehrsprachige Technologien – 6. Oktober 2014! 20!
Forschungsergebnisse 1: MOSES! 
• Open-Source-Übersetzungssystem! 
• Übersetzungssysteme im Eigenbau! 
– Trainingsdaten! 
...
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• Metamodell zur Definition von Metriken, 
entwic...
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• META-Modell zur Definition von Metriken! 
• Mod...
Forschungsergebnisse 3: ITS 2.0! 
• Internationalization Tag Set (ITS) 2.0! 
• Metadaten („data categories“) für 
Übersetz...
ITS 2.0 Metadaten und 
automatische Qualitätskontrolle! 
25! 
td class=totrans! 
Canyon X and the Land of the Navajo/td! 
...
Forschungsergebnisse 4: 
Integration mit mehrsprachigen 
Datenquellen! 
• LIDER Projekt: 
Mehrsprachigkeit trifft 
semanti...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Eingabe: DBpedia + Wikidata 
Abfrageergebnisse und ausgezeichnete 
...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localizat...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localizat...
Ziel: Die mehrsprachige Plattform! 
• Open-Source-MT für Jedermann! 
– MOSES-basiert, leicht nutzbare Schnittstellen, 
Tra...
... als Teil der Open Web Platform!! 
31! 
• Open Source MT! 
• Qualitätsdefinition! 
• Workflowintegration! 
• Nutzung me...
Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologi...
Upcoming SlideShare
Loading in …5
×

Mehrsprachigkeit und semantische Technologien

593 views

Published on

Felix Sasaki, Georg Rehm. Mehrsprachigkeit und semantische Technologien. Berlin, Germany. October 2014. October 06, 2014.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Mehrsprachigkeit und semantische Technologien

  1. 1. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !
  2. 2. Mehrsprachigkeit – ein Problem?! Mehrsprachige Technologien – 6. Oktober 2014! 2!
  3. 3. Übersetzung: Ein Riesengeschäft!! Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!! Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar! Mehrsprachige Technologien – 6. Oktober 2014! 3!
  4. 4. Übersetzung: Ein Riesengeschäft!! Wirtschaftlicher Vorteil;! Anforderung an öffentliche Einrichtungen, insbesondere in Europa! Mehrsprachige Technologien – 6. Oktober 2014! 4!
  5. 5. Übersetzung – ein Potential in Europa: The Digital Single Market!! • 51% der europäischen Einzelhändler verkaufen Waren über das Internet! • Nur 21% unterstützen grenzüberschreitende Transaktionen! • 30% der Europäer haben bereits im Internet eingekauft! • Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt! Vgl. „Flash Eurobarometer:! User language preferences online“! 5! Mehrsprachige Technologien – 6. Oktober 2014!
  6. 6. Die Sprachtechnologie-Community in Europa: META-NET! • Exzellenznetzwerk! • 60 Forschungseinrichtungen in 34 Ländern! • Ziel: technologische Basis für das mehrsprachige Europa! Mehrsprachige Technologien – 6. Oktober 2014! 6!
  7. 7. 7! Übersetzung: Automatisierung ist unverzichtbar!! Steigende Anforderungen! – Übersetzungsmenge! – Sprachabdeckung! – Geschwindigkeit! – Qualität! – Preisdruck! – ...! Mehrsprachige Technologien – 6. Oktober 2014!
  8. 8. Automatische Übersetzung für Jedermann?! Online Übersetzungstool: Google Translate, Bing Translate, ...! Meine Inhalte! Alle Sprachen .... ?! Mehrsprachige Technologien – 6. Oktober 2014! 8!
  9. 9. Exkurs: Ansätze für MT! 9! Regelbasierter Ansatz! – Nutzt Grammatik, Lexikon, Überset-zungsregeln ! – Vorteil: leicht anpassbar an neue Bereiche! – Nachteil: sehr große Anzahl handgeschriebener Regeln nötig! ! Mehrsprachige Technologien – 6. Oktober 2014!
  10. 10. Exkurs: Ansätze für MT! Statistischer Ansatz! – Nutzt Trainingsdaten von existierenden Übersetzungen! – Vorteil: Neue Zielsprachen sind mit Trainingsdaten schnell implementiert! – Nachteil: Anpassung in speziellen Domänen wegen fehlender Trainingsdaten oft schwierig! 10! Ich mag meine Katze || I like my cat || 7! Ich mag meine Katze || I love my cat || 3! P (“I like my cat” || “Ich mag meine Katze“) = 0.7! Mehrsprachige Technologien – 6. Oktober 2014!
  11. 11. Online MT Services! • Basis: typischerweise statistischer Ansatz! • Ergebnisse sind schnell verfügbar! • Qualität oft schlecht – Gist-Translation! – Ziel: grob Inhalte erfassen! Mehrsprachige Technologien – 6. Oktober 2014! 11!
  12. 12. WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?! Mehrsprachige Technologien – 6. Oktober 2014! 12!
  13. 13. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Verfügbarkeit variiert stark je nach Sprachpaar! – Vgl. die META-NET Language White Paper Serie! 8IJUF 1BQFS 4FSJFT 5)& (&3."/ -"/(6"(& */ 5)& %*(*5"- "(& 8FJ•CVDI4FSJF %* %654$) 413$) *. %*(*5-/ ;*5-53 MKPTDIB #VSDIBSEU .BSLVT HH ,BUISJO JDIMFS #SJHJUUF ,SFOO +ÚSO ,SFVUFM OOFUUF -F•NÚMMNBOO (FPSH 3FIN .BOGSFE 4UFEF )BOT 6T[LPSFJU .BSUJO 7PML Mehrsprachige Technologien – 6. Oktober 2014! 13!
  14. 14. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Anpassung an Domänen! 14! ... Mehrsprachige Technologien – 6. Oktober 2014!
  15. 15. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Eigene Terminologie: (Firmen) spezifische Übersetzungsrichtlinien! 15! „Auto car“! „Auto vehicle“! „Auto ...“! Mehrsprachige Technologien – 6. Oktober 2014!
  16. 16. 1. Eigene Übersetzungssysteme! • Leichte Integration in Digital Content Management! – Workflows zwischen CMS, DMS, Enterprise CM, Web CMS, ...! • Schnittstellen! Mehrsprachige Technologien – 6. Oktober 2014! 16!
  17. 17. 2. Qualität! • Übersetzungsqualität: Was ist das?! – Beispiel: Text verständlich, Layout kaputt – Zeitersparnis durch Übersetzungssystem geht verloren! • Maße für Maschinen und den Menschen! – Qualität = Ähnlichkeit der Sätze mit Beispielübersetzungen! – Qualität = passend zu den Anforderungen im jeweiligen Übersetzungsauftrag! Mehrsprachige Technologien – 6. Oktober 2014! 17!
  18. 18. 3. Integration in Workflows! • Inhaltserstellung! • Übersetzung! • Korrektur durch menschliche Übersetzer (Post-Editing)! • Qualitätsüberprüfung in mehreren Zyklen ...! • Fertigstellung! Mehrsprachige Technologien – 6. Oktober 2014! 18!
  19. 19. 4. Nutzung existierender, mehrsprachiger Daten! • Beispieldatenquelle: Wikipedia/DBpedia! – Sprachübergreifende Links! • Herausforderung: Datenqualität! – Sprachabdeckung! – Verifizierung der Übersetzungen! – Verfügbarkeit! Mehrsprachige Technologien – 6. Oktober 2014! 19!
  20. 20. FORSCHUNGSERGEBNISSE! Mehrsprachige Technologien – 6. Oktober 2014! 20!
  21. 21. Forschungsergebnisse 1: MOSES! • Open-Source-Übersetzungssystem! • Übersetzungssysteme im Eigenbau! – Trainingsdaten! – Terminologie! – ... fertig J! • Achtung: Trainingsdaten sind teuer!! – Je mehr Qualität, desto mehr Daten nötig! Mehrsprachige Technologien – 6. Oktober 2014! 21!
  22. 22. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • Metamodell zur Definition von Metriken, entwickelt im QTLaunchPad Projekt! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant! Mehrsprachige Technologien – 6. Oktober 2014! 22!
  23. 23. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • META-Modell zur Definition von Metriken! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant!
  24. 24. Forschungsergebnisse 3: ITS 2.0! • Internationalization Tag Set (ITS) 2.0! • Metadaten („data categories“) für Übersetzungsworkflows! • Beispiel: „Translate“! – Ausgewählte Zeichenketten markieren als „nicht zu übersetzen“! • Mehrwert! – Qualität steigt! – Zahl von (manuellen) Korrekturen sinkt Geschwindigkeit wird erhöht! Mehrsprachige Technologien – 6. Oktober 2014! 24!
  25. 25. ITS 2.0 Metadaten und automatische Qualitätskontrolle! 25! td class=totrans! Canyon X and the Land of the Navajo/td! its:domainRule .../! its:translateRule .../! its:storageSizeRule ... storageSize=30/! target ... its:storageSize=30 its:locQualityIssueComment=Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30. ... mrk...Canyon X et la terre des Navajos/mrk...! Mehrsprachige Technologien – 6. Oktober 2014!
  26. 26. Forschungsergebnisse 4: Integration mit mehrsprachigen Datenquellen! • LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien! • Beispielnutzung:! – Sprachübergreifende Links bei Wikipedia! – Generierung von Übersetzungsvorschlägen für den menschlichen Übersetzer! Mehrsprachige Technologien – 6. Oktober 2014! 26!
  27. 27. Beispiel: Generierung von Übersetzungsvorschlägen! • Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett! ...Samuel Beckett/span./p! Mehrsprachige Technologien – 6. Oktober 2014! 27!
  28. 28. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! Mehrsprachige Technologien – 6. Oktober 2014! 28!
  29. 29. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! 29! Herausforderung:! „Zu viel Information ist keine Information!“! Mehrsprachige Technologien – 6. Oktober 2014!
  30. 30. Ziel: Die mehrsprachige Plattform! • Open-Source-MT für Jedermann! – MOSES-basiert, leicht nutzbare Schnittstellen, Trainingsdaten, Terminologie! • Qualitätsdefinition! – MQM: MT für jedes Projekt neu, so wie benötigt! • Workflowintegration! – ITS 2.0 Metadaten, Verarbeitung standardisierter Formate! • Nutzung mehrsprachiger, verlinkter Daten! – Verlinkung mit der passenden Information – nicht zu viel!! Mehrsprachige Technologien – 6. Oktober 2014! 30!
  31. 31. ... als Teil der Open Web Platform!! 31! • Open Source MT! • Qualitätsdefinition! • Workflowintegration! • Nutzung mehrsprachiger, verlinkter Daten! Mehrsprachige Technologien – 6. Oktober 2014!
  32. 32. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !

×