MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt
1.
2. No SIREN 809158900 No SIRET 8091589000013
Call us
Our office phone number: (33) 5 59 47 74 01 (FRANCE)
Our E-mail : info@word-connection.fr
WORD CONNECTION SARL
Like us on Facebook: facebook.com/wordconnection/
Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/
Follow us on Twitter: twitter.com/wordconnection
3. Mine your term to be the best.
How to improve translation quality with
term extract and text mining
自然言語処理のコンセプト・翻訳ツール
を用いた用語抽出と構築・管理について
用語構築で翻訳の質を高めるには
Kaori Myatt
kaori@word-connection.fr
www.kaorimyatt.com
4. 自己紹介 Kaori Myatt マイアットかおり
マイアットかおり
経歴:
日本生まれ・新潟県出身
慶応大学文学部 ポーツマス大学翻訳修士
滞在経験 日本・アメリカ・ニュージーランド・フランス (16年目)
半導体企業インハウス翻訳者、新聞社記者・編集者を経験した後
フリーランス翻訳(産業翻訳・ローカライゼーション)(20年) を経て
現在欧州・米国・日本を含む約350社と契約・取引
Word Connection sarl (France) 取締役代表 品質管理
Word Connection JAPAN 取締役代表
専門分野・研究分野は翻訳理論と翻訳テクノロジー、自然言語処理(NLP)・
Phython 等プログラミングを使った翻訳処理技術研究
5. セッション内容紹介 Session contents
Twitter: @wordconnection
本セッションでは以下について話します
This session is focused on:
-産業翻訳における用語の定義についての重要性
Importance of Terminology in industrial translation setting
-CAT ツールでのAI技術を使った用語の定義・構築の方法と活用について
Ways to build / reverage from terminology using NLP related functionalty on
CAT tools
6. 会社紹介 Word Connection France /JAPAN
Word Connection sarl ビアリッツ・フランス
Word Connection JAPAN 東京
社是: 翻訳テクノロジーを用いて最高の翻訳を届ける
社員数: フランス 6名+1名(インターン)日本 2名
全員2~4カ国語を習得、翻訳修士所持者とライター・出版経験者
100万ワードを超える大規模翻訳 Twitter: @wordconnection
複雑なローカライゼーション
欧州言語ローカライゼーション
欧州各社とのコラボレーション
欧州各社との翻訳技術・システム開発
19. 品質指標の変遷
Quality standard current
品質指標の変遷
Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017)
Year
Early 2000 “Verity” 事実性 (Suitable to locale, real world context) LISA 3.0 > 3.1
2002 “Accuracy” 正確性 (Transmission of meaning from source
to target)
“Fluency” 流暢性 (grammatically correct – target only)
SAE J2450
2012 “Adequacy” 適切性 (fit to purpose)
2013 Flexible framework
2015 Harmonized MQM/DFQ subset MQM / DFQ
MQM framework
includes 150+ issue
types
2017 “Holistic” 総体 vs “Atomistic” 原子レベル LQA Macro VS Micro
20. QA モデル
Frequently used QA models : よく使用されるQAモデル
LISA 3.1 : Localization Industry Standards Association (現在組織は廃止)
SAE J2450 : Society of Automotive Engineers
TMS Classic : SDL Translation Management System
memoQ Model : memoQ’s own QA model
TAUS DFQ :Taus Dynamic Quality Framework (DQF)
MQM :Multidimensional Quality Metrics
その他 :自社製 Company’s Own QA model
QA Metrics = QA の数的指標
21. LISA 3.1 QA Metric LISA 3.1 QAモデ
ル
Localization Industry Standards Association
23. 翻訳テクノロジー
と品質
用語とは
A term is, “a word or expression that has a precise
meaning in some uses or is peculiar to a science, a
profession, or subject.
“Term”. Merriam-Webster Dictionary. Retrieved
from 2018-06-25rt.
Terms are words and compound words or multi-word
expressions that in specific contexts are given specific
meanings—these may deviate from the meanings the
same words have in other contexts and in everyday
language.
特定の文脈で特定の意味が得られる、語と複合語、複数
の語から成る表現。特筆すべきは、同じ意味を持つ語が、
別の文脈や普段使う話し言葉とは異なる意味を持ち得る
点である。
26. Good Translation starts with a good
Terminology building
よい翻訳は用語構築から
Natural Language Processing
+
Translation technology
27. データのモデリング
Data modeling
Terminology management requirements
用語管理の必須要件
● Concept orientation: One entry per concept
コンセプト志向: ひとつのエントリーにつきひとつのコンセプト
● Data elementarity: One data element per field
データの基本性: ひとつのフィールドにつきひとつのデータ要素
● Term autonomy: One term per entry
用語の自律性: ひとつのエントリにつきひとつの用語
28. In automobile construction, the workshop
documentation (for maintenance and repair)
for an average vehicle has more than
1.000.000 concepts
自動車の組み立てにおいては、一般的な車両
の工場における文書(メンテナンス・修理文
書含む)は、100万を超えるコンセプトを有す
る
Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
29. Driving
Defensive driving
Energy-efficient driving
Vehicle dynamics
Understeer and oversteer
Weight transfer
Road traffic safety
Safety barrier
Automobile safety
Active safety
Crash test
Crash test dummy
Crashworthiness
Side collision
Rollover
Traffic collision
Automobile safety rating
Concept
概念
31. QA Metrics 品質指標
標準 内容 組織
QTLP MQM (Quality
Translation
Launchpad –
Multidimensional
Quality Metrics
MQM is the basis for ASTM work item 46396,
which will include a standard hierarchy of
translation errors and a framework for
creating customized quality scorecards.
MQM
(http://www.qt21.eu/la
unchpad/content/multi
dimensional-quality-
metrics)
TAUS DQF
(Translation
Automation User
Society Dynamic
Quality
Evaluation
Framework)
TAUS "framework for selecting best fit
translation quality evaluation models, a
knowledgebase documenting industry best
practices" Focus: assessing MT output but can
also be used to assess human translation.
TAUS
(https://www.taus.net)
Logrus LQA
(Language Quality
Assurance)
ASTM WK 46397 will standardize the Logrus
approach to using crowdsourcing to assess
website localization quality.
ASTM F43.03
(www.astm.org)
34. 翻訳テクノロジー
(自然言語処理)
をつかった
memoQ で
どんな用語管理が
できるのか
形態要素解析 Morphological analysis
用語抽出 Terminology Extraction
ストップワード Stop words setting
単語書式の統一 Uniform Word format (全角・半角)
数字の置き換え Replace of numbers
文字種の統一 Word type Normalization
単語の正規化 Word Normalization
翻訳対象外の設定 DNT words setting
36. Natural Language Processing Technology can be found everywhere
出典: 東北大学講義:先端技術の基礎と実践
Daisuke Okanohara, 大規模データ時代に求められる自然言語処理
自然言語処理の基本技術
Natural Language Processing Basics
Word Division Syntactic Analysis Semantic Analysis Dictionary Building
Document Classification Automatic Summarization Authorship Attribution
Machine Translation Speech Recognition Information Search Question Answering
Information Extraction
52. Bibliography
A Simple but Powerful Automatic Term Extraction Method (2002) Hiroshi Nakagawa
Term Extraction and Automatic Indexing (2002) Christian Jacquemin and Didier
Bourigault
Analysis of Efficiency of Translation Quality Assurance Tools (2014) Svetlana K.
Gurala , Yan R. Chemezovb *Social and Behavioral Sciences 154 ( 2014 ) 360 – 363
Measuring QA to improve, Multilingual. Jul/Aug2009, Vol. 20 Issue 5, p48-50. 3p.e
translation cost and speed, Sonia Monahan
Table of Emerging and Published International Standards re: T&I (updated July,
2015) FIT report
LISA Best Practice Guide (2004)
Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017)
Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
55. No SIREN 809158900 No SIRET 8091589000013
Call us
Our office phone number 00 33 (0) 5 59 43 55 85.
Our E-mail : info@word-connection.fr
WORD CONNECTION SARL
Like us on Facebook: facebook.com/wordconnection/
Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/
Follow us on Twitter: twitter.com/wordconnection