SlideShare a Scribd company logo
1 of 56
No SIREN 809158900 No SIRET 8091589000013
Call us
Our office phone number: (33) 5 59 47 74 01 (FRANCE)
Our E-mail : info@word-connection.fr
WORD CONNECTION SARL
Like us on Facebook: facebook.com/wordconnection/
Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/
Follow us on Twitter: twitter.com/wordconnection
Mine your term to be the best.
How to improve translation quality with
term extract and text mining
自然言語処理のコンセプト・翻訳ツール
を用いた用語抽出と構築・管理について
用語構築で翻訳の質を高めるには
Kaori Myatt
kaori@word-connection.fr
www.kaorimyatt.com
自己紹介 Kaori Myatt マイアットかおり
マイアットかおり
経歴:
日本生まれ・新潟県出身
慶応大学文学部 ポーツマス大学翻訳修士
滞在経験 日本・アメリカ・ニュージーランド・フランス (16年目)
半導体企業インハウス翻訳者、新聞社記者・編集者を経験した後
フリーランス翻訳(産業翻訳・ローカライゼーション)(20年) を経て
現在欧州・米国・日本を含む約350社と契約・取引
Word Connection sarl (France) 取締役代表 品質管理
Word Connection JAPAN 取締役代表
専門分野・研究分野は翻訳理論と翻訳テクノロジー、自然言語処理(NLP)・
Phython 等プログラミングを使った翻訳処理技術研究
セッション内容紹介 Session contents
Twitter: @wordconnection
本セッションでは以下について話します
This session is focused on:
-産業翻訳における用語の定義についての重要性
Importance of Terminology in industrial translation setting
-CAT ツールでのAI技術を使った用語の定義・構築の方法と活用について
Ways to build / reverage from terminology using NLP related functionalty on
CAT tools
会社紹介 Word Connection France /JAPAN
Word Connection sarl ビアリッツ・フランス
Word Connection JAPAN 東京
社是: 翻訳テクノロジーを用いて最高の翻訳を届ける
社員数: フランス 6名+1名(インターン)日本 2名
全員2~4カ国語を習得、翻訳修士所持者とライター・出版経験者
100万ワードを超える大規模翻訳 Twitter: @wordconnection
複雑なローカライゼーション
欧州言語ローカライゼーション
欧州各社とのコラボレーション
欧州各社との翻訳技術・システム開発
 Arle Lommel
Where we are
拠点
Biarritz
ビアリッツ
Golf
Surfing
サーフィン
品質 Quality is KING
ISO9000 でいうところの品質とは
「本来備わっている特性の集まり
が要求事項を満たす程度」
"The totality of features and characteristics of a
product or service that bear on its ability to
satisfy stated or implied needs“
ISO9000: 2005 Quality management systems 品質マネジメントシステム
品質指標の変遷
Quality standard current
品質指標の変遷
Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017)
Year
Early 2000 “Verity” 事実性 (Suitable to locale, real world context) LISA 3.0 > 3.1
2002 “Accuracy” 正確性 (Transmission of meaning from source
to target)
“Fluency” 流暢性 (grammatically correct – target only)
SAE J2450
2012 “Adequacy” 適切性 (fit to purpose)
2013 Flexible framework
2015 Harmonized MQM/DFQ subset MQM / DFQ
MQM framework
includes 150+ issue
types
2017 “Holistic” 総体 vs “Atomistic” 原子レベル LQA Macro VS Micro
QA モデル
Frequently used QA models : よく使用されるQAモデル
LISA 3.1 : Localization Industry Standards Association (現在組織は廃止)
SAE J2450 : Society of Automotive Engineers
TMS Classic : SDL Translation Management System
memoQ Model : memoQ’s own QA model
TAUS DFQ :Taus Dynamic Quality Framework (DQF)
MQM :Multidimensional Quality Metrics
その他 :自社製 Company’s Own QA model
QA Metrics = QA の数的指標
LISA 3.1 QA Metric LISA 3.1 QAモデ
ル
 Localization Industry Standards Association
Dynamic Quality Framework (DQF)
based on MQM
翻訳テクノロジー
と品質
用語とは
A term is, “a word or expression that has a precise
meaning in some uses or is peculiar to a science, a
profession, or subject.
“Term”. Merriam-Webster Dictionary. Retrieved
from 2018-06-25rt.
Terms are words and compound words or multi-word
expressions that in specific contexts are given specific
meanings—these may deviate from the meanings the
same words have in other contexts and in everyday
language.
特定の文脈で特定の意味が得られる、語と複合語、複数
の語から成る表現。特筆すべきは、同じ意味を持つ語が、
別の文脈や普段使う話し言葉とは異なる意味を持ち得る
点である。
なぜ用語を
定義するのか 医学用語
内臓痛 Visceral pain
関連痛 Referred pain
突出痛 Breakthrough Pain
痛覚過敏 HyperAlgesia
痛覚鈍麻 Hypoalgesia
感覚鈍麻 Hypoesthesia
感覚過敏 Hyperstesia
電撃痛 Shooting Pain
灼熱痛 Burning Pain
麻酔科的鎮痛
異常感覚 Paresthesia
機械用語
穴あけ
パンチング
軸受
ベアリング
切断
カッティング
掘削
剪裁
切断
裁断
法律用語
本契約において、
次の語句は
下記の意味を有するものとする。
用語の定義
ソフトウェアはxxx とする
本商品は xxx とする
委託者は XXX とする
注文者は XXX とする
翻訳プロセス
と自然言語処
理(NLP)
Translation
Process and
NLP : Natural
Language
Processing
翻訳準備の段
階としての
用語抽出
Term extract
in the
process of
file
preparation
用語の定義・
構築
Terminology
define /
building
Good Translation starts with a good
Terminology building
よい翻訳は用語構築から
Natural Language Processing
+
Translation technology
データのモデリング
Data modeling
Terminology management requirements
用語管理の必須要件
 ● Concept orientation: One entry per concept
 コンセプト志向: ひとつのエントリーにつきひとつのコンセプト
 ● Data elementarity: One data element per field
 データの基本性: ひとつのフィールドにつきひとつのデータ要素
 ● Term autonomy: One term per entry
用語の自律性: ひとつのエントリにつきひとつの用語
In automobile construction, the workshop
documentation (for maintenance and repair)
for an average vehicle has more than
1.000.000 concepts
自動車の組み立てにおいては、一般的な車両
の工場における文書(メンテナンス・修理文
書含む)は、100万を超えるコンセプトを有す
る
 Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
Driving
Defensive driving
Energy-efficient driving
Vehicle dynamics
Understeer and oversteer
Weight transfer
Road traffic safety
Safety barrier
Automobile safety
Active safety
Crash test
Crash test dummy
Crashworthiness
Side collision
Rollover
Traffic collision
Automobile safety rating
Concept
概念
SAE J2450
(2016)
Automotive Standard
自動車産業用の品質指標
http://standards.sae.org/j2450_200112/
Does not include style.
評価指標には「スタイル」が含まれない
QA Metrics 品質指標
標準 内容 組織
QTLP MQM (Quality
Translation
Launchpad –
Multidimensional
Quality Metrics
MQM is the basis for ASTM work item 46396,
which will include a standard hierarchy of
translation errors and a framework for
creating customized quality scorecards.
MQM
(http://www.qt21.eu/la
unchpad/content/multi
dimensional-quality-
metrics)
TAUS DQF
(Translation
Automation User
Society Dynamic
Quality
Evaluation
Framework)
TAUS "framework for selecting best fit
translation quality evaluation models, a
knowledgebase documenting industry best
practices" Focus: assessing MT output but can
also be used to assess human translation.
TAUS
(https://www.taus.net)
Logrus LQA
(Language Quality
Assurance)
ASTM WK 46397 will standardize the Logrus
approach to using crowdsourcing to assess
website localization quality.
ASTM F43.03
(www.astm.org)
Non-compliance and its Consequences
標準に従わなかったことによる手痛い結果
(製造業者の場合)
製造業者が負う賠償責任
 製品の再印刷 > 結果的にコストがかかる
 製品のリコール > 結果的にコストがかかる
 ユーザーの負傷・製品の破損
欧州の製造標準を守らないことによる結果
 責任制裁
 公的機関からの制裁
 裁判所からの指示・制裁
翻訳テクノロジー
(自然言語処理)
をつかった
memoQ で
どんな用語管理が
できるのか
形態要素解析 Morphological analysis
用語抽出 Terminology Extraction
ストップワード Stop words setting
単語書式の統一 Uniform Word format (全角・半角)
数字の置き換え Replace of numbers
文字種の統一 Word type Normalization
単語の正規化 Word Normalization
翻訳対象外の設定 DNT words setting
出典: 東北大学講義:先端技術の基礎と実践
Daisuke Okanohara, 大規模データ時代に求められる自然言語処理
自然言語処理の基本技術
Natural Language Processing Basics
Natural Language Processing Technology can be found everywhere
出典: 東北大学講義:先端技術の基礎と実践
Daisuke Okanohara, 大規模データ時代に求められる自然言語処理
自然言語処理の基本技術
Natural Language Processing Basics
Word Division Syntactic Analysis Semantic Analysis Dictionary Building
Document Classification Automatic Summarization Authorship Attribution
Machine Translation Speech Recognition Information Search Question Answering
Information Extraction
出典: 東北大学講義:先端技術の基礎と実践
Daisuke Okanohara, 大規模データ時代に求められる自然言語処理
翻訳との関連性
Application on Translation technology
用語を定義する理由
用語の構築によって得られる利点
Consistency : 一貫性が得られる
Semantics: 意味がクリアになる(明瞭な翻訳へ)
Conflict management: トラブルがなくなる
事前の用語についての合意を得ることでクライアントともめない)
Ease of translation: 翻訳作業が楽になる
Estabilishing translation strategies
翻訳方策の策定
Estabilishing translation strategies
翻訳方策の策定
memoQ の用語集機能
用語抽出
Terminology extraction in memoQ
Terminology Extraction and
TermBase building with memoQ
用語集作成前処理
1. ソースの設定
2. オプションの設定
3. ストップワードリストの設定
Terminology Extraction and TermBase
building with memoQ
Terminology Extraction with
memoQ
Terminology Extraction and
TermBase building with memoQ
ソースの選択
・翻訳文書: 翻訳文書から用語集を作成
・翻訳メモリ: 翻訳メモリから用語集を作成
・ライブ文書 : ライブ文書(関連資料)から用語集を
作成
 memoQ の用語集機能
オプションの設定
単語の最大単語数(文字数)の設定
最小登場回数
区切り記号
長さ係数
数字を含む単語を無視
 memoQ の用語集機能
・ストップワードの設定
ストップワードとは:
一般的すぎて翻訳には役に立たない等の理由で
処理対象外とする単語のこと
a, the, which, want, there, of, on, it …. 位置に注
意
「は」「の」「です」「ます」
用語の長さの設定
複合語も含まれる
 memoQ の用語集機能
・接頭辞(prefix) の結合と非表示
アスタリスク * または | といったPrefix Markerで区切るこ
とによりprefixのみを
検出させるようにすることができる
Capture mode
Capture modes
Capture mode*s と登録することにより、Capture mode がヒット
した時にもCapture modes がヒットしたときにも、いずれの場合に
も用語が表示される
Terminology Extraction with
memoQ
Quality is not
down to luck,
It’s a
systematic
engagement.
SDL 2016
Bibliography
 A Simple but Powerful Automatic Term Extraction Method (2002) Hiroshi Nakagawa
 Term Extraction and Automatic Indexing (2002) Christian Jacquemin and Didier
Bourigault
 Analysis of Efficiency of Translation Quality Assurance Tools (2014) Svetlana K.
Gurala , Yan R. Chemezovb *Social and Behavioral Sciences 154 ( 2014 ) 360 – 363
 Measuring QA to improve, Multilingual. Jul/Aug2009, Vol. 20 Issue 5, p48-50. 3p.e
translation cost and speed, Sonia Monahan
 Table of Emerging and Published International Standards re: T&I (updated July,
2015) FIT report
 LISA Best Practice Guide (2004)
 Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017)
 Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
This presentation PDF can be
downloaded on my Linkedin Slide
Share.
Thanks for listening!
No SIREN 809158900 No SIRET 8091589000013
Call us
Our office phone number 00 33 (0) 5 59 43 55 85.
Our E-mail : info@word-connection.fr
WORD CONNECTION SARL
Like us on Facebook: facebook.com/wordconnection/
Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/
Follow us on Twitter: twitter.com/wordconnection
MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt

More Related Content

Similar to MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt

SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #SeleniumjpSeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #SeleniumjpYahoo!デベロッパーネットワーク
 
NAB Show 2019 - Microsoft Update - AI for Media 2019 Spring
NAB Show 2019 - Microsoft Update - AI for Media 2019 SpringNAB Show 2019 - Microsoft Update - AI for Media 2019 Spring
NAB Show 2019 - Microsoft Update - AI for Media 2019 SpringDaiyu Hatakeyama
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!Tsukasa Kato
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on AzureDaiyu Hatakeyama
 
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送Google Cloud Platform - Japan
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOpsJAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps智治 長沢
 
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態Hironori Washizaki
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3日本Javaユーザーグループ
 
60分でわかった気になるISO29119 #wacate
60分でわかった気になるISO29119 #wacate60分でわかった気になるISO29119 #wacate
60分でわかった気になるISO29119 #wacateKinji Akemine
 
[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonightAmazon Web Services Japan
 
XPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaXPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaTokyo, Japan
 
ワンクリックデプロイ101 #ocdeploy
ワンクリックデプロイ101 #ocdeployワンクリックデプロイ101 #ocdeploy
ワンクリックデプロイ101 #ocdeployRyutaro YOSHIBA
 
サービス開発における工程
サービス開発における工程サービス開発における工程
サービス開発における工程Hidetoshi Mori
 
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011なぜソフトウェアアーキテクトが必要なのか - デブサミ2011
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011Yusuke Suzuki
 
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12Q
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12QJasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12Q
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12QYoshihito Kuranuki
 

Similar to MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt (20)

SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #SeleniumjpSeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
 
NAB Show 2019 - Microsoft Update - AI for Media 2019 Spring
NAB Show 2019 - Microsoft Update - AI for Media 2019 SpringNAB Show 2019 - Microsoft Update - AI for Media 2019 Spring
NAB Show 2019 - Microsoft Update - AI for Media 2019 Spring
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
 
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOpsJAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
JAWS FESTA Kansai 2013 | ビジネスに貢献する戦略的なITのためのDevOps
 
SOE-Loc
SOE-LocSOE-Loc
SOE-Loc
 
SOE-LOC
SOE-LOCSOE-LOC
SOE-LOC
 
Localization in SOE
Localization in SOELocalization in SOE
Localization in SOE
 
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
 
60分でわかった気になるISO29119 #wacate
60分でわかった気になるISO29119 #wacate60分でわかった気になるISO29119 #wacate
60分でわかった気になるISO29119 #wacate
 
[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight[CTO Night & Day 2019] ML services: MLOps #ctonight
[CTO Night & Day 2019] ML services: MLOps #ctonight
 
AIビジネスクリエーションワークショップ@東京
AIビジネスクリエーションワークショップ@東京AIビジネスクリエーションワークショップ@東京
AIビジネスクリエーションワークショップ@東京
 
XPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaXPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_Hasegawa
 
ワンクリックデプロイ101 #ocdeploy
ワンクリックデプロイ101 #ocdeployワンクリックデプロイ101 #ocdeploy
ワンクリックデプロイ101 #ocdeploy
 
サービス開発における工程
サービス開発における工程サービス開発における工程
サービス開発における工程
 
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011なぜソフトウェアアーキテクトが必要なのか - デブサミ2011
なぜソフトウェアアーキテクトが必要なのか - デブサミ2011
 
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12Q
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12QJasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12Q
Jasst12九州 倉貫資料:アジャイル・Ruby・クラウド(ARC)を活用したビジネスにおけるテストの実践 #jasst12Q
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

MemoQ day Tokyo 2018 Terminology Session by Kaori Myatt

  • 1.
  • 2. No SIREN 809158900 No SIRET 8091589000013 Call us Our office phone number: (33) 5 59 47 74 01 (FRANCE) Our E-mail : info@word-connection.fr WORD CONNECTION SARL Like us on Facebook: facebook.com/wordconnection/ Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/ Follow us on Twitter: twitter.com/wordconnection
  • 3. Mine your term to be the best. How to improve translation quality with term extract and text mining 自然言語処理のコンセプト・翻訳ツール を用いた用語抽出と構築・管理について 用語構築で翻訳の質を高めるには Kaori Myatt kaori@word-connection.fr www.kaorimyatt.com
  • 4. 自己紹介 Kaori Myatt マイアットかおり マイアットかおり 経歴: 日本生まれ・新潟県出身 慶応大学文学部 ポーツマス大学翻訳修士 滞在経験 日本・アメリカ・ニュージーランド・フランス (16年目) 半導体企業インハウス翻訳者、新聞社記者・編集者を経験した後 フリーランス翻訳(産業翻訳・ローカライゼーション)(20年) を経て 現在欧州・米国・日本を含む約350社と契約・取引 Word Connection sarl (France) 取締役代表 品質管理 Word Connection JAPAN 取締役代表 専門分野・研究分野は翻訳理論と翻訳テクノロジー、自然言語処理(NLP)・ Phython 等プログラミングを使った翻訳処理技術研究
  • 5. セッション内容紹介 Session contents Twitter: @wordconnection 本セッションでは以下について話します This session is focused on: -産業翻訳における用語の定義についての重要性 Importance of Terminology in industrial translation setting -CAT ツールでのAI技術を使った用語の定義・構築の方法と活用について Ways to build / reverage from terminology using NLP related functionalty on CAT tools
  • 6. 会社紹介 Word Connection France /JAPAN Word Connection sarl ビアリッツ・フランス Word Connection JAPAN 東京 社是: 翻訳テクノロジーを用いて最高の翻訳を届ける 社員数: フランス 6名+1名(インターン)日本 2名 全員2~4カ国語を習得、翻訳修士所持者とライター・出版経験者 100万ワードを超える大規模翻訳 Twitter: @wordconnection 複雑なローカライゼーション 欧州言語ローカライゼーション 欧州各社とのコラボレーション 欧州各社との翻訳技術・システム開発
  • 10.
  • 11. Golf
  • 12.
  • 14.
  • 16.
  • 17. ISO9000 でいうところの品質とは 「本来備わっている特性の集まり が要求事項を満たす程度」 "The totality of features and characteristics of a product or service that bear on its ability to satisfy stated or implied needs“ ISO9000: 2005 Quality management systems 品質マネジメントシステム
  • 18.
  • 19. 品質指標の変遷 Quality standard current 品質指標の変遷 Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017) Year Early 2000 “Verity” 事実性 (Suitable to locale, real world context) LISA 3.0 > 3.1 2002 “Accuracy” 正確性 (Transmission of meaning from source to target) “Fluency” 流暢性 (grammatically correct – target only) SAE J2450 2012 “Adequacy” 適切性 (fit to purpose) 2013 Flexible framework 2015 Harmonized MQM/DFQ subset MQM / DFQ MQM framework includes 150+ issue types 2017 “Holistic” 総体 vs “Atomistic” 原子レベル LQA Macro VS Micro
  • 20. QA モデル Frequently used QA models : よく使用されるQAモデル LISA 3.1 : Localization Industry Standards Association (現在組織は廃止) SAE J2450 : Society of Automotive Engineers TMS Classic : SDL Translation Management System memoQ Model : memoQ’s own QA model TAUS DFQ :Taus Dynamic Quality Framework (DQF) MQM :Multidimensional Quality Metrics その他 :自社製 Company’s Own QA model QA Metrics = QA の数的指標
  • 21. LISA 3.1 QA Metric LISA 3.1 QAモデ ル  Localization Industry Standards Association
  • 22. Dynamic Quality Framework (DQF) based on MQM
  • 23. 翻訳テクノロジー と品質 用語とは A term is, “a word or expression that has a precise meaning in some uses or is peculiar to a science, a profession, or subject. “Term”. Merriam-Webster Dictionary. Retrieved from 2018-06-25rt. Terms are words and compound words or multi-word expressions that in specific contexts are given specific meanings—these may deviate from the meanings the same words have in other contexts and in everyday language. 特定の文脈で特定の意味が得られる、語と複合語、複数 の語から成る表現。特筆すべきは、同じ意味を持つ語が、 別の文脈や普段使う話し言葉とは異なる意味を持ち得る 点である。
  • 24. なぜ用語を 定義するのか 医学用語 内臓痛 Visceral pain 関連痛 Referred pain 突出痛 Breakthrough Pain 痛覚過敏 HyperAlgesia 痛覚鈍麻 Hypoalgesia 感覚鈍麻 Hypoesthesia 感覚過敏 Hyperstesia 電撃痛 Shooting Pain 灼熱痛 Burning Pain 麻酔科的鎮痛 異常感覚 Paresthesia 機械用語 穴あけ パンチング 軸受 ベアリング 切断 カッティング 掘削 剪裁 切断 裁断 法律用語 本契約において、 次の語句は 下記の意味を有するものとする。 用語の定義 ソフトウェアはxxx とする 本商品は xxx とする 委託者は XXX とする 注文者は XXX とする
  • 25. 翻訳プロセス と自然言語処 理(NLP) Translation Process and NLP : Natural Language Processing 翻訳準備の段 階としての 用語抽出 Term extract in the process of file preparation 用語の定義・ 構築 Terminology define / building
  • 26. Good Translation starts with a good Terminology building よい翻訳は用語構築から Natural Language Processing + Translation technology
  • 27. データのモデリング Data modeling Terminology management requirements 用語管理の必須要件  ● Concept orientation: One entry per concept  コンセプト志向: ひとつのエントリーにつきひとつのコンセプト  ● Data elementarity: One data element per field  データの基本性: ひとつのフィールドにつきひとつのデータ要素  ● Term autonomy: One term per entry 用語の自律性: ひとつのエントリにつきひとつの用語
  • 28. In automobile construction, the workshop documentation (for maintenance and repair) for an average vehicle has more than 1.000.000 concepts 自動車の組み立てにおいては、一般的な車両 の工場における文書(メンテナンス・修理文 書含む)は、100万を超えるコンセプトを有す る  Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
  • 29. Driving Defensive driving Energy-efficient driving Vehicle dynamics Understeer and oversteer Weight transfer Road traffic safety Safety barrier Automobile safety Active safety Crash test Crash test dummy Crashworthiness Side collision Rollover Traffic collision Automobile safety rating Concept 概念
  • 30. SAE J2450 (2016) Automotive Standard 自動車産業用の品質指標 http://standards.sae.org/j2450_200112/ Does not include style. 評価指標には「スタイル」が含まれない
  • 31. QA Metrics 品質指標 標準 内容 組織 QTLP MQM (Quality Translation Launchpad – Multidimensional Quality Metrics MQM is the basis for ASTM work item 46396, which will include a standard hierarchy of translation errors and a framework for creating customized quality scorecards. MQM (http://www.qt21.eu/la unchpad/content/multi dimensional-quality- metrics) TAUS DQF (Translation Automation User Society Dynamic Quality Evaluation Framework) TAUS "framework for selecting best fit translation quality evaluation models, a knowledgebase documenting industry best practices" Focus: assessing MT output but can also be used to assess human translation. TAUS (https://www.taus.net) Logrus LQA (Language Quality Assurance) ASTM WK 46397 will standardize the Logrus approach to using crowdsourcing to assess website localization quality. ASTM F43.03 (www.astm.org)
  • 32.
  • 33. Non-compliance and its Consequences 標準に従わなかったことによる手痛い結果 (製造業者の場合) 製造業者が負う賠償責任  製品の再印刷 > 結果的にコストがかかる  製品のリコール > 結果的にコストがかかる  ユーザーの負傷・製品の破損 欧州の製造標準を守らないことによる結果  責任制裁  公的機関からの制裁  裁判所からの指示・制裁
  • 34. 翻訳テクノロジー (自然言語処理) をつかった memoQ で どんな用語管理が できるのか 形態要素解析 Morphological analysis 用語抽出 Terminology Extraction ストップワード Stop words setting 単語書式の統一 Uniform Word format (全角・半角) 数字の置き換え Replace of numbers 文字種の統一 Word type Normalization 単語の正規化 Word Normalization 翻訳対象外の設定 DNT words setting
  • 35. 出典: 東北大学講義:先端技術の基礎と実践 Daisuke Okanohara, 大規模データ時代に求められる自然言語処理 自然言語処理の基本技術 Natural Language Processing Basics
  • 36. Natural Language Processing Technology can be found everywhere 出典: 東北大学講義:先端技術の基礎と実践 Daisuke Okanohara, 大規模データ時代に求められる自然言語処理 自然言語処理の基本技術 Natural Language Processing Basics Word Division Syntactic Analysis Semantic Analysis Dictionary Building Document Classification Automatic Summarization Authorship Attribution Machine Translation Speech Recognition Information Search Question Answering Information Extraction
  • 37. 出典: 東北大学講義:先端技術の基礎と実践 Daisuke Okanohara, 大規模データ時代に求められる自然言語処理 翻訳との関連性 Application on Translation technology
  • 38. 用語を定義する理由 用語の構築によって得られる利点 Consistency : 一貫性が得られる Semantics: 意味がクリアになる(明瞭な翻訳へ) Conflict management: トラブルがなくなる 事前の用語についての合意を得ることでクライアントともめない) Ease of translation: 翻訳作業が楽になる
  • 41. memoQ の用語集機能 用語抽出 Terminology extraction in memoQ Terminology Extraction and TermBase building with memoQ
  • 42. 用語集作成前処理 1. ソースの設定 2. オプションの設定 3. ストップワードリストの設定 Terminology Extraction and TermBase building with memoQ
  • 44. Terminology Extraction and TermBase building with memoQ ソースの選択 ・翻訳文書: 翻訳文書から用語集を作成 ・翻訳メモリ: 翻訳メモリから用語集を作成 ・ライブ文書 : ライブ文書(関連資料)から用語集を 作成
  • 48.  memoQ の用語集機能 ・接頭辞(prefix) の結合と非表示 アスタリスク * または | といったPrefix Markerで区切るこ とによりprefixのみを 検出させるようにすることができる Capture mode Capture modes Capture mode*s と登録することにより、Capture mode がヒット した時にもCapture modes がヒットしたときにも、いずれの場合に も用語が表示される
  • 49.
  • 51. Quality is not down to luck, It’s a systematic engagement. SDL 2016
  • 52. Bibliography  A Simple but Powerful Automatic Term Extraction Method (2002) Hiroshi Nakagawa  Term Extraction and Automatic Indexing (2002) Christian Jacquemin and Didier Bourigault  Analysis of Efficiency of Translation Quality Assurance Tools (2014) Svetlana K. Gurala , Yan R. Chemezovb *Social and Behavioral Sciences 154 ( 2014 ) 360 – 363  Measuring QA to improve, Multilingual. Jul/Aug2009, Vol. 20 Issue 5, p48-50. 3p.e translation cost and speed, Sonia Monahan  Table of Emerging and Published International Standards re: T&I (updated July, 2015) FIT report  LISA Best Practice Guide (2004)  Linguistics and Literature Studies 5(2): 122-131, Glazychev (2017)  Frieda Steurs, KU Leuven, ECQA Certified Terminology Manager - Engineering
  • 53. This presentation PDF can be downloaded on my Linkedin Slide Share.
  • 55. No SIREN 809158900 No SIRET 8091589000013 Call us Our office phone number 00 33 (0) 5 59 43 55 85. Our E-mail : info@word-connection.fr WORD CONNECTION SARL Like us on Facebook: facebook.com/wordconnection/ Follow us on LinkedIn: linkedin.com/company/word-connection---japalization/ Follow us on Twitter: twitter.com/wordconnection