対訳コーパスから生成した 
ワードグラフによる部分的機械翻訳 
電気系 山本研究室 
09310585 
井手上雅迪 
1
背景 
機械翻訳の発達は目覚しく、 
近年では一部のECサイト等で実用化されている 
機械翻訳の出力はエラーを含む 
翻訳を読むユーザの視点: 
間違っているかもしれない機械翻訳を読 
むのは精神的負担→使いにくい 
一部情報を落としても良いので 
短く精度の高い翻訳が欲しい 
2
背景 
ECサイト運営者からの視点: 
・ 短く、精度の高い翻訳は欲しい 
・ どの情報が落とされて、どの情報が残 
るのかコントロールできないのは問題 
入力文・出力に残してほしい部分的表現 
翻訳器 
入力の一部を中心とした翻訳 
3
目的 
指定された部分的表現を中心とした翻訳 
部分的機械翻訳の提案 
入力:This product provides your skin with 
moisture and keeps it healthy. 
(お肌に潤いを与え、肌を健やかに保ちます) 
部分的表現:This product keeps 
肌をすこやかに保つ 
4
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに
入力対訳コーパス 
入力文 
部分的表現 
原言語側出力言語側 
検索 
対訳文集合 
S 
E 
ワードグラフ作成 
S 
1 E 
3 
2 
1 
2 
2 
7 
1 
1 2 
1 
エッジへ重み付け 
S 
1 E 
3 
2 
1 
2 
2 
7 
1 
1 2 
1 
最適な経路を翻訳として出力
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表•ま提で案に手法概要 
•経路選択の方法 
•エッジの重み 
•ノードの結合
提案手法概要 
与えられた部分的表現で対訳コーパスを検索 
対訳文集合を取得 
部分的表現:this product keeps 
英語側対訳文集合(日本語側) 
This product keeps ~ 肌を柔軟にすこやかに保ちキメを整える 
This product ~ keeps 肌を柔軟ですこやかに保つ 
This product keeps ~ 肌をすこやかに保ちます 
Also, this product keeps ~ また、お肌にしっとりと保ちます 
~ ~ 
9
提案手法概要 
対訳文集合を単語分割 
肌 を 柔軟 に すこやか に 保ち キメ を 整える 
肌 を 柔軟 で すこやか に 保つ 
肌 を すこやか に 保ち ます 
お 肌 に しっとり と 保ち ます 
お 肌 を 保護 し すこやか に 保ち ます 
各語をノード、語と語の繋がりをエッジとして 
ワードグラフを作成 
10
提案手法概要 
対訳文集合からワードグラフを作成 
STARTからENDまで 
入力に合わせた最適な経路を翻訳として出力11
提案手法概要 
入力:This product provides your skin with 
moisture and keeps it healthy. 
肌をすこやかに保つ 
12
提案手法概要 
• 今回は英日翻訳を行う 
• 本手法は言語非依存 
• 部分的表現の抽出と対訳文集合によるワー 
ドグラフを作成できれば翻訳可能 
13
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表•ま提で案に手法概要 
•経路選択の方法 
•エッジの重み 
•ノードの結合
最適な経路選択 
エッジに重みをつけ、最短経路問題として解く 
重要エッジ 
スコア 
単語翻訳確率 
スコア 
λ:0~1 
翻訳候補として上位15経路を選択し、 
エッジの平均重みで再度順位付け 
15
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表•ま提で案に手法概要 
•経路選択の方法 
•各スコア 
•ノードの結合
重要エッジスコア 
同じ部分的表現で抽出された文集合には 
共通の表現が比較的高い頻度で含まれる 
文集合内で出現頻度が高いほど 
重要なエッジだとみなされる 
17
単語翻訳確率スコア 
入力文の文脈を反映する 
部分的表現が同じでも 
入力文によって通るべきノードが変化する 
IBM Model3による単語翻訳確率を用いる 
18
単語翻訳確率スコア 
入力:This product keeps your skin healthy. 
肌をすこやかに保つ 
19
単語翻訳確率スコア 
入力:This product keeps your skin moist. 
肌を柔軟にしっとりと保ちます 
20
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表•ま提で案に手法概要 
•経路選択の方法 
•各スコア 
•ノードの結合
ノードの結合 
• 「健康→的」という経路を通りたくても 
ノード数が少なくなる「柔軟」を通ろうとする 
• ノード数は減る傾向にあるため、定型表現等 
に対して不利 
「健康 的」を結合したい 
22
ノードの結合 
出入りするエッジが1本しかないノード同士は結合 
23
ノードの結合 
対訳コーパス内で高頻度となる語もまとめる 
ノードとして特徴を持たない 
24
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文•発実表験ま設で定に 
•評価指標 
•評価用の部分的表現 
•提案手法の実験結果
実験設定 
健康食品分野関連対訳コーパス(約32万対)に対し 
英日翻訳 
6~250文の対訳文集合を持つ部分的表現と 
入力文のセットを作成(1文は入力に使う) 
30の部分的表現をλ決定に 
96の部分的表現を評価に使用 
26
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文•発実表験ま設で定に 
•評価用の部分的表現 
•評価指標 
•提案手法の実験結果
評価用部分的表現 
評価用の部分的表現は 
• ある程度読めるような構造が良い 
• 評価者に提示し、部分的表現を中心とし 
た翻訳になっているか確認させるため 
構文解析結果から部分的表現を自動抽出 
28
部分的表現抽出例 
This product provides your skin with 
moisture and keeps it healthy. 
解析 
det(product-2, This-1) 
nsubj(provides-3, product-2) 
nsubj(keeps-9, product-2) 
conj_and(provides-3, keeps-9) 
nsubj(healthy-11, it-10) 
xcomp(keeps-9, healthy-11) 
… 
det-nsubjというパターンに合致する 
This product keeps を抽出29
部分的表現例 
Clinton defeated Dole. 
=> Clinton defeated 
This is characterized by ultra-light weight and thin 
sliding area and long length. 
=> this is characterized 
To be used for after-bath care , as well as by those 
with combination skin , sensitive skin , or the whole 
family. 
=> used for care 
30
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発•実表験ま設で定に 
•評価用の部分的表現 
•評価指標 
•提案手法の実験結果
評価基準 
• 翻訳精度 
• 流暢さ 
• 部分的表現が翻訳されているか 
英語圏に7年在住していた日本語話者に 
評価を依頼 
32
翻訳精度 
出力結果に含まれる内容的正解の割合 
6段階評価 
5: 100%(間違った内容を含んでいない) 
4: 80% 
3: 60% 
2: 40% 
1: 20% 
0: 0% (完全に間違っている) 
入力文の情報を全て含んでいなくても高評価になることがある 
33
流暢さ 
日本語文としての正しさ 
5段階評価 
5: 日本語として問題なし 
4: 一部おかしいが問題なく読める 
3: 非母国語的 
2: 文章として不自然 
1: 理解できない 
4以上あれば十分という基準 
34
部分的表現 
部分的表現が翻訳されているか 
部分的表現を日本語化したものを提示 
その内容が含まれていればO 
含まれていなければX 
35
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発•実表験ま設で定に 
•評価用の部分的表現 
•評価指標 
•提案手法の実験結果
評価結果 
翻訳精度 
(0~5) 
流暢さ 
(1~5) 
部分的表現 
(%) 
提案手法 
(λ=0.25) 2.13 4.73 75 
出力文の約40%程度の部分が正しい 
流暢さは4以上あれば十分だと考える 
37
出力例 
入力:We recommend that you consult with your 
doctor if using the product for the first time. 
(はじめての利用の際は医者に相談することをおすすめします。) 
部分的表現:you consult 
ご 相談::を おすすめ::し::ます::。 
38
出力例 
入力:Minute foam washes , moisturizes and 
refresh your skin. 
(キメ細かい泡立ちでお肌をスッキリ、しっとりと洗い上げます。) 
部分的表現:foam washes, 文集合の文数:10文 
バス::パフ::は::、::ふわふわ::の::アワ::を::つくり::、:: 
優しく::包む::よう::に 洗い上げ::ます::。 
対訳文集合が小さいと1ノードが長くなる 
参照訳と出力結果の単語数の割合を見ると平均93% 
39
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに•結合方法の変更 
•重要ノード通過の強制
ノード結合方法の変更 
対訳文集合中で高頻度の語を結合 
1 1 1 1 1 
3 
3 
6 6 
7 7 7 
3 
3 4 
41
評価結果 
翻訳精度 
(0~5) 
流暢さ 
(1~5) 
部分的表現 
(%) 
提案手法 
(λ=0.25) 2.13 4.73 75 
文集合内結合 
(λ=0.5) 2.67 4.23 48 
翻訳精度は向上しているが(半分が正解) 
部分的翻訳を中心とした翻訳となっていない 
参照訳と出力結果の単語数の割合:平均52% 
42
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに•結合方法の変更 
•重要ノード通過の強制
重要ノード 
部分的表現と対応するノードの通過を強制 
部分的表現に対する単語翻訳確率を加算、 
そのスコアで順位付ける 
this product keeps 
柔軟保ち保つ製品 
… 
0,0 0,0.3 0,0.4 0.5,0 
上位3ノード保ち保つ製品 
のいずれかを必ず通過44
評価結果 
翻訳精度 
(0~5) 
流暢さ 
(1~5) 
部分的表現 
(%) 
提案手法 
(λ=0.25) 2.13 4.73 75 
文集合内結合 
(λ=0.5) 2.67 4.23 48 
重要ノード通過 
※(λ=0.5) 2.87 4.39 77 
※ 発表者評価 
出力文の57%程度が正解となる 
77%の精度で部分的表現が翻訳される45
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに
まとめ 
• 間違っている可能性がある機械翻訳を読むのは精神的負 
担 
• 原文の情報を落としても良いので、部分的に翻訳したい 
• ワードグラフを用いた部分的機械翻訳を提案 
・ 出力文の57%の部分が正解という翻訳精度 
・ 77%の精度で部分的表現が翻訳される 
47
1.1ページ概要 
2.提案手法 
3.評価 
4.提案手法の改善 
5.まとめ 
6.修士論文発表までに
修士論文発表会までに 
• ワードグラフ毎の翻訳結果の解析 
• ワードグラフの構造に出力結果が大き 
く依存している 
• どのようなワードグラフだと翻訳精度 
が高いのかを調査 
• 改善策の提案 
49
ベースライン 
前編集型 
1. 対訳文集合で原言語側を利用して短文化 
- 重要エッジスコアのみを用いる 
2. 短文化された入力文を翻訳 
フレーズベース統計的機械翻訳器(Moses)の 
パラメータチューニングは12語以下の文100文で行う 
同時に翻訳するこ50との効果を調べる26
評価結果 
翻訳精度 
(6段階) 
流暢さ 
(5段階) 
部分的表現 
が翻訳されて 
いるか(%) 
ベースライン 
※ 2.98 4.61 80 
提案手法 
(λ=0.25) 3.13 4.73 75 
51 ※ 著者による評価27

対訳コーパスから生成したワードグラフによる部分的機械翻訳