SlideShare a Scribd company logo
1 of 51
Download to read offline
対訳コーパスから生成した
ワードグラフによる部分的機械翻訳
電気系 山本研究室
09310585
井手上雅迪
1
背景
一部情報を落としても良いので
短く精度の高い翻訳が欲しい
翻訳を読むユーザの視点:
間違っているかもしれない機械翻訳を読
むのは精神的負担→使いにくい
機械翻訳の発達は目覚しく、
近年では一部のECサイト等で実用化されている
2
機械翻訳の出力はエラーを含む
背景
ECサイト運営者からの視点:
・ 短く、精度の高い翻訳は欲しい
・ どの情報が落とされて、どの情報が残
るのかコントロールできないのは問題
3
入力文・出力に残してほしい部分的表現
翻訳器
入力の一部を中心とした翻訳
目的
部分的機械翻訳の提案
入力:This product provides your skin with
moisture and keeps it healthy.
(お肌に潤いを与え、肌を健やかに保ちます)
肌をすこやかに保つ
指定された部分的表現を中心とした翻訳
4
部分的表現:This product keeps
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
入力文
部分的表現
入力 対訳コーパス
原言語側 出力言語側
検索
対訳文集合
S
E
ワードグラフ作成
S
E
1
3
2
1
2
2
7
1
21
1
エッジへ重み付け
S
E
1
3
2
1
2
2
7
1
21
1
最適な経路を翻訳として出力
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•提案手法概要
•経路選択の方法
•エッジの重み
•ノードの結合
提案手法概要
部分的表現:this product keeps
与えられた部分的表現で対訳コーパスを検索
対訳文集合を取得
英語側 対訳文集合(日本語側)
This product keeps 肌を柔軟にすこやかに保ちキメを整える
This product keeps 肌を柔軟ですこやかに保つ
This product keeps 肌をすこやかに保ちます
Also, this product keeps また、お肌にしっとりと保ちます
∼ ∼
9
提案手法概要
対訳文集合を単語分割
肌 を 柔軟 に すこやか に 保ち キメ を 整える
肌 を 柔軟 で すこやか に 保つ
肌 を すこやか に 保ち ます
お 肌 に しっとり と 保ち ます
お 肌 を 保護 し すこやか に 保ち ます
各語をノード、語と語の繋がりをエッジとして
ワードグラフを作成
10
提案手法概要
対訳文集合からワードグラフを作成
STARTからENDまで
入力に合わせた最適な経路を翻訳として出力
11
入力:This product provides your skin with
moisture and keeps it healthy.
肌をすこやかに保つ
12
提案手法概要
提案手法概要
• 今回は英日翻訳を行う
• 本手法は言語非依存
• 部分的表現の抽出と対訳文集合によるワー
ドグラフを作成できれば翻訳可能
13
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•提案手法概要
•経路選択の方法
•エッジの重み
•ノードの結合
最適な経路選択
エッジに重みをつけ、最短経路問題として解く
重要エッジ
スコア
単語翻訳確率
スコア
翻訳候補として上位15経路を選択し、
エッジの平均重みで再度順位付け
λ:0 1
15
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•提案手法概要
•経路選択の方法
•各スコア
•ノードの結合
重要エッジスコア
文集合内で出現頻度が高いほど
重要なエッジだとみなされる
同じ部分的表現で抽出された文集合には
共通の表現が比較的高い頻度で含まれる
17
単語翻訳確率スコア
IBM Model3による単語翻訳確率を用いる
部分的表現が同じでも
入力文によって通るべきノードが変化する
入力文の文脈を反映する
18
単語翻訳確率スコア
入力:This product keeps your skin healthy.
肌をすこやかに保つ
19
単語翻訳確率スコア
入力:This product keeps your skin moist.
肌を柔軟にしっとりと保ちます
20
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•提案手法概要
•経路選択の方法
•各スコア
•ノードの結合
ノードの結合
• 「健康→的」という経路を通りたくても
ノード数が少なくなる「柔軟」を通ろうとする
• ノード数は減る傾向にあるため、定型表現等
に対して不利
「健康 的」を結合したい
22
ノードの結合
出入りするエッジが1本しかないノード同士は結合
23
ノードの結合
対訳コーパス内で高頻度となる語もまとめる
ノードとして特徴を持たない
24
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•実験設定
•評価指標
•評価用の部分的表現
•提案手法の実験結果
実験設定
健康食品分野関連対訳コーパス(約32万対)に対し
英日翻訳
6 250文の対訳文集合を持つ部分的表現と
入力文のセットを作成(1文は入力に使う)
30の部分的表現をλ決定に
96の部分的表現を評価に使用
26
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•実験設定
•評価用の部分的表現
•評価指標
•提案手法の実験結果
評価用部分的表現
• ある程度読めるような構造が良い
• 評価者に提示し、部分的表現を中心とし
た翻訳になっているか確認させるため
構文解析結果から部分的表現を自動抽出
評価用の部分的表現は
28
部分的表現抽出例
解析
This product provides your skin with
moisture and keeps it healthy.
det(product-2, This-1)
nsubj(provides-3, product-2)
nsubj(keeps-9, product-2)
conj_and(provides-3, keeps-9)
nsubj(healthy-11, it-10)
xcomp(keeps-9, healthy-11)
…
det-nsubjというパターンに合致する
This product keeps を抽出
29
部分的表現例
Clinton defeated Dole.
=> Clinton defeated
This is characterized by ultra-light weight and thin
sliding area and long length.
=> this is characterized
To be used for after-bath care , as well as by those
with combination skin , sensitive skin , or the whole
family.
=> used for care
30
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•実験設定
•評価用の部分的表現
•評価指標
•提案手法の実験結果
評価基準
• 翻訳精度
• 流暢さ
• 部分的表現が翻訳されているか
英語圏に7年在住していた日本語話者に
評価を依頼
32
翻訳精度
出力結果に含まれる内容的正解の割合
6段階評価
5: 100%(間違った内容を含んでいない)
4: 80%
3: 60%
2: 40%
1: 20%
0: 0% (完全に間違っている)
入力文の情報を全て含んでいなくても高評価になることがある
33
流暢さ
5: 日本語として問題なし
4: 一部おかしいが問題なく読める
3: 非母国語的
2: 文章として不自然
1: 理解できない
5段階評価
日本語文としての正しさ
34
4以上あれば十分という基準
部分的表現
部分的表現が翻訳されているか
部分的表現を日本語化したものを提示
その内容が含まれていればO
含まれていなければX
35
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに•実験設定
•評価用の部分的表現
•評価指標
•提案手法の実験結果
評価結果
翻訳精度
(0 5)
流暢さ
(1 5)
部分的表現
(%)
提案手法
(λ=0.25)
2.13 4.73 75
出力文の約40%程度の部分が正しい
流暢さは4以上あれば十分だと考える
37
出力例
入力:We recommend that you consult with your
doctor if using the product for the first time.
(はじめての利用の際は医者に相談することをおすすめします。)
部分的表現:you consult
ご 相談::を おすすめ::し::ます::。
38
出力例
入力:Minute foam washes , moisturizes and
refresh your skin.
(キメ細かい泡立ちでお肌をスッキリ、しっとりと洗い上げます。)
部分的表現:foam washes, 文集合の文数:10文
バス::パフ::は::、::ふわふわ::の::アワ::を::つくり::、::
優しく::包む::よう::に 洗い上げ::ます::。
対訳文集合が小さいと1ノードが長くなる
参照訳と出力結果の単語数の割合を見ると平均93%
39
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
•結合方法の変更
•重要ノード通過の強制
ノード結合方法の変更
対訳文集合中で高頻度の語を結合
1 1 1 1 1
3
3
6 6
7 7 7
3
3
4
41
評価結果
翻訳精度
(0 5)
流暢さ
(1 5)
部分的表現
(%)
提案手法
(λ=0.25)
2.13 4.73 75
文集合内結合
(λ=0.5)
2.67 4.23 48
翻訳精度は向上しているが(半分が正解)
部分的翻訳を中心とした翻訳となっていない
参照訳と出力結果の単語数の割合:平均52%
42
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
•結合方法の変更
•重要ノード通過の強制
重要ノード
部分的表現と対応するノードの通過を強制
this product keeps
柔軟 保ち 保つ 製品
部分的表現に対する単語翻訳確率を加算、
そのスコアで順位付ける
…
0,0 0,0.3 0,0.4 0.5,0
保ち 保つ 製品上位3ノード
のいずれかを必ず通過44
評価結果
翻訳精度
(0 5)
流暢さ
(1 5)
部分的表現
(%)
提案手法
(λ=0.25)
2.13 4.73 75
文集合内結合
(λ=0.5)
2.67 4.23 48
重要ノード通過
※(λ=0.5)
2.87 4.39 77
※ 発表者評価
出力文の57%程度が正解となる
77%の精度で部分的表現が翻訳される
45
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
まとめ
• 間違っている可能性がある機械翻訳を読むのは精神的負
担
• 原文の情報を落としても良いので、部分的に翻訳したい
• ワードグラフを用いた部分的機械翻訳を提案
・ 出力文の57%の部分が正解という翻訳精度
・ 77%の精度で部分的表現が翻訳される
47
1.1ページ概要
2.提案手法
3.評価
4.提案手法の改善
5.まとめ
6.修士論文発表までに
修士論文発表会までに
• ワードグラフ毎の翻訳結果の解析
• ワードグラフの構造に出力結果が大き
く依存している
• どのようなワードグラフだと翻訳精度
が高いのかを調査
• 改善策の提案
49
ベースライン
1. 対訳文集合で原言語側を利用して短文化
- 重要エッジスコアのみを用いる
2. 短文化された入力文を翻訳
フレーズベース統計的機械翻訳器(Moses)の
パラメータチューニングは12語以下の文100文で行う
前編集型
同時に翻訳することの効果を調べる
2650
評価結果
翻訳精度
(6段階)
流暢さ
(5段階)
部分的表現
が翻訳されて
いるか(%)
ベースライン
※
2.98 4.61 80
提案手法
(λ=0.25)
3.13 4.73 75
※ 著者による評価 2751

More Related Content

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討機械学習を用いたニ格深層格の自動付与の検討
機械学習を用いたニ格深層格の自動付与の検討
 

対訳コーパスから生成したワードグラフによる部分的機械翻訳