SDMT：用例翻訳への新しいアプローチ

ー文献紹介ー
SDMT：用例翻訳への新しい
アプローチ
長岡技術科学大学　自然言語処理研究室　高橋寛治

文献について
●
SDMT：用例翻訳への新しいアプローチ
●
加藤直人（ATR音声言語コミュニケーション研究所）
●
情報処理学会研究報告　自然言語処理研究会報
告、151-156、2005-12

はじめに
用例翻訳への新しいアプローチ
●
SDMT(Similarity-Driven Machine Translation)
●
単言語内類似度と二言語間類似度に基づき、断片的に類似した複数
用例を利用して翻訳を行う。
●
統計的手法を取り入れた用例翻訳

単言語内類似度と二言語間類似度
●
単言語内類似度
●
一つの言語内における類似度
●
二言語間類似度
●
原言語と目的言語の単言語内類似度の差

単言語内類似度
●2つの文S1,S2間の共通する単語数の割合で定義
●
単言語内類似度は0から1.0まで
si m(S1,S2)=2⋅|S1∩S2|/(|S1|+|S2|)

具体例
●J0:グラスゴーまで寝台の切符をお願いしま
す
●J1:サンフランシスコまでの片道切符をお願い
します
●
sim(J0,J1) = 2・7 / (9 + 9) = 0.78
●J2:グラスゴーまで特急をお願いします
● sim(J0,J2) = 0.75
●J3:ロンドンまでの指定券をお願いします
● sim(J0,J3) = 0.71
●J4:シカゴ行き寝台の切符を二枚ください
● sim(J0,J4) = 0.44
● E0:I'd like a sleeping car ticket to Glasgow,
please.
● E1:I'd like a one-way tickect to San Francisco,
please.
●
sim(E0,E1) = 2・9 / (12 + 11) = 0.78
● E2:I would like a ticket on the limited express
to Glasgow, please.
● sim(E0,E2) = 0.72
● E3:I'd like to reserve a seat to Lodon.
● sim(E0,E3) = 0.55
● E4:Can I have sleeping car tickets to Chicago,
please?
● sim(E0,E4) = 0.52

具体例
●J0:グラスゴーまで寝台の切符をお願いし
ます
J1:サンフランシスコまでの片道切符をお願いします
● sim(J0,J1) = 2・7 / (9 + 9) = 0.78
●J2:グラスゴーまで特急をお願いします
● sim(J0,J2) = 0.75
●J3:ロンドンまでの指定券をお願いします
● sim(J0,J3) = 0.71
●J4:シカゴ行き寝台の切符を二枚ください
● sim(J0,J4) = 0.44
● E0:I'd like a sleeping car ticket to Glasgow,
please.
● E1:I'd like a one-way tickect to San Francisco,
please.
●
sim(E0,E1) = 2・9 / (12 + 11) = 0.78
● E2:I would like a ticket on the limited express
to Glasgow, please.
● sim(E0,E2) = 0.72
● E3:I'd like to reserve a seat to Lodon.
● sim(E0,E3) = 0.55
● E4:Can I have sleeping car tickets to Chicago,
please?
● sim(E0,E4) = 0.52
J0
グラスゴーまで寝台の切
符
をお願いします
J1
サンフランシスコまでの片道切
符
をお願いします
si m(S1,S2)=2⋅∣S1∩S2∣/(∣S1∣+∣S2∣)

二言語間類似度
原言語と目的言語の単言語内類似度の差を
　　　　　　　　　　　　　と定義する
δが非常に小さい
●
原言語と目的言語での単言語内類似度が
ほぼ等しい
δ=|sim(J0 ,J1)−sim(E0 ,E1)|

仮定
原言語と目的言語の
単言語内類似度は
それぞれほぼ同じとなる

提案手法
●
STEP1 単言語内類似度による用例の収集
●
STEP2 マルチプルアライメント
●
STEP3 ワードグラフによる解候補の構成
●
STEP4 言語モデルと二言語間類似度による最適
解の探索

1.単言語内類似度による用例の収集
●
基本用例
●単語内類似度が高い用例から上位Sbase個収集する
●
単語用例
●
入力文の単語の中で、基本用例で被覆されなかった単
語を含み、かつ、単言語内類似度が高い上位Swords個収
集する

2.マルチプルアライメント
最適解を生成する組み合わせ方

3.ワードグラフによる解候補の構成

4.言語モデルと二言語間類似度による最適解の探索
●
最適パスは言語モデルと二言語間類似度の制約を用いて求める
●
言語モデルの制約
●
目的言語でのn-gramを用いて、パスのNベスト集合を求める
●
二言語間類似度の制約
●
Nベスト集合を再ランク付け
●
最適解はニ言語間類似度の総和が最大となるものがよいと考えられる

評価
●
IWSLT2004のデータを用いた
●
（機械翻訳を対象とした評価型ワークショップ）
●
Small Data Trackの日英翻訳を利用
●
用例2万文、テストセット500文の日本語文
●
翻訳評価は自動評価

自動評価結果
●
全体としてどの値
が最適なのか不明
●
人手による評価も
必要ではないか？

おわりに
●
SDMTという用例翻訳への新しいアプローチ
●
SDMTは変換処理がない
●
単言語内類似度と二言語間類似度により翻訳

SDMT：用例翻訳への新しいアプローチ

Recommended

Recommended

More Related Content

Similar to SDMT：用例翻訳への新しいアプローチ

Similar to SDMT：用例翻訳への新しいアプローチ (7)

More from Kanji Takahashi

More from Kanji Takahashi (20)

SDMT：用例翻訳への新しいアプローチ