読解支援7 3

Rada Mihalcea, Ravi Sinha, Diana McCarthy
Presentation:塩田健人

u  扱った問題
u  2言語間の言い換え
u  英語の単語をスペイン語の語や句で置き換える
u  解決方法
u  アノテーターとシステムの評価の一致度をみる
u  どのようなことに役立つか？
u  2言語間の翻訳の手助けとなる
u  言語学習者の学習支援

u  少なくとも同義語が1つ以上ある語をtarget
wordにした
u  Target wordが10文につき1語あるようにし2010
文をEnglish internet corpusから文を抽出
u  ５人のアノテーター
u  アノテーターに最大3つの言い換えを出させた。
u  アノテーターはさらにtarget wordが複合語の一
部かどうかも見分ける

u  アノテーターは言い換えというよりは翻訳をしても
らった。
u  与えられた語からいくつかの正しい翻訳をつける
u  Target wordを英語に設定し、スペイン語に翻訳する
u  発展とテストセットをやったがトレーニングはしていな
い
u  トレーニングが必要な場合は、LEXSUBから得た
u  ３０のdevelopment wordと、100の語をLEXSUBか
ら引用した（様々な言い換えの出来る語だから）
u  LEXSUBと同じ文を使用
u  英語とスペイン語が使える4人のアノテーター
u  辞書などは自由に用いてよく、彼らの思いつく限りの
言い換えを列挙
u  LEXSUBとは違い、複合語の判定をしていない

u  辞書ベースbaseline DICT
u  Best baselineはオンライン辞書で一番始めに出
てくる翻訳を用いた
u  Out-of-tenは上位10位の翻訳を用いた
u  辞書-コーパスベースbaseline DICTCORP
u  スペイン語辞書の翻訳の頻度を計算する
u  全ての翻訳はtarget wordをspanish wikiでの
翻訳の頻度によってランク付けされたものから計
算

u  14のシステム
u  辞書、Europarlなどのパラレルコーパス、
wikipediaから作ったコーパス、Web1Tなどの単
一言語コーパス、newswire collections、
Moses、GIZA、Googleなどの翻訳ソフトを使っ
たシステム
u  英語側で語彙言い換えのフレームワークや語義
曖昧性解消を使うシステムもあれば、一方でスペ
イン語側で語彙言い換えを使っているシステムも
あった。

u  CU-SMT
u  フレーズベースの統計的機械翻訳システム
u  Europarl English-Spanishパラレルコーパスで学習した
u  UvT-v and UvT-g
u  それぞれのTarget wordごとに特化するために、k近傍法
分類器を使い、EuroparlパラレルコーパスのGIZAアライメ
ントに基づき、翻訳を選択した
u  UBA-T and UBA-W
u  言い換えの候補としてパラレルコーパスを使っている
Google dictionaryとSpanishDict.com、Babylonを使用
u  UBA-TはGoogle Translation APIとヒューリスティックを組
み合わせた自動翻訳システムを使用
u  UBA-WはDbpediaから自動構成されたパラレルコーパス
を使用

u  SWAT-EとSWAT-S
u  英語とスペイン語の語彙的換言フレームワークを使用
u  SWAT-Eは英語で言い換えをし、その言い換えた英語をさ
らにスペイン語に翻訳している
u  SWAT-Sは文をスペイン語に翻訳してからスペイン語に
なったtarget wordを見つけ、スペイン語で言い換えをする
システム
u  TYO
u  英語の単一言語言い換えモジュールを使用しており、英語
から英語に言い換えた後、スペイン語にFreedictやGoogle
の英スペイン辞書を用いて翻訳する
u  FCC-LS
u  EuroparlコーパスのGIZAアライメントから得られた推定に
基づいた翻訳の確率を使用
u  得られた翻訳をtarget wordの翻訳だけ含んだものにする
ためにGoogle翻訳をもちいてフィルタリングした

u  WLVusp
u  英スペイン辞書でフィルタリングしたMosesによって得
られたN個のベストの翻訳を使用
u  uspWLV
u  多くの素性と分類器を用いて選ばれたEuroparlからア
ライメントをとった候補を使用
u  IRST-1
u  Best：Mosesの品詞アライメントを使用
u  Out-of-ten：辞書での翻訳をtarget wordの候補と
target wordが含まれている文のスペイン語翻訳の
LSA類似度でフィルタリングした物を使用

u  IRSTbs
u  ベースラインに似せるようにした
u  Best：Mosesの品詞情報のみ使用
u  Out-of-ten：辞書を用いての翻訳のみ使用
u  ColEurとColSlm
u  語義曖昧性解消アルゴリズム
u  英語の語義を区別する
u  翻訳には語義に関するパラレルコーパスのGIZAアラ
イメントを使用

u  LEXSUBよりも良い結果が得られた
u  難易度
u  言い換えの翻訳を比較するのは人間、機械にとって簡
単だったのかも
u  条件の違い
u  LEXSUBに参加したアノテーターには分からなかった
言い換えや単位（puond, yard）、特殊な使われ方を
する単語（mad cow diseaseに使われているmad）を
除いた
u  学習する際にLEXSUBより多くのパラレルコーパスを
使用することが出来たため

読解支援7 3

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

読解支援7 3