SlideShare a Scribd company logo
1 of 13
Download to read offline
Rada Mihalcea, Ravi Sinha, Diana McCarthy
Presentation:塩田健人
u  扱った問題
u  2言語間の言い換え
u  英語の単語をスペイン語の語や句で置き換える
u  解決方法
u  アノテーターとシステムの評価の一致度をみる
u  どのようなことに役立つか?
u  2言語間の翻訳の手助けとなる
u  言語学習者の学習支援
u  少なくとも同義語が1つ以上ある語をtarget
wordにした
u  Target wordが10文につき1語あるようにし2010
文をEnglish internet corpusから文を抽出
u  5人のアノテーター
u  アノテーターに最大3つの言い換えを出させた。
u  アノテーターはさらにtarget wordが複合語の一
部かどうかも見分ける
u  アノテーターは言い換えというよりは翻訳をしても
らった。
u  与えられた語からいくつかの正しい翻訳をつける
u  Target wordを英語に設定し、スペイン語に翻訳する
u  発展とテストセットをやったがトレーニングはしていな
い
u  トレーニングが必要な場合は、LEXSUBから得た
u  30のdevelopment wordと、100の語をLEXSUBか
ら引用した(様々な言い換えの出来る語だから)
u  LEXSUBと同じ文を使用
u  英語とスペイン語が使える4人のアノテーター
u  辞書などは自由に用いてよく、彼らの思いつく限りの
言い換えを列挙
u  LEXSUBとは違い、複合語の判定をしていない
u  辞書ベースbaseline DICT
u  Best baselineはオンライン辞書で一番始めに出
てくる翻訳を用いた
u  Out-of-tenは上位10位の翻訳を用いた
u  辞書-コーパスベースbaseline DICTCORP
u  スペイン語辞書の翻訳の頻度を計算する
u  全ての翻訳はtarget wordをspanish wikiでの
翻訳の頻度によってランク付けされたものから計
算
u  14のシステム
u  辞書、Europarlなどのパラレルコーパス、
wikipediaから作ったコーパス、Web1Tなどの単
一言語コーパス、newswire collections、
Moses、GIZA、Googleなどの翻訳ソフトを使っ
たシステム
u  英語側で語彙言い換えのフレームワークや語義
曖昧性解消を使うシステムもあれば、一方でスペ
イン語側で語彙言い換えを使っているシステムも
あった。
u  CU-SMT
u  フレーズベースの統計的機械翻訳システム
u  Europarl English-Spanishパラレルコーパスで学習した
u  UvT-v and UvT-g
u  それぞれのTarget wordごとに特化するために、k近傍法
分類器を使い、EuroparlパラレルコーパスのGIZAアライメ
ントに基づき、翻訳を選択した
u  UBA-T and UBA-W
u  言い換えの候補としてパラレルコーパスを使っている
Google dictionaryとSpanishDict.com、Babylonを使用
u  UBA-TはGoogle Translation APIとヒューリスティックを組
み合わせた自動翻訳システムを使用
u  UBA-WはDbpediaから自動構成されたパラレルコーパス
を使用
u  SWAT-EとSWAT-S
u  英語とスペイン語の語彙的換言フレームワークを使用
u  SWAT-Eは英語で言い換えをし、その言い換えた英語をさ
らにスペイン語に翻訳している
u  SWAT-Sは文をスペイン語に翻訳してからスペイン語に
なったtarget wordを見つけ、スペイン語で言い換えをする
システム
u  TYO
u  英語の単一言語言い換えモジュールを使用しており、英語
から英語に言い換えた後、スペイン語にFreedictやGoogle
の英スペイン辞書を用いて翻訳する
u  FCC-LS
u  EuroparlコーパスのGIZAアライメントから得られた推定に
基づいた翻訳の確率を使用
u  得られた翻訳をtarget wordの翻訳だけ含んだものにする
ためにGoogle翻訳をもちいてフィルタリングした
u  WLVusp
u  英スペイン辞書でフィルタリングしたMosesによって得
られたN個のベストの翻訳を使用
u  uspWLV
u  多くの素性と分類器を用いて選ばれたEuroparlからア
ライメントをとった候補を使用
u  IRST-1
u  Best:Mosesの品詞アライメントを使用
u  Out-of-ten:辞書での翻訳をtarget wordの候補と
target wordが含まれている文のスペイン語翻訳の
LSA類似度でフィルタリングした物を使用
u  IRSTbs
u  ベースラインに似せるようにした
u  Best:Mosesの品詞情報のみ使用
u  Out-of-ten:辞書を用いての翻訳のみ使用
u  ColEurとColSlm
u  語義曖昧性解消アルゴリズム
u  英語の語義を区別する
u  翻訳には語義に関するパラレルコーパスのGIZAアラ
イメントを使用
best
Out-of-ten
u  LEXSUBよりも良い結果が得られた
u  難易度
u  言い換えの翻訳を比較するのは人間、機械にとって簡
単だったのかも
u  条件の違い
u  LEXSUBに参加したアノテーターには分からなかった
言い換えや単位(puond, yard)、特殊な使われ方を
する単語(mad cow diseaseに使われているmad)を
除いた
u  学習する際にLEXSUBより多くのパラレルコーパスを
使用することが出来たため

More Related Content

Viewers also liked

読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26kentshioda
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5kentshioda
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17kentshioda
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目kentshioda
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目kentshioda
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースターkentshioda
 

Viewers also liked (9)

読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
読解支援7 17
読解支援7 17読解支援7 17
読解支援7 17
 
読解支援_2本目
読解支援_2本目読解支援_2本目
読解支援_2本目
 
読解支援_1本目
読解支援_1本目読解支援_1本目
読解支援_1本目
 
日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター日本語学習者の文章読解支援のための語彙制限 ブースター
日本語学習者の文章読解支援のための語彙制限 ブースター
 

読解支援7 3

  • 1. Rada Mihalcea, Ravi Sinha, Diana McCarthy Presentation:塩田健人
  • 2. u  扱った問題 u  2言語間の言い換え u  英語の単語をスペイン語の語や句で置き換える u  解決方法 u  アノテーターとシステムの評価の一致度をみる u  どのようなことに役立つか? u  2言語間の翻訳の手助けとなる u  言語学習者の学習支援
  • 3. u  少なくとも同義語が1つ以上ある語をtarget wordにした u  Target wordが10文につき1語あるようにし2010 文をEnglish internet corpusから文を抽出 u  5人のアノテーター u  アノテーターに最大3つの言い換えを出させた。 u  アノテーターはさらにtarget wordが複合語の一 部かどうかも見分ける
  • 4. u  アノテーターは言い換えというよりは翻訳をしても らった。 u  与えられた語からいくつかの正しい翻訳をつける u  Target wordを英語に設定し、スペイン語に翻訳する u  発展とテストセットをやったがトレーニングはしていな い u  トレーニングが必要な場合は、LEXSUBから得た u  30のdevelopment wordと、100の語をLEXSUBか ら引用した(様々な言い換えの出来る語だから) u  LEXSUBと同じ文を使用 u  英語とスペイン語が使える4人のアノテーター u  辞書などは自由に用いてよく、彼らの思いつく限りの 言い換えを列挙 u  LEXSUBとは違い、複合語の判定をしていない
  • 5. u  辞書ベースbaseline DICT u  Best baselineはオンライン辞書で一番始めに出 てくる翻訳を用いた u  Out-of-tenは上位10位の翻訳を用いた u  辞書-コーパスベースbaseline DICTCORP u  スペイン語辞書の翻訳の頻度を計算する u  全ての翻訳はtarget wordをspanish wikiでの 翻訳の頻度によってランク付けされたものから計 算
  • 6. u  14のシステム u  辞書、Europarlなどのパラレルコーパス、 wikipediaから作ったコーパス、Web1Tなどの単 一言語コーパス、newswire collections、 Moses、GIZA、Googleなどの翻訳ソフトを使っ たシステム u  英語側で語彙言い換えのフレームワークや語義 曖昧性解消を使うシステムもあれば、一方でスペ イン語側で語彙言い換えを使っているシステムも あった。
  • 7. u  CU-SMT u  フレーズベースの統計的機械翻訳システム u  Europarl English-Spanishパラレルコーパスで学習した u  UvT-v and UvT-g u  それぞれのTarget wordごとに特化するために、k近傍法 分類器を使い、EuroparlパラレルコーパスのGIZAアライメ ントに基づき、翻訳を選択した u  UBA-T and UBA-W u  言い換えの候補としてパラレルコーパスを使っている Google dictionaryとSpanishDict.com、Babylonを使用 u  UBA-TはGoogle Translation APIとヒューリスティックを組 み合わせた自動翻訳システムを使用 u  UBA-WはDbpediaから自動構成されたパラレルコーパス を使用
  • 8. u  SWAT-EとSWAT-S u  英語とスペイン語の語彙的換言フレームワークを使用 u  SWAT-Eは英語で言い換えをし、その言い換えた英語をさ らにスペイン語に翻訳している u  SWAT-Sは文をスペイン語に翻訳してからスペイン語に なったtarget wordを見つけ、スペイン語で言い換えをする システム u  TYO u  英語の単一言語言い換えモジュールを使用しており、英語 から英語に言い換えた後、スペイン語にFreedictやGoogle の英スペイン辞書を用いて翻訳する u  FCC-LS u  EuroparlコーパスのGIZAアライメントから得られた推定に 基づいた翻訳の確率を使用 u  得られた翻訳をtarget wordの翻訳だけ含んだものにする ためにGoogle翻訳をもちいてフィルタリングした
  • 9. u  WLVusp u  英スペイン辞書でフィルタリングしたMosesによって得 られたN個のベストの翻訳を使用 u  uspWLV u  多くの素性と分類器を用いて選ばれたEuroparlからア ライメントをとった候補を使用 u  IRST-1 u  Best:Mosesの品詞アライメントを使用 u  Out-of-ten:辞書での翻訳をtarget wordの候補と target wordが含まれている文のスペイン語翻訳の LSA類似度でフィルタリングした物を使用
  • 10. u  IRSTbs u  ベースラインに似せるようにした u  Best:Mosesの品詞情報のみ使用 u  Out-of-ten:辞書を用いての翻訳のみ使用 u  ColEurとColSlm u  語義曖昧性解消アルゴリズム u  英語の語義を区別する u  翻訳には語義に関するパラレルコーパスのGIZAアラ イメントを使用
  • 11. best
  • 13. u  LEXSUBよりも良い結果が得られた u  難易度 u  言い換えの翻訳を比較するのは人間、機械にとって簡 単だったのかも u  条件の違い u  LEXSUBに参加したアノテーターには分からなかった 言い換えや単位(puond, yard)、特殊な使われ方を する単語(mad cow diseaseに使われているmad)を 除いた u  学習する際にLEXSUBより多くのパラレルコーパスを 使用することが出来たため