SlideShare a Scribd company logo
1 of 17
Download to read offline
ー文献紹介ー
SDMT:用例翻訳への新しい
アプローチ
長岡技術科学大学 自然言語処理研究室 高橋寛治
文献について
●
SDMT:用例翻訳への新しいアプローチ
●
加藤直人(ATR音声言語コミュニケーション研究所)
●
情報処理学会研究報告 自然言語処理研究会報
告、151-156、2005-12
はじめに
用例翻訳への新しいアプローチ
●
SDMT(Similarity-Driven Machine Translation)
●
単言語内類似度と二言語間類似度に基づき、断片的に類似した複数
用例を利用して翻訳を行う。
●
統計的手法を取り入れた用例翻訳
単言語内類似度と二言語間類似度
●
単言語内類似度
●
一つの言語内における類似度
●
二言語間類似度
●
原言語と目的言語の単言語内類似度の差
単言語内類似度
●2つの文S1,S2間の共通する単語数の割合で定義
●
単言語内類似度は0から1.0まで
si m(S1,S2)=2⋅|S1∩S2|/(|S1|+|S2|)
具体例
●J0:グラスゴーまで寝台の切符をお願いしま
す
●J1:サンフランシスコまでの片道切符をお願い
します
●
sim(J0,J1) = 2・7 / (9 + 9) = 0.78
●J2:グラスゴーまで特急をお願いします
● sim(J0,J2) = 0.75
●J3:ロンドンまでの指定券をお願いします
● sim(J0,J3) = 0.71
●J4:シカゴ行き寝台の切符を二枚ください
● sim(J0,J4) = 0.44
● E0:I'd like a sleeping car ticket to Glasgow,
please.
● E1:I'd like a one-way tickect to San Francisco,
please.
●
sim(E0,E1) = 2・9 / (12 + 11) = 0.78
● E2:I would like a ticket on the limited express
to Glasgow, please.
● sim(E0,E2) = 0.72
● E3:I'd like to reserve a seat to Lodon.
● sim(E0,E3) = 0.55
● E4:Can I have sleeping car tickets to Chicago,
please?
● sim(E0,E4) = 0.52
具体例
●J0:グラスゴーまで寝台の切符をお願いし
ます
J1:サンフランシスコまでの片道切符をお願いします
● sim(J0,J1) = 2・7 / (9 + 9) = 0.78
●J2:グラスゴーまで特急をお願いします
● sim(J0,J2) = 0.75
●J3:ロンドンまでの指定券をお願いします
● sim(J0,J3) = 0.71
●J4:シカゴ行き寝台の切符を二枚ください
● sim(J0,J4) = 0.44
● E0:I'd like a sleeping car ticket to Glasgow,
please.
● E1:I'd like a one-way tickect to San Francisco,
please.
●
sim(E0,E1) = 2・9 / (12 + 11) = 0.78
● E2:I would like a ticket on the limited express
to Glasgow, please.
● sim(E0,E2) = 0.72
● E3:I'd like to reserve a seat to Lodon.
● sim(E0,E3) = 0.55
● E4:Can I have sleeping car tickets to Chicago,
please?
● sim(E0,E4) = 0.52
J0
グラスゴー まで 寝台 の 切
符
を お願い し ます
J1
サンフランシスコ まで の 片道 切
符
を お願い し ます
si m(S1,S2)=2⋅∣S1∩S2∣/(∣S1∣+∣S2∣)
二言語間類似度
原言語と目的言語の単言語内類似度の差を
             と定義する
δが非常に小さい
●
原言語と目的言語での単言語内類似度が
ほぼ等しい
δ=|sim(J0 ,J1)−sim(E0 ,E1)|
仮定
原言語と目的言語の
単言語内類似度は
それぞれほぼ同じとなる
提案手法
●
STEP1 単言語内類似度による用例の収集
●
STEP2 マルチプルアライメント
●
STEP3 ワードグラフによる解候補の構成
●
STEP4 言語モデルと二言語間類似度による最適
解の探索
1.単言語内類似度による用例の収集
●
基本用例
●単語内類似度が高い用例から上位Sbase個収集する
●
単語用例
●
入力文の単語の中で、基本用例で被覆されなかった単
語を含み、かつ、単言語内類似度が高い上位Swords個収
集する
2.マルチプルアライメント
最適解を生成する組み合わせ方
3.ワードグラフによる解候補の構成
4.言語モデルと二言語間類似度による最適解の探索
●
最適パスは言語モデルと二言語間類似度の制約を用いて求める
●
言語モデルの制約
●
目的言語でのn-gramを用いて、パスのNベスト集合を求める
●
二言語間類似度の制約
●
Nベスト集合を再ランク付け
●
最適解はニ言語間類似度の総和が最大となるものがよいと考えられる
評価
●
IWSLT2004のデータを用いた
●
(機械翻訳を対象とした評価型ワークショップ)
●
Small Data Trackの日英翻訳を利用
●
用例2万文、テストセット500文の日本語文
●
翻訳評価は自動評価
自動評価結果
●
全体としてどの値
が最適なのか不明
●
人手による評価も
必要ではないか?
おわりに
●
SDMTという用例翻訳への新しいアプローチ
●
SDMTは変換処理がない
●
単言語内類似度と二言語間類似度により翻訳

More Related Content

Similar to SDMT:用例翻訳への新しいアプローチ

第4回結合価パターンを用いた動詞句の翻訳可能性の調査
第4回結合価パターンを用いた動詞句の翻訳可能性の調査第4回結合価パターンを用いた動詞句の翻訳可能性の調査
第4回結合価パターンを用いた動詞句の翻訳可能性の調査Kanji Takahashi
 
Phrase linguistic classification and generalization for improving statistical...
Phrase linguistic classification and generalization for improving statistical...Phrase linguistic classification and generalization for improving statistical...
Phrase linguistic classification and generalization for improving statistical...Hiroshi Matsumoto
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」Hiroyuki Miyoshi
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーKanji Takahashi
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三博三 太田
 

Similar to SDMT:用例翻訳への新しいアプローチ (7)

第4回結合価パターンを用いた動詞句の翻訳可能性の調査
第4回結合価パターンを用いた動詞句の翻訳可能性の調査第4回結合価パターンを用いた動詞句の翻訳可能性の調査
第4回結合価パターンを用いた動詞句の翻訳可能性の調査
 
Phrase linguistic classification and generalization for improving statistical...
Phrase linguistic classification and generalization for improving statistical...Phrase linguistic classification and generalization for improving statistical...
Phrase linguistic classification and generalization for improving statistical...
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
日本音響学会春季発表会2017 「コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換」
 
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてーMT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
MT勉強会 第4回 換言事例の収集ー日英基本構文を対象としてー
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
日本語学習者属性別の言語行為の対話自動生成への適用に関する 一考察 太田博三
 

More from Kanji Takahashi

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組みKanji Takahashi
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学するKanji Takahashi
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告Kanji Takahashi
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...Kanji Takahashi
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine TranslationKanji Takahashi
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyKanji Takahashi
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Kanji Takahashi
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionKanji Takahashi
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationKanji Takahashi
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Kanji Takahashi
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用Kanji Takahashi
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...Kanji Takahashi
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...Kanji Takahashi
 

More from Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 

SDMT:用例翻訳への新しいアプローチ