SlideShare a Scribd company logo
ー文献紹介ー
結合価文法による動詞と名詞の
訳語選択能力の評価
長岡技術科学大学 自然言語処理研究室 高橋寛治
文献について
●
結合価文法による動詞と名詞の訳語選択能力の評価
●
金出地真人、徳久雅人、村上仁一、池原悟
●
情報処理学会研究報告 自然言語処理研究会報
告、119-124、2003-1-20
はじめに
動詞と名詞の訳語選択における、結合価文法の効果の定量的検証
●
これまでは・・
●
動詞の意味解析
●
「尤度」共起レベルと頻度
●
「制約」辞書的記述
●
単語の共起関係
●
訳語選択において、いずれも高い精度を出していない
結合価文法のおさらい
●
結合価文法
●
用言と格要素(名詞+助詞)の意味的関係を記述したもの
●
結合価パターンの例(日本語語彙大系 構文意味辞書)
見出し語 日本語文型 英語文型
送る N1(人)がN2(休暇)を送る N1 spend N2
送る N1(人)がN2(生活)を送る N1 live N2
一般名詞意味属性体系
名詞の意味的用法に着目し
シソーラスで体系化
●
最大12段の木構造
●
2,710の意味属性の分類
●
約40万語の名詞
●
木構造において
●
上位の意味属性は下位の意味属性を内包
結合価文法による訳語選択
対象とする文の用言により構文意味辞書を検索
格要素の意味属性などが
最も多く一致するパターンを1つ選択
日本語パターンの格要素に対応する
名詞の意味属性から名詞の訳語を決定
訳語
評価実験
結合価文法の性能の調査
●
結合価文法で得た英語訳と正解例の英訳語を比較
●
利用するシステム
●
翻訳ソフト「ALT-J/E」を用いる
●
結果の誤りには注意
●
ALT-J/Eでは、形態素解析などのその他解析のエラーがある
評価対象
IPAL辞書に登録されている基本動詞および基本
名詞を含む単文の日英対訳文
●
基本動詞(861語)、基本名詞(1,081語)
●
評価実験には
●
動詞に関する5242文の例文
●
名詞に関する例文1062文の例文
評価方法と基準
●
評価はALTで機械翻訳した英訳文のうちの注目
単語の英訳語と対訳の英訳語を比較
●
基準は
●
「◯」「△」「✕」の三段階
評価◯
対象とする単語のALTの英語訳が、対訳例が用
いている訳語と一致する場合
●
例 :2つの川がこの地点で合う。
●
対訳 :The two rivers join at this point.
●
ALT訳 :Two rivers join in this point.
評価△
対象とする単語のALTの英語訳が、対訳例が用
いている訳語と異なるが、意味的に正しい場合
●
例 :彼は準備を急いだ。
●
対訳 :He prepares quickly.
●
ALT訳 :He hurried preparation.
評価✕
対象とする単語のALTの英語訳が、間違っている場合
●
例 :彼ら海底に沈んでいた船を陸に揚げた。
●
対訳 :They salvaged the sunken vessel on the
bottom of the sea.
●
ALT訳 :They deep-fried in land the ships that had
sunk in the bottom of the sea.
実験結果
評価 ALT-J/E
デフォルト
訳語
◯ 49% 2572文 22% 1141文
△ 40% 2081文 33% 1740文
✕ 11% 589文 45% 2361文
合計 5242文 5242文
評価 ALT-J/E
デフォルト
訳語
◯ 62% 658文 58% 615文
△ 29% 312文 27% 289文
✕ 9% 92文 15% 158文
合計 1062文 1062文
動詞訳し分けの精度 名詞訳し分けの精度
正しい動詞訳語が出せなかった原因
翻訳失敗の原因 割合
1 パターンが登録されていない場合 21% 26文
2 パターンの照合に失敗した場合 37% 45文
3 慣用表現が用いられている場合 11% 13文
4 形態素解析に失敗した場合 9% 11文
5 係り受け解析に失敗した場合 17% 21文
6 例文が2通りの意味にとれる場合 5% 6文
パターンが登録されていない場合
●
例 :学生が教授に教授の都合を電話で伺った。
●
対訳 :The student phoned the professor and
asked him when he would be free.
●
ALT :A student listenend the professor's
circumstances with a telephone to a professor.
不足しているパターンを補うことで解決
パターンの照合に失敗した場合
●
例  :彼は海外で夏休みを送った。
●
対訳 :He spend his summer vacation abord.
●
ALT :He saw a summer vacation of at a forein
country.
送るに関して12種類あるため、選択が難しい
例文に慣用表現が用いられている
●
例 :彼は話の腰を折った。
●
対訳 :He interrupted a person's speech.
●
ALT :He broke the waist of talk.
パターンの追加で解決
解析のエラー
結合か文法を用いる以前の問題
●
形態素解析の失敗
●
係り受け解析の失敗
これらが正しく処理されないと
結合価文法を扱うことができない。
例文がニ通りの意味にとれる場合
●
例 :職場の不満から彼は家族の者に当たった。
●
対訳 :He was hard on his family because of complaints
he had about his job.
●
ALT :He corresponded to the person of his family from
the discontent of a place of work.
原因と結果をそれぞれ節であらわす複文
●
結合価文法による訳し分けの限界
名詞訳語に関して
ALTの結果は、デフォルトより6%良い値
●
IPAL辞書の名詞の約5割が多義を持たないため
●
結合価文法は動詞の訳語選択を目的として開発され
たものである
おわりに
●
単文において結合価文法の動詞と名詞の訳し分け精度を調査
した
●
動詞についてはデフォルトに比べ34%の精度の向上が見ら
れた
●
結合価文法の特徴を限界まで用いることができれば、さらに
精度向上が期待できる(動詞は98~99%、名詞は94%と推
測)
おわりに
●
単文において結合価文法の動詞と名詞の訳し分け精度を調査
した
●
動詞についてはデフォルトに比べ34%の精度の向上が見ら
れた
●
結合価文法の特徴を限界まで用いることができれば、さらに
精度向上が期待できる(動詞は98~99%、名詞は94%と推
測)

More Related Content

More from Kanji Takahashi

言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
Kanji Takahashi
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
Kanji Takahashi
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
Kanji Takahashi
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
Kanji Takahashi
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
Kanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Kanji Takahashi
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
Kanji Takahashi
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
Kanji Takahashi
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
Kanji Takahashi
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
Kanji Takahashi
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Kanji Takahashi
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
Kanji Takahashi
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
Kanji Takahashi
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
Kanji Takahashi
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
Kanji Takahashi
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
Kanji Takahashi
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
Kanji Takahashi
 
20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words
Kanji Takahashi
 
A baseline system for chinese near synonym choice
A baseline system for chinese near synonym choiceA baseline system for chinese near synonym choice
A baseline system for chinese near synonym choice
Kanji Takahashi
 
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
Kanji Takahashi
 

More from Kanji Takahashi (20)

言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
 
20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words20150415 automatic retirieval_and_clustering_of_similar_words
20150415 automatic retirieval_and_clustering_of_similar_words
 
A baseline system for chinese near synonym choice
A baseline system for chinese near synonym choiceA baseline system for chinese near synonym choice
A baseline system for chinese near synonym choice
 
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
20150225文献紹介 On WordNet Semantic Classes and Dependency Parsing
 

第3回 結合価文法による動詞と名詞の訳語選択能力の評価