SlideShare a Scribd company logo
1 of 32
Download to read offline
日本語機能表現の自動検出と
統計的係り受け解析への応用
長岡技術科学大学 自然言語処理研究室
高橋寛治
注連 隆夫, 土屋 雅稔, 松吉 俊, 宇津呂 武仁, 佐藤 理史
自然言語処理, Vol. 14, No. 5, pp.167-197, 言語処理学会, 2007
文献紹介 2015年10月7日
概要
•機能表現を機械学習を用いて検出する手法を提案
•検出精度はF値で約93%
•機能表現を考慮した統計的係り受け解析手法を提
案
日本語機能表現
•2つ以上の語から構成され、全体として1つの機
能的な意味を持つ表現
•同一表記の内容的な意味を持つ表現が存在する
•例)
Ø出発するにあたって、荷物をチェックした。
Øボールは、壁にあたって跳ね返った。
機能的に用いられている可能性がある部分を
「機能表現候補」と呼ぶ
機能表現検出のタスクの有用性:機械翻訳
•例)
Ø私は、彼の車について走った。
uI drove following his car.
Ø私は、自分の夢について話した。
uI talked about my dream.
•機械翻訳の精度向上に効果があると考えられる
機能表現検出のタスクの有用性:係り受け解析
•例)
Ø2万円を 限度に 家賃に 応じて 支給される。
Ø2万円を 限度に 家賃に応じて 支給される。
•「限度に」という文節が動詞を含む文節に係やす
い特徴を持つため、「応じて」に係ってしまう
•格解析の精度向上に効果があると考えられる
本研究で対象とする機能表現
•(森田ら1989)は450種類の機能表現を収集
•(土屋ら2006)は上記から、特に一般性が高い
とされる337種類の表現について人手で収集
•このデータのうち、新聞記事に50回以上出現し、
機能的にも内容的にも適度に出現する表現を利用
•本稿では、59種類を検討対象とする
既存の解析系での取り扱い
•59種類の表現全てに対して十分な取り扱いがさ
れているわけではないことがわかった。
•識別の可能性がある表現
ØJUMAN+KNPで24種類
ØChaSen+CaboChaで20種類
•機能表現候補の用法を正しく識別する必要がある
機能表現検出
•形態素解析と機能表現検出が独立に実行可能であ
ると仮定
•機能表現検出を形態素を単位とするチャンク同定
問題として定式化し、形態素解析結果から機械学
習によって機能表現を検出
SVMを用いたチャンキングによる機能表現検出
•SVMは、素性空間を超平面で分割することによ
りデータを2つのクラスに分類する2値分類器
•多項式カーネルを利用
•ChaSenの出力結果をYamChaに入力して利用
•形態素を単位としてチャンクタグを付与
•IOB2フォーマット(Tjongら2000)を拡張して
利用
•ペアワイズ法で組み合わせに対応
ØN(N-1)/2個の2値分類器の多数決により決定
チャンクタグの表現法
素性
•文頭から𝑖番目の形態素𝑚#に対して与えらえる素
性
• 𝐹# = 𝑀𝐹 𝑚# , 𝐶𝐹 𝑖 , 𝑂𝐹 𝑖
•形態素素性𝑀𝐹 𝑚# ,チャンク素性𝐶𝐹 𝑖 ,チャンク
文脈素性𝑂𝐹 𝑖
形態素素性𝑀𝐹 𝑚#
•形態素解析器によって形態素𝑚#に付与される情報
•IPA品詞体系に基づいて動作するChaSenの出力
Ø10種類の情報
u表層形,品詞,品詞細分類1~3,活用型,活用形,原形,読み,発音
チャンク素性𝐶𝐹 𝑖 とチャンク文脈素性O𝐹 𝑖
• チャンク素性は、i番目の位置に出現している機能表現候補Eを構成
している形態素の数と、相対的位置の情報の2つ
• チャンク文脈素性は、i番目の位置に出現している機能表現候補の直
前2形態素及び直後2形態素の形態素素性とチャンク素性の組み
チ ャ ン ク 素 性 :
チャンク文脈素性:
複数の機能表現候補が重複して現れる場合
1. 先頭の形態素が、最も左側の機能表現候補を
用いる
2. 1を満たす候補が複数存在する場合、最も形
態素数が多い候補を用いる
•例)
Ø慎重にしなくてはいけません。
Øそれが試合というものの難しさだ。
学習と解析に用いる素性
Ciの学習・解析を行う場合に用いる素性素性
実験
•データセットを用意して各ベースラインと比較
Ø59種類の機能表現に対する用例として用例データ
ベースより2429文に判定ラベルを付与
•評価データ
Ø京都テキストコーパスに収録されている分を対象
評価結果
極端に検出性能が悪い表現
• 「にあたり」の1表現がF値70に達しなかった
• 例)
ØA:新規参入にあたり、潜在的なニーズを掘り起こそうと、転勤族を主な対象
にした。
ØB:お神酒の瓶が女性にあたり、けがをする事故があった。
ØC:米国の最先端の科学者が知恵を結集して原爆の開発にあたり、一九四五年
八月に広島・長崎に原爆が投下された。
• A,Bを内容的、Cを機能的と判定(Bは正解)
Ø提案手法によっては適切に検出できない表現も存在する
SVMを用いた統計的係り受け解析器
• (工藤ら 2002)の手法を利用
• チャンキングを段階的に適用すること
により係り受け解析を実現
• Oタグ:係り受けが未定
• Dタグ:Oタグ文節に対して係る場合
機能表現を考慮した係り受け解析
学習の流れ
訓練データの作成
係り受け解析例
実験と考察
• 各ベースラインと性能を比較
• 対象とする表現は、検出器が対象としていた59表現
• 素性は、形態素素性、チャンク素性、チャンク文脈素
性を使用
• 京都テキストコーパスを利用(10分割交差検定)
評価
係り受け解析の評価結果(%)
改善
係り先推定精度が改善されない原因
•内容的用法と機能的用法で、係り先の特徴が変化
する表現がほとんどない時
•例)
Ø「絶対に勝つ」という自信満々な人もいた。
Øトップという名にこだわる人もいる。
まとめ
•機能表現検出と形態素解析は独立と仮定
•頻出する59種類の機能表現を対象
•機械学習法を適用して機能表現を検出
Ø従来のものよりも高性能
•機能表現を考慮した係り受け解析
Ø相対的に良くなった
Automatic Detection of Japanese Compound
Functional Expressions and its Application
to Statistical Dependency Analysis
•Japanese has many compound functional
expressions.
•One words include both content words and
functional words.
•e.g.
Ø“にあたって” and “をめぐって”
Ambiguity
• One compound expression have both
ØA literal content word usage
u私は、彼の車について走った。
uI drove following his car.
ØA non-literal functional usage
u私は、自分の夢について話した。
uI talked about my dream.
• To identify compound functional expression is
important for some NLP tasks.
• They use SVM for identifying expressions.
Approach
• They formalize the task as a chunking problem.
Ø“に あたっ て”→”にあたって”
• After chunking, results are used for dependency
analysis.
Results
•F93%, to identify functional expression
•Proposed dependency analysis with chunking
significantly outperform exiting tools.

More Related Content

More from Kanji Takahashi

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組みKanji Takahashi
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学するKanji Takahashi
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告Kanji Takahashi
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine TranslationKanji Takahashi
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyKanji Takahashi
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Kanji Takahashi
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionKanji Takahashi
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationKanji Takahashi
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Kanji Takahashi
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...Kanji Takahashi
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...Kanji Takahashi
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysisKanji Takahashi
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search RankingKanji Takahashi
 

More from Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
 

Recently uploaded

東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~Kochi Eng Camp
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料Tokyo Institute of Technology
 

Recently uploaded (7)

東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 

日本語機能表現の自動検出と統計的係り受け解析への応用