SlideShare a Scribd company logo
1 of 18
Download to read offline
ー文献紹介ー
用言と直前の格要素の組を単位とする
格フレームの自動構築
河原 大輔(京都大学大学院情報学研究科)、黒橋 禎夫(東京大学大学院情報理工学系研究科 )
自然言語処理, Vol.9 , No.1, pp.3-19, 2002
キーワード
格フレーム、生コーパス、クラスタリング、格解析
長岡技術科学大学 自然言語処理研究室 高橋寛治
用言と直前の格要素の組を単位とする格フレームの自動構築
概要
●
提案
●
生コーパスから格フレームを自動的に構築する方法の提案
●
やったこと
●
用言と直前の格要素の組を単位として用例収集
●
意味ごとにクラスタリングを行う
●
格フレームの自動構築
用言と直前の格要素の組を単位とする格フレームの自動構築
格フレームの必要性
●
日本語は単純な係り受け解析を行っただけでは文の解析と
して十分と言えない
●
語順の入れ替わり、格要素の省略、表層格の非表示など
●
例 「ドイツ語も話す先生」
●
「ドイツ語」と「話す」、「先生」と「話す」の関係は、係り受
け構造を解析しただけでは分からない。
●
格フレームで解決
用言と直前の格要素の組を単位とする格フレームの自動構築
はじめに
●
カバレージの大きな実用的な格フレーム辞書を
人手で作るのが困難
●
格フレーム辞書をコーパスから自動学習する方
法を考える
用言と直前の格要素の組を単位とする格フレームの自動構築
用言とその直前の各要素の組
●
「友達になる」
●
「病気になる」
●
「荷物を積む」
●
「経験を積む」
用言と直前の格要素の組を単位とする格フレームの自動構築
格フレーム辞書自動構築の過程
1.用例(用言・各要素間の関係)を取り出す
・コーパスのテキストに対して、KNPで構文解析を行い、信頼
できる用例を取り出す。
2.用例パターン(抽出した関係を用言と直前の格要素の組
ごとにまとめる)
3.シソーラスを用いて、用例パターンのクラスタリングを
行う
用言と直前の格要素の組を単位とする格フレームの自動構築
データ処理についての議論
・用例をそのまま利用
車に 荷物を 積む
トラックに 物資を 積む
データスパースネスが問題
・用例を二項関係に分割
車に 荷物を 積む
車に 経験を 積む
用言の用法の多様性の問題
・用例を直接クラスタリング
従業員が 荷物を 積む
従業員が 経験を 積む
用法が異なるが、ガ格で
クラスタリングされる可能性
用言と直前の格要素の組を単位とする格フレームの自動構築
用例の収集
●
コーパスを構文解析した結果から、用例の収集を行う(確信
度の高い係り受けを抽出)
1.格要素の条件
取り扱う格の設定、格用例の汎化
2.用言の条件
動詞、形容詞、名詞+判定詞
3.確信度の高い係り受けの抽出
用言と直前の格要素の組を単位とする格フレームの自動構築
用例格フレームの生成
●
用言の用法を決定する重要な各要素は用言の直
前にくることが多い
          ↓
●
用言とその直前の格要素の組を単位としてまと
める
用言と直前の格要素の組を単位とする格フレームの自動構築
用例格フレームの生成
●
用例パターンは、1つの用言について、直前の格
要素の数だけ存在する
従業員:が 車:に  荷物:を 積む
 {トラック、飛行機}:に  物資:を 積む
●
ほとんど用法が同じ用例パターンをマージするた
めに、用例パターンのクラスタリングを行う
用言と直前の格要素の組を単位とする格フレームの自動構築
用例パターン間の類似度
●
クラスタリングは、類似度を用いる
日本語語彙大系の
シソーラスを用いる
←意味属性の類似度
↑頻度
用言と直前の格要素の組を単位とする格フレームの自動構築
クラスタリングの手順
1.直前の格の出現頻度で足切り
2.直前の格が同じ用例パターンをクラスタリング
3.直前の格を限定しない用例パターンのクラスタ
リング
4.残りの用例パターンのふりわけ
用言と直前の格要素の組を単位とする格フレームの自動構築
用例パターンの意味属性の固定
●
用例パターン間の類似度は、用例パターンの直前格要素の意
味属性が大きく影響
●
例
●
(手、顔)<動物(部分)> を合わせる
●
(手、焦点)<論理・意味等> を合わせる
●
意味的におかしい組が作られる(手、顔、焦点)
用言と直前の格要素の組を単位とする格フレームの自動構築
意味の曖昧性の解消
●
例
●
類似度の高い用例パターンの意味属性を利用
●
声:<声>、怒声:<声>で固定し、類似度の再計算を行う
名詞:意味属性 名詞:意味属性 類似度
声:<声> 怒声:<声> 0.90
声:<単位> 機:<単位> 0.78
声:<声> 質問:<質問> 0.69
怒声:<声> 質問:<質問> 0.68
用言と直前の格要素の組を単位とする格フレームの自動構築
作成した格フレーム辞書
●
もととなるコーパス
●
毎日新聞約9年分の460万文から構築
●
結果
●
71,000個の用言について格フレームが構築
●
用言あたりの平均格フレーム数は1.9個
用言と直前の格要素の組を単位とする格フレームの自動構築
構築した格フレームの例
用言 格 用例
買う1 ガ格 【主体:<数量>人、乗客、幹部、筋、男性、資産家…】
ヲ格 株、円、土地、もの、ドル、切符、車、もの、家…
デ格 【場所:店、駅】、<数量>円、金、価格、会社
買う2 ガ格 対応、厚生、絵はがき、蓄財、シーン、工作、禁止…
ヲ格 怒り、ひんしゅく、失笑、反感、恨み、不興…
… … …
用言と直前の格要素の組を単位とする格フレームの自動構築
解析実験
●
得られた格フレーム辞書の静的な評価は難しい
●
格解析を通して評価する
●
毎日新聞の記事200文をテストセット
●
格解析の方法は(Kurohashi and Nagao 1994)
●
ベースラインの精度を大きく上回る
用言と直前の格要素の組を単位とする格フレームの自動構築
おわりに
●
用言とその直前の格要素の組を単位として、生コー
パスから用例を収集
●
それらのクラスタリングを行うことで、格フレーム
辞書を自動的に構築する手法を提案
●
得られた辞書で格解析を行った結果、高い精度で行
うことができた

More Related Content

Similar to 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニングgenroku
 
Japan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_otaJapan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_ota博三 太田
 
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性Takahiro Katagiri
 
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSECNUProtein Co., Ltd
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generationnlab_utokyo
 

Similar to 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築 (8)

形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング
 
Japan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_otaJapan.r ver1.2 20171202_ota
Japan.r ver1.2 20171202_ota
 
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
フレーズテーブルを用いた教師なし用語対訳抽出手法の比較
 
含意要因となる表現から作成したパタンを用いたテキスト含意認識
含意要因となる表現から作成したパタンを用いたテキスト含意認識含意要因となる表現から作成したパタンを用いたテキスト含意認識
含意要因となる表現から作成したパタンを用いたテキスト含意認識
 
自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性自動チューニングとビックデータ:機械学習の適用の可能性
自動チューニングとビックデータ:機械学習の適用の可能性
 
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC
自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
 

More from Kanji Takahashi

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組みKanji Takahashi
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学するKanji Takahashi
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告Kanji Takahashi
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine TranslationKanji Takahashi
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyKanji Takahashi
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Kanji Takahashi
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionKanji Takahashi
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationKanji Takahashi
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Kanji Takahashi
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...Kanji Takahashi
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...Kanji Takahashi
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysisKanji Takahashi
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search RankingKanji Takahashi
 

More from Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
 
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
文献紹介20150508 Paraphrasing Adaptation for Web Search Ranking
 

Recently uploaded

東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 

Recently uploaded (6)

東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 

第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築