SlideShare a Scribd company logo
1 of 57
Download to read offline
構文片の改善と
評判分析・自動要約への
適用 	
電気系 山本研究室	
08315282	
瀧川和樹
2
研究背景∼処理単位の問題∼	
n  単語集合	
¨ 1単語では意味がわからない要素が存在(語義曖昧性)	
ex.) 「かける」 「服を」? 「迷惑を」? 「時間を」?	
n  単語n-gram
¨ 意味のない要素(不要なデータ)が大量に生成されてしまう	
ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 	
言語処理における主な処理単位
3
研究背景∼処理単位の問題∼	
n  単語集合	
¨ 1単語では意味がわからない要素が存在(語義曖昧性)	
ex.) 「かける」 「服を」? 「迷惑を」? 「時間を」?	
n  単語n-gram
¨ 意味のない要素(不要なデータ)が大量に生成されてしまう	
ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 	
単語の意味を保持できる処理単位の必要性	
言語処理における主な処理単位
4
研究背景∼処理単位の問題∼	
n  単語集合	
¨ 1単語では意味がわからない要素が存在(語義曖昧性)	
ex.) 「かける」 「服を」? 「迷惑」を」? 「時間を」?	
n  単語n-gram
¨ 意味のない要素(不要なデータ)が大量に生成されてしまう	
ex.) 「が,かける(2-gram)」「で,ある,こと(3-gram)」 	
単語の意味を保持できる処理単位の必要性	
言語処理における主な処理単位	
“構文片 を提案
5
n  意味を持った要素を扱うことが目的	
n  係り受けの対から生成	
研究背景∼構文片とは∼
6
n  意味を持った要素を扱うことが目的	
n  係り受けの対から生成	
最近まわりの騒音がとても大きい	
研究背景∼構文片とは∼
7
n  意味を持った要素を扱うことが目的	
n  係り受けの対から生成	
最近→大きい	
 まわりの→騒音	
騒音が→大きい	
 とても→大きい	
研究背景∼構文片とは∼	
最近まわりの騒音がとても大きい
8
n  意味を持った要素を扱うことが目的	
n  係り受けの対から生成	
構文片	
研究背景∼構文片とは∼	
最近→大きい	
 まわりの→騒音	
騒音が→大きい	
 とても→大きい	
最近まわりの騒音がとても大きい
9
n  他の処理単位と同様、統計もとりやすい
n  係り受けの対であるため、抽出が容易	
¨ 構文解析器を用いることで抽出可能
	
その他の処理単位と比べて
n  単語集合と比べ語義曖昧性に対応できる	
¨ 「迷惑-を→かける」「洋服-を→かける」	
n  n-gramと比べ文構造が保持されている
¨ 不要なデータが生成されにくい	
研究背景∼構文片のメリット∼
10
似た意味の要素が別物として扱われる	
(過疎性の問題)	
スコアが別々に	
カウントされる	
影響大	
統計をとるとき	
辞書として使用するとき	
研究背景∼構文片の問題(1)∼	
要素	
 出現頻度	
騒音が大きい	
 3	
騒音も大きい	
 4	
大きい騒音	
 2
11
満足することができる	
一部で意味を持たない要素が生成される 	
研究背景∼構文片の問題(2)∼	
満足する → こと	
こと-が → できる	
修飾関係とは言いづらい	
意味が通じない	
意味を持った要素を扱うという目的に反する
12
満足することができる	
一部で意味を持たない要素が生成される 	
研究背景∼構文片の問題(2)∼	
満足する → こと	
こと-が → できる	
修飾関係とは言いづらい	
意味が通じない	
意味を持った要素を扱うという目的に反する	
目的:	
構文片の問題点の改善
13
n  構文片の汎化(過疎性の問題)	
–  同類表現の統一	
–  上位語への換言	
–  機能動詞のラベル付与
	
n  形式的内容語の結合(意味をもたない要素の生成)	
提案手法
14
同類表現の統一	
n  構文片の中にはほぼ同じ意味の表現	
=同類表現が存在	
同類表現をルールに基づき汎化	
スコアが別々に	
カウントされる	
要素	
 出現頻度	
騒音が大きい	
 3	
騒音も大きい	
 4	
大きい騒音	
 2
15
名詞(-格助詞) → 形容詞	
形容詞 → 名詞	
要素に含まれる内容語が全て一致している	
名詞(-格助詞) → 動詞	
動詞   → 名詞	
子供-が → 喜んでいる	
喜んでいる → 子供	
騒音-が → うるさい	
うるさい → 騒音	
or
(i)
(ii)
同類表現の統一
n  シソーラスの上位下位概念を用いて、単語を
上の概念に換言する	
ex.)チワワ→犬→哺乳類→ 	
	
上位語への換言	
※シソーラス	
言葉を同義語、上位・下位概念
などの観点において分類した	
辞書のこと
n  具体的な手法・条件	
・シソーラスにはEDR概念辞書を使用	
(EDR・・・約40万語について分類がなされたシソーラス)	
・構文片内における名詞・動詞を上位概念に換言	
・換言する階層の上限は選択できるようにする	
上位語への換言
n  機能動詞とは	
名詞に依存し、それ自身の意味をほとんどもた
ない動詞のこと	
ex.)影響を受ける ≒ 影響される	
n  この特徴を利用して機能動詞を含むものにラ
ベルを付与
n  ラベルに基づき構文片を汎化	
機能動詞のラベル付与
n  具体的な手法	
・ 人手で機能動詞を収集	
・ 機能動詞を含む構文片を結合させ、	
1つの文節に	
・ 機能動詞はそれぞれ「態」「相」に分類	
・ 分類ごとにラベルを付与	
機能動詞のラベル付与	
※態:能動態(当てる)、受動態(当てられる)	
  相:進行相(当てている)、起動相(当てだした)	
など
強意相 (影響を強める)
緩和相 (影響を洩らす)
機能動詞のラベル付与における汎化の例を図 4.4 に示す。機能動詞のラベル付与	
“起動相”というタグを付与	
“起動相”というタグを付与
21
形式的内容語の結合	
満足することができる	
満足する → こと	
こと-が → できる	
修飾関係とは言いづらい	
意味が通じない
22
満足することができる	
満足する → こと	
こと-が → できる	
修飾関係とは言いづらい	
意味が通じない	
「こと」が実質機能的表現	
(=形式的内容語)
として扱われていることが問題	
形式的内容語の結合
23
n  「こと」のような機能的に扱われる単語(形式
的内容語)を収集	
n  これらの単語がある場合、直前の内容語の
機能表現として扱う	
満足することができる	
満足する → こと	
 こと-が → できる	
形式的内容語の結合
24
n  「こと」のような機能的に扱われる単語(形式
的内容語)を収集	
n  これらの単語がある場合、直前の内容語の
機能表現として扱う	
満足することができる	
満足する → こと	
 こと-が → できる	
満足すること-が → できる	
形式的内容語の結合
25
評判分析への適用
26
評判分析の実験方法	
タスク:文分類
(1) 評判表現(構文片) ‒ 極性(肯定・否定)スコア 
の対を教師データから抽出
(2) (1)の情報を辞書に登録
(3) 登録した辞書と大規模コーパスを用いて辞書を
拡張	
(4) 辞書を用いて入力文の各表現に極性スコアを
付与	
(5) 極性スコアの総和から文を 肯定 / 否定 に分類
27
ファンの騒音が大きい	
ファン-の → 騒音	
騒音-が → 大きい	
大きい → 騒音:否定	
抽出された構文片	
マッチング
(同類表現の統一)	
ファン-の → 騒音	
騒音-が → 大きい:否定	
構文片の極性	
入力文:否定文	
文分類	
入力文	
辞書
28
ファンの騒音が大きい	
ファン-の → 騒音	
騒音-が → 大きい	
大きい → 騒音:否定	
抽出された構文片	
マッチング
(同類表現の統一)	
ファン-の → 騒音	
騒音-が → 大きい:否定	
構文片の極性	
入力文:否定文	
辞書	
文分類	
入力文
29
ファンの騒音が大きい	
大きい → 騒音:否定	
ファン-の → 騒音	
騒音-が → 大きい:否定	
構文片の極性	
入力文:否定文	
辞書	
文分類	
入力文	
ファン-の → 騒音	
騒音-が → 大きい	
抽出された構文片	
マッチング
(同類表現の統一)
評判分析:実験結果	
n  適合率が向上した手法
n  形式的内容語の結合
n  再現率が向上した手法
n  上位語への換言(名詞・動詞ともに)
n  適合率・再現率両方とも向上した手法
n  同類表現の統一
n  動詞の上位語への換言
n  どちらも向上しなかった手法
n  機能動詞のラベル付与
評判分析:考察	
n  ほとんどの手法で精度が向上
n  評判分析(2値分類)において提案手法が有効
n  汎化手法
→辞書の登録数、拡張数が増加
n  形式的内容語の結合
→意味のない表現の数が減少
e.g.) プレゼントになる-と→思う
n  機能動詞のラベル付与のみ精度の向上なし
機能動詞:固い表現が多い
→レビュー文のようなWEB上の文章には不向き?
32
自動要約への適用
自動要約への適用	
新聞記事から重要文を抽出
抽出するための重要度としてtf*idfを使用	
tf : 文書内における単語の出現頻度
idf : 複数文書内における単語の出現しにくさ
自動要約:tf*idf
自動要約:tf*idf	
初日の出:tfが高い
自動要約:tf*idf	
初日の出:tfが高い
idfが高い
自動要約:tf*idf	
初日の出:tfが高い
idfが高い	
早く: tfが低い
自動要約:tf*idf	
初日の出:tfが高い
idfが高い	
早く: tfが低い
idfが低い
自動要約:実験結果	
n  精度が向上した手法
n  同類表現の統一
n  上位語への換言(名詞・動詞ともに)
n  形式的内容語の結合
n  精度が向上しなかった手法
n  機能動詞のラベル付与
自動要約:考察	
n  ほとんどの手法で精度が向上
n  自動要約においても提案手法が有効
n  機能動詞のラベル付与のみ精度が悪化
機能動詞:出現はするが、汎化するほど表現が細分
化されていない
そもそも機能動詞の判別精度が低い
41
まとめ	
n  構文片の改良のため2つのアプローチを用意	
n  改良を行った構文片を評判分析・自動要約に
適用	
n  従来の構文片よりも全体的に精度が向上	
	
	
今後の課題	
n  機能動詞のラベル付与の精度改善
n  提案手法の組み合わせによる精度評価
ご清聴ありがとうございました
評判分析の結果
44
実験結果(同類表現の統一)	
適合率・再現率ともにベースラインより向上	
処理単位	
 再現率(%) 適合率(%)
同類表現の統一	
 49.8 77.1
ベースライン	
 48.2 75.5
実験結果(上位語への換言)	
再現率:ベースラインより向上	
適合率:動詞の置換のみ向上(大きな差はない)	
処理単位	
 再現率(%) 適合率(%)
名詞の上位語換言	
 54.4 72.6
動詞の上位語換言	
 51.5 76.2
名詞・動詞の上位語換言	
 59.4 73.6
ベースライン	
 48.2 75.5
汎化させる名詞・動詞ともに階層は2階層目までに固定
46
実験結果(機能動詞のラベル付与)	
処理単位	
 再現率(%) 適合率(%)
機能動詞のラベル付与	
 48.2 75.5
ベースライン	
 48.2 75.5
結果に差がない	
→機能動詞を含むテキストがほとんどなかった
47
実験結果(形式的内容語の結合)
適合率が向上したが再現率が減少	
処理単位	
 再現率(%) 適合率(%)
形式的内容語の結合	
 44.6 77.3
ベースライン	
 47.1 75.5
48
処理単位	
 再現率(%) 適合率(%)
単語2-gram 78.8 79.9
単語3-gram 75.3 78.0
形式的内容語の結合	
 44.6 77.3
動詞・名詞の上位語換言	
 59.4 73.6
その他の処理単位との比較
自動要約の結果
50
実験結果(同類表現の統一)	
処理単位	
 精度(%)
同類表現の統一	
 34.0
ベースライン	
 32.6
実験結果(上位語への換言)	
処理単位	
 精度(%)
名詞の上位語換言	
 33.0
動詞の上位語換言	
 33.0
名詞・動詞の上位語換言	
 33.0
ベースライン	
 32.6
名詞:8階層目、動詞:2階層目に固定
52
実験結果(機能動詞のラベル付与)	
処理単位	
 精度(%)
機能動詞のラベル付与	
 31.8
ベースライン	
 32.6
53
実験結果(形式的内容語の結合)
処理単位	
 精度(%)
形式的内容語の結合	
 32.9
ベースライン	
 32.6
54
処理単位	
 精度(%)
単語2-gram 31.6
単語3-gram 30.0
同類表現の統一	
 34.0
従来の構文片	
 32.6
その他の処理単位との比較
n  他の処理単位における問題点	
上位の階層に換言しすぎて、表現本来の意味
が失われてしまう	
ex.) チワワ→生物 イルカ→生物	
n  構文片:文脈情報により一定以上の汎化が防
げる	
ex.) チワワが走る → <生物>が走る	
  イルカが泳ぐ →  <生物>が泳ぐ	
上位語への換言のメリット
56
評判分析:評価実験	
n  収集したデータ:肯定1,966文 否定1,019文	
–  教師データ 4/5
–  実験データ 1/5
n  拡張辞書用の大規模コーパス:約31.5万文	
n  実験手法	
1.  各種提案手法	
2.  ベースライン:従来の構文片
57
自動要約:評価実験	
n  idfの計算:日本経済新聞2000年の記事1年分
n  要約率(圧縮率):25%で固定
n  評価方法:人手の正解データと比較	
- 100記事分の要約をそれぞれ人手で作成
n  実験手法	
1.  各種提案手法	
2.  ベースライン:従来の構文片

More Related Content

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 

構文片の改善と評判分析・自動要約への適用