含意要因となる表現から作成した
パタンを用いたテキスト含意認識
長岡技術科学大学 電気系 山本研究室
08310885 宇高 邦弘
テキスト含意認識とは
・言語表現A(テキスト)が言語表現B(仮説)の
意味を含むかを自動判定するタスク
1
研究背景
・テキスト中の一部の表現から含意関係を認識可能
⇒含意要因となる表現と仮説の対を集めること
で含意関係認識が可能
2
研究目的
・各自然言語処理タスクのシステムの出力によ
り構築された海外の評価セットから対を抽出
・抽出した対を用いてテキスト含意認識
 ⇒自然言語処理タスクに存在する推論を対象とし
 たテキスト含意認識
3
含意要因表現-仮説対の抽出方法
・過去に海外で公開された評価セットから抽出
  ⇒各自然言語処理タスクのシステムの出力
       からテキストと仮説を構築
  ⇒テキスト中にある含意要因となる表現と
   仮説を対にして人手で抽出
  
  ⇒2,304のテキストと仮説の対から994の
   含意要因表現-仮説対を抽出
4
含意要因表現-仮説対の抽出例 
テキスト:ドイツの航空会社であるルフトハンザ
    はミュンヘンに直行します
仮説:ルフトハンザはドイツの航空会社だ
5
含意要因表現-仮説対の抽出例
テキスト:ドイツの航空会社であるルフトハンザ
     はミュンヘンに直行します
仮説:ルフトハンザはドイツの航空会社だ
6
抽出した対を用いた含意認識手法
・抽出した対と入力されるテキスト-仮説対を照合
 ⇒構文解析により文節対に分解
 ⇒動詞、形容詞、名詞(未知語を含む)のみ使用
 ⇒抽出した対から作成される文節対がテキスト-
  仮説対に全て含まれている場合、含意と判断
7
抽出した対を用いた含意認識の例
入力テキスト:イリノイ生まれのチャールズは27歳の俳優でした
    文節対:イリノイ生まれ-チャールズ
          チャールズ-俳優
          27歳-俳優
入力仮説:チャールズはイリノイで生まれた
    文節対:チャールズ-生まれ
          イリノイ-生まれ
使用する対:
含意要因表現:イリノイ生まれのチャールズ
    文節対:イリノイ生まれ-チャールズ
仮説:チャールズはイリノイで生まれた
    文節対:チャールズ-生まれ
          イリノイ-生まれ 8
抽出した対を用いた含意認識の流れ
9
抽出した対を用いた含意認識の流れ 
10
抽出した対を用いた含意認識の流れ 
11
抽出した対を用いた含意認識の流れ
12
抽出した対を用いた含意認識の流れ
13
認識実験
・抽出した994の含意要因表現-仮説対を使用
・入力:含意要因表現-仮説対の抽出に使用した
2,304の含意関係を持つテキストと仮説のペア
14
抽出した対を用いた含意認識結果
入力した
テキスト-仮説対の数
2,304
含意要因表現-仮説対を抽出
したテキスト-仮説対の数
1,013
含意要因表現-仮説対を抽出し照合
したテキスト-仮説対の数
633
含意要因表現-仮説対を抽出できず
照合したテキスト-仮説対の数
0
含意要因表現-仮説対を抽出し
照合しないテキスト-仮説対の数
380
含意要因表現-仮説対を抽出できず
照合しなかったテキスト-仮説対の数
1,291
15
抽出した対を用いた含意認識結果 
入力した
テキスト-仮説対の数
2,304
含意要因-仮説対を抽出
したテキスト-仮説対の数
1,013
含意要因-仮説対を抽出し照合
したテキスト-仮説対の数
633
含意要因-仮説対を抽出できず
照合したテキスト-仮説対の数
0
含意要因-仮説対を抽出し照合
しなかったテキスト-仮説対の数
380
含意要因-仮説対を抽出できず
照合しないテキスト-仮説対の数
1,291
16
考察
・含意認識を誤った4割について
 ⇒含意要因表現-仮説対を抽出時に行った情報削除
による文節対の変化が原因
  
        
17
考察
・テキスト-仮説対に照合した含意要因表現-仮
説対の多くは1回しか照合しない
 ⇒抽出した対の名詞、複合名詞、固有名詞が原因
 ⇒他の含意認識評価セットへ適用し辛い
18
対からのパタン作成
・抽出した対について、名詞、複合名詞、固有名詞を対
象に汎化
・汎化語はwikipediaから人手で作成
19
パタンを用いた含意認識の流れ
20
パタンを用いた含意認識の流れ
21
パタンを用いた含意認識の流れ
22
パタンを用いた含意認識の流れ
23
パタンを用いた含意認識の流れ
24
パタンによる含意認識実験
・対の抽出を行った2,304のテキスト-仮説対を2つに
分割
 ⇒682を入力として、1,622をパタン作成に使用
・1,622のテキスト-仮説対から抽出した対から624の
パタンを作成
・文節対での照合
25
パタンを用いた含意認識結果
⇒作成したパタンに照合するテキスト-仮説対は
 少数
入力したテキスト-仮説対の数 682
含意要因表現-仮説対を抽出可
能なテキスト-仮説対の数 
357
パタンに照合したテキスト-仮説
対の数
16
26
考察 
・パタンに照合したテキスト-仮説対が少ない
 ⇒多様な表現を吸収できない
 
27
本研究のまとめ
・海外の含意認識評価セットから含意要因となる表現と仮説
の対を抽出し、含意認識
 ⇒994の含意要因表現-仮説対を抽出
 ⇒含意要因表現-仮説対を抽出できたテキスト-仮説対の
  6割を正しく含意認識
・汎用性を高めるために抽出した対からパタンを作成し、含意
認識
 ⇒624のパタンを作成
 ⇒ほとんどがパタンに照合せず
 ⇒様々な表現の違いを吸収することで改善可能
28
ご清聴ありがとうございました
抽出した対の照合による含意認識 
入力した
テキスト-仮説対の数
2,304
含意要因-仮説対を抽出
したテキスト-仮説対の数
1,013
含意要因-仮説対を抽出し照合
したテキスト-仮説対の数
10
含意要因-仮説対を抽出できず
照合したテキスト-仮説対の数
0
含意要因-仮説対を抽出し照合
しなかったテキスト-仮説対の数
1,003
含意要因-仮説対を抽出できず
照合しないテキスト-仮説対の数
1,291
多くの対がそのままの
形ではT-H対に照合し
ない
⇒対抽出時の情報の削
除が原因
Wikipediaからの上位下位関係抽出
上位-下位
納豆-食品
納豆-塩辛納豆
発酵食品-納豆

含意要因となる表現から作成したパタンを用いたテキスト含意認識