SlideShare a Scribd company logo
1 of 15
Lexical Inference over Multi-Word
Predicates: A Distributional Approach
Omri Abend, Shay B. Cohen, Mark Steedman
ACL 2014
読む人:高瀬翔
知識獲得研究会2015/2/4
1
目的:複合述語の意味解析
• 複合述語:複数の単語からなる述語[Alsina+ 97]
– 複合語の一種
– 様々な言語現象を含む
• 軽動詞(make a decision)
• 句動詞(lead to)
• 慣用句(kick the bucket)
• Goal:(複合)述語間の含意関係認識
– prevent → reduce the incidence of
– increase the cost of → affect the price of
2
複合述語を扱う難しさ
• 複合述語を一語として扱う[Lin+ 01, Berant+ 11]
– 複合述語の項の分布から意味を獲得
• 伝統的な単語の意味獲得と同じ
– 複合述語の意味を直接得られる
• 慣用句,句動詞など全現象を扱える
– データが疎 → 統計情報に不安
• 単語から構成的に意味計算[Mitchell+ 10, Kiela+ 13]
– 統計情報は十分に得られる
– 慣用句(e.g., kick the bucket)に対処できない
3
本研究の取り組み
• 複合述語内の語彙的要素の認識
– 語彙的要素:複合述語の意味を構成する,まとま
りのある単位
– 複合述語を分割可能な単位に分けて意味計算
• likely to give a green light → likely, give a green light
• 含意関係データセットから語彙的要素の認識
を学習
– 語彙的要素に分割,内容的意味の強さで重み付け,
複合述語の意味を推定
– 構成性のある/ない複合述語を包括的に扱える
4
手法の概要
• 含意関係認識を行う際にどの語彙的要素で判断すれば
良いか学習
– devour と eat greedily
• devour と eat の類似性から含意と判定
– lead to と cause
• lead to と cause の類似性から含意と判定
– 教師あり学習
• 語彙的要素対の素性に重み付けして含意/非含意を推定
• 語彙的要素:複合述語を構成する内容語の組み合わせ
– 前置詞も内容語とする
– have a large number of:have, large, have large, …
– 計算時間削減のため,大きさは最大2単語
5
モデル
6
L(w | D) =
1
M
logP(y(i)
| p(i)
,w)
i=1
M
å -
l
2
|| w ||2
目的関数
訓練データサイズ
正解(含意/非含意)
値は(1 or -1)
述語対
e.g., prevent と reduce the incidence of
重みベクトル
=
1
M
log exp(wT
F(p(i)
, y(i)
,h))
hÎH(i)
å - logZ(w,i)
æ
è
ç
ö
ø
÷
i=1
M
å
-
l
2
|| w ||2
語彙的要素対の集合
e.g., (prevent, reduce), (prevent, reduce incidence), …
各語彙的要素対の素性
モデル
7
L(w | D) =
1
M
logP(y(i)
| p(i)
,w)
i=1
M
å -
l
2
|| w ||2
目的関数
訓練データサイズ
正解(含意/非含意)
述語対
e.g., prevent と reduce the incidence of
重みベクトル
=
1
M
log exp(wT
F(p(i)
, y(i)
,h))
hÎH(i)
å - logZ(w,i)
æ
è
ç
ö
ø
÷
i=1
M
å
-
l
2
|| w ||2
語彙的要素対の集合
e.g., (prevent, reduce), (prevent, reduce incidence), …
各語彙的要素対の素性
述語間の語彙的要素の全組み合わせについ
て
素性を抽出,含意関係の判定
素性
• Revrb[Fader+ 11]の結果から得た統計情報を利用
– 含意/非含意で素性の符号反転
• 素性は大きく分けて2つ
– 語彙的要素対の含意判定のため
• 語彙的要素対の分布類似度
• LDA素性
– 語彙的要素判定のため
• 語彙的要素の単語の性質(本動詞になりやすさ)
• 語彙的要素の単語間の素性(語結合のしやすさ)
8
語彙的要素対の分布類似度
• 語彙的要素対の含意関係の判定のため
– lead to → cause
– 語彙的要素の左側に出現する単語の分布類似度,右側に出現す
る単語の分布類似度の積を用いる
• 類似度は2つ
– コサイン類似度
– BInc(含意関係の判定)[Szpektor+ 08]
• コサイン類似度に項の被覆率を掛けあわせた値
• 語彙的要素のhead(最左の単語)だけも測定
– lead to, cause の場合
• lead to と cause の類似度
• lead と cause の類似度
• 各語彙的要素対に合計 4 種の素性
9
左側の類似度 右側の類似度
LDA素性
• 語彙的要素対の含意関係判定のため
– 選択選好をトピックモデルで導入
• 素性は2種類
– 語彙的要素のトピック
– 語彙的要素のトピックのエントロピー
• 語彙的要素の曖昧性をモデル
10
語彙的要素の単語の性質
• 軽動詞や句動詞の推定に貢献
• 語彙的要素の単語毎に下記の素性を抽出
– 単語の出現するときどの品詞が最も多いか
• 動作性名詞の特定
• take a swim の swim は動詞
– 二番目に多い品詞は何か
– 単語の出現頻度
– 述語対に出現しているか(1 or 0)
• likely to come と likely to leave について likely は 1,
come, leave は 0
– 述語内での位置(何番目の内容語か)
11
語彙的要素の単語間の素性
• 単語間の連結度の推定に貢献
– 慣用句や句動詞の推定
• 語彙的要素が2単語のとき下記の素性を抽出
– 2単語の品詞の組み合わせ
– 2単語の出現頻度
• 連接での出現頻度
– 2単語の出現する条件付き確率
• 前の単語→後ろの単語,後ろの単語→前の単語の2種
– 2単語のPMI
12
実験設定
• 素性の統計情報を得るコーパス
– Reverb[Fader+ 11]の結果
– 二項関係の述語と項を列挙したデータ
• 訓練・テストコーパス
– 二項関係を表す述語間に含意関係を付与したデータ
[Zeichner+ 12]
• prevent → reduce the incidence of
• 述語はReverbの結果を用いている
• 5,411ペア
– 項が逆になっているものを除く
– ランダムに訓練・テストデータに分けて使用
• 訓練:4,343ペア
• テスト:1,068ペア
13
結果
• 述語内の語彙的要素の認識,組み合わせで判定するモデルが
最も良い
– 構成要素の一部からだけでは複合述語の意味は解析できない
– 構成要素の全単語を使い,類似度だけで判定した場合
• [Mitchell and Lapata 10]と同等の計算法
• コサイン類似度:61.3%
• BInc:62.2%
– なので単語単位からの組み上げよりも提案手法が良い
14
最も左の単語だけ使う
動詞+前置詞だけ使う
述語内の語彙的要素の
組み合わせを考える
語彙的要素の類似度 Sim+品詞,頻度,語彙的要素共有 LDAなし
まとめ
• 複合述語の語彙的要素の認識を行う手法
を提案した
– 複合述語の意味計算に必要な要素を認識する
手法
– 句動詞や慣用句,構成性のある/なしなどを
認識
• 含意関係認識を通じて複合述語の意味の
計算性能が向上することを示した
– 語彙的要素を認識し,重み付けして意味計算
15

More Related Content

More from Sho Takase

Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理Sho Takase
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告Sho Takase
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
Rethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast TrainingRethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast TrainingSho Takase
 
Robust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial InputsRobust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial InputsSho Takase
 
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...Sho Takase
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationSho Takase
 
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic RulesHarnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic RulesSho Takase
 

More from Sho Takase (10)

Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理ニューラルネットワークを用いた自然言語処理
ニューラルネットワークを用いた自然言語処理
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
Rethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast TrainingRethinking Perturbations in Encoder-Decoders for Fast Training
Rethinking Perturbations in Encoder-Decoders for Fast Training
 
Robust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial InputsRobust Neural Machine Translation with Doubly Adversarial Inputs
Robust Neural Machine Translation with Doubly Adversarial Inputs
 
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword Information
 
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic RulesHarnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic Rules
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (9)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Lexical Inference over Multi-Word Predicates