Improving Coreference Resolution by Learning Entity-Level Distributed Representations

Improving Coreference Resolution by
Learning Entity-Level Distributed
Representations
Kevin Clark
In ACL 2016
読み手：松林優一郎（東北大学）
@最先端NLP 2016
Christopher D. Manning
1
※ 一部の図表は著者論文より引用

Overview
• クラスタマージ型の共参照解析器を NN でモデリング
• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現: 小さな素性セット＋３層 DNN
– Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の
情報をプーリングで集約
• シンブル？な素性セット＋DNN＋頑張ってスムーズに学
習＋クラスタ内の情報はきちんと吸い上げる
→ 最高精度（英語と中国語）
2

クラスタマージ型共参照解析
3
Mention ranking
• スコア最大の先行詞を選ぶ
• 簡単、効率的
Cluster ranking
• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの
情報（大域的情報）を使う
m
m1
m1
m1 m1
NA
m
m1
m1
m1 m1
NA
m1

クラスタマージ型共参照解析
4
Mention ranking
• スコア最大の先行詞を選ぶ
• 簡単、効率的
Cluster ranking
• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの
情報（大域的情報）を使う
m
m1
m1
m1 m1
NA
m
m1
m1
m1 m1
NA
m1
Pretraining

トピック
• クラスタマージ型共参照解析器のNNによるモデリング
• NNパラメータの効果的なトレーニング
→ Mention ranking モデルをプレトレーニングや候補の枝
刈りに使う
• クラスタをマージする順序
→ Mention ranking モデルのスコアに基づくeasy-first
strategy
• 大域素性を含むモデルの適切な学習
→ Learning-to-Search (Daumé III et al., 2005, 2009)
5

Model Overview
• Mention ranking と Cluster ranking の二段構成
6
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
(Raghunathan et al. (2010))
𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴
Mention-pair 表現
Mention-pair encoder
𝑠 𝑚 𝑎, 𝑚
Mention-pair ranker
𝑠 𝑚 𝑁𝐴, 𝑚
DNN
単層NN
𝑟 𝑚 𝑎, 𝑚
メンションのペアが共参照かどうか

Model Overview
7
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
Mention-pair 表現
Mention-pair ranker
DNN
単層NN
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 の降順でソート
Easy-first ordering
シングルトンクラスタから始めて、
この順に順に 𝑐 𝑚 とその先行詞の
クラスタのマージを考える

Model Overview
8
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
Mention-pair 表現
Mention-pair ranker
DNN
単層NN
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
Easy-first ordering
𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚
Cluster-pair 表現
Cluster-pair encoder
𝑠𝑐 𝑐 𝑚, 𝑐
Cluster-pair ranker 単層NN
プーリング
𝑟𝑐 𝑐 𝑚, 𝑐
クラスタペアをマージすべきかどうか

Model Overview
9
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
Mention-pair 表現
Mention-pair ranker
DNN
単層NN
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
Easy-first ordering
𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚
Cluster-pair 表現
𝑠𝑐 𝑐 𝑚, 𝑐
Cluster-pair ranker 単層NN
プーリング
𝑟𝑐 𝑐 𝑚, 𝑐
最もスコアの高いアクションを選択
（𝑐 𝑚と 𝑐 をマージ、もしくは何もマージしない）

Model Overview
10
先行詞素性 mention素性
(m1, m3) 表現
Cluster 1
m1
m2
Cluster 2
m3
m4
(m1, m4) 表現
(m2, m3) 表現
(m2, m4) 表現
Cluster-pair 表現
Clusterペアのスコア
Mentionペアのスコア
Mention-pair 表現
Mention-pair ranker
※Mention rankingモデルで
エンコーダをプレトレーニングする
メンションのペアが
共参照かどうか
クラスタペアをマージ
すべきかどうか
doc素性
Cluster-pair
encoder
Cluster-pair ranker

11
全結合の３層
ReLUレイヤー
単語ベクトルの初期ベクトルは50次元のWord2Vec
1000次元
500次元
500次元

Mention-pair encoder に使う素性
• 埋め込み素性
– 単語：主辞、親、最初の単語、最後の単語、前後２単語
– 単語平均：前後５単語、mention構成単語、文、文書
• その他
– Mentionのタイプ： (pronoun, nominal, proper, or list)
– Mentionの位置（正規化されたインデックス番号）
– 文書ジャンル
– Mention間の距離：文距離、間のmention数、オーバーラップ
– 話者（Raghunathan et al. (2010)）
• 同じ話者によるmentionかどうか
• あるmentionが他のmentionの話者かどうか
– 文字列マッチ：主辞、完全一致、部分一致
12

Mention ranking model
• 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚
• Mention-pair encoder のプレトレーニング
• Candidate pruning for cluster ranking model
– 𝒜 𝑚 （mの前方のmention集合）で 𝑠 𝑚 𝑎, 𝑚 の値が高い 𝑎 ∈
𝒜 𝑚 だけを返すようにする
• Easy-first search のためのスコアリング
– クラスタマージを行う際に max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 が高い m から順に
マージを考える
13
Mentionペア表現

Mention ranking model
• 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚
• Loss
14
Mentionペア表現
𝑚𝑖と共参照関係にあるmention
mistake-specific
cost function
グリッドサーチします

Pretraining of mention ranking model
15
150 epoch
50 epoch
𝑚𝑖と共参照関係にないmention

• 二つのクラスタ間の全mentionペア表現を考える
• 二種類のプーリングを連結
–Max pooling
–Avg. pooling
16

Cluster ranking model
• Mention の順序付け
– Easy-first ordering： max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 で降順にソート
• 状態 𝑥 = 𝐶, 𝑚
• クラスタ集合 𝐶 = 𝑐1, 𝑐2, …
• 動作集合 𝑈 𝑥 = MERGE 𝑐 𝑚, 𝑐 | 𝑎 ∈ 𝒜 𝑚 , 𝑎 ∈ 𝑐 ∪ PASS
– １回の動作により、次の状態 𝑥′ = 𝐶′, 𝑚′ が決まる
– 𝑠𝑐 𝑐 𝑚, 𝑐 = 𝑊𝑐 𝑟𝑐 𝑐 𝑚, 𝑐 + 𝑏𝑐, 𝑠 𝑁𝐴 𝑚 = 𝑊𝑁𝐴 𝑟 𝑚 𝑁𝐴, 𝑚 + 𝑏 𝑁𝐴
• ポリシーネットワーク
17
最初はシングルトンクラスタの集合
𝑈 𝑥 の各操作に確率を
割り当てる
mの前方にあるmentionが属すクラスタ

Learning-to-search
(Daumé et al. 2005, 2009)
• Cluster ranking modelの各状態での観測はそれまでのア
クション系列に依存する
• ゴールド系列だけで学習するのではなく、途中まではシ
ステムのアクション、途中から正しいアクション、とい
う系列を使ってLossを計算する
• 学習時に、「過去の系列が間違っている」というテスト
時に起こりうる状況を取り入れる
18

Learning-to-search
(Daumé et al. 2005, 2009)
19
- 𝐵3
𝐵3
を最も高めるアクション

Experiments and evaluations
• 実験設定
– データ：CoNLL 2012 shared task dataset (English & Chinese)
– 評価： MUC, B3, Entity-based CEAF に関するF1の平均
• Mention ranking model での feature ablations
• Mention ranking model における異なる訓練方法の評価
– 二種類のプレトレーニング方法
• それぞれの要素技術の評価
– Pretraining of mention ranking model
– Easy-first strategy
– Learning-to-search algorithm
• 既存研究との比較
20

Model performance with
feature ablations
21

Pretraining methods for
mention ranking model
• Mention ranking model それ自体もプレトレーニングが重
要（All-pairs も Top-pairs も必要）
22

各要素技術の効果
• Cluster ranking model を直接学習せず、mention ranking
model でプレトレーニングする方が良い
• Easy-first はちょっと効果あり（ノイズが乗りにくい？）
• Learning-to-search もちょっと効果あり（ノイズに強い？）
23

Comparison to previous work
• CoNLL 2012では、全てのスコアで現時点の最高性能
– Mention ranker の時点で既に勝っている
24

Conclusion
• クラスタマージ型の共参照解析器を NN でモデリング
• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現: 小さな素性セット＋３層 DNN
– Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の
情報をプーリングで集約
• シンプルな素性セット＋DNN＋頑張ってスムーズに学習
＋クラスタ内の情報はきちんと吸い上げる
→ 最高精度（英語と中国語）
25

Improving Coreference Resolution by Learning Entity-Level Distributed Representations

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

Similar to Improving Coreference Resolution by Learning Entity-Level Distributed Representations

Similar to Improving Coreference Resolution by Learning Entity-Level Distributed Representations (20)

Improving Coreference Resolution by Learning Entity-Level Distributed Representations