SlideShare a Scribd company logo
Improving Coreference Resolution by
Learning Entity-Level Distributed
Representations
Kevin Clark
In ACL 2016
読み手:松林優一郎(東北大学)
@最先端NLP 2016
Christopher D. Manning
1
※ 一部の図表は著者論文より引用
Overview
• クラスタマージ型の共参照解析器を NN でモデリング
• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現: 小さな素性セット+3層 DNN
– Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の
情報をプーリングで集約
• シンブル?な素性セット+DNN+頑張ってスムーズに学
習+クラスタ内の情報はきちんと吸い上げる
→ 最高精度(英語と中国語)
2
クラスタマージ型共参照解析
3
Mention ranking
• スコア最大の先行詞を選ぶ
• 簡単、効率的
Cluster ranking
• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの
情報(大域的情報)を使う
m
m1
m1
m1 m1
NA
m
m1
m1
m1 m1
NA
m1
クラスタマージ型共参照解析
4
Mention ranking
• スコア最大の先行詞を選ぶ
• 簡単、効率的
Cluster ranking
• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの
情報(大域的情報)を使う
m
m1
m1
m1 m1
NA
m
m1
m1
m1 m1
NA
m1
Pretraining
トピック
• クラスタマージ型共参照解析器のNNによるモデリング
• NNパラメータの効果的なトレーニング
→ Mention ranking モデルをプレトレーニングや候補の枝
刈りに使う
• クラスタをマージする順序
→ Mention ranking モデルのスコアに基づくeasy-first
strategy
• 大域素性を含むモデルの適切な学習
→ Learning-to-Search (Daumé III et al., 2005, 2009)
5
Model Overview
• Mention ranking と Cluster ranking の二段構成
6
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
(Raghunathan et al. (2010))
𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴
Mention-pair 表現
Mention-pair encoder
𝑠 𝑚 𝑎, 𝑚
Mention-pair ranker
𝑠 𝑚 𝑁𝐴, 𝑚
DNN
単層NN
𝑟 𝑚 𝑎, 𝑚
メンションのペアが共参照かどうか
Model Overview
• Mention ranking と Cluster ranking の二段構成
7
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
(Raghunathan et al. (2010))
𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴
Mention-pair 表現
Mention-pair encoder
𝑠 𝑚 𝑎, 𝑚
Mention-pair ranker
𝑠 𝑚 𝑁𝐴, 𝑚
DNN
単層NN
𝑟 𝑚 𝑎, 𝑚
メンションのペアが共参照かどうか
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 の降順でソート
Easy-first ordering
シングルトンクラスタから始めて、
この順に順に 𝑐 𝑚 とその先行詞の
クラスタのマージを考える
Model Overview
• Mention ranking と Cluster ranking の二段構成
8
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
(Raghunathan et al. (2010))
𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴
Mention-pair 表現
Mention-pair encoder
𝑠 𝑚 𝑎, 𝑚
Mention-pair ranker
𝑠 𝑚 𝑁𝐴, 𝑚
DNN
単層NN
𝑟 𝑚 𝑎, 𝑚
メンションのペアが共参照かどうか
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 の降順でソート
Easy-first ordering
𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚
Cluster-pair 表現
Cluster-pair encoder
𝑠𝑐 𝑐 𝑚, 𝑐
Cluster-pair ranker 単層NN
プーリング
𝑟𝑐 𝑐 𝑚, 𝑐
クラスタペアをマージすべきかどうか
Model Overview
9
------------
------------
------------
𝑚1, 𝑚2, 𝑚3, 𝑚4
Mention detector
(Raghunathan et al. (2010))
𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴
Mention-pair 表現
Mention-pair encoder
𝑠 𝑚 𝑎, 𝑚
Mention-pair ranker
𝑠 𝑚 𝑁𝐴, 𝑚
DNN
単層NN
𝑟 𝑚 𝑎, 𝑚
𝑚4, 𝑚1, 𝑚2, 𝑚3
max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 の降順でソート
Easy-first ordering
𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚
Cluster-pair 表現
Cluster-pair encoder
𝑠𝑐 𝑐 𝑚, 𝑐
Cluster-pair ranker 単層NN
プーリング
𝑟𝑐 𝑐 𝑚, 𝑐
最もスコアの高いアクションを選択
(𝑐 𝑚と 𝑐 をマージ、もしくは何もマージしない)
Model Overview
10
先行詞素性 mention素性
(m1, m3) 表現
Cluster 1
m1
m2
Cluster 2
m3
m4
(m1, m4) 表現
(m2, m3) 表現
(m2, m4) 表現
Cluster-pair 表現
Clusterペアのスコア
Mention-pair encoder
Mentionペアのスコア
Mention-pair 表現
Mention-pair ranker
※Mention rankingモデルで
エンコーダをプレトレーニングする
メンションのペアが
共参照かどうか
クラスタペアをマージ
すべきかどうか
doc素性
Cluster-pair
encoder
Cluster-pair ranker
Mention-pair encoder
11
全結合の3層
ReLUレイヤー
単語ベクトルの初期ベクトルは50次元のWord2Vec
1000次元
500次元
500次元
Mention-pair encoder に使う素性
• 埋め込み素性
– 単語:主辞、親、最初の単語、最後の単語、前後2単語
– 単語平均:前後5単語、mention構成単語、文、文書
• その他
– Mentionのタイプ: (pronoun, nominal, proper, or list)
– Mentionの位置(正規化されたインデックス番号)
– 文書ジャンル
– Mention間の距離:文距離、間のmention数、オーバーラップ
– 話者(Raghunathan et al. (2010))
• 同じ話者によるmentionかどうか
• あるmentionが他のmentionの話者かどうか
– 文字列マッチ:主辞、完全一致、部分一致
12
Mention ranking model
• 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚
• Mention-pair encoder のプレトレーニング
• Candidate pruning for cluster ranking model
– 𝒜 𝑚 (mの前方のmention集合)で 𝑠 𝑚 𝑎, 𝑚 の値が高い 𝑎 ∈
𝒜 𝑚 だけを返すようにする
• Easy-first search のためのスコアリング
– クラスタマージを行う際に max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 が高い m から順に
マージを考える
13
Mentionペア表現
Mention ranking model
• 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚
• Loss
14
Mentionペア表現
𝑚𝑖と共参照関係にあるmention
mistake-specific
cost function
グリッドサーチします
Pretraining of mention ranking model
15
150 epoch
50 epoch
𝑚𝑖と共参照関係にないmention
Cluster-pair encoder
• 二つのクラスタ間の全mentionペア表現を考える
• 二種類のプーリングを連結
–Max pooling
–Avg. pooling
16
Cluster ranking model
• Mention の順序付け
– Easy-first ordering: max
𝑎∈𝒜 𝑚
𝑠 𝑚 𝑎, 𝑚 で降順にソート
• 状態 𝑥 = 𝐶, 𝑚
• クラスタ集合 𝐶 = 𝑐1, 𝑐2, …
• 動作集合 𝑈 𝑥 = MERGE 𝑐 𝑚, 𝑐 | 𝑎 ∈ 𝒜 𝑚 , 𝑎 ∈ 𝑐 ∪ PASS
– 1回の動作により、次の状態 𝑥′ = 𝐶′, 𝑚′ が決まる
– 𝑠𝑐 𝑐 𝑚, 𝑐 = 𝑊𝑐 𝑟𝑐 𝑐 𝑚, 𝑐 + 𝑏𝑐, 𝑠 𝑁𝐴 𝑚 = 𝑊𝑁𝐴 𝑟 𝑚 𝑁𝐴, 𝑚 + 𝑏 𝑁𝐴
• ポリシーネットワーク
17
最初はシングルトンクラスタの集合
𝑈 𝑥 の各操作に確率を
割り当てる
mの前方にあるmentionが属すクラスタ
Learning-to-search
(Daumé et al. 2005, 2009)
• Cluster ranking modelの各状態での観測はそれまでのア
クション系列に依存する
• ゴールド系列だけで学習するのではなく、途中まではシ
ステムのアクション、途中から正しいアクション、とい
う系列を使ってLossを計算する
• 学習時に、「過去の系列が間違っている」というテスト
時に起こりうる状況を取り入れる
18
Learning-to-search
(Daumé et al. 2005, 2009)
19
- 𝐵3
𝐵3
を最も高めるアクション
Experiments and evaluations
• 実験設定
– データ:CoNLL 2012 shared task dataset (English & Chinese)
– 評価: MUC, B3, Entity-based CEAF に関するF1の平均
• Mention ranking model での feature ablations
• Mention ranking model における異なる訓練方法の評価
– 二種類のプレトレーニング方法
• それぞれの要素技術の評価
– Pretraining of mention ranking model
– Easy-first strategy
– Learning-to-search algorithm
• 既存研究との比較
20
Model performance with
feature ablations
21
Pretraining methods for
mention ranking model
• Mention ranking model それ自体もプレトレーニングが重
要 (All-pairs も Top-pairs も必要)
22
各要素技術の効果
• Cluster ranking model を直接学習せず、mention ranking
model でプレトレーニングする方が良い
• Easy-first はちょっと効果あり(ノイズが乗りにくい?)
• Learning-to-search もちょっと効果あり(ノイズに強い?)
23
Comparison to previous work
• CoNLL 2012では、全てのスコアで現時点の最高性能
– Mention ranker の時点で既に勝っている
24
Conclusion
• クラスタマージ型の共参照解析器を NN でモデリング
• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現: 小さな素性セット+3層 DNN
– Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の
情報をプーリングで集約
• シンプルな素性セット+DNN+頑張ってスムーズに学習
+クラスタ内の情報はきちんと吸い上げる
→ 最高精度(英語と中国語)
25

More Related Content

What's hot

読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
健児 青木
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
matsuolab
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
Takeshi Sakaki
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
matsuolab
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
Sotetsu KOYAMADA(小山田創哲)
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
Kohei Tomita
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
Hiroyuki Kato
 
第七回統計学勉強会@東大駒場
第七回統計学勉強会@東大駒場第七回統計学勉強会@東大駒場
第七回統計学勉強会@東大駒場Daisuke Yoneoka
 
Deeplearning4.4 takmin
Deeplearning4.4 takminDeeplearning4.4 takmin
Deeplearning4.4 takmin
Takuya Minagawa
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
 
Rの初歩: 3. 行列とデータフレーム
Rの初歩: 3. 行列とデータフレームRの初歩: 3. 行列とデータフレーム
Rの初歩: 3. 行列とデータフレーム
Teiko Suzuki
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
Taikai Takeda
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
Ryosuke Sasaki
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
matsuolab
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
matsuolab
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
matsuolab
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
貴之 八木
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
sleepy_yoshi
 

What's hot (20)

読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 
第七回統計学勉強会@東大駒場
第七回統計学勉強会@東大駒場第七回統計学勉強会@東大駒場
第七回統計学勉強会@東大駒場
 
Deeplearning4.4 takmin
Deeplearning4.4 takminDeeplearning4.4 takmin
Deeplearning4.4 takmin
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
Rの初歩: 3. 行列とデータフレーム
Rの初歩: 3. 行列とデータフレームRの初歩: 3. 行列とデータフレーム
Rの初歩: 3. 行列とデータフレーム
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 

Viewers also liked

第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
Shuntaro Yada
 
Language and Domain Independent Entity Linking with Quantified Collective Val...
Language and Domain Independent Entity Linking with Quantified Collective Val...Language and Domain Independent Entity Linking with Quantified Collective Val...
Language and Domain Independent Entity Linking with Quantified Collective Val...
Shuangshuang Zhou
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Koji Matsuda
 
Snlp2016 kameko
Snlp2016 kamekoSnlp2016 kameko
Snlp2016 kameko
Hirotaka Kameko
 
Pointing the Unknown Words
Pointing the Unknown WordsPointing the Unknown Words
Pointing the Unknown Words
hytae
 
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic RulesHarnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic Rules
Sho Takase
 
Black holes and white rabbits metaphor identification with visual features
Black holes and white rabbits  metaphor identification with visual featuresBlack holes and white rabbits  metaphor identification with visual features
Black holes and white rabbits metaphor identification with visual features
Sumit Maharjan
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
Naoaki Okazaki
 
"Joint Extraction of Events and Entities within a Document Context"の解説
"Joint Extraction of Events and Entities within a Document Context"の解説"Joint Extraction of Events and Entities within a Document Context"の解説
"Joint Extraction of Events and Entities within a Document Context"の解説
Akihiro Kameda
 

Viewers also liked (9)

第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
第8回最先端NLP勉強会 EMNLP2015 Guosh et al Sarcastic or Not
 
Language and Domain Independent Entity Linking with Quantified Collective Val...
Language and Domain Independent Entity Linking with Quantified Collective Val...Language and Domain Independent Entity Linking with Quantified Collective Val...
Language and Domain Independent Entity Linking with Quantified Collective Val...
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
Snlp2016 kameko
Snlp2016 kamekoSnlp2016 kameko
Snlp2016 kameko
 
Pointing the Unknown Words
Pointing the Unknown WordsPointing the Unknown Words
Pointing the Unknown Words
 
Harnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic RulesHarnessing Deep Neural Networks with Logic Rules
Harnessing Deep Neural Networks with Logic Rules
 
Black holes and white rabbits metaphor identification with visual features
Black holes and white rabbits  metaphor identification with visual featuresBlack holes and white rabbits  metaphor identification with visual features
Black holes and white rabbits metaphor identification with visual features
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
"Joint Extraction of Events and Entities within a Document Context"の解説
"Joint Extraction of Events and Entities within a Document Context"の解説"Joint Extraction of Events and Entities within a Document Context"の解説
"Joint Extraction of Events and Entities within a Document Context"の解説
 

Similar to Improving Coreference Resolution by Learning Entity-Level Distributed Representations

クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについて
Arien Kakkowara
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
Yuma Nakamura
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
kenyanonaka
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
Keisuke Sugawara
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
Kenta Ishii
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Shintaro Takemura
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
Shohei Taniguchi
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
hirokazutanaka
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124
博三 太田
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
論文紹介&実験
論文紹介&実験論文紹介&実験
論文紹介&実験
SHINGO MORISHITA
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
yukihiro domae
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Kotaro Yamazaki
 

Similar to Improving Coreference Resolution by Learning Entity-Level Distributed Representations (20)

クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについて
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124Kmeans vs kmeanspp_20151124
Kmeans vs kmeanspp_20151124
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
論文紹介&実験
論文紹介&実験論文紹介&実験
論文紹介&実験
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
 
Tokyo r #43
Tokyo r #43Tokyo r #43
Tokyo r #43
 

Improving Coreference Resolution by Learning Entity-Level Distributed Representations

  • 1. Improving Coreference Resolution by Learning Entity-Level Distributed Representations Kevin Clark In ACL 2016 読み手:松林優一郎(東北大学) @最先端NLP 2016 Christopher D. Manning 1 ※ 一部の図表は著者論文より引用
  • 2. Overview • クラスタマージ型の共参照解析器を NN でモデリング • Mention pair と cluster pair のスマートな分散表現 – Mention pair 表現: 小さな素性セット+3層 DNN – Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の 情報をプーリングで集約 • シンブル?な素性セット+DNN+頑張ってスムーズに学 習+クラスタ内の情報はきちんと吸い上げる → 最高精度(英語と中国語) 2
  • 3. クラスタマージ型共参照解析 3 Mention ranking • スコア最大の先行詞を選ぶ • 簡単、効率的 Cluster ranking • スコア最大のクラスタとマージ • 既にクラスタ化したmentionの 情報(大域的情報)を使う m m1 m1 m1 m1 NA m m1 m1 m1 m1 NA m1
  • 4. クラスタマージ型共参照解析 4 Mention ranking • スコア最大の先行詞を選ぶ • 簡単、効率的 Cluster ranking • スコア最大のクラスタとマージ • 既にクラスタ化したmentionの 情報(大域的情報)を使う m m1 m1 m1 m1 NA m m1 m1 m1 m1 NA m1 Pretraining
  • 5. トピック • クラスタマージ型共参照解析器のNNによるモデリング • NNパラメータの効果的なトレーニング → Mention ranking モデルをプレトレーニングや候補の枝 刈りに使う • クラスタをマージする順序 → Mention ranking モデルのスコアに基づくeasy-first strategy • 大域素性を含むモデルの適切な学習 → Learning-to-Search (Daumé III et al., 2005, 2009) 5
  • 6. Model Overview • Mention ranking と Cluster ranking の二段構成 6 ------------ ------------ ------------ 𝑚1, 𝑚2, 𝑚3, 𝑚4 Mention detector (Raghunathan et al. (2010)) 𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴 Mention-pair 表現 Mention-pair encoder 𝑠 𝑚 𝑎, 𝑚 Mention-pair ranker 𝑠 𝑚 𝑁𝐴, 𝑚 DNN 単層NN 𝑟 𝑚 𝑎, 𝑚 メンションのペアが共参照かどうか
  • 7. Model Overview • Mention ranking と Cluster ranking の二段構成 7 ------------ ------------ ------------ 𝑚1, 𝑚2, 𝑚3, 𝑚4 Mention detector (Raghunathan et al. (2010)) 𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴 Mention-pair 表現 Mention-pair encoder 𝑠 𝑚 𝑎, 𝑚 Mention-pair ranker 𝑠 𝑚 𝑁𝐴, 𝑚 DNN 単層NN 𝑟 𝑚 𝑎, 𝑚 メンションのペアが共参照かどうか 𝑚4, 𝑚1, 𝑚2, 𝑚3 max 𝑎∈𝒜 𝑚 𝑠 𝑚 𝑎, 𝑚 の降順でソート Easy-first ordering シングルトンクラスタから始めて、 この順に順に 𝑐 𝑚 とその先行詞の クラスタのマージを考える
  • 8. Model Overview • Mention ranking と Cluster ranking の二段構成 8 ------------ ------------ ------------ 𝑚1, 𝑚2, 𝑚3, 𝑚4 Mention detector (Raghunathan et al. (2010)) 𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴 Mention-pair 表現 Mention-pair encoder 𝑠 𝑚 𝑎, 𝑚 Mention-pair ranker 𝑠 𝑚 𝑁𝐴, 𝑚 DNN 単層NN 𝑟 𝑚 𝑎, 𝑚 メンションのペアが共参照かどうか 𝑚4, 𝑚1, 𝑚2, 𝑚3 max 𝑎∈𝒜 𝑚 𝑠 𝑚 𝑎, 𝑚 の降順でソート Easy-first ordering 𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚 Cluster-pair 表現 Cluster-pair encoder 𝑠𝑐 𝑐 𝑚, 𝑐 Cluster-pair ranker 単層NN プーリング 𝑟𝑐 𝑐 𝑚, 𝑐 クラスタペアをマージすべきかどうか
  • 9. Model Overview 9 ------------ ------------ ------------ 𝑚1, 𝑚2, 𝑚3, 𝑚4 Mention detector (Raghunathan et al. (2010)) 𝑎, 𝑚 𝑎 ∈ 𝒜 𝑚 ∪ 𝑁𝐴 Mention-pair 表現 Mention-pair encoder 𝑠 𝑚 𝑎, 𝑚 Mention-pair ranker 𝑠 𝑚 𝑁𝐴, 𝑚 DNN 単層NN 𝑟 𝑚 𝑎, 𝑚 𝑚4, 𝑚1, 𝑚2, 𝑚3 max 𝑎∈𝒜 𝑚 𝑠 𝑚 𝑎, 𝑚 の降順でソート Easy-first ordering 𝑐 ∈ 𝑐|𝑎 ∈ 𝑐, 𝑎 ∈ 𝒜 𝑚𝑐, 𝑐 𝑚 Cluster-pair 表現 Cluster-pair encoder 𝑠𝑐 𝑐 𝑚, 𝑐 Cluster-pair ranker 単層NN プーリング 𝑟𝑐 𝑐 𝑚, 𝑐 最もスコアの高いアクションを選択 (𝑐 𝑚と 𝑐 をマージ、もしくは何もマージしない)
  • 10. Model Overview 10 先行詞素性 mention素性 (m1, m3) 表現 Cluster 1 m1 m2 Cluster 2 m3 m4 (m1, m4) 表現 (m2, m3) 表現 (m2, m4) 表現 Cluster-pair 表現 Clusterペアのスコア Mention-pair encoder Mentionペアのスコア Mention-pair 表現 Mention-pair ranker ※Mention rankingモデルで エンコーダをプレトレーニングする メンションのペアが 共参照かどうか クラスタペアをマージ すべきかどうか doc素性 Cluster-pair encoder Cluster-pair ranker
  • 12. Mention-pair encoder に使う素性 • 埋め込み素性 – 単語:主辞、親、最初の単語、最後の単語、前後2単語 – 単語平均:前後5単語、mention構成単語、文、文書 • その他 – Mentionのタイプ: (pronoun, nominal, proper, or list) – Mentionの位置(正規化されたインデックス番号) – 文書ジャンル – Mention間の距離:文距離、間のmention数、オーバーラップ – 話者(Raghunathan et al. (2010)) • 同じ話者によるmentionかどうか • あるmentionが他のmentionの話者かどうか – 文字列マッチ:主辞、完全一致、部分一致 12
  • 13. Mention ranking model • 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚 • Mention-pair encoder のプレトレーニング • Candidate pruning for cluster ranking model – 𝒜 𝑚 (mの前方のmention集合)で 𝑠 𝑚 𝑎, 𝑚 の値が高い 𝑎 ∈ 𝒜 𝑚 だけを返すようにする • Easy-first search のためのスコアリング – クラスタマージを行う際に max 𝑎∈𝒜 𝑚 𝑠 𝑚 𝑎, 𝑚 が高い m から順に マージを考える 13 Mentionペア表現
  • 14. Mention ranking model • 𝑠 𝑚 𝑎, 𝑚 = 𝑊𝑚 𝑟 𝑚 𝑎, 𝑚 + 𝑏 𝑚 • Loss 14 Mentionペア表現 𝑚𝑖と共参照関係にあるmention mistake-specific cost function グリッドサーチします
  • 15. Pretraining of mention ranking model 15 150 epoch 50 epoch 𝑚𝑖と共参照関係にないmention
  • 16. Cluster-pair encoder • 二つのクラスタ間の全mentionペア表現を考える • 二種類のプーリングを連結 –Max pooling –Avg. pooling 16
  • 17. Cluster ranking model • Mention の順序付け – Easy-first ordering: max 𝑎∈𝒜 𝑚 𝑠 𝑚 𝑎, 𝑚 で降順にソート • 状態 𝑥 = 𝐶, 𝑚 • クラスタ集合 𝐶 = 𝑐1, 𝑐2, … • 動作集合 𝑈 𝑥 = MERGE 𝑐 𝑚, 𝑐 | 𝑎 ∈ 𝒜 𝑚 , 𝑎 ∈ 𝑐 ∪ PASS – 1回の動作により、次の状態 𝑥′ = 𝐶′, 𝑚′ が決まる – 𝑠𝑐 𝑐 𝑚, 𝑐 = 𝑊𝑐 𝑟𝑐 𝑐 𝑚, 𝑐 + 𝑏𝑐, 𝑠 𝑁𝐴 𝑚 = 𝑊𝑁𝐴 𝑟 𝑚 𝑁𝐴, 𝑚 + 𝑏 𝑁𝐴 • ポリシーネットワーク 17 最初はシングルトンクラスタの集合 𝑈 𝑥 の各操作に確率を 割り当てる mの前方にあるmentionが属すクラスタ
  • 18. Learning-to-search (Daumé et al. 2005, 2009) • Cluster ranking modelの各状態での観測はそれまでのア クション系列に依存する • ゴールド系列だけで学習するのではなく、途中まではシ ステムのアクション、途中から正しいアクション、とい う系列を使ってLossを計算する • 学習時に、「過去の系列が間違っている」というテスト 時に起こりうる状況を取り入れる 18
  • 19. Learning-to-search (Daumé et al. 2005, 2009) 19 - 𝐵3 𝐵3 を最も高めるアクション
  • 20. Experiments and evaluations • 実験設定 – データ:CoNLL 2012 shared task dataset (English & Chinese) – 評価: MUC, B3, Entity-based CEAF に関するF1の平均 • Mention ranking model での feature ablations • Mention ranking model における異なる訓練方法の評価 – 二種類のプレトレーニング方法 • それぞれの要素技術の評価 – Pretraining of mention ranking model – Easy-first strategy – Learning-to-search algorithm • 既存研究との比較 20
  • 22. Pretraining methods for mention ranking model • Mention ranking model それ自体もプレトレーニングが重 要 (All-pairs も Top-pairs も必要) 22
  • 23. 各要素技術の効果 • Cluster ranking model を直接学習せず、mention ranking model でプレトレーニングする方が良い • Easy-first はちょっと効果あり(ノイズが乗りにくい?) • Learning-to-search もちょっと効果あり(ノイズに強い?) 23
  • 24. Comparison to previous work • CoNLL 2012では、全てのスコアで現時点の最高性能 – Mention ranker の時点で既に勝っている 24
  • 25. Conclusion • クラスタマージ型の共参照解析器を NN でモデリング • Mention pair と cluster pair のスマートな分散表現 – Mention pair 表現: 小さな素性セット+3層 DNN – Cluster pairs 表現: 二つのクラスタ間の全ての mention pair の 情報をプーリングで集約 • シンプルな素性セット+DNN+頑張ってスムーズに学習 +クラスタ内の情報はきちんと吸い上げる → 最高精度(英語と中国語) 25