CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages

1. 2. 3. 4. 5.
CluBERT:
A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages [1]
2020/07/21
1
[1] Pasini, T., Scozzafava, F., and Scarlini, B.: "CluBERT: A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages.“, ACL, pp. 4008-4018 (2020).

1. 2. 3. 4. 5.
2
論文情報
タイトル：
CluBERT: A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages
著者：
Pasini, T.1, Scozzafava, F.1, and Scarlini, B.1
1: Sapienza NLP Group, Department of Computer Science, Sapienza University of Rome
出典： ACL 2020
選定理由： clustering と BERT の組み合わせに興味があった
BabelNet [2] の著者 Navigli, R. も同組織所属

1. 2. 3. 4. 5.
3
Abstract
【概要】 WSD において最頻出の意味
が重要であることに着目．BERT と概
念階層を組み合わせて，生コーパス
から単語がもつ意味の分布を取得
【手法】
1. BERT による特徴空間への写像
2. 意味数に応じてクラスタリング
3. クラスタの統合と分布の取得
Method
内的評価
（JSD, ↓）
外的評価
（WSD-F1, ↑）
CluBERT 0.085 70.6
DaD 0.204 66.0
EnDi 0.099 61.0
LexSemTM 0.116 49.0
WordNet MFS 0.255 68.0
【結果】既存手法よりも高い精度をもつ
分布の獲得に成功．WSD のタスクに
おいても既存手法超え
1-2. BERT + 𝑘-means 3. 分布の取得
コーパス
 加えて，得られた分布を用いて既存手法に
よる予測を行っても，WordNet と同等の効
果があることを確認

1. 2. 3. 4. 5.
4
背景
Word Sense Disambiguation （WSD，語義曖昧性解消）のタスク
WSD の性能向上は機械翻訳など他タスクでの精度向上にも寄与
They bombed the Bogota offices last month, …
省庁，政府の行政単位
e.g.) SemEval-2013 task 12 [3]
office
1. 事務所
2. 省庁
3. 役割文中の単語の意味を特定
文の意味をより明らかに
概念階層上の意味
e.g.) BabelNet [2]

1. 2. 3. 4. 5.
5
WSD が抱える課題
知識ベースでも，正確/十分なネットワークを持たない語が存在
課題：ラベル付きデータの不足 = 教師あり学習が困難
最頻出な意味を選択することで，強いベースラインが作成可能
e.g.) SemEval-2013 task 12 [3]
打開策： Most Frequent Sense (MFS) の利用
課題：頻度の取得に必要なデータの不足/情報が古い
IT (Italian) ES (Spanish) FR (France) DE (German)
インスタンス数 1490 1260 1449 1076

1. 2. 3. 4. 5.
6
目的
 ラベル付きデータの不足 = 教師あり学習が困難
 頻度の取得に必要なデータの不足/情報が古い
解決策：生コーパスからの分布の取得
課題
類似した意味は類似した文脈で使われることに着目
BERT[4]：特徴空間への写像 + BabelNet：クラスタ数と分布の算出
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.4
1
0.6
𝑔𝑙𝑎𝑠𝑠 を含む
文（∈ 𝐶）の集合
クラスタリング
 BERT , BabelNet, 𝑘-means
分布の取得
 BabelNet, PageRank

1. 2. 3. 4. 5.
7
概念階層：WordNet[5] & BabelNet
概念の関係を階層的に記した言語資源．意味の分布も保持
概念階層上での記述方式： 𝑙𝑒𝑚𝑚𝑎 𝑃𝑎𝑟𝑡_𝑜𝑓_𝑆𝑝𝑝𝑒𝑐ℎ
𝑠𝑦𝑛𝑠𝑒𝑡_𝑛𝑢𝑚𝑏𝑒𝑟
2
: 容器
1
𝑠𝑜𝑙𝑖𝑑 𝑁
1
𝑔𝑙𝑎𝑠𝑠𝑤𝑎𝑟𝑒 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠𝑤𝑜𝑟𝑘 𝑁
1
今回は多言語対応の BabelNet を使用
synset (a set of one/more synonyms)
is-a
is-a𝑔𝑙𝑎𝑠𝑠 𝑁
1
: 素材
 solid は glass の上位語，glassware は glasswork の下位語

1. 2. 3. 4. 5.
8
時系列の深層学習モデル
seq2seq [6]
Recurrent Neural Network (RNN) によるエンコーダ・デコーダ
Transformer [7]
Attention 構造と全結合層によるエンコーダ・デコーダ
エンコーダデコーダ
エンコーダデコーダ
𝒉0 𝒉1 𝒉2 𝒉3
𝒉 𝑓𝑖𝑛𝑎𝑙
𝒉
: RNN の各 cell
𝒉𝑖: 𝑖 番目の隠れ層の状態
𝒉 𝑓𝑖𝑛𝑎𝑙: 2層の biRNN の結合
𝒉 = [𝒉0, 𝒉1, 𝒉2, 𝒉3]
: Attention 構造
 Attention による接続
 Attention 構造後に順序毎に
独立の全結合層
𝒉0 𝒉1 𝒉2 𝒉3
𝒉
 𝒉 として文単位の表現を，𝒉𝑖 として文脈における単語の表現を獲得可能

1. 2. 3. 4. 5.
9
Supervised approach
BiLSTM を用いた教師あり学習手法 [8]（以降，BiLSTM）
教師あり学習では類似の学習方法が多め
BiLSTM Layer
he later check the report
Attention Layer
Embedding Layer
Fully-connected Layer
Softmax WSD + PoS + LEX
WSD he 𝑙𝑎𝑡𝑒𝑟𝑅
1
𝑐ℎ𝑒𝑐𝑘 𝑉
1 the 𝑟𝑒𝑝𝑜𝑟𝑡 𝑁
3
PoS PRON ADV VERB DET NOUN
LEX other adv.all verb.
cognition
other noun.
communication
 ラベルがない場合も
マルチラベル予測

1. 2. 3. 4. 5.
10
Knowledge-based approach
UKB [9]: 文脈を考慮した Personalized PageRank (PPR)
𝒗 𝑡+1
= 1 − 𝛼 𝒗0
+ 𝛼𝑨𝒗 𝑡
PPR：下記の式を繰り返すことで関連度を導出するアルゴリズム
𝛼 = 0.85, 𝑨：全 synset 間の有向グラフ，
𝒗0：文上の全単語 / 対象を除いた単語がもつ synset の値を 1 とするベクトル
coach fleet comprise ... seat
𝑐𝑜𝑎𝑐ℎ 𝑁
1
5
2
𝑡𝑢𝑡𝑜𝑟𝑖𝑎𝑙 𝑁
1𝑡𝑒𝑎𝑐ℎ𝑒𝑟 𝑁
1
𝑐𝑜𝑚𝑝𝑟𝑖𝑠𝑒 𝑉
1
𝑓𝑙𝑒𝑒𝑡 𝑁
2
𝑠𝑒𝑎𝑡 𝑁
1
𝑡𝑟𝑎𝑖𝑛𝑒𝑟 𝑁
1
ℎ𝑎𝑛𝑑𝑙𝑒 𝑛
8
𝑠𝑝𝑜𝑟𝑡 𝑁
1
 無向でも良い．実装上の問題？

1. 2. 3. 4. 5.
Pasini らによる手法 [10]
生コーパスに対して文ごとに意味の確率を導出し，分布を算出
11
Sense Distribution Learning (1)
P 𝑠 𝜎, 𝑤 =
P 𝑤1, … , 𝑤 𝑛 𝑠, 𝑤 P 𝑠 𝑤
P 𝑤1, … , 𝑤 𝑛 𝑤
≈ 𝑤′∈𝜎 max
𝑠∈𝑆
( 𝒗PPR 𝑠
, 𝑤′)
今回の比較対象： knowledge-base + distribution
 同一著者
まとめ方
 Entropy-based Distribution learning （EnDi)
 Domain-aware Distribution learning (DaD)
Sentence 𝒑𝒍𝒂𝒏𝒆 𝑵
𝟏
(aircraft)
𝒑𝒍𝒂𝒏𝒆 𝑵
𝟐
(geometry)
on the plane 0.92 0.08
special plane curves 0.10 0.90
… … …
𝒟 𝑝𝑙𝑎𝑛𝑒 0.60 0.40
※値は適当
𝑠： sense, 𝑤： target word, 𝜎 = {𝑤1, … , 𝑤 𝑛}： sentence  互いの意味が独立と仮定
単語ごとに分布 𝒟 𝑤𝑜𝑟𝑑 を算出

1. 2. 3. 4. 5.
12
Sense Distribution Learning (2)
Hauer らによる手法 [11]
COMP2SENSE
共起語と WordNet の synset 間距離による重みづけ
WCT-VEC
synset ごとにベクトルを導出．類似度の比較により MFS を導出
 strong baseline?
MFS 𝑤
= argmax 𝑠∈𝑆{𝜒1cos 𝒔 𝑤,𝑠, 𝒗 𝑤 + 𝜒2cos 𝒔 𝑤,𝑠, 𝒄 𝑤 + 𝜒3cos(𝒔 𝑤,𝑠, 𝒕 𝑤)}
𝜒𝑖：非負のパラメータ，𝒗 𝑤： word vector，𝒄 𝑤：共起語の平均ベクトル？
𝒔 𝑤,𝑠： WordNet から取得した類義語の平均ベクトル，𝒕 𝑤：翻訳語のベクトル
精度は高くなく，メインの比較対象ではない
LexSemTM [12]
topic modeling である HCA を用いて分布を取得
 略称しかない？

1. 2. 3. 4. 5.
13
BERT の概要
Bidirectional Encoder Representations from Transformers (BERT)
𝑬0 𝑬1 𝑬2 𝑬3
構造・重みを再利用
pre-training
生（ラベルなし）のコーパスから
言語モデルを学習
fine-tuning
ラベルありのデータから
応用タスクを学習
𝑬1 𝑬2 𝑬3 𝑬4
 fine-tuning モデルのため，ラベルありのデータが少なくて良い
𝑬0 𝑬1 𝑬2 𝑬3
𝑬𝑖: 𝑖 番目の embedding
異なる属性の予測
e.g.) 文の区切り，名刺属性

1. 2. 3. 4. 5.
14
BERT の学習
1. マスクした単語の予測 ≈ 𝑐𝑙𝑜𝑧𝑒 テスト
𝑐𝑙𝑜𝑧𝑒 テストマスクした単語の予測
the man _____ to the store the man [Mask] to the store
BERT はマスクした単語と文章の連続性の２つを学習
2. 文章の連続性の予測
A) The man went to [MASK] store.
B) He bought a gallon [MASK] milk.
 不要とも言われている
A と B の文は連続？

1. 2. 3. 4. 5.
15
提案手法の概要
生コーパスから単語がもつ意味の分布を獲得 & 多言語対応
𝐶：コーパス，𝑙：見出し語，𝑀𝑙：見出し語 𝑙 が持ち得る意味集合
1. Sentence Clustering
𝑔𝑙𝑎𝑠𝑠 を含む
文（∈ 𝐶）の集合
2. Clustering Disambiguation 3. Distribution Extraction
コーパス 𝐶 中の
意味の分布を獲得
1
2
0.4
0.68 𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.6𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.32
1
0.48
2
0.52
𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠 𝑁
2
}
Cluster 1
… 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures.
.. walls are made out of 𝑔𝑙𝑎𝑠𝑠.
Cluster 2
He asked for a 𝑔𝑙𝑎𝑠𝑠 of water.
It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠.
1. クラスタを頻出語で表現
2. クラスタ内の分布の導出
 実際は，2つ以上の意味が存在
materialn
metaln
plasticn
winen
watern
drinkn

1. 2. 3. 4. 5.
16
Sentence Clustering
見出し語を含む文に対してベクトル表現を獲得し，クラスタリング
𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠 𝑁
2
, . . }  BabelNet 上では，30個近い意味が存在
1. コーパス 𝐶 から見出し語 𝑔𝑙𝑎𝑠𝑠 を含む文 𝑆 の抽出
2. BERT による文脈における単語の表現 𝒗 𝜎
𝑙 (𝜎 ∈ 𝑆) を獲得
3. 𝑘-means によるクラスタリング
 𝒗 𝜎
𝑙
= BERT(𝜎, 𝑙)
1. 文の抽出 2. 特徴空間への写像 3. クラスタリング

1. 2. 3. 4. 5.
17
Cluster Disambiguation
1. クラスタを頻出語の Bag of Words (BoW) で表現
2. PPR で得られた値 𝒗 𝑡+1 を正規化し，分布を取得
Cluster 1
Cluster 2
ベクトル空間
頻出語（top-𝑛）
material, metal, …
water, wine, …
𝒗 𝑡+1 = 1 − 𝛼 𝒗0 + 𝛼𝑨𝒗 𝑡
PPR：下記の式を繰り返すことで関連度を導出するアルゴリズム
𝛼 = 0.85, 𝑨：全 synset 間の有向グラフ，
𝒗0： BoW 内の単語がもつ synset の値を 1 とするベクトル
 今回は正規化した頻度を値に使用？

1. 2. 3. 4. 5.
18
Distribution Extraction
クラスタごとの分布を統合し，コーパス 𝑪 中の意味の分布を獲得
1
2
0.4
0.68 𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.6
2
0.32
1
0.48
2
0.52
materialn
metaln
plasticn
winen
watern
drinkn
𝒅𝑙 =
𝑐∈𝒰 𝑙
|𝑐| 𝒅𝑙
𝑐
𝑐∈𝒰 𝑙
|𝑐|
𝒅𝑙：コーパス中の分布
𝒅𝑙：コーパス中の分布
𝒅𝑙
𝑐
：クラスタ中の分布
𝒅𝑙
𝑐
：クラスタ中の分布
𝒰𝑙：獲得したクラスタ
𝒰𝑙：獲得したクラスタ
 |𝑐|：クラスタサイズ（文章の数？）

1. 2. 3. 4. 5.
19
実験項目
内的評価および外的評価を通して，提案手法を検証
内的評価（Intrinsic Evaluation）
人手で作成した分布と提案手法による分布の類似度を測定
 Jensen-Shannon Divergence (JSD)
 Weighted Overlap (WO)
外的評価（Extrinsic Evaluation）
WSD のデータセットを用いて，精度や言語間での違いを検証

1. 2. 3. 4. 5.
20
実験のセットアップ
Synset について
BabelNet に含まれる synset すべてを使用
コーパス
Wikipedia (multilingual)
Clustering methods
𝑘-means
Clustering Disambiguation における各クラスタの単語数 𝒏
5
評価に使用した言語
English, Italian, Spanish, French and German
𝑘 の値は BabelNet における synset 数
重要なパラメータ：まで試して一番良いもの

1. 2. 3. 4. 5.
人手で作成した分布と提案手法による分布の類似度を測定
 Jensen-Shannon Divergence (JSD)
Kullback-Leibler (KL) divergence を使用
 Weighted Overlap (WO)
分布をソートした時の順序を用いて評価
21
内的評価：指標について
JSD 𝒅, 𝒅′
=
KL 𝒅, 𝑴 + KL 𝒅′, 𝑴
2
KL 𝒅, 𝒅′
=
𝑠
𝑑 𝑠 log(
𝑑 𝑠
𝑑 𝑠
′ ) 𝑑 𝑠： synset 𝑠 の確率
𝒅：分布 𝑴 =
𝒅 + 𝒅′
2
WO 𝒅, 𝒅′
=
𝑖=1
|𝑂|
𝑟𝑖 + 𝑟𝑖
′ −1
2𝑖 −1
𝑂： 2つの分布に共通する要素
𝑟𝑖： 𝑖 番目の要素の順序
スコアが高いほど良い
スコアが低いほど良い

1. 2. 3. 4. 5.
22
内的評価：結果
Gold distribution [12] との分布の一致度を評価
Method Type JSD (↓) WO (↑)
CluBERT Knowledge? 0.085 0.958
DaD Knowledge 0.204 0.902
EnDi Knowledge 0.099 0.937
LexSemTM Topic model 0.116 0.932
WordNet MFS MFS 0.255 0.837
 エラーの大半は名詞属性の意味が不足していたことが原因
e.g.) 複合語，固有名詞
解決策：より多くの意味を事前に取得
逆に言うと，言語資源が備える意味の網羅率に精度が依存
どちらの指標でも高精度

1. 2. 3. 4. 5.
23
外的評価：評価データセット
WSD の評価に用いられる基本的なデータセットを使用
e.g.) SemEval-2013 [2], SemEval-2015 [13]
They bombed the Bogota offices last month, …
省庁，政府の行政単位office
1. 事務所
2. 省庁
3. 役割文中の単語の意味を特定
概念階層上の意味
e.g.) BabelNet[2]
 SemEval-2013, SemEval-2015 は複数のドメイン・言語に対応
 古いバージョンの BabelNet を用いた時，SemEval-2013* と表記

1. 2. 3. 4. 5.
24
外的評価：評価対象
基本タスク： WSD における提案手法の有効性を検証
Downstream タスク
 English WSD
 Domain-Specific WSD
 Multilingual WSD
データ量： △ ∵ 2013年以前から存在
データ量： ×（約2,500/言語）
データ量： ×?
 No information
 CluBERT information / WordNet information
 UKB：分布によって予測を補助
 BiLSTM： unseen なデータに対して分布に対する MFS
提案手法で取得した分布の有効性を検証

1. 2. 3. 4. 5.
25
外的評価：English WSD
WordNet の最頻出を選ぶ方法は高い精度
提案手法はいずれの手法も上回る結果となり，有用性を確認
Method Type
All Datasets
(F1-score)
CluBERT Knowledge? 70.6
DaD Knowledge 66.0
EnDi Knowledge 61.0
LexSemTM Topic model 49.0
WordNet MFS MFS 68.0
Method Type
All Datasets
(F1-score)
CluBERT Knowledge? 66.8
UMFS-WE Vector? 53.1
WCT-VEC Vector? 54.1
COMP2SENSE Knowledge 50.7
WordNet MFS MFS 65.0
※左右の内容が異なるようだが，わからなかった
 strong baseline
 左の表では，統計的に有意であることも確認

1. 2. 3. 4. 5.
26
外的評価：Domain-Specific WSD
9個中7個のドメインで既存手法を上回る結果（※）
SemEval-2013 (F1) SemEval-2015 (F1)
Method Type Biology Climate Sport Math … Social …
CluBERT Knowledge? 72.9 70.9 61.4 52.3 75.2
DaD Knowledge 79.0 63.0 54.0 59.8 54.3
EnDi Knowledge 71.0 53.0 57.0 63.0 55.9
LexSemTM Topic model 56.0 47.0 34.0 47.7 40.7
WordNet MFS MFS 61.0 59.0 56.0 47.2 62.4
※結果から一部抜粋
PPR の精度 ≈ BabelNet がもつネットワークの精度が原因？
悪かったドメイン： Biology, Math&Computer について

1. 2. 3. 4. 5.
27
外的評価：Multilingual WSD
すべての言語・データセットにおいて既存手法を凌駕
SemEval-2013* (F1) SemEval-2015* (F1)
Method Type IT ES DE FR IT ES
CluBERT Knowledge? 71.7 68.7 69.1 67.1 70.4 68.8
DaD Knowledge 62.9 58.9 65.5 54.3 61.0 58.0
EnDi Knowledge 46.2 44.6 49.1 54.3 55.0 52.0
BabelNet MFS MFS 52.3 55.6 49.3 55.1 52.0 53.0
多言語に対しての有用性を確認
当初の目的通り，データ量が不足しがちな言語に対しても高性能
 統計的にも有意
 BabelNet 単体での精度が低くても良い

1. 2. 3. 4. 5.
28
外的評価：Downstream タスク
提案手法は WordNet を用いた時と比べて少し良い結果
All Datasets (F1)
Method Type Precision Recall F1-score
UKB Knowledge 63.1 63.1 63.1
UKBWN Knowledge 67.1 67.1 67.1
UKBCluBERT Knowledge 67.7 67.7 67.7
BiLSTM Supervised 68.1 61.6 64.7
BiLSTMWN Supervised 69.6 69.6 69.6
BiLSTMCluBERT Supervised 69.9 69.9 69.9
WordNet と同じ情報を保持 & WordNet と異なり flexible
結果の解釈：汎用性の観点では良い
様々なコーパス・言語への対応が可能

1. 2. 3. 4. 5.
29
まとめ
【感想】やはりコーパスやクラスタに関する検証がなかったことは
気になった．特に，コーパスとドメインの関係は重要に思える．
また，言語資源の問題は利用する側・される側，どちらの問題？
 今回の手法は情報の抽出という感じの印象
BERT + BabelNet による生コーパスからの分布獲得
課題：ラベル付きデータの不足 & 頻度の情報が古い
ラベル付きデータが不足しがちな多言語への対応を確認
生コーパスから WordNet と同等以上の分布・情報を獲得
 future work: コーパスやクラスタリングの検証・改善

1. 2. 3. 4. 5.
30
参考文献（１）
[2] Navigli, R., and Ponzetto, S. P.: “BabelNet: Building a very large
multilingual semantic network.”, ACL, pp. 216—225 (2010).
[3] Navigli, R., Jurgens, D., and Vannella, D.: “Semeval-2013 task 12:
Multilingual word sense disambiguation.”, SemEval, pp. 222—231
(2013).
[4] Devlin, J., Chang, M. W., Lee, K., and Toutanova, K.: “Bert: Pre-
training of deep bidirectional transformers for language
understanding.”, NAACL, Vol. 1, pp. 4171—4186 (2019).
[5] Miller, G.A.: “WordNet: A Lexical Database for English.”,
Communications of the ACM, Vol. 38, No. 11, pp. 39—41 (1995).
[6] Sutskever, I., Vinyals, O., and Le, Q. V.: “Sequence to sequence
learning with neural networks.”, NIPS, pp. 3104—3112 (2014).

1. 2. 3. 4. 5.
31
参考文献（２）
[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L.,
Gomez, A. N., Kaiser, Ł., and Polosukhin, I.: “Attention is all you
need.”, NIPS, pp. 5998—6008 (2017).
[8] Raganato, A., Bovi, C. D., and Navigli, R.: “Neural sequence
learning models for word sense disambiguation.”, EMNLP, pp.
1156—1167 (2017).
[9] Agirre, E., López de Lacalle, O., and Soroa, A.: “Random walks for
knowledge-based word sense disambiguation.”, Computational
Linguistics, Vol. 40, No. 1, pp. 57—84 (2014).
[10] Pasini, T., and Navigli, R.: “Two knowledge-based methods for
high-performance sense distribution learning.”, AAAI, pp. 5374—
5381 (2018).

1. 2. 3. 4. 5.
32
参考文献（３）
[11] Hauer, B., Luan, Y., and Kondrak, G.: “You Shall Know the Most
Frequent Sense by the Company it Keeps.”, IEEE ICSC, pp. 208—215
(2019).
[12] Bennett, A., Baldwin, T., Lau, J. H., McCarthy, D., and Bond, F.:
“Lexsemtm: A semantic dataset based on all-words unsupervised
sense distribution learning.”, ACL, Vol. 1, pp. 1513—1524 (2016).
[13] Moro, A., and Navigli, R.: “Semeval-2015 task 13: Multilingual
all-words sense disambiguation and entity linking.”, SemEval, pp.
288—297 (2015).

CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages

Similar to CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages (20)

More from 禎晃山崎

More from 禎晃山崎 (6)