SlideShare a Scribd company logo
1 of 32
Download to read offline
1. 2. 3. 4. 5.
CluBERT:
A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages [1]
2020/07/21
1
[1] Pasini, T., Scozzafava, F., and Scarlini, B.: "CluBERT: A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages.“, ACL, pp. 4008-4018 (2020).
1. 2. 3. 4. 5.
2
論文情報
タイトル:
CluBERT: A Cluster-Based Approach for
Learning Sense Distributions in Multiple Languages
著者:
Pasini, T.1, Scozzafava, F.1, and Scarlini, B.1
1: Sapienza NLP Group, Department of Computer Science, Sapienza University of Rome
出典: ACL 2020
選定理由: clustering と BERT の組み合わせに興味があった
BabelNet [2] の著者 Navigli, R. も同組織所属
1. 2. 3. 4. 5.
3
Abstract
【概要】 WSD において最頻出の意味
が重要であることに着目.BERT と概
念階層を組み合わせて,生コーパス
から単語がもつ意味の分布を取得
【手法】
1. BERT による特徴空間への写像
2. 意味数に応じてクラスタリング
3. クラスタの統合と分布の取得
Method
内的評価
(JSD, ↓)
外的評価
(WSD-F1, ↑)
CluBERT 0.085 70.6
DaD 0.204 66.0
EnDi 0.099 61.0
LexSemTM 0.116 49.0
WordNet MFS 0.255 68.0
【結果】 既存手法よりも高い精度をもつ
分布の獲得に成功.WSD のタスクに
おいても既存手法超え
1-2. BERT + 𝑘-means 3. 分布の取得
コーパス
 加えて,得られた分布を用いて既存手法に
よる予測を行っても,WordNet と同等の効
果があることを確認
1. 2. 3. 4. 5.
4
背景
Word Sense Disambiguation (WSD,語義曖昧性解消)のタスク
WSD の性能向上は機械翻訳など他タスクでの精度向上にも寄与
They bombed the Bogota offices last month, …
省庁,政府の行政単位
e.g.) SemEval-2013 task 12 [3]
office
1. 事務所
2. 省庁
3. 役割 文中の単語の意味を特定
文の意味をより明らかに
概念階層上の意味
e.g.) BabelNet [2]
1. 2. 3. 4. 5.
5
WSD が抱える課題
知識ベースでも,正確/十分なネットワークを持たない語が存在
課題: ラベル付きデータの不足 = 教師あり学習が困難
最頻出な意味を選択することで,強いベースラインが作成可能
e.g.) SemEval-2013 task 12 [3]
打開策: Most Frequent Sense (MFS) の利用
課題: 頻度の取得に必要なデータの不足/情報が古い
IT (Italian) ES (Spanish) FR (France) DE (German)
インスタンス数 1490 1260 1449 1076
1. 2. 3. 4. 5.
6
目的
 ラベル付きデータの不足 = 教師あり学習が困難
 頻度の取得に必要なデータの不足/情報が古い
解決策: 生コーパスからの分布の取得
課題
類似した意味は類似した文脈で使われることに着目
BERT[4]:特徴空間への写像 + BabelNet:クラスタ数と分布の算出
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.4
𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.6
𝑔𝑙𝑎𝑠𝑠 を含む
文(∈ 𝐶)の集合
クラスタリング
 BERT , BabelNet, 𝑘-means
分布の取得
 BabelNet, PageRank
1. 2. 3. 4. 5.
7
概念階層:WordNet[5] & BabelNet
概念の関係を階層的に記した言語資源.意味の分布も保持
概念階層上での記述方式: 𝑙𝑒𝑚𝑚𝑎 𝑃𝑎𝑟𝑡_𝑜𝑓_𝑆𝑝𝑝𝑒𝑐ℎ
𝑠𝑦𝑛𝑠𝑒𝑡_𝑛𝑢𝑚𝑏𝑒𝑟
𝑔𝑙𝑎𝑠𝑠 𝑁
2
: 容器
𝑔𝑙𝑎𝑠𝑠 𝑁
1
𝑠𝑜𝑙𝑖𝑑 𝑁
1
𝑔𝑙𝑎𝑠𝑠𝑤𝑎𝑟𝑒 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠𝑤𝑜𝑟𝑘 𝑁
1
今回は多言語対応の BabelNet を使用
synset (a set of one/more synonyms)
is-a
is-a𝑔𝑙𝑎𝑠𝑠 𝑁
1
: 素材
 solid は glass の上位語,glassware は glasswork の下位語
1. 2. 3. 4. 5.
8
時系列の深層学習モデル
seq2seq [6]
Recurrent Neural Network (RNN) によるエンコーダ・デコーダ
Transformer [7]
Attention 構造と全結合層によるエンコーダ・デコーダ
エンコーダ デコーダ
エンコーダ デコーダ
𝒉0 𝒉1 𝒉2 𝒉3
𝒉 𝑓𝑖𝑛𝑎𝑙
𝒉
: RNN の各 cell
𝒉𝑖: 𝑖 番目の隠れ層の状態
𝒉 𝑓𝑖𝑛𝑎𝑙: 2層の biRNN の結合
𝒉 = [𝒉0, 𝒉1, 𝒉2, 𝒉3]
: Attention 構造
 Attention による接続
 Attention 構造後に順序毎に
独立の全結合層
𝒉0 𝒉1 𝒉2 𝒉3
𝒉
 𝒉 として文単位の表現を,𝒉𝑖 として文脈における単語の表現を獲得可能
1. 2. 3. 4. 5.
9
Supervised approach
BiLSTM を用いた教師あり学習手法 [8](以降,BiLSTM)
教師あり学習では類似の学習方法が多め
BiLSTM Layer
he later check the report
Attention Layer
Embedding Layer
Fully-connected Layer
Softmax WSD + PoS + LEX
WSD he 𝑙𝑎𝑡𝑒𝑟𝑅
1
𝑐ℎ𝑒𝑐𝑘 𝑉
1 the 𝑟𝑒𝑝𝑜𝑟𝑡 𝑁
3
PoS PRON ADV VERB DET NOUN
LEX other adv.all verb.
cognition
other noun.
communication
 ラベルがない場合も
マルチラベル予測
1. 2. 3. 4. 5.
10
Knowledge-based approach
UKB [9]: 文脈を考慮した Personalized PageRank (PPR)
𝒗 𝑡+1
= 1 − 𝛼 𝒗0
+ 𝛼𝑨𝒗 𝑡
PPR: 下記の式を繰り返すことで関連度を導出するアルゴリズム
𝛼 = 0.85, 𝑨: 全 synset 間の有向グラフ,
𝒗0: 文上の全単語 / 対象を除いた単語がもつ synset の値を 1 とするベクトル
coach fleet comprise ... seat
𝑐𝑜𝑎𝑐ℎ 𝑁
1
𝑐𝑜𝑎𝑐ℎ 𝑁
5
𝑐𝑜𝑎𝑐ℎ 𝑁
2
𝑡𝑢𝑡𝑜𝑟𝑖𝑎𝑙 𝑁
1𝑡𝑒𝑎𝑐ℎ𝑒𝑟 𝑁
1
𝑐𝑜𝑚𝑝𝑟𝑖𝑠𝑒 𝑉
1
𝑓𝑙𝑒𝑒𝑡 𝑁
2
𝑠𝑒𝑎𝑡 𝑁
1
𝑡𝑟𝑎𝑖𝑛𝑒𝑟 𝑁
1
ℎ𝑎𝑛𝑑𝑙𝑒 𝑛
8
𝑠𝑝𝑜𝑟𝑡 𝑁
1
 無向でも良い.実装上の問題?
1. 2. 3. 4. 5.
Pasini らによる手法 [10]
生コーパスに対して文ごとに意味の確率を導出し,分布を算出
11
Sense Distribution Learning (1)
P 𝑠 𝜎, 𝑤 =
P 𝑤1, … , 𝑤 𝑛 𝑠, 𝑤 P 𝑠 𝑤
P 𝑤1, … , 𝑤 𝑛 𝑤
≈ 𝑤′∈𝜎 max
𝑠∈𝑆
( 𝒗PPR 𝑠
, 𝑤′)
今回の比較対象: knowledge-base + distribution
 同一著者
まとめ方
 Entropy-based Distribution learning (EnDi)
 Domain-aware Distribution learning (DaD)
Sentence 𝒑𝒍𝒂𝒏𝒆 𝑵
𝟏
(aircraft)
𝒑𝒍𝒂𝒏𝒆 𝑵
𝟐
(geometry)
on the plane 0.92 0.08
special plane curves 0.10 0.90
… … …
𝒟 𝑝𝑙𝑎𝑛𝑒 0.60 0.40
※値は適当
𝑠: sense, 𝑤: target word, 𝜎 = {𝑤1, … , 𝑤 𝑛}: sentence  互いの意味が独立と仮定
単語ごとに分布 𝒟 𝑤𝑜𝑟𝑑 を算出
1. 2. 3. 4. 5.
12
Sense Distribution Learning (2)
Hauer らによる手法 [11]
COMP2SENSE
共起語と WordNet の synset 間距離による重みづけ
WCT-VEC
synset ごとにベクトルを導出.類似度の比較により MFS を導出
 strong baseline?
MFS 𝑤
= argmax 𝑠∈𝑆{𝜒1cos 𝒔 𝑤,𝑠, 𝒗 𝑤 + 𝜒2cos 𝒔 𝑤,𝑠, 𝒄 𝑤 + 𝜒3cos(𝒔 𝑤,𝑠, 𝒕 𝑤)}
𝜒𝑖: 非負のパラメータ,𝒗 𝑤: word vector,𝒄 𝑤: 共起語の平均ベクトル?
𝒔 𝑤,𝑠: WordNet から取得した類義語の平均ベクトル,𝒕 𝑤: 翻訳語のベクトル
精度は高くなく,メインの比較対象ではない
LexSemTM [12]
topic modeling である HCA を用いて分布を取得
 略称しかない?
1. 2. 3. 4. 5.
13
BERT の概要
Bidirectional Encoder Representations from Transformers (BERT)
𝑬0 𝑬1 𝑬2 𝑬3
構造・重みを再利用
pre-training
生(ラベルなし)のコーパスから
言語モデルを学習
fine-tuning
ラベルありのデータから
応用タスクを学習
𝑬1 𝑬2 𝑬3 𝑬4
 fine-tuning モデルのため,ラベルありのデータが少なくて良い
𝑬0 𝑬1 𝑬2 𝑬3
𝑬𝑖: 𝑖 番目の embedding
異なる属性の予測
e.g.) 文の区切り,名刺属性
1. 2. 3. 4. 5.
14
BERT の学習
1. マスクした単語の予測 ≈ 𝑐𝑙𝑜𝑧𝑒 テスト
𝑐𝑙𝑜𝑧𝑒 テスト マスクした単語の予測
the man _____ to the store the man [Mask] to the store
BERT はマスクした単語と文章の連続性の2つを学習
2. 文章の連続性の予測
A) The man went to [MASK] store.
B) He bought a gallon [MASK] milk.
 不要とも言われている
A と B の文は連続?
1. 2. 3. 4. 5.
15
提案手法の概要
生コーパスから単語がもつ意味の分布を獲得 & 多言語対応
𝐶:コーパス,𝑙: 見出し語,𝑀𝑙: 見出し語 𝑙 が持ち得る意味集合
1. Sentence Clustering
𝑔𝑙𝑎𝑠𝑠 を含む
文(∈ 𝐶)の集合
2. Clustering Disambiguation 3. Distribution Extraction
コーパス 𝐶 中の
意味の分布を獲得
𝑔𝑙𝑎𝑠𝑠 𝑁
1
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.4
0.68 𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.6𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.32
𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.48
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.52
𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠 𝑁
2
}
Cluster 1
… 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures.
.. walls are made out of 𝑔𝑙𝑎𝑠𝑠.
Cluster 2
He asked for a 𝑔𝑙𝑎𝑠𝑠 of water.
It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠.
1. クラスタを頻出語で表現
2. クラスタ内の分布の導出
 実際は,2つ以上の意味が存在
materialn
metaln
plasticn
winen
watern
drinkn
1. 2. 3. 4. 5.
16
Sentence Clustering
見出し語を含む文に対してベクトル表現を獲得し,クラスタリング
𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁
1
, 𝑔𝑙𝑎𝑠𝑠 𝑁
2
, . . }  BabelNet 上では,30個近い意味が存在
… 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures.
He asked for a 𝑔𝑙𝑎𝑠𝑠 of water.
.. walls are made out of 𝑔𝑙𝑎𝑠𝑠.
It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠.
1. コーパス 𝐶 から見出し語 𝑔𝑙𝑎𝑠𝑠 を含む文 𝑆 の抽出
2. BERT による文脈における単語の表現 𝒗 𝜎
𝑙 (𝜎 ∈ 𝑆) を獲得
3. 𝑘-means によるクラスタリング
 𝒗 𝜎
𝑙
= BERT(𝜎, 𝑙)
1. 文の抽出 2. 特徴空間への写像 3. クラスタリング
1. 2. 3. 4. 5.
17
Cluster Disambiguation
1. クラスタを頻出語の Bag of Words (BoW) で表現
2. PPR で得られた値 𝒗 𝑡+1 を正規化し,分布を取得
Cluster 1
… 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures.
.. walls are made out of 𝑔𝑙𝑎𝑠𝑠.
Cluster 2
He asked for a 𝑔𝑙𝑎𝑠𝑠 of water.
It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠.
ベクトル空間
頻出語(top-𝑛)
material, metal, …
water, wine, …
𝒗 𝑡+1 = 1 − 𝛼 𝒗0 + 𝛼𝑨𝒗 𝑡
PPR: 下記の式を繰り返すことで関連度を導出するアルゴリズム
𝛼 = 0.85, 𝑨: 全 synset 間の有向グラフ,
𝒗0: BoW 内の単語がもつ synset の値を 1 とするベクトル
 今回は正規化した頻度を値に使用?
1. 2. 3. 4. 5.
18
Distribution Extraction
クラスタごとの分布を統合し,コーパス 𝑪 中の意味の分布を獲得
𝑔𝑙𝑎𝑠𝑠 𝑁
1
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.4
0.68 𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.6
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.32
𝑔𝑙𝑎𝑠𝑠 𝑁
1
0.48
𝑔𝑙𝑎𝑠𝑠 𝑁
2
0.52
materialn
metaln
plasticn
winen
watern
drinkn
𝒅𝑙 =
𝑐∈𝒰 𝑙
|𝑐| 𝒅𝑙
𝑐
𝑐∈𝒰 𝑙
|𝑐|
𝒅𝑙: コーパス中の分布
𝒅𝑙: コーパス中の分布
𝒅𝑙
𝑐
: クラスタ中の分布
𝒅𝑙
𝑐
: クラスタ中の分布
𝒰𝑙: 獲得したクラスタ
𝒰𝑙: 獲得したクラスタ
 |𝑐|: クラスタサイズ(文章の数?)
1. 2. 3. 4. 5.
19
実験項目
内的評価および外的評価を通して,提案手法を検証
内的評価(Intrinsic Evaluation)
人手で作成した分布と提案手法による分布の類似度を測定
 Jensen-Shannon Divergence (JSD)
 Weighted Overlap (WO)
外的評価(Extrinsic Evaluation)
WSD のデータセットを用いて,精度や言語間での違いを検証
1. 2. 3. 4. 5.
20
実験のセットアップ
Synset について
BabelNet に含まれる synset すべてを使用
コーパス
Wikipedia (multilingual)
Clustering methods
𝑘-means
Clustering Disambiguation における各クラスタの単語数 𝒏
5
評価に使用した言語
English, Italian, Spanish, French and German
𝑘 の値は BabelNet における synset 数
重要なパラメータ: まで試して一番良いもの
1. 2. 3. 4. 5.
人手で作成した分布と提案手法による分布の類似度を測定
 Jensen-Shannon Divergence (JSD)
Kullback-Leibler (KL) divergence を使用
 Weighted Overlap (WO)
分布をソートした時の順序を用いて評価
21
内的評価:指標について
JSD 𝒅, 𝒅′
=
KL 𝒅, 𝑴 + KL 𝒅′, 𝑴
2
KL 𝒅, 𝒅′
=
𝑠
𝑑 𝑠 log(
𝑑 𝑠
𝑑 𝑠
′ ) 𝑑 𝑠: synset 𝑠 の確率
𝒅: 分布 𝑴 =
𝒅 + 𝒅′
2
WO 𝒅, 𝒅′
=
𝑖=1
|𝑂|
𝑟𝑖 + 𝑟𝑖
′ −1
2𝑖 −1
𝑂: 2つの分布に共通する要素
𝑟𝑖: 𝑖 番目の要素の順序
スコアが高いほど良い
スコアが低いほど良い
1. 2. 3. 4. 5.
22
内的評価:結果
Gold distribution [12] との分布の一致度を評価
Method Type JSD (↓) WO (↑)
CluBERT Knowledge? 0.085 0.958
DaD Knowledge 0.204 0.902
EnDi Knowledge 0.099 0.937
LexSemTM Topic model 0.116 0.932
WordNet MFS MFS 0.255 0.837
 エラーの大半は名詞属性の意味が不足していたことが原因
e.g.) 複合語,固有名詞
解決策:より多くの意味を事前に取得
逆に言うと,言語資源が備える意味の網羅率に精度が依存
どちらの指標でも高精度
1. 2. 3. 4. 5.
23
外的評価:評価データセット
WSD の評価に用いられる基本的なデータセットを使用
e.g.) SemEval-2013 [2], SemEval-2015 [13]
They bombed the Bogota offices last month, …
省庁,政府の行政単位office
1. 事務所
2. 省庁
3. 役割 文中の単語の意味を特定
概念階層上の意味
e.g.) BabelNet[2]
 SemEval-2013, SemEval-2015 は複数のドメイン・言語に対応
 古いバージョンの BabelNet を用いた時,SemEval-2013* と表記
1. 2. 3. 4. 5.
24
外的評価:評価対象
基本タスク: WSD における提案手法の有効性を検証
Downstream タスク
 English WSD
 Domain-Specific WSD
 Multilingual WSD
データ量: △ ∵ 2013年以前から存在
データ量: ×(約2,500/言語)
データ量: ×?
 No information
 CluBERT information / WordNet information
 UKB: 分布によって予測を補助
 BiLSTM: unseen なデータに対して分布に対する MFS
提案手法で取得した分布の有効性を検証
1. 2. 3. 4. 5.
25
外的評価:English WSD
WordNet の最頻出を選ぶ方法は高い精度
提案手法はいずれの手法も上回る結果となり,有用性を確認
Method Type
All Datasets
(F1-score)
CluBERT Knowledge? 70.6
DaD Knowledge 66.0
EnDi Knowledge 61.0
LexSemTM Topic model 49.0
WordNet MFS MFS 68.0
Method Type
All Datasets
(F1-score)
CluBERT Knowledge? 66.8
UMFS-WE Vector? 53.1
WCT-VEC Vector? 54.1
COMP2SENSE Knowledge 50.7
WordNet MFS MFS 65.0
※左右の内容が異なるようだが,わからなかった
 strong baseline
 左の表では,統計的に有意であることも確認
1. 2. 3. 4. 5.
26
外的評価:Domain-Specific WSD
9個中7個のドメインで既存手法を上回る結果(※)
SemEval-2013 (F1) SemEval-2015 (F1)
Method Type Biology Climate Sport Math … Social …
CluBERT Knowledge? 72.9 70.9 61.4 52.3 75.2
DaD Knowledge 79.0 63.0 54.0 59.8 54.3
EnDi Knowledge 71.0 53.0 57.0 63.0 55.9
LexSemTM Topic model 56.0 47.0 34.0 47.7 40.7
WordNet MFS MFS 61.0 59.0 56.0 47.2 62.4
※結果から一部抜粋
PPR の精度 ≈ BabelNet がもつネットワークの精度が原因?
悪かったドメイン: Biology, Math&Computer について
1. 2. 3. 4. 5.
27
外的評価:Multilingual WSD
すべての言語・データセットにおいて既存手法を凌駕
SemEval-2013* (F1) SemEval-2015* (F1)
Method Type IT ES DE FR IT ES
CluBERT Knowledge? 71.7 68.7 69.1 67.1 70.4 68.8
DaD Knowledge 62.9 58.9 65.5 54.3 61.0 58.0
EnDi Knowledge 46.2 44.6 49.1 54.3 55.0 52.0
BabelNet MFS MFS 52.3 55.6 49.3 55.1 52.0 53.0
多言語に対しての有用性を確認
当初の目的通り,データ量が不足しがちな言語に対しても高性能
 統計的にも有意
 BabelNet 単体での精度が低くても良い
1. 2. 3. 4. 5.
28
外的評価:Downstream タスク
提案手法は WordNet を用いた時と比べて少し良い結果
All Datasets (F1)
Method Type Precision Recall F1-score
UKB Knowledge 63.1 63.1 63.1
UKBWN Knowledge 67.1 67.1 67.1
UKBCluBERT Knowledge 67.7 67.7 67.7
BiLSTM Supervised 68.1 61.6 64.7
BiLSTMWN Supervised 69.6 69.6 69.6
BiLSTMCluBERT Supervised 69.9 69.9 69.9
WordNet と同じ情報を保持 & WordNet と異なり flexible
結果の解釈:汎用性の観点では良い
様々なコーパス・言語への対応が可能
1. 2. 3. 4. 5.
29
まとめ
【感想】 やはりコーパスやクラスタに関する検証がなかったことは
気になった.特に,コーパスとドメインの関係は重要に思える.
また,言語資源の問題は利用する側・される側,どちらの問題?
 今回の手法は情報の抽出という感じの印象
BERT + BabelNet による生コーパスからの分布獲得
課題:ラベル付きデータの不足 & 頻度の情報が古い
ラベル付きデータが不足しがちな多言語への対応を確認
生コーパスから WordNet と同等以上の分布・情報を獲得
 future work: コーパスやクラスタリングの検証・改善
1. 2. 3. 4. 5.
30
参考文献(1)
[2] Navigli, R., and Ponzetto, S. P.: “BabelNet: Building a very large
multilingual semantic network.”, ACL, pp. 216—225 (2010).
[3] Navigli, R., Jurgens, D., and Vannella, D.: “Semeval-2013 task 12:
Multilingual word sense disambiguation.”, SemEval, pp. 222—231
(2013).
[4] Devlin, J., Chang, M. W., Lee, K., and Toutanova, K.: “Bert: Pre-
training of deep bidirectional transformers for language
understanding.”, NAACL, Vol. 1, pp. 4171—4186 (2019).
[5] Miller, G.A.: “WordNet: A Lexical Database for English.”,
Communications of the ACM, Vol. 38, No. 11, pp. 39—41 (1995).
[6] Sutskever, I., Vinyals, O., and Le, Q. V.: “Sequence to sequence
learning with neural networks.”, NIPS, pp. 3104—3112 (2014).
1. 2. 3. 4. 5.
31
参考文献(2)
[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L.,
Gomez, A. N., Kaiser, Ł., and Polosukhin, I.: “Attention is all you
need.”, NIPS, pp. 5998—6008 (2017).
[8] Raganato, A., Bovi, C. D., and Navigli, R.: “Neural sequence
learning models for word sense disambiguation.”, EMNLP, pp.
1156—1167 (2017).
[9] Agirre, E., López de Lacalle, O., and Soroa, A.: “Random walks for
knowledge-based word sense disambiguation.”, Computational
Linguistics, Vol. 40, No. 1, pp. 57—84 (2014).
[10] Pasini, T., and Navigli, R.: “Two knowledge-based methods for
high-performance sense distribution learning.”, AAAI, pp. 5374—
5381 (2018).
1. 2. 3. 4. 5.
32
参考文献(3)
[11] Hauer, B., Luan, Y., and Kondrak, G.: “You Shall Know the Most
Frequent Sense by the Company it Keeps.”, IEEE ICSC, pp. 208—215
(2019).
[12] Bennett, A., Baldwin, T., Lau, J. H., McCarthy, D., and Bond, F.:
“Lexsemtm: A semantic dataset based on all-words unsupervised
sense distribution learning.”, ACL, Vol. 1, pp. 1513—1524 (2016).
[13] Moro, A., and Navigli, R.: “Semeval-2015 task 13: Multilingual
all-words sense disambiguation and entity linking.”, SemEval, pp.
288—297 (2015).

More Related Content

What's hot

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)Shirou Maruyama
 
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningTakuya Minagawa
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecShin Asakawa
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討Kosuke Futamata
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstmFujimoto Keisuke
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 

What's hot (20)

Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters  small language models are also few sho...[DL輪読会]It's not just size that maters  small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
Building High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised LearningBuilding High-level Features Using Large Scale Unsupervised Learning
Building High-level Features Using Large Scale Unsupervised Learning
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 

Similar to CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages

Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documentssakaizawa
 
Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章孝好 飯塚
 
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読poppyuri
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Shin Kanouchi
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)Yoichi Shirasawa
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
[DL Hacks] code_representation
[DL Hacks] code_representation[DL Hacks] code_representation
[DL Hacks] code_representationDeep Learning JP
 
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...広樹 本間
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...Yuki Tomo
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)YoheiOkuyama
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -
自然言語処理における深層学習を用いた予測の不確実性  - Predictive Uncertainty in NLP -自然言語処理における深層学習を用いた予測の不確実性  - Predictive Uncertainty in NLP -
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -tmtm otm
 

Similar to CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages (20)

Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
 
Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
[DL Hacks] code_representation
[DL Hacks] code_representation[DL Hacks] code_representation
[DL Hacks] code_representation
 
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -
自然言語処理における深層学習を用いた予測の不確実性  - Predictive Uncertainty in NLP -自然言語処理における深層学習を用いた予測の不確実性  - Predictive Uncertainty in NLP -
自然言語処理における深層学習を用いた予測の不確実性 - Predictive Uncertainty in NLP -
 

More from 禎晃 山崎

Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics禎晃 山崎
 
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...禎晃 山崎
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6禎晃 山崎
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2禎晃 山崎
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition禎晃 山崎
 

More from 禎晃 山崎 (6)

Dataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamicsDataset cartography mapping and diagnosing datasets with training dynamics
Dataset cartography mapping and diagnosing datasets with training dynamics
 
PRML_from5.1to5.3.1
PRML_from5.1to5.3.1PRML_from5.1to5.3.1
PRML_from5.1to5.3.1
 
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
Constructing dataset based_on_concept_hierarchy_for_evaluating_word_vectors_l...
 
PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6PRML 上 1.2.4 ~ 1.2.6
PRML 上 1.2.4 ~ 1.2.6
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition
 

CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages

  • 1. 1. 2. 3. 4. 5. CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages [1] 2020/07/21 1 [1] Pasini, T., Scozzafava, F., and Scarlini, B.: "CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages.“, ACL, pp. 4008-4018 (2020).
  • 2. 1. 2. 3. 4. 5. 2 論文情報 タイトル: CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages 著者: Pasini, T.1, Scozzafava, F.1, and Scarlini, B.1 1: Sapienza NLP Group, Department of Computer Science, Sapienza University of Rome 出典: ACL 2020 選定理由: clustering と BERT の組み合わせに興味があった BabelNet [2] の著者 Navigli, R. も同組織所属
  • 3. 1. 2. 3. 4. 5. 3 Abstract 【概要】 WSD において最頻出の意味 が重要であることに着目.BERT と概 念階層を組み合わせて,生コーパス から単語がもつ意味の分布を取得 【手法】 1. BERT による特徴空間への写像 2. 意味数に応じてクラスタリング 3. クラスタの統合と分布の取得 Method 内的評価 (JSD, ↓) 外的評価 (WSD-F1, ↑) CluBERT 0.085 70.6 DaD 0.204 66.0 EnDi 0.099 61.0 LexSemTM 0.116 49.0 WordNet MFS 0.255 68.0 【結果】 既存手法よりも高い精度をもつ 分布の獲得に成功.WSD のタスクに おいても既存手法超え 1-2. BERT + 𝑘-means 3. 分布の取得 コーパス  加えて,得られた分布を用いて既存手法に よる予測を行っても,WordNet と同等の効 果があることを確認
  • 4. 1. 2. 3. 4. 5. 4 背景 Word Sense Disambiguation (WSD,語義曖昧性解消)のタスク WSD の性能向上は機械翻訳など他タスクでの精度向上にも寄与 They bombed the Bogota offices last month, … 省庁,政府の行政単位 e.g.) SemEval-2013 task 12 [3] office 1. 事務所 2. 省庁 3. 役割 文中の単語の意味を特定 文の意味をより明らかに 概念階層上の意味 e.g.) BabelNet [2]
  • 5. 1. 2. 3. 4. 5. 5 WSD が抱える課題 知識ベースでも,正確/十分なネットワークを持たない語が存在 課題: ラベル付きデータの不足 = 教師あり学習が困難 最頻出な意味を選択することで,強いベースラインが作成可能 e.g.) SemEval-2013 task 12 [3] 打開策: Most Frequent Sense (MFS) の利用 課題: 頻度の取得に必要なデータの不足/情報が古い IT (Italian) ES (Spanish) FR (France) DE (German) インスタンス数 1490 1260 1449 1076
  • 6. 1. 2. 3. 4. 5. 6 目的  ラベル付きデータの不足 = 教師あり学習が困難  頻度の取得に必要なデータの不足/情報が古い 解決策: 生コーパスからの分布の取得 課題 類似した意味は類似した文脈で使われることに着目 BERT[4]:特徴空間への写像 + BabelNet:クラスタ数と分布の算出 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.4 𝑔𝑙𝑎𝑠𝑠 𝑁 1 0.6 𝑔𝑙𝑎𝑠𝑠 を含む 文(∈ 𝐶)の集合 クラスタリング  BERT , BabelNet, 𝑘-means 分布の取得  BabelNet, PageRank
  • 7. 1. 2. 3. 4. 5. 7 概念階層:WordNet[5] & BabelNet 概念の関係を階層的に記した言語資源.意味の分布も保持 概念階層上での記述方式: 𝑙𝑒𝑚𝑚𝑎 𝑃𝑎𝑟𝑡_𝑜𝑓_𝑆𝑝𝑝𝑒𝑐ℎ 𝑠𝑦𝑛𝑠𝑒𝑡_𝑛𝑢𝑚𝑏𝑒𝑟 𝑔𝑙𝑎𝑠𝑠 𝑁 2 : 容器 𝑔𝑙𝑎𝑠𝑠 𝑁 1 𝑠𝑜𝑙𝑖𝑑 𝑁 1 𝑔𝑙𝑎𝑠𝑠𝑤𝑎𝑟𝑒 𝑁 1 , 𝑔𝑙𝑎𝑠𝑠𝑤𝑜𝑟𝑘 𝑁 1 今回は多言語対応の BabelNet を使用 synset (a set of one/more synonyms) is-a is-a𝑔𝑙𝑎𝑠𝑠 𝑁 1 : 素材  solid は glass の上位語,glassware は glasswork の下位語
  • 8. 1. 2. 3. 4. 5. 8 時系列の深層学習モデル seq2seq [6] Recurrent Neural Network (RNN) によるエンコーダ・デコーダ Transformer [7] Attention 構造と全結合層によるエンコーダ・デコーダ エンコーダ デコーダ エンコーダ デコーダ 𝒉0 𝒉1 𝒉2 𝒉3 𝒉 𝑓𝑖𝑛𝑎𝑙 𝒉 : RNN の各 cell 𝒉𝑖: 𝑖 番目の隠れ層の状態 𝒉 𝑓𝑖𝑛𝑎𝑙: 2層の biRNN の結合 𝒉 = [𝒉0, 𝒉1, 𝒉2, 𝒉3] : Attention 構造  Attention による接続  Attention 構造後に順序毎に 独立の全結合層 𝒉0 𝒉1 𝒉2 𝒉3 𝒉  𝒉 として文単位の表現を,𝒉𝑖 として文脈における単語の表現を獲得可能
  • 9. 1. 2. 3. 4. 5. 9 Supervised approach BiLSTM を用いた教師あり学習手法 [8](以降,BiLSTM) 教師あり学習では類似の学習方法が多め BiLSTM Layer he later check the report Attention Layer Embedding Layer Fully-connected Layer Softmax WSD + PoS + LEX WSD he 𝑙𝑎𝑡𝑒𝑟𝑅 1 𝑐ℎ𝑒𝑐𝑘 𝑉 1 the 𝑟𝑒𝑝𝑜𝑟𝑡 𝑁 3 PoS PRON ADV VERB DET NOUN LEX other adv.all verb. cognition other noun. communication  ラベルがない場合も マルチラベル予測
  • 10. 1. 2. 3. 4. 5. 10 Knowledge-based approach UKB [9]: 文脈を考慮した Personalized PageRank (PPR) 𝒗 𝑡+1 = 1 − 𝛼 𝒗0 + 𝛼𝑨𝒗 𝑡 PPR: 下記の式を繰り返すことで関連度を導出するアルゴリズム 𝛼 = 0.85, 𝑨: 全 synset 間の有向グラフ, 𝒗0: 文上の全単語 / 対象を除いた単語がもつ synset の値を 1 とするベクトル coach fleet comprise ... seat 𝑐𝑜𝑎𝑐ℎ 𝑁 1 𝑐𝑜𝑎𝑐ℎ 𝑁 5 𝑐𝑜𝑎𝑐ℎ 𝑁 2 𝑡𝑢𝑡𝑜𝑟𝑖𝑎𝑙 𝑁 1𝑡𝑒𝑎𝑐ℎ𝑒𝑟 𝑁 1 𝑐𝑜𝑚𝑝𝑟𝑖𝑠𝑒 𝑉 1 𝑓𝑙𝑒𝑒𝑡 𝑁 2 𝑠𝑒𝑎𝑡 𝑁 1 𝑡𝑟𝑎𝑖𝑛𝑒𝑟 𝑁 1 ℎ𝑎𝑛𝑑𝑙𝑒 𝑛 8 𝑠𝑝𝑜𝑟𝑡 𝑁 1  無向でも良い.実装上の問題?
  • 11. 1. 2. 3. 4. 5. Pasini らによる手法 [10] 生コーパスに対して文ごとに意味の確率を導出し,分布を算出 11 Sense Distribution Learning (1) P 𝑠 𝜎, 𝑤 = P 𝑤1, … , 𝑤 𝑛 𝑠, 𝑤 P 𝑠 𝑤 P 𝑤1, … , 𝑤 𝑛 𝑤 ≈ 𝑤′∈𝜎 max 𝑠∈𝑆 ( 𝒗PPR 𝑠 , 𝑤′) 今回の比較対象: knowledge-base + distribution  同一著者 まとめ方  Entropy-based Distribution learning (EnDi)  Domain-aware Distribution learning (DaD) Sentence 𝒑𝒍𝒂𝒏𝒆 𝑵 𝟏 (aircraft) 𝒑𝒍𝒂𝒏𝒆 𝑵 𝟐 (geometry) on the plane 0.92 0.08 special plane curves 0.10 0.90 … … … 𝒟 𝑝𝑙𝑎𝑛𝑒 0.60 0.40 ※値は適当 𝑠: sense, 𝑤: target word, 𝜎 = {𝑤1, … , 𝑤 𝑛}: sentence  互いの意味が独立と仮定 単語ごとに分布 𝒟 𝑤𝑜𝑟𝑑 を算出
  • 12. 1. 2. 3. 4. 5. 12 Sense Distribution Learning (2) Hauer らによる手法 [11] COMP2SENSE 共起語と WordNet の synset 間距離による重みづけ WCT-VEC synset ごとにベクトルを導出.類似度の比較により MFS を導出  strong baseline? MFS 𝑤 = argmax 𝑠∈𝑆{𝜒1cos 𝒔 𝑤,𝑠, 𝒗 𝑤 + 𝜒2cos 𝒔 𝑤,𝑠, 𝒄 𝑤 + 𝜒3cos(𝒔 𝑤,𝑠, 𝒕 𝑤)} 𝜒𝑖: 非負のパラメータ,𝒗 𝑤: word vector,𝒄 𝑤: 共起語の平均ベクトル? 𝒔 𝑤,𝑠: WordNet から取得した類義語の平均ベクトル,𝒕 𝑤: 翻訳語のベクトル 精度は高くなく,メインの比較対象ではない LexSemTM [12] topic modeling である HCA を用いて分布を取得  略称しかない?
  • 13. 1. 2. 3. 4. 5. 13 BERT の概要 Bidirectional Encoder Representations from Transformers (BERT) 𝑬0 𝑬1 𝑬2 𝑬3 構造・重みを再利用 pre-training 生(ラベルなし)のコーパスから 言語モデルを学習 fine-tuning ラベルありのデータから 応用タスクを学習 𝑬1 𝑬2 𝑬3 𝑬4  fine-tuning モデルのため,ラベルありのデータが少なくて良い 𝑬0 𝑬1 𝑬2 𝑬3 𝑬𝑖: 𝑖 番目の embedding 異なる属性の予測 e.g.) 文の区切り,名刺属性
  • 14. 1. 2. 3. 4. 5. 14 BERT の学習 1. マスクした単語の予測 ≈ 𝑐𝑙𝑜𝑧𝑒 テスト 𝑐𝑙𝑜𝑧𝑒 テスト マスクした単語の予測 the man _____ to the store the man [Mask] to the store BERT はマスクした単語と文章の連続性の2つを学習 2. 文章の連続性の予測 A) The man went to [MASK] store. B) He bought a gallon [MASK] milk.  不要とも言われている A と B の文は連続?
  • 15. 1. 2. 3. 4. 5. 15 提案手法の概要 生コーパスから単語がもつ意味の分布を獲得 & 多言語対応 𝐶:コーパス,𝑙: 見出し語,𝑀𝑙: 見出し語 𝑙 が持ち得る意味集合 1. Sentence Clustering 𝑔𝑙𝑎𝑠𝑠 を含む 文(∈ 𝐶)の集合 2. Clustering Disambiguation 3. Distribution Extraction コーパス 𝐶 中の 意味の分布を獲得 𝑔𝑙𝑎𝑠𝑠 𝑁 1 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.4 0.68 𝑔𝑙𝑎𝑠𝑠 𝑁 1 0.6𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.32 𝑔𝑙𝑎𝑠𝑠 𝑁 1 0.48 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.52 𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁 1 , 𝑔𝑙𝑎𝑠𝑠 𝑁 2 } Cluster 1 … 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures. .. walls are made out of 𝑔𝑙𝑎𝑠𝑠. Cluster 2 He asked for a 𝑔𝑙𝑎𝑠𝑠 of water. It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠. 1. クラスタを頻出語で表現 2. クラスタ内の分布の導出  実際は,2つ以上の意味が存在 materialn metaln plasticn winen watern drinkn
  • 16. 1. 2. 3. 4. 5. 16 Sentence Clustering 見出し語を含む文に対してベクトル表現を獲得し,クラスタリング 𝑀𝑔𝑙𝑎𝑠𝑠 = {𝑔𝑙𝑎𝑠𝑠 𝑁 1 , 𝑔𝑙𝑎𝑠𝑠 𝑁 2 , . . }  BabelNet 上では,30個近い意味が存在 … 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures. He asked for a 𝑔𝑙𝑎𝑠𝑠 of water. .. walls are made out of 𝑔𝑙𝑎𝑠𝑠. It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠. 1. コーパス 𝐶 から見出し語 𝑔𝑙𝑎𝑠𝑠 を含む文 𝑆 の抽出 2. BERT による文脈における単語の表現 𝒗 𝜎 𝑙 (𝜎 ∈ 𝑆) を獲得 3. 𝑘-means によるクラスタリング  𝒗 𝜎 𝑙 = BERT(𝜎, 𝑙) 1. 文の抽出 2. 特徴空間への写像 3. クラスタリング
  • 17. 1. 2. 3. 4. 5. 17 Cluster Disambiguation 1. クラスタを頻出語の Bag of Words (BoW) で表現 2. PPR で得られた値 𝒗 𝑡+1 を正規化し,分布を取得 Cluster 1 … 𝑔𝑙𝑎𝑠𝑠 requires lower temperatures. .. walls are made out of 𝑔𝑙𝑎𝑠𝑠. Cluster 2 He asked for a 𝑔𝑙𝑎𝑠𝑠 of water. It is traditionally served in a 𝑔𝑙𝑎𝑠𝑠. ベクトル空間 頻出語(top-𝑛) material, metal, … water, wine, … 𝒗 𝑡+1 = 1 − 𝛼 𝒗0 + 𝛼𝑨𝒗 𝑡 PPR: 下記の式を繰り返すことで関連度を導出するアルゴリズム 𝛼 = 0.85, 𝑨: 全 synset 間の有向グラフ, 𝒗0: BoW 内の単語がもつ synset の値を 1 とするベクトル  今回は正規化した頻度を値に使用?
  • 18. 1. 2. 3. 4. 5. 18 Distribution Extraction クラスタごとの分布を統合し,コーパス 𝑪 中の意味の分布を獲得 𝑔𝑙𝑎𝑠𝑠 𝑁 1 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.4 0.68 𝑔𝑙𝑎𝑠𝑠 𝑁 1 0.6 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.32 𝑔𝑙𝑎𝑠𝑠 𝑁 1 0.48 𝑔𝑙𝑎𝑠𝑠 𝑁 2 0.52 materialn metaln plasticn winen watern drinkn 𝒅𝑙 = 𝑐∈𝒰 𝑙 |𝑐| 𝒅𝑙 𝑐 𝑐∈𝒰 𝑙 |𝑐| 𝒅𝑙: コーパス中の分布 𝒅𝑙: コーパス中の分布 𝒅𝑙 𝑐 : クラスタ中の分布 𝒅𝑙 𝑐 : クラスタ中の分布 𝒰𝑙: 獲得したクラスタ 𝒰𝑙: 獲得したクラスタ  |𝑐|: クラスタサイズ(文章の数?)
  • 19. 1. 2. 3. 4. 5. 19 実験項目 内的評価および外的評価を通して,提案手法を検証 内的評価(Intrinsic Evaluation) 人手で作成した分布と提案手法による分布の類似度を測定  Jensen-Shannon Divergence (JSD)  Weighted Overlap (WO) 外的評価(Extrinsic Evaluation) WSD のデータセットを用いて,精度や言語間での違いを検証
  • 20. 1. 2. 3. 4. 5. 20 実験のセットアップ Synset について BabelNet に含まれる synset すべてを使用 コーパス Wikipedia (multilingual) Clustering methods 𝑘-means Clustering Disambiguation における各クラスタの単語数 𝒏 5 評価に使用した言語 English, Italian, Spanish, French and German 𝑘 の値は BabelNet における synset 数 重要なパラメータ: まで試して一番良いもの
  • 21. 1. 2. 3. 4. 5. 人手で作成した分布と提案手法による分布の類似度を測定  Jensen-Shannon Divergence (JSD) Kullback-Leibler (KL) divergence を使用  Weighted Overlap (WO) 分布をソートした時の順序を用いて評価 21 内的評価:指標について JSD 𝒅, 𝒅′ = KL 𝒅, 𝑴 + KL 𝒅′, 𝑴 2 KL 𝒅, 𝒅′ = 𝑠 𝑑 𝑠 log( 𝑑 𝑠 𝑑 𝑠 ′ ) 𝑑 𝑠: synset 𝑠 の確率 𝒅: 分布 𝑴 = 𝒅 + 𝒅′ 2 WO 𝒅, 𝒅′ = 𝑖=1 |𝑂| 𝑟𝑖 + 𝑟𝑖 ′ −1 2𝑖 −1 𝑂: 2つの分布に共通する要素 𝑟𝑖: 𝑖 番目の要素の順序 スコアが高いほど良い スコアが低いほど良い
  • 22. 1. 2. 3. 4. 5. 22 内的評価:結果 Gold distribution [12] との分布の一致度を評価 Method Type JSD (↓) WO (↑) CluBERT Knowledge? 0.085 0.958 DaD Knowledge 0.204 0.902 EnDi Knowledge 0.099 0.937 LexSemTM Topic model 0.116 0.932 WordNet MFS MFS 0.255 0.837  エラーの大半は名詞属性の意味が不足していたことが原因 e.g.) 複合語,固有名詞 解決策:より多くの意味を事前に取得 逆に言うと,言語資源が備える意味の網羅率に精度が依存 どちらの指標でも高精度
  • 23. 1. 2. 3. 4. 5. 23 外的評価:評価データセット WSD の評価に用いられる基本的なデータセットを使用 e.g.) SemEval-2013 [2], SemEval-2015 [13] They bombed the Bogota offices last month, … 省庁,政府の行政単位office 1. 事務所 2. 省庁 3. 役割 文中の単語の意味を特定 概念階層上の意味 e.g.) BabelNet[2]  SemEval-2013, SemEval-2015 は複数のドメイン・言語に対応  古いバージョンの BabelNet を用いた時,SemEval-2013* と表記
  • 24. 1. 2. 3. 4. 5. 24 外的評価:評価対象 基本タスク: WSD における提案手法の有効性を検証 Downstream タスク  English WSD  Domain-Specific WSD  Multilingual WSD データ量: △ ∵ 2013年以前から存在 データ量: ×(約2,500/言語) データ量: ×?  No information  CluBERT information / WordNet information  UKB: 分布によって予測を補助  BiLSTM: unseen なデータに対して分布に対する MFS 提案手法で取得した分布の有効性を検証
  • 25. 1. 2. 3. 4. 5. 25 外的評価:English WSD WordNet の最頻出を選ぶ方法は高い精度 提案手法はいずれの手法も上回る結果となり,有用性を確認 Method Type All Datasets (F1-score) CluBERT Knowledge? 70.6 DaD Knowledge 66.0 EnDi Knowledge 61.0 LexSemTM Topic model 49.0 WordNet MFS MFS 68.0 Method Type All Datasets (F1-score) CluBERT Knowledge? 66.8 UMFS-WE Vector? 53.1 WCT-VEC Vector? 54.1 COMP2SENSE Knowledge 50.7 WordNet MFS MFS 65.0 ※左右の内容が異なるようだが,わからなかった  strong baseline  左の表では,統計的に有意であることも確認
  • 26. 1. 2. 3. 4. 5. 26 外的評価:Domain-Specific WSD 9個中7個のドメインで既存手法を上回る結果(※) SemEval-2013 (F1) SemEval-2015 (F1) Method Type Biology Climate Sport Math … Social … CluBERT Knowledge? 72.9 70.9 61.4 52.3 75.2 DaD Knowledge 79.0 63.0 54.0 59.8 54.3 EnDi Knowledge 71.0 53.0 57.0 63.0 55.9 LexSemTM Topic model 56.0 47.0 34.0 47.7 40.7 WordNet MFS MFS 61.0 59.0 56.0 47.2 62.4 ※結果から一部抜粋 PPR の精度 ≈ BabelNet がもつネットワークの精度が原因? 悪かったドメイン: Biology, Math&Computer について
  • 27. 1. 2. 3. 4. 5. 27 外的評価:Multilingual WSD すべての言語・データセットにおいて既存手法を凌駕 SemEval-2013* (F1) SemEval-2015* (F1) Method Type IT ES DE FR IT ES CluBERT Knowledge? 71.7 68.7 69.1 67.1 70.4 68.8 DaD Knowledge 62.9 58.9 65.5 54.3 61.0 58.0 EnDi Knowledge 46.2 44.6 49.1 54.3 55.0 52.0 BabelNet MFS MFS 52.3 55.6 49.3 55.1 52.0 53.0 多言語に対しての有用性を確認 当初の目的通り,データ量が不足しがちな言語に対しても高性能  統計的にも有意  BabelNet 単体での精度が低くても良い
  • 28. 1. 2. 3. 4. 5. 28 外的評価:Downstream タスク 提案手法は WordNet を用いた時と比べて少し良い結果 All Datasets (F1) Method Type Precision Recall F1-score UKB Knowledge 63.1 63.1 63.1 UKBWN Knowledge 67.1 67.1 67.1 UKBCluBERT Knowledge 67.7 67.7 67.7 BiLSTM Supervised 68.1 61.6 64.7 BiLSTMWN Supervised 69.6 69.6 69.6 BiLSTMCluBERT Supervised 69.9 69.9 69.9 WordNet と同じ情報を保持 & WordNet と異なり flexible 結果の解釈:汎用性の観点では良い 様々なコーパス・言語への対応が可能
  • 29. 1. 2. 3. 4. 5. 29 まとめ 【感想】 やはりコーパスやクラスタに関する検証がなかったことは 気になった.特に,コーパスとドメインの関係は重要に思える. また,言語資源の問題は利用する側・される側,どちらの問題?  今回の手法は情報の抽出という感じの印象 BERT + BabelNet による生コーパスからの分布獲得 課題:ラベル付きデータの不足 & 頻度の情報が古い ラベル付きデータが不足しがちな多言語への対応を確認 生コーパスから WordNet と同等以上の分布・情報を獲得  future work: コーパスやクラスタリングの検証・改善
  • 30. 1. 2. 3. 4. 5. 30 参考文献(1) [2] Navigli, R., and Ponzetto, S. P.: “BabelNet: Building a very large multilingual semantic network.”, ACL, pp. 216—225 (2010). [3] Navigli, R., Jurgens, D., and Vannella, D.: “Semeval-2013 task 12: Multilingual word sense disambiguation.”, SemEval, pp. 222—231 (2013). [4] Devlin, J., Chang, M. W., Lee, K., and Toutanova, K.: “Bert: Pre- training of deep bidirectional transformers for language understanding.”, NAACL, Vol. 1, pp. 4171—4186 (2019). [5] Miller, G.A.: “WordNet: A Lexical Database for English.”, Communications of the ACM, Vol. 38, No. 11, pp. 39—41 (1995). [6] Sutskever, I., Vinyals, O., and Le, Q. V.: “Sequence to sequence learning with neural networks.”, NIPS, pp. 3104—3112 (2014).
  • 31. 1. 2. 3. 4. 5. 31 参考文献(2) [7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I.: “Attention is all you need.”, NIPS, pp. 5998—6008 (2017). [8] Raganato, A., Bovi, C. D., and Navigli, R.: “Neural sequence learning models for word sense disambiguation.”, EMNLP, pp. 1156—1167 (2017). [9] Agirre, E., López de Lacalle, O., and Soroa, A.: “Random walks for knowledge-based word sense disambiguation.”, Computational Linguistics, Vol. 40, No. 1, pp. 57—84 (2014). [10] Pasini, T., and Navigli, R.: “Two knowledge-based methods for high-performance sense distribution learning.”, AAAI, pp. 5374— 5381 (2018).
  • 32. 1. 2. 3. 4. 5. 32 参考文献(3) [11] Hauer, B., Luan, Y., and Kondrak, G.: “You Shall Know the Most Frequent Sense by the Company it Keeps.”, IEEE ICSC, pp. 208—215 (2019). [12] Bennett, A., Baldwin, T., Lau, J. H., McCarthy, D., and Bond, F.: “Lexsemtm: A semantic dataset based on all-words unsupervised sense distribution learning.”, ACL, Vol. 1, pp. 1513—1524 (2016). [13] Moro, A., and Navigli, R.: “Semeval-2015 task 13: Multilingual all-words sense disambiguation and entity linking.”, SemEval, pp. 288—297 (2015).