【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)

http://deeplearning.jp/
SimCSE: Simple Contrastive Learning of
Sentence Embeddings (EMNLP 2021)
山本貴之（ヤフー株式会社）
DEEP LEARNING JP
[DL Papers]
1

書誌情報
SimCSE: Simple Contrastive Learning of Sentence Embeddings
https://arxiv.org/abs/2104.08821
タイトル：
著者： Tianyu Gao†* , Xingcheng Yao‡*, Danqi Chen †
† プリンストン大学コンピュータサイエンス学科
‡ 清華大学学際情報科学研究所
• BERTで文章の意味合いをより正しく埋め込み表現する、対照学習手法
• 教師なし、教師ありの2つの手法で両方ともSOTA
概要：
2
選定理由：手法がシンプルな為、応用範囲の期待による
(Accepted to EMNLP 2021)
公式実装： https://github.com/princeton-nlp/SimCSE

アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3

１. 導入
4
• 普遍的な文の意味合いのEmbeddingベクトルを学習する事は自然言語処理の基本的な問題
(Kiros et al., 2015; Hill et al., 2016; Conneau et al., 2017; Logeswaran and Lee, 2018; Cer et al., 2018; Reimers
and Gurevych, 2019, inter alia)
• STS（意味合い観点の類似文の評価手法）で評価し、SOTA（教師なしは+4.2%、教師ありは+2.2%）
• 理由は主に埋め込み空間の異方性を等方的に調整できた事による
• 事前学習済BERTやRoBERTaを用い、次のような、シンプルな対照学習手法を提案
• 教師なし：BERTに同じ文章を2回投入し、Dropoutによる２つの類似ベクトルを正例ペアとする
• 教師あり：NLI自然言語推論データセット使用し、”含意”と”矛盾”データを活用する
背景
手法
結果

5
対照学習のフレームワークとして参考にしている
1. 画像ベースの手法
2. 教師なしでも、教師ありに匹敵する性能
3. その為には、パラメータ数を増やし、大きなバッチサイズ
とより多くの学習ステップが必要
出典：https://arxiv.org/abs/2002.05709
２. 先行研究① SimCLR
ResNet-50
ImagetNet Top-1 Accuracy

6
1枚の画像から正例ペアを生成→softmax的損失関数(NT-Xent)で正例ペアを1に、負例ペアを0に近づける
出典： https://arxiv.org/abs/2002.05709
https://ai.googleblog.com/2020/04/advancing-self-supervised-and-semi.html
２. 先行研究① SimCLR
エンコーダー
プロジェクションヘッド
※sim：コサイン類似度
■損失関数
この損失関数をNT-Xentと呼ぶ
(=Normalized Temperature-scaled CROSS entropy)
温度付きソフトマックス
に類似した式構造
ミニバッチ
元画像数N
*
*
*
正例のソフトマックスを
１に近づけるよう学習

8
• 従来のSOTA論文
• 文章のEmbeddingベクトルの表現学習をBERTを用い教師なしで行う（教師ありも実施）
• モデル２つが独立してるのが特徴的
• ドット積を大きくor小さくする対照学習。（ベクトル間の角度を調整する思想と考えられる）
出典： https://openreview.net/pdf?id=Ov_sMNau-PF
２. 先行研究② CT-BERT （CONTRASTIVE TENSION）

9
• BERTは元々出力層に近づくにつれ、分の意味合いを正しく表現できていない
• CT-BERTで学習を進めると、出力層に近い層が、分の意味合いを正しく表現できるようになっていく
出典：図：https://openreview.net/pdf?id=Ov_sMNau-PF
STS score ：https://arxiv.org/abs/1708.00055
２. 先行研究② CT-BERT （CONTRASTIVE TENSION）
文の意味の類似性を
表現できているかのスコア
BERTの層（左が入力層、右が出力層）

３. 本研究の手法
学習方法（概要）
10
学習データ
教師なし：英語版Wikipediaから100万文をサンプリング
教師あり：SNLIおよびMNLIデータセットを使用
モデル構造
プレトレーニング済 BERT、もしくは、RoBERTa
エンコーダー(BERT)出力に、プロジェクションヘッド(１層MLP)を追加
損失関数
Normalized Temperature-scaled CROSS entropy loss（NT-Xent）
温度付きsoftmax CrossEntropyLoss

３. 手法教師なし
教師なし手法の学習手法
11
1
2
1. 左図の各文章をBERTに2回入力し、Dropoutの影響で微
妙に異なる２つのベクトルを正例とする。すなわち下式のxiと
xi+の２つの正例ベクトルのペアがミニバッチ分が出来上がる
2. ミニバッチ内の他の文章のベクトルを負例とする
3. NT-Xent lossで正例を1に近づけ、負例は0に近づける
正例
負例
負例
負例
正例

３. 手法損失関数（先行研究との比較）
当研究の損失関数（教師なし）
12
参考：温度付きsoftmax
先行研究① SimCLR 損失関数
iとjは元同一画像
iと(i以外のk)は違う画像
当図はN=2
ミニバッチの考え方が異なる
N×２が横に並んでいるイメージ
正例ペア
softmaxの分母
正例・負例の全組合せ
Dropoutマスク
softmax部が1になった時
損失 -log(・)は0になる
N：ミニバッチ組数
：温度パラメータ
sim：コサイン類似度
h：文章ベクトル
温度

３. 手法損失関数の、cos類似度とsoftmax値の関係温度0.05時
14
出典：山本作成
正例ペア
負例ペア①
負例ペア②
正例ペア
負例ペア①
負例ペア②
学習の進行時間軸のイメージ
=0.05
softmaxの温度とSTSスコアの関係
1. 温度を慎重に調整した結果、 =0.05が単なるdot積(下表N/A）
より優れた結果となった為、この設定を用いている
2. この時、cos類似度と、softmax値の関係は左図のようになる

３. 手法損失関数の実装
15
### 損失関数関連のみ行単位で抜粋
### ハードネガティブは省略
class Similarity(nn.Module):
def forward(self, x, y):
return self.cos(x, y) / self.temp
def cl_init(cls, config):
cls.sim = Similarity(temp=cls.model_args.temp)
def cl_forward(cls,～略～)
cos_sim = cls.sim(z1.unsqueeze(1), z2.unsqueeze(0))
labels = torch.arange(cos_sim.size(0)).long().to(cls.device)
loss_fct = nn.CrossEntropyLoss()
loss = loss_fct(cos_sim, labels)
出典： https://github.com/princeton-nlp/SimCSE
温度付きcos類似度
BERTモデルclassのforward部
cos_sim.shape=[BATCH_SIZE, BATCH_SIZE]
pytorchのCrossEntropyLossを
loss関数として使うだけ
1. pytorchのCrossEntropyLoss関数は、softmaxが内包さ
れている
2. その関数に温度付きcos類似度と、を、投入するだけで、本論
分の損失関数が実現
z1,z2がDropoutで少々異なる
ミニバッチデータ群
出典：https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html
PyTorch公式リファレンス
引数のlabels部はインデックス箇所が1
のone-hotベクトルが生成される
labels=[0,1,2,...BATCH_SIZE-1]
正例ぺアのsoftmaxを1に他を0に
近づけるようなloss関数となる
labels
温度付きcos_sim

３. 手法教師あり
教師あり手法の学習手法
16
1. NLI自然言語推論データセットを用いる
2. entailment (含意)を正例とする
3. neutral (中立)は使わない
4. バッチ内の他文章は負例
5. さらに、contradiction (矛盾)をハードネガ
ティブ負例として使う事でさらに性能が向上
6. 上記を反映してデータセットを再定義
ハードネガティブ負例をxi-として追加
7. 損失関数を下記とする
contradictionを使った
ハードネガティブ項が追加
contradiction文章の
ハードネガティブ負例追加

３. 手法モデル構造
17
出典： https://arxiv.org/pdf/1810.04805.pdf
MLP
教師なしのテスト時のみ
MLP層は使わず
[CLS]出力を直接使用
文章意味合い
ベクトル
class MLPLayer(nn.Module):
def __init__(self, config):
super().__init__()
self.dense = nn.Linear(config.hidden_size, config.hidden_size)
self.activation = nn.Tanh()
def forward(self, features, **kwargs):
x = self.dense(features)
x = self.activation(x)
return x
1層MLP
出典： https://github.com/princeton-nlp/SimCSE

学習設定
18
４. 実験
バッチサイズは｛64,128,256,512｝、
学習率は｛1e-5,3e-5,5e-5｝のグリッドサーチで決定
SimCSEのバッチサイズと学習率
• simCSEはバッチサイズに敏感ではないことが分かった
これは「対照学習には大きなバッチサイズが必要である」という先行研究の知見と矛盾している
項目教師なし教師あり
トレーニング
データ
英語版Wikipediaから
100万文をサンプリング
NLI
max seq
length
32 32
エポック数 1 3
その他の学習設定
学習時間
GPU：P100×1
3時間12分
※学習時間は山本が公式実装を実行したもの
※教師ありのバッチサイズ512は、公式実装ではGPU4個×各GPUバッチ128としている。GPU1個で512バッチで動かすとGPUメモリ不足の為学習時間計測できず

教師なし：従来手法との比較（augmentation手法）
19
４. 実験
旧方式の、文章の一部の単語を削除する事で正例ペアを作る方式などより、本研究の手法が良い
STS-Bにおけるaugmentation比較
（スピアマンの相関）
同義語置換
単語の削除

教師なし：Dropout率による性能変化
20
４. 実験
BERTデフォルトのp=0.1が最も良い結果
“Fixed 0.1”（＝両方同じDropoutマスク）の性能低下が顕著 → 本論文の手法の正例の効果が高い
STS-Bにおけるドロップアウト率別の効果
（スピアマンの相関）
※”Fixed 0.1”：p=0.1だが、両方全く同じDropoutマスク

教師なし：ベクトル空間のアラインメントとユニフォームから、SimCSE高性能の理由を説明
21
４. 実験
異方性のあるベクトル空間形状(uniform)が、等方的に良くなっていく中で、アラインメントが悪化しない
※10学習ステップ毎にプロット
ベクトル空間のアラインメントとユニフォーム
(左下がgood）

高精度の理由を異方性の観点から
22
４. 実験
提案手法は、ベクトル上のアラインメントと、ベクトル形状のユニフォームのバランスが良い
BERT-flow法による
等方的ガウス分布変換
Sentence-BERT, 2019
BERT-whitening法による
等方性向上
色は
STSスコア

教師あり：ハードネガティブの効果
23
４. 実験
バッチ内他を負例にする事に加え、”矛盾”をハードネガティブに加える事で精度向上
entailment (含意)のみ利用と、各手法の比較
およびcontradiction (矛盾)ハードネガティブ利用の効果
entailment (含意)を正例、バッチ内他を負例
contradiction (矛盾)ハードネガティブも利用

教師あり：ハードネガティブの強さを調整した結果、α＝1.0が最も好精度
24
４. 実験
α＝１の場合が最も性能が高い
ハードネガティブの強さを加味した損失関数
※ ： i=jの時のみ１になる
最適なαの検討

25
４. 実験結果まとめ
教師なし：BERT：SOTA
教師なし：RoBERTa：SOTA
教師あり：BERT：SOTA
教師あり：RoBERTa：SOTA
+4.2%
+2.2%

５. まとめ
結論
• シンプルな対照学習フレームワークを提案
• 意味の類似性タスク(STS)でSOTA
• 教師なしは、Dropoutノイズで正例ペアを生成、バッチ内他を負例
• 教師ありは、NLIデータセットを活用。バッチ内他を負例。加えて、NLI”矛盾”をハードネガティブにし精度向上
• ベクトルのアラインメントと、形状ユニフォームの2軸の観点から理由を説明
26
感想
• 非常にシンプルな手法なので、考え方の応用範囲が広そう
• BERTプレトレーニング → SimCSE的な教師なし意味合い学習 → ファインチューニングで、よりタスクの精度が上がる？
• ビジネス応用の際、自然言語処理以外でも使えそう。かつ、
教師なしの、量多め、深さ浅めのデータで表現学習空間を整え → 少量のより深いデータでファインチューニングする事で
ビジネスに関わる様々な事の表現学習に使えないか興味あり

【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)