Submit Search
Upload
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
•
Download as PPTX, PDF
•
1 like
•
4,089 views
Deep Learning JP
Follow
2021/12/03 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 24
Download now
Recommended
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Recommended
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
BERT入門
BERT入門
Ken'ichi Matsui
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
More Related Content
What's hot
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
BERT入門
BERT入門
Ken'ichi Matsui
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
What's hot
(20)
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
不均衡データのクラス分類
不均衡データのクラス分類
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
BERT入門
BERT入門
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Active Learning 入門
Active Learning 入門
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
モデル高速化百選
モデル高速化百選
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
Recently uploaded
(9)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
1.
http://deeplearning.jp/ SimCSE: Simple Contrastive
Learning of Sentence Embeddings (EMNLP 2021) 山本 貴之 (ヤフー株式会社) DEEP LEARNING JP [DL Papers] 1
2.
書誌情報 SimCSE: Simple Contrastive
Learning of Sentence Embeddings https://arxiv.org/abs/2104.08821 タイトル: 著者: Tianyu Gao†* , Xingcheng Yao‡*, Danqi Chen † † プリンストン大学 コンピュータサイエンス学科 ‡ 清華大学 学際情報科学研究所 • BERTで文章の意味合いをより正しく埋め込み表現する、対照学習手法 • 教師なし、教師ありの2つの手法で両方ともSOTA 概要: 2 選定理由: 手法がシンプルな為、応用範囲の期待による (Accepted to EMNLP 2021) 公式実装: https://github.com/princeton-nlp/SimCSE
3.
アジェンダ 1. 導入 2. 先行研究 3.
手法 4. 実験 5. まとめ 3
4.
1. 導入 4 • 普遍的な文の意味合いのEmbeddingベクトルを学習する事は自然言語処理の基本的な問題 (Kiros
et al., 2015; Hill et al., 2016; Conneau et al., 2017; Logeswaran and Lee, 2018; Cer et al., 2018; Reimers and Gurevych, 2019, inter alia) • STS(意味合い観点の類似文の評価手法)で評価し、SOTA(教師なしは+4.2%、教師ありは+2.2%) • 理由は主に埋め込み空間の異方性を等方的に調整できた事による • 事前学習済BERTやRoBERTaを用い、次のような、シンプルな対照学習手法を提案 • 教師なし:BERTに同じ文章を2回投入し、Dropoutによる2つの類似ベクトルを正例ペアとする • 教師あり:NLI自然言語推論データセット使用し、”含意”と”矛盾”データを活用する 背景 手法 結果
5.
5 対照学習のフレームワークとして参考にしている 1. 画像ベースの手法 2. 教師なしでも、教師ありに匹敵する性能 3.
その為には、パラメータ数を増やし、大きなバッチサイズ とより多くの学習ステップが必要 出典:https://arxiv.org/abs/2002.05709 2. 先行研究① SimCLR ResNet-50 ImagetNet Top-1 Accuracy
6.
6 1枚の画像から正例ペアを生成→softmax的損失関数(NT-Xent)で正例ペアを1に、負例ペアを0に近づける 出典: https://arxiv.org/abs/2002.05709 https://ai.googleblog.com/2020/04/advancing-self-supervised-and-semi.html 2. 先行研究①
SimCLR エンコーダー プロジェクションヘッド ※sim:コサイン類似度 ■損失関数 この損失関数をNT-Xentと呼ぶ (=Normalized Temperature-scaled CROSS entropy) 温度付きソフトマックス に類似した式構造 ミニバッチ 元画像数N * * * 正例のソフトマックスを 1に近づけるよう学習
7.
8 • 従来のSOTA論文 • 文章のEmbeddingベクトルの表現学習をBERTを用い教師なしで行う(教師ありも実施) •
モデル2つが独立してるのが特徴的 • ドット積を大きくor小さくする対照学習。(ベクトル間の角度を調整する思想と考えられる) 出典: https://openreview.net/pdf?id=Ov_sMNau-PF 2. 先行研究② CT-BERT (CONTRASTIVE TENSION)
8.
9 • BERTは元々出力層に近づくにつれ、分の意味合いを正しく表現できていない • CT-BERTで学習を進めると、出力層に近い層が、分の意味合いを正しく表現できるようになっていく 出典:
図 :https://openreview.net/pdf?id=Ov_sMNau-PF STS score :https://arxiv.org/abs/1708.00055 2. 先行研究② CT-BERT (CONTRASTIVE TENSION) 文の意味の類似性を 表現できているかのスコア BERTの層(左が入力層、右が出力層)
9.
3. 本研究の手法 学習方法(概要) 10 学習データ 教師なし:英語版Wikipediaから100万文をサンプリング 教師あり:SNLIおよびMNLIデータセットを使用 モデル構造 プレトレーニング済 BERT、もしくは、RoBERTa エンコーダー(BERT)出力に、プロジェクションヘッド(1層MLP)を追加 損失関数 Normalized
Temperature-scaled CROSS entropy loss(NT-Xent) 温度付きsoftmax CrossEntropyLoss
10.
3. 手法 教師なし 教師なし手法の学習手法 11 1 2 1.
左図の各文章をBERTに2回入力し、Dropoutの影響で微 妙に異なる2つのベクトルを正例とする。すなわち下式のxiと xi+の2つの正例ベクトルのペアがミニバッチ分が出来上がる 2. ミニバッチ内の他の文章のベクトルを負例とする 3. NT-Xent lossで正例を1に近づけ、負例は0に近づける 出典:https://arxiv.org/abs/2104.08821 正例 負例 負例 負例 正例
11.
3. 手法 損失関数
(先行研究との比較) 当研究の損失関数(教師なし) 12 参考:温度付きsoftmax 先行研究① SimCLR 損失関数 iとjは元同一画像 iと(i以外のk)は違う画像 当図はN=2 ミニバッチの考え方が異なる N×2が横に並んでいるイメージ 正例ペア softmaxの分母 正例・負例の全組合せ Dropoutマスク softmax部が1になった時 損失 -log(・)は0になる N:ミニバッチ組数 :温度パラメータ sim:コサイン類似度 h:文章ベクトル 温度
12.
3. 手法 損失関数の、cos類似度とsoftmax値の関係
温度0.05時 14 出典: 山本作成 正例ペア 負例ペア① 負例ペア② 正例ペア 負例ペア① 負例ペア② 学習の進行時間軸のイメージ =0.05 softmaxの温度とSTSスコアの関係 1. 温度 を慎重に調整した結果、 =0.05が単なるdot積(下表N/A) より優れた結果となった為、この設定を用いている 2. この時、cos類似度と、softmax値の関係は左図のようになる
13.
3. 手法 損失関数の実装 15 ###
損失関数関連のみ行単位で抜粋 ### ハードネガティブは省略 class Similarity(nn.Module): def forward(self, x, y): return self.cos(x, y) / self.temp def cl_init(cls, config): cls.sim = Similarity(temp=cls.model_args.temp) def cl_forward(cls,~略~) cos_sim = cls.sim(z1.unsqueeze(1), z2.unsqueeze(0)) labels = torch.arange(cos_sim.size(0)).long().to(cls.device) loss_fct = nn.CrossEntropyLoss() loss = loss_fct(cos_sim, labels) 出典: https://github.com/princeton-nlp/SimCSE 温度付きcos類似度 BERTモデルclassのforward部 cos_sim.shape=[BATCH_SIZE, BATCH_SIZE] pytorchのCrossEntropyLossを loss関数として使うだけ 1. pytorchのCrossEntropyLoss関数は、softmaxが内包さ れている 2. その関数に温度付きcos類似度と、を、投入するだけで、本論 分の損失関数が実現 z1,z2がDropoutで少々異なる ミニバッチデータ群 出典:https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html PyTorch公式リファレンス 引数のlabels部はインデックス箇所が1 のone-hotベクトルが生成される labels=[0,1,2,...BATCH_SIZE-1] 正例ぺアのsoftmaxを1に他を0に 近づけるようなloss関数となる labels 温度付きcos_sim
14.
3. 手法 教師あり 教師あり手法の学習手法 16 1.
NLI自然言語推論データセットを用いる 2. entailment (含意)を正例とする 3. neutral (中立)は使わない 4. バッチ内の他文章は負例 5. さらに、contradiction (矛盾)をハードネガ ティブ負例として使う事でさらに性能が向上 6. 上記を反映してデータセットを再定義 ハードネガティブ負例をxi-として追加 7. 損失関数を下記とする contradictionを使った ハードネガティブ項が追加 contradiction文章の ハードネガティブ負例追加 出典:https://arxiv.org/abs/2104.08821
15.
3. 手法 モデル構造 17 出典:
https://arxiv.org/pdf/1810.04805.pdf MLP 教師なしのテスト時のみ MLP層は使わず [CLS]出力を直接使用 文章意味合い ベクトル class MLPLayer(nn.Module): def __init__(self, config): super().__init__() self.dense = nn.Linear(config.hidden_size, config.hidden_size) self.activation = nn.Tanh() def forward(self, features, **kwargs): x = self.dense(features) x = self.activation(x) return x 1層MLP 出典: https://github.com/princeton-nlp/SimCSE
16.
学習設定 18 4. 実験 バッチサイズは{64,128,256,512}、 学習率は{1e-5,3e-5,5e-5}のグリッドサーチで決定 SimCSEのバッチサイズと学習率 • simCSEはバッチサイズに敏感ではないことが分かった これは「対照学習には大きなバッチサイズが必要である」という先行研究の知見と矛盾している 項目
教師なし 教師あり トレーニング データ 英語版Wikipediaから 100万文をサンプリング NLI max seq length 32 32 エポック数 1 3 その他の学習設定 学習時間 GPU:P100×1 3時間12分 ※学習時間は山本が公式実装を実行したもの ※教師ありのバッチサイズ512は、公式実装ではGPU4個×各GPUバッチ128としている。GPU1個で512バッチで動かすとGPUメモリ不足の為学習時間計測できず 出典:https://arxiv.org/abs/2104.08821
17.
教師なし:従来手法との比較(augmentation手法) 19 4. 実験 旧方式の、文章の一部の単語を削除する事で正例ペアを作る方式などより、本研究の手法が良い STS-Bにおけるaugmentation比較 (スピアマンの相関) 同義語置換 単語の削除 出典:https://arxiv.org/abs/2104.08821
18.
教師なし:Dropout率による性能変化 20 4. 実験 BERTデフォルトのp=0.1が最も良い結果 “Fixed 0.1”(=両方同じDropoutマスク)の性能低下が顕著
→ 本論文の手法の正例の効果が高い STS-Bにおけるドロップアウト率別の効果 (スピアマンの相関) ※”Fixed 0.1”:p=0.1だが、両方全く同じDropoutマスク 出典:https://arxiv.org/abs/2104.08821
19.
教師なし:ベクトル空間のアラインメントとユニフォームから、SimCSE高性能の理由を説明 21 4. 実験 異方性のあるベクトル空間形状(uniform)が、等方的に良くなっていく中で、アラインメントが悪化しない ※10学習ステップ毎にプロット ベクトル空間のアラインメントとユニフォーム (左下がgood) 出典:https://arxiv.org/abs/2104.08821
20.
高精度の理由を異方性の観点から 22 4. 実験 提案手法は、ベクトル上のアラインメントと、ベクトル形状のユニフォームのバランスが良い BERT-flow法による 等方的ガウス分布変換 Sentence-BERT, 2019 BERT-whitening法による 等方性向上 色は STSスコア 出典:https://arxiv.org/abs/2104.08821
21.
教師あり:ハードネガティブの効果 23 4. 実験 バッチ内他を負例にする事に加え、”矛盾”をハードネガティブに加える事で精度向上 entailment (含意)のみ利用と、各手法の比較 およびcontradiction
(矛盾)ハードネガティブ利用の効果 entailment (含意)を正例、バッチ内他を負例 contradiction (矛盾)ハードネガティブも利用 出典:https://arxiv.org/abs/2104.08821
22.
教師あり:ハードネガティブの強さを調整した結果、α=1.0が最も好精度 24 4. 実験 α=1の場合が最も性能が高い ハードネガティブの強さを加味した損失関数 ※ :
i=jの時のみ1になる 最適なαの検討 出典:https://arxiv.org/abs/2104.08821
23.
25 4. 実験 結果まとめ 教師なし:BERT:SOTA 教師なし:RoBERTa:SOTA 教師あり:BERT:SOTA 教師あり:RoBERTa:SOTA +4.2% +2.2% 出典:https://arxiv.org/abs/2104.08821
24.
5. まとめ 結論 • シンプルな対照学習フレームワークを提案 •
意味の類似性タスク(STS)でSOTA • 教師なしは、Dropoutノイズで正例ペアを生成、バッチ内他を負例 • 教師ありは、NLIデータセットを活用。バッチ内他を負例。加えて、NLI”矛盾”をハードネガティブにし精度向上 • ベクトルのアラインメントと、形状ユニフォームの2軸の観点から理由を説明 26 感想 • 非常にシンプルな手法なので、考え方の応用範囲が広そう • BERTプレトレーニング → SimCSE的な教師なし意味合い学習 → ファインチューニングで、よりタスクの精度が上がる? • ビジネス応用の際、自然言語処理以外でも使えそう。かつ、 教師なしの、量多め、深さ浅めのデータで表現学習空間を整え → 少量のより深いデータでファインチューニングする事で ビジネスに関わる様々な事の表現学習に使えないか興味あり
Download now