SlideShare a Scribd company logo
1 of 15
Download to read offline
A Survey of Vision-Language
Pre-Trained Models
Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao, IJCAI2022
福沢匠(名工大玉木研)
2023/5/11
概要
nPre-Trained Models
• 巨大なモデルで事前学習,下流タスクで微調整
• 移植性が高い
nVision-Language Pre-Trained Models (VL-PTMs)
• 視覚Vと言語Lの大規模モデルの事前学習
• 下流V-Lタスクで高い性能
• 視覚的質問応答
• 画像キャプション生成
• テキストから画像生成, etc.
nVL-PTMsの手法を紹介
VL-PTMsの事前学習ステップ
1. 画像とテキストを埋め込み表現にエンコード
2. V-Lモダリティ間の相互作用をモデル化
3. VL-PTMを学習する有効な事前学習タスクを実行
4. 下流のV-Lタスクで微調整
V-Lを埋め込みにエンコード
nテキストエンコーダ
• 主にTransformer[Vaswani+, NeurIPS2017]ベースのPTM
• BERT形式の埋め込み
• テキストをトークン化したあと,トークンごとに単語埋め込みを生成
• 位置埋め込み,セグメント埋め込み(モダリティを示す)
n画像エンコーダ
• 埋め込みベクトルで表現
• ViLBERT [Jiasen+, NeurIPS2019], LXMERT [Tan+, arXiv2019]
• Faster RCNN [Ren+, NeurIPS2015]を使用し,ROI特徴のシークケンスにエ
ンコード
• pixel-BERT [Huang+, arXiv2020], SOHO [Huang+, CVPR2021]
• ResNetを使用し,ピクセルレベルのグリッド特徴にエンコード
• ALBEF [Li+, NeurIPS2021], SimVLM [Wang+, arXiv2021]
• ViT [Dosovitskiy+, ICLR 2021]エンコーダを使用
VL-PTMsの事前学習ステップ
1. 画像とテキストを埋め込み表現にエンコード
2. V-Lモダリティ間の相互作用をモデル化
3. VL-PTMを学習する有効な事前学習タスクを実行
4. 下流のV-Lタスクで微調整
V-Lモダリティ間の相互作用をモデル化
n視覚と言語の両モダリティから
の情報を統合するエンコーダ
•Dual Encoder
•Fusion Encoder
nDual Encoder
• テキストと画像を別々にエンコード
• V-Lの類似度を出す
• 浅いAttention層 [Lee+, ECCV2018]
• 内積 [Radford+, arXiv2021]
• 計算コスト小
• 検索タスクに効果的
• 特徴ベクトルを予め計算し保存
Fusion Encoder
nテキスト埋め込みと画像特徴を入力し,融合した表現を出力
nV-L理解タスクに効果的
n重いTransformerに依存
n融合方式
• Single Stream
• 自己注意
• テキスト埋め込みと画像特徴を連結して,エンコーダに入力
• VisualBERT [Li+, arXiv2019], V-L BERT [Su+, arXiv2019] : セグメント埋め
込みを利用
• Dual Stream
• 自己注意に加えてクロスアテンション
• モダリティ間の相互作用を学習
• ViLBERT, LXMERT, ALBEF
VL-PTMsの事前学習ステップ
1. 画像とテキストを埋め込み表現にエンコード
2. V-Lモダリティ間の相互作用をモデル化
3. VL-PTMを学習する有効な事前学習タスクを実行
4. 下流のV-Lタスクで微調整
nCross-Modal Masked Language Modeling (MLM)
nCross-Modal Masked Region Prediction (MRP)
nImage-Text Matching (ITM)
nCross-Modal Contrastive Learning (CMCL)
画像とテキストの関係を学習することが目的
Cross-Modal Masked Language Modeling (MLM)
nマスクされたテキストトークン
の一部を予測
n効果的なマスク戦略が必要
• 単語共起のみで予測できる場合
• 視覚と言語の関係を学習できな
い
• 画像に依存するトークンをマスク
• InterBERT [Lin+, arXiv2020]
• いくつかの連続したセグメント
をマスク
• 事前学習タスクの難易度向上
A woman is walking with dog.
dog
Cross-Modal Masked Region Prediction (MRP)
n一部のRoI特徴をマスク
A woman is walking with dog.
dog
MRC
MRFR
nマスク領域分類 (MRC)
• ラベルの決定方法
• オブジェクト検出で信頼スコアが最も高いもの
を真のラベルとする [Tan+, arXiv2019]
• ViLBERT, UNITER [Chen+, ECCV2020]
• 検出器の出力分布をソフトラベルとする
nマスク領域特徴回帰 (MRFR)
• マスキング戦略
• 特徴領域のシーケンスの場合
• ランダムマスキングが効果的
• グリッド特徴,パッチ特徴の場合
• Visual parsing [Xue+, NeurIPS2021]
• ピポットトークンをランダムにマスク
• 注目度上位k個のトークンをマスク
Image-Text Matching (ITM)
n画像とテキストのマッチング
walking with dog
eating sushi
True
False
n画像-テキストの整合性スコア
• スコア関数のための融合表現の導出
• UNITER, Unicoder [Li+, AAAI2020],
SOHO
• 単語列とオブジェクト列を連結
• 融合表現:CLSトークンの最終隠れ
状態
• ViLBERT
• 画像をIMGトークン
• テキストをCLSトークンとして表現
• 融合表現:IMGとCLSの要素積
Cross-Modal Contrastive Learning (CMCL)
n一致する画像とテキストペア(正例)の距離を近づける
n一致しない画像とテキストペア(負例)の距離を離す
nCLIP [Radford+, arXiv2021], ALIGN [Jia+, arXiv2021]
• 大規模な事前学習
• ゼロショット画像分類タスクへの転移で高い精度
nALBEF
• モメンタム蒸留
• 大規模なノイズの多い画像-テキストデータの学習を促進
nWenLan [Huo+, arXiv2021]
• 負例を保存するキューを使用
• Contrastive Learningに有効
VL-PTMsの事前学習ステップ
1. 画像とテキストを埋め込み表現にエンコード
2. V-Lモダリティ間の相互作用をモデル化
3. VL-PTMを学習する有効な事前学習タスクを実行
4. 下流のV-Lタスクで微調整
nクロスモーダルマッチング
nクロスモーダル推論
n視覚情報とテキストの生成
下流タスク
nクロスモーダルマッチング
• Image Text Retrieval (ITR)
• 与えられた文章 (画像) に最も適する画像 (文章) を検索するタスク
• Dual Encoderアーキテクチャが効率的
• CLIP, ALBEF など
• 事前に画像・テキストの埋め込みを計算し保存できる
nクロスモーダル推論
• Visual Question Answering (VQA)
• 画像に関する質問に対して正しい回答を選択するタスク
• Fusion Encoder : 最終的な融合表現を回答ラベル分布にマッピング
• Dual Encoder : モダリティ間相互作用が浅いため有効でない
まとめ
nVL-PTMの概要を紹介
• 大きなデータセットで事前学習するため、下流タスクへの移植性が高い
nVL-PTMのアーキテクチャ
• Fusion Encoderはクロスモーダル推論タスクに効果的
• Dual Encoderはクロスモーダル検索タスクに効果的

More Related Content

More from Toru Tamaki

More from Toru Tamaki (20)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 

Recently uploaded

Recently uploaded (8)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

論文紹介:A Survey of Vision-Language Pre-Trained Models