論文紹介：A Survey of Vision-Language Pre-Trained Models

A Survey of Vision-Language
Pre-Trained Models
Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao, IJCAI2022
福沢匠（名工大玉木研）
2023/5/11

概要
nPre-Trained Models
• 巨大なモデルで事前学習，下流タスクで微調整
• 移植性が高い
nVision-Language Pre-Trained Models (VL-PTMs)
• 視覚Vと言語Lの大規模モデルの事前学習
• 下流V-Lタスクで高い性能
• 視覚的質問応答
• 画像キャプション生成
• テキストから画像生成, etc.
nVL-PTMsの手法を紹介

VL-PTMsの事前学習ステップ
1. 画像とテキストを埋め込み表現にエンコード
2. V-Lモダリティ間の相互作用をモデル化
3. VL-PTMを学習する有効な事前学習タスクを実行
4. 下流のV-Lタスクで微調整

V-Lを埋め込みにエンコード
nテキストエンコーダ
• 主にTransformer[Vaswani+, NeurIPS2017]ベースのPTM
• BERT形式の埋め込み
• テキストをトークン化したあと，トークンごとに単語埋め込みを生成
• 位置埋め込み，セグメント埋め込み（モダリティを示す）
n画像エンコーダ
• 埋め込みベクトルで表現
• ViLBERT [Jiasen+, NeurIPS2019], LXMERT [Tan+, arXiv2019]
• Faster RCNN [Ren+, NeurIPS2015]を使用し，ROI特徴のシークケンスにエ
ンコード
• pixel-BERT [Huang+, arXiv2020], SOHO [Huang+, CVPR2021]
• ResNetを使用し，ピクセルレベルのグリッド特徴にエンコード
• ALBEF [Li+, NeurIPS2021], SimVLM [Wang+, arXiv2021]
• ViT [Dosovitskiy+, ICLR 2021]エンコーダを使用

V-Lモダリティ間の相互作用をモデル化
n視覚と言語の両モダリティから
の情報を統合するエンコーダ
•Dual Encoder
•Fusion Encoder
nDual Encoder
• テキストと画像を別々にエンコード
• V-Lの類似度を出す
• 浅いAttention層 [Lee+, ECCV2018]
• 内積 [Radford+, arXiv2021]
• 計算コスト小
• 検索タスクに効果的
• 特徴ベクトルを予め計算し保存

Fusion Encoder
nテキスト埋め込みと画像特徴を入力し，融合した表現を出力
nV-L理解タスクに効果的
n重いTransformerに依存
n融合方式
• Single Stream
• 自己注意
• テキスト埋め込みと画像特徴を連結して，エンコーダに入力
• VisualBERT [Li+, arXiv2019], V-L BERT [Su+, arXiv2019] : セグメント埋め
込みを利用
• Dual Stream
• 自己注意に加えてクロスアテンション
• モダリティ間の相互作用を学習
• ViLBERT, LXMERT, ALBEF

nCross-Modal Masked Language Modeling (MLM)
nCross-Modal Masked Region Prediction (MRP)
nImage-Text Matching (ITM)
nCross-Modal Contrastive Learning (CMCL)
画像とテキストの関係を学習することが目的

Cross-Modal Masked Language Modeling (MLM)
nマスクされたテキストトークン
の一部を予測
n効果的なマスク戦略が必要
• 単語共起のみで予測できる場合
• 視覚と言語の関係を学習できな
い
• 画像に依存するトークンをマスク
• InterBERT [Lin+, arXiv2020]
• いくつかの連続したセグメント
をマスク
• 事前学習タスクの難易度向上
A woman is walking with dog.
dog

Cross-Modal Masked Region Prediction (MRP)
n一部のRoI特徴をマスク
A woman is walking with dog.
dog
MRC
MRFR
nマスク領域分類 (MRC)
• ラベルの決定方法
• オブジェクト検出で信頼スコアが最も高いもの
を真のラベルとする [Tan+, arXiv2019]
• ViLBERT, UNITER [Chen+, ECCV2020]
• 検出器の出力分布をソフトラベルとする
nマスク領域特徴回帰 (MRFR)
• マスキング戦略
• 特徴領域のシーケンスの場合
• ランダムマスキングが効果的
• グリッド特徴，パッチ特徴の場合
• Visual parsing [Xue+, NeurIPS2021]
• ピポットトークンをランダムにマスク
• 注目度上位k個のトークンをマスク

Image-Text Matching (ITM)
n画像とテキストのマッチング
walking with dog
eating sushi
True
False
n画像-テキストの整合性スコア
• スコア関数のための融合表現の導出
• UNITER, Unicoder [Li+, AAAI2020],
SOHO
• 単語列とオブジェクト列を連結
• 融合表現：CLSトークンの最終隠れ
状態
• ViLBERT
• 画像をIMGトークン
• テキストをCLSトークンとして表現
• 融合表現：IMGとCLSの要素積

Cross-Modal Contrastive Learning (CMCL)
n一致する画像とテキストペア（正例）の距離を近づける
n一致しない画像とテキストペア（負例）の距離を離す
nCLIP [Radford+, arXiv2021], ALIGN [Jia+, arXiv2021]
• 大規模な事前学習
• ゼロショット画像分類タスクへの転移で高い精度
nALBEF
• モメンタム蒸留
• 大規模なノイズの多い画像-テキストデータの学習を促進
nWenLan [Huo+, arXiv2021]
• 負例を保存するキューを使用
• Contrastive Learningに有効

nクロスモーダルマッチング
nクロスモーダル推論
n視覚情報とテキストの生成

下流タスク
nクロスモーダルマッチング
• Image Text Retrieval (ITR)
• 与えられた文章 (画像) に最も適する画像 (文章) を検索するタスク
• Dual Encoderアーキテクチャが効率的
• CLIP, ALBEF など
• 事前に画像・テキストの埋め込みを計算し保存できる
nクロスモーダル推論
• Visual Question Answering (VQA)
• 画像に関する質問に対して正しい回答を選択するタスク
• Fusion Encoder : 最終的な融合表現を回答ラベル分布にマッピング
• Dual Encoder : モダリティ間相互作用が浅いため有効でない

まとめ
nVL-PTMの概要を紹介
• 大きなデータセットで事前学習するため、下流タスクへの移植性が高い
nVL-PTMのアーキテクチャ
• Fusion Encoderはクロスモーダル推論タスクに効果的
• Dual Encoderはクロスモーダル検索タスクに効果的

論文紹介：A Survey of Vision-Language Pre-Trained Models

Recommended

Recommended

More Related Content

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (8)

論文紹介：A Survey of Vision-Language Pre-Trained Models