More Related Content
More from Toru Tamaki (20)
論文紹介:A Survey of Vision-Language Pre-Trained Models
- 1. A Survey of Vision-Language
Pre-Trained Models
Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao, IJCAI2022
福沢匠(名工大玉木研)
2023/5/11
- 4. V-Lを埋め込みにエンコード
nテキストエンコーダ
• 主にTransformer[Vaswani+, NeurIPS2017]ベースのPTM
• BERT形式の埋め込み
• テキストをトークン化したあと,トークンごとに単語埋め込みを生成
• 位置埋め込み,セグメント埋め込み(モダリティを示す)
n画像エンコーダ
• 埋め込みベクトルで表現
• ViLBERT [Jiasen+, NeurIPS2019], LXMERT [Tan+, arXiv2019]
• Faster RCNN [Ren+, NeurIPS2015]を使用し,ROI特徴のシークケンスにエ
ンコード
• pixel-BERT [Huang+, arXiv2020], SOHO [Huang+, CVPR2021]
• ResNetを使用し,ピクセルレベルのグリッド特徴にエンコード
• ALBEF [Li+, NeurIPS2021], SimVLM [Wang+, arXiv2021]
• ViT [Dosovitskiy+, ICLR 2021]エンコーダを使用
- 9. Cross-Modal Masked Language Modeling (MLM)
nマスクされたテキストトークン
の一部を予測
n効果的なマスク戦略が必要
• 単語共起のみで予測できる場合
• 視覚と言語の関係を学習できな
い
• 画像に依存するトークンをマスク
• InterBERT [Lin+, arXiv2020]
• いくつかの連続したセグメント
をマスク
• 事前学習タスクの難易度向上
A woman is walking with dog.
dog
- 10. Cross-Modal Masked Region Prediction (MRP)
n一部のRoI特徴をマスク
A woman is walking with dog.
dog
MRC
MRFR
nマスク領域分類 (MRC)
• ラベルの決定方法
• オブジェクト検出で信頼スコアが最も高いもの
を真のラベルとする [Tan+, arXiv2019]
• ViLBERT, UNITER [Chen+, ECCV2020]
• 検出器の出力分布をソフトラベルとする
nマスク領域特徴回帰 (MRFR)
• マスキング戦略
• 特徴領域のシーケンスの場合
• ランダムマスキングが効果的
• グリッド特徴,パッチ特徴の場合
• Visual parsing [Xue+, NeurIPS2021]
• ピポットトークンをランダムにマスク
• 注目度上位k個のトークンをマスク
- 11. Image-Text Matching (ITM)
n画像とテキストのマッチング
walking with dog
eating sushi
True
False
n画像-テキストの整合性スコア
• スコア関数のための融合表現の導出
• UNITER, Unicoder [Li+, AAAI2020],
SOHO
• 単語列とオブジェクト列を連結
• 融合表現:CLSトークンの最終隠れ
状態
• ViLBERT
• 画像をIMGトークン
• テキストをCLSトークンとして表現
• 融合表現:IMGとCLSの要素積
- 12. Cross-Modal Contrastive Learning (CMCL)
n一致する画像とテキストペア(正例)の距離を近づける
n一致しない画像とテキストペア(負例)の距離を離す
nCLIP [Radford+, arXiv2021], ALIGN [Jia+, arXiv2021]
• 大規模な事前学習
• ゼロショット画像分類タスクへの転移で高い精度
nALBEF
• モメンタム蒸留
• 大規模なノイズの多い画像-テキストデータの学習を促進
nWenLan [Huo+, arXiv2021]
• 負例を保存するキューを使用
• Contrastive Learningに有効
- 14. 下流タスク
nクロスモーダルマッチング
• Image Text Retrieval (ITR)
• 与えられた文章 (画像) に最も適する画像 (文章) を検索するタスク
• Dual Encoderアーキテクチャが効率的
• CLIP, ALBEF など
• 事前に画像・テキストの埋め込みを計算し保存できる
nクロスモーダル推論
• Visual Question Answering (VQA)
• 画像に関する質問に対して正しい回答を選択するタスク
• Fusion Encoder : 最終的な融合表現を回答ラベル分布にマッピング
• Dual Encoder : モダリティ間相互作用が浅いため有効でない