【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
1.
http://deeplearning.jp/
How Much CanCLIP Benefit Vision-and-Language Tasks?
CLIPは画像×言語タスクにどれだけ貢献できるだろうか?(ICLR 2022)
山本 貴之(ヤフー株式会社)
DEEP LEARNING JP
[DL Papers]
1
2.
書誌情報
How Much CanCLIP Benefit Vision-and-Language Tasks?
CLIPは画像×言語タスクにどれだけ貢献できるだろうか?
https://openreview.net/pdf?id=zf_Ll3HZWgy
タイトル:
著者: Sheng Shen∗†, Liunian Harold Li∗‡, Hao Tan◦ , Mohit Bansal◦ , Anna Rohrbach† , Kai-Wei Chang‡ , Zhewei Yao† and Kurt Keutzer†
†University of California, Berkeley, ‡University of California, Los Angeles ◦University of North Carolina at Chapel Hill
先行研究CLIPは優れた画像×言語エンコーダーという仮定の下、CLIPを下流タスクと統合する事で、
従来の下流タスクでSotAを出せるはずという仮説。多数の実験を行い検証。手法を提案
概要:
2
選定理由: 1) マルチモーダル大規模基盤モデルが、シングルモーダルタスクの性能を上げる(ここへの興味)
2) 言語込でマルチモーダル学習すると、人の知恵の記録である言語の力を活かせるのでは(仮説)
(ICLR 2022 Poster)
公式実装: https://github.com/clip-vil/CLIP-ViL
※出典記載の無い図表は本論文からの引用