6. 対比学習 (Contrastive Learning)によるpre-trained model
4億枚の画像とテキストのペアから学習
非常に優れたembeddingが得られる。言語と画像を接続。
6
https://openai.com/blog/clip/
Radford et al., Learning Transferable Visual Models From Natural Language Supervision, ICML 2021.
7. CLIP embedding (画像、動画像)をハブとして、
7種類の異なるモダリティをアラインメント
◦ 直接のペアデータがないモダリティ間での変換・検索が可能
7
GirdHar et al., IMAGEBIND: One Embedding Space
To Bind Them All, CVPR 2023.
10. マルチモーダル + long, general-form prompting (context)
どうやって画像をLLMに接続するか?
◦ 1.画像特徴を言語ドメインへ変換
◦ 2.LLMで外部の画像基盤モデル(VFM)を呼び出す
10
Flamingo [Alayrac+, 2022]
Alayrac et al., Flamingo: a Visual Language Model for Few-Shot Learning, NeurIPS 2022.
11. 単純な射影によるトークンの変換
11
BLIP2 [Li+, 2023]
LLaVa [Liu+, 2023]
学習に基づくクエリ+Transformer
Liu et al., Visual Instruction Tuning, arXiv, 2023.
Li et al., BLIP-2: Bootstrapping Language-Image Pre-training with
Frozen Image Encoders and Large Language Models, arXiv, 2023.