画像の基盤モデルの変遷と研究動向

東京大学大学院情報理工学系研究科
創造情報学専攻准教授
中山英樹
ExaWizards 勉強会「基盤モデルとの付き合い方」 2023年8月26日 17:00-19:00

 中山英樹
◦ 情報理工学系研究科創造情報学専攻准教授
 Beyond AI 研究推進機構兼務
 ニューロインテリジェンス国際研究機構兼務
◦ 産総研AIセンター招聘研究員
◦ エクサウィザーズアドバイザ
 研究領域
◦ コンピュータビジョン
◦ 自然言語処理
◦ マルチモーダル深層学習
2

3
オープンセット画像生成
[CVPR’22]
医用画像生成
[CIKM’19]
手書き文字生成
[ACMMM’22]
物語生成・評価
[EMNLP’22]
論文生成
[EMNLP’21
(Findings)]
文字消去
[WACV’20]
動画生成・制御
[MIRU’23]
コミットログ生成
[ACL’22]
非自己回帰型デコーダ
[AAAI’20]
画像生成テキスト生成
機械翻訳
[ACL’19&18] ICLR’18]

4
a woman is slicing some vegetables
ゼロショット画像キャプショニング
[CVPR’22]
マルチモーダル対話 [EMNLP’20]
未来キャプショニング [CVPR’23]
マルチモーダル
動画キャプショニング [COLING’16]
画像ストーリー生成 [AAAI’21]
ストーリー可視化 [EMNLP’22]

5
2012
AlexNet
(ConvNet)
2016
Jigsaw
2015
ResNet
2020
SimCLR
2020
ViT
2021
Swin
Vision
NLP
2022
Stable Diffusion
2013
Skip-gram
2015
Seq2seq
+attention
2017
Trans
former
2018
ELMo
BERT
GPT-1
2020
GPT-3
2022
ChatGPT
2023
GPT-4
Bard
2018
BigGAN
2021
DALL-E
2021
CLIP
ALIGN
2022
BLIP
Florence
2023
IMAGEBIND
2021
CLIPSeg
2023
SAM
（古典的画像認識）
（テキストによるプロンプティング）
（さまざまなモダリティによるプロンプティング）
2022
Flamingo
2023
BLIP-2
LLaVA
GPT-4
(Adapted from [Awais+, 2023])
教師あり学習
(ImageNet)
教師なし表現学習
text-to-image生成
Image-text アラインメント
マルチモーダルLLM
汎用的セグメンテーションモデル
注：代表的かつ講演者が把握
しているごく一部の研究です。
まとめ方は主観含みます。

 対比学習 (Contrastive Learning)によるpre-trained model
 4億枚の画像とテキストのペアから学習
 非常に優れたembeddingが得られる。言語と画像を接続。
6
https://openai.com/blog/clip/
Radford et al., Learning Transferable Visual Models From Natural Language Supervision, ICML 2021.

 CLIP embedding (画像、動画像)をハブとして、
7種類の異なるモダリティをアラインメント
◦ 直接のペアデータがないモダリティ間での変換・検索が可能
7
GirdHar et al., IMAGEBIND: One Embedding Space
To Bind Them All, CVPR 2023.

 任意物体のセグメンテーションを行う基盤モデル
 テキストに加え、画像上のポイント、矩形などで
プロンプティング
 ブートストラップ的に大規模な訓練データセット
を構成（画像:11M、マスク:1B）
 さまざまなドメインに適用可能
8
Kirillov et al., Segment Anything, 2023.

 (LLM以前の) 画像基盤モデルの傾向
◦ 単発のパターン認識・生成・変換が基本
◦ 各タスク（セグメンテーション、画像生成等）のエキスパートを作る方向で進化
◦ Generalistなモデルの試みもあるが、基本的には各タスクをマルチタスク的に寄せ集めただけ
◦ 推論などは別枠で研究（Neural Module Networkなど）
 Promptで何でもやってしまう衝撃
◦ Instruction tuning, in-context learning, chain of thought, meta-cognitive prompting…
◦ そもそもこういう発想はなかった（画像は入力が固定サイズ）
9

 マルチモーダル + long, general-form prompting (context)
 どうやって画像をLLMに接続するか？
◦ １．画像特徴を言語ドメインへ変換
◦ ２．LLMで外部の画像基盤モデル（VFM）を呼び出す
10
Flamingo [Alayrac+, 2022]
Alayrac et al., Flamingo: a Visual Language Model for Few-Shot Learning, NeurIPS 2022.

 単純な射影によるトークンの変換
11
BLIP2 [Li+, 2023]
LLaVa [Liu+, 2023]
 学習に基づくクエリ+Transformer
Liu et al., Visual Instruction Tuning, arXiv, 2023.
Li et al., BLIP-2: Bootstrapping Language-Image Pre-training with
Frozen Image Encoders and Large Language Models, arXiv, 2023.

 外部モデル（画像キャプショニング
等）により画像をテキストに変換し、
LLMへ入力
12
LLaMA-Adapter V2
[Gao+, 2023]
Gao et al., LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model, arXiv, 2023.

 Visual ChatGPT [Wu+, 2023]
◦ LLM (ChatGPT) により適切なVFMの
選択と操作を行う
◦ Step-by-stepな推論（ループ）
◦ クエリに加え、各VFMの使い方、推
論・対話履歴をプロンプティング
14
Wu et al., Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models, 2023.

 VFMを呼び出すプログラムをin-context learningで生成
15
Gupta and Kembhavi, Visual Programming: Compositional visual reasoning without training, CVPR 2023. (best paper award)

16
𝑦𝑦
𝑓𝑓
𝑥𝑥
記憶、推論、ニューロシンボリックAI、
意識、身体性、認知科学、etc.
 機械学習：基本的には、入力を出力へ移す関数が得られるだけ

17
𝑦𝑦
𝑓𝑓
𝑥𝑥
記憶、推論、ニューロシンボリックAI、
意識、身体性、認知科学、etc.
𝑦𝑦
𝑥𝑥
 機械学習：基本的には、入力を出力へ移す関数が得られるだけ
🤪🤪
🤪🤪
Prompt everything!
Attention is all
you need!
(a.k.a.
Transformer)
例題集外部知識
履歴
𝑓𝑓
LLMの衝撃
🤪🤪Big model & data!
タスク説明
(long) Markov model is
all you need?

 10億トークンあったら何ができる？（妄想）
18
Ding et al., LONGNET: Scaling Transformers
to 1,000,000,000 Tokens, 2023.
200 (単語/分) × 60 (分) × 16 (時間) × 365 (日) × 80 (年)
 LONGNET [Ding+, 2023]
◦ Transformerの入力長を10億トークンまで拡張
◦ さまざまなレンジ・解像度のアテンションを組み合わせる（dilated attention）
≒ 56億

画像の基盤モデルの変遷と研究動向

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 画像の基盤モデルの変遷と研究動向

Similar to 画像の基盤モデルの変遷と研究動向 (20)

More from nlab_utokyo

More from nlab_utokyo (16)

画像の基盤モデルの変遷と研究動向