東京大学 大学院情報理工学系研究科
創造情報学専攻 准教授
中山 英樹
ExaWizards 勉強会 「基盤モデルとの付き合い方」 2023年8月26日 17:00-19:00
 中山英樹
◦ 情報理工学系研究科 創造情報学専攻 准教授
 Beyond AI 研究推進機構 兼務
 ニューロインテリジェンス国際研究機構 兼務
◦ 産総研AIセンター招聘研究員
◦ エクサウィザーズ アドバイザ
 研究領域
◦ コンピュータビジョン
◦ 自然言語処理
◦ マルチモーダル深層学習
2
3
オープンセット画像生成
[CVPR’22]
医用画像生成
[CIKM’19]
手書き文字生成
[ACMMM’22]
物語生成・評価
[EMNLP’22]
論文生成
[EMNLP’21
(Findings)]
文字消去
[WACV’20]
動画生成・制御
[MIRU’23]
コミットログ生成
[ACL’22]
非自己回帰型デコーダ
[AAAI’20]
画像生成 テキスト生成
機械翻訳
[ACL’19&18] ICLR’18]
4
a woman is slicing some vegetables
ゼロショット画像キャプショニング
[CVPR’22]
マルチモーダル対話 [EMNLP’20]
未来キャプショニング [CVPR’23]
マルチモーダル
動画キャプショニング [COLING’16]
画像ストーリー生成 [AAAI’21]
ストーリー可視化 [EMNLP’22]
5
2012
AlexNet
(ConvNet)
2016
Jigsaw
2015
ResNet
2020
SimCLR
2020
ViT
2021
Swin
Vision
NLP
2022
Stable Diffusion
2013
Skip-gram
2015
Seq2seq
+attention
2017
Trans
former
2018
ELMo
BERT
GPT-1
2020
GPT-3
2022
ChatGPT
2023
GPT-4
Bard
2018
BigGAN
2021
DALL-E
2021
CLIP
ALIGN
2022
BLIP
Florence
2023
IMAGEBIND
2021
CLIPSeg
2023
SAM
(古典的画像認識)
(テキストによるプロンプティング)
(さまざまなモダリティによるプロンプティング)
2022
Flamingo
2023
BLIP-2
LLaVA
GPT-4
(Adapted from [Awais+, 2023])
教師あり学習
(ImageNet)
教師なし表現学習
text-to-image生成
Image-text アラインメント
マルチモーダルLLM
汎用的セグメンテーションモデル
注:代表的かつ講演者が把握
しているごく一部の研究です。
まとめ方は主観含みます。
 対比学習 (Contrastive Learning)によるpre-trained model
 4億枚の画像とテキストのペアから学習
 非常に優れたembeddingが得られる。言語と画像を接続。
6
https://openai.com/blog/clip/
Radford et al., Learning Transferable Visual Models From Natural Language Supervision, ICML 2021.
 CLIP embedding (画像、動画像)をハブとして、
7種類の異なるモダリティをアラインメント
◦ 直接のペアデータがないモダリティ間での変換・検索が可能
7
GirdHar et al., IMAGEBIND: One Embedding Space
To Bind Them All, CVPR 2023.
 任意物体のセグメンテーションを行う基盤モデル
 テキストに加え、画像上のポイント、矩形などで
プロンプティング
 ブートストラップ的に大規模な訓練データセット
を構成(画像:11M、マスク:1B)
 さまざまなドメインに適用可能
8
Kirillov et al., Segment Anything, 2023.
 (LLM以前の) 画像基盤モデルの傾向
◦ 単発のパターン認識・生成・変換が基本
◦ 各タスク(セグメンテーション、画像生成等)のエキスパートを作る方向で進化
◦ Generalistなモデルの試みもあるが、基本的には各タスクをマルチタスク的に寄せ集めただけ
◦ 推論などは別枠で研究(Neural Module Networkなど)
 Promptで何でもやってしまう衝撃
◦ Instruction tuning, in-context learning, chain of thought, meta-cognitive prompting…
◦ そもそもこういう発想はなかった(画像は入力が固定サイズ)
9
 マルチモーダル + long, general-form prompting (context)
 どうやって画像をLLMに接続するか?
◦ 1.画像特徴を言語ドメインへ変換
◦ 2.LLMで外部の画像基盤モデル(VFM)を呼び出す
10
Flamingo [Alayrac+, 2022]
Alayrac et al., Flamingo: a Visual Language Model for Few-Shot Learning, NeurIPS 2022.
 単純な射影によるトークンの変換
11
BLIP2 [Li+, 2023]
LLaVa [Liu+, 2023]
 学習に基づくクエリ+Transformer
Liu et al., Visual Instruction Tuning, arXiv, 2023.
Li et al., BLIP-2: Bootstrapping Language-Image Pre-training with
Frozen Image Encoders and Large Language Models, arXiv, 2023.
 外部モデル(画像キャプショニング
等)により画像をテキストに変換し、
LLMへ入力
12
LLaMA-Adapter V2
[Gao+, 2023]
Gao et al., LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model, arXiv, 2023.
13
LLaVa [Liu+, 2023]
 Visual ChatGPT [Wu+, 2023]
◦ LLM (ChatGPT) により適切なVFMの
選択と操作を行う
◦ Step-by-stepな推論(ループ)
◦ クエリに加え、各VFMの使い方、推
論・対話履歴をプロンプティング
14
Wu et al., Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models, 2023.
 VFMを呼び出すプログラムをin-context learningで生成
15
Gupta and Kembhavi, Visual Programming: Compositional visual reasoning without training, CVPR 2023. (best paper award)
16
𝑦𝑦
𝑓𝑓
𝑥𝑥
記憶、推論、ニューロシンボリックAI、
意識、身体性、認知科学、etc.
 機械学習:基本的には、入力を出力へ移す関数が得られるだけ
17
𝑦𝑦
𝑓𝑓
𝑥𝑥
記憶、推論、ニューロシンボリックAI、
意識、身体性、認知科学、etc.
𝑦𝑦
𝑥𝑥
 機械学習:基本的には、入力を出力へ移す関数が得られるだけ
🤪🤪
🤪🤪
Prompt everything!
Attention is all
you need!
(a.k.a.
Transformer)
例題集 外部知識
履歴
𝑓𝑓
LLMの衝撃
🤪🤪Big model & data!
タスク説明
(long) Markov model is
all you need?
 10億トークンあったら何ができる?(妄想)
18
Ding et al., LONGNET: Scaling Transformers
to 1,000,000,000 Tokens, 2023.
200 (単語/分) × 60 (分) × 16 (時間) × 365 (日) × 80 (年)
 LONGNET [Ding+, 2023]
◦ Transformerの入力長を10億トークンまで拡張
◦ さまざまなレンジ・解像度のアテンションを組み合わせる(dilated attention)
≒ 56億

画像の基盤モデルの変遷と研究動向