【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

http://deeplearning.jp/
Visual Classification via Description from Large Language Models
大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法
山本貴之（ヤフー株式会社・早稲田大学河原研 D1）
DEEP LEARNING JP
[DL Papers]
1

書誌情報
Visual Classification via Description from Large Language Models
大規模言語モデルで画像の識別特徴を生成させ画像分類に活用する手法
ICLR 2023 (notable top 5%)
https://openreview.net/forum?id=jlAjNL8z5cs
タイトル：
著者：
大規模言語モデル(LLM)に埋め込まれた知識を画像分類に活用する手法。
分類根拠が自然言語で分かる。
概要：
2
選定理由：個人的にLLMの活用が多様な下流タスクをより良くするという仮説を持っており、
正にそのような事を面白いアイディアかつシンプルに実現している論文で、応用範囲が広そう。
公式実装： https://github.com/sachit-menon/classify_by_description_release
※出典記載の無い図表は本論文からの引用
Sachit Menon, Carl Vondrick
Department of Computer Science
Columbia University

背景
3
▊ 課題 ▊
▍ Hen（雌鶏）を見分ける事は出来るか？
▍ 人間が使うような簡単な言語的手がかりに目を向けていない
▍ モデルが判断した根拠が分からない
▊ 現状 ▊
▍ CLIPは（固定カテゴリでない）分類タスクで高性能
▍ 未だに理不尽な間違えをする事がある（→次ページに具体例）

内容
4
▊ 何をしているか論文か？ ▊
▍ 画像分類タスクに大規模言語モデル（GPT-3）を活用し、ImageNetでベースライン比＋4～5%の成果
▍ 分類の根拠を説明可能（言語で説明）
分類根拠
“足が２本”など
Dalmatian
体表の模様
で分類した？
※横軸はcos類似度×100
既存手法（分類ミス）
提案手法（正しく分類）
※赤棒グラフは、ミスした分類カテゴリのOursモデル値

新規性
5
▊ 輪読者の考える新規性 ▊
▍ GPT-3で、「分類カテゴリ」を見分けるのに有用な「識別特徴」を生成させるアイディア
▍ 「識別特徴」を使って、分類するロジック
▍ 分類根拠を「自然言語で説明」できる事
分類カテゴリ
識別特徴
自然言語で説明
識別特徴の関与スコア

手法全体概要右下図の赤色部分が相違点識別特徴との距離で分類
6
▍ 提案手法は、GPT-3が出力した「識別特徴」との距離を使って分類を行う。上図赤色部分が主な特徴
既存手法（CLIP分類）提案手法
分類画像
tiger
に近い
分類画像
処理
パイプライン
※輪読者解釈
表現
ベクトル空間
画CLIP
カテゴリ名文CLIP GPT-3 識別特徴
識別特徴
識別特徴
ベクトル
ベクトル
距離
分類画像画CLIP ベクトル
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
カテゴリ名
識別特徴

手法 GPT-3を活用し[識別特徴]を生成する部分
7
▊ 左図赤色部分の処理 ▊
▍ のプロンプトを用いGPT-3に入力
▍ GPT-3が列挙した複数の回答を識別特徴とする
Q：写真で{スクールバス}を見分けるのに有用な特徴は何ですか？
A：{スクールバス}を見分けるのに有用な特徴がいくつかあります
‐大型の黄色い車
‐ 「スクールバス」と書いてある
‐側面からストップサインが出る
⋮
1
1
2
2
GPT-3 識別特徴
識別特徴
識別特徴
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
処理パイプライン全体

手法識別特徴とカテゴリの[相対スケール]を正しく認識する為の処理
8
▍ 象の短いしっぽと、ねずみの長いしっぽを
正しく処理する為に
▍ 識別特徴は下記のプロンプトテンプレート
に従ってプロンプト化されCLIPに入力される
A：{象 }を見分けるのに有用な特徴がいくつかあります
‐短いしっぽ
GPT-3 識別特徴
識別特徴
識別特徴
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
A：{ねずみ }を見分けるのに有用な特徴がいくつかあります
‐長いしっぽ
・elephant which has short tail
・mouse which has long tail
相対スケールの正しい認識
象の短いしっぽ
vs
ねずみの長いしっぽ
プロンプト
テンプレート
文CLIPに
入力される文字列
1
2
1
2

手法距離算出と分類
9
▍ ＝CLIP類似度（＝cos類似度）
▍ 分類画像と各識別特徴の類似度の和の正規化
▍ 分類結果は、全Cの内モデルsが最大値のもの
モデル
x
分類画像
識別特徴
ベクトル
各識別特徴
正規化
識別特徴の
数で割る
φ=cos類似度
GPT-3 識別特徴
識別特徴
識別特徴
カテゴリ名
ImageNet
なら1,000
ベクトル
ベクトル
ベクトル
文CLIP
文CLIP
文CLIP
距離
ImageNet
なら1,000
最もモデル値が
高いカテゴリを
分類結果とする

モデルアーキテクチャ
10
▊ 学習済GPT-3と学習済CLIPを活用するのみ。その他、モデルの学習等はしていない
学習済GPT-3
学習済CLIP
APIで利用
text-davinci-002
利用方法や種別など
利用料金は$20以下
VisionTransformer系４種で実験

検証用データセット
11
▊ データセット一覧（８種）多様なタスクで成果が出るかを確認している ▊
▍ ImageNet dataset (Russakovsky et al., 2015) for everyday object recognition
▍ ImageNetV2 (Kornblith et al., 2019) for distribution shift from ImageNet
▍ CUB for fine-grained classification of birds (Wah et al., 2011)
▍ EuroSAT (Helber et al., 2019) for satellite image recognition
▍ Places365 for scenes
▍ Food101 (Bossard et al., 2014) for food
▍ Oxford Pets (Parkhi et al., 2012) for common animals
▍ Describable Textures Cimpoi et al. (2014) for in-the-wild patterns

結果
12
▊ CLIPベースラインとの対比 ▊
▍ 全てのデータセットでベースラインを上回る結果（Ours）
▍ 日常的な物体認識に限定されず、衛星画像（EuroSAT）で+7%、テクスチャ（Textures）で+2.5%、
細かな鳥類（CUB）で+1～2%の改善

結果（左が提案手法。右がベースラインのCLIP）
13
アホウドリ
蜂
菜種
旅客機
渓谷
※赤棒グラフは、ミスした分類カテゴリのOursモデル値

考察
14
▊ 言語モデルのサイズと分類性能の関係 ▊
▍ LLMサイズが小さいとベースラインを超えない（≒LLMの賢さに性能が依存）
Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., ... & Zettlemoyer, L. (2022). Opt: Open pre-trained transformer language models. arXiv
preprint arXiv:2205.01068.
OPTモデル一覧
OPTモデルサイズとベースラインとの相対性能

まとめ
15
▊ 結論 ▊
▍ Vision&Languageモデルでのゼロショット分類の新しいフレームワークを提案
▍ LLMの視覚カテゴリの言語知識を活用し、識別特徴を生成し、識別特徴と画像を比較する
▍ GPT-3とCLIPを使い、性能向上、根拠説明、新しい知識への適応、バイアスの軽減を実現
▊ 感想 ▊
▍ LLM内の知識を利用し、低計算リソースで下流タスク精度を上げ、説明性も実現、しかも手法がシンプル
▍ LLMが多様な下流タスクをより良くするという仮説を持っているが、それを体現した論文
▍ CLIP部を高性能なマルチモーダルLLMにすれば、さらに精度が上がりそう

【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)

Similar to 【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023) (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (16)

【DL輪読会】Visual Classification via Description from Large Language Models (ICLR2023)