Transformer 動向調査 in 画像認識(修正版)

T r a n s f o r m e r 動向調査
i n 画像認識
パナソニック株式会社
C N S 社イノベーションセンター
前野一樹

はじめに
2
発表者は、「Transformerブーム来てるけど使えるの?」、という感じで勉強中の人です
Transformerをガンガン使っていて超詳しい人とかではないので、
間違っている箇所もあると思います
色々突っ込んで頂いて、一緒に理解を深めることが出来ると嬉しいです
©Panasonic Corporation 2021

T r a n s f o r m e r ( V i T ) 、襲来
3

V i T 、 I m a g e N e t で最高性能を叩き出す
4
Vision Transformer(ViT≒クソでかプライベートデータで殴っただけのTransformer)がCNN超え
※ CNN系のTop性能もImageNet以外の大規模データを使ってるのでそこの差が全てではない
参考文献: [1] [2]
画像は[2]より引用(原典は[1]) 画像は[2]より引用(認識性能の値は[39][40][41]より)
Noisy Studentのプロットは86.8%でarxiv初稿のTable 9の値
最新だと88.4%(EfficientNet-L2)
Transferと言いつつResNet
ImageNetで学習したら85.7%
やってることは以下のような感じで、画像向けにすごい工夫した感じはしない
・画像をパッチに分割して(ピクセル値のベクトルとして)入力
・活性化関数としてGELUを採用
・ Normの位置がMLP・MHAより前
CNNの方はアーキというより学習方法的な部分が変わってた感じ
・ Noisy Student: 学習⇒未ラベルデータにラベル付与+ノイズを強くして学習xN
・ Big Transfer: ViTと同じでかいデータで幅4倍とかしたでかいResNetを学習
・ Fix EfficientNet: 前処理の画像切出の差が学習とテストで影響しないよう調整
⇒ がっつりアーキ変えて最高性能は結構な衝撃

C L I P による Z e r o - S h o t 認識 ( 1 / 2 )
5
CLIP: 言語と画像のペアで事前学習 → Zero-Shotでの画像認識を実現
※ Zero-Shot認識: 特定データに特化した学習を行わなくても推論出来ちゃうとんでも技術
従来はhuman/dog/cat (cute/cool/scary)の3クラス分類問題を学習しないといけなかったが、
Zero-Shotでは、この分類問題の学習は不要
入力
候補ラベル a human a dog a cat
関連性 0.0957 0.01057 0.8936
候補ラベル cute cool scary
関連性 0.9546 0.02176 0.0239
出力(※候補ラベルも入力)
参考文献: [8] [9]
画像は[9]より引用
数値は[9]より引用
数値は[9]より引用
CLIP
同じ画像に対して違うラベルを与えても正しい(ただしそうな)結果が返ってくる
ラベルを↑の2つの例のように自由に与えられ、ラベルについて学習しなくて良い

C L I P による Z e r o - S h o t 認識 ( 2 / 2 )
6
CLIPはText Enc.とImage Enc.で構成. 各Enc.の出力間の類似度が適切になるよう学習している
このEnc.のNW構造としてどちらもTransformerが採用されている(画像はViT)
画像は[9]より引用
画像は[8-1]より引用
参考文献: [8] [9]
認識したいラベルを与える
“～(ラベル)の写真”
の形に整形各ラベルをベクトルに
認識したい画像を与える
画像をベクトルに
画像とラベルの
ベクトル間類似度が
適切になるよう学習
画像とラベルの変換要モデル読込
入力を与え処理しやすい形に整形
画像とラベルのベクトル計算=Enc.
画像とラベルのベクトル間類似度計算

C L I P V i T v s R e s N e t
7
ImageNetで学習したResNetと比較すると、分布外シフトに対してCLIPのViTがかなり強い
ただし、NWの良しあしの問題なのか、学習データ量の問題なのかは不明
論文内ではNWの違いだけが判る実験もしてたかも
CLIPは4億組の画像テキストペア(ResNetの方はImageNet 1K(0.013億) or 21K(0.148億))
そもそもImageNet Adversarialとかは苦手なもの集められてるので不利と言えば不利な気も…
画像は[8-1]より引用画像は[8-1]より引用
参考文献: [8]
データセット
ResNet性能 ViT性能
アートっぽいやつで構成されたImageNet
回転してたり、視点が様々だったり実世界っぽいデータセット
(データ構築者の)ResNetで
認識に失敗したやつだけ集めたImageNet

C L I P の応用 ( 1 / 2 )
8
テキストからの画像生成(CogView, DALL-E等)はかなりそれっぽい画像を出してくれるように
DALL-Eの例のように、実世界の画像で実在しないようなものもそれっぽく生成されている
# CogViewデモ(https://wudao.aminer.cn/CogView/index.html)、DALL-E(DALL・E mini,小規模モデル)デモ(https://huggingface.co/spaces/flax-community/dalle-mini)
# DALL・E miniのデモは、DALL-Eとは全然違うなという印象
“an illustration of a baby daikon radish in a
tutu walking a dog”の生成結果
(DALL-E)
色んなテキストでの生成結果
(CogView)
参考文献: [3][4]
“チュチュを着た赤ちゃん大根が犬を散歩してる”という、
恐らくネットの海にも存在しないであろう画像を生成している
# “パジャマのピカチュウがバイクに乗ってる”
# の例が削除されており掲載出来ないのが残念
“油彩のライオン”, “スケッチの家”等、
スタイル指定のようなものも可能っぽい
“Cartoon”の有無で
生成画像のスタイルが変化
(右端上下比較)

C L I P の応用 ( 2 / 2 )
9
高画質な画像生成とテキストでの画像操作の組合せもインパクトある感じに
↓のCLIP + StyleGAN, CLIP + VQGANの例に、
更に高解像度化(Real-ESRGAN)、多視点画像生成(3D photo inpainting)を組合せる使用例も
# CLIP+VQGANのデモ(https://huggingface.co/spaces/akhaliq/VQGAN_CLIP)
各分野の技術の進歩が相乗効果でインパクトのある結果を出してきている
“Young Barack Obama”
(CLIP + StyleGAN)
“studio ghibli trending on artstation | vray”
(CLIP + VQGAN)
参考文献: [5][6][7][8][42][43]

余談 : U n r e a l E n g i n e T r i c k
10
“unreal engine”(3D制作エンジン)と付け足すと、リアリティのある画像が出るという謎テクも登場
AIのクセのようなものと上手く付き合う必要が出てくるかも?(脆弱性に繋がることもあるやも?)
“a transformer rendered in unreal engine”
(CLIP + VQGAN)
“Trojan Horse. unreal engine"
(CLIP + VQGAN)
参考文献: [6][8]

S t y l e C L I P
11
GANでつくった画像の特徴とテキストの特徴が一致するようにGANを調整してる(はず)
DALL-Eでは、生成された複数の画像がどれだけ入力文と近いかの順位付けという形で
CLIPが利用されており、アイディア的には似ている
参考文献: [7][8]
CLIPによって、画像とテキストの類似度を求め、
その結果が高くなるように画像生成のパラメタを最適化する

( メモ ) I m a g e S y n t h e s i s ( V Q G A N )
12
Megapixelな画像生成にTransformerを利用
計算コストの高いEnc.Dec.でなく、ベクトル量子化(VQ)にTransformerを利用→ハイレゾいける!
※ VQ-VAEが分からんですが、VQはDALL-Eとかでも使われてるらしい
参考文献: [6]
量子化のためのコードブック生成にTransformerを活用
方式概要生成画像例

画像生成以外でも
13
Zero Shot Object Trackingとして、YOLO + CLIP + Deep SORTが登場
YOLOで物体みつけて、CLIPでその特徴を出して、Deep SORTでフレーム間対応付け
という流れと思われる
画像は[44-2]より引用 ※gifなのでぜひアクセスしてみてください
参考文献: [44]
結果例

本章のまとめ
14
・画像の識別タスク(ImageNet)でTransformerを採用したViTが1位を獲得
・ ViTを活用したVision & Languageのモデルとして、
ゼロショット認識を実現したCLIPが登場
・ CLIPを活用して
- 言語からの画像生成(DALL-E, CogView)
- 高品質な画像生成・画像操作(CLIP x StyleGAN・VQGAN)
- ゼロショット物体追跡(CLIP x YOLO x DeepSORT)
など、インパクトのある結果が次々と登場
ViT, CLIPともに超大規模データで学習されており、
それが別タスクでばかばか利用されだしていることから、
自然言語同様、汎用的なモデルの到来を予感させる状況になってきたことを感じる

参考文献 ( 1 / 2 )
15
[1] An Image is Worth 16x16 Words Transformers for Image Recognition at Scale
[1-1] https://arxiv.org/abs/2010.11929
[1-2] https://qiita.com/omiita/items/0049ade809c4817670d7
[1-3] https://speakerdeck.com/forest1988/an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale?slide=38
[2] SSII2021Transformer x Computer Visionの実活用可能性と展望
https://www.slideshare.net/SSII_Slides/ssii2021-ss1-transformer-x-computer-vision-transformercomputer-vision
[3] CogView: Mastering Text-to-Image Generation via Transformers
[3-2] https://github.com/THUDM/CogView
[3-3] https://twitter.com/hillbig/status/1399146803065344000?s=20
[4] Zero-Shot Text-to-Image Generation
[4-1] https://openai.com/blog/dall-e/
[4-2] https://ai-scholar.tech/articles/deep-learning/dalle
[4-3] http://cedro3.com/ai/dall-e/
[4-4] https://note.com/npaka/n/n6ee9b102db4b
[5] A Style-Based Generator Architecture for Generative Adversarial Networks
https://arxiv.org/abs/1812.04948
[6] Taming Transformers for High-Resolution Image Synthesis
[6-2] https://compvis.github.io/taming-transformers/
[6-3] https://twitter.com/icoxfog417/status/1339943249293713411?s=20
[7] StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
[7-2] http://cedro3.com/ai/styleclip-g/
[7-3] https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery
[7-4] https://ai-scholar.tech/articles/gan/text_gans
[8] Learning Transferable Visual Models From Natural Language Supervision
[8-1] https://openai.com/blog/clip/
[8-2] https://deepsquare.jp/2021/01/clip-openai/
[8-3] https://data-analytics.fun/2021/03/24/understanding-openai-clip/
[9] OpenAI CLIPの使い方
https://note.com/npaka/n/n74a9b172b41d
[10] Transformerメタサーベイ
https://www.slideshare.net/cvpaperchallenge/transformer-247407256
[11] Vision and Languageと分野を取り巻く深層学習手法の紹介
https://speakerdeck.com/sei88888/vision-and-languagetofen-ye-woqu-rijuan-kushen-ceng-xue-xi-shou-fa-falseshao-jie?slide=60

参考文献 ( 2 / 2 )
16
[39] Self-training with Noisy Student improves ImageNet classification
[40] Big Transfer (BiT): General Visual Representation Learning
[41] Fixing the train-test resolution discrepancy: FixEfficientNet
[42] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
https://github.com/xinntao/Real-ESRGAN
[43] 3D Photography using Context-aware Layered Depth Inpainting
https://shihmengli.github.io/3D-Photo-Inpainting/
[44] Roboflow Object Tracking
[44-1] https://github.com/roboflow-ai/zero-shot-object-tracking
[44-2] https://blog.roboflow.com/zero-shot-object-tracking/
■ Twitterで見つけた画像
[8-4] Trojan Horse. unreal engine
https://twitter.com/arankomatsuzaki/status/1399839168839180289
[8-5] Young Barack Obama
https://twitter.com/arankomatsuzaki/status/1400113353897353218?s=20
[8-6] studio ghibli trending on artstation | vray
https://twitter.com/ak92501/status/1405412815062671360?s=20
[8-7] a transformer rendered in unreal engine
https://twitter.com/mark_riedl/status/1401989845870792706?s=20
[8-8] CLIP Guided Diffusion + Real-ESRGAN
[8-9] VQGAN + CLIP + 3D photo inpainting

T r a n s f o r m e r 、拡散
17

C l a s s i f i c a t i o n
18
物体認識ではImageNetで90%超えを達成(ViTのよりでかいモデル&Optimizer改良)
Re-IDは物体認識で性能良かった方式を持っていっただけでもさくっと改善した模様
TransReID
(車や人物のRe-ID(=再照合)で改善)
ViT(物体認識)
参考文献: [17][18]
画像は[17-1]より引用画像は[18]より引用
90%超の性能を実現
ResNet50との
処理時間比
人物再照合の結果
同等処理時間で
性能改善
処理時間長い
モデルで比較しても
改善

M o n o c u l a r D e p t h E s t i m a t i o n
19
エラー率?を改善. CNNと比べて、細部の奥行きをより詳細に推定可能で、
大きな均一領域でも頑張っている(と論文では記載)
※ DPTはリアルタイムで動くモデルもあるらしい…
参考文献: [12]
結果は[12-1]より引用画像は[12-1]より引用
従来(CNN)
エラー改善率
提案(Transformer)
エラー改善率

S e g m e n t a t i o n , R e s t o r a t i o n
20
性能数値だけでなく、パラメタ効率、計算量効率でもCNNに対して優位な結果が出ている
※ 左上が望ましい:左ほど低(パラメタ数or計算量), 上ほど高性能
前頁のDPT同様細部を改善出来ている? ⇒ CNNだとConv.で潰れてしまう特徴が拾えている?
SegFormer (Segmentation) UFormer (Restoration:ノイズ除去、ボケ復元等)
参考文献: [13][14]
画像は[13-1]より引用画像は[14]より引用
Transformer系が
全体的に強い細部を改善?
細部を改善?

A c t i o n R e c o g n i t i o n
21
動画になったり、新しい複雑なタスクになっても活躍
コンペにおいては、Transformer + CNNのアンサンブルは定石になりつつある印象を受ける
※ ソースはCVPR 2021の別コンペ結果や、Kagglerのツイート.初手Transformerの声も一部あり
ViViT (動画像分類)
Home Action Genome
(Scene-graph Generation, 人と物体の関係(行動)推定)
参考文献: [15][16]
Transforme系が良好
JFT=ViTで出てきたくそでかプライベートデータ
アーキよりデータのインパクトが大きい??
Swin Transformer+ResNet
アンサンブル
※単体でもSwin >= ResNet
CVPR 2021で開催のコンペ結果

本章のまとめ
22
Transformerのアーキテクチャを利用した手法が、
- 認識タスク: 物体認識、(人、車の)再照合(Re-ID)
- 奥行推定
- セグメンテーション
- 高画質化
- 動画像認識
- 新タスク(Home Action Genome≒人と物体の関係(行動)推定)
など様々なCVタスクで性能改善を実現
CNNに代わるアーキテクチャとして、Transformerへの期待が高まってきた

参考文献
23
[12] Vision Transformers for Dense Prediction
[12-2] https://ai-scholar.tech/articles/others/dense_transformer
[13] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
[13-2] https://twitter.com/AkiraTOSEI/status/1400399360857305091?s=20
[14] Uformer: A General U-Shaped Transformer for Image Restoration
[15] ViViT: A Video Vision Transformer
[15-2] https://cyberagent.ai/blog/research/14721/
[15-3] https://deideeplearning.com/2021/05/26/post-476/
[15-4] https://iaml-it.github.io/posts/2021-04-28-transformers-in-vision/
[16] Home Action Genome: Cooperative Compositional Action Understanding
[16-2] https://homeactiongenome.org/index.html
[16-3] https://homeactiongenome.org/results.html
[16-4] https://prtimes.jp/main/html/rd/p/000003982.000003442.html
[16-5] https://news.panasonic.com/jp/press/data/2020/10/jn201015-1/jn201015-1.html
[17] Scaling Vision Transformers
[17-3] https://twitter.com/neilhoulsby/status/1402517852754747393?s=20
[17-4] https://twitter.com/giffmana/status/1402488918331756550?s=20
[18] TransReID: Transformer-based Object Re-Identification
[37] Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
[37-2] https://kyla.co.jp/blog/2021/05/07/%E8%AB%96%E6%96%87%E7%B4%B9%E4%BB%8B%E3%80%8Erethinking-semantic-segmentation-from-a-sequence-to-sequence-perspective-with-
transformers%E3%80%8F/

問題と対策 i n 識別タスク
24

前章までで期待が高まってきたが
25
Transformer(ViT)にも問題はある
問題1. 学習データが大量になければ力が出ない
問題2. メモリ・計算量がでかい(というか効率がよろしくない)
これらに対してどういった取組がなされているか、以降のスライドで紹介していく
学習データ規模(横軸)と性能(縦軸)
BiTがCNN. ImageNetだとBiT>>ViT
21kでもBiT≒ViT
3億枚の非公開データでようやくViT>=BiTとなる
※ 円の大きさはパラメタ数
参考文献: [1][27][24]
画像は[1-1]より引用画像は[27-1]より引用画像は[24]より引用
解像度(横軸)とメモリ使用量(縦軸)
ViTとだいたい同じDeiT(ピンク)と、ResNet(茶色)に注目
DeITは解像度が上がると、 ResNetに比べ、
すごい勢いでメモリが増加
画像1枚でこれなので、バッチサイズ考えると…
計算量(横軸)と性能(縦軸)
Image Net 21kで学習した場合の結果
(なのでViTが弱いのは仕方ない部分もあり)
小さいEfficient Net v2(9GFLOPS)と、
でかいViT(200GFLOPS)で性能どっこい…
黄色がEfficientNet v2
朱色がViT

問題 1 への対策
26
色々あるが、
- CNNを取り込む(CNNを蒸留に活用する, CNN-likeな構造にする(速度・メモリ対策で紹介))
- BERTっぽく事前学習
- Optimizerを変える
- ハイパラチューニングする(参考文献[23])
- 数式に基づくフラクタル画像を利用する(参考文献[38])
などがある
(みんな3億枚のプライベートデータとか持ってないから色々出てくるんだろうなと)

C N N を蒸留に活用する ( D e i T )
27
それで良いのか?という気もするが、CNNから蒸留すると学習データ少なくてもCNN超えの性能に
参考文献: [19]
処理時間(横軸)と性能(縦軸)
Image Net 1kで学習した場合の結果
青丸のViTを赤丸のDeiTがぶっちぎっている
CNN(EfficientNet)に対しても優位
(処理時間はV100 GPUで計測)
蒸留のイメージ
蒸留トークンを入力に追加(こいつ自体学習する模様)
RegNetをTeacherにした実験結果が論文には掲載
Teacherのモデルより良い性能になっている
このtokenが肝
蒸留による損失
hard distillation
の方が性能良い
くっつけて流すだけ
途中はViTと同じ
実装(の一部)
hard distillationのため、
クラス推定2回やる

B E R T っぽく事前学習 ( B E i T )
28
マスクした部分の予測を行うタスクでImageNet 1Kを事前学習することで性能を改善
※ 16台のV100で5日これをやったあとFine Tuningの学習が必要な模様
2021/7月時点で、ImageNet 21kを使った場合、同じ学習データ利用モデルで最高性能(88.6%)
参考文献: [20]
結果は[20-1]より引用
DALL-Eで使われる
dVAE
[M]はマスクされた部分(の特徴)
画像を量子化された
特徴で表現
マスクされた部分に
対応する
量子化特徴表現を
当てる
DeiTと比べても改善

O p t i m i z e r を変える
29
ViTは局所最適に落ちやすい ⇒ SAMを使って回避
※ SAM(Sharpness-Aware Minimization): 周辺が平坦なパラメタを探索するOptimizer
SAMの式
近傍パラメタでの損失も考慮して、
そこでやたらでかい損失が出ないことを担保する
(近傍で一番でかいやつとの差が小さいと〇というお気持ち)
参考文献: [21][22]
loss landscapesが
尖ってない
loss landscapesが
尖ってる
SAM使って、
loss landscapesが
尖らなくなった
SAM使って、
性能が改善
同程度パラメタの
ResNetとコンパラ
L=損失

問題 2 への対策
30
色々あるが、
- CNN-likeな構造にする(分割処理する, 階層構造にする)
- CNNと組合わせる
- Attentionをもとに領域を絞る
- 計算量がサイズに大きく依存にしないようにする(参考文献[27])
などがある
CNN-like, CNNと組合わせるは紹介論文以外にもかなり沢山ある印象
(CNN-likeは、参考文献[2]を見ると参考になるかと)

分割処理する & 階層構造にする ( N e s T )
31
各部分領域に対しTransformerをかける、を階層的に行う
高速化効果に加えて、Augmentationが少なくてもある程度性能が出るように
参考文献: [26]
小領域でTransformer
中領域で
大領域で
重くならないよう
Poolingで集約
CNNと同等
処理時間で
性能改善
Random ErasingなしのDeiTは性能が劇的低下
NesTだと、そこまで大きなインパクトはない
CutMix/MixUpが比較的大きな影響だが、
DeiTほどではない

C N N と組合わせる ( C o A t N e t )
32
前半はDepth Wise Convして、後半はTransformerみたいなの
Attention部分も、CNNのカーネルみたいな要素を入れたRelative-Attentionにしている
Image Net 21Kを使えば88.56%出るのでプライベートデータありのViT並みの性能が出る
参考文献: [25]
DW Convの式 Self Attの式
Relative Attentionの式
AttentionをCNN-likeにしてる?
前半はConv 後半はTransformer
ImageNet21k使えば、
JFTありViT(88.55%)と
並ぶ88.56%を獲得
赤線がCoAtNet
他のTransformerより
計算効率が高い

A t t e n t i o n から領域を絞る ( D y n a m i c V i T )
33
トークンの特徴から有用かどうかを予測し、有用なものに絞って処理する
性能は多少犠牲になるが高速化効果が得られる
参考文献: [28]
特徴が有用かの推定器を↓とかで学習
・間引き前後で特徴が一致するよう蒸留
・目標削減率の達成度合いみたいな損失
トークン数が
計算量に当然影響
削れるほどコストカット
素の状態
提案手法でトークン数を7/10にすると、
FLOPsは40%弱カットでき、
スループットは50%改善@GPU
性能は0.5%ダウンで済む
入力解像度を下げる(384⇒320)より、
提案手法で削る方がバランス〇

本章のまとめ
34
Transformerにも↓の問題がある
・問題1. 学習データが大量になければ力が出ない
・問題2. メモリ・計算量がでかい(というか効率がよろしくない)
各々の問題への対応策として↓などがある
・解決策1. CNNを蒸留に活用, BERTっぽく事前学習, Optimizerを変える等
・解決策2. CNN-likeな構造にする, CNNと組合わせる, Attentionをもとに領域を絞る
結果として、Image Net 1kの世界では、同程度の学習データで、
性能と速度のバランスが取れたTransformerベースな手法が出てきている

参考文献
35
[19] Training data-efficient image transformers & distillation through attention
[19-2] https://deepsquare.jp/2021/01/deit/
[19-3] https://qiita.com/keiji_dl/items/a479babdeb3eff8b8883
[19-4] https://ai.facebook.com/blog/data-efficient-image-transformers-a-promising-new-technique-for-image-classification
[19-5] https://github.com/facebookresearch/deit/blob/main/models.py
[20] BEIT: BERT Pre-Training of Image Transformers
[20-3] https://twitter.com/dakuton/status/1405684998384930816?s=20
[21] When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations
[22] Sharpness-Aware Minimization for Efficiently Improving Generalization
[22-2] https://qiita.com/omiita/items/f24e4f06ae89115d248e
[23] How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
[23-2] https://twitter.com/giffmana/status/1406816598216876037?s=20
[23-3] https://twitter.com/__kolesnikov__/status/1406918712058433540?s=20
[23-4] https://twitter.com/bkrish_/status/1406960037130432514?s=20
[24] Transformers in Vision
https://iaml-it.github.io/posts/2021-04-28-transformers-in-vision/
[25] CoAtNet: Marrying Convolution and Attention for All Data Sizes
[25-2] https://andlukyane.com/blog/paper-review-coatnet
[25-3] https://twitter.com/AndLukyane/status/1402999448255438856?s=20
[26] Aggregating Nested Transformers
[26-2] https://twitter.com/Maxwell_110/status/1402383685324738562?s=20
[26-3] https://medium.com/syncedreview/google-rutgers-aggregating-nested-transformers-yield-better-accuracy-data-efficiency-and-e332553e24a1
[27] XCiT: Cross-Covariance Image Transformers
[27-2] https://www.youtube.com/watch?v=g08NkNWmZTA

参考文献
36
[28] DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification
[28-2] https://dynamicvit.ivg-research.xyz/
[28-3] https://github.com/raoyongming/DynamicViT
[38] Can Vision Transformers Learn without Natural Images?
[38-2] https://hirokatsukataoka16.github.io/Vision-Transformers-without-Natural-Images/

C N N とどこが違う ?
37

人間の知覚に近い ?
38
ViTの方がCNNに比べて、人間に近い間違え方をしている
Cohen‘s kappa: 間違えたサンプルの被り具合(多分)
Jensen-Shannon (JS) 距離: エラーの確率分布間距離.小さいほど分布が似ている
参考文献: [29][46]
先行研究[46]は、CNNは形状よりテクスチャを重視していると主張
・左端例: 人間は??となりそうだが、CNNは像だとわりと確信してこたえている
・右端例: 人間は多分猫とこたえる(少なくとも像とは言わない)が、CNNは像とこたえている
では、ViTだとどうだろうか? ということと、人間の認識の傾向との比較を扱っている[29]
縦軸
上下反転
注意
ViT(黄色)が、
ResNet50等CNNと比べて
間違えたサンプルが
人間と似てる ViTが、クラスごとの認識の失敗しやすさが、
人間と似てる. クラス間をどう間違えているかは、
CNNの方が人間に似ている?

分布シフトにロバスト ?
39
スケッチのようなStyleシフトや、テクスチャのシフトが起きた際に、
Transformer(DeiT)の方がCNN(BiT)よりも性能変化が小さい
参考文献: [31]
F:特徴表現を得エンコーダモデル
C: クラス分類の識別モデル
𝐷𝑖𝑖𝑑: 独立同分布(iid)のデータ
でValidationした性能
𝐷𝑜𝑜𝑑: ドメイン外(ood)のデータ
でValidationした性能
DeiT(Transformer)がBiT(CNN)より
ドメイン間の性能Gapが小さい
⇒ Transformerは分布外シフトにロバストっぽい
proxy A-distance(PAD)を測った結果
PAD: 2つのドメインを混ぜて学習したモデルでの、ドメイン分類エラー率で
ドメインの類似度を測る方法(だと思う)
異なるPADのデータセットを色々(右結果横軸)作って、
そこで認識性能がどう変わるか(右結果縦軸のGap)を検証するという話だと思う

顔認証で比べると ?
40
同程度の速度で同程度の性能が得られている模様
隠蔽度が大きくなるにつれ性能差が広がることから、Transformer(ViT)は隠蔽に弱い模様
参考文献: [32]
隠蔽度合い(横軸)と性能(縦軸)
各データセットで、画像に隠蔽処理を加えて、
隠蔽度合に応じて性能がどう変化するかを評価している
実線:ResNet, 点線: ViT, 色: 評価データ
実線の方が、点線に比べて、性能の落ち幅が小さく、
隠蔽へのロバスト性はCNNが優位と思われる
IJB-Cデータセットでの認識性能評価
ほぼViTまんまを使って、CNN(ResNet100)と同等速度&性能を獲得
※ 最初の入力のパッチ分割でオーバラップを許容するとか、小さな変更が入っている
学習データの規模がImageNetより大きい(クラス数約94Kクラス、画像数約5.3M枚)なのと、
入力が正規化されてるあたりで、ImageNetと違った傾向にあるのかもしれない

本章のまとめ
41
TransformerとCNNの違いについての研究も出てきている
これらの研究から、
・人間の知覚との類似性、Out of Domainなデータへのロバスト性ではTransformer優位
・隠蔽へのロバスト性ではCNN優位
・敵対的サンプルへのロバスト性は同程度だが、苦手なサンプルの傾向は違う(参考文献[30])
といった違いが見られている

参考文献
42
[29] Are Convolutional Neural Networks or Transformers more like human vision?
[29-2] https://ai-scholar.tech/articles/transformer/human_vision
[30] Understanding Robustness of Transformers for Image Classification
[30-3] https://twitter.com/Maxwell_110/status/1401658909442543617?s=20
[31] Delving Deep into the Generalization of Vision Transformers under Distribution Shifts
[31-2] https://github.com/Phoenix1153/ViT_OOD_generalization
[32] Face Transformer for Recognition
[32-2] https://github.com/zhongyy/Face-Transformer
[46] ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness
[46-2] https://github.com/rgeirhos/texture-vs-shape
[46-3] https://qiita.com/f0o0o/items/eb1e86d11318aeb54109

まとめと所感
43
■ まとめ
・パンチのある結果が出て、Transformerブームが到来
識別タスク以外でも、様々なタスクでTransformerが成果を上げている
・識別タスクでは①大規模データが必要、②計算コストが高い、の2点が主要な問題
画像のドメイン特性を活用するものや、自然言語処理の知見を入れ込むもの、
など様々なアプローチが取られている(ため論文数がえぐい勢いで増えている)
・ TransformerとCNNの違いも分析されつつある
どうも出力の傾向が違うようなので、アンサンブルさせると良さそうな雰囲気
(コンペ in CVPR2021の上位解法では実際にアンサンブルが採用されている)
■ 所感
識別タスクにおいては、CNNがTransformerに取って代わられるところまでは来ていない印象
とはいえ、紹介した様々な手法に加え、TransformerのNAS[47]や、AttentionとConvを候補に入
れたNAS[48]なんかも出ており、Transformerの成長は止まらなさそう。
大変だがなんとか頑張って追いかけていきたい

( おまけ ) 最高性能モデル達と計算リソース
44
最高性能を叩きだしているのは、ほぼGoogleのみ
(CNN含め) 90%超のモデルは、1枚のTPUv3だと、10K日≒27年以上学習にかかる
非Google モデルも32GBのV100のため、ImageNet最高性能を再現するのは骨が折れそう
モデル著者所属 ImageNet 学習データ学習時間
ViT[1] Google Research, Brain Team 88.55% JFT 300M 2.5k TPUv3 days
ViT(Scaling ViT)[17] Google Research, Brain Team 90.45% JFT 300M 10K > TPUv3 days
V-MoE[33] Google Brain 90.35% JFT 300M 16.8k TPUv3 days
EffNet + MPL[45] Google AI, Brain Team 90.2% JFT 300M 22.5K TPUv3 days
EffNet v2[34] Google Research, Brain Team
85.7%
87.3%
ImageNet 1K
ImageNet 21K
32+α TPUv3 days
64+α TPUv3 days
以下、非Googleの手法で高性能なTransformer(&CNN)
LV-ViT[35] ByteDance 86.4% ImageNet 1K 24+α V100 days
BEiT[20] Microsoft Research 86.3% Image Net 1K 80+α V100 days
T-ResNet-RS[36] Facebook AI Research 84.5% Image Net 1K 33+α V100 days
参考文献: [1][17][20][33][34][35][36][45] ©Panasonic Corporation 2021

参考文献
45
[33] Scaling Vision with Sparse Mixture of Experts
[33-2] https://twitter.com/joapuipe/status/1404346212116017153?s=20
[34] EfficientNetV2: Smaller Models and Faster Training
[34-2] https://qiita.com/omiita/items/1d96eae2b15e49235110
[35] All Tokens Matter: Token Labeling for Training Better Vision Transformers
[36] Transformed CNNs: recasting pre-trained convolutional layers with self-attention
[45] Meta Pseudo Labels
[45-2] https://qiita.com/takoroy/items/08ce473d304b8f987c32
[47] Vision Transformer Architecture Search
[47-2] https://github.com/xiusu/ViTAS
[48] BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search
[48-2] https://github.com/changlin31/BossNAS

Transformer 動向調査 in 画像認識(修正版)

More Related Content

What's hot

Similar to Transformer 動向調査 in 画像認識(修正版)

Recently uploaded

Transformer 動向調査 in 画像認識(修正版)