SlideShare a Scribd company logo
T r a n s f o r m e r 動 向 調 査
i n 画 像 認 識
パ ナ ソ ニ ッ ク 株 式 会 社
C N S 社 イ ノ ベ ー シ ョ ン セ ン タ ー
前 野 一 樹
は じ め に
2
発表者は、「Transformerブーム来てるけど使えるの?」、という感じで勉強中の人です
Transformerをガンガン使っていて超詳しい人とかではないので、
間違っている箇所もあると思います
色々突っ込んで頂いて、一緒に理解を深めることが出来ると嬉しいです
©Panasonic Corporation 2021
T r a n s f o r m e r ( V i T ) 、 襲 来
3
©Panasonic Corporation 2021
V i T 、 I m a g e N e t で 最 高 性 能 を 叩 き 出 す
4
Vision Transformer(ViT≒クソでかプライベートデータで殴っただけのTransformer)がCNN超え
※ CNN系のTop性能もImageNet以外の大規模データを使ってるのでそこの差が全てではない
参考文献: [1] [2]
画像は[2]より引用(原典は[1]) 画像は[2]より引用(認識性能の値は[39][40][41]より)
Noisy Studentのプロットは86.8%でarxiv初稿のTable 9の値
最新だと88.4%(EfficientNet-L2)
Transferと言いつつResNet
ImageNetで学習したら85.7%
やってることは以下のような感じで、画像向けにすごい工夫した感じはしない
・ 画像をパッチに分割して(ピクセル値のベクトルとして)入力
・ 活性化関数としてGELUを採用
・ Normの位置がMLP・MHAより前
CNNの方はアーキというより学習方法的な部分が変わってた感じ
・ Noisy Student: 学習⇒未ラベルデータにラベル付与+ノイズを強くして学習xN
・ Big Transfer: ViTと同じでかいデータで幅4倍とかしたでかいResNetを学習
・ Fix EfficientNet: 前処理の画像切出の差が学習とテストで影響しないよう調整
⇒ がっつりアーキ変えて最高性能は結構な衝撃
©Panasonic Corporation 2021
C L I P に よ る Z e r o - S h o t 認 識 ( 1 / 2 )
5
CLIP: 言語と画像のペアで事前学習 → Zero-Shotでの画像認識を実現
※ Zero-Shot認識: 特定データに特化した学習を行わなくても推論出来ちゃうとんでも技術
従来はhuman/dog/cat (cute/cool/scary)の3クラス分類問題を学習しないといけなかったが、
Zero-Shotでは、この分類問題の学習は不要
入力
候補ラベル a human a dog a cat
関連性 0.0957 0.01057 0.8936
候補ラベル cute cool scary
関連性 0.9546 0.02176 0.0239
出力(※候補ラベルも入力)
参考文献: [8] [9]
画像は[9]より引用
数値は[9]より引用
数値は[9]より引用
CLIP
同じ画像に対して違うラベルを与えても正しい(ただしそうな)結果が返ってくる
ラベルを↑の2つの例のように自由に与えられ、ラベルについて学習しなくて良い
©Panasonic Corporation 2021
C L I P に よ る Z e r o - S h o t 認 識 ( 2 / 2 )
6
CLIPはText Enc.とImage Enc.で構成. 各Enc.の出力間の類似度が適切になるよう学習している
このEnc.のNW構造としてどちらもTransformerが採用されている(画像はViT)
画像は[9]より引用
画像は[8-1]より引用
参考文献: [8] [9]
認識したいラベルを与える
“~(ラベル)の写真”
の形に整形 各ラベルをベクトルに
認識したい画像を与える
画像をベクトルに
画像とラベルの
ベクトル間類似度が
適切になるよう学習
画像とラベルの変換要モデル読込
入力を与え処理しやすい形に整形
画像とラベルのベクトル計算=Enc.
画像とラベルのベクトル間類似度計算
©Panasonic Corporation 2021
C L I P V i T v s R e s N e t
7
ImageNetで学習したResNetと比較すると、分布外シフトに対してCLIPのViTがかなり強い
ただし、NWの良しあしの問題なのか、学習データ量の問題なのかは不明
論文内ではNWの違いだけが判る実験もしてたかも
CLIPは4億組の画像テキストペア(ResNetの方はImageNet 1K(0.013億) or 21K(0.148億))
そもそもImageNet Adversarialとかは苦手なもの集められてるので不利と言えば不利な気も…
画像は[8-1]より引用 画像は[8-1]より引用
参考文献: [8]
データセット
ResNet性能 ViT性能
アートっぽいやつで構成されたImageNet
回転してたり、視点が様々だったり実世界っぽいデータセット
(データ構築者の)ResNetで
認識に失敗したやつだけ集めたImageNet
©Panasonic Corporation 2021
©Panasonic Corporation 2021
C L I P の 応 用 ( 1 / 2 )
8
テキストからの画像生成(CogView, DALL-E等)はかなりそれっぽい画像を出してくれるように
DALL-Eの例のように、実世界の画像で実在しないようなものもそれっぽく生成されている
# CogViewデモ(https://wudao.aminer.cn/CogView/index.html)、DALL-E(DALL・E mini,小規模モデル)デモ(https://huggingface.co/spaces/flax-community/dalle-mini)
# DALL・E miniのデモは、DALL-Eとは全然違うなという印象
“an illustration of a baby daikon radish in a
tutu walking a dog”の生成結果
(DALL-E)
色んなテキストでの生成結果
(CogView)
参考文献: [3][4]
“チュチュを着た赤ちゃん大根が犬を散歩してる”という、
恐らくネットの海にも存在しないであろう画像を生成している
# “パジャマのピカチュウがバイクに乗ってる”
# の例が削除されており掲載出来ないのが残念
“油彩のライオン”, “スケッチの家”等、
スタイル指定のようなものも可能っぽい
“Cartoon”の有無で
生成画像のスタイルが変化
(右端上下比較)
画像は[3-2]より引用
画像は[4-1]より引用
C L I P の 応 用 ( 2 / 2 )
9
高画質な画像生成とテキストでの画像操作の組合せもインパクトある感じに
↓のCLIP + StyleGAN, CLIP + VQGANの例に、
更に高解像度化(Real-ESRGAN)、多視点画像生成(3D photo inpainting)を組合せる使用例も
# CLIP+VQGANのデモ(https://huggingface.co/spaces/akhaliq/VQGAN_CLIP)
各分野の技術の進歩が相乗効果でインパクトのある結果を出してきている
“Young Barack Obama”
(CLIP + StyleGAN)
“studio ghibli trending on artstation | vray”
(CLIP + VQGAN)
参考文献: [5][6][7][8][42][43]
画像は[8-5]より引用 画像は[8-6]より引用
©Panasonic Corporation 2021
余 談 : U n r e a l E n g i n e T r i c k
10
“unreal engine”(3D制作エンジン)と付け足すと、リアリティのある画像が出るという謎テクも登場
AIのクセのようなものと上手く付き合う必要が出てくるかも?(脆弱性に繋がることもあるやも?)
“a transformer rendered in unreal engine”
(CLIP + VQGAN)
“Trojan Horse. unreal engine"
(CLIP + VQGAN)
参考文献: [6][8]
画像は[8-4]より引用 画像は[8-7]より引用
©Panasonic Corporation 2021
S t y l e C L I P
11
GANでつくった画像の特徴とテキストの特徴が一致するようにGANを調整してる(はず)
DALL-Eでは、生成された複数の画像がどれだけ入力文と近いかの順位付けという形で
CLIPが利用されており、アイディア的には似ている
参考文献: [7][8]
画像は[7-2]より引用
CLIPによって、画像とテキストの類似度を求め、
その結果が高くなるように画像生成のパラメタを最適化する
©Panasonic Corporation 2021
( メ モ ) I m a g e S y n t h e s i s ( V Q G A N )
12
Megapixelな画像生成にTransformerを利用
計算コストの高いEnc.Dec.でなく、ベクトル量子化(VQ)にTransformerを利用→ハイレゾいける!
※ VQ-VAEが分からんですが、VQはDALL-Eとかでも使われてるらしい
画像は[6-2]より引用
画像は[6-2]より引用
参考文献: [6]
量子化のためのコードブック生成にTransformerを活用
方式概要 生成画像例
©Panasonic Corporation 2021
画 像 生 成 以 外 で も
13
Zero Shot Object Trackingとして、YOLO + CLIP + Deep SORTが登場
YOLOで物体みつけて、CLIPでその特徴を出して、Deep SORTでフレーム間対応付け
という流れと思われる
画像は[44-2]より引用 ※gifなのでぜひアクセスしてみてください
参考文献: [44]
結果例
©Panasonic Corporation 2021
本 章 の ま と め
14
・ 画像の識別タスク(ImageNet)でTransformerを採用したViTが1位を獲得
・ ViTを活用したVision & Languageのモデルとして、
ゼロショット認識を実現したCLIPが登場
・ CLIPを活用して
- 言語からの画像生成(DALL-E, CogView)
- 高品質な画像生成・画像操作(CLIP x StyleGAN・VQGAN)
- ゼロショット物体追跡(CLIP x YOLO x DeepSORT)
など、インパクトのある結果が次々と登場
ViT, CLIPともに超大規模データで学習されており、
それが別タスクでばかばか利用されだしていることから、
自然言語同様、汎用的なモデルの到来を予感させる状況になってきたことを感じる
©Panasonic Corporation 2021
T r a n s f o r m e r 、 拡 散
17
©Panasonic Corporation 2021
M o n o c u l a r D e p t h E s t i m a t i o n
19
エラー率?を改善. CNNと比べて、細部の奥行きをより詳細に推定可能で、
大きな均一領域でも頑張っている(と論文では記載)
※ DPTはリアルタイムで動くモデルもあるらしい…
参考文献: [12]
結果は[12-1]より引用 画像は[12-1]より引用
従来(CNN)
エラー改善率
提案(Transformer)
エラー改善率
©Panasonic Corporation 2021
S e g m e n t a t i o n , R e s t o r a t i o n
20
性能数値だけでなく、パラメタ効率、計算量効率でもCNNに対して優位な結果が出ている
※ 左上が望ましい:左ほど低(パラメタ数or計算量), 上ほど高性能
前頁のDPT同様細部を改善出来ている? ⇒ CNNだとConv.で潰れてしまう特徴が拾えている?
SegFormer (Segmentation) UFormer (Restoration:ノイズ除去、ボケ復元等)
参考文献: [13][14]
画像は[13-1]より引用 画像は[14]より引用
Transformer系が
全体的に強い 細部を改善?
細部を改善?
©Panasonic Corporation 2021
A c t i o n R e c o g n i t i o n
21
動画になったり、新しい複雑なタスクになっても活躍
コンペにおいては、Transformer + CNNのアンサンブルは定石になりつつある印象を受ける
※ ソースはCVPR 2021の別コンペ結果や、Kagglerのツイート.初手Transformerの声も一部あり
ViViT (動画像分類)
Home Action Genome
(Scene-graph Generation, 人と物体の関係(行動)推定)
参考文献: [15][16]
画像は[15-1]より引用
画像は[16-3]より引用
画像は[16-5]より引用
Transforme系が良好
JFT=ViTで出てきたくそでかプライベートデータ
アーキよりデータのインパクトが大きい??
Swin Transformer+ResNet
アンサンブル
※単体でもSwin >= ResNet
CVPR 2021で開催のコンペ結果
©Panasonic Corporation 2021
本 章 の ま と め
22
Transformerのアーキテクチャを利用した手法が、
- 認識タスク: 物体認識、(人、車の)再照合(Re-ID)
- 奥行推定
- セグメンテーション
- 高画質化
- 動画像認識
- 新タスク(Home Action Genome≒人と物体の関係(行動)推定)
など様々なCVタスクで性能改善を実現
CNNに代わるアーキテクチャとして、Transformerへの期待が高まってきた
©Panasonic Corporation 2021
問 題 と 対 策 i n 識 別 タ ス ク
24
©Panasonic Corporation 2021
前 章 ま で で 期 待 が 高 ま っ て き た が
25
Transformer(ViT)にも問題はある
問題1. 学習データが大量になければ力が出ない
問題2. メモリ・計算量がでかい(というか効率がよろしくない)
これらに対してどういった取組がなされているか、以降のスライドで紹介していく
学習データ規模(横軸)と性能(縦軸)
BiTがCNN. ImageNetだとBiT>>ViT
21kでもBiT≒ViT
3億枚の非公開データでようやくViT>=BiTとなる
※ 円の大きさはパラメタ数
参考文献: [1][27][24]
画像は[1-1]より引用 画像は[27-1]より引用 画像は[24]より引用
解像度(横軸)とメモリ使用量(縦軸)
ViTとだいたい同じDeiT(ピンク)と、ResNet(茶色)に注目
DeITは解像度が上がると、 ResNetに比べ、
すごい勢いでメモリが増加
画像1枚でこれなので、バッチサイズ考えると…
計算量(横軸)と性能(縦軸)
Image Net 21kで学習した場合の結果
(なのでViTが弱いのは仕方ない部分もあり)
小さいEfficient Net v2(9GFLOPS)と、
でかいViT(200GFLOPS)で性能どっこい…
黄色がEfficientNet v2
朱色がViT
©Panasonic Corporation 2021
問 題 1 へ の 対 策
26
色々あるが、
- CNNを取り込む(CNNを蒸留に活用する, CNN-likeな構造にする(速度・メモリ対策で紹介))
- BERTっぽく事前学習
- Optimizerを変える
- ハイパラチューニングする(参考文献[23])
- 数式に基づくフラクタル画像を利用する(参考文献[38])
などがある
(みんな3億枚のプライベートデータとか持ってないから色々出てくるんだろうなと)
©Panasonic Corporation 2021
C N N を 蒸 留 に 活 用 す る ( D e i T )
27
それで良いのか?という気もするが、CNNから蒸留すると学習データ少なくてもCNN超えの性能に
画像は[19-4]より引用
画像は[19-4]より引用
参考文献: [19]
処理時間(横軸)と性能(縦軸)
Image Net 1kで学習した場合の結果
青丸のViTを赤丸のDeiTがぶっちぎっている
CNN(EfficientNet)に対しても優位
(処理時間はV100 GPUで計測)
蒸留のイメージ
(処理時間はV100 GPUで計測)
蒸留トークンを入力に追加(こいつ自体学習する模様)
RegNetをTeacherにした実験結果が論文には掲載
Teacherのモデルより良い性能になっている
このtokenが肝
蒸留による損失
hard distillation
の方が性能良い
画像は[19-5]より引用
くっつけて流すだけ
途中はViTと同じ
実装(の一部)
hard distillationのため、
クラス推定2回やる
©Panasonic Corporation 2021
B E R T っ ぽ く 事 前 学 習 ( B E i T )
28
マスクした部分の予測を行うタスクでImageNet 1Kを事前学習することで性能を改善
※ 16台のV100で5日これをやったあとFine Tuningの学習が必要な模様
2021/7月時点で、ImageNet 21kを使った場合、同じ学習データ利用モデルで最高性能(88.6%)
参考文献: [20]
結果は[20-1]より引用
画像は[20-1]より引用
DALL-Eで使われる
dVAE
[M]はマスクされた部分(の特徴)
画像を量子化された
特徴で表現
マスクされた部分に
対応する
量子化特徴表現を
当てる
DeiTと比べても改善
©Panasonic Corporation 2021
O p t i m i z e r を 変 え る
29
ViTは局所最適に落ちやすい ⇒ SAMを使って回避
※ SAM(Sharpness-Aware Minimization): 周辺が平坦なパラメタを探索するOptimizer
SAMの式
近傍パラメタでの損失も考慮して、
そこでやたらでかい損失が出ないことを担保する
(近傍で一番でかいやつとの差が小さいと〇というお気持ち)
参考文献: [21][22]
画像は[21-1]より引用
画像は[22-1]より引用
loss landscapesが
尖ってない
loss landscapesが
尖ってる
SAM使って、
loss landscapesが
尖らなくなった
SAM使って、
性能が改善
同程度パラメタの
ResNetとコンパラ
L=損失
©Panasonic Corporation 2021
問 題 2 へ の 対 策
30
色々あるが、
- CNN-likeな構造にする(分割処理する, 階層構造にする)
- CNNと組合わせる
- Attentionをもとに領域を絞る
- 計算量がサイズに大きく依存にしないようにする(参考文献[27])
などがある
CNN-like, CNNと組合わせるは紹介論文以外にもかなり沢山ある印象
(CNN-likeは、参考文献[2]を見ると参考になるかと)
©Panasonic Corporation 2021
分 割 処 理 す る & 階 層 構 造 に す る ( N e s T )
31
各部分領域に対しTransformerをかける、を階層的に行う
高速化効果に加えて、Augmentationが少なくてもある程度性能が出るように
参考文献: [26]
結果は[26-1]より引用
結果は[26-1]より引用
画像は[26-1]より引用
小領域でTransformer
中領域で
大領域で
重くならないよう
Poolingで集約
CNNと同等
処理時間で
性能改善
Random ErasingなしのDeiTは性能が劇的低下
NesTだと、そこまで大きなインパクトはない
CutMix/MixUpが比較的大きな影響だが、
DeiTほどではない
©Panasonic Corporation 2021
C N N と 組 合 わ せ る ( C o A t N e t )
32
前半はDepth Wise Convして、後半はTransformerみたいなの
Attention部分も、CNNのカーネルみたいな要素を入れたRelative-Attentionにしている
Image Net 21Kを使えば88.56%出るのでプライベートデータありのViT並みの性能が出る
参考文献: [25]
画像は[25-1]より引用
結果は[25-1]より引用
画像は[25-1]より引用
DW Convの式 Self Attの式
Relative Attentionの式
AttentionをCNN-likeにしてる?
前半はConv 後半はTransformer
ImageNet21k使えば、
JFTありViT(88.55%)と
並ぶ88.56%を獲得
赤線がCoAtNet
他のTransformerより
計算効率が高い
©Panasonic Corporation 2021
A t t e n t i o n か ら 領 域 を 絞 る ( D y n a m i c V i T )
33
トークンの特徴から有用かどうかを予測し、有用なものに絞って処理する
性能は多少犠牲になるが高速化効果が得られる
参考文献: [28]
画像は[28-1]より引用
結果は[28-1]より引用
結果は[28-1]より引用
特徴が有用かの推定器を↓とかで学習
・ 間引き前後で特徴が一致するよう蒸留
・ 目標削減率の達成度合いみたいな損失
トークン数が
計算量に当然影響
削れるほどコストカット
素の状態
提案手法でトークン数を7/10にすると、
FLOPsは40%弱カットでき、
スループットは50%改善@GPU
性能は0.5%ダウンで済む
入力解像度を下げる(384⇒320)より、
提案手法で削る方がバランス〇
©Panasonic Corporation 2021
本 章 の ま と め
34
Transformerにも↓の問題がある
・ 問題1. 学習データが大量になければ力が出ない
・ 問題2. メモリ・計算量がでかい(というか効率がよろしくない)
各々の問題への対応策として↓などがある
・ 解決策1. CNNを蒸留に活用, BERTっぽく事前学習, Optimizerを変える等
・ 解決策2. CNN-likeな構造にする, CNNと組合わせる, Attentionをもとに領域を絞る
結果として、Image Net 1kの世界では、同程度の学習データで、
性能と速度のバランスが取れたTransformerベースな手法が出てきている
©Panasonic Corporation 2021
C N N と ど こ が 違 う ?
37
©Panasonic Corporation 2021
人 間 の 知 覚 に 近 い ?
38
ViTの方がCNNに比べて、人間に近い間違え方をしている
Cohen‘s kappa: 間違えたサンプルの被り具合(多分)
Jensen-Shannon (JS) 距離: エラーの確率分布間距離.小さいほど分布が似ている
参考文献: [29][46]
結果は[29-1]より引用
画像は[46-2]より引用
先行研究[46]は、CNNは形状よりテクスチャを重視していると主張
・ 左端例: 人間は??となりそうだが、CNNは像だとわりと確信してこたえている
・ 右端例: 人間は多分猫とこたえる(少なくとも像とは言わない)が、CNNは像とこたえている
では、ViTだとどうだろうか? ということと、人間の認識の傾向との比較を扱っている[29]
縦軸
上下反転
注意
ViT(黄色)が、
ResNet50等CNNと比べて
間違えたサンプルが
人間と似てる ViTが、クラスごとの認識の失敗しやすさが、
人間と似てる. クラス間をどう間違えているかは、
CNNの方が人間に似ている?
©Panasonic Corporation 2021
分 布 シ フ ト に ロ バ ス ト ?
39
スケッチのようなStyleシフトや、テクスチャのシフトが起きた際に、
Transformer(DeiT)の方がCNN(BiT)よりも性能変化が小さい
参考文献: [31]
結果は[31-1]より引用
画像は[31-1]より引用
画像は[31-1]より引用
F:特徴表現を得エンコーダモデル
C: クラス分類の識別モデル
𝐷𝑖𝑖𝑑: 独立同分布(iid)のデータ
でValidationした性能
𝐷𝑜𝑜𝑑: ドメイン外(ood)のデータ
でValidationした性能
DeiT(Transformer)がBiT(CNN)より
ドメイン間の性能Gapが小さい
⇒ Transformerは分布外シフトにロバストっぽい
proxy A-distance(PAD)を測った結果
PAD: 2つのドメインを混ぜて学習したモデルでの、ドメイン分類エラー率で
ドメインの類似度を測る方法(だと思う)
異なるPADのデータセットを色々(右結果横軸)作って、
そこで認識性能がどう変わるか(右結果縦軸のGap)を検証するという話だと思う
©Panasonic Corporation 2021
顔 認 証 で 比 べ る と ?
40
同程度の速度で同程度の性能が得られている模様
隠蔽度が大きくなるにつれ性能差が広がることから、Transformer(ViT)は隠蔽に弱い模様
参考文献: [32]
結果は[32-1]より引用
結果は[32-1]より引用
隠蔽度合い(横軸)と性能(縦軸)
各データセットで、画像に隠蔽処理を加えて、
隠蔽度合に応じて性能がどう変化するかを評価している
実線:ResNet, 点線: ViT, 色: 評価データ
実線の方が、点線に比べて、性能の落ち幅が小さく、
隠蔽へのロバスト性はCNNが優位と思われる
IJB-Cデータセットでの認識性能評価
(処理時間はV100 GPUで計測)
ほぼViTまんまを使って、CNN(ResNet100)と同等速度&性能を獲得
※ 最初の入力のパッチ分割でオーバラップを許容するとか、小さな変更が入っている
学習データの規模がImageNetより大きい(クラス数約94Kクラス、画像数約5.3M枚)なのと、
入力が正規化されてるあたりで、ImageNetと違った傾向にあるのかもしれない
©Panasonic Corporation 2021
本 章 の ま と め
41
TransformerとCNNの違いについての研究も出てきている
これらの研究から、
・ 人間の知覚との類似性、Out of Domainなデータへのロバスト性ではTransformer優位
・ 隠蔽へのロバスト性ではCNN優位
・ 敵対的サンプルへのロバスト性は同程度だが、苦手なサンプルの傾向は違う(参考文献[30])
といった違いが見られている
©Panasonic Corporation 2021
ま と め と 所 感
43
■ まとめ
・ パンチのある結果が出て、Transformerブームが到来
識別タスク以外でも、様々なタスクでTransformerが成果を上げている
・ 識別タスクでは①大規模データが必要、②計算コストが高い、の2点が主要な問題
画像のドメイン特性を活用するものや、自然言語処理の知見を入れ込むもの、
など様々なアプローチが取られている(ため論文数がえぐい勢いで増えている)
・ TransformerとCNNの違いも分析されつつある
どうも出力の傾向が違うようなので、アンサンブルさせると良さそうな雰囲気
(コンペ in CVPR2021の上位解法では実際にアンサンブルが採用されている)
■ 所感
識別タスクにおいては、CNNがTransformerに取って代わられるところまでは来ていない印象
とはいえ、紹介した様々な手法に加え、TransformerのNAS[47]や、AttentionとConvを候補に入
れたNAS[48]なんかも出ており、Transformerの成長は止まらなさそう。
大変だがなんとか頑張って追いかけていきたい
©Panasonic Corporation 2021
( お ま け ) 最 高 性 能 モ デ ル 達 と 計 算 リ ソ ー ス
44
最高性能を叩きだしているのは、ほぼGoogleのみ
(CNN含め) 90%超のモデルは、1枚のTPUv3だと、10K日≒27年以上学習にかかる
非Google モデルも32GBのV100のため、ImageNet最高性能を再現するのは骨が折れそう
モデル 著者所属 ImageNet 学習データ 学習時間
ViT[1] Google Research, Brain Team 88.55% JFT 300M 2.5k TPUv3 days
ViT(Scaling ViT)[17] Google Research, Brain Team 90.45% JFT 300M 10K > TPUv3 days
V-MoE[33] Google Brain 90.35% JFT 300M 16.8k TPUv3 days
EffNet + MPL[45] Google AI, Brain Team 90.2% JFT 300M 22.5K TPUv3 days
EffNet v2[34] Google Research, Brain Team
85.7%
87.3%
ImageNet 1K
ImageNet 21K
32+α TPUv3 days
64+α TPUv3 days
以下、非Googleの手法で高性能なTransformer(&CNN)
LV-ViT[35] ByteDance 86.4% ImageNet 1K 24+α V100 days
BEiT[20] Microsoft Research 86.3% Image Net 1K 80+α V100 days
T-ResNet-RS[36] Facebook AI Research 84.5% Image Net 1K 33+α V100 days
参考文献: [1][17][20][33][34][35][36][45] ©Panasonic Corporation 2021

More Related Content

What's hot

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
tancoro
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 

What's hot (20)

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 

Similar to Transformer 動向調査 in 画像認識

Video + Language
Video + LanguageVideo + Language
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
Deep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & FutureDeep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & Future
Rouyun Pan
 
Tsvi Lev. Practical Explainability for AI - with examples
Tsvi Lev. Practical Explainability for AI - with examplesTsvi Lev. Practical Explainability for AI - with examples
Tsvi Lev. Practical Explainability for AI - with examples
Lviv Startup Club
 
convolutional_neural_networks.pptx
convolutional_neural_networks.pptxconvolutional_neural_networks.pptx
convolutional_neural_networks.pptx
MsKiranSingh
 
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
Edge AI and Vision Alliance
 
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
CHENHuiMei
 
Transformer models for FER
Transformer models for FERTransformer models for FER
Transformer models for FER
IRJET Journal
 
Inception v4 vs Inception Resnet v2.pdf
Inception v4 vs Inception Resnet v2.pdfInception v4 vs Inception Resnet v2.pdf
Inception v4 vs Inception Resnet v2.pdf
ChauVVan
 
210610 SSIIi2021 Computer Vision x Trasnformer
210610 SSIIi2021 Computer Vision x Trasnformer210610 SSIIi2021 Computer Vision x Trasnformer
210610 SSIIi2021 Computer Vision x Trasnformer
exwzds
 
深度學習在AOI的應用
深度學習在AOI的應用深度學習在AOI的應用
深度學習在AOI的應用
CHENHuiMei
 
Dataset creation for Deep Learning-based Geometric Computer Vision problems
Dataset creation for Deep Learning-based Geometric Computer Vision problemsDataset creation for Deep Learning-based Geometric Computer Vision problems
Dataset creation for Deep Learning-based Geometric Computer Vision problems
PetteriTeikariPhD
 
Anomaly Detection with Azure and .NET
Anomaly Detection with Azure and .NETAnomaly Detection with Azure and .NET
Anomaly Detection with Azure and .NET
Marco Parenzan
 
Anomaly Detection with Azure and .net
Anomaly Detection with Azure and .netAnomaly Detection with Azure and .net
Anomaly Detection with Azure and .net
Marco Parenzan
 
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
Bruno Capuano
 
Convolution Neural Network (CNN)
Convolution Neural Network (CNN)Convolution Neural Network (CNN)
Convolution Neural Network (CNN)
Suraj Aavula
 
Illustrative Introductory CNN
Illustrative Introductory CNNIllustrative Introductory CNN
Illustrative Introductory CNN
YasutoTamura1
 
Video+Language: From Classification to Description
Video+Language: From Classification to DescriptionVideo+Language: From Classification to Description
Video+Language: From Classification to Description
Goergen Institute for Data Science
 
보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?
광희 이
 

Similar to Transformer 動向調査 in 画像認識 (20)

Video + Language 2019
Video + Language 2019Video + Language 2019
Video + Language 2019
 
Video + Language
Video + LanguageVideo + Language
Video + Language
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
Deep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & FutureDeep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & Future
 
Tsvi Lev. Practical Explainability for AI - with examples
Tsvi Lev. Practical Explainability for AI - with examplesTsvi Lev. Practical Explainability for AI - with examples
Tsvi Lev. Practical Explainability for AI - with examples
 
convolutional_neural_networks.pptx
convolutional_neural_networks.pptxconvolutional_neural_networks.pptx
convolutional_neural_networks.pptx
 
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
“High-fidelity Conversion of Floating-point Networks for Low-precision Infere...
 
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
小數據如何實現電腦視覺,微軟AI研究首席剖析關鍵
 
Transformer models for FER
Transformer models for FERTransformer models for FER
Transformer models for FER
 
Inception v4 vs Inception Resnet v2.pdf
Inception v4 vs Inception Resnet v2.pdfInception v4 vs Inception Resnet v2.pdf
Inception v4 vs Inception Resnet v2.pdf
 
210610 SSIIi2021 Computer Vision x Trasnformer
210610 SSIIi2021 Computer Vision x Trasnformer210610 SSIIi2021 Computer Vision x Trasnformer
210610 SSIIi2021 Computer Vision x Trasnformer
 
深度學習在AOI的應用
深度學習在AOI的應用深度學習在AOI的應用
深度學習在AOI的應用
 
Dataset creation for Deep Learning-based Geometric Computer Vision problems
Dataset creation for Deep Learning-based Geometric Computer Vision problemsDataset creation for Deep Learning-based Geometric Computer Vision problems
Dataset creation for Deep Learning-based Geometric Computer Vision problems
 
Anomaly Detection with Azure and .NET
Anomaly Detection with Azure and .NETAnomaly Detection with Azure and .NET
Anomaly Detection with Azure and .NET
 
Anomaly Detection with Azure and .net
Anomaly Detection with Azure and .netAnomaly Detection with Azure and .net
Anomaly Detection with Azure and .net
 
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
2019 05 11 Chicago Codecamp - Deep Learning for everyone? Challenge Accepted!
 
Convolution Neural Network (CNN)
Convolution Neural Network (CNN)Convolution Neural Network (CNN)
Convolution Neural Network (CNN)
 
Illustrative Introductory CNN
Illustrative Introductory CNNIllustrative Introductory CNN
Illustrative Introductory CNN
 
Video+Language: From Classification to Description
Video+Language: From Classification to DescriptionVideo+Language: From Classification to Description
Video+Language: From Classification to Description
 
보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?보다 유연한 이미지 변환을 하려면?
보다 유연한 이미지 변환을 하려면?
 

Recently uploaded

The Future of Platform Engineering
The Future of Platform EngineeringThe Future of Platform Engineering
The Future of Platform Engineering
Jemma Hussein Allen
 
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Thierry Lestable
 
PHP Frameworks: I want to break free (IPC Berlin 2024)
PHP Frameworks: I want to break free (IPC Berlin 2024)PHP Frameworks: I want to break free (IPC Berlin 2024)
PHP Frameworks: I want to break free (IPC Berlin 2024)
Ralf Eggert
 
Essentials of Automations: Optimizing FME Workflows with Parameters
Essentials of Automations: Optimizing FME Workflows with ParametersEssentials of Automations: Optimizing FME Workflows with Parameters
Essentials of Automations: Optimizing FME Workflows with Parameters
Safe Software
 
Accelerate your Kubernetes clusters with Varnish Caching
Accelerate your Kubernetes clusters with Varnish CachingAccelerate your Kubernetes clusters with Varnish Caching
Accelerate your Kubernetes clusters with Varnish Caching
Thijs Feryn
 
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdfFIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
FIDO Alliance
 
Knowledge engineering: from people to machines and back
Knowledge engineering: from people to machines and backKnowledge engineering: from people to machines and back
Knowledge engineering: from people to machines and back
Elena Simperl
 
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdfFIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
FIDO Alliance
 
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
Sri Ambati
 
Key Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdfKey Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdf
Cheryl Hung
 
FIDO Alliance Osaka Seminar: Overview.pdf
FIDO Alliance Osaka Seminar: Overview.pdfFIDO Alliance Osaka Seminar: Overview.pdf
FIDO Alliance Osaka Seminar: Overview.pdf
FIDO Alliance
 
ODC, Data Fabric and Architecture User Group
ODC, Data Fabric and Architecture User GroupODC, Data Fabric and Architecture User Group
ODC, Data Fabric and Architecture User Group
CatarinaPereira64715
 
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
Product School
 
The Art of the Pitch: WordPress Relationships and Sales
The Art of the Pitch: WordPress Relationships and SalesThe Art of the Pitch: WordPress Relationships and Sales
The Art of the Pitch: WordPress Relationships and Sales
Laura Byrne
 
JMeter webinar - integration with InfluxDB and Grafana
JMeter webinar - integration with InfluxDB and GrafanaJMeter webinar - integration with InfluxDB and Grafana
JMeter webinar - integration with InfluxDB and Grafana
RTTS
 
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
Product School
 
When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...
Elena Simperl
 
Search and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical FuturesSearch and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical Futures
Bhaskar Mitra
 
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
DanBrown980551
 
Assuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyesAssuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyes
ThousandEyes
 

Recently uploaded (20)

The Future of Platform Engineering
The Future of Platform EngineeringThe Future of Platform Engineering
The Future of Platform Engineering
 
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
 
PHP Frameworks: I want to break free (IPC Berlin 2024)
PHP Frameworks: I want to break free (IPC Berlin 2024)PHP Frameworks: I want to break free (IPC Berlin 2024)
PHP Frameworks: I want to break free (IPC Berlin 2024)
 
Essentials of Automations: Optimizing FME Workflows with Parameters
Essentials of Automations: Optimizing FME Workflows with ParametersEssentials of Automations: Optimizing FME Workflows with Parameters
Essentials of Automations: Optimizing FME Workflows with Parameters
 
Accelerate your Kubernetes clusters with Varnish Caching
Accelerate your Kubernetes clusters with Varnish CachingAccelerate your Kubernetes clusters with Varnish Caching
Accelerate your Kubernetes clusters with Varnish Caching
 
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdfFIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
FIDO Alliance Osaka Seminar: The WebAuthn API and Discoverable Credentials.pdf
 
Knowledge engineering: from people to machines and back
Knowledge engineering: from people to machines and backKnowledge engineering: from people to machines and back
Knowledge engineering: from people to machines and back
 
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdfFIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
FIDO Alliance Osaka Seminar: Passkeys and the Road Ahead.pdf
 
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
GenAISummit 2024 May 28 Sri Ambati Keynote: AGI Belongs to The Community in O...
 
Key Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdfKey Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdf
 
FIDO Alliance Osaka Seminar: Overview.pdf
FIDO Alliance Osaka Seminar: Overview.pdfFIDO Alliance Osaka Seminar: Overview.pdf
FIDO Alliance Osaka Seminar: Overview.pdf
 
ODC, Data Fabric and Architecture User Group
ODC, Data Fabric and Architecture User GroupODC, Data Fabric and Architecture User Group
ODC, Data Fabric and Architecture User Group
 
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
Unsubscribed: Combat Subscription Fatigue With a Membership Mentality by Head...
 
The Art of the Pitch: WordPress Relationships and Sales
The Art of the Pitch: WordPress Relationships and SalesThe Art of the Pitch: WordPress Relationships and Sales
The Art of the Pitch: WordPress Relationships and Sales
 
JMeter webinar - integration with InfluxDB and Grafana
JMeter webinar - integration with InfluxDB and GrafanaJMeter webinar - integration with InfluxDB and Grafana
JMeter webinar - integration with InfluxDB and Grafana
 
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
 
When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...
 
Search and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical FuturesSearch and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical Futures
 
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
LF Energy Webinar: Electrical Grid Modelling and Simulation Through PowSyBl -...
 
Assuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyesAssuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyes
 

Transformer 動向調査 in 画像認識

  • 1. T r a n s f o r m e r 動 向 調 査 i n 画 像 認 識 パ ナ ソ ニ ッ ク 株 式 会 社 C N S 社 イ ノ ベ ー シ ョ ン セ ン タ ー 前 野 一 樹
  • 2. は じ め に 2 発表者は、「Transformerブーム来てるけど使えるの?」、という感じで勉強中の人です Transformerをガンガン使っていて超詳しい人とかではないので、 間違っている箇所もあると思います 色々突っ込んで頂いて、一緒に理解を深めることが出来ると嬉しいです ©Panasonic Corporation 2021
  • 3. T r a n s f o r m e r ( V i T ) 、 襲 来 3 ©Panasonic Corporation 2021
  • 4. V i T 、 I m a g e N e t で 最 高 性 能 を 叩 き 出 す 4 Vision Transformer(ViT≒クソでかプライベートデータで殴っただけのTransformer)がCNN超え ※ CNN系のTop性能もImageNet以外の大規模データを使ってるのでそこの差が全てではない 参考文献: [1] [2] 画像は[2]より引用(原典は[1]) 画像は[2]より引用(認識性能の値は[39][40][41]より) Noisy Studentのプロットは86.8%でarxiv初稿のTable 9の値 最新だと88.4%(EfficientNet-L2) Transferと言いつつResNet ImageNetで学習したら85.7% やってることは以下のような感じで、画像向けにすごい工夫した感じはしない ・ 画像をパッチに分割して(ピクセル値のベクトルとして)入力 ・ 活性化関数としてGELUを採用 ・ Normの位置がMLP・MHAより前 CNNの方はアーキというより学習方法的な部分が変わってた感じ ・ Noisy Student: 学習⇒未ラベルデータにラベル付与+ノイズを強くして学習xN ・ Big Transfer: ViTと同じでかいデータで幅4倍とかしたでかいResNetを学習 ・ Fix EfficientNet: 前処理の画像切出の差が学習とテストで影響しないよう調整 ⇒ がっつりアーキ変えて最高性能は結構な衝撃 ©Panasonic Corporation 2021
  • 5. C L I P に よ る Z e r o - S h o t 認 識 ( 1 / 2 ) 5 CLIP: 言語と画像のペアで事前学習 → Zero-Shotでの画像認識を実現 ※ Zero-Shot認識: 特定データに特化した学習を行わなくても推論出来ちゃうとんでも技術 従来はhuman/dog/cat (cute/cool/scary)の3クラス分類問題を学習しないといけなかったが、 Zero-Shotでは、この分類問題の学習は不要 入力 候補ラベル a human a dog a cat 関連性 0.0957 0.01057 0.8936 候補ラベル cute cool scary 関連性 0.9546 0.02176 0.0239 出力(※候補ラベルも入力) 参考文献: [8] [9] 画像は[9]より引用 数値は[9]より引用 数値は[9]より引用 CLIP 同じ画像に対して違うラベルを与えても正しい(ただしそうな)結果が返ってくる ラベルを↑の2つの例のように自由に与えられ、ラベルについて学習しなくて良い ©Panasonic Corporation 2021
  • 6. C L I P に よ る Z e r o - S h o t 認 識 ( 2 / 2 ) 6 CLIPはText Enc.とImage Enc.で構成. 各Enc.の出力間の類似度が適切になるよう学習している このEnc.のNW構造としてどちらもTransformerが採用されている(画像はViT) 画像は[9]より引用 画像は[8-1]より引用 参考文献: [8] [9] 認識したいラベルを与える “~(ラベル)の写真” の形に整形 各ラベルをベクトルに 認識したい画像を与える 画像をベクトルに 画像とラベルの ベクトル間類似度が 適切になるよう学習 画像とラベルの変換要モデル読込 入力を与え処理しやすい形に整形 画像とラベルのベクトル計算=Enc. 画像とラベルのベクトル間類似度計算 ©Panasonic Corporation 2021
  • 7. C L I P V i T v s R e s N e t 7 ImageNetで学習したResNetと比較すると、分布外シフトに対してCLIPのViTがかなり強い ただし、NWの良しあしの問題なのか、学習データ量の問題なのかは不明 論文内ではNWの違いだけが判る実験もしてたかも CLIPは4億組の画像テキストペア(ResNetの方はImageNet 1K(0.013億) or 21K(0.148億)) そもそもImageNet Adversarialとかは苦手なもの集められてるので不利と言えば不利な気も… 画像は[8-1]より引用 画像は[8-1]より引用 参考文献: [8] データセット ResNet性能 ViT性能 アートっぽいやつで構成されたImageNet 回転してたり、視点が様々だったり実世界っぽいデータセット (データ構築者の)ResNetで 認識に失敗したやつだけ集めたImageNet ©Panasonic Corporation 2021
  • 8. ©Panasonic Corporation 2021 C L I P の 応 用 ( 1 / 2 ) 8 テキストからの画像生成(CogView, DALL-E等)はかなりそれっぽい画像を出してくれるように DALL-Eの例のように、実世界の画像で実在しないようなものもそれっぽく生成されている # CogViewデモ(https://wudao.aminer.cn/CogView/index.html)、DALL-E(DALL・E mini,小規模モデル)デモ(https://huggingface.co/spaces/flax-community/dalle-mini) # DALL・E miniのデモは、DALL-Eとは全然違うなという印象 “an illustration of a baby daikon radish in a tutu walking a dog”の生成結果 (DALL-E) 色んなテキストでの生成結果 (CogView) 参考文献: [3][4] “チュチュを着た赤ちゃん大根が犬を散歩してる”という、 恐らくネットの海にも存在しないであろう画像を生成している # “パジャマのピカチュウがバイクに乗ってる” # の例が削除されており掲載出来ないのが残念 “油彩のライオン”, “スケッチの家”等、 スタイル指定のようなものも可能っぽい “Cartoon”の有無で 生成画像のスタイルが変化 (右端上下比較) 画像は[3-2]より引用 画像は[4-1]より引用
  • 9. C L I P の 応 用 ( 2 / 2 ) 9 高画質な画像生成とテキストでの画像操作の組合せもインパクトある感じに ↓のCLIP + StyleGAN, CLIP + VQGANの例に、 更に高解像度化(Real-ESRGAN)、多視点画像生成(3D photo inpainting)を組合せる使用例も # CLIP+VQGANのデモ(https://huggingface.co/spaces/akhaliq/VQGAN_CLIP) 各分野の技術の進歩が相乗効果でインパクトのある結果を出してきている “Young Barack Obama” (CLIP + StyleGAN) “studio ghibli trending on artstation | vray” (CLIP + VQGAN) 参考文献: [5][6][7][8][42][43] 画像は[8-5]より引用 画像は[8-6]より引用 ©Panasonic Corporation 2021
  • 10. 余 談 : U n r e a l E n g i n e T r i c k 10 “unreal engine”(3D制作エンジン)と付け足すと、リアリティのある画像が出るという謎テクも登場 AIのクセのようなものと上手く付き合う必要が出てくるかも?(脆弱性に繋がることもあるやも?) “a transformer rendered in unreal engine” (CLIP + VQGAN) “Trojan Horse. unreal engine" (CLIP + VQGAN) 参考文献: [6][8] 画像は[8-4]より引用 画像は[8-7]より引用 ©Panasonic Corporation 2021
  • 11. S t y l e C L I P 11 GANでつくった画像の特徴とテキストの特徴が一致するようにGANを調整してる(はず) DALL-Eでは、生成された複数の画像がどれだけ入力文と近いかの順位付けという形で CLIPが利用されており、アイディア的には似ている 参考文献: [7][8] 画像は[7-2]より引用 CLIPによって、画像とテキストの類似度を求め、 その結果が高くなるように画像生成のパラメタを最適化する ©Panasonic Corporation 2021
  • 12. ( メ モ ) I m a g e S y n t h e s i s ( V Q G A N ) 12 Megapixelな画像生成にTransformerを利用 計算コストの高いEnc.Dec.でなく、ベクトル量子化(VQ)にTransformerを利用→ハイレゾいける! ※ VQ-VAEが分からんですが、VQはDALL-Eとかでも使われてるらしい 画像は[6-2]より引用 画像は[6-2]より引用 参考文献: [6] 量子化のためのコードブック生成にTransformerを活用 方式概要 生成画像例 ©Panasonic Corporation 2021
  • 13. 画 像 生 成 以 外 で も 13 Zero Shot Object Trackingとして、YOLO + CLIP + Deep SORTが登場 YOLOで物体みつけて、CLIPでその特徴を出して、Deep SORTでフレーム間対応付け という流れと思われる 画像は[44-2]より引用 ※gifなのでぜひアクセスしてみてください 参考文献: [44] 結果例 ©Panasonic Corporation 2021
  • 14. 本 章 の ま と め 14 ・ 画像の識別タスク(ImageNet)でTransformerを採用したViTが1位を獲得 ・ ViTを活用したVision & Languageのモデルとして、 ゼロショット認識を実現したCLIPが登場 ・ CLIPを活用して - 言語からの画像生成(DALL-E, CogView) - 高品質な画像生成・画像操作(CLIP x StyleGAN・VQGAN) - ゼロショット物体追跡(CLIP x YOLO x DeepSORT) など、インパクトのある結果が次々と登場 ViT, CLIPともに超大規模データで学習されており、 それが別タスクでばかばか利用されだしていることから、 自然言語同様、汎用的なモデルの到来を予感させる状況になってきたことを感じる ©Panasonic Corporation 2021
  • 15. T r a n s f o r m e r 、 拡 散 17 ©Panasonic Corporation 2021
  • 16. M o n o c u l a r D e p t h E s t i m a t i o n 19 エラー率?を改善. CNNと比べて、細部の奥行きをより詳細に推定可能で、 大きな均一領域でも頑張っている(と論文では記載) ※ DPTはリアルタイムで動くモデルもあるらしい… 参考文献: [12] 結果は[12-1]より引用 画像は[12-1]より引用 従来(CNN) エラー改善率 提案(Transformer) エラー改善率 ©Panasonic Corporation 2021
  • 17. S e g m e n t a t i o n , R e s t o r a t i o n 20 性能数値だけでなく、パラメタ効率、計算量効率でもCNNに対して優位な結果が出ている ※ 左上が望ましい:左ほど低(パラメタ数or計算量), 上ほど高性能 前頁のDPT同様細部を改善出来ている? ⇒ CNNだとConv.で潰れてしまう特徴が拾えている? SegFormer (Segmentation) UFormer (Restoration:ノイズ除去、ボケ復元等) 参考文献: [13][14] 画像は[13-1]より引用 画像は[14]より引用 Transformer系が 全体的に強い 細部を改善? 細部を改善? ©Panasonic Corporation 2021
  • 18. A c t i o n R e c o g n i t i o n 21 動画になったり、新しい複雑なタスクになっても活躍 コンペにおいては、Transformer + CNNのアンサンブルは定石になりつつある印象を受ける ※ ソースはCVPR 2021の別コンペ結果や、Kagglerのツイート.初手Transformerの声も一部あり ViViT (動画像分類) Home Action Genome (Scene-graph Generation, 人と物体の関係(行動)推定) 参考文献: [15][16] 画像は[15-1]より引用 画像は[16-3]より引用 画像は[16-5]より引用 Transforme系が良好 JFT=ViTで出てきたくそでかプライベートデータ アーキよりデータのインパクトが大きい?? Swin Transformer+ResNet アンサンブル ※単体でもSwin >= ResNet CVPR 2021で開催のコンペ結果 ©Panasonic Corporation 2021
  • 19. 本 章 の ま と め 22 Transformerのアーキテクチャを利用した手法が、 - 認識タスク: 物体認識、(人、車の)再照合(Re-ID) - 奥行推定 - セグメンテーション - 高画質化 - 動画像認識 - 新タスク(Home Action Genome≒人と物体の関係(行動)推定) など様々なCVタスクで性能改善を実現 CNNに代わるアーキテクチャとして、Transformerへの期待が高まってきた ©Panasonic Corporation 2021
  • 20. 問 題 と 対 策 i n 識 別 タ ス ク 24 ©Panasonic Corporation 2021
  • 21. 前 章 ま で で 期 待 が 高 ま っ て き た が 25 Transformer(ViT)にも問題はある 問題1. 学習データが大量になければ力が出ない 問題2. メモリ・計算量がでかい(というか効率がよろしくない) これらに対してどういった取組がなされているか、以降のスライドで紹介していく 学習データ規模(横軸)と性能(縦軸) BiTがCNN. ImageNetだとBiT>>ViT 21kでもBiT≒ViT 3億枚の非公開データでようやくViT>=BiTとなる ※ 円の大きさはパラメタ数 参考文献: [1][27][24] 画像は[1-1]より引用 画像は[27-1]より引用 画像は[24]より引用 解像度(横軸)とメモリ使用量(縦軸) ViTとだいたい同じDeiT(ピンク)と、ResNet(茶色)に注目 DeITは解像度が上がると、 ResNetに比べ、 すごい勢いでメモリが増加 画像1枚でこれなので、バッチサイズ考えると… 計算量(横軸)と性能(縦軸) Image Net 21kで学習した場合の結果 (なのでViTが弱いのは仕方ない部分もあり) 小さいEfficient Net v2(9GFLOPS)と、 でかいViT(200GFLOPS)で性能どっこい… 黄色がEfficientNet v2 朱色がViT ©Panasonic Corporation 2021
  • 22. 問 題 1 へ の 対 策 26 色々あるが、 - CNNを取り込む(CNNを蒸留に活用する, CNN-likeな構造にする(速度・メモリ対策で紹介)) - BERTっぽく事前学習 - Optimizerを変える - ハイパラチューニングする(参考文献[23]) - 数式に基づくフラクタル画像を利用する(参考文献[38]) などがある (みんな3億枚のプライベートデータとか持ってないから色々出てくるんだろうなと) ©Panasonic Corporation 2021
  • 23. C N N を 蒸 留 に 活 用 す る ( D e i T ) 27 それで良いのか?という気もするが、CNNから蒸留すると学習データ少なくてもCNN超えの性能に 画像は[19-4]より引用 画像は[19-4]より引用 参考文献: [19] 処理時間(横軸)と性能(縦軸) Image Net 1kで学習した場合の結果 青丸のViTを赤丸のDeiTがぶっちぎっている CNN(EfficientNet)に対しても優位 (処理時間はV100 GPUで計測) 蒸留のイメージ (処理時間はV100 GPUで計測) 蒸留トークンを入力に追加(こいつ自体学習する模様) RegNetをTeacherにした実験結果が論文には掲載 Teacherのモデルより良い性能になっている このtokenが肝 蒸留による損失 hard distillation の方が性能良い 画像は[19-5]より引用 くっつけて流すだけ 途中はViTと同じ 実装(の一部) hard distillationのため、 クラス推定2回やる ©Panasonic Corporation 2021
  • 24. B E R T っ ぽ く 事 前 学 習 ( B E i T ) 28 マスクした部分の予測を行うタスクでImageNet 1Kを事前学習することで性能を改善 ※ 16台のV100で5日これをやったあとFine Tuningの学習が必要な模様 2021/7月時点で、ImageNet 21kを使った場合、同じ学習データ利用モデルで最高性能(88.6%) 参考文献: [20] 結果は[20-1]より引用 画像は[20-1]より引用 DALL-Eで使われる dVAE [M]はマスクされた部分(の特徴) 画像を量子化された 特徴で表現 マスクされた部分に 対応する 量子化特徴表現を 当てる DeiTと比べても改善 ©Panasonic Corporation 2021
  • 25. O p t i m i z e r を 変 え る 29 ViTは局所最適に落ちやすい ⇒ SAMを使って回避 ※ SAM(Sharpness-Aware Minimization): 周辺が平坦なパラメタを探索するOptimizer SAMの式 近傍パラメタでの損失も考慮して、 そこでやたらでかい損失が出ないことを担保する (近傍で一番でかいやつとの差が小さいと〇というお気持ち) 参考文献: [21][22] 画像は[21-1]より引用 画像は[22-1]より引用 loss landscapesが 尖ってない loss landscapesが 尖ってる SAM使って、 loss landscapesが 尖らなくなった SAM使って、 性能が改善 同程度パラメタの ResNetとコンパラ L=損失 ©Panasonic Corporation 2021
  • 26. 問 題 2 へ の 対 策 30 色々あるが、 - CNN-likeな構造にする(分割処理する, 階層構造にする) - CNNと組合わせる - Attentionをもとに領域を絞る - 計算量がサイズに大きく依存にしないようにする(参考文献[27]) などがある CNN-like, CNNと組合わせるは紹介論文以外にもかなり沢山ある印象 (CNN-likeは、参考文献[2]を見ると参考になるかと) ©Panasonic Corporation 2021
  • 27. 分 割 処 理 す る & 階 層 構 造 に す る ( N e s T ) 31 各部分領域に対しTransformerをかける、を階層的に行う 高速化効果に加えて、Augmentationが少なくてもある程度性能が出るように 参考文献: [26] 結果は[26-1]より引用 結果は[26-1]より引用 画像は[26-1]より引用 小領域でTransformer 中領域で 大領域で 重くならないよう Poolingで集約 CNNと同等 処理時間で 性能改善 Random ErasingなしのDeiTは性能が劇的低下 NesTだと、そこまで大きなインパクトはない CutMix/MixUpが比較的大きな影響だが、 DeiTほどではない ©Panasonic Corporation 2021
  • 28. C N N と 組 合 わ せ る ( C o A t N e t ) 32 前半はDepth Wise Convして、後半はTransformerみたいなの Attention部分も、CNNのカーネルみたいな要素を入れたRelative-Attentionにしている Image Net 21Kを使えば88.56%出るのでプライベートデータありのViT並みの性能が出る 参考文献: [25] 画像は[25-1]より引用 結果は[25-1]より引用 画像は[25-1]より引用 DW Convの式 Self Attの式 Relative Attentionの式 AttentionをCNN-likeにしてる? 前半はConv 後半はTransformer ImageNet21k使えば、 JFTありViT(88.55%)と 並ぶ88.56%を獲得 赤線がCoAtNet 他のTransformerより 計算効率が高い ©Panasonic Corporation 2021
  • 29. A t t e n t i o n か ら 領 域 を 絞 る ( D y n a m i c V i T ) 33 トークンの特徴から有用かどうかを予測し、有用なものに絞って処理する 性能は多少犠牲になるが高速化効果が得られる 参考文献: [28] 画像は[28-1]より引用 結果は[28-1]より引用 結果は[28-1]より引用 特徴が有用かの推定器を↓とかで学習 ・ 間引き前後で特徴が一致するよう蒸留 ・ 目標削減率の達成度合いみたいな損失 トークン数が 計算量に当然影響 削れるほどコストカット 素の状態 提案手法でトークン数を7/10にすると、 FLOPsは40%弱カットでき、 スループットは50%改善@GPU 性能は0.5%ダウンで済む 入力解像度を下げる(384⇒320)より、 提案手法で削る方がバランス〇 ©Panasonic Corporation 2021
  • 30. 本 章 の ま と め 34 Transformerにも↓の問題がある ・ 問題1. 学習データが大量になければ力が出ない ・ 問題2. メモリ・計算量がでかい(というか効率がよろしくない) 各々の問題への対応策として↓などがある ・ 解決策1. CNNを蒸留に活用, BERTっぽく事前学習, Optimizerを変える等 ・ 解決策2. CNN-likeな構造にする, CNNと組合わせる, Attentionをもとに領域を絞る 結果として、Image Net 1kの世界では、同程度の学習データで、 性能と速度のバランスが取れたTransformerベースな手法が出てきている ©Panasonic Corporation 2021
  • 31. C N N と ど こ が 違 う ? 37 ©Panasonic Corporation 2021
  • 32. 人 間 の 知 覚 に 近 い ? 38 ViTの方がCNNに比べて、人間に近い間違え方をしている Cohen‘s kappa: 間違えたサンプルの被り具合(多分) Jensen-Shannon (JS) 距離: エラーの確率分布間距離.小さいほど分布が似ている 参考文献: [29][46] 結果は[29-1]より引用 画像は[46-2]より引用 先行研究[46]は、CNNは形状よりテクスチャを重視していると主張 ・ 左端例: 人間は??となりそうだが、CNNは像だとわりと確信してこたえている ・ 右端例: 人間は多分猫とこたえる(少なくとも像とは言わない)が、CNNは像とこたえている では、ViTだとどうだろうか? ということと、人間の認識の傾向との比較を扱っている[29] 縦軸 上下反転 注意 ViT(黄色)が、 ResNet50等CNNと比べて 間違えたサンプルが 人間と似てる ViTが、クラスごとの認識の失敗しやすさが、 人間と似てる. クラス間をどう間違えているかは、 CNNの方が人間に似ている? ©Panasonic Corporation 2021
  • 33. 分 布 シ フ ト に ロ バ ス ト ? 39 スケッチのようなStyleシフトや、テクスチャのシフトが起きた際に、 Transformer(DeiT)の方がCNN(BiT)よりも性能変化が小さい 参考文献: [31] 結果は[31-1]より引用 画像は[31-1]より引用 画像は[31-1]より引用 F:特徴表現を得エンコーダモデル C: クラス分類の識別モデル 𝐷𝑖𝑖𝑑: 独立同分布(iid)のデータ でValidationした性能 𝐷𝑜𝑜𝑑: ドメイン外(ood)のデータ でValidationした性能 DeiT(Transformer)がBiT(CNN)より ドメイン間の性能Gapが小さい ⇒ Transformerは分布外シフトにロバストっぽい proxy A-distance(PAD)を測った結果 PAD: 2つのドメインを混ぜて学習したモデルでの、ドメイン分類エラー率で ドメインの類似度を測る方法(だと思う) 異なるPADのデータセットを色々(右結果横軸)作って、 そこで認識性能がどう変わるか(右結果縦軸のGap)を検証するという話だと思う ©Panasonic Corporation 2021
  • 34. 顔 認 証 で 比 べ る と ? 40 同程度の速度で同程度の性能が得られている模様 隠蔽度が大きくなるにつれ性能差が広がることから、Transformer(ViT)は隠蔽に弱い模様 参考文献: [32] 結果は[32-1]より引用 結果は[32-1]より引用 隠蔽度合い(横軸)と性能(縦軸) 各データセットで、画像に隠蔽処理を加えて、 隠蔽度合に応じて性能がどう変化するかを評価している 実線:ResNet, 点線: ViT, 色: 評価データ 実線の方が、点線に比べて、性能の落ち幅が小さく、 隠蔽へのロバスト性はCNNが優位と思われる IJB-Cデータセットでの認識性能評価 (処理時間はV100 GPUで計測) ほぼViTまんまを使って、CNN(ResNet100)と同等速度&性能を獲得 ※ 最初の入力のパッチ分割でオーバラップを許容するとか、小さな変更が入っている 学習データの規模がImageNetより大きい(クラス数約94Kクラス、画像数約5.3M枚)なのと、 入力が正規化されてるあたりで、ImageNetと違った傾向にあるのかもしれない ©Panasonic Corporation 2021
  • 35. 本 章 の ま と め 41 TransformerとCNNの違いについての研究も出てきている これらの研究から、 ・ 人間の知覚との類似性、Out of Domainなデータへのロバスト性ではTransformer優位 ・ 隠蔽へのロバスト性ではCNN優位 ・ 敵対的サンプルへのロバスト性は同程度だが、苦手なサンプルの傾向は違う(参考文献[30]) といった違いが見られている ©Panasonic Corporation 2021
  • 36. ま と め と 所 感 43 ■ まとめ ・ パンチのある結果が出て、Transformerブームが到来 識別タスク以外でも、様々なタスクでTransformerが成果を上げている ・ 識別タスクでは①大規模データが必要、②計算コストが高い、の2点が主要な問題 画像のドメイン特性を活用するものや、自然言語処理の知見を入れ込むもの、 など様々なアプローチが取られている(ため論文数がえぐい勢いで増えている) ・ TransformerとCNNの違いも分析されつつある どうも出力の傾向が違うようなので、アンサンブルさせると良さそうな雰囲気 (コンペ in CVPR2021の上位解法では実際にアンサンブルが採用されている) ■ 所感 識別タスクにおいては、CNNがTransformerに取って代わられるところまでは来ていない印象 とはいえ、紹介した様々な手法に加え、TransformerのNAS[47]や、AttentionとConvを候補に入 れたNAS[48]なんかも出ており、Transformerの成長は止まらなさそう。 大変だがなんとか頑張って追いかけていきたい ©Panasonic Corporation 2021
  • 37. ( お ま け ) 最 高 性 能 モ デ ル 達 と 計 算 リ ソ ー ス 44 最高性能を叩きだしているのは、ほぼGoogleのみ (CNN含め) 90%超のモデルは、1枚のTPUv3だと、10K日≒27年以上学習にかかる 非Google モデルも32GBのV100のため、ImageNet最高性能を再現するのは骨が折れそう モデル 著者所属 ImageNet 学習データ 学習時間 ViT[1] Google Research, Brain Team 88.55% JFT 300M 2.5k TPUv3 days ViT(Scaling ViT)[17] Google Research, Brain Team 90.45% JFT 300M 10K > TPUv3 days V-MoE[33] Google Brain 90.35% JFT 300M 16.8k TPUv3 days EffNet + MPL[45] Google AI, Brain Team 90.2% JFT 300M 22.5K TPUv3 days EffNet v2[34] Google Research, Brain Team 85.7% 87.3% ImageNet 1K ImageNet 21K 32+α TPUv3 days 64+α TPUv3 days 以下、非Googleの手法で高性能なTransformer(&CNN) LV-ViT[35] ByteDance 86.4% ImageNet 1K 24+α V100 days BEiT[20] Microsoft Research 86.3% Image Net 1K 80+α V100 days T-ResNet-RS[36] Facebook AI Research 84.5% Image Net 1K 33+α V100 days 参考文献: [1][17][20][33][34][35][36][45] ©Panasonic Corporation 2021