210610 SSIIi2021 Computer Vision x Trasnformer

SSII2021
Transformer x Computer Visionの
実活⽤可能性と展望
2021.6.10
藤井亮宏（株式会社エクサウィザーズ）

| 2
自己紹介
名前 :
藤井亮宏(アキヒロ)
ExaWizardsにおける仕事内容
• Machine Learning Engineer
• Tech Lead
• ML系のイベント主催
• ICLR, NeurIPS等の重要国際会議
• GAN等の⽣成モデルに絞った勉強会
出版:
「現場で活⽤するための機械学習エンジニアリング(仮題)」
※2021/11~12⽉に発売予定
@AkiraTOSEI
論⽂の⼀⾔紹介とか
Akira's Machine Learning
News (ja)
週次で配信するニュース
レター始めました。
(動画像系多め)

| 3
エクサウィザーズ会社概要
-We solve social issues with AI-
主要株主
社外取締役
火浦俊彦
元日本代表
新貝康司
ファウンダー＆代表
従業員数
240
名(*)
エンジニア
(DevOps/UIUX含む)
取締役会長
春田真
代表取締役
社長
石山洸
40%
40%
戦略コンサルタント
事業開発等
ドメイン専⾨家
* 2021年3⽉３⽇時点
元会長元AI研究所長
桑原優樹
元副社長
10%
10%
コーポレート
設⽴、拠点
n 設⽴
2016年2⽉
n 国内拠点
東京、京都、
浜松、名古屋、
n 海外拠点
インド、中国
n 資本⾦
1億円（2020年9⽉時
点）

| 4
業務内容と実績
AI/DXの理解促進から企画、設計・開発・利用までを一気通貫にサポートしており、社外からの
評価も高まっています
Source:
データサイエンスアワード2019 (https://www.datascientist.or.jp/activity/award/award2019/)、
Linkedin HP【リンクトイン独⾃調査】コロナに負けない注⽬のスタートアップ10社(2010/9/22掲載)、Forbes Japanʼs Start-up of the year 2021 (https://forbesjapan.com/feature/startup/)
社外からの評価
経
営
・
組
織
⼒
技
術
⼒
Linkedin 「TOP COMPANIES」
スタートアップ版ランキング
2019・2020年度連続1位
Forbes 「⽇本の企業家ランキング」
2020・2021年度第2位
データサイエンティスト協会
「データサイエンスアワード 2019」
最優秀賞
第1回IP BASE AWARD
スタートアップ部⾨グランプリ
業務内容と実績
年間300案件以上(FY20実績)の⽀援実績
（下記は取引先の⼀部抜粋）
これまでの実績から
次世代AI戦略も発信し、DXを牽
引
次世代AI戦略2025
激変する20分野
変⾰シナリオ128
※⽇経BPより発⾏
AIトレーニング・
AIコミュニティ
AIコンサルティング
サービス
AI開発・事業化
サービス
設計・開発
戦略策定/企画
理解促進
エクサウィザーズが提供するサービス
ü 経営層向け研修/講演
ü AIトレーニング等
ü AI活⽤/DXロードマッ
プ策定
ü AI活⽤すべき課題/
テーマ設定等
ü AIモデルの構築
ü PoC実践
ü プロダクト/サービスの
共同開発等
運⽤・利⽤
ü サービス保守・運⽤
ü 当社既存プロダクト
利⽤等
プロダクト
利活⽤

| 5
Slide Summary
この発表の要点
• TransformerはNLPだけでなく、Computer Vision系の様々なタスクに進出
して成果を上げている。CNNベースのモデルを超える性能のモデルも
多い
• しかし、Transformerはモデルサイズ・メモリ占有量・必要データ量で
問題を抱えている。
• この数ヶ⽉で急速に改善が進んでおり、CNNと併⽤させる⼿法もある
• 改善されたとはいえ⼤きな計算資源を必要とする。最⾼精度精度争い
からCNNが駆逐される可能性がなくはないが、実応⽤上の観点からは
CNNはしばらく引退できないかもしれない

| 6
Transformerって何？？
2017年に発表されたモデル。RNNでもCNNでもないモデルで、圧倒的な成果
を上げて話題になった。
図表は[1]から引⽤
英独・英仏翻訳の結果
トランスフォーマーモデル

| 7
モデルの中身はどうなってるの？
Transformerは4つの要素から成り立つ。Multi-Head Attentionが技術のコア。
Positional Embeddingにも複数のやり⽅があった
り[16]、Skip ConnectionやFFNも重要だったりと
いう話[15]もあるが今回は割愛する
• Feed Forward (Networks)
• Add & (Layer) Norm
• Multi-Head (Self-)Attention
• Positional Encoding ↑コア技術
図は[1]から引⽤
この構造をTransformer Encoderと
呼んだりする

| 8
何をしてるの？
各単語（トークン）がどこと相関が強いか計算しながら伝播する。相関の強さ
を可視化することもできる。
“making”をQueryとした場合のAttentionを計算した図。
同じ単語にかかる異なる⾊は異な
るHeadのAttentionであることを⽰
す（※後述）

| 9
Multi-Head Attentionを構成するScaled Dot-Product Attentionとは？
Scaled Dot-Product Attentionは入力を別々に埋め込んだものの内積を使った
Attention。Q,K,Vの埋め込み元が同じだと”Self-Attention”と呼ばれる
Q KT
Heat Map
Q = 𝑥𝑊!, 𝐾 = 𝑥𝑊", V = 𝑥𝑊#
1. x (; ⼊⼒⽂の分散表現 or 隠れ層表現) を得る
Scaled Dot-Product Attention(1ヘッドSelf Attention)
の計算⽅法
2. ⼊⼒xの埋め込み表現を取得
3. QKのヒートマップとVをかける
※1 Maskはdecoderで使う。今回は
Encoderのみ考えるので割愛
$
%!
※1
計算のイメージ図

| 10
Multi-Head Attentionとは？
QKVをさらに別々に埋め込むと、複数のヘッドに拡張可能。多様な表現を
獲得できる
Q1 K1
T
Q2 K2
T
V1
V2
・・・
Q WQ
1 Q1
K WK
1 K1
V WV
1 V1
=
=
=
Q WQ
2 Q2
K WK
2 K2
V WV
2 V2
=
=
=
Head 1 Head 2
・・・
結合
Head 1
Head 2
[1]から引⽤

| 11
Transformerの進撃！
TransformerをベースとしたモデルはNLP業界を席巻！事実上の標準モデル
(de facto standard)に！
画像は[2], https://insiderpaper.com/ai-text-generator-gpt-3/ より引⽤
TransformerをベースにしたNLPの有名モデルBERT, GPT-3

| 12
Transformer in Computer Vision
一方、最高性能な画像分類モデルはCNNベース。2020年9月までは…
85
85.5
86
86.5
87
87.5
88
88.5
89
2017年12⽉ 2018年7⽉ 2019年2⽉ 2019年8⽉ 2020年3⽉ 2020年9⽉
ImageNet Top-1 Accuracyの推移
FixEfficientNet-L2 : 88.5
Big Transfer: 87.54
Noisy Student(EfficientNet-B7):
87.54
スコアはPaper with Codeから引⽤した

| 13
Transformer in Computer Vision
一方、最高性能な画像分類モデルはCNNベース。2020年9月までは…
85
85.5
86
86.5
87
87.5
88
88.5
89
2017年12⽉ 2018年7⽉ 2019年2⽉ 2019年8⽉ 2020年3⽉ 2020年9⽉
FixEfficientNet-L2 : 88.5
Big Transfer: 87.54
Noisy Student(EfficientNet-B7):
87.54
★
やぁ
ImageNet Top-1 Accuracyの推移
Vision Transformer
88.55
スコアはPaper with Codeから引⽤した

| 14
Vision Transformer(ViT)の衝撃
Vision Transformer(ViT)は、画像分類タスクで初めてTransformerベースのモ
デルがCNNベースのモデルを凌駕した
画像分類タスクにおける⽐較
表は[3]より引⽤

| 15
Vision Transformerとは？
画像を16x16サイズのパッチに分割し、Transformer Encoderに入力するモデル。
各パッチをNLPのtoken(単語の
ようなもの)として扱う画像は[3]より引⽤

| 16
Vision Transformerは何を示したのか?
今までTransformer x Computer Visionの研究はあったが、精度でCNNを超え
られなかった。それはSelf-Attentionの帰納バイアス（モデルが持つデータの
仮定）が小さいことに由来しているとし、データ数の力でそれを突破した[3]。
𝑥&
𝑥&'$
𝑥&($
CNN RNN Self Attention
局所的に情報が集約され
ているという強い帰納バ
イアスが存在。
1つ前の時刻と強い相関
があるという強い帰納バ
イアスが存在
強い相関
弱い相関
全特徴量同⼠で相関を
とっているだけなので⽐
較的帰納バイアスが弱い

| 17
帰納バイアスとデータ量
データが少ないと強い帰納バイアスをもつモデル(CNN)が強い。しかし、デー
タが大量にあると帰納バイアスが小さいモデル(Transformer)の方が強い。
データが中規模しかない領域では、
BiT（CNNベースのモデル、強い帰納
バイアスをもつ）の⽅が強い
130万画像 3億画像
データが⼤規模にある領域では、ViT
（弱い帰納バイアスをもつ）の⽅が
強い
図は[3]より引⽤

| 18
計算効率
CNNと比較して収束も早い

| 19
進撃のTransformer
ViT以降様々なCV系タスクにTransformerベースのモデルを使った研究が急増。
一部ではCNNベースのモデルを超える性能を発揮している。
点群 Semantic Segmentation
&物体検知
Point Transformer[4] Swin[5]
深度推定
DPT[6]
図は[5]より引⽤図は[6]より引⽤

| 20
CV以外のデータと組み合わせても活躍
多種データを扱うモデルでもTransformerが大活躍
Vision, Text Vision & Languages など複数の
タスクを同時に学習・推論できる
Transformer ベースのモデル Unified
Transformer(UniT)を提案。タスク毎の微
調整は不要で、7つのタスクを同じパラ
メータで実施できる。
UniT[7]
CVタスク＋⾔語タスク
Perceiver[13]
10万以上の特徴量数をもつ⾼次元⼊⼒に対応
でき、動画＋⾳声、画像、点群など多くの
データ形式に対応できるTransformerモデル。
潜在空間からQを取ってくることで、計算量
を削減する。画像、点群で⾼い性能を発揮し
ただけでなく動画＋⾳声ではSotA性能を獲得
動画・⾳声・画像・点群

| 21
…CNNもういらないんじゃね？

| 22
…CNNもういらないんじゃね？

| 23
Vision Transformerは無敵ではない
Vision Transformerは高性能だが、コスト面でいくつか問題点を抱えている
• 必要データ量
• モデルサイズ
• 特徴量マップの占有メモリ

| 24
必要データ量
帰納バイアスが小さいため、モデルを高性能にするためには莫大なデータ量を
必要とする
130万画像 3億画像。そして⾮公開
130万画像程度では、CNNの⽅が⾼性能になる
論⽂中では、130万画像を含むImageNetを”medium size”と⾔っている…

| 25
モデルサイズ
モデルが大きくるほど精度が良い傾向になっており、最大モデルは気軽に使え
る大きさではない。
GPT-2(1542M)の4割程度
EfficientNet-B7(66M)の9.6倍程度のパラメーター数
表は[3]より引⽤

| 26
メモリ量
特徴量マップの辺の長さの4乗でメモリ占有量が大きくなっていく。大きな画
像を扱うには不利
CNNは辺の⻑さが2倍になると、
特徴量マップのメモリ占有量が4倍
になる
Transformerは辺の⻑さが2倍になる
と、特徴量マップのメモリ占有量
が16倍になる
2 px
2 px
4 px
4 px
2 px
2 px
4 px
4 px
全4画素同⼠で
Self-Attention
(16計算)
全16画素同⼠
でSelf-Attention
(16^2計算)

| 28
…使えないやん
CNNを組み合わせるなどして
急速に改善が進んでいる

| 29
CNNモデルによる蒸留
CNNの知識を使うことで、精度を向上できる
RegNet(CNN)
教師モデル
Transformer
⽣徒モデル
CNNを使った知識蒸留
CNNモデルから知識蒸留を⾏えば
ImageNetの学習でも⾼精度になる
DeiT[10]
知識蒸留
(Knowledge Distillation)

| 30
CNNと併用させる
CNNは帰納バイアスのおかげで局所情報に強い。その力を借りるとImageNet
でもViTを超えられる
最初の埋め込みに畳み込みを使う
CeiT[8]
CvT[9]
Transformer EncoderにCNNを使う
CeiT[8]
ViT
CNN
CNN
ViTはパッチ化したものを埋め込み表現と
してTransformerに⼊れるが、CNNによる畳
み込みを使って抽象化した埋め込み表現
を使う
CNNをTransformerの内部に⼊れ込むことで、
局所特徴量取得に強くさせる

| 31
CNNの発展で得られた知見を使う
階層構造を持たせることで、計算量削減と複数スケールの対応を行う
解像度を徐々に下げていくことで…
1. ⼤きさの違いに頑健になる
2. ⾼解像度画像の情報を使いながらメモ
リを削減できる
解像度が固定かつ⼩さい
CNNと同じように局所
Attentionで徐々に視野
を広げていく[5]
解像度を段階的に下げる
ことで、初期層は⾼解像
度画像を扱える[11]
16x16サイズをパッチ化
し、その解像度のまま
伝播させる

| 32
Transformerにおける改善
もちろんCNNと関係なくTransformer単体でも改善が進んでいる
Attentionを取るグループを層毎に変える[5]
全域Attentionを使うViTと異なり、⾚枠内で局所
Attentionをとるが、層毎にAttentionをとるグループを
変えながら伝播させる
画像埋め込みの改善[12]
ViTにおける画像のtoken化(埋め込
み)が単純すぎると考え、重複を
許して周りのtokenを混ぜ合わせ
て再token化するT2Tモジュールを
提案
追加の学習パラメーターで深層化の恩恵を
うけやすくする[14]
異なるHeadのAttentionを混ぜる学習パラメータの導
⼊により、Attentionの多様性を向上させる。似た
Attentionの⽣成を防いで深層化で精度を向上させる
式は[14]より引⽤

| 33
しかし…
未だ必要とされる計算資源は大きい（※）。実応用上の観点ではCNNはまだ
駆逐されなさそう
Models are trained on 8 GPUs with 2 images per GPU
for 160K iterations.
Swin Transformer[5]
All models are trained for 300 epochs from scratch on 8 V100 GPUs.
Pyramid Vision Transformer(PVT)[11]
We used a small batch size of 64 across 32 TPUs to make sure all models fit
comfortably … Perceiver[13]
※ EfficientNet-B7のパラメータ数が66Mに対し、Swin, PVTの最⼤モデルのサイズは
197M,61.4M。モデルサイズもそこそこに⼤きいが、⼤きな画像を⼊れたときのメモリ占
有量が⼤きいため、これだけの計算資源を使っていると予想

| 34
Slide Summary
この発表の要点
• TransformerはNLPだけでなく、Computer Vision系の様々なタスクに進出
して成果を上げている。CNNベースのモデルを超える性能であるもの
も多い
• しかし、Transformerはモデルサイズ・メモリ占有量・必要データ量で
問題を抱えている。
• この数ヶ⽉で急速に改善が進んでおり、CNNと併⽤させる⼿法もある
• 改善されたとはいえ⼤きな計算資源を必要とする。最⾼精度精度争い
からCNNが駆逐される可能性がなくはないが、実応⽤上の観点からは
CNNはしばらく引退できないかもしれない

| 35
Reference
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia
Polosukhin. Attention is all you need. NIPS 2017
2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding. NAACL 2019
3. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16
Words: Transformers for Image Recognition at Scale. arXiv 2020.
4. Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun. Point Transformer. arXiv(2020)
5. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. Swin Transformer: Hierarchical
Vision Transformer using Shifted Windows. arXiv(2021)
6. René Ranftl, Alexey Bochkovskiy, Vladlen Koltun. Vision Transformers for Dense Prediction. arXiv(2021)
7. Ronghang Hu, Amanpreet Singh. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv(2021)
8. Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu. Incorporating Convolution Designs into Visual
Transformers. arXiv(2021)
9. Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang. CvT: Introducing Convolutions to
Vision Transformers. arXiv(2021)
10. Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. Training data-
efficient image transformers & distillation through attention. arXiv(2020)
11. Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao. Pyramid Vision
Transformer: A Versatile Backbone for Dense Prediction without Convolutions. arXiv(2021)
12. Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan.
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. arXiv(2021).
13. Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira. Perceiver: General
Perception with Iterative Attention. arXiv(2021)
14. Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Zihang Jiang, Qibin Hou, Jiashi Feng. DeepViT:
Towards Deeper Vision Transformer. arXiv(2021)
15. Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas. Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth. arXiv(2021)
16. Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. Transformer-XL: Attentive
Language Models Beyond a Fixed-Length Context. arXiv(2021)

210610 SSIIi2021 Computer Vision x Trasnformer

210610 SSIIi2021 Computer Vision x Trasnformer

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 210610 SSIIi2021 Computer Vision x Trasnformer

Similar to 210610 SSIIi2021 Computer Vision x Trasnformer (20)

Recently uploaded

Recently uploaded (20)

210610 SSIIi2021 Computer Vision x Trasnformer