SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

SSII2021
Transformer x Computer Visionの
実活用可能性と展望
2021.6.10
藤井亮宏（株式会社エクサウィザーズ）

| 2
自己紹介
名前 :
藤井亮宏(アキヒロ)
ExaWizardsにおける仕事内容
• Machine Learning Engineer
• Tech Lead
• ML系のイベント主催
• ICLR, NeurIPS等の重要国際会議
• GAN等の生成モデルに絞った勉強会
@AkiraTOSEI
論文の一言紹介とか
Akira's Machine Learning
News (ja)
週次で配信するニュース
レター始めました。
(動画像系多め)

| 3
エクサウィザーズ会社概要
-We solve social issues with AI-
主要株主
社外取締役
火浦俊彦
元日本代表
新貝康司
ファウンダー＆代表
従業員数
240
名(*)
エンジニア
(DevOps/UIUX含む)
取締役会長
春田真
代表取締役
社長
石山洸
40%
40%
戦略コンサルタント
事業開発等
ドメイン専門家
* 2021年3月３日時点
元会長元AI研究所長
桑原優樹
元副社長
10%
10% コーポレート
設立、拠点
 設立
2016年2月
 国内拠点
東京、京都、
浜松、名古屋、
 海外拠点
インド、中国
 資本金
1億円（2020年9月時
点）

| 4
業務内容と実績
AI/DXの理解促進から企画、設計・開発・利用までを一気通貫にサポートしており、社外からの
評価も高まっています
Source:
データサイエンスアワード2019 (https://www.datascientist.or.jp/activity/award/award2019/)、
Linkedin HP【リンクトイン独自調査】コロナに負けない注目のスタートアップ10社(2010/9/22掲載)、Forbes Japan’s Start-up of the year 2021 (https://forbesjapan.com/feature/startup/)
社外からの評価
経
営
・
組
織
力
技
術
力
Linkedin 「TOP COMPANIES」
スタートアップ版ランキング
2019・2020年度連続1位
Forbes 「日本の企業家ランキング」
2020・2021年度第2位
データサイエンティスト協会
「データサイエンスアワード 2019」
最優秀賞
第1回IP BASE AWARD
スタートアップ部門グランプリ
業務内容と実績
年間300案件以上(FY20実績)の支援実績
（下記は取引先の一部抜粋）
これまでの実績から
次世代AI戦略も発信し、DXを牽
引
次世代AI戦略2025
激変する20分野
変革シナリオ128
※日経BPより発行
AIトレーニング・
AIコミュニティ
AIコンサルティング
サービス
AI開発・事業化
サービス
設計・開発
戦略策定/企画
理解促進
エクサウィザーズが提供するサービス
 経営層向け研修/講演
 AIトレーニング等
 AI活用/DXロードマッ
プ策定
 AI活用すべき課題/
テーマ設定等
 AIモデルの構築
 PoC実践
 プロダクト/サービスの
共同開発等
運用・利用
 サービス保守・運用
 当社既存プロダクト
利用等
プロダクト
利活用

| 5
Slide Summary
この発表の要点
• TransformerはNLPだけでなく、Computer Vision系の様々なタスクに進出
して成果を上げている。CNNベースのモデルを超える性能のモデルも
多い
• しかし、Transformerはモデルサイズ・メモリ占有量・必要データ量で
問題を抱えている。
• この数ヶ月で急速に改善が進んでおり、CNNと併用させる手法もある
• 改善されたとはいえ大きな計算資源を必要とする。最高精度争いから
CNNが駆逐される可能性がなくはないが、実応用上の観点からはCNN
はしばらく引退できないかもしれない

| 6
Transformerって何？？
2017年に発表されたモデル。RNNでもCNNでもないモデルで、圧倒的な成果
を上げて話題になった。
図表は[1]から引用
英独・英仏翻訳の結果
トランスフォーマーモデル

| 7
モデルの中身はどうなってるの？
Transformerは4つの要素から成り立つ。Multi-Head Attentionが技術のコア。
Positional Embeddingにも複数のやり方があった
り[16]、Skip ConnectionやFFNも重要だったりと
いう話[15]もあるが今回は割愛する
• Feed Forward (Networks)
• Add & (Layer) Norm
• Multi-Head (Self-)Attention
• Positional Encoding ↑コア技術
図は[1]から引用
この構造をTransformer Encoderと
呼んだりする

| 8
何をしてるの？
各単語（トークン）がどこと相関が強いか計算しながら伝播する。相関の強さ
を可視化することもできる。
“making”をQueryとした場合のAttentionを計算した図。
同じ単語にかかる異なる色は異な
るHeadのAttentionであることを示
す（※後述）

| 9
Multi-Head Attentionを構成するScaled Dot-Product Attentionとは？
Scaled Dot-Product Attentionは入力を別々に埋め込んだものの内積を使った
Attention。Q,K,Vの埋め込み元が同じだと”Self-Attention”と呼ばれる
Q KT
Heat Map
Q = 𝑥𝑥𝑥𝑥𝑄𝑄, 𝐾𝐾 = 𝑥𝑥𝑥𝑥𝐾𝐾, V = 𝑥𝑥𝑥𝑥𝑉𝑉
1. x (入力文の分散表現 or 隠れ層表現) を得る
Scaled Dot-Product Attention(1ヘッドSelf Attention)
の計算方法
2. 入力xの埋め込み表現を取得
3. QKのヒートマップとVをかける
※1 Maskはdecoderで使う。今回は
Encoderのみ考えるので割愛
1
𝑑𝑑𝑘𝑘
※1
計算のイメージ図

| 10
Multi-Head Attentionとは？
QKVをさらに別々に埋め込むと、複数のヘッドに拡張可能。多様な表現を
獲得できる
Q1 K1
T
Q2 K2
T
V1
V2
・・・
Q WQ
1 Q1
K WK
1 K1
V WV
1 V1
=
=
=
Q WQ
2 Q2
K WK
2 K2
V WV
2 V2
=
=
=
Head 1 Head 2
・・・
結合
Head 1
Head 2
[1]から引用

| 11
Transformerの進撃！
TransformerをベースとしたモデルはNLP業界を席巻！事実上の標準モデル
(de facto standard)に！
画像は[2], https://insiderpaper.com/ai-text-generator-gpt-3/ より引用
TransformerをベースにしたNLPの有名モデルBERT, GPT-3

| 12
Transformer in Computer Vision
一方、最高性能な画像分類モデルはCNNベース。2020年9月までは…
85
85.5
86
86.5
87
87.5
88
88.5
89
2017年12月 2018年7月 2019年2月 2019年8月 2020年3月 2020年9月
ImageNet Top-1 Accuracyの推移
FixEfficientNet-L2 : 88.5
Big Transfer: 87.54
Noisy Student(EfficientNet-B7):
87.54
スコアはPaper with Codeから引用した

| 13
Transformer in Computer Vision
一方、最高性能な画像分類モデルはCNNベース。2020年9月までは…
85
85.5
86
86.5
87
87.5
88
88.5
89
2017年12月 2018年7月 2019年2月 2019年8月 2020年3月 2020年9月
FixEfficientNet-L2 : 88.5
Big Transfer: 87.54
Noisy Student(EfficientNet-B7):
87.54
★
やぁ
ImageNet Top-1 Accuracyの推移
Vision Transformer
88.55
スコアはPaper with Codeから引用した

| 14
Vision Transformer(ViT)の衝撃
Vision Transformer(ViT)は、画像分類タスクで初めてTransformerベースのモ
デルがCNNベースのモデルを凌駕した
画像分類タスクにおける比較
表は[3]より引用

| 15
Vision Transformerとは？
画像を16x16サイズのパッチに分割し、Transformer Encoderに入力するモデル。
各パッチをNLPのtoken(単語の
ようなもの)として扱う画像は[3]より引用

| 16
Vision Transformerは何を示したのか?
今までTransformer x Computer Visionの研究はあったが、精度でCNNを超え
られなかった。それはSelf-Attentionの帰納バイアス（モデルが持つデータの
仮定）が小さいことに由来しているとし、データ数の力でそれを突破した[3]。
𝑥𝑥𝑇𝑇
𝑥𝑥𝑇𝑇+1
𝑥𝑥𝑇𝑇−1
CNN RNN Self Attention
局所的に情報が集約され
ているという強い帰納バ
イアスが存在。
1つ前の時刻と強い相関
があるという強い帰納バ
イアスが存在
強い相関
弱い相関
全特徴量同士で相関を
とっているだけなので比
較的帰納バイアスが弱い

| 17
帰納バイアスとデータ量
データが少ないと強い帰納バイアスをもつモデル(CNN)が強い。しかし、デー
タが大量にあると帰納バイアスが小さいモデル(Transformer)の方が強い。
データが中規模しかない領域では、
BiT（CNNベースのモデル、強い帰納
バイアスをもつ）の方が強い
130万画像 3億画像
データが大規模にある領域では、ViT
（弱い帰納バイアスをもつ）の方が
強い
図は[3]より引用

| 18
計算効率
CNNと比較して収束も早い

| 19
進撃のTransformer
ViT以降様々なCV系タスクにTransformerベースのモデルを使った研究が急増。
一部ではCNNベースのモデルを超える性能を発揮している。
点群 Semantic Segmentation
&物体検知
Point Transformer[4] Swin[5]
深度推定
DPT[6]
図は[5]より引用図は[6]より引用

| 20
CV以外のデータと組み合わせても活躍
多種データを扱うモデルでもTransformerが大活躍
Vision, Text Vision & Languages など複数の
タスクを同時に学習・推論できる
Transformer ベースのモデル Unified
Transformer(UniT)を提案。タスク毎の微
調整は不要で、7つのタスクを同じパラ
メータで実施できる。
UniT[7]
CVタスク＋言語タスク
Perceiver[13]
10万以上の特徴量数をもつ高次元入力に対応
でき、動画＋音声、画像、点群など多くの
データ形式に対応できるTransformerモデル。
潜在空間からQを取ってくることで、計算量
を削減する。画像、点群で高い性能を発揮し
ただけでなく動画＋音声ではSotA性能を獲得
動画・音声・画像・点群

| 21
…CNNもういらないんじゃね？

| 22
…CNNもういらないんじゃね？

| 23
Vision Transformerは無敵ではない
Vision Transformerは高性能だが、コスト面でいくつか問題点を抱えている
• 必要データ量
• モデルサイズ
• 特徴量マップの占有メモリ

| 24
必要データ量
帰納バイアスが小さいため、モデルを高性能にするためには莫大なデータ量を
必要とする
130万画像 3億画像。そして非公開
130万画像程度では、CNNの方が高性能になる
論文中では、130万画像を含むImageNetを”medium size”と言っている…

| 25
モデルサイズ
モデルが大きくるほど精度が良い傾向になっており、最大モデルは気軽に使え
る大きさではない。
GPT-2(1542M)の4割程度
EfficientNet-B7(66M)の9.6倍程度のパラメーター数
表は[3]より引用

| 26
メモリ量
特徴量マップの辺の長さの4乗でメモリ占有量が大きくなっていく。大きな画
像を扱うには不利
CNNは辺の長さが2倍になると、
特徴量マップのメモリ占有量が4倍
になる
Transformerは辺の長さが2倍になる
と、特徴量マップのメモリ占有量
が16倍になる
2 px
2 px
4 px
4 px
2 px
2 px
4 px
4 px
全4画素同士で
Self-Attention
(16計算)
全16画素同士
でSelf-
Attention
(16^2計算)

| 28
…使えないやん
CNNを組み合わせるなどして
急速に改善が進んでいる

| 29
CNNモデルによる蒸留
CNNの知識を使うことで、精度を向上できる
RegNet(CNN)
教師モデル
Transformer
生徒モデル
CNNを使った知識蒸留
CNNモデルから知識蒸留を行えば
ImageNetの学習でも高精度になる
DeiT[10]
知識蒸留
(Knowledge Distillation)

| 30
CNNと併用させる
CNNは帰納バイアスのおかげで局所情報に強い。その力を借りるとImageNet
でもViTを超えられる
最初の埋め込みに畳み込みを使う
CeiT[8]
CvT[9]
Transformer EncoderにCNNを使う
CeiT[8]
ViT
CNN
CNN
ViTはパッチ化したものを埋め込み表現と
してTransformerに入れるが、CNNによる畳
み込みを使って抽象化した埋め込み表現
を使う
CNNをTransformerの内部に入れ込むことで、
局所特徴量取得に強くさせる

| 31
CNNの発展で得られた知見を使う
階層構造を持たせることで、計算量削減と複数スケールの対応を行う
解像度を徐々に下げていくことで…
1. 大きさの違いに頑健になる
2. 高解像度画像の情報を使いながらメモ
リを削減できる
解像度が固定かつ小さい
CNNと同じように局所
Attentionで徐々に視野
を広げていく[5]
解像度を段階的に下げる
ことで、初期層は高解像
度画像を扱える[11]
16x16サイズをパッチ化
し、その解像度のまま
伝播させる

| 32
Transformerにおける改善
もちろんCNNと関係なくTransformer単体でも改善が進んでいる
Attentionを取るグループを層毎に変える[5]
全域Attentionを使うViTと異なり、赤枠内で局所
Attentionをとるが、層毎にAttentionをとるグループを
変えながら伝播させる
画像埋め込みの改善[12]
ViTにおける画像のtoken化(埋め込
み)が単純すぎると考え、重複を
許して周りのtokenを混ぜ合わせ
て再token化するT2Tモジュールを
提案
追加の学習パラメーターで深層化の恩恵を
うけやすくする[14]
異なるHeadのAttentionを混ぜる学習パラメータの導
入により、Attentionの多様性を向上させる。似た
Attentionの生成を防いで深層化で精度を向上させる
式は[14]より引用

| 33
しかし…
未だ必要とされる計算資源は大きい（※）。実応用上の観点ではCNNはまだ
駆逐されなさそう
Models are trained on 8 GPUs with 2 images per GPU
for 160K iterations.
Swin Transformer[5]
All models are trained for 300 epochs from scratch on 8 V100 GPUs.
Pyramid Vision Transformer(PVT)[11]
We used a small batch size of 64 across 32 TPUs to make sure all models fit
comfortably … Perceiver[13]
※ EfficientNet-B7のパラメータ数が66Mに対し、Swin, PVTの最大モデルのサイズは
197M,61.4M。モデルサイズもそこそこに大きいが、大きな画像を入れたときのメモリ占
有量が大きいため、これだけの計算資源を使っていると予想

| 34
Slide Summary
この発表の要点
• TransformerはNLPだけでなく、Computer Vision系の様々なタスクに進出
して成果を上げている。CNNベースのモデルを超える性能であるもの
も多い
• しかし、Transformerはモデルサイズ・メモリ占有量・必要データ量で
問題を抱えている。
• この数ヶ月で急速に改善が進んでおり、CNNと併用させる手法もある
• 改善されたとはいえ大きな計算資源を必要とする。最高精度争いから
CNNが駆逐される可能性がなくはないが、実応用上の観点からはCNN
はしばらく引退できないかもしれない

| 35
Reference
1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia
Polosukhin. Attention is all you need. NIPS 2017
2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding. NAACL 2019
3. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16
Words: Transformers for Image Recognition at Scale. arXiv 2020.
4. Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun. Point Transformer. arXiv(2020)
5. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. Swin Transformer: Hierarchical
Vision Transformer using Shifted Windows. arXiv(2021)
6. René Ranftl, Alexey Bochkovskiy, Vladlen Koltun. Vision Transformers for Dense Prediction. arXiv(2021)
7. Ronghang Hu, Amanpreet Singh. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv(2021)
8. Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu. Incorporating Convolution Designs into Visual
Transformers. arXiv(2021)
9. Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang. CvT: Introducing Convolutions to
Vision Transformers. arXiv(2021)
10. Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. Training data-
efficient image transformers & distillation through attention. arXiv(2020)
11. Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao. Pyramid Vision
Transformer: A Versatile Backbone for Dense Prediction without Convolutions. arXiv(2021)
12. Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, Shuicheng Yan.
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. arXiv(2021).
13. Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira. Perceiver: General
Perception with Iterative Attention. arXiv(2021)
14. Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Zihang Jiang, Qibin Hou, Jiashi Feng. DeepViT:
Towards Deeper Vision Transformer. arXiv(2021)
15. Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas. Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth. arXiv(2021)
16. Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. Transformer-XL: Attentive
Language Models Beyond a Fixed-Length Context. arXiv(2021)

SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのComputer Visionにおける躍進と肥大化する計算資源〜

Similar to SSII2021 [SS1] Transformer x Computer Visionの実活用可能性と展望〜 TransformerのComputer Visionにおける躍進と肥大化する計算資源〜 (20)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (15)