Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ
MLP-Mixer:
An all-MLP Architecture for Vision
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
D1 森 雄斗
2022/05/27
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• タイトル
– MLP-Mixer: An all-MLP Architecture for Vision
• 著者
– Ilya Tolstikhin*, Neil Houlsby*, Alexander Kolesnikov*,
Lucas Beyer,* Xiaohua Zhai, Thomas Unterthiner,
Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob
Uszkoreit, Mario Lucic, Alexey Dosovitskiy
• Google Researcher, Brain Team
• * equal contribution
• 発表
– NeurIPS 2021
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• MLPのみのシンプルな画像分類モデル
– 畳み込み、self-attentionを使わない
• 計算コストを抑えつつ、SoTAに匹敵する精度
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
前提知識
• MLP: Multilayer perceptron (多層パーセプトロ
ン)
出典: https://github.com/dair-ai/ml-visuals
入力層
隠れ層
出力層
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
前提知識
• CNN: Convolutional Neural Network (畳み込
みニューラルネットワーク)
– 主なモデル: MobileNet, ResNet, EfficientNet
出典: https://cvml-expertguide.net/terms/dl/cnn/
一般的なCNNの処理内容
ResNetで使用される
残差ブロック(Residual Block)[1]
[1] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings
of the IEEE conference on computer vision and pattern recognition. 2016.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
前提知識
• ViT: Vision Transformer[2]
– Self-Attention[3]機構を画像分類に適用したもの
– 画像をパッチにして単語のように処理
[2] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
[3] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
背景・目的
• 畳み込み処理はMLPにおける単純な行列の乗
算よりも複雑で特殊な実装を必要とする
• 特にCNNやViTの特定のデメリットを改善す
るために研究された手法ではない
– CNNやViTなどの代替案
• 確立された画像処理分野にさらなる研究の
きっかけになることが目的
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
関連研究 – 画像分類の動向
• CNN登場 (2012 - )
– 畳み込み機構を持ったモデルの研究が盛んに
– 最近の学習・オーグメンテーション戦略を用いれば以
前としてResNetが最先端の性能を持つ[4]
• ViTの登場 (2020 - )
– CNNの頑健性を保持しつつ、最先端の性能を達成
[4] Beyer, Lucas, et al. "Are we done with imagenet?." arXiv preprint arXiv:2006.07159 (2020).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
画像分類における2つの処理
• 最近のDeep learningは2つの層から成り立つ
– (i) 特定の空間位置での特徴 (channel-mixing)
– (ii) 異なる空間位置での特徴 (token-mixing)
• CNN
– (i) 畳み込み層+プーリング層, (ii) 畳み込み層
• ViT
– (i) Self-Attention, (ii) Self-Attention+MLP-Block
Channel mixing token mixing
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Mixer アーキテクチャ
• 最近のDeep learningは2つの層から成り立つ
– (i) 特定の空間位置での特徴 (channel-mixing)
– (ii) 異なる空間位置での特徴 (token-mixing)
MLP-mixerでは(i)(ii)を明確に分離させる
(ii) (i)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
全体のアーキテクチャ
入力画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
Per-patch Fully-connected
• 入力画像の解像度: 縦×横 (𝐻 × 𝑊)
• 各パッチの解像度: (𝑃 × 𝑃)
• パッチ数: 𝑆 = 𝐻𝑊/𝑃2
• 隠れ層の次元Cに射影 (Cは計算しやすい次元に変換)
• 処理後の形式は 𝑋 ∈ ℝ𝑆×𝐶
の行列(テーブル)
パッチに切り分ける
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Mixer Layer
• Per-patch Fully-connectedから得られた行列
をMixer Layerに入力
9
C
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Mixer Layer – token mixing
Token-mixing channel-mixing
𝑈∗,𝑖 = 𝑿∗,𝒊 + 𝑊2𝝈 𝑊1𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶
𝑿∗,𝒊: スキップコネクションなので入力前をXを最後にも追加
𝝈: GELUでの非線形変換の関数
※ 入力tokenの順序があるためPosition embeddingの必要なし
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Mixer Layer – token mixing
𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑾𝟐𝜎 𝑾𝟏𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶
𝑾𝟏,𝟐: Fully-connected(全結合層)の重み行列
𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎: 行列の正規化
MLPの構造
𝑾𝟏
𝑾𝟐
𝜎
Token-mixing channel-mixing
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
Mixer Layer – token mixing
𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑾𝟐𝜎 𝑾𝟏𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎(𝑋)∗,𝑖 , 𝑓𝑜𝑟 𝑖 = 1 … 𝐶
𝑾𝟏,𝟐: Fully-connected(全結合層)の重み行列
𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚: 行列の正規化
MLPの構造
𝑾𝟏
𝑾𝟐
𝜎
Token-mixing channel-mixing
GELU(Gaussian Error Linear Units)[5]
[5] Hendrycks, Dan, and Kevin Gimpel. "Gaussian error linear units (gelus)." arXiv preprint arXiv:1606.08415 (2016).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Mixer Layer – channel mixing
Token-mixing channel-mixing
𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑊2𝜎 𝑊1𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶
Token-mixingの式
𝑌
𝑗,∗ = 𝑈𝑗,∗ + 𝑊4𝜎 𝑊3𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑈)𝑗,∗ , for 𝑗 = 1 … 𝑆
channel-mixingの式
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
クラス分類
• Global Average Pooling
– 特徴マップの画素平均を求めて、特徴マップを集約
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
全体のアーキテクチャ
入力画像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
実験設定
• Fine-tuningを行う
– 事前学習
• JFT-300M (google のプライベートデータセット)
• ImageNet-21k (オープンデータセット)
• タスク
– ILSVRC2012 “ImageNet”
– “Avg. 5”: ImageNet, CIFAR-10, CIFAR-100, Pets, Flowers
– “VTAB-1k”: Visual Task Adaptation Benchmark
• 環境
– TPU-v3
モデルのパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
主要モデルとの比較
• SoTAのモデルに匹敵する精度
性能=
1秒1coreで何枚の
画像処理が可能か
計算量
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
主要モデルとの比較 - 計算量と精度
• Mixerが従来の主要なアーキテクチャと競合
– Pareto frontier上に存在
=計算量
精度=
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
主要モデルとの比較 – 学習データと精度
• 事前学習の学習データを増やすことで
他のモデルより精度向上
= 事前学習の学習データ
精度=
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
まとめ
• MLPのみのシンプルな画像分類モデル
– 畳み込み、self-attentionを使わない
• 計算コストを抑えつつ、SoTAに匹敵する精度
• 事前学習の学習データセットのサイズが大きいほど
顕著に精度向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
最新の関連研究
• gMLP (Pay Attention to MLPs)[6]
– Mlp mixer と Transformer (attention)を融合
[6] Liu, Hanxiao, et al. "Pay attention to mlps." Advances in Neural Information Processing Systems 34 (2021): 9204-9215.

MLP-Mixer: An all-MLP Architecture for Vision

  • 1.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. DLゼミ MLP-Mixer: An all-MLP Architecture for Vision 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 D1 森 雄斗 2022/05/27
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • タイトル – MLP-Mixer: An all-MLP Architecture for Vision • 著者 – Ilya Tolstikhin*, Neil Houlsby*, Alexander Kolesnikov*, Lucas Beyer,* Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy • Google Researcher, Brain Team • * equal contribution • 発表 – NeurIPS 2021
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • MLPのみのシンプルな画像分類モデル – 畳み込み、self-attentionを使わない • 計算コストを抑えつつ、SoTAに匹敵する精度
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 前提知識 • MLP: Multilayer perceptron (多層パーセプトロ ン) 出典: https://github.com/dair-ai/ml-visuals 入力層 隠れ層 出力層
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 前提知識 • CNN: Convolutional Neural Network (畳み込 みニューラルネットワーク) – 主なモデル: MobileNet, ResNet, EfficientNet 出典: https://cvml-expertguide.net/terms/dl/cnn/ 一般的なCNNの処理内容 ResNetで使用される 残差ブロック(Residual Block)[1] [1] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 前提知識 • ViT: Vision Transformer[2] – Self-Attention[3]機構を画像分類に適用したもの – 画像をパッチにして単語のように処理 [2] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). [3] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 背景・目的 • 畳み込み処理はMLPにおける単純な行列の乗 算よりも複雑で特殊な実装を必要とする • 特にCNNやViTの特定のデメリットを改善す るために研究された手法ではない – CNNやViTなどの代替案 • 確立された画像処理分野にさらなる研究の きっかけになることが目的
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 関連研究 – 画像分類の動向 • CNN登場 (2012 - ) – 畳み込み機構を持ったモデルの研究が盛んに – 最近の学習・オーグメンテーション戦略を用いれば以 前としてResNetが最先端の性能を持つ[4] • ViTの登場 (2020 - ) – CNNの頑健性を保持しつつ、最先端の性能を達成 [4] Beyer, Lucas, et al. "Are we done with imagenet?." arXiv preprint arXiv:2006.07159 (2020).
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 画像分類における2つの処理 • 最近のDeep learningは2つの層から成り立つ – (i) 特定の空間位置での特徴 (channel-mixing) – (ii) 異なる空間位置での特徴 (token-mixing) • CNN – (i) 畳み込み層+プーリング層, (ii) 畳み込み層 • ViT – (i) Self-Attention, (ii) Self-Attention+MLP-Block Channel mixing token mixing
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Mixer アーキテクチャ • 最近のDeep learningは2つの層から成り立つ – (i) 特定の空間位置での特徴 (channel-mixing) – (ii) 異なる空間位置での特徴 (token-mixing) MLP-mixerでは(i)(ii)を明確に分離させる (ii) (i)
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 全体のアーキテクチャ 入力画像
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 Per-patch Fully-connected • 入力画像の解像度: 縦×横 (𝐻 × 𝑊) • 各パッチの解像度: (𝑃 × 𝑃) • パッチ数: 𝑆 = 𝐻𝑊/𝑃2 • 隠れ層の次元Cに射影 (Cは計算しやすい次元に変換) • 処理後の形式は 𝑋 ∈ ℝ𝑆×𝐶 の行列(テーブル) パッチに切り分ける
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Mixer Layer • Per-patch Fully-connectedから得られた行列 をMixer Layerに入力 9 C
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Mixer Layer – token mixing Token-mixing channel-mixing 𝑈∗,𝑖 = 𝑿∗,𝒊 + 𝑊2𝝈 𝑊1𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶 𝑿∗,𝒊: スキップコネクションなので入力前をXを最後にも追加 𝝈: GELUでの非線形変換の関数 ※ 入力tokenの順序があるためPosition embeddingの必要なし
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Mixer Layer – token mixing 𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑾𝟐𝜎 𝑾𝟏𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶 𝑾𝟏,𝟐: Fully-connected(全結合層)の重み行列 𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎: 行列の正規化 MLPの構造 𝑾𝟏 𝑾𝟐 𝜎 Token-mixing channel-mixing
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 Mixer Layer – token mixing 𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑾𝟐𝜎 𝑾𝟏𝑳𝒂𝒚𝒆𝒓𝑵𝒐𝒓𝒎(𝑋)∗,𝑖 , 𝑓𝑜𝑟 𝑖 = 1 … 𝐶 𝑾𝟏,𝟐: Fully-connected(全結合層)の重み行列 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚: 行列の正規化 MLPの構造 𝑾𝟏 𝑾𝟐 𝜎 Token-mixing channel-mixing GELU(Gaussian Error Linear Units)[5] [5] Hendrycks, Dan, and Kevin Gimpel. "Gaussian error linear units (gelus)." arXiv preprint arXiv:1606.08415 (2016).
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Mixer Layer – channel mixing Token-mixing channel-mixing 𝑈∗,𝑖 = 𝑋∗,𝑖 + 𝑊2𝜎 𝑊1𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑋)∗,𝑖 , for 𝑖 = 1 … 𝐶 Token-mixingの式 𝑌 𝑗,∗ = 𝑈𝑗,∗ + 𝑊4𝜎 𝑊3𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑈)𝑗,∗ , for 𝑗 = 1 … 𝑆 channel-mixingの式
  • 18.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 クラス分類 • Global Average Pooling – 特徴マップの画素平均を求めて、特徴マップを集約
  • 19.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 全体のアーキテクチャ 入力画像
  • 20.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 実験設定 • Fine-tuningを行う – 事前学習 • JFT-300M (google のプライベートデータセット) • ImageNet-21k (オープンデータセット) • タスク – ILSVRC2012 “ImageNet” – “Avg. 5”: ImageNet, CIFAR-10, CIFAR-100, Pets, Flowers – “VTAB-1k”: Visual Task Adaptation Benchmark • 環境 – TPU-v3 モデルのパラメータ
  • 21.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 主要モデルとの比較 • SoTAのモデルに匹敵する精度 性能= 1秒1coreで何枚の 画像処理が可能か 計算量
  • 22.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 主要モデルとの比較 - 計算量と精度 • Mixerが従来の主要なアーキテクチャと競合 – Pareto frontier上に存在 =計算量 精度=
  • 23.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 主要モデルとの比較 – 学習データと精度 • 事前学習の学習データを増やすことで 他のモデルより精度向上 = 事前学習の学習データ 精度=
  • 24.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 まとめ • MLPのみのシンプルな画像分類モデル – 畳み込み、self-attentionを使わない • 計算コストを抑えつつ、SoTAに匹敵する精度 • 事前学習の学習データセットのサイズが大きいほど 顕著に精度向上
  • 25.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 最新の関連研究 • gMLP (Pay Attention to MLPs)[6] – Mlp mixer と Transformer (attention)を融合 [6] Liu, Hanxiao, et al. "Pay attention to mlps." Advances in Neural Information Processing Systems 34 (2021): 9204-9215.