Successfully reported this slideshow.
Your SlideShare is downloading. ×

MLP-Mixer: An all-MLP Architecture for Vision

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 26 Ad

More Related Content

Slideshows for you (20)

Similar to MLP-Mixer: An all-MLP Architecture for Vision (20)

Advertisement

More from Kazuyuki Miyazawa (9)

Recently uploaded (20)

Advertisement

MLP-Mixer: An all-MLP Architecture for Vision

  1. 1. Mobility Technologies Co., Ltd. MLP-Mixer: An all-MLP Architecture for Vision 2021/05/14 宮澤 一之
  2. 2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  3. 3. Mobility Technologies Co., Ltd. 論文情報 3 arXiv: https://arxiv.org/abs/2105.01601 ■ Google Research ■ 2021年5月4日arXiv投稿 ■ 著者の多くがViT論文と重複(赤下線)
  4. 4. Mobility Technologies Co., Ltd. 概要 4 convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成 https://youtu.be/7K4Z8RqjWIk
  5. 5. Mobility Technologies Co., Ltd. アーキテクチャ 5
  6. 6. Mobility Technologies Co., Ltd. アーキテクチャ 6 ViTと同様に画像をパッチ (e.g. 16x16)に分割
  7. 7. Mobility Technologies Co., Ltd. アーキテクチャ 7 パッチごとのlinear embeddings(token)
  8. 8. Mobility Technologies Co., Ltd. アーキテクチャ 8 Mixer Layer(後述)の 繰り返し
  9. 9. Mobility Technologies Co., Ltd. アーキテクチャ 9 クラス分類
  10. 10. Mobility Technologies Co., Ltd. Mixer Layer 10 各パッチのembeddingを縦方向に並べたテーブル
  11. 11. Mobility Technologies Co., Ltd. Mixer Layer 11 token-mixing MLP block ■ 入力テーブルの各列(チャネル)に独立にMLPを適用 ■ 全てのチャネルに対してMLPの重みは共通 ■ 異なる空間位置の間で特徴量を混合する役目 ■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition embeddingsがなくても位置情報を学習できる
  12. 12. Mobility Technologies Co., Ltd. Mixer Layer 12 channel-mixing MLP block ■ 入力テーブルの各行(パッチ)に独立にMLPを適用 ■ 全てのパッチに対してMLPの重みは共通 ■ 異なるチャネルの間で特徴量を混合する役目
  13. 13. Mobility Technologies Co., Ltd. convolutionとの関係 13 1 x 1 convolutionと同等 single-channel depth-wise convolutionと同等 ■ MixerはCNNの特殊ケースとみなすことができる ■ channel-mixing MLPでのweight sharingにより位置不変性を獲得 ■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮 * separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる token-mixing MLP block channel-mixing MLP block
  14. 14. Mobility Technologies Co., Ltd. ■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに finetuningして画像分類の性能を評価 ■ 性能評価尺度 ■ 画像分類の精度 ■ pre-trainingに要する時間 ■ 推論のスループット ■ 実装スペック 実験 14 参考:ViTのスペック
  15. 15. Mobility Technologies Co., Ltd. 実験結果 15 MLP-Mixer convolution-based models attention-based models SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している
  16. 16. Mobility Technologies Co., Ltd. pre-trainingに要する時間 vs 精度 16 他のSoTAモデルと並び、Mixerは Pareto frontier上にある
  17. 17. Mobility Technologies Co., Ltd. pre-trainingのデータセットサイズ vs 精度 17 ■ ResNetやViTと比較してMixerはデータセッ トサイズを大きくすることによる精度向上 が顕著 ■ データセットサイズを大きくすることでViT との性能差も小さくなっていく ■ MixerはViTよりもpre-trainingのデータセッ トサイズの恩恵を受けやすい ■ inductive biaseの違い?(ViTの self-attentionで獲得される特性の方 が真の分布に対するcompatibilityが 低い)
  18. 18. Mobility Technologies Co., Ltd. モデルサイズ vs 精度/スループット 18 モデルサイズを大きくすればMixer はPareto frontierに乗る
  19. 19. Mobility Technologies Co., Ltd. token-mixing MLPのweightの可視化 19 1st layer 2nd layer 3rd layer
  20. 20. Mobility Technologies Co., Ltd. ■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで SoTAに匹敵する画像分類性能を達成 ■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に ある ■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形 に抑えられる ■ pre-trainingのデータセットサイズに対するスケーラビリティが高い まとめ 20
  21. 21. Mobility Technologies Co., Ltd. ■ 公式 https://github.com/google-research/vision_transformer ■ timm https://github.com/rwightman/pytorch-image-models 実装 21
  22. 22. Mobility Technologies Co., Ltd. なぜか同時多発的に類似論文がarXivに登場 ■ 5/4 MLP-Mixer: An all-MLP Architecture for Vision ■ 5/6 Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet ■ 5/7 ResMLP: Feedforward networks for image classification with data-efficient training おまけ 22
  23. 23. Mobility Technologies Co., Ltd. 23
  24. 24. Mobility Technologies Co., Ltd. 24
  25. 25. Mobility Technologies Co., Ltd. We're Hiring! 25 https://hrmos.co/pages/mo-t/jobs
  26. 26. 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Mobility Technologies Co., Ltd. 26

×