Pay Attention to MLPs (gMLP)
小林 範久 Present Square Co.,Ltd.
DEEPLEARNING JP
[DL Papers]
http://deeplearning.jp/
1
書誌情報
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
タイトル: Pay Attention to MLPs (gMLP)
(https://arxiv.org/abs/2105.08050)
著者: Hanxiao Liu, Zihang Dai, David R. So, Quoc V
. Le
(Google Research, Brain Team)
Transformer型アーキテクチャが実際はどの程度不可欠なものかをMLP型アーキテクチャと比較して
確認した研究論文。
• Attention機構はCV(画像処理)ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク
以外では必要性が低いことが確認された。
• NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み
合わせたaMLPでBERTを超える精度を記録することが出来た。
概要: •
選定理由: • MLPモデルが再評価されている傾向があり、「結局どういう機構が良いモデルに必要なのか?」を理解
したいと思ったから。
アジェンダ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
1. 導入
背景
• Transformerは革新的なモデルでNLPのデファクトスタンダートになった。
• 現在ではViT(Vision Transformer)の発表などでCVでもデファクトスタンダートになりつつある。
Q.実際にTransformer、特にAttention機構は本当に必要不可欠なものなのか?
Attention機構が実現しているものの中で特に重要なコンセプトである。
①再帰型ではない(=並列処理できる)。
②トークン間の空間情報を取得する。
ということをほかのアーキテクチャでも表現可能であった場合、
Attention機構を用いる必要性はどこまで存在するのか?
Attention機構が可能にしているコンセプトを表現できるゲート付きMLP(gMLP)と
Transformer型モデルの精度を比較し、MLPの有用性を確認していく。
4
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 先行研究
Language Modeling with Gated Convolutional Networks
(Dauphin et al. 2016)
• 自然言語処理の分野ではRNNが一般的だが、LSTMのようなゲート機構付きの
CNNを提案。
• RNNに比べわずかに精度は劣るが、並列化できるため大幅な高速化を達成。
• ゲート機構の付いた活性化関数(Gated Linear Unit, GLU)が収束に必
要なエポック数の削減に貢献していることを確認。
5
出典:https://arxiv.org/pdf/1612.08083.pdf
Gated Linear Unit (GLU)
• 1 ブロック内では、入力 を2つに分岐 (コピー) し、それぞれ畳み込み層
𝐴 = 𝐸 ∗ 𝑊 + 𝑏 と 𝐵 = 𝐸 ∗ 𝑉 + 𝑐 で長期依存を捉える。
• GLU 層 𝐻 = 𝐴 ⊙ 𝜎 ( 𝐵 ) でゲーティング (上層へ送る情報を制御)
する。 また、ブロックの入力から出力を残差接続する。
Vision Transformer(ViT, Dosovitskiy et al. 2020)
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にT
ransformerを適用することに
成功。
• T
ransformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは
同程度)を出したうえで、学習に必要な計算コストを
大幅に減少。
画像パッチ(9つのパッチ)として入力
2. 先行研究
出典:https://arxiv.org/pdf/2105.01601.pdf 6
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
MLP-Mixer: An all-MLP Architecture for Vision ( Tolstikhin et al. 2021)
• 畳み込み層やTransformerのような
Attention機構を使わず、MLPだけで高精
度の画像分類を実現。
• 入力画像を画像パッチに分割し、それらの
パッチを、チャンネル方向及び空間方向に関
してMLPで変換する。
• 従来のCNNは、 (1)特定の空間位置での
特徴、(2)異なる空間位置間での特徴、ある
いはその両方を一度に混合する層で構成さ
れている。
• MLP-Mixerの背景にある考え方は、特定の
位置ごとの操作(channel-mixing)と、ロ
ケーションをまたいだ操作(token-
mixing)を明確に分けることにある。
2. 先行研究
出典:https://arxiv.org/pdf/2105.01601.pdf 7
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Attention機構とMLP
Attention機構のメリット
• 入力データの表現に基づいた動的なパラメータの決定によって、より有効な帰納バイアスを導入できる。
※帰納バイアス:学習データに現れないデータを予測するために必要となる制約。
MLPのメリット
• 静的なパラメータの決定により任意の関数を表現できる。
2. 先行研究
8
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
gMLPのモデル概要
• Spatial Gating Unit(SGU)を搭載したgMLPアーキテクチャ。
• Attention機構が実現しているコンセプトのうち、特に“トークン間の空間情報を取得する”を獲得するために、
様々な工夫が行われている。
• gGLP-blockをL層積み重ねることで適切な特徴量を獲得している。
Spatial Gating Unit
(SGU)
9
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
gMLPのモデル詳細
• gMLP-blockは、(1) 線形射影と活性化関数を組み合わせて出力した値 に対して、
(2) Spatial Gating Unit(SGU)を用いることで、トークン間の空間情報を取得している。
その後、再び(3) 線形射影 を行うことで必要な特徴量を獲得している。
• Transformerのようにポジションエンベディング層を利用していない点がポイント。Transformerではポジションエン
ベディング層を利用することで、画像や文章のトークンがそれらのどこからきたのかを把握していたが、gMLPではSGU
がそのような情報を取得してくれる。
1
2
3
𝑍 = 𝜎 𝑋𝑈
𝑍
෨= 𝑠 𝑍
𝑌 = 𝑍
෨
𝑉
𝑋 ∈ 𝑅𝑛×𝑑
𝑛:データの長さ
𝑑:データの次元 σ:
GeLU(活性化関数)
U・𝑉:チャネル方向に沿った線形射影
(Transformer のFFNs部分と同じ)
10
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Spatial Gating Unit
データ長の行列を持つWを用いて線形射影。
𝑠 𝑍 = 𝑍1 ⊙ 𝑓𝑤,𝑏
𝑋 ∈ 𝑅𝑛×𝑑
𝑊 ∈ 𝑅𝑛×𝑛
𝑛:データの長さ
𝑏:バイアス項
⊙ :要素ごとの積(アダマール積)
𝑧1、𝑧2:𝑧をチャネル方向に
沿うように2つにしたもの
𝑓𝑤,𝑏 𝑍 = 𝑊𝑍 + 𝑏 4
上記に、もとの入力(Z)と空間的に転移された入力
(fw,b(Z))同士の要素積を取ることで、より適切な
空間情報を獲得。
𝑠 𝑍 = 𝑍 ⊙ 𝑓𝑤,𝑏 𝑍 5
𝑍2 6
上記にGLUsなどで使われている技法として入力値を
分割して利用する手法を組み込む。
11
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
画像分類
• 「gMLP-Ti」、「gMLP-S」、「gMLP-B」の3つのモデルを用意。
• ImageNetを利用した画像分類タスクの精度を、Vision Transformer(ViT)とDeiT、CNNモデルと比較。
• gMLPはDeiTなどと同様に強く過学習してしまう傾向が見られたため、DeiTと同様の手法を用いた正則化が行われ
ているが、基本的にそれ以外の精度を向上させるようなチューニングは避けている。
4. 実験
12
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
画像分類
• DeiTとあまり変わらない結果が得られた。また、
gMLPは直前に提出されたほかのMLP系の新
モデルよりもよい精度を出している。
• このことから、gMLPはTransformer同様の
データ効率性があると考えることができる。
• 既存のCNNモデルの方がよい精度を出してい
るということも注目に値する。
4. 実験
13
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
画像分類
• 下記の右図で示されているようにgMLPの空間射影行列を可視化したところ、CNNのような局所不変性と空間不変
性が確認された。すなわち、各空間射影行列では、データ駆動型の不規則な(非正方形な)カーネルを用いて畳
み込みを実行することを効果的に学習しているとも言える。
14
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
自然言語処理
Perplexity
• NLPの言語モデルの評価指標の一つであるPerplexity (単語の平均分岐数:低いほうが良い)で比較。
• 両者の最高のモデル同士では性能にほぼ差がない結果となる。
4. 実験
15
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
自然言語処理
スケーラビリティ
• TransfomerとgMLPのモデルサイズを大きくしたときの性能の変化を確認。
• Perplexityに関しては両者はほぼ同じような精度を出していると言える。それだけでなく、あるモデル容量からgMLP
の方が良くなっているとも言える。
• ただし、SST-2ではgMLPの方が精度が良いのにもかかわらず、MNLI-mではTransformerの方がよい結果を出
している。このことから、Attention機構を用いることでNLPの一部のタスクでは有効に働くことが考えられる。
16
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
17
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
【補足】SST-2とMNLI-mについて
SST(Stanford Sentiment Treebank):
感情分析(Sentiment Analysis(SA))タスク
• 文章がどの感情を示しているものかを分類するタスク。
• SSTはRotten Tomatoes の映画レビューから構成した構文解析木のことで、 ツリーの各ノードに
negative(1) 〜 positive(25) までの25段階評価が振られている。なお、SST-2はそれをNegativeと
Positiveの2段階に単純化したもの。
MNLI(Multi-Genre Natural Language Inference):
自然言語理解 (General Language Understanding Evaluation(GLUE))タスク
• 前提文Tが仮説文Hを含意するか否かを判定するタスク。
• MNLIはテキスト含意情報で注釈が付けられた433kの文のペアを含むコーパスのことで、話し言葉や書き言葉
など様々なジャンルをカバーし、SNLIより一般化評価が可能になっている。(MNLI-m はMultiNLI
Matched、 MNLI-mm はMultiNLI Mismatchedを意味している。)
4. 実験
自然言語処理
スケーラビリティ
• TransformerもgMLPも精度の違いはあるが、モデル容量を大きくすることで精度が向上傾向にあることがわかる。
これはTransformer系の強みともされていたスケーラビリティがgMLPにもある可能性があることを示している。
• gMLPの精度の問題もTransformerと同様にモデル容量を大きくすることで解決することが可能であると考えられる。
18
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
自然言語処理
Attention機構の有用性
• Attention機構は特定のタスク、今回であればMNLIなどには有効である可能性があり、それを確かめるため
に、gMLPにAttention機構を接続したモデルaMLPを用いて精度確認を実施。
• Self-Attention機構は、トークン間というよりも文レベル間の関係性を取るのに有用でないかと考えられる。
gMLPでもトークン間の空間情報を取ってくることはできていたと考えられるため、追加するAttention機構は
比較的小さい典型的なmulti-head attentionを接続。
19
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
自然言語処理
Attention機構の有用性
• aMLPはgMLPの欠点部分を克服し、MNLIでもよい精度を出すことが確認された。
20
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
自然言語処理
評価
• 英語のC4データセットを使い、すべてバッチサイズ256、最大長512、100万回のトレーニングステップという条件で
各モデルの精度を確認。
• より長い文章への対応力を測るために、 SQuAD(Stanford Question Answering Dataset)質問回答
タスクデータセットも新たに用いて評価。
21
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. 実験
自然言語処理
評価結果
• 論文に掲載されたもともとのBERTbaseよりもgMLPlargeの方がよい精度を出すことがSQuADv1.1で出来ている。
これはスケールを大きくすれば、gMLPのようなAttention機構を持たないモデルでもNLPの様々なタスクでも
Transformer系と互角に戦える可能性があることを示している。
• Attention機構を加えたaMLPはすべての指標でTransformer系を超えている。精度上の問題は、gMLPのスケー
ルを大きくすることで解決することができるが、実用上ではこの小さなAttention機構を加えるという作業は精度改善
を行える手法ということが言える。
All Rights Reserved. 22
Copyright (C) Present Square Co., Ltd.
5. まとめ
23
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
結論
• Google Brainから流行しているTransformer型アーキテクチャ(具体的にはAttention機構)が実際はどの程度
不可欠なものかをMLP型アーキテクチャと比較して確認した研究論文。
• Attention機構はCV(画像処理)ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク以外では必要
性が低いことが確認された。
• NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み合わせた
aMLPでBERTを超える精度を記録することが出来た。
• ゲート機構備えたMLP(gMLP)はTransformerと同様にスケーラビリティがあるため、精度上の問題はモデル容
量を大きくすることで解決できると考えられる。
• Transformerの研究だけでなく、MLPの研究を推進することを提言している。
所感
• Transformer型アーキテクチャが主流となると思われた中での、MLPの再脚光は興味深い。
• 一方、“スケーラビリティがあるから精度上の問題は解決できる”と言われても、まだAttention機構に頼ることになりそう。
Appendix
24
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
参考文献
• [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
• [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional
transformers for language understanding. In NAACL, 2018.
• [7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,Thomas Unterthiner,
Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al.An image is worth 16x16 words: Transformers
for image recognition at scale. In ICLR, 2021.
• [8] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training
data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020.
• [19] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung,
Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all-mlp architecture for vision.
arXiv preprint arXiv:2105.01601, 2021.
• [24] Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional
networks. In ICML, 2017.

[DL輪読会]Pay Attention to MLPs (gMLP)