SlideShare a Scribd company logo
1 of 17
논문 리뷰 :
MLP-Mixer: An all-MLP Architecture for Vision
저자 : Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai,
Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario
Lucic, Alexey Dosovitskiy
Google Research, Brain Team
발표자 : 정우진
SK C&C
1
Background. Inductive Bias
• Bias, Variance
• Error를 설명하기 위한 개념
• Bias : 편향, 실제와 예측의 차이
• Bias가 작을경우  예측성능 좋음
• Variance : 예측이 퍼진 정도
• Variance가 지나치게 작을경우  일반화 실패
(너무 좁은 부위에 오버피팅)
• Inductive Bias(귀납편향)
• 학습 시 만나보지 않았던 상황에 대해 정확한 예측을 위해 사용하는 추가적인 가정
• (라고 위키피디아에 적혀 있지만 딥러닝에서는 학습과정에서 습득된 편향이라는 의미로 사용됨)
• 우리는 이미 많이 사용하고 있음
• Inductive Bias의 예
• Nearest Neighbors: 특징 공간에 있는 작은 이웃의 경우 대부분이 동일한 클래스에 속한다고 가정합니다.
• Translation Invariance : 어떠한 사물이 들어 있는 이미지를 제공해줄 때 사물의 위치가 바뀌어도 해당 사물을 인식할 수 있습니다.
• Minimum cross-validation error : 가설 중에서 선택하려고 할 때 교차 검증 오차가 가장 낮은 가설을 선택합니다.
• Minimum features: 특정 피쳐가 유용하다는 근거가 없는 한 삭제해야 합니다.
• 관계를 강제하여 편향을 만들 수도 있음
• MLP(Multi-Layer Perceptron)  Convolution
 Recurrent 구조
• “Inductive Bias가 강할수록, Sample Efficiency가 좋아지긴 하나
그만큼 가정이 강하게 들어간 것임으로 좋게 볼 수만은 없습니다. “
• “많은 현대의 딥러닝 방법은 최소한의 선행 표현 및 계산 가정을 강조하는 "End-to-End" 설계 철학을 따르며, 이러한 트렌드가 왜 대부분의
딥러닝 기법들이 데이터 집약적(Data-Intensive)인지를 설명합니다.”
2
노란원 : 실제 데이터 분포
파랑X : 예측
https://velog.io/@euisuk-chung/Inductive-Bias%EB%9E%80
Background. Convolution, Perceptron, Attention
• Convolution과 Multi-Layer Perceptron(MLP)는 사실 동일한 연산
• MLP에서 몇몇 연결이 끊어짐  Convolution
• Convolution 의 커널 사이즈가 데이터 사이즈와 동일  MLP
• 영상에서 Conv. 가 효과적인 이유?
 Locally Connected Operation
 정보가 뭉쳐 있다는 편향을 강제함
• Transformer는 왜 잘되는가?
• Conv. 는 모든 위치에서 동일한 Weight
• Transformer는 Query, Key 에 따라서
바뀌는 Weight
 매 입력에 적응적
 편향이 적음
 모델의 표현 범위가 Conv. 대비 더 넓음
• MLP 는 Transformer보다 넓거나 최소 동등
3
http://dsba.korea.ac.kr/seminar/?mod=document&uid=1743
Background. 데이터량, 모델의 발전 방향
• Hand-Crafted Features
• MLP
• CNN
• Transformer
• 머신러닝 발전 방향
• 데이터의 양은 증가됨
• 모델의 표현력도 넓어짐
• 모델의 편향은 줄어듦
(사람의 개입이 줄어든다 볼 수도 있음)
• 앞으로 예상
• 더 많은 데이터를 대비
• 더 큰 모델을 준비
• 더 적은 편향
4
SIFT등의 Hand-Crafted Features 얕은 Neural Network
CNN, 깊은 네트워크 Transformer
논문 Introduction
• 최근 비전 연구의 흐름
• 사실상 표준 CNN -> Transformer 기반 ViT 가
가능성을 보여줌
• 이런 상황에서 저자는 MLP-Mixer 구조를 제안
• Convolution, Self-Attention을 사용하지 않음
• 모든 층이 MLP로 구현됨
• Spatial Location 내 연산과
Spatial Location 간 연산을 나눔
• MLP만 사용하였지만 CNN의 특별한 형태에 가까움
• 1×1 Convolution
• Depth-wise Convolution
• (먼저 리뷰한 사람들의 해석에 따르면)
• CNN보다 표현력이 좋은 ViT
• 단점 : ViT는 연산시간 많이 걸림
• ViT를 더 빠르게  CNN처럼 분할된 연산도입
• Large Conv.  3×3 Conv.  Separable Conv.
• (또한 ViT의 성공이 과연 Self-Att. 때문인지
확인 가능함)
5
모델 구조
• ViT와 동일한 구조
• Image  Patch  Token
 Network  Head
• 2방향의 MLP 반복
• Channel Mixing
• 패치 내 연산
• 1x1 Convolution 으로 해석 가능
• Token Mixing
• 패치 간 연산
• Depth-Wise Convolution 으로 해석 가능
• 한 Spatial Location 에서 연산과
Different Spatial Locations 간 연산을
분할하도록 구성
• MLP는 위치를 자체적으로 알기때문에
Position을 따로 알려주지 않음
• (결국 ViT와 큰틀에서 완전히 동일하되
연산을 모두 MLP로 바꿈)
• (ViT, CNN과 모두 유사성이 있으므로
비교하기 좋음)
6
ⓐ
ⓑ
ⓒ
ⓓ
ⓔ ⓖ
ⓕ
학습 상세
• 전형적인 Pre-Training  Fine-Tuning
• 데이터는 공개 2, 자체 1 사용
• ILSVRC2021, ImageNet 21K, JFT-300M
7
• Pre-Training
• Adam
• LR : Warmup + Linear Decay
• Batch Size : 4096
• 224 해상도
• Weight Decay 사용
• Gradient Clipping
• Fine-Tuning
• SGD
• LR : Warmup + Cosine Learning Rate
• Batch Size : 512
• Pre-Training보다 큰 해상도 (BiT 와 유사하게)
• Weight Decay 사용안함
• Gradient Clipping
• (대체로 BiT와 유사하게 학습시킨것 같음)
• (Pre-Training은 일반화 성능을 위주로 학습, Fine-Tuning은 Downstream Task에 Fit하게 학습시킨듯)
모델 상세
• S small, B base, L large, H huge
• 𝐷𝑐 Channel Mixing의 Hidden Width
• 𝐷𝑠 Token Mixing의 Hidden Width
8
실험 결과
• 파란색 : Transformer계열
• 노란색 : CNN계열
• 분홍색 : MLP-Mixer
• (구글에서 연구한 ViT, BiT, Mixer
위주로 보는것이 편리함)
• Avg 5 : 5개 벤치마크 평균
(ImageNet, CIFAR10/100, Pets,
Flowers)
• Pre-Training 따라서 성능 증가
• JFT-300M에서 CNN, Mixer역전됨
• Mixer의 Throughput은
대단히 좋음
• TPU 구조 때문일 수 도 있음
9
실험 결과
• 대체로 큰 모델일수록 데이터가 클수록
결과가 좋음
• 적은 데이터에는 작은 모델이 더 효과적
10
실험 결과
• 가로축
• Pre-Training단계에서 사용된 시간
(=모델 규모라고 생각해도 될듯)
• 세로축
• ImageNet Fine-Tuning 후 성능
• 점선
• 파레토 최적선
• 21k 혹은 JFT로 Pre-Training
• (이 그래프는 잘 해석이 안되네요)
• (믹서가 CNN, Transformer계열
과 비슷한 급이라는 점을 보여주고
싶었던것 같습니다)
11
실험 결과
• 가로축 :
• JFT-300M을 3%, 10%, 30%, 100% 만 가지고
Pre-Training
• 가능하면 동일한 학습량을 유지
• 233, 70,23, 7 에폭의 결과,
• 마지막은 JFT-3B 의 결과
• 데이터 양과 성능 비교
• Few-Shot Learning
• 적은 데이터에서는 CNN계열 우위
(오버피팅?)
• 데이터 양이 충분하면 Mixer, Transformer가
좋은 성능을 보이는 것을 확인
• JFT-3B에서는 MLP Mixer가 제일
좋은결과를 보임
• (최소 ViT와 동급의 표현력을
갖는다고 생각 가능)
12
실험 결과
• 모델 크기와 Throughput의 상관관계
• 왼쪽
• Pre-Training 시간 대비 Transfer후 Acc.
• (Pre-Training 시간이 많다 == 모델이 크다)
• 오른쪽
• Throughput 대비 Transfer 후 Acc.
• 비슷한 성능, 크기에서 MIxer가 Throughput이 좋다
13
실험 결과
• CNN구조와 Mixer의 차이를 확인하기 위한 실험
• 다음 방식으로 영상을 섞은 후 JFT-300M에서 Pre-Training
• Original : 원본
• Global Shuffling : 영상 내 모든 픽셀을 뒤섞음
• Patch + Pixel Shuffling : 패치를 뒤섞은 다음 패치내 픽셀도 뒤섞음
• 그래프
• ImageNet 에서 Fine-Tuning 시
학습그래프(Top 1 Acc.)
• Mixer가 더 빠르게 학습되어감
• Mixer는 픽셀 위치에 Invariance 를
갖음
• (영상이기 때문에 위치에 대한
Inductive Bias가 있는게 맞을 수 있음)
• (좋다 나쁘다가 아니라 이런 특성이
있음을 실험으로 보여준 것 같음)
14
실험 결과
• 1,2,3 번째 Token-Mixing의 Hidden Weights를 시각화
• 가버필터와 비슷한 형상
• CNN과 유사한 결과
• (데이터를 통해 Convolution
커널과 비슷하게 Inductive
Bias를 학습했다고 유추가능)
15
결론 & 같이 논의하고 싶은 것들
• 결론
• MLP-Mixer를 통해 모델 크기와 데이터 량의 관계, Pre-Training에서 적합도 등을 확인함
• 최신 모델과 성능은 견줄만 하면서도 Throughput은 빠른 모델을 제시함
• CNN, Transformer와의 비교를 통해 모델에 대해 이해하는 연구였음
• Inductive Bias 대한 이해에 도움되길 바람
• 나아가 향후 다른 연구자들에게 긍정적인 영향을 끼치길 바람
• 생각해볼 것들
• 영상데이터에서 Locally 연산해야 한다는 Inductive Bias를 제거해야 하는가?
• Inductive Bias가 학습된 큰 모델을 Fine-Tuning vs. 우리 데이터 규모에 맞고 작고 Inductive Bias를 직접 주입한 모델
• ViT, Swin의 다음은 어떤 것이 나올 수 있나
• Swin-Mixer는 이미 있음
16
참고자료
• Inductive Bias https://velog.io/@euisuk-chung/Inductive-Bias%EB%9E%80
• 유튜브 이진원 https://www.youtube.com/watch?v=KQmZlxdnnuY
• MLP Mixer http://dsba.korea.ac.kr/seminar/?mod=document&uid=1743
• BiT 리뷰 https://kmhana.tistory.com/7
• BiT 리뷰 https://blog.lunit.io/2019/05/28/weight-standardization/
17

More Related Content

What's hot

Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN)Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN)Muhammad Haroon
 
인공신경망
인공신경망인공신경망
인공신경망종열 현
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요Byoung-Hee Kim
 
PR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic ModelsPR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic ModelsHyeongmin Lee
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalideMorpho, Inc.
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM健程 杨
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
Video Transformers.pptx
Video Transformers.pptxVideo Transformers.pptx
Video Transformers.pptxSangmin Woo
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
Solving Poisson Equation using Conjugate Gradient Method and its implementation
Solving Poisson Equation using Conjugate Gradient Methodand its implementationSolving Poisson Equation using Conjugate Gradient Methodand its implementation
Solving Poisson Equation using Conjugate Gradient Method and its implementationJongsu "Liam" Kim
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video UnderstandingToru Tamaki
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningNAVER Engineering
 
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...Mohammed Bennamoun
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해Hee Won Park
 
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...changedaeoh
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 
Convolutional neural network from VGG to DenseNet
Convolutional neural network from VGG to DenseNetConvolutional neural network from VGG to DenseNet
Convolutional neural network from VGG to DenseNetSungminYou
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
 

What's hot (20)

Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN)Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN)
 
인공신경망
인공신경망인공신경망
인공신경망
 
순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요순환신경망(Recurrent neural networks) 개요
순환신경망(Recurrent neural networks) 개요
 
PR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic ModelsPR-409: Denoising Diffusion Probabilistic Models
PR-409: Denoising Diffusion Probabilistic Models
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide
 
Understanding RNN and LSTM
Understanding RNN and LSTMUnderstanding RNN and LSTM
Understanding RNN and LSTM
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
Video Transformers.pptx
Video Transformers.pptxVideo Transformers.pptx
Video Transformers.pptx
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
Solving Poisson Equation using Conjugate Gradient Method and its implementation
Solving Poisson Equation using Conjugate Gradient Methodand its implementationSolving Poisson Equation using Conjugate Gradient Methodand its implementation
Solving Poisson Equation using Conjugate Gradient Method and its implementation
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...
Artificial Neural Network Lecture 6- Associative Memories & Discrete Hopfield...
 
딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해딥러닝 기본 원리의 이해
딥러닝 기본 원리의 이해
 
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
Vision Transformer(ViT) / An Image is Worth 16*16 Words: Transformers for Ima...
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 
Convolutional neural network from VGG to DenseNet
Convolutional neural network from VGG to DenseNetConvolutional neural network from VGG to DenseNet
Convolutional neural network from VGG to DenseNet
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
 

Similar to Review MLP Mixer

"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pubJaewook. Kang
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
 
History of Vision AI
History of Vision AIHistory of Vision AI
History of Vision AITae Young Lee
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiionSubin An
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networksKorea, Sejong University.
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기Jangwon Park
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰taeseon ryu
 
Supervised Constrastive Learning
Supervised Constrastive LearningSupervised Constrastive Learning
Supervised Constrastive LearningSungchul Kim
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative modelstrutive07
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝NAVER Engineering
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Networkagdatalab
 
"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper ReviewLEE HOSEONG
 
SAGAN_2024seminar announce_seoultech.pptx
SAGAN_2024seminar announce_seoultech.pptxSAGAN_2024seminar announce_seoultech.pptx
SAGAN_2024seminar announce_seoultech.pptxssuser4b2fe7
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? Hangil Kim
 
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdf
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdfWHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdf
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdftaeseon ryu
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioninghkh
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsseungwoo kim
 

Similar to Review MLP Mixer (20)

"From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
 
History of Vision AI
History of Vision AIHistory of Vision AI
History of Vision AI
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
 
[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
 
Supervised Constrastive Learning
Supervised Constrastive LearningSupervised Constrastive Learning
Supervised Constrastive Learning
 
2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model2019 5-5-week-i-learned-generative model
2019 5-5-week-i-learned-generative model
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
Deep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural NetworkDeep Learning & Convolutional Neural Network
Deep Learning & Convolutional Neural Network
 
"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review
 
SAGAN_2024seminar announce_seoultech.pptx
SAGAN_2024seminar announce_seoultech.pptxSAGAN_2024seminar announce_seoultech.pptx
SAGAN_2024seminar announce_seoultech.pptx
 
[Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization? [Paper Review] What have we achieved on text summarization?
[Paper Review] What have we achieved on text summarization?
 
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdf
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdfWHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdf
WHAT DO VISION TRANSFORMERS LEARN A VISUAL EXPLORATION.pdf
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 
Albert
AlbertAlbert
Albert
 

More from Woojin Jeong

Super resolution-review
Super resolution-reviewSuper resolution-review
Super resolution-reviewWoojin Jeong
 
2017 on calibration of modern neural networks
2017  on calibration of modern neural networks2017  on calibration of modern neural networks
2017 on calibration of modern neural networksWoojin Jeong
 
Review Wide Resnet
Review Wide ResnetReview Wide Resnet
Review Wide ResnetWoojin Jeong
 

More from Woojin Jeong (7)

Super resolution-review
Super resolution-reviewSuper resolution-review
Super resolution-review
 
2017 on calibration of modern neural networks
2017  on calibration of modern neural networks2017  on calibration of modern neural networks
2017 on calibration of modern neural networks
 
Review Wide Resnet
Review Wide ResnetReview Wide Resnet
Review Wide Resnet
 
Review EDSR
Review EDSRReview EDSR
Review EDSR
 
Review Dense net
Review Dense netReview Dense net
Review Dense net
 
Review DRCN
Review DRCNReview DRCN
Review DRCN
 
Review SRGAN
Review SRGANReview SRGAN
Review SRGAN
 

Review MLP Mixer

  • 1. 논문 리뷰 : MLP-Mixer: An all-MLP Architecture for Vision 저자 : Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy Google Research, Brain Team 발표자 : 정우진 SK C&C 1
  • 2. Background. Inductive Bias • Bias, Variance • Error를 설명하기 위한 개념 • Bias : 편향, 실제와 예측의 차이 • Bias가 작을경우  예측성능 좋음 • Variance : 예측이 퍼진 정도 • Variance가 지나치게 작을경우  일반화 실패 (너무 좁은 부위에 오버피팅) • Inductive Bias(귀납편향) • 학습 시 만나보지 않았던 상황에 대해 정확한 예측을 위해 사용하는 추가적인 가정 • (라고 위키피디아에 적혀 있지만 딥러닝에서는 학습과정에서 습득된 편향이라는 의미로 사용됨) • 우리는 이미 많이 사용하고 있음 • Inductive Bias의 예 • Nearest Neighbors: 특징 공간에 있는 작은 이웃의 경우 대부분이 동일한 클래스에 속한다고 가정합니다. • Translation Invariance : 어떠한 사물이 들어 있는 이미지를 제공해줄 때 사물의 위치가 바뀌어도 해당 사물을 인식할 수 있습니다. • Minimum cross-validation error : 가설 중에서 선택하려고 할 때 교차 검증 오차가 가장 낮은 가설을 선택합니다. • Minimum features: 특정 피쳐가 유용하다는 근거가 없는 한 삭제해야 합니다. • 관계를 강제하여 편향을 만들 수도 있음 • MLP(Multi-Layer Perceptron)  Convolution  Recurrent 구조 • “Inductive Bias가 강할수록, Sample Efficiency가 좋아지긴 하나 그만큼 가정이 강하게 들어간 것임으로 좋게 볼 수만은 없습니다. “ • “많은 현대의 딥러닝 방법은 최소한의 선행 표현 및 계산 가정을 강조하는 "End-to-End" 설계 철학을 따르며, 이러한 트렌드가 왜 대부분의 딥러닝 기법들이 데이터 집약적(Data-Intensive)인지를 설명합니다.” 2 노란원 : 실제 데이터 분포 파랑X : 예측 https://velog.io/@euisuk-chung/Inductive-Bias%EB%9E%80
  • 3. Background. Convolution, Perceptron, Attention • Convolution과 Multi-Layer Perceptron(MLP)는 사실 동일한 연산 • MLP에서 몇몇 연결이 끊어짐  Convolution • Convolution 의 커널 사이즈가 데이터 사이즈와 동일  MLP • 영상에서 Conv. 가 효과적인 이유?  Locally Connected Operation  정보가 뭉쳐 있다는 편향을 강제함 • Transformer는 왜 잘되는가? • Conv. 는 모든 위치에서 동일한 Weight • Transformer는 Query, Key 에 따라서 바뀌는 Weight  매 입력에 적응적  편향이 적음  모델의 표현 범위가 Conv. 대비 더 넓음 • MLP 는 Transformer보다 넓거나 최소 동등 3 http://dsba.korea.ac.kr/seminar/?mod=document&uid=1743
  • 4. Background. 데이터량, 모델의 발전 방향 • Hand-Crafted Features • MLP • CNN • Transformer • 머신러닝 발전 방향 • 데이터의 양은 증가됨 • 모델의 표현력도 넓어짐 • 모델의 편향은 줄어듦 (사람의 개입이 줄어든다 볼 수도 있음) • 앞으로 예상 • 더 많은 데이터를 대비 • 더 큰 모델을 준비 • 더 적은 편향 4 SIFT등의 Hand-Crafted Features 얕은 Neural Network CNN, 깊은 네트워크 Transformer
  • 5. 논문 Introduction • 최근 비전 연구의 흐름 • 사실상 표준 CNN -> Transformer 기반 ViT 가 가능성을 보여줌 • 이런 상황에서 저자는 MLP-Mixer 구조를 제안 • Convolution, Self-Attention을 사용하지 않음 • 모든 층이 MLP로 구현됨 • Spatial Location 내 연산과 Spatial Location 간 연산을 나눔 • MLP만 사용하였지만 CNN의 특별한 형태에 가까움 • 1×1 Convolution • Depth-wise Convolution • (먼저 리뷰한 사람들의 해석에 따르면) • CNN보다 표현력이 좋은 ViT • 단점 : ViT는 연산시간 많이 걸림 • ViT를 더 빠르게  CNN처럼 분할된 연산도입 • Large Conv.  3×3 Conv.  Separable Conv. • (또한 ViT의 성공이 과연 Self-Att. 때문인지 확인 가능함) 5
  • 6. 모델 구조 • ViT와 동일한 구조 • Image  Patch  Token  Network  Head • 2방향의 MLP 반복 • Channel Mixing • 패치 내 연산 • 1x1 Convolution 으로 해석 가능 • Token Mixing • 패치 간 연산 • Depth-Wise Convolution 으로 해석 가능 • 한 Spatial Location 에서 연산과 Different Spatial Locations 간 연산을 분할하도록 구성 • MLP는 위치를 자체적으로 알기때문에 Position을 따로 알려주지 않음 • (결국 ViT와 큰틀에서 완전히 동일하되 연산을 모두 MLP로 바꿈) • (ViT, CNN과 모두 유사성이 있으므로 비교하기 좋음) 6 ⓐ ⓑ ⓒ ⓓ ⓔ ⓖ ⓕ
  • 7. 학습 상세 • 전형적인 Pre-Training  Fine-Tuning • 데이터는 공개 2, 자체 1 사용 • ILSVRC2021, ImageNet 21K, JFT-300M 7 • Pre-Training • Adam • LR : Warmup + Linear Decay • Batch Size : 4096 • 224 해상도 • Weight Decay 사용 • Gradient Clipping • Fine-Tuning • SGD • LR : Warmup + Cosine Learning Rate • Batch Size : 512 • Pre-Training보다 큰 해상도 (BiT 와 유사하게) • Weight Decay 사용안함 • Gradient Clipping • (대체로 BiT와 유사하게 학습시킨것 같음) • (Pre-Training은 일반화 성능을 위주로 학습, Fine-Tuning은 Downstream Task에 Fit하게 학습시킨듯)
  • 8. 모델 상세 • S small, B base, L large, H huge • 𝐷𝑐 Channel Mixing의 Hidden Width • 𝐷𝑠 Token Mixing의 Hidden Width 8
  • 9. 실험 결과 • 파란색 : Transformer계열 • 노란색 : CNN계열 • 분홍색 : MLP-Mixer • (구글에서 연구한 ViT, BiT, Mixer 위주로 보는것이 편리함) • Avg 5 : 5개 벤치마크 평균 (ImageNet, CIFAR10/100, Pets, Flowers) • Pre-Training 따라서 성능 증가 • JFT-300M에서 CNN, Mixer역전됨 • Mixer의 Throughput은 대단히 좋음 • TPU 구조 때문일 수 도 있음 9
  • 10. 실험 결과 • 대체로 큰 모델일수록 데이터가 클수록 결과가 좋음 • 적은 데이터에는 작은 모델이 더 효과적 10
  • 11. 실험 결과 • 가로축 • Pre-Training단계에서 사용된 시간 (=모델 규모라고 생각해도 될듯) • 세로축 • ImageNet Fine-Tuning 후 성능 • 점선 • 파레토 최적선 • 21k 혹은 JFT로 Pre-Training • (이 그래프는 잘 해석이 안되네요) • (믹서가 CNN, Transformer계열 과 비슷한 급이라는 점을 보여주고 싶었던것 같습니다) 11
  • 12. 실험 결과 • 가로축 : • JFT-300M을 3%, 10%, 30%, 100% 만 가지고 Pre-Training • 가능하면 동일한 학습량을 유지 • 233, 70,23, 7 에폭의 결과, • 마지막은 JFT-3B 의 결과 • 데이터 양과 성능 비교 • Few-Shot Learning • 적은 데이터에서는 CNN계열 우위 (오버피팅?) • 데이터 양이 충분하면 Mixer, Transformer가 좋은 성능을 보이는 것을 확인 • JFT-3B에서는 MLP Mixer가 제일 좋은결과를 보임 • (최소 ViT와 동급의 표현력을 갖는다고 생각 가능) 12
  • 13. 실험 결과 • 모델 크기와 Throughput의 상관관계 • 왼쪽 • Pre-Training 시간 대비 Transfer후 Acc. • (Pre-Training 시간이 많다 == 모델이 크다) • 오른쪽 • Throughput 대비 Transfer 후 Acc. • 비슷한 성능, 크기에서 MIxer가 Throughput이 좋다 13
  • 14. 실험 결과 • CNN구조와 Mixer의 차이를 확인하기 위한 실험 • 다음 방식으로 영상을 섞은 후 JFT-300M에서 Pre-Training • Original : 원본 • Global Shuffling : 영상 내 모든 픽셀을 뒤섞음 • Patch + Pixel Shuffling : 패치를 뒤섞은 다음 패치내 픽셀도 뒤섞음 • 그래프 • ImageNet 에서 Fine-Tuning 시 학습그래프(Top 1 Acc.) • Mixer가 더 빠르게 학습되어감 • Mixer는 픽셀 위치에 Invariance 를 갖음 • (영상이기 때문에 위치에 대한 Inductive Bias가 있는게 맞을 수 있음) • (좋다 나쁘다가 아니라 이런 특성이 있음을 실험으로 보여준 것 같음) 14
  • 15. 실험 결과 • 1,2,3 번째 Token-Mixing의 Hidden Weights를 시각화 • 가버필터와 비슷한 형상 • CNN과 유사한 결과 • (데이터를 통해 Convolution 커널과 비슷하게 Inductive Bias를 학습했다고 유추가능) 15
  • 16. 결론 & 같이 논의하고 싶은 것들 • 결론 • MLP-Mixer를 통해 모델 크기와 데이터 량의 관계, Pre-Training에서 적합도 등을 확인함 • 최신 모델과 성능은 견줄만 하면서도 Throughput은 빠른 모델을 제시함 • CNN, Transformer와의 비교를 통해 모델에 대해 이해하는 연구였음 • Inductive Bias 대한 이해에 도움되길 바람 • 나아가 향후 다른 연구자들에게 긍정적인 영향을 끼치길 바람 • 생각해볼 것들 • 영상데이터에서 Locally 연산해야 한다는 Inductive Bias를 제거해야 하는가? • Inductive Bias가 학습된 큰 모델을 Fine-Tuning vs. 우리 데이터 규모에 맞고 작고 Inductive Bias를 직접 주입한 모델 • ViT, Swin의 다음은 어떤 것이 나올 수 있나 • Swin-Mixer는 이미 있음 16
  • 17. 참고자료 • Inductive Bias https://velog.io/@euisuk-chung/Inductive-Bias%EB%9E%80 • 유튜브 이진원 https://www.youtube.com/watch?v=KQmZlxdnnuY • MLP Mixer http://dsba.korea.ac.kr/seminar/?mod=document&uid=1743 • BiT 리뷰 https://kmhana.tistory.com/7 • BiT 리뷰 https://blog.lunit.io/2019/05/28/weight-standardization/ 17

Editor's Notes

  1. 차근차근 설명해야됨…