Tensorflow KR PR-12 season4 slide
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results Reviewer: Sunghoon Joo (VUNO Inc.)
Paper link: https://arxiv.org/abs/2204.03475
YouTube link: https://youtu.be/WeYuLO1nTmE
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisHyeongmin Lee
드디어 PR12 Season 4가 시작되었습니다! 제가 이번 시즌에서 발표하게 된 첫 논문은 ""NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"라는 논문입니다. View Synthesis라는 Task는 몇 개의 시점에서 대상을 찍은 영상이 주어지면 주어지지 않은 위치와 방향에서 바라본 대상의 영상을 합성해내는 기술입니다. 이를 위해서 본 논문에서는 대상의 3D 정보를 통째로 Neural Network가 외우게 하는 방법을 선택했는데요, 이 방식은 Implicit Neural Representation이라는 이름으로 유명해지고 있는 추세고, 2D 이미지에 대해서도 적용하려는 접근들이 늘고 있습니다.
영상 링크: https://youtu.be/zkeh7Tt9tYQ
논문 링크: https://arxiv.org/abs/2003.08934
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable C...taeseon ryu
요즘 대형 비전 트랜스포머(ViT)의 발전에 비해, 합성곱 신경망(CNN)을 기반으로 한 대형 모델은 아직 초기 단계에 머물러 있습니다. 본 연구는 InternImage라는 새로운 대규모 CNN 기반 모델을 제안합니다. 이 모델은 ViT와 같이 매개변수와 학습 데이터를 늘리는 이점을 얻을 수 있습니다. 최근에는 대형 밀집 커널에 초점을 맞춘 CNN과는 달리, InternImage는 변형 가능한 컨볼루션을 핵심 연산자로 사용합니다. 이를 통해 모델은 감지 및 세분화와 같은 하향 작업에 필요한 큰 유효 수용영역을 갖게 되며, 입력 및 작업 정보에 의존하는 적응형 공간 집계도 가능합니다. 이로 인해, InternImage는 기존 CNN의 엄격한 귀납적 편향을 줄이고, ViT와 같은 대규모 매개변수와 대규모 데이터로 더 강력하고 견고한 패턴을 학습할 수 있게 됩니다. 논문에서 제시한 모델의 효과성은 ImageNet, COCO 및 ADE20K와 같은 어려운 벤치마크에서 입증되었습니다. InternImage-H는 COCO test-dev에서 65.4 mAP, ADE20K에서 62.9 mIoU를 달성하여 현재 최고의 CNN 및 ViT를 능가하는 새로운 기록을 세웠습니다
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisHyeongmin Lee
드디어 PR12 Season 4가 시작되었습니다! 제가 이번 시즌에서 발표하게 된 첫 논문은 ""NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"라는 논문입니다. View Synthesis라는 Task는 몇 개의 시점에서 대상을 찍은 영상이 주어지면 주어지지 않은 위치와 방향에서 바라본 대상의 영상을 합성해내는 기술입니다. 이를 위해서 본 논문에서는 대상의 3D 정보를 통째로 Neural Network가 외우게 하는 방법을 선택했는데요, 이 방식은 Implicit Neural Representation이라는 이름으로 유명해지고 있는 추세고, 2D 이미지에 대해서도 적용하려는 접근들이 늘고 있습니다.
영상 링크: https://youtu.be/zkeh7Tt9tYQ
논문 링크: https://arxiv.org/abs/2003.08934
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable C...taeseon ryu
요즘 대형 비전 트랜스포머(ViT)의 발전에 비해, 합성곱 신경망(CNN)을 기반으로 한 대형 모델은 아직 초기 단계에 머물러 있습니다. 본 연구는 InternImage라는 새로운 대규모 CNN 기반 모델을 제안합니다. 이 모델은 ViT와 같이 매개변수와 학습 데이터를 늘리는 이점을 얻을 수 있습니다. 최근에는 대형 밀집 커널에 초점을 맞춘 CNN과는 달리, InternImage는 변형 가능한 컨볼루션을 핵심 연산자로 사용합니다. 이를 통해 모델은 감지 및 세분화와 같은 하향 작업에 필요한 큰 유효 수용영역을 갖게 되며, 입력 및 작업 정보에 의존하는 적응형 공간 집계도 가능합니다. 이로 인해, InternImage는 기존 CNN의 엄격한 귀납적 편향을 줄이고, ViT와 같은 대규모 매개변수와 대규모 데이터로 더 강력하고 견고한 패턴을 학습할 수 있게 됩니다. 논문에서 제시한 모델의 효과성은 ImageNet, COCO 및 ADE20K와 같은 어려운 벤치마크에서 입증되었습니다. InternImage-H는 COCO test-dev에서 65.4 mAP, ADE20K에서 62.9 mIoU를 달성하여 현재 최고의 CNN 및 ViT를 능가하는 새로운 기록을 세웠습니다
[PR12] PR-050: Convolutional LSTM Network: A Machine Learning Approach for Pr...Taegyun Jeon
PR-050: Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
Original Slide from http://home.cse.ust.hk/~xshiab/data/valse-20160323.pptx
Youtube: https://youtu.be/3cFfCM4CXws
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
http://imatge-upc.github.io/telecombcn-2016-dlcv/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of big annotated data and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which had been addressed until now with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks and Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles and applications of deep learning to computer vision problems, such as image classification, object detection or text captioning.
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis taeseon ryu
해당 논문은 3D Aware 모델입니다 StyleGAN 같은 경우에는 어떤 하나의 피처에 대해서 Editing 하고 싶을 때 입력에 해당하는 레이턴트 백터를 찾아서 레이턴트 백터를 수정함으로써 입에 해당하는 피쳐를 바꿀 수 있었는데 이런 컨셉을 그대로 착안해서
GAN 스페이스 논문에서는 인풋이 들어왔을 때 어떤 공간적인 정보까지도 에디팅하려고 시도했습니다 결과를 봤을 때 로테이션 정보가 어느 정도 잘 학습된 것 같지만 같은 사람이 아닌 것 같이 인식되기도 합니다 이러한 문제를 이제 disentangle 되지 않았다라고 하는 게 원하는 피처만 변화시켜야 되는 것과 달리 다른 피처까지도 모두 학습 모두 변했다는 것인데 이를 좀 더 효율적으로 3D를 더 잘 이해시키기 위해서 탄생한 논문입니다.
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Variational Auto Encoder and the Math BehindVarun Reddy
The Math and internal workings of Variational Auto Encoders. It talks about Variational Inference and how VAEs take advantage of them to bypass having to calculate Marginal Probability distribution.
The size of deep learning models is getting bigger and bigger, and the model operating environment is limited by a narrow infrastructure.
What should be considered in order to make a deep learning model a service?
After the deep learning model is created, it is a presentation on what direction we should operate and maintain.
[PR12] PR-050: Convolutional LSTM Network: A Machine Learning Approach for Pr...Taegyun Jeon
PR-050: Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
Original Slide from http://home.cse.ust.hk/~xshiab/data/valse-20160323.pptx
Youtube: https://youtu.be/3cFfCM4CXws
NICE: Non-linear Independent Components Estimation Laurent Dinh, David Krueger, Yoshua Bengio. 2014.
Density estimation using Real NVP
Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio. 2017.
Glow: Generative Flow with Invertible 1x1 Convolutions
Diederik P. Kingma, Prafulla Dhariwal. 2018.
논문 리뷰 자료
http://imatge-upc.github.io/telecombcn-2016-dlcv/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of big annotated data and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which had been addressed until now with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks and Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles and applications of deep learning to computer vision problems, such as image classification, object detection or text captioning.
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis taeseon ryu
해당 논문은 3D Aware 모델입니다 StyleGAN 같은 경우에는 어떤 하나의 피처에 대해서 Editing 하고 싶을 때 입력에 해당하는 레이턴트 백터를 찾아서 레이턴트 백터를 수정함으로써 입에 해당하는 피쳐를 바꿀 수 있었는데 이런 컨셉을 그대로 착안해서
GAN 스페이스 논문에서는 인풋이 들어왔을 때 어떤 공간적인 정보까지도 에디팅하려고 시도했습니다 결과를 봤을 때 로테이션 정보가 어느 정도 잘 학습된 것 같지만 같은 사람이 아닌 것 같이 인식되기도 합니다 이러한 문제를 이제 disentangle 되지 않았다라고 하는 게 원하는 피처만 변화시켜야 되는 것과 달리 다른 피처까지도 모두 학습 모두 변했다는 것인데 이를 좀 더 효율적으로 3D를 더 잘 이해시키기 위해서 탄생한 논문입니다.
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
Variational Auto Encoder and the Math BehindVarun Reddy
The Math and internal workings of Variational Auto Encoders. It talks about Variational Inference and how VAEs take advantage of them to bypass having to calculate Marginal Probability distribution.
The size of deep learning models is getting bigger and bigger, and the model operating environment is limited by a narrow infrastructure.
What should be considered in order to make a deep learning model a service?
After the deep learning model is created, it is a presentation on what direction we should operate and maintain.
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs
Jonathan Frankle, David J. Schwab, Ari S. Morcos
ICLR 2021
Paper link: https://arxiv.org/abs/2008.09093
Video presentation link: https://youtu.be/bI8ceHOoYxk
reviewed by Sunghoon Joo (주성훈)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
PR-445: Token Merging: Your ViT But FasterSunghoon Joo
#PR12 season 5 [PR-455] Token Merging: Your ViT But Faster
This slide is a review of the paper "Token Merging: Your ViT But Faster"
Reviewed by Sunghoon Joo
Paper link: https://arxiv.org/abs/2210.09461
Youtube link: https://youtu.be/6nBYpM_ch0s
PR-433: Test-time Training with Masked AutoencodersSunghoon Joo
#PR12 season 5 [PR-433] Test-time training with masked autoencoders
This slide is a review of the paper "Test-time training with masked autoencoders."
Reviewed by Sunghoon Joo
Paper link: https://arxiv.org/abs/2209.07522
Youtube link: https://youtu.be/zOJ68s0F6JY
PR-339: Maintaining discrimination and fairness in class incremental learningSunghoon Joo
PR-339: Maintaining discrimination and fairness in class incremental learning
Paper link: http://arxiv.org/abs/1911.07053
Video presentation link: https://youtu.be/hptinxZIXT4
#class imbalance, #knowledge distillation, # class incremental learning
[PR-325] Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Tran...Sunghoon Joo
PR-325: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
paper link: https://arxiv.org/abs/2004.00849
youtube link: https://youtu.be/Kgh88DLHHTo
PR-285 Leveraging Semantic and Lexical Matching to Improve the Recall of Docu...Sunghoon Joo
PR-285: Leveraging Semantic and Lexical Matching to Improve the Recall of Document Retrieval Systems: A Hybrid Approach
[Saar Kuzi et al., 2020]
Paper link: https://arxiv.org/pdf/2010.01195.pdf
Video presentation link: https://youtu.be/QfkcN4SZ1Po
reviewed by Sunghoon Joo (주성훈)
PR-272: Accelerating Large-Scale Inference with Anisotropic Vector QuantizationSunghoon Joo
PR-272: Accelerating Large-Scale Inference with Anisotropic Vector Quantization
[Guo et al., ICML 2020]
Paper link: https://arxiv.org/abs/1908.10396
Video presentation link: https://youtu.be/cU46yR-A0cs
reviewed by Sunghoon Joo
PR-246: A deep learning system for differential diagnosis of skin diseasesSunghoon Joo
PR-246: A deep learning system for differential diagnosis of skin diseases
Paper link: https://arxiv.org/pdf/1909.05382.pdf
Video presentation link: https://youtu.be/8ZAtvPKqXeA
reviewed by Sunghoon Joo
PR-232: AutoML-Zero:Evolving Machine Learning Algorithms From ScratchSunghoon Joo
PR-232: AutoML-Zero:Evolving Machine Learning Algorithms From Scratch
Paper link: https://arxiv.org/abs/2003.03384
Video presentation link: https://youtu.be/J__uJ79m01Q
PR173 : Automatic Chemical Design Using a Data-Driven Continuous Representati...Sunghoon Joo
Paper review slide.
Title : Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules
Paper url : https://pubs.acs.org/doi/full/10.1021/acscentsci.7b00572
video url : https://youtu.be/hk4e8ZCkNWg
PR-159 : Synergistic Image and Feature Adaptation: Towards Cross-Modality Dom...Sunghoon Joo
Paper review slide.
Title : Synergistic Image and Feature Adaptation: Towards Cross-Modality Domain Adaptation for Medical Image Segmentation
Paper url : https://arxiv.org/pdf/1901.08211
video url : https://youtu.be/sR7hBJGpwQo
3. 2. Methods
1. Research Background 3
The performance of a vision model
•여전히 ImageNet에 대한 딥러닝의 높은 분류 성능을 위한 training 연구는 현재진행형임
/ 30
4. 2. Methods
1. Research Background 4
Previous works
•Regularizations
•Stronger augmentations: AutoAugment, RandAugment
•Image-based regularizations Cutout, Cutmix and Mixup
•Architecture regularizations like drop-path, drop-block
•Label-smoothing
•Progressive image resizing during training
•Different train-test resolutions
•Training configuration
•More training epochs
•Dedicated optimizer for large batch size(LAMB Optimizer), Scaling learning rate with batch size
•Exponential-moving average (EMA) of model weights
•Improved weights initializations
•Decoupled weight decay (AdamW)
Yun, S. et al., CutMix: Regularization strategy to train strong
classifiers with localizable features. ICCV 2019
Fixing the train-test resolution discrepancy. NeurIPS 2019
/ 30
5. 2. Methods
1. Research Background 5
ResNeXt
Automated architecture search를 활용한 구조
[67 (NASNET), 41 (AmoebaNet: 83.9), 55 (EfficientNet-B7, 84.4%, 2019)].
Adapting self-attention to the visual domain
AA-ResNet-152, 79.1%, 2019
ViT-L/16 87.76±0.03%, 2020
LambdaResNet200 84.3%, 2021
Previous works
•Architecture
VGG
ResNet
Inception
ViT-L/16 87.76±0.03%, 2020
/ 30
6. 2. Methods
1. Research Background 6
Motivation - Architecture와 관계없이 잘 작동하는 training scheme 제안 필요
•Architecture마다 맞춤형 training scheme이 적용됨
•ResNet 계열 (TResNet, SEResNet, ResNet-D …)
•일반적으로 다양한 training scheme에 잘 작동함.
•(Ross Wightman et al., 2021) 에서 제안한 방법이 ResNet 계열을 학습시키는데 standard가 됐다고 함.
•Mobile-oriented models
•Depth-wise convolutions에 많이 의존
•Their dedicated training schemes usually consist of RMSProp optimizer, waterfall learning rate scheduling
and EMA.
•Transformer-based, MLP-only models
•Inductive bias가 없어 훈련하기 어려움 -> longer training (1000 epochs), strong cutmix-mixup and drop-
path regularizations, large weight-decay and repeated augmentations
•어떤 한 모델에 대한 맞춤형 training scheme은 다른 모델에 적용하면 성능이 낮아짐
•ResNet50을 위한 training scheme을 EfficieneNetV2 model에 적용했을 때 맞춤형 training scheme을 적용할 떄 보다
3.3%의 성능 하락을 보임 (Mingxing Tan et al., PMLR, 2021)
/ 30
7. 2. Methods
1. Research Background 7
Objective:
we introduce a unified training scheme for ImageNet without any hyper-parameter
tuning or tailor-made tricks per model.
/ 30
9. 2. Methods
2. Methods 9
knowledge distillation (KD) for classification
Image from: https://intellabs.github.io/distiller/knowledge_distillation.html
Hinton et al., (2015). Distilling the Knowledge in a Neural Network
/ 30
10. 2. Methods
2. Methods 10
knowledge distillation (KD) for classification
•KD의 적용 - Previous work
•Compounding the Performance Improvements of Assembled Techniques in a Convolutional Neural Network, 2021
•ResNet50의 image classification 성능 향상에 KD가 중요한 역할을 함을 보임
•DeIT (PR-297):
•ViT와 같은 구조를 사용하면서 Training 방법 개선과 distillation token을 사용하는 KD를 적용해 ImageNet data 만으로
EfficientNet보다 뛰어난 성능을 보여줌
•Once-for-All: Train One Network and Specialize it for Efficient Deployment, ICLR 2020
•Neural architecture search에 KD를 적용해 cost-effective한 sub-networks 훈련법 제안
•Circumventing outliers of autoaugment with knowledge distillation, ECCV 2020
•KD가 data augmentation에서 발생하는 noise를 줄여줌에 따라 더 강한 augmentation 적용이 가능함을 보임
•However, KD is not a common practice for ImageNet training.
/ 30
11. 2. Methods
2. Methods 11
insight and motivation into the impact of KD
•Wing, warplane : Teacher network은 image가 완전히 mutually-exclusive하지 않은 case를 보완한다
•(c) hen 55.5% 사람이 봐도 애매한데 그 애매함을 teacher의 classification 결과가 반영한다.
•(d) Task로 보면 틀린 답안이지만 English setter가 이미지에서 main object라고 볼 수 있음
ImageNet ground-truth label Hen: 암탉, cock: 수탉, forklift: 지게차
English setter, Gordon setter: 개의 품종
Ice lolly : 아이스크림
/ 30
12. 2. Methods
2. Methods 12
insight and motivation into the impact of KD
•Teacher label에 ground truth label보다 더 많은 정보가 포함되어 있음 (class간의 유사성과 상관관계)
•Label error를 보정할 수 있음, Label smoothing을 따로 할 필요가 없음
•Lead to a more effective and robust optimization process, compared to training with hard-labels only.
ImageNet ground-truth label Hen: 암탉, cock: 수탉, forklift: 지게차
English setter, Gordon setter: 개의 품종
Ice lolly : 아이스크림
/ 30
13. 2. Methods
2. Methods 13
The Proposed Training Scheme
•KD를 활용해 architecture가 달라도 같은 training configuration을 적용할 수 있도록 제안.
/ 30
15. 2. Methods
3. Experimental Results 15
•USI의 robustness 검증
•제안한 training scheme (KD), loss function이 잘 작동함을 확인
•추가로 성능 향상할 수 있는 방법 제안
•Application: Speed-Accuracy comparison
/ 30
16. 2. Methods
3. Experimental Results 16
Comparison to Previous Schemes
•위의 model들에 똑같이 USI를 적용했을 때, tailor-made schemes을 적용한 각 논문의 Top1 accuracy보
다 좋은 성능을 보임
/ 30
17. 2. Methods
3. Experimental Results 17
Comparison to Previous Schemes
•위의 model들에 똑같이 USI를 적용했을 때, tailor-made schemes을 적용한 각 논문의 Top1 accuracy보
다 좋은 성능을 보임
/ 30
18. 2. Methods
3. Experimental Results 18
Robustness to Batch-size
•이전 연구 (Yang You et al., 2017) 에서는 더 큰 batch size를 위해 더 큰 learning rate나 dedicated optimizer가 필
요하다고 제안
•USI를 적용했을 때, Batch size를 어떻게 결정하는지에 따라 성능의 큰 차이가 없음.
•Batch size가 클수록 training speed가 오름
• GPU: V100 8장
• TResNet-L teacher, TResNet-M student
• TResNet-M 은 inplace-activated batchnorm을
사용하기 때문에 batch size를 많이 키울 수 있음
/ 30
19. 2. Methods
3. Experimental Results 19
Robustness to Teacher Type
•USI를 적용했을 때, teacher network 선택의 폭이 다양함
• Volo-d1 과 TResNet-L은 비슷한 top-1 accuracy 를 보임
(83.9% for TResNet-L, 84.1% for Volo-d1).
/ 30
20. 2. Methods
3. Experimental Results 20
Robustness to architecture-based regularization
•Architecture-based regularization은 model architecture에 따라 적용이 가능한 경우도 있고 아닌 경우
도 있음.
•USI에 추가로 drop-path 적용 유무가 성능에 영향을 미치지 않는다는 것을 보여 USI의 architecture
robustness를 강조하려 한 것 같음
Huang, G. et al., (2016). Deep networks with stochastic depth.
/ 30
21. 2. Methods
3. Experimental Results 21
•USI의 robustness 검증
•제안한 training scheme (KD), loss function이 잘 작동함을 확인
•추가로 성능 향상할 수 있는 방법 제안
•Application: Speed-Accuracy comparison
/ 30
22. 2. Methods
3. Experimental Results 22
Ablations about loss function
•ImageNet training에서 KD가 효과적임을 입증
6.5% less than accuracy with the default
(Default)
•Relative weight αkd
/ 30
23. 2. Methods
3. Experimental Results 23
Ablations about loss function
•Vanilla softmax probabilities를 사용하는 것이 좋음
τ < 1 (sharpening the teacher predictions)
•KD Temperature (τ)
τ > 1 (softening the teacher predictions)
Class마다의 softmax output의 차이가 줄어듦
/ 30
24. 2. Methods
3. Experimental Results 24
•USI의 robustness 검증
•제안한 training scheme (KD), loss function이 잘 작동함을 확인
•추가로 성능 향상할 수 있는 방법 제안
•Application: Speed-Accuracy comparison
/ 30
25. 2. Methods
3. Experimental Results 25
성능을 더 높일 수 있는 방법들에 대한 검증
•Epoch에 관한 USI의 default configuration은 300이지만, 더 긴 training epoch으로 성능을 향상 시킬 수
있음 (Patient teacher)
•Training Epochs
•Mixup-Cutmix vs. Cutout augmentation
Yun, S. et al., CutMix: Regularization strategy to train strong
classifiers with localizable features. ICCV 2019
• Cutout: CNNs, Mobile-oriented model 학습에 주로 쓰임
• Mixup-Cutmix: transformer 기반 모델 학습에 주로 쓰임
•Augmentation은 적용하는 것이 좋음
/ 30
26. 2. Methods
3. Experimental Results 26
•USI의 robustness 검증
•제안한 training scheme (KD), loss function이 잘 작동함을 확인
•추가로 성능 향상할 수 있는 방법 제안
•Application: Speed-Accuracy comparison
/ 30
27. 2. Methods
3. Experimental Results 27
Speed-Accuracy comparison
•USI를 활용해 모든 backbone에 대해 동일한 hyperparameter를 적용했고, 이에 따라 재현성과 신뢰도가
높은 speed-accuracy trade-off 비교가 가능했다.
GPU inference
/ 30
28. 2. Methods
3. Experimental Results 28
Speed-Accuracy comparison
•USI를 활용해 모든 backbone에 대해 동일한 hyperparameter를 적용했고, 이에 따라 재현성과 신뢰도가
높은 speed-accuracy trade-off 비교가 가능했다.
CPU inference
/ 30
30. 2. Methods
4. Conclusions 30
• Main contribution
• (1) We introduce a unified, efficient training scheme for ImageNet dataset, USI, that
does not require hyperparameter tuning.
• (2) We show it consistently and reliably achieves state-of-the-art results, compared
to tailor-made schemes per model (ResNet-like, Mobile-oriented, Transformer-
based and MLP-only models).
• (3) We use USI to perform a methodological speed-accuracy comparison of modern
deep learning models, and identify efficient backbones along the Pareto curve.
• 다른 classification dataset로의 확장성에 대한 논의: 이 논문의 parameter (high learning rate,
training epoch, strong augmentation)를 바로 활용하기는 어렵겠지만, KD의 적용 자체는 이점이
있을 것으로 예상
/ 30
Thank you.