SlideShare a Scribd company logo
1 of 20
Download to read offline
2021년 1월 31일
딥러닝 논문읽기 모임
이미지 처리팀 : 김병현 박동훈 안종식 홍은기 허다운
Training data-Efficient Image transformer &
Distillation through Attention(DeiT)
Contents
Summary 01
03
02
04
05
Experience
Prerequisites
Method
Discussion
Summary
01
Summary of DeiT
01. Summary
1. 2020년 12월 발표, Facebook AI
2. ViT를 일부 발전시키고 Distillation 개념 도입
3. Contribution
- CNN을 사용하지 않은 Image Classification
- ImageNet만으로 학습
- Single 8-GPU Node로 2~3일정도만 학습
- SOTA CNN기반 Model과 비슷한 성능 확인
- Distillation 개념 도입
4. Conclusion
- CNN 기반 Architecture들은 다년간 연구가 진행되어 성능 향상
- Image Context Task에서 Transformer는 이제 막 연구되기 시작함
> 비슷한 성능을 보여준다는 점에서 Transformer의 가능성을 보여줌
Prerequisites
02
Vision Transformer & Knowledge Distillation
02. Prerequisites
1. Vision Transformer
- An Image is Worth 16x16 words : Transformers for Image Recognition at Scale, Google
> 참조 : Deformable DETR: Deformable Transformers for End to End Object Detection paper review - 홍은기
02. Prerequisites
1. Vision Transformer
- Training Dataset : JFT-300M
- Pre-train : Low Resolution, Fine-tunning : High Resolution
> Position Embedding : Bicubic Interpolation
02. Prerequisites
2. Knowledge Distillation
- 미리 잘 학습된 Teacher Model을 작은 Student Model에 지식을 전달한다는 개념
> 참조 : Explaining knowledge distillation by quantifying the knowledge - 김동희
Q & A
Architecture
03
Implement of DeiT
03. Architecture
1. Knowledge Distillation
- Class Token과 같은 구조의 Distillation Token 추가
- Soft Distillation
- Hard Distillation
- Random Crop으로 인한 잘못된 학습 방지 가능
GT : Cat / Prediction : Cat
GT : Cat / Prediction : ???
03. Architecture
2. Bag of Tricks
- 기본적으로, ViT 구조를 그대로 사용 (ViT-B = DeiT-B)
> 기본적인 학습 방법 동일
> Hyper parameter Tunning으로 성능 향상
Q & A
EXPERIMENTS
04
Experiment Result of DeiT
04. Experiments
1. Distillation
- Teacher Model : RegNetY-16GF
> ConvNet is Better than Transformer Model
“Probably” Inductive Bias !
- Distillation Comparison : Hard is Better
* Inductive Bias
- Distillation Method가 Convnet의 Inductive Bias를 더 잘 학습한다
04. Experiments
2. Efficiency vs Accuracy
- Parameter의 개수, 처리속도, Accuracy를 비교
> Throughput과 Accuracy로 비교하면, Convnet와 유사한 성능을 보인다
- Base Model : DeiT-B (= ViT-B)
3. Transfer Learning
- ImageNet으로 학습한 Pre-Train Model을 다른 데이터 Set으로 Test
Discussion
05
Conclusion & Discussing
05. Discussion
1. Contribution
1) Transformer 기반의 ViT Model의 성능 향상 (Convnet X)
2) ViT보다 더 적은 Dataset으로 학습 및 학습속도 향상
3) SOTA Convnet과 유사한 성능 확인
4) 간편한 Knowledge Distillation 방법 제안
2. Opinion
1) 여전히 많은 Epoch 필요 (300~500Epoch)
2) Transformer의 단점이 드러남
> Hyper Parameter에 민감
> Convnet대비 많은 Dataset과 Training 시간이 필요
> 연구단계에서는 많은 연구 가능, 현업에 적용하기에는 어려움
3) Deep Learning 개발 초기단계의 연구 방식
> Quantitative Research (Experiment  Theory)
> Experiment의 결과를 충분히 해석하지 못함
3. Conclusion
1) 아직 연구가 많이 필요한 분야
2) 연구 초기단계임에도 불구하고 CNN과 유사한 성능을 나타낸다는 것은
NLP에서의 변화처럼, CNN을 대체할 수 있을 가능성을 확인할 수 있음
Q & A
THANK YOU
for Watching

More Related Content

Similar to 20210131deit-210204074124.pdf

생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작DACON AI 데이콘
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝NAVER Engineering
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pubJaewook. Kang
 
ICIP 2018 REVIEW
ICIP 2018 REVIEWICIP 2018 REVIEW
ICIP 2018 REVIEWSungMan Cho
 
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdfeastarJeong2
 
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다HYEONGNAM LEE
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
작고 빠른 딥러닝 그리고 Edge computing
작고 빠른 딥러닝 그리고 Edge computing작고 빠른 딥러닝 그리고 Edge computing
작고 빠른 딥러닝 그리고 Edge computingStellaSeoYeonYang
 
Tiny ml study 20201031
Tiny ml study 20201031Tiny ml study 20201031
Tiny ml study 20201031ByoungHern Kim
 
오픈소스 소프트웨어 성능 최적화 보고서 6장
오픈소스 소프트웨어 성능 최적화 보고서 6장오픈소스 소프트웨어 성능 최적화 보고서 6장
오픈소스 소프트웨어 성능 최적화 보고서 6장JamGun
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural networkNAVER Engineering
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural networkDongyi Kim
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
산학 제출 PPT
산학 제출 PPT산학 제출 PPT
산학 제출 PPT21HG020
 
[Paper Review] Image captioning with semantic attention
[Paper Review] Image captioning with semantic attention[Paper Review] Image captioning with semantic attention
[Paper Review] Image captioning with semantic attentionHyeongmin Lee
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 

Similar to 20210131deit-210204074124.pdf (20)

Automl
AutomlAutoml
Automl
 
LeNet & GoogLeNet
LeNet & GoogLeNetLeNet & GoogLeNet
LeNet & GoogLeNet
 
생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작생체 광학 데이터 분석 AI 경진대회 3위 수상작
생체 광학 데이터 분석 AI 경진대회 3위 수상작
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub
 
ICIP 2018 REVIEW
ICIP 2018 REVIEWICIP 2018 REVIEW
ICIP 2018 REVIEW
 
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf
20년된 Naver Cafe 서비스가 Modularization으로 진화 하기_정동진.pdf
 
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
작고 빠른 딥러닝 그리고 Edge computing
작고 빠른 딥러닝 그리고 Edge computing작고 빠른 딥러닝 그리고 Edge computing
작고 빠른 딥러닝 그리고 Edge computing
 
Tiny ml study 20201031
Tiny ml study 20201031Tiny ml study 20201031
Tiny ml study 20201031
 
오픈소스 소프트웨어 성능 최적화 보고서 6장
오픈소스 소프트웨어 성능 최적화 보고서 6장오픈소스 소프트웨어 성능 최적화 보고서 6장
오픈소스 소프트웨어 성능 최적화 보고서 6장
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural network
 
Designing more efficient convolution neural network
Designing more efficient convolution neural networkDesigning more efficient convolution neural network
Designing more efficient convolution neural network
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
산학 제출 PPT
산학 제출 PPT산학 제출 PPT
산학 제출 PPT
 
[Paper Review] Image captioning with semantic attention
[Paper Review] Image captioning with semantic attention[Paper Review] Image captioning with semantic attention
[Paper Review] Image captioning with semantic attention
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 

20210131deit-210204074124.pdf

  • 1. 2021년 1월 31일 딥러닝 논문읽기 모임 이미지 처리팀 : 김병현 박동훈 안종식 홍은기 허다운 Training data-Efficient Image transformer & Distillation through Attention(DeiT)
  • 4. 01. Summary 1. 2020년 12월 발표, Facebook AI 2. ViT를 일부 발전시키고 Distillation 개념 도입 3. Contribution - CNN을 사용하지 않은 Image Classification - ImageNet만으로 학습 - Single 8-GPU Node로 2~3일정도만 학습 - SOTA CNN기반 Model과 비슷한 성능 확인 - Distillation 개념 도입 4. Conclusion - CNN 기반 Architecture들은 다년간 연구가 진행되어 성능 향상 - Image Context Task에서 Transformer는 이제 막 연구되기 시작함 > 비슷한 성능을 보여준다는 점에서 Transformer의 가능성을 보여줌
  • 5. Prerequisites 02 Vision Transformer & Knowledge Distillation
  • 6. 02. Prerequisites 1. Vision Transformer - An Image is Worth 16x16 words : Transformers for Image Recognition at Scale, Google > 참조 : Deformable DETR: Deformable Transformers for End to End Object Detection paper review - 홍은기
  • 7. 02. Prerequisites 1. Vision Transformer - Training Dataset : JFT-300M - Pre-train : Low Resolution, Fine-tunning : High Resolution > Position Embedding : Bicubic Interpolation
  • 8. 02. Prerequisites 2. Knowledge Distillation - 미리 잘 학습된 Teacher Model을 작은 Student Model에 지식을 전달한다는 개념 > 참조 : Explaining knowledge distillation by quantifying the knowledge - 김동희
  • 11. 03. Architecture 1. Knowledge Distillation - Class Token과 같은 구조의 Distillation Token 추가 - Soft Distillation - Hard Distillation - Random Crop으로 인한 잘못된 학습 방지 가능 GT : Cat / Prediction : Cat GT : Cat / Prediction : ???
  • 12. 03. Architecture 2. Bag of Tricks - 기본적으로, ViT 구조를 그대로 사용 (ViT-B = DeiT-B) > 기본적인 학습 방법 동일 > Hyper parameter Tunning으로 성능 향상
  • 13. Q & A
  • 15. 04. Experiments 1. Distillation - Teacher Model : RegNetY-16GF > ConvNet is Better than Transformer Model “Probably” Inductive Bias ! - Distillation Comparison : Hard is Better * Inductive Bias - Distillation Method가 Convnet의 Inductive Bias를 더 잘 학습한다
  • 16. 04. Experiments 2. Efficiency vs Accuracy - Parameter의 개수, 처리속도, Accuracy를 비교 > Throughput과 Accuracy로 비교하면, Convnet와 유사한 성능을 보인다 - Base Model : DeiT-B (= ViT-B) 3. Transfer Learning - ImageNet으로 학습한 Pre-Train Model을 다른 데이터 Set으로 Test
  • 18. 05. Discussion 1. Contribution 1) Transformer 기반의 ViT Model의 성능 향상 (Convnet X) 2) ViT보다 더 적은 Dataset으로 학습 및 학습속도 향상 3) SOTA Convnet과 유사한 성능 확인 4) 간편한 Knowledge Distillation 방법 제안 2. Opinion 1) 여전히 많은 Epoch 필요 (300~500Epoch) 2) Transformer의 단점이 드러남 > Hyper Parameter에 민감 > Convnet대비 많은 Dataset과 Training 시간이 필요 > 연구단계에서는 많은 연구 가능, 현업에 적용하기에는 어려움 3) Deep Learning 개발 초기단계의 연구 방식 > Quantitative Research (Experiment  Theory) > Experiment의 결과를 충분히 해석하지 못함 3. Conclusion 1) 아직 연구가 많이 필요한 분야 2) 연구 초기단계임에도 불구하고 CNN과 유사한 성능을 나타낸다는 것은 NLP에서의 변화처럼, CNN을 대체할 수 있을 가능성을 확인할 수 있음
  • 19. Q & A